合成音声総称問題には決着がついている

言葉は正しく使いましょう

人間が直接発声するのではなく、あらかじめ収録してあるライブラリを用いてテキストデータから音声を合成するソフトウェアを音声合成ソフトと呼び、それによって合成された音声は合成音声と呼びます。

そして、音声合成ソフトには大きく分けて「歌」と「話し声」の2種類が存在します。
前者で有名なのは「VOCALOID」です。日本人なら誰でも初音ミクの名前を聞いたことはあるでしょう。
後者はいわゆる「ゆっくりボイス」が有名ですが、これは特定のソフトではなく「Aquestalk」というライブラリを用いたソフトで合成された音声を指します。よく「東方Project」のキャラクターに声としてあてる二次創作が作られていますね。

他にも歌には「VoiSona」や「SynthesizerV」、話し声には「VOICEROID」や「VOICEVOX」など様々なソフトが存在しています。
ただ、これらをまとめて「音声合成ソフト」と呼んでしまうと両者が混ざって紛らわしいです。
そこで歌は歌、話し声は話し声でソフトを呼び分ける場合にそれぞれどう総称すればいいのか、というのが合成音声総称問題です。

もうある

実はそれぞれの総称はもうあります。歌の方はボーカルシンセサイザーで、話し声の方はスピーチシンセサイザーです。
これは英語でそれぞれVocalSynthesizerとSpeechSynthesizerという呼び方があるためそれをそのまま輸入しようというものです。日本語に適当な言葉がない以上英語からの輸入が最も妥当でしょう。

前者には日本版Wikipediaの記事も2012年頃からありました。
https://ja.wikipedia.org/wiki/ボーカルシンセサイザー

後者についてはまだ存在していなかったので、先日記事を作らせていただきました。
https://ja.wikipedia.org/wiki/スピーチシンセサイザー
現状記述が不足している部分がありますので、Wikipediaの編集に慣れているかたにはぜひ加筆修正に協力していただきたいです。

さて、これで本来総称問題は解決しているわけですが、残念ながら別の問題が発生しています。

こんな令和に和製英語かよ

音声合成ソフトが最も活用されているのはニコニコ動画でしょう。VOCALOIDのオリジナル曲やゆっくりボイスによるゲーム実況など、幅広く利用されています。
ですがニコニコ大百科には現状「ボーカルシンセサイザー」も「スピーチシンセサイザー」も記事がありません。
代わりにあるのは「ソフトウェアシンガー」や「ソフトウェアトーク」なる記事です。
前者がボーカルシンセサイザーを、後者がスピーチシンセサイザーをおおよそ指すと見ていいのですが、これらの言葉は英語ではありません。SoftwareSingerやSoftwareTalkなどという言葉は存在せず、完全なる和製英語です。

これが漢字を使って適切に創出した語であれば、あるいは英語にも該当する語が存在しなければ、まだ造語をすることに理解はできます。しかし、正しい英語があるにも関わらず全く異なる横文字を造語してどうするのでしょうか。
私はこの記事でボクセルアートの呼称として「ダイス絵」という造語を提唱していますが、これは使いやすさと既に定着している「ドット絵」との整合性を考えてあくまで日本語として考案したものです。
しかし「ソフトウェアシンガー」や「ソフトウェアトーク」は長ったらしくて特に使いやすくないですし、あたかもそういう英語があるかのように錯覚させる中途半端さがあります。

言語的に正しくない、かといってそれを押しのけるほど便利でもない、そんな和製英語をわざわざ考え出して記事にまでしているというのは控えめに言って非常に頭が悪いです。

しかしこれらの語を広めようとする人間が一部におり、一定数の人はこれこそが正しいのだと信じて使ってしまっています。
現状の総称問題は「適当な総称が無いこと」ではなく「誤った総称が広まりつつあること」に変わっているのです。

「ソフトウェアトーク」の汚染度

幸いというか「ソフトウェアシンガー」の方はそもそも総称として「ボカロ」が便利使いされているためあまり使われていないのですが(「ボカロ」を総称に使うことにはそれはそれで問題がありますが)、逆に「ソフトウェアトーク」の方はだいぶ広まってしまっています。
経緯がちょっとめんどくさいのですが、もともと「ソフトウェアトーク」はゆっくりボイスを除外したキャラクター付きの喋るソフトに対する総称(正確には動画に付けるタグ)として考案されたもののひとつです。ゆっくりボイスを除外するというのは東方Projectの二次創作に多用されていたために住み分けをしたかったということのようです。
「VOICEROID・CeVIO・AITalk系動画タグ問題」という記事がニコニコ大百科に作られ、その掲示板で議論がされました。啓発動画も作られていましたが、結論は出ずいくつかの案から各自好きなものを使おうというところに落ち着きました。
本来なら「ソフトウェアシンガー」と同じく大して使われることなく、そのうち消えていくはずだったであろうものなのですが、とある有名動画投稿者が自身の動画にタグとして使用すると表明したことや、荒らし行為によって多数の動画にタグとして付けられたことで衆目に晒され、またニコニコ動画運営が企画の名称として軽率に採用してしまったためさも公式のものであるかのように誤解を受けて広まってしまいました。

この、誤解とともに広まっているのが厄介で、似非マナーのように本当は間違っているけどみんな使ってるから使っておこうという意識が働いて余計広めてしまうという悪循環に陥っています。
止めることが難しいというのも問題です。広まる分には人気のある投稿者の動画にちょいと付けられるだけでまたたく間に拡散してしまう、しかし反対意見はわざわざこうしてブログを書くなり動画を作るなりしないと「間違っている」と意識すらされないという非対称構造なのです。

音声合成ソフトも悪いんですよ

一番悪いのは誤った総称をそうと知らせずに広めている人間ですが、そもそもこうなった原因は音声合成ソフトの煩雑さにもあります。
ボーカルシンセサイザー、スピーチシンセサイザー双方に多数のソフトが存在するだけでなく、同じ声優の声をもとにした同じキャラクターが複数のソフトで発売されていたり、ボーカル・スピーチ両方が存在していたり、またユーザーの間ではスピーチシンセサイザーを使って歌わせたりボーカルシンセサイザーを使って喋らせたりといったこともされています。

そもそもソフト間の境界が曖昧であるために、定義も曖昧な造語が総称として収まる余地が生まれてしまったと考えられます。
開発・販売している企業等には無節操にソフトを乱発することは避けていただきたいところです。

正しい言葉のために

なぜわざわざこんな話を長々するのかといえば、もちろん正しい言葉を周知するためでもありますが、今後合成音声関連の記事を書くときに備えた前置きでもあります。
今後このブログでは一貫して「ボーカルシンセサイザー」と「スピーチシンセサイザー」およびそれらすべての総称として「音声合成ソフト」を使用します。

言葉は正しく使われなければなりません。みなさんも、機会があればどんどんこれらの正しい総称を広めてください。
完全に正すのは難しいことですが、一人ひとりの行動が正しい言葉を守るのです。

以上です
ここまでお読みいただきありがとうございました。
よろしければ購読をお願いします。

購読 Pixel&Voxel

最新の投稿を見逃さないように。サインアップするとメンバー限定記事へアクセスできます。
jamie@example.com
購読