音声の音程と強弱から、声の特徴をグラフにしています。
スマホを縦向きのままでも閲覧できますが、横向きに利用するとより見易くなります。以下の説明では、スマホを横向きにした表示で説明しています。

4種類のグラフ

グラフの効果

グラフは、ちょっと取っつき難いと感じられるかもしれません。が、あなたの声の特徴を目で確認できる得難い情報です。滑舌の良否や、イントネーションの弱点などの発見に、ぜひ利用してみてください。
このブログでは、グラフの大まかな特徴を説明しています。

音程から得られる特徴

音程は、音の高い・低いですが、これは周波数で計測できます。
強弱は、発音の音量ですが、こちらは音の波の高さです。

周波数と倍音

周波数の単位はHz(ヘルツ)で、その波が一秒間に観測される振動数です。
これを、ある時間幅で累積すると、幾つかのピークが現れます。最初の大きなピークが、その時間幅の代表的な周波数となります。
音声ドリル診断での一行目を例にしますと、「この料理は、~」では、「こ・の・りょ・-・り・は・~」の様に一拍づつ(約0.1秒の長さ)、その間の代表的な音の高さを計測しています。その結果、「こ」は3000Hz、「れ」は260Hzと判定することができます。

基本周波数

一方、時間幅を大きくしていくと、ある一定の周波数に落ち着きます。これは基本周波数と呼ばれていて、男性では85~180Hz、女性では165~255Hzの範囲とされています。一拍での値と大きく異なっています。が、いずれもその期間内の代表的な周波数です。それぞれ、以下の目的で利用しています。
  • 一拍の基本的な周波数で、各拍の音程を決定する
  • 30文字程度(5~6秒)の基本周波数で、声年齢の判定に利用する
他にも複数の周波数が同時に発生しています。周波数の種類が多いほど、豊かな声と言われていますが、特に基本的な周波数の整数倍の音を倍音と呼んで、声の明瞭度の尺度となっています。

基本周波数と倍音
基本周波数と倍音
図は、ドリル制作者の基本周波数を示したものです。複数のピークがあり、声の個性を作っています。

周波数の単位HzとMIDI

一拍程度で周波数を決定し、そのままグラフにすると、実はほとんどの発声がグラフの下側に張り付いてしまいます。滑舌グラフでは、下は100Hzから上は8,000Hzにまでの幅広い範囲に音が散っていますが、100Hz~800Hzに集中しているので、この幅を小さくする工夫が必要です。
このため、MIDIコードと呼ばれる単位を使用しています。楽器や音声をデジタルでやり取りする際の楽譜のようなものです。
音程の単位MIDIは、ピアノの鍵盤の半音に相当する音を番号で表現しています。高い音ほど比率が低く設定されていて、広い周波数が扱えます。例えば、30が42Hz、60が262Hz、120が、8,372Hzというように割り振られ、音の高さをグラフで観るのに便利です。 

倍音から得られる特徴

抑揚の観測では、高い周波数を除いて音程を観測します。が、これらの周波数には、その整数倍の倍音があります。明瞭度のグラフでは、その存在が間接的にわかる相対ピークという値を使用しています。その周波数がどれだけハッキリしているかの度合いといったら良いでしょうか。(詳しくは、基本周期と倍音の関係をご覧ください。)
倍音を多く含んだ周波数は、高いピーク値を持つ傾向があります。明瞭度のグラフでは、そのピーク値を利用しています。
滑舌では、サ行・タ行・カ行などが高く出ましたが、ここでは真逆にその他の発音が高く出るのが特徴です。

滑舌の観測

滑舌は、歯の擦れる音(歯擦音)のサ行や、破裂音のタ行・カ行等の発音不良が原因と言われています。これは高い周波数(1000Hz以上)の音の欠落です。通常の音程は、80~800Hzの範囲ですので、発音順に一拍づつグラフにすると、滑舌の様子がわかります。
グラフでは、サ行・タ行・カ行などの発音が高い周波数として飛び出しているのが良い滑舌です。聞き取りやすさの指標では、2000Hz(約95MIDI)以上必要だと言われています。

良い滑舌

良い滑舌

「きょ」「し」「さ」「ちょ」「か」など滑舌系の言葉が、ほぼ同じ高さ(95MIDI以上)で寄り添うように観測されていて、これらが正しく発音されているのがわかります。

残念な滑舌

残念な滑舌

あなたのグラフ(青色)は、滑舌系の言葉が低い位置にあり、残念ながらクリアーに聞こえない状態です。青色の発声では、95MIDI以上が「ちょ」だけで、他の滑舌系の発音は不十分ですね。

抑揚の観測

高い周波数を取り除いて、800Hz以下の周波数を追いかけると、抑揚(イントネーション+速さ+音の変化)がわかります。ドリル制作者(またはAI)とあなたの抑揚の様子を並列にグラフ表示し、両者の違う区間を緑色で示しています。
抑揚には通常アクセントが含まれますが、このグラフでは強弱が現れていません。強弱は、アクセスントのグラフを参照してください。

良い抑揚

良い抑揚
両者の違い(緑の領域)が、ほぼ同じ幅にあって揃っています。AIの抑揚とあなたの抑揚が類似していることがわかります。

残念な抑揚

残念な抑揚

両者の幅がまちまちです。あなたの発声には、抑揚がほとんど感じられないことがグラフから明らかです。 

ドリル制作者は女性の声、被験者が男性の声の場合、声の高さが違います。が、グラフのシンクロ機能では音の高さを調整して、抑揚の動きが観察できるように工夫しています。

明瞭度の観測

グーグルの生成AIモデルであるGemimi Deep Researchに「明瞭で若々しい声の特徴」を尋ねてみました。
回答からの抜粋:
明瞭な声は、規則的で明確な調波構造を持つことと関連しています。倍音が基本周波数の正確な整数倍である場合、声は明瞭で心地よく聞こえます。
ということで、声の明瞭と倍音には強い相関があるようです。
このグラフの縦軸に相関ピーク値0~1の範囲で、明瞭度の程度を示しています。1に近いほど、その発音が明瞭であるという意味です。0.95以上であれば、若々しく明瞭だと判断できます。

良い明瞭度

良い明瞭度

滑舌系の発音以外は、ほぼ高い位置に張り付いていて、非常に明瞭な発声ができていることがわかります。

残念な明瞭度

残念な明瞭度

青色の明瞭度は全体にバラついていて、0.95以上がほとんどありません。残念ながら不明瞭な発音が多いようです。

強弱から得られる特徴

音の強弱は、オーディオのスピーカーなどで良く耳にするデシベルという単位で計測しています。これはアクセントの大きさとも言えます。強調したい文言や感情表現には強く、控えめな表現や弱い感情には弱くなります。聞き手にとっては、抑揚と同様、言葉の意味を理解する上で重要です。

アクセントの観測

このグラフで、アクセントの推移を観測することができます。読み手の表現が感じられるでしょう。

良いアクセント

良いアクセント

AIのアクセントにあなたのアクセントが類似していることがわかります。

残念なアクセント

残念なアクセント
こちらは、かなり異なっていますね。

聞き分けてみましょう

グラフには、再生ボタンがついていて、ドリル制作者、AIおよびあなたの声を聴くことができます。
シンクロで聞くと、あなたの音声にドリルまたはAIが同期して左右のスピーカーから聞こえますので、両者の差がはっきりと聞き取れます。確認してみましょう。


シンクロで聞き分け