音声レーダー

声を5つの特徴でランキングし、それらから5つ星判定と声年齢の推定をしています。
3つのパートがあります。
  1. レーダーチャートによる5つの特徴ランキング
  2. 5つ星判定と声年齢
  3. 操作用のボタン

レーダーチャートによる5つの特徴ランキング

次の5つの声の特徴を5点満点でランキングしています。
  1. 滑舌
  2. 抑揚
  3. テンポ
  4. 声の艶
  5. AI信頼度
音声レーダー

1. 滑舌

滑舌は、次の二点からランクを決定します。
  • 高周波数の発声
  • 曖昧な発声による変換文字の誤り

高周波数の発声

サ行、タ行、カ行などの発音は、滑舌に直接影響すると言われています。
  • 「歯擦音」ー 歯が擦る音であるサ行
  • 「破裂音」ー 舌や歯茎などで破裂させるタ行、カ行
高い周波数で2000Hz~5000Hzで発音されてると、聞き取りやすく、良い滑舌です。
模範音声であるドリル制作者またはAIと、あなたの音声から計測した高周波を比較し、ランキングします。

変換文字の誤り

滑舌が悪い特徴に、子音の欠落や濁音への変化があります。
  • 子音の欠落(ラ⇒ア、リ⇒イ等)
    例)ありがとう⇒あいがとう
  • 濁音の変化(ラ⇒ダ、リ⇒ディ等)
    例)ありがとう⇒あでぃがとう
あなたの音声をAIが認識し文字に変換する際、この誤りが発生します。AIが聞き違いをするのは、多くの場合、滑舌が原因です。
模範音声の文字と、AIが認識した文字を比較し、ランキングします。

ランク値

滑舌の評価位置(丸印)をタッチすると、ランク値を確認できます。

滑舌ランク値

ランク算定の詳細は、滑舌ランキングをご覧ください。

5. 抑揚

抑揚は、次の二点からランクを決定します。
  • イントネーションの豊かさ
  • アクセントの適切さ

イントネーションの豊かさ

豊かなイントネーションの特徴は、何でしょう?
高い音から、低い音へのダイナミックな動き、その上下動の回数などから推定できるのではないか。という視点で、以下の計測からランキングしています。
  1. 音程の最大・最小の幅
  2. 音程の上下動の数
  3. 模範音声との音程マッチ度
模範音声は、各文字の音程とそのタイミングが優れています。被験者からの計測値といかにマッチしているかが、豊かさの指標になるでしょう。

アクセントの適切さ

適切なアクセントとは?
強い調子と弱い調子の適切な使い分け、その強弱の回数などから推定できるのではないか。という視点で、以下の計測からランキングしています。
音の強弱は、音圧で測ることができます。
  1. 音圧の最大・最小の幅
  2. 音圧の上下動の数
  3. 模範音声と音圧マッチ度
模範音声は、各文字の強弱とそのタイミングが優れています。被験者からの計測値といかにマッチしているかが、適切さの指標となるでしょう。

ランク値

抑揚の評価位置(丸印)をタッチすると、ランク値を確認できます。
抑揚ランク値

ランク算定の詳細は、抑揚ランキングをご覧ください。

9. テンポ

テンポは、区切り位置と適切な速度でランキングしています。
  • 区切り位置ー間をとって、文を分割している箇所で、ポーズとも呼ぶ
  • 適切な速度ーNHK式7つのルールの第6ルールから得た標準速度

区切り位置

発声開始から終了までの間に確認した区切り(息継ぎや読点でのポーズなど)を、以下で判定します。
  1. 標準的な区切り回数との比較
  2. 模範音声の区切り位置の一致度
平均16拍に一回の頻度で区切りが現れるとされています。文を構成する拍から回数比較を行います。また、模範音声から得られた区切りの位置と、被験者の区切り位置を比較しています。

適切な速度

聞き取りやすい速度は?ということで、NHK式7つのルールから、その第6ルール「300文字/分」をベースに、標準速度を決めています。
句読点や、漢字かなの比率など考慮すると、一拍0.129秒になります。
「おつかれさまです」を、ほぼ1秒で言う速さが、標準速度です。

ランク値

テンポの評価位置(丸印)をタッチすると、ランク値を確認できます。
テンポランク値

ランク算定の詳細は、テンポランキングをご覧ください。

13. 声の艶

声の艶は、倍音の多さに比例します。倍音を次の二点で観測しています。
  • 倍音の比率(倍音数と非倍音数)
  • 相関ピーク値が高い

倍音比率

各拍ごとに倍音、非倍音の数をカウントし、文全体で加算し求めます。
倍音比率= 倍音数÷(倍音数+非倍音数)

 倍音が存在しても、非倍音の比率がたかければ、カスれや息もれなどの影響で、艶の良い声と言えません。文全体で倍音が優位であるかを判定しています。

相関ピーク中間値

相関ピーク値は、倍音の多さと比例しています。
各拍ごとに得た相関ピーク値を文全体で集め、その中間値を使います。
一拍の長さで求めたピーク値は、文全体で観察するとかなりバラツキがあり、また離れ点も少なからずあるので、評価対象には、その中間値を利用するのが妥当です。
相関中間値ピーク=各拍ごとの相関ピーク値を集合とした中間値

ランク値

声の艶の評価位置(丸印)をタッチすると、ランク値を確認できます。
声の艶ランク

ランク算定の詳細は、声の艶ランキングをご覧ください。

17. AI信頼度

AIは、被験者(あなた)の声を聴き、文字に変換する際、その変換の自信度をAI信頼度として報告しています。
曖昧だったり、滑舌・呂律が悪いと、AIが変換に自信を持てないようです。

ランク値

AI信頼度の評価位置(丸印)をタッチすると、ランク値を確認できます。

AI信頼度ランク

ランク算定の詳細は、AI信頼度ランキングをご覧ください。

5つ星判定と声年齢

5つ星は、レーダーチャートの5つの特徴の平均値を☆マークで示します
声年齢は、複数の特徴から年齢を推定し、表示しています。

5つ星

5つ星

「判定」の付近をタッチすると、平均値が表示されます。(例では、3.65)
改善点に留意して、診断を繰り返すことで、数値は確実に上がります。試してみてください。

声年齢

声年齢

声年齢は、5つのランクの平均値で求めています。
  1. SFFランク
  2. 滑舌ランク
  3. 抑揚ランク
  4. テンポランク
  5. 声の艶ランク
2~5は、音声レーダーの各ランクをそのまま利用しています。

SFFランク

基本周波数の平均から、性別に年齢群を推定する知見があり、この研究レポートをベースに推定します。年齢が低ければ、ランクが上位になるようにランキングしています。
詳細は、ブログ「性別・声年齢の推定/声年齢の推定」をご覧ください。
 

声年齢の推定

SFFは、基本周波数f0のみで年齢を推定するものですが、特に男性に関する誤差が大きく、他の特徴から補強する必要があります。
音声レーダーの各ランクは、年齢が低いほど高い傾向を持つので、これらを利用しています。
声年齢ランク = (SFFランク+滑舌ランク+抑揚ランク+テンポランク+声の艶ランク)÷5
得られたランクから、20~75歳に比例配分し、声年齢を求めます。

操作用のボタン

音声ドリル診断、AIドリル診断それぞれの操作ボタンの役割は、以下でご覧ください。