発声の5つ星判定と声年齢の推定
音声レーダー
声を5つの特徴でランキングし、それらから5つ星判定と声年齢の推定をしています。
3つのパートがあります。
- レーダーチャートによる5つの特徴ランキング
- 5つ星判定と声年齢
- 操作用のボタン
レーダーチャートによる5つの特徴ランキング
次の5つの声の特徴を5点満点でランキングしています。
1. 滑舌
滑舌は、次の二点からランクを決定します。
- 高周波数の発声
- 曖昧な発声による変換文字の誤り
高周波数の発声
サ行、タ行、カ行などの発音は、滑舌に直接影響すると言われています。
- 「歯擦音」ー 歯が擦る音であるサ行
- 「破裂音」ー 舌や歯茎などで破裂させるタ行、カ行
高い周波数で2000Hz~5000Hzで発音されてると、聞き取りやすく、良い滑舌です。
模範音声であるドリル制作者またはAIと、あなたの音声から計測した高周波を比較し、ランキングします。
変換文字の誤り
滑舌が悪い特徴に、子音の欠落や濁音への変化があります。
- 子音の欠落(ラ⇒ア、リ⇒イ等)
例)ありがとう⇒あいがとう - 濁音の変化(ラ⇒ダ、リ⇒ディ等)
例)ありがとう⇒あでぃがとう
模範音声の文字と、AIが認識した文字を比較し、ランキングします。
ランク値
滑舌の評価位置(丸印)をタッチすると、ランク値を確認できます。
5. 抑揚
抑揚は、次の二点からランクを決定します。
- イントネーションの豊かさ
- アクセントの適切さ
イントネーションの豊かさ
豊かなイントネーションの特徴は、何でしょう?
高い音から、低い音へのダイナミックな動き、その上下動の回数などから推定できるのではないか。という視点で、以下の計測からランキングしています。
- 音程の最大・最小の幅
- 音程の上下動の数
- 模範音声との音程マッチ度
アクセントの適切さ
適切なアクセントとは?
強い調子と弱い調子の適切な使い分け、その強弱の回数などから推定できるのではないか。という視点で、以下の計測からランキングしています。
音の強弱は、音圧で測ることができます。
- 音圧の最大・最小の幅
- 音圧の上下動の数
- 模範音声と音圧マッチ度
ランク値
抑揚の評価位置(丸印)をタッチすると、ランク値を確認できます。
ランク算定の詳細は、抑揚ランキングをご覧ください。
9. テンポ
テンポは、区切り位置と適切な速度でランキングしています。
- 区切り位置ー間をとって、文を分割している箇所で、ポーズとも呼ぶ
- 適切な速度ーNHK式7つのルールの第6ルールから得た標準速度
区切り位置
発声開始から終了までの間に確認した区切り(息継ぎや読点でのポーズなど)を、以下で判定します。
- 標準的な区切り回数との比較
- 模範音声の区切り位置の一致度
適切な速度
聞き取りやすい速度は?ということで、NHK式7つのルールから、その第6ルール「300文字/分」をベースに、標準速度を決めています。
句読点や、漢字かなの比率など考慮すると、一拍0.129秒になります。
「おつかれさまです」を、ほぼ1秒で言う速さが、標準速度です。
ランク値
テンポの評価位置(丸印)をタッチすると、ランク値を確認できます。
ランク算定の詳細は、テンポランキングをご覧ください。
13. 声の艶
声の艶は、倍音の多さに比例します。倍音を次の二点で観測しています。
- 倍音の比率(倍音数と非倍音数)
- 相関ピーク値が高い
倍音比率
各拍ごとに倍音、非倍音の数をカウントし、文全体で加算し求めます。
倍音比率= 倍音数÷(倍音数+非倍音数)
倍音が存在しても、非倍音の比率がたかければ、カスれや息もれなどの影響で、艶の良い声と言えません。文全体で倍音が優位であるかを判定しています。
相関ピーク中間値
相関ピーク値は、倍音の多さと比例しています。
各拍ごとに得た相関ピーク値を文全体で集め、その中間値を使います。
一拍の長さで求めたピーク値は、文全体で観察するとかなりバラツキがあり、また離れ点も少なからずあるので、評価対象には、その中間値を利用するのが妥当です。
相関中間値ピーク=各拍ごとの相関ピーク値を集合とした中間値
ランク値
声の艶の評価位置(丸印)をタッチすると、ランク値を確認できます。
ランク算定の詳細は、声の艶ランキングをご覧ください。
17. AI信頼度
AIは、被験者(あなた)の声を聴き、文字に変換する際、その変換の自信度をAI信頼度として報告しています。
曖昧だったり、滑舌・呂律が悪いと、AIが変換に自信を持てないようです。
ランク値
AI信頼度の評価位置(丸印)をタッチすると、ランク値を確認できます。
5つ星判定と声年齢
5つ星は、レーダーチャートの5つの特徴の平均値を☆マークで示します。
声年齢は、複数の特徴から年齢を推定し、表示しています。
5つ星
改善点に留意して、診断を繰り返すことで、数値は確実に上がります。試してみてください。
声年齢
声年齢は、5つのランクの平均値で求めています。
- SFFランク
- 滑舌ランク
- 抑揚ランク
- テンポランク
- 声の艶ランク
SFFランク
基本周波数の平均から、性別に年齢群を推定する知見があり、この研究レポートをベースに推定します。年齢が低ければ、ランクが上位になるようにランキングしています。
詳細は、ブログ「性別・声年齢の推定/声年齢の推定」をご覧ください。
声年齢の推定
SFFは、基本周波数f0のみで年齢を推定するものですが、特に男性に関する誤差が大きく、他の特徴から補強する必要があります。
音声レーダーの各ランクは、年齢が低いほど高い傾向を持つので、これらを利用しています。
声年齢ランク = (SFFランク+滑舌ランク+抑揚ランク+テンポランク+声の艶ランク)÷5
得られたランクから、20~75歳に比例配分し、声年齢を求めます。
操作用のボタン
音声ドリル診断、AIドリル診断それぞれの操作ボタンの役割は、以下でご覧ください。
コメント
0 件のコメント :
コメントを投稿