オーディオ基礎講座

オーディオ基礎講座にあたって

いままでは、自分で開発した、多自由度バスレフ型技術と関連する内容について、マイナーオーディオ講座として書いてきました。
しかし、オーディオの現状について、気になっていたことがだんだんと気になってきました。
自分がオーディオに興味を持ち始めた頃は、メーカーの技術に対して価値を認め、『買う＝その価値に対してお金を払う』という理解がありました。
お金を使うのだから、技術的にしっかりしたものがベストで、そのためには、カタログのスペックを調べ、そのスペックがどのような技術によって得られているのかを知ることが重要でした。
ですので、カタログスペックを評価するためには、ある程度の数学知識が必要でした。

しかし、最近は、商品ごとのカタログスペックに差がなくなってきています。
そして、多くのユーザーが、自分が決めた感覚だけで、価値を決めているようにみえます。
カタログスペックの内容は、いまも昔もその意味が変わっているわけではありません。
デジタル時代になってからは、回転ムラが、基準器の誤差範囲に収まるようになり、表示されなくなりましたが、それ以外は同じといっても良いと思います。
だからといって、技術的評価を無視して、芸術品と同じような扱いをして良いとは思いません。
また、残念なことに、某オーディオサイトを読むと考えこんでしまうことが平然と書かれています。
このため、マイナーオーディオ講座は、いったん休止して、オーディオを理解するための、基礎に焦点を当てることにしました。

ここに書く内容の対象は、高校生以下のこれから技術者になってゆく人たちです。
オーディオを理解するための知識は、学校で教わるものであることを、実感し、今後の進路に役立てて頂ければと思います。
多くの人にとっては、あたりまえの内容を書きます。
ですので、多くの人にとっては、一瞬のうちに読めるものでしょう。
あまり気合を入れずに、わかっていることは、無視してください。

今回は、番外編として、ブラインドテストの評価方法について書きます。詳細は、専門的ですが、基礎となる分布や、検定については高校3年生で教わる内容です。

ブラインドテスト

オーディオ製品の評価が簡単ではない最大の理由は、心因効果があるためです。
音そのものは、簡単な物理現象です。空気の振動が鼓膜に伝わるところまでは、比較的簡単な物理現象なので、客観的に評価することが可能です。
しかし、脳で知覚する段階までの間に様々なノイズが入ります。
最も大きなノイズは、そのときの体調や気分でしょう。
また、暗示にかけられれば、聞こえ方はまったく変わります。
視覚や思い込みもノイズとして働きます。
こうしたノイズの部分を完全に分離する方法があれば、聞こえ方の客観的評価が可能ですが、いまのところ、そのような方法は提案されていません。
実体験に基くテストには、このようなノイズが入り込んでいます。

では、実体験に基くテストをできるだけ客観的に実施するには、どうしたら良いのでしょうか。
そこで、力を発揮するのが、ブラインドテストという手法です。
ブラインドテストとは、目隠しして（または、対象が何であるかをわからなくして）評価する手法の総称です。
オーディオ機器においては、対象をわからなくして評価することが多いと思います。

ブラインドテストにおいても、体調や気分といったノイズの要素は加わりますが、暗示や思い込みの要素の影響はすくなくなります。
それでも、予備知識や邪推、正解を出そうとする気持ち、さらには、こうあって欲しいという希望が主催者や被験者に入り込むので、これとて完全な評価手法ではありません。

ブラインドテストにも様々なグレードがあります。

理想的には、どのような素性の製品をテストしているのかわからなくすることです。
たとえば、アンプの比較なのか、CDプレーヤーの比較なのか、システム全体の比較なのか、など、できるだけ、対象をかくしておくことによって、予備知識や思い込みの要素を排除することができます。

残念ながら、理想的なテストには、そうとうなコストがかかるので、ある程度妥協したテストにならざるを得ません。

ですから、ブラインドテストのレポートを読む場合には、ブラインドの完全性を疑い、どの程度、ノイズが排除されているかを評価することが必要です。具体的には、すくなくとも下記の4項目については、考慮しましょう。

予断の排除性
比較条件の等価性
試験条件の合理性
統計上の要件の満足性

テスト結果の評価

ブラインドテストの結果は、統計手法に基いて評価します。したがって、結果の評価には、統計手法そのものの限界があります。
統計手法では、因果関係を知ることはできません。
この、『因果関係を知ることができない』という性質は、統計手法を用いて評価する場合に、もっとも重要なのですが、知らない人は多いようです。

先日、NHKの『数字のカラクリ・データの真実　～統計学ブームのヒミツ～』という番組で、ビッグデータと統計手法に焦点を当てた番組を放送していました。

正確には記憶していませんが、最初に、『犯罪者の95%は、24時間以内にこの食品を摂取した』→この食品を禁止すべきかどうか？
というようなことを、街の人々に質問していました。

私は、これを見たときに、『馬鹿な質問をしてるなあ』と思いました。
なぜなら、犯罪者でない人の情報がないからです。
これだけ見せられても回答のしようがないでしょう。
その食品と犯罪との因果関係を推定する以前の問題です。
この質問を聞いて、違和感をもたない人は要注意です。

同じ番組のもう少し後に、日本のプロ野球で問題になっている、統一球の問題に触れていました。
番組なかで、某大学の先生は、昨年と比較して、偶然に今年のホームランの数になる確率は1%と紹介していました。
すなわち、ことしのホームラン増という結果には、何らかの理由があるということです。
しかし、番組ではっきりと言わなかったことがあります。
それは、ホームラン数が偶然に増えたかどうかを統計的に分析しただけの手法では、因果関係の証明はできないということです。
このため、統一球の反発係数増がホームランの増加の原因であるとはいえません。
この統計解析結果は、あくまでも、偶然ではないことを証明した（1％では証明といえるかどうかわかりませんが）だけであって、原因については、何も言及できないということです。
なぜなら、他に理由がないことの検証はしていないからです。
このNHKの番組が、統計に騙されよう啓蒙する目的を持った番組であったのであれば、 因果関係を証明できてはいないという事実を番組で明言しなければなりません。
おそらく、その先生は、講義の中でこのことに触れたと思いますが、番組では放送しませんでした。
これでは、この番組も、ダマシ情報のひとつといわざるを得ません。
番組を見ていた多くの人は、『統一球の反発係数増がホームラン増の原因になったことが統計手法で証明された』と誤解したでしょう。
番組の進行は、このような結論に繋がるかのようにできていました。
制作者は、おそらく、そのような意識があったのだと思います。正しい統計知識を持っていなかったということでしょう。

天下のNHKすらこの有様なので、統計についてはそれだけ誤解が多いということです。

話がそれてしまいましたが、テストの結果の評価方法について、ごく簡単に書きます。

ブラインドテスト結果の統計的検定は、その結果が、偶然発生したのか、必然的に発生したのかを判別することしかできません。
検証結果を、確率で表示し、ある判定基準をもって、偶然であったかどうかを判別します。
たとえば、95%という基準で検定したときに、その結果が偶然発生する確率が1%だったとしたら、有為差あり、ということになります。
すなわち、その結果は偶然ではなく、何らかの理由があった、と結論付けることになります。

これが、統計を利用した、ブラインドテストの評価手法の超概要です。

評価にあたっての注意

ブラインドテストの統計的評価は、純粋な数学です。
そして、その数学では、因果関係は特定できないということを上に書きました。
したがって、ブラインドテストの結果を、意図的に誘導することは可能です。
注意すべき点として、以下の4点があることを書きました。
4点目は、統計の要求事項なので、検定に必要なサンプル数を満たすということです。

予断の排除性
比較条件の等価性
試験条件の合理性
統計上の要件の満足性

上記の条件1は、達成することが難しいものです。
ダブルブラインドテストは、被験者、試験進行者ともに、ブラインドの状態であるということで、条件1の要件をある程度の満たしています。
しかし、試験を計画した人の予断を完全に排除したとはいえません。
この程度が、ブラインドテストの限界ということです。
条件2と3とは、比較的達成することが容易です。
したがって、これらの2点について、明記していないレポートに、差が確認されたと書いてあっても、結果は疑ってかかる必要があります。
疑いを客観的かつ合理的に棄却出来れば、その結果は信じてもよいでしょう。

オーディオ機器やソースなどを比較する場合、条件2で、最も重要なことは、音量を揃えることと、ウォーミングアップの条件を揃えることです。
すくなくとも、音量を揃える方法について、記載がないものは、信頼性はありません。
また、条件3についても重要です。
例えば、爆撃機が付近を通過するのような音量で試験した場合には、耳が正常に動作しない場合がありますし、蚊がなくような音量で試験したのでは、差を検知できなくても当然です。

したがって、ブラインドにしたからといって、テストの公正さが担保されるわけではありません。

ブラインドテストを実際に試行してみて

ブラインドテストをするとどうなるのか、興味がありました。
このため、研究会の仲間を集めて実際にやってみました。
やってみたとはいっても、初回は、テストのためのバグ出しのようなもので、試験のための障害を発見して対策を考えるところまでしか想定していませんでした。
比較したのは3台のアンプです。
2台のほうが、検証が容易だったのですが、遊びの要素として、3台で実施しました。
後から考えれば、2台にしたほうが良かったと思います。
これは、大きな反省点でした。

こういうテストを実施するというと、期待に胸をふくらませてしまう人も出てくるのですが、試験はそんなに簡単ではありません。
上に書いた4要件をすべて満たすことは、ほとんど不可能なことはわかっていました。
すべての要件について、合理的な疑いを挟む余地のない試験を実施するには、準備を含めて数日間かかるものと思います。
実際に試験に割り当てられるのは、1日間が限度で、しかも、その時間のなかで準備までしなければなりません。

タイムスケジュールを具体的に想定してみて、かなり妥協した試験になることがわかっていました。

しかも、当日は、アンプのうちの重要な1台の音が、途中で出なくなってしまいました。

そのような問題があったにせよ、妥協に妥協を重ねたうえで、ある程度の結果は出すことができました。

まず、ここで挙げた4要件に注意しながら試験のレポートを御覧ください。

ブラインドテストレポート

実施した試験は、4要件のうち、2と3の要件については、それほど悪くないでしょう。
しかし、要件4は、まったく不足しています。
また、要件1は満たしていません。

要件4については、対象のアンプの故障がなければ、もう少しましなサンプル数になったと思います。
要件1については、元々無理なので、代わりに、準備段階をすべてオープンにし、被験用のソースも、適切と思われるものを参加者全員で選択しました。
しかも、ブラインドでの比較の直前に、被験体をそれぞれ明示して、特徴を各自で捉えるという機会をつくりました。
このことは、有意差を出すためのバイアスをかけたことを意味しています。
更に進んだ表現をすれば、有意差を出すための試験だったといっても間違いではないでしょう。
このことから、この試験では、有為差ありという結論が出ても当然のものです。

切替えの操作は、私自身が担当しましたので、自分は、どの被験体が鳴っているのかを知った状態で聞いていました。
比較した3台のアンプのうち、2台はアナログアンプのローエンド品で、知っていてもこれらの差は判別出来ませんでした。
1台は、ハイエンドの入門機くらいのグレードのもので、このアンプの音だけはまったく違って聞こえました。

ところが、蓋を開けてみると、レポートの通りでした。
自分の想像では、高級品とローエンド品とが入れ替わったときだけは、ほぼ100%差を感じただろうと思っていましたが、実際には、そうではありませんでした。
なお、このテストに実際に参加して、自らも被験者となった、音工房Zの大山さんのレポートは、下記の広告リンクから読むことができます。レポートをダウンロードするのには、登録が必要ですが、なかなか読み応えのあるレポートになっています。ブラインドテストの結果、というよりは、テストを通して考察したことが中心の内容です。

次回からは、三角関数について触れます。わかっている人は読む必要のない内容ですが、中学生や高校生の読者の方は、役に立つと思います。