本記事では、マイクから入った音の波がどのようにデジタルデータに変換されるのかという音声データのデジタル化の仕組みと、代表的な音声ファイル形式であるPCM、MIDI、WAV、MP3、AACの特徴をまとめて解説します。
1. 音声をデジタルデータに変える仕組み

この章では、マイクから取り込んだ音声がどのような手順でデジタルデータに変換されるのかを説明します。アナログの音を数字の並びに置き換える仕組みを理解しておくと、後で出てくる音声ファイル形式の違いもイメージしやすくなります。
PCM(Pulse Code Modulation)
PCMは「Pulse Code Modulation(パルス符号変調)」の略で、アナログの音声波形をデジタルデータに変換する最も基本的な方式です。マイクから入ってきた連続的な音の波を、一定の時間間隔ごとに区切って音の高さ(振幅)を測定し、その値を数値として記録していきます。この「時間ごとに測る」ことをサンプリング、「測った値を数値にする」ことを量子化といいます。
PCMでは、このサンプリングと量子化を行った結果が、そのまま時系列に並んだデータとして保存されます。サンプリングの回数が多いほど、また量子化で使う段階数が多いほど、元の音波形に近い高品質な音になりますが、その分データ量も大きくなります。CDの音質は、44.1kHz(1秒間に44,100回サンプリング)・16ビット量子化のPCMを用いているという例を知っておくと、PCMが「音をそのまま数字で細かく記録する仕組み」であることがイメージしやすくなります。
2. 音声ファイル形式と非圧縮・圧縮の違い

この章では、実際にパソコンやスマホで扱う音声ファイル形式について説明します。特に、非圧縮で保存する形式と、サイズを小さくするために圧縮する形式の違いに注目しながら、WAV、MP3、AACの特徴を整理します。
WAV
WAVはWindows環境でよく使われる音声ファイル形式で、多くの場合、中身としてPCMデータをそのまま格納します。言い換えると、PCMで記録した音声を、ファイルとして扱いやすいように箱(コンテナ)に入れたものがWAVだと考えることができます。そのため、音質の劣化がなく、録音したときの音をほぼそのまま再現できる点が大きな特徴です。
一方で、圧縮を行わないぶん、ファイルサイズは非常に大きくなります。長時間の録音をWAVで保存すると、ディスク容量をすぐに消費してしまう場合もあります。そのため、編集用のマスターデータや、音質を最優先したい場面ではWAVが使われ、一般配布や携帯音楽プレーヤー向けには、よりサイズの小さい圧縮形式に変換されるのが一般的です。
MP3
MP3は、もっともよく知られている圧縮音声ファイル形式の一つです。人間の耳では聞き取りにくい音や、重なっていてほとんど感じられない音を分析して削ることで、元のPCMデータを大幅に圧縮します。このような「人間の知覚の特性を利用して不要な情報を削る」方法を、不可逆圧縮と呼びます。
MP3では、一度圧縮すると完全に元のPCMデータには戻せませんが、その代わりにファイルサイズはWAVの10分の1程度まで小さくできます。音質とファイルサイズのバランスを設定できる点も特徴で、ビットレートという値を高くすれば音質が良くなり、低くすればファイルサイズが小さくなります。音楽配信や携帯音楽プレーヤー、ストリーミング再生など、幅広い場面で利用されている形式です。
AAC
AACは「Advanced Audio Coding」の略で、MP3の後継的な圧縮方式として設計された音声ファイル形式です。基本的な考え方はMP3と同様に不可逆圧縮ですが、同じビットレートで比較すると、より高音質を実現しやすいとされています。多くのスマホや動画配信サービス、デジタル放送などで広く採用されている形式です。
AACもMP3と同じく、ファイルサイズを小さく抑えながら、実用上十分な音質を確保できる点が強みです。また、動画ファイルの中に音声部分としてAACが使われていることも多く、映像と音声を組み合わせたマルチメディアコンテンツを扱ううえでも重要な位置付けの形式となっています。
3. 演奏情報としてのMIDIデータ

この章では、MP3やWAVとは性質が大きく異なる「MIDI」というデータ形式について解説します。MIDIは「音そのもの」ではなく、「どの楽器が、どのタイミングで、どの高さの音を鳴らすか」という演奏情報を扱う点が特徴です。
MIDI
MIDIは「Musical Instrument Digital Interface」の略で、本来は電子楽器同士を接続するための規格として生まれました。MIDIデータは、ピアノロールの楽譜のように、「どの鍵盤を」「いつ」「どれくらいの強さで」押すかといった情報をイベントとして記録します。つまり、MIDIファイルにはマイクで録音した音声波形は入っておらず、あくまで演奏の指示書のようなデータだけが格納されています。
そのため、同じMIDIファイルでも、再生する機器やソフトに搭載されている音源によって、聞こえてくる音色や雰囲気が変わることがあります。一方で、音声波形そのものを記録していないぶん、ファイルサイズは非常に小さく、編集もしやすいというメリットがあります。打ち込みによる音楽制作や、ゲーム・カラオケの伴奏データなど、演奏情報として音楽を扱いたい場面で多く利用されてきた方式です。
まとめ
音声処理の世界では、まずアナログの音声をPCMの仕組みによって数値データに変換するところから始まります。サンプリングと量子化によって連続的な音の波形が数字の列に置き換えられ、その結果をそのまま保存したものが、WAV形式のような非圧縮音声ファイルとして扱われます。この段階を理解しておくと、音質とデータ量の関係がイメージしやすくなります。
しかし、非圧縮のままではデータ量が膨大になるため、実際の配信や携帯プレーヤー向けにはMP3やAACのような圧縮形式が広く利用されています。これらは、人間の耳の特性を利用してデータを削減する不可逆圧縮を行うことで、ファイルサイズを小さくしながら、実用上十分な音質を確保しています。その一方で、MIDIのように音声波形ではなく演奏情報を扱う形式もあり、用途に応じてさまざまな表現方法が存在していることが分かります。
音声処理に関するこれらの仕組みやファイル形式の違いを整理しておくことで、録音や配信、音楽制作、ストリーミングサービスなど、身近な音声サービスの裏側でどのようなデータがやり取りされているのかを具体的にイメージできるようになります。音質を重視する場面なのか、容量や配信効率を重視する場面なのかを意識しながら、それぞれの形式の特徴を押さえておくとよいでしょう。


コメント