VoIPの通話品質は、音が途切れたり相手の声が遅れて聞こえたりといった「音切れ」や「遅延」の原因を理解し、適切に対策することで大きく改善できます。
この記事では、VoIP通話品質を決める4つの主要指標(パケットロス・ジッタ・遅延・エコー)、品質を評価するMOSスコア、音声符号化のコーデックの仕組みを整理し、品質が悪くなる原因と具体的な改善対策を体系的に解説します。IP電話の導入を検討中の方も、すでに利用していて音質に悩んでいる方も、このガイドで通話品質の全体像と解決の方向性が明確になります。
VoIPの通話品質とは?押さえるべき基本概念¶
VoIP(Voice over IP)の通話品質を語る上で、まず押さえておくべき基本的な考え方を解説します。
VoIPと従来の電話(PSTN)の品質の根本的な違い¶
従来の固定電話はPSTN(公衆交換電話網)と呼ばれる専用の電話網を使います。PSTNは通話が始まると発信者から着信者まで物理的な回線を占有する仕組みです。そのため、通話中は他の通信の影響を受けず、安定した品質が保証されます。
一方、VoIPはインターネット回線を使って音声データを「パケット」という単位に分割して送受信します。インターネットは本来データ通信用に設計されたネットワークであり、音声通話のようなリアルタイム性が求められる通信に特化していません。この設計思想の違いが、品質の差異を生み出す根本的な原因です。
回線交換方式とパケット交換方式の違いが品質に与える影響¶
PSTNの「回線交換方式」は、通話の最初に経路を確保し、その経路を通話が終わるまで占有し続けます。この仕組みにより、音声データは一定の速度で遅延なく相手に届きます。
VoIPが使う「パケット交換方式」では、音声データを小さなパケットに分割し、ネットワーク上の空いている経路を経由して送ります。パケットごとに別の経路を通るため、到着順序が入れ替わったり、一部のパケットが失われたりする可能性があります。これが、音切れや遅延といった品質問題の直接的な原因です。
| 比較項目 | 回線交換方式(PSTN) | パケット交換方式(VoIP) |
|---|---|---|
| 経路の確保 | 通話中ずっと占有 | パケットごとに動的 |
| 品質の保証 | 回線確保時点で保証 | ベストエフォート |
| 遅延の発生 | ほぼなし | ネットワーク状況依存 |
| パケットロス | 発生しない | 発生する可能性あり |
ベストエフォート通信とは何か¶
VoIPの品質を理解する上で重要なのが「ベストエフォート」という概念です。これは「最大限の努力はするが、品質を保証しない」という通信の考え方です。
インターネット接続サービスの多くはベストエフォート型です。例えば「上り下り最大100Mbps」という表記は、理論上の最大速度を示すものであり、常にその速度が保証されるわけではありません。ネットワークが混雑していれば速度は低下し、VoIPの音声パケットも影響を受けます。
このベストエフォート通信の中で、いかに音声パケットを優先的に、安定して届けるかが、VoIP通話品質を左右する鍵となります。
VoIP通話品質を決める4つの主要指標¶
VoIPの通話品質は、主に以下の4つの指標で評価されます。それぞれの指標が何を意味し、どの程度の値が許容範囲なのかを理解することが、品質改善の第一歩です。
パケットロス率(Packet Loss)とは何か¶
パケットロスとは、送信された音声パケットのうち、ネットワーク上で消失して相手に届かなかったパケットの割合です。
音声パケットはリアルタイム性が求められるため、届かなかったパケットを再送する余裕がありません。届かなかったパケットは単にスキップされ、音声に「途切れ」として現れます。
一般的な目安として、パケットロス率1%未満であれば通話品質への影響は軽微です。1%を超えると音切れが目立ち始め、3%を超えると会話の理解に支障をきたすレベルになります。
ジッタ(Jitter)とは何か|許容値30ms以下が目安¶
ジッタとは、パケットの到着間隔のばらつきのことです。理想的には一定間隔でパケットが到着すべきですが、ネットワークの状況によって到着タイミングに揺らぎが生じます。
この揺らぎが大きいと、受信側で音声を再構成する際に不自然な間が生じたり、音がつまって聞こえたりします。
ジッタの許容値の目安は以下の通りです:
| ジッタ値 | 品質への影響 |
|---|---|
| 30ms以下 | 影響はほぼなし(望ましい水準) |
| 30ms〜50ms | 軽微な影響(バッファで吸収可能) |
| 50ms超 | 影響が顕著(音切れや歪みが発生しやすい) |
ジッタを吸収するために、受信側には「ジッタバッファ」という仕組みがありますが、後述する通り遅延とのトレードオフになります。
レイテンシ(遅延)|ITU-T G.114の3段階閾値(150ms/400ms)¶
レイテンシ(遅延)は、発信側の音声が着信側に届くまでの所要時間です。通話相手の声が遅れて聞こえる「タイムラグ」の原因となります。
国際電気通信連合(ITU-T)は、勧告G.114において一方向の遅延について以下の3段階の閾値を定めています:
| 遅延(片道) | 評価 | 内容 |
|---|---|---|
| 0〜150ms | 推奨 | ほとんどのユーザーが違和感を感じない |
| 150〜400ms | 許容 | 通話品質に影響が出る可能性があるが、実用可能 |
| 400ms超 | 許容不可 | 会話に重大な支障をきたす |
日本国内のVoIP通信であれば、通常は片道50〜100ms程度の遅延に収まることが多いですが、ネットワーク経路が複雑な場合や、海外との通話では遅延が増大する可能性があります。
エコーとその影響¶
エコー(こだま)は、自分の発した音声が遅れて自分に聞き返される現象です。VoIPでは音声のデジタル処理や、アナログ回線との接続点(ハイブリッド回路)で信号の一部が反射することでエコーが発生します。
エコー自体はPSTNでも発生しますが、遅延が小さいため気になりません。しかしVoIPでは遅延が大きいため、エコーがはっきりと認識され、会話の妨げになります。遅延が50ms以上になるとエコーが顕著に感じられると言われており、多くのVoIP機器にはエコーキャンセラーが組み込まれています。
通話品質を評価するMOSスコアとは¶
VoIPの通話品質を客観的に評価する指標として、MOS(Mean Opinion Score:平均オピニオン評点)が広く使われています。
MOS(平均オピニオン評点)の5段階スケール|ITU-T P.800¶
ITU-T勧告P.800で定義されたMOSは、リスナーが音声品質を5段階で評価する手法です:
| 評点 | 英語評価 | 日本語評価 | 品質の状態 |
|---|---|---|---|
| 5 | Excellent | 非常に良い | 全く劣化を感じない |
| 4 | Good | 良い | 劣化を感じるが支障なし |
| 3 | Fair | 普通 | 劣化を感じやや支障あり |
| 2 | Poor | 悪い | 劣化が顕著で支障あり |
| 1 | Bad | 非常に悪い | ほぼ聞き取れない |
現在では、実際の人間による評価ではなく、ネットワーク指標(遅延・ジッタ・パケットロスなど)から数理的にMOS値を算出する手法も実用化されています。
固定電話(PSTN)とVoIPのMOS比較¶
従来の固定電話(PSTN)は、回線交換方式の品質保証により概ねMOS 4.0〜4.5の水準を維持しています。これが「電話の音質」として多くの人がイメージする基準です。
VoIPの場合、ネットワーク条件が良好であればMOS 4.0以上を達成可能です。特に広帯域コーデックを使用すれば、PSTNを上回る音質も実現できます。ただし、ネットワーク状況によってはMOS 3.0以下に低下することもあり、安定性の面でPSTNに劣る側面があります。
MOS差をユーザーが感知する閾値(約0.46)¶
ユーザーが通話品質の差を感知できる最小のMOS差は、約0.46とされています。つまり、MOS値が0.46以上変動しなければ、多くのユーザーは品質の変化に気づきません。
この値は、VoIPサービスの品質管理において重要な基準です。ネットワーク品質の微細な変動によるMOSの揺れが0.46未満に収まっていれば、ユーザー体験への影響は実質的にないと判断できます。
VoIP通話品質に影響するコーデック(音声符号化方式)¶
コーデック(Codec)は、音声をデジタルデータに変換(符号化)し、受信側で元の音声に復元(復号化)する技術です。どのコーデックを使用するかで、通話品質と必要な帯域幅が大きく変わります。
主要コーデック一覧|G.711・G.729・G.722・Opusの特徴¶
VoIPでよく使われる主要コーデックの特徴を比較します:
| コーデック | ビットレート | 帯域(IPヘッダ込) | 音質 | 処理負荷 | 帯域分類 |
|---|---|---|---|---|---|
| G.711 | 64kbps | 約80kbps | 標準(PSTN同等) | 非常に低い | 窄帯域 |
| G.729 | 8kbps | 約24kbps | やや低い | 中程度 | 窄帯域 |
| G.722 | 64kbps | 約80kbps | 高い(HD Voice) | 低い | 広帯域 |
| Opus | 6〜510kbps(可変) | 可変 | 非常に高い(可変) | 中程度 | 広帯域〜全帯域 |
帯域幅と音質のトレードオフ¶
コーデック選択には常に「帯域幅」と「音質」のトレードオフが伴います。
G.711はPSTNと同等の音質を実現しますが、約80kbpsの帯域を消費します。一方、G.729は約24kbpsと帯域効率が良いものの、音質はG.711に劣ります。帯域に余裕のある環境ではG.711やG.722を選択し、帯域が限られるモバイル環境などではG.729の採用を検討する、といった使い分けが一般的です。
窄帯域(0.3〜3.4kHz)と広帯域(0.05〜7kHz・HD Voice)の違い¶
従来の電話音声は0.3〜3.4kHzの周波数帯域(窄帯域)に制限されています。これは人の声の基本的な周波数をカバーしていますが、子音の細かい響きや声の自然な響きの一部が失われます。
広帯域(ワイドバンド)音声は0.05〜7kHzの範囲をカバーし、「HD Voice」とも呼ばれます。この帯域拡大により、子音の明瞭さが向上し、より自然で聞き取りやすい音声が実現します。G.722やOpusが広帯域に対応しており、PSTNを超える音質体験が可能です。
VoIP通話品質が悪くなる5つの原因¶
VoIPの通話品質が低下する主な原因を5つ挙げ、それぞれのメカニズムを解説します。
原因①:ネットワーク帯域不足¶
VoIP通話には、音声パケットを安定して送受信するための十分な帯域幅が必要です。G.711では約80kbps、G.729では約24kbpsが目安ですが、これは音声パケットだけの帯域です。
実際には、同じネットワーク上で動画視聴、ファイルダウンロード、Webブラウジングなどの通信が同時に行われていることが多く、それらが帯域を占有すると音声パケットが遅延・損失します。特に上り(送信)方向の帯域不足は、自分の声が相手に届きにくくなる原因になります。
原因②:ジッタバッファの不適切な設定¶
ジッタバッファは、到着間隔のばらつきを吸収するために、受信したパケットを一時的に蓄積してから順次再生する仕組みです。
この仕組みについて詳しく解説すると、音声パケットはネットワーク上の揺らぎによって到着間隔が一定ではありません。ジッタバッファはパケットをバッファ(待機領域)に溜め、一定間隔で再生することで滑らかな音声を再構成します。
しかし、プレイアウトバッファによるジッタ吸収と遅延にはトレードオフがあります。バッファサイズを大きくすればジッタは吸収しやすくなりますが、その分だけ再生までの遅延が増加します。逆にバッファサイズを小さくすれば遅延は減りますが、ジッタを吸収しきれず音切れが発生しやすくなります。このバッファサイズの設定が不適切だと、不必要な遅延が増えたり、逆に音切れが頻発したりします。
原因③:無線LANの電波干渉と不安定さ¶
Wi-Fi接続でのVoIP通話は、有線接続に比べて品質が不安定になりやすいです。理由は以下の通りです:
- 電波干渉:2.4GHz帯は電子レンジやBluetooth機器、近隣のWi-Fiルーターとの干渉が起きやすい
- 電波強度の変動:移動や障害物によって電波強度が変化し、パケットロスが発生
- チャンネル競合:同じチャンネルを使用するアクセスポイントが密集すると通信効率が低下
これらの要因により、Wi-Fi環境ではジッタやパケットロスが増加しやすく、VoIP通話品質への悪影響が大きくなります。
原因④:プロバイダ・中継網の輻輳¶
VoIPの音声パケットは、発信側から着信側までの間に複数のネットワーク機器や中継サーバーを経由します。この経路上のどこかが混雑(輻輳)すると、パケットの遅延や損失が発生します。
特に、プロバイダのネットワークと他社ネットワークの接続点(ピアリングポイント)は混雑しやすく、夜間などピーク時間帯の通話品質低下の一因になります。また、国際通話の場合は経由するネットワークが増えるため、遅延や品質変動のリスクが高まります。
原因⑤:使用コーデックと端末の処理能力¶
音声の符号化・復号化には一定の処理能力が必要です。特にG.729などの圧縮率が高いコーデックは、処理負荷がG.711に比べて大きくなります。
古いスマートフォンや処理能力の低い端末では、符号化処理が追いつかず、音声の歪みや途切れが発生することがあります。また、端末で他のアプリケーションが同時に動作しているとCPUリソースが競合し、VoIPの音声処理に悪影響を及ぼす可能性があります。
VoIP通話品質を改善する6つの対策¶
品質悪化の原因を踏まえ、具体的な改善対策を6つ解説します。
対策①:QoS設定による音声パケット優先制御(DiffServ/DSCP)¶
QoS(Quality of Service)は、ネットワーク上の特定の通信を優先的に処理する仕組みです。
VoIPにおいて特に有効なのがDiffServ(Differentiated Services)によるアプローチです。DiffServは、IPパケットのヘッダー内にあるDSCP(Differentiated Services Code Point)フィールドに優先度を設定し、ルーターやスイッチがその値に基づいてパケットの処理順序を制御します。
具体的には、音声パケットのDSCP値に高い優先度(例:EF:Expedited Forwarding)を設定します。これにより、ネットワークが混雑していても音声パケットが他のデータパケットよりも優先的に転送され、遅延やパケットロスを抑制できます。
家庭用ルーターにも「QoS設定」や「ゲーム・通話優先」などの機能が用意されていることが多く、VoIP通話品質の改善に直結する最も効果的な対策の一つです。
対策②:プレイアウトバッファの動的調整¶
ジッタによる品質低下への対策として、プレイアウトバッファの動的調整が有効です。
固定サイズのバッファでは、ネットワーク状況の変化に対応できません。ジッタが大きい場面ではバッファ不足で音切れが起き、ジッタが小さい場面では不必要な遅延が増える結果になります。
動的調整(アダプティブバッファ)は、ネットワークのジッタ状況をリアルタイムに監視し、バッファサイズを自動的に増減させます。これにより、音切れを抑えつつ遅延を最小限に抑える最適なバランスを維持できます。多くの現代的なVoIP機器やソフトフォンにはこの機能が実装されています。
対策③:必要帯域の確保(G.711で約80kbps・G.729で約24kbps)¶
VoIP通話に必要な帯域を確保することは、品質改善の基本です。主要コーデックの必要帯域の目安は以下の通りです:
- G.711:約80kbps(IP/UDP/RTPヘッダー含む)
- G.729:約24kbps(IP/UDP/RTPヘッダー含む)
これに余裕を持たせた帯域を確保することが重要です。例えばG.711を使用する場合、片道100kbps程度、往復で200kbps程度を見積もると安全です。大容量のダウンロードや動画視聴と並行してVoIPを利用する場合は、ルーターの帯域制限機能を使ってVoIPに十分な帯域を確保する工夫が有効です。
対策④:有線接続やWi-Fi 5GHz帯の活用¶
無線LANの不安定さが品質低下の原因となる場合、以下の対策が効果的です:
- 有線(Ethernet)接続への切り替え:物理的に最も安定した接続方式です。デスクトップ環境や固定場所での通話が多い場合は、有線接続に切り替えるだけで品質が大幅に改善することがあります
- Wi-Fi 5GHz帯の活用:2.4GHz帯に比べて電波干渉が少なく、通信速度も高速です。Wi-Fiルーターと端末の両方が5GHz帯に対応していれば、VoIP通話時には5GHz帯に接続することを推奨します
対策⑤:高品質コーデック(G.722・Opus)の選択¶
帯域に余裕がある環境では、高品質なコーデックを選択することで音質を向上できます。
G.722は、G.711と同じ64kbpsのビットレートでありながら広帯域(0.05〜7kHz)に対応し、より自然で聞き取りやすい音声を実現します。PSTNと同等の帯域消費でより高い音質が得られるため、対応環境であれば積極的に採用を検討すべきコーデックです。
Opusは、ビットレートを6〜510kbpsの範囲で可変に設定できる柔軟性の高いコーデックです。窄帯域から全帯域(0.02〜20kHz)まで対応し、ネットワーク状況に応じてビットレートを動的に調整する機能も備えています。対応サービスであれば、Opusの利用は高音質と帯域効率の両面で有利です。
対策⑥:VAD(無音圧縮)の注意点と適切な運用¶
VAD(Voice Activity Detection:音声アクティビティ検出)は、通話中の無音区間を検出し、その間のパケット送信を停止することで帯域を節約する技術です。無音区間には快適ノイズ(背景音の代替)を生成して相手に送信します。
VADは帯域節約に有効ですが、注意点もあります。無音区間の検出精度が不十分だと、声の最初や最後が途切れたり、自然な会話のテンポが損なわれたりすることがあります。また、背景音の変化に追従できず、不自然な無音区間が生じることもあります。
通話品質を最優先する場合は、VADを無効にする選択肢もあります。帯域に十分な余裕がある環境では、VADを切ることでより自然な通話品質を維持できます。
050番号IP電話と0037プレフィックスサービスの品質の違い¶
日本のIP電話サービスには、大きく分けて「050番号のIP電話」と「0037プレフィックスサービス」の2つの形態があります。この2つは通話品質のメカニズムが根本的に異なります。
050番号サービスの品質特性|IPネットワーク上で通話完結¶
050番号のIP電話サービス(050plus、SMARTalkなど)は、音声が発信者から着信者までIPネットワーク上で完結する通信方式です。
通話の全経路がインターネット(IPネットワーク)を経由するため、前述の遅延・ジッタ・パケットロスの影響を直接受けます。通話品質は、自宅やオフィスのインターネット回線品質、プロバイダのネットワーク状況、相手先のネットワーク状況など、複数の要因に依存します。
自分の通信環境が良好であっても、相手側の環境や経路上の混雑によって品質が低下する可能性がある点が、050番号サービスの品質特性上の留意点です。
0037プレフィックスサービスの品質特性|キャリア回線を使用¶
0037プレフィックスサービスは、発信時に「0037-692」などの事業者識別番号を付与して発信するサービスです。このサービスは音声の一部区間にキャリアの品質管理された回線を使用するため、050番号サービスとは品質特性が異なります。
具体的には、発信者から中継点まではキャリアの電話網を利用し、その後の区間もキャリアの管理下のネットワークを経由するため、IPネットワーク上の変動要因による影響が050番号サービスに比べて小さくなります。
0037プレフィックスサービスの詳細な仕組みについては、0037-692 とはの記事で詳しく解説しています。
それぞれの品質が何に依存するかの整理¶
| 品質依存要因 | 050番号IP電話 | 0037プレフィックスサービス |
|---|---|---|
| 自宅・自社の回線品質 | 大きく依存 | 依存度が低い |
| プロバイダ・中継網の混雑 | 影響あり | 影響を受けにくい |
| 相手先の回線品質 | 影響あり | 影響を受けにくい |
| 品質の安定性 | 変動しやすい | 比較的安定 |
| 固定電話との品質比較 | 条件次第で劣る場合あり | 固定電話に近い安定性 |
通話品質の安定性を重視する場合は、0037プレフィックスサービスが有利な傾向があります。一方、通信環境が良好であれば050番号サービスでも十分な品質が得られます。
VoIP通話品質が気になる人へのサービス選びのポイント¶
VoIPの通話品質について理解した上で、実際にサービスを選ぶ際のポイントを解説します。
品質重視で選ぶならどのタイプのサービスか¶
通話品質を最優先する場合、サービス選びの方向性は以下のようになります:
- 0037プレフィックスサービス:キャリアの管理回線を使用するため、品質の安定性が高い。固定電話に近い品質を期待できる
- 通信環境が良好な050番号サービス:自宅・自社のインターネット回線が安定しており、光ファイバー等の高速回線を利用している場合は、050番号サービスでも高い品質が得られる
また、IP電話の料金と仕組みを図解|なぜ安くなるのか基礎から徹底解説の記事で解説している通り、IP電話の仕組みそのものを理解することで、自分の利用環境に適したサービスタイプを見極めやすくなります。
安定した通話品質を求める場合のおすすめアプローチ¶
通話品質の安定性を確実に求める場合のアプローチをまとめます:
- 自宅の回線環境を見直す:光ファイバー接続、有線接続、QoS設定など、本記事で解説した対策を実施することで、050番号サービスの品質も大幅に改善できる
- サービス形態で選ぶ:品質の安定性を最優先するなら0037プレフィックスサービス、コストと品質のバランスを取るなら050番号サービスという選び方がある
- 実際のサービス比較で検討する:050アプリ 比較|2026年最新料金・機能ランキングで最適なサービスを選ぶや無料通話アプリ おすすめ|2026年最新ランキング&料金比較で最適な1冊を選ぶの比較記事を参考に、通話品質の特徴を含めて総合的にサービスを検討する
VoIPの通話品質は、遅延・ジッタ・パケットロス・エコーという4つの指標で把握でき、それぞれに明確な許容値があります。品質低下の原因が分かれば、QoS設定、プレイアウトバッファの調整、帯域確保、適切なコーデック選択といった対策で改善可能です。
通話品質を踏まえた上で自分に合ったサービスを見つけたい方は、050アプリ 比較|2026年最新料金・機能ランキングで最適なサービスを選ぶで050番号サービスを、無料通話アプリ おすすめ|2026年最新ランキング&料金比較で最適な1冊を選ぶで通話アプリ全般を比較検討してみてください。