本記事では、データ分析の入口となる「確率」と「統計」の基本的な考え方をまとめます。サイコロやくじ引きのような偶然の出来事を扱うのが確率、集めたデータを整理・要約して意味を読み取るのが統計です。ITパスポート試験では、数式そのものよりも「どんな場面で、どんな指標を使うのか」という理解が重要になります。
1. 確率と統計の基本的な考え方

この章では、確率と統計がそれぞれ何をする分野なのか、全体像をつかみます。両者は別々の分野に見えますが、「不確実な世界を、データを使ってできるだけ客観的に判断する」という共通の目的を持っています。
確率の概要
確率は、「ある事象がどのくらいの割合で起こりそうか」を数字で表す考え方です。たとえば、サイコロで「1の目が出る確率は 1/6」のように、理論的に計算できる場合があります。また、過去のデータやアンケート結果から、「この商品が売れる確率」「システム障害が起きる確率」のように見積もることもあります。
このとき役に立つのが順列・組合せの考え方です。まず「起こりうるパターンが全部で何通りあるか」を数え、その中で目的の事象が含まれるパターンの数を数えます。事象の数を全パターン数で割ることで確率を求める、という流れが基本になります。順列は並び順を区別して数えるとき、組合せは順番を気にせず選び方だけを数えるときに使います。
統計の概要
統計は、「実際に集めたデータから、全体の傾向や違い、関係性を読み取る」ための方法の集まりです。度数分布表やヒストグラムでデータの分布を可視化し、平均値などの代表値でデータを一言で要約します。さらに、相関分析や回帰分析を使って、複数の項目の関係性を調べることもできます。
統計は、アンケート結果の分析、品質管理、売上データの分析など、ビジネスのあらゆる場面で活用されます。また、推定や仮説検定のように、「一部のデータから全体の性質を推し量る」「主張がデータに裏付けられているかを判断する」といった場面でも、確率の考え方と組み合わせて用いられます。
2. 確率の仕組みと考え方

この章では、順列・組合せといった考え方を土台に、不確実な出来事を数値で扱うための考え方を押さえます。そのうえで、集めたデータから全体の性質を推測したり、仮説を検証したりする統計手法と確率とのつながりも確認します。
確率を扱うときは、「起こりうるパターンをすべて数える」「その中で、目的の事象が含まれるパターンの数を数える」「事象の数 ÷ 全パターンの数」で確率を求める、という流れが基本です。このとき、並び順を区別する場合は順列、順番を気にしないで選び方だけ数える場合は組合せを使います。
推定
推定とは、「一部のデータ(標本)から、全体(母集団)の性質を推し量ること」です。たとえば、全国の全員に聞くのは現実的ではないので、1000人だけにアンケートを取って「全国の支持率はだいたい○%くらい」と推測します。
このとき、標本が偶然偏ってしまう可能性があるため、「誤差」を含むことを前提に考えます。推定では、単に「○%」という数字だけでなく、「誤差を含めて、この範囲の中に本当の値がありそうだ」という形で示すことが多く、確率の考え方と密接に結び付いています。
仮説検定
仮説検定は、「ある主張がデータから見て妥当と言えるかどうか」を確率の観点から判断する方法です。たとえば、「新しい広告の方が、従来の広告よりもクリック率が高い」という仮説が本当に正しそうかを、実際のデータにもとづいて確かめます。
具体的には、「もし仮説が間違っていたとしたら、今観測されたような結果が偶然起こる確率はどのくらいか」を計算し、その確率が非常に小さければ「偶然とは考えにくいので、仮説は妥当そうだ」と判断します。このように、仮説検定は確率を使って、データから結論を導き出すための枠組みです。
3. データの分布と代表値の基本

この章では、度数分布表やヒストグラムといった「データの形を眺める道具」と、平均値・中央値・最頻値などの「代表値」を扱います。さらに、データのばらつきを示す分散や標準偏差、偏差値にも触れ、データの“中心”と“広がり”の両方を理解できるように整理します。
度数分布表は、点数や値の範囲ごとに「何個あったか(度数)」をまとめた表です。これをグラフにしたものがヒストグラムで、データがどのあたりに多く集まっているか、左右に偏りがあるかといった分布の様子を一目で確認できます。そのうえで、代表値やばらつきの指標を使うと、データの特徴を数字で説明しやすくなります。
平均値
平均値は、データの合計を個数で割った値で、もっともよく使われる代表値です。テストの平均点や、売上の平均額など、日常的にも頻繁に登場します。
ただし、極端に大きい値や小さい値(外れ値)があると、平均値が大きく引っ張られてしまう欠点があります。そのため、「平均だけでなく、ほかの代表値も一緒に見る」ことが大切です。
中央値(メジアン)
中央値(メジアン)は、データを小さい順に並べたとき、ちょうど真ん中にくる値です。人数が偶数個の場合は、真ん中2つの平均をとります。
外れ値の影響を受けにくいのが大きな特徴で、年収のように「一部のとても高い値」が存在するデータでは、平均値よりも実感に近い代表値になることが多いです。
最頻値(モード)
最頻値(モード)は、「もっとも多く出現した値」です。アンケートのように、選択肢を選んでもらう形式のデータでは、「一番多かった答え」が最頻値になります。
「最もよく見られるパターン」を知りたい場合に便利で、マーケティングの分野などでよく活用されます。平均値・中央値と合わせて使うことで、データの特徴を立体的に理解できます。
分散
分散は、「データが平均値からどのくらい散らばっているか」を表す指標です。平均からの差(偏差)を二乗して平均したものが分散で、値が大きいほどデータのばらつきが大きいと解釈します。
二乗しているため単位も二乗の形になってしまいますが、計算上扱いやすいという利点があります。標準偏差を理解するための土台となる概念です。
標準偏差
標準偏差は、分散の平方根をとったものです。分散の単位を元に戻した指標と考えるとイメージしやすく、データが平均のまわりにどの程度広がっているかを直感的に捉えやすくなります。
一般に、標準偏差が小さいほど「値が平均付近に集中している」、大きいほど「値がバラバラに散らばっている」と判断します。品質管理やリスク管理など、さまざまな分野で利用される重要な指標です。
偏差値
偏差値は、テストの点数などを「平均50、標準偏差10」という共通のものさしに換算した値です。異なるテストや科目間で成績を比較しやすくするために使われます。
たとえば、偏差値60なら「平均よりも標準偏差1つ分だけ上」、偏差値40なら「平均よりも標準偏差1つ分だけ下」といった具合に、平均からどの程度離れているかを客観的に表せます。偏差値の考え方の背景には、平均・標準偏差といった統計指標が活用されています。
4. データの関係性と統計モデル

この章では、2つ以上の項目の関係性を調べる「相関分析」や「回帰分析」に関連する用語を整理します。単に1つの項目の平均やばらつきを見るだけでなく、「Aが変わるとBも変わるのか」「どれくらい関係が強いのか」を調べることで、将来の予測や要因分析に役立てることができます。
相関係数
相関係数は、2つの変数の間にどの程度関係性があるかを、-1〜+1の範囲で表す指標です。値が+1に近いほど「片方が増えるともう片方も増える」正の相関、-1に近いほど「片方が増えるともう片方は減る」負の相関が強いと判断します。0に近いと、直線的な関係は弱いとみなされます。
ただし、相関があるからといって必ずしも「原因と結果の関係(因果関係)」があるとは限らない点に注意が必要です。
相関分析
相関分析は、相関係数などを使って、複数の変数の間にどのような関係がありそうかを調べる分析手法です。たとえば、「広告費と売上の関係」や「勉強時間とテストの点数の関係」を調べるときに使われます。
相関分析の結果、「強い相関がある」ことが分かれば、どの要素が結果に影響を与えていそうかの手がかりになります。ただし、先ほどのとおり、相関だけで因果関係を断定してはいけません。
回帰分析
回帰分析は、「ある変数から別の変数を予測するための式(モデル)を作る」分析手法です。もっともシンプルな例は、直線の形「y = a x + b」で表される単回帰分析で、xからyを予測します。
たとえば、「広告費(x)」から「売上(y)」を予測したり、「身長(x)」から「体重(y)」を予測したりといった用途があります。回帰分析の結果得られる式を使うと、「広告費をこれだけ増やしたら、売上はどのくらい増えそうか」といったシミュレーションが可能になります。
説明変数
説明変数とは、回帰分析などで「原因側」として扱う変数です。結果を説明するための要因という意味でこの名前が付いています。先ほどの例では、「広告費」や「勉強時間」が説明変数になります。
分析の目的に応じて、どの項目を説明変数に選ぶかが非常に重要です。選び方を間違えると、得られたモデルの解釈が難しくなったり、誤った結論につながったりする可能性があります。
目的変数
目的変数とは、説明変数によって「説明される側」「予測したい側」として扱う変数です。さきほどの例では、「売上」や「テストの点数」が目的変数にあたります。
回帰分析では、「説明変数が変化したときに、目的変数がどのように変化しそうか」をモデル化します。目的変数をどう設定するかで、分析のゴールが決まるため、ビジネス上の目的を意識した設定が必要です。
まとめ
確率と統計は、どちらも「不確実な状況でよりよい判断をする」ための道具です。確率は、順列や組合せを使って「起こりうるパターン」を数え、ある事象が起こる割合を数値で表します。推定や仮説検定は、この確率の考え方を土台に、標本データから全体の性質を推測したり、主張の妥当性を確かめたりする枠組みです。
統計では、まず度数分布表やヒストグラムでデータの分布を眺め、平均値・中央値・最頻値といった代表値で全体の傾向を要約します。さらに、分散・標準偏差・偏差値などでばらつきを把握することで、「どのくらい安定しているのか」「どれくらいの幅で散らばっているのか」を判断できます。
そして、相関係数・相関分析・回帰分析を使うと、複数の変数の関係性を調べたり、将来の値を予測したりすることが可能になります。説明変数と目的変数の役割を意識しながら、相関と因果の違いにも注意することが重要です。ITパスポート試験では、個々の用語の定義だけでなく、「どの場面でどの指標を使うのか」「何を知るための道具なのか」という視点で整理しておくと、関連問題にも対応しやすくなります。


コメント