相関と因果とは
相関と因果(Correlation and Causation)とは、2つの数字が一緒に動くことと、片方が他方を引き起こすことは別だという、データを読むうえでの基本的な区別である。
相関は、一方が大きいときに他方も大きく(または小さく)なる「一緒に動く」関係である。因果は、一方を変えれば他方も変わる「動かせば変わる」関係である。2つの数字が一緒に動いていても、片方がもう片方を引き起こしているとは限らない。
この区別は統計一般のもので、サッカーに固有のものではない。ただ、サッカーは多くの要因が絡み合う競技であり、スタッツはその一部を切り取ったものにすぎない。同じ数字でも、背景に何があるかで意味は変わる。
取り違えの典型的なケース
ポゼッション率と勝率
「ボールを持てるチームは勝率も高い」という関係はよく語られる。たしかにこの2つには相関があるが、「持つから勝つ」とは限らない。強いチームだからこそボールを持てて、その強さが勝利も生んでいる、という逆向きの関係が含まれる。実際、1試合のポゼッション率と勝率のあいだに強い結びつきは見られないという分析結果もある。
守備アクションの多さ
クリアやブロックの多さは、必ずしも守備の堅さを表すわけではない。これらの多くは、ボールを持たれて押し込まれた結果として増えるためである。守備アクションの数は、守備の堅さよりも、ボールを持たれている時間の長さを映している側面が強い。
選手人件費と成績
サッカーの世界では、「選手人件費の大きいクラブほどリーグ戦の順位が高い」という相関は有名である。海外のリーグでもJリーグでも、長期にわたって同じ傾向が観察されてきた。
ただし、人件費そのものが勝点を生むわけではない。資金で雇い入れた選手たちが成績を押し上げているのであり、人件費は選手を介して成績に効いている。もっとも、選手の能力と年俸が常に一致するわけではなく、その途中にズレが生じることもある。
もう一点、人件費と成績の相関は、お金の使い方によって大きく変わる。たとえばイングランド・プレミアリーグなどの分析では、給与と成績の相関は約9割と高いのに対し、移籍金と成績の相関は2割にも満たないというレポートもある。
ちなみに相関が9割と言っても、人件費上位のクラブがそのシーズンに2部降格する例もある。数字は強い傾向を示すが、個別の試合や1年の戦いがそのとおりに進むとは限らない。
相関係数の読み方
相関の強さは、相関係数という数字で表せる。相関係数は r と書かれ、-1から+1までの値をとり、関係の向きと強さを示す。
- +1に近い: 一方が増えると他方も増える(正の相関)
- 0に近い: 関連がほとんどない
- -1に近い: 一方が増えると他方は減る(負の相関)
正と負が関係の向きを、0からどれだけ離れているかが強さを表す。どのくらいの値を強いと見るかは、分野や扱うデータによって変わるが、おおよその目安は次のとおりである。
| 相関係数の大きさ | 関連の強さ |
|---|---|
| 0.0〜0.2 | ほとんどない |
| 0.2〜0.4 | 弱い |
| 0.4〜0.6 | 中程度 |
| 0.6〜0.8 | 強い |
| 0.8〜1.0 | 非常に強い |
ただし、チームの成績のように多くの要因が絡むデータでは、相関係数は高い値になりにくい。0.5前後でも、十分に意味のある関連とみなされることが多い。
先に見た関係を、J1の実際のデータで確かめると次のようになる。各スタッツとチームの勝点(1試合あたり)の相関である。
| スタッツ | 勝点との相関 | 強さ・向き |
|---|---|---|
| xG/試合(1試合あたりのゴール期待値) | +0.57 | 中程度 |
| シュート | +0.48 | 中程度 |
| ボール支配率 | +0.35 | 弱い |
| パス成功率 | +0.20 | 弱い |
| 走行距離 | -0.06 | ほとんどない |
| クリア | -0.20 | 弱い(負) |
| ブロック | -0.29 | 弱い(負) |
※2019〜2025シーズンのJ1・各チームのデータ(132チーム)から算出したチームレベルの相関であり、因果関係を示すものではない。シュート・クリア・ブロックは1試合あたりの本数を用いている
ゴールに近い指標ほど勝点と結びつき、プレーの量にとどまる指標は関連が弱い。よく走るチームが勝つという単純な関係は、走行距離の相関には表れていない。クリアやブロックにいたっては負の向きで、多いほど勝点が低い。これらはボールを持てないチームほど多くなる指標であり、数字の上では「守備アクションが多いほど成績が悪い」ように見えてしまう。
また、散布図では、点全体の傾向を一本の直線で表すことがある。これは回帰直線と呼び、傾きは横軸の値が増えたときに縦軸がどれだけ変わるかを示す。相関係数も回帰直線も、2つの数字の関連を表すものであり、因果を示すものではない。
限界と注意点
相関は数字をつき合わせれば計算できるが、因果はそうはいかない。理想は、条件をひとつだけ変えて結果を比べる実験である。しかしサッカーでそれはできない。同じ試合を、ポゼッションだけ変えて何度もやり直すことは不可能である。
分析の多くは、実際に起きた記録から関係を推定するしかなく、ここに因果を確かめることの根本的な難しさがある。
関連する指標と概念
- サンプルサイズと安定性 — データが少ないと、偶然の一致が相関に見えやすい。相関を読むときの前提になる
- 平均回帰 — 偶然の上振れ・下振れが実力の水準に戻る動きを、別の原因のせいだと取り違えやすい
- ゲームステート — スコア状況は、攻守の指標と試合結果の両方を動かす。見かけの相関を生む要因になる
- ポゼッション率 — 勝率との相関に逆向きの関係が含まれる代表例
- ポゼッション調整(PAdj) — 守備アクションが、ボールを持たれた量に左右される偏りを補正する手法
参考
- Ian Graham How to Win the Premier League: The Inside Story of Football’s Data Revolution (2024)
- Simon Kuper & Stefan Szymanski Soccernomics (2009)
- 藤井慶輔『AI時代のスポーツアナリティクス』(2026)
- 公益社団法人日本プロサッカーリーグ「Jリーグ クラブ経営ガイド 2025」 https://www.jleague.jp/news/article/32433/
