xG(ゴール期待値)には「平均的な選手が打った場合を仮定して算出される」という前提があります。その「平均」は、実際のところ何を指しているのでしょうか。
今回は、ベルギーのKU Leuven大学のJesse DavisとPieter Robberechtsが、2024年に発表した論文を起点に考察してみます。
何が「平均」とされているか
xGモデルは、過去の膨大なシュートデータを学習して作られます。データセットには、上手いフィニッシャーが打ったシュートも、駆け出しの若手が打ったシュートも混在しています。
問題は、その混在のバランスです。
上手いフィニッシャーほどシュート機会を多く与えられ、結果として多くのシュートを打ちます。シュートを多く打つ選手のデータが、データセットの中で大きな比重を占めることになります。
学習されたモデルが想定している「平均的な選手」は、実態としては「シュートを多く打つ選手側に重みが寄った加重平均」に近い、と指摘されています。
学習データに上手いフィニッシャーのシュートが多めに含まれると、モデルが想定する「平均」は、本来の平均より少し高めに学習されます。その結果、上手い選手の優秀さほど、モデル上では実態より控えめに見えてしまうことになります。
つまり、設計上の意図と、モデルが実際に学習する「平均」のあいだには、構造的なズレが残るわけです。
メッシで観測された17%の差
論文では、StatsBomb Open Dataを使った検証結果が示されています。
標準的なxGモデルで計算すると、メッシのG-xG(実得点と累積xGの差)は127.5になります。一方、学習データの偏りを補正したうえで計算し直すと、同じメッシのG-xGは149.9に上がります。差にして+17.6%。
標準的なxGモデルでは、メッシのフィニッシング能力が約17%控えめに見積もられていたことになります。
実得点とxGの乖離は、長期的には平均回帰によって縮小していくと言われます。サンプル数が増えるほど運の要素は薄れて、本来の実力が見えてくるという理屈です。
しかし論文が指摘するのは、それだけでは説明しきれない持続的な部分です。学習データの偏りという構造に由来している以上、サンプル数が増えてもズレは残り続けます。
補正の試みと残る課題
論文では、この構造的バイアスを補正する手法も提案されています。AI公平性研究の分野で発展した「マルチキャリブレーション」と呼ばれる技術を、xGの算出に応用するアプローチです。
ただ、補正手法があれば全て解決するわけでもないようです。
補正のためには、どんな属性で選手をサブグループに分けるかを決める必要があります。シュート量、ポジション、チームの強さなど、選び方は無数にあります。「どの属性で分類するか」自体が、分析者の判断の連続です。
補正の試みは進んでいますが、「平均」をどう作るかという問いは残り続けます。
参考
- Jesse Davis, Pieter Robberechts Biases in Expected Goals Models Confound Finishing Ability (2024) https://arxiv.org/abs/2401.09940
- Pieter Robberechts, Jesse Davis How data availability affects the ability to learn good xG models (Springer, 2020)
関連するスタッツ事典
- xG(ゴール期待値) — シュートが得点になる確率を数値化した指標
- G-xG(得点−xG差分) — 実得点とxGの乖離を示し、上振れ・下振れを可視化する

