xGモデルの中で何が「平均」とされているのか

xG（ゴール期待値）には「平均的な選手が打った場合を仮定して算出される」という前提があります。その「平均」は、実際のところ何を指しているのでしょうか。

今回は、ベルギーのKU Leuven大学のJesse DavisとPieter Robberechtsが、2024年に発表した論文を起点に考察してみます。

何が「平均」とされているか

xGモデルは、過去の膨大なシュートデータを学習して作られます。データセットには、上手いフィニッシャーが打ったシュートも、駆け出しの若手が打ったシュートも混在しています。

問題は、その混在のバランスです。

上手いフィニッシャーほどシュート機会を多く与えられ、結果として多くのシュートを打ちます。シュートを多く打つ選手のデータが、データセットの中で大きな比重を占めることになります。

学習されたモデルが想定している「平均的な選手」は、実態としては「シュートを多く打つ選手側に重みが寄った加重平均」に近い、と指摘されています。

学習データに上手いフィニッシャーのシュートが多めに含まれると、モデルが想定する「平均」は、本来の平均より少し高めに学習されます。その結果、上手い選手の優秀さほど、モデル上では実態より控えめに見えてしまうことになります。

つまり、設計上の意図と、モデルが実際に学習する「平均」のあいだには、構造的なズレが残るわけです。

論文では、StatsBomb Open Dataを使った検証結果が示されています。

標準的なxGモデルで計算すると、メッシのG-xG（実得点と累積xGの差）は127.5になります。一方、学習データの偏りを補正したうえで計算し直すと、同じメッシのG-xGは149.9に上がります。差にして+17.6%。

標準的なxGモデルでは、メッシのフィニッシング能力が約17%控えめに見積もられていたことになります。

実得点とxGの乖離は、長期的には平均回帰によって縮小していくと言われます。サンプル数が増えるほど運の要素は薄れて、本来の実力が見えてくるという理屈です。

しかし論文が指摘するのは、それだけでは説明しきれない持続的な部分です。学習データの偏りという構造に由来している以上、サンプル数が増えてもズレは残り続けます。

論文では、この構造的バイアスを補正する手法も提案されています。AI公平性研究の分野で発展した「マルチキャリブレーション」と呼ばれる技術を、xGの算出に応用するアプローチです。

ただ、補正手法があれば全て解決するわけでもないようです。

補正のためには、どんな属性で選手をサブグループに分けるかを決める必要があります。シュート量、ポジション、チームの強さなど、選び方は無数にあります。「どの属性で分類するか」自体が、分析者の判断の連続です。

補正の試みは進んでいますが、「平均」をどう作るかという問いは残り続けます。

Jesse Davis, Pieter Robberechts Biases in Expected Goals Models Confound Finishing Ability (2024) https://arxiv.org/abs/2401.09940
Pieter Robberechts, Jesse Davis How data availability affects the ability to learn good xG models (Springer, 2020)