データの詳細は、こちらのページ。
出典、"Soccer video and player position dataset": S. A. Pettersen, D. Johansen, H. Johansen, V. Berg-Johansen, V. R. Gaddam, A. Mortensen, R. Langseth, C. Griwodz, H. K. Stensland, and P. Halvorsen, in Proceedings of the International Conference on Multimedia Systems (MMSys), Singapore, March 2014, pp. 18-23
各プロット
まず最初に選手の移動の軌跡、例としてタグID8番の選手、左ボランチ?
縦軸と横軸の単位は「m」。ペナルティアークもつけたよ。 |
こういうプロットだと、シンボルが重なって塗りつぶされちゃってるので、ヒートマップにしてみる。
こちらがヒートマップ、余白が大きいのと縦軸横軸がmになってないのは勘弁を。
フィールドを 5.2m * 5.7m のマスに区切って、各マスの滞在時間の合計をプロット。
この選手の場合は、1マスの滞在時間の最大が113.5秒で、0秒の領域(黒)を除いての頻出値は19.4秒。
このプロットを透過させてフィールドラインに重ねたいが、それは今後の課題。
先に見せた軌跡のプロットでは、シンボルが重なっているために左サイド後方の選手という事しか推測できないが、ヒートマップを見るとおそらく左ボランチの選手だろうと推測できる。
次に、移動速度(上)と移動方向(下)の時間変化をプロット。
同じく8番の選手で、ここでは前半40分から45分までをプロット。
上の速度変化のプロット、前半のデータの最大値は 9.3 m/s (破線)。
(他の選手たちの最大速度も10m/s前後とかなり遅い。なぜ?単位間違えてる?)
下の方向変化のプロット、y軸を0としているらしいが、どっちのゴール方向が正なのか不明。(論文のデータの節には書いてなかった。)
データ範囲が -π から π なので、-π/2, π/2 がゴール方向と思われる(破線)。
速度変化のプロットの43分から45分を見ると、数秒から10秒程度の間隔でピークがあり、比較的長い移動を表している。
一方で、40分から42分にかけては、より狭い間隔で時間変化しており、かなり細かい動きをしていたのだろうと推測される。
データの観測間隔は20Hz、つまり0.05秒間隔なので、元データのプロットではより滑らかな変化がとらえられているはずである。
ロシアワールドカップでみかけた Activity Time Spent は、これらの速度変化から測定されている。
課題(何を解析するか?)
以下、色々考えてはみたが、先行研究を調べるのが先決。
こういうトラッキングデータ解析の意義は、いくつか考えられる。例えば、個人レベルでは、
- 選手のパフォーマンスを定量化し、選手の調子が悪い時にどこが悪いのかを数値で明確にする事、
- 選手の体調管理に応用する事、
- 各ポジションに必要な動きを明確にし、それに適した練習を提案する事、
などである。
ただサッカーは組織的なスポーツなので、選手同士の連携や、得点失点(シュート)に絡むプレーでの評価(できた事できなかった事)がより重大事である。
個人的には、パスの成否に関わらず、オフ・ザ・ボールの動きを定量的に評価したい。
もちろんこれらの戦術上の評価は画像をつぶさに確認すればできる事だが、それは非常に時間がかかるので、半日にも満たない時間で試合のすべてのプレーの評価をポンと出す事が、私の考えるトラッキングデータ解析の意義である。
(まぁみんなそう考えるよね)
課題(解析データの質)
正直、この Petterson et al. のデータは、扱いやすい大きさ(前後半各~80MB)ではあるけれど、ボールの位置データや、両チームの選手のデータが十分に揃っていないという点で、試合展開の解析には不足している。
現在は2013年11月3日の前半のデータしか確認していないが、15のIDの内、3番、6番、11番、12番については、データが全くおかしいか欠損している。
1番については、37分以降のデータが欠損している。
正直このデータについてはほどほどにして、The DEBS 2013 Grand Challenge でのデータを解析すべきだろう。
ただし、データ量は2.6GBとなかなか大きい。
自分はメモリの限界を超えそうなデータ解析をした事は無いが、メモリ16GBくらいのちょっと高価な個人用PCが必要だろうか?
colabのメモリは13GBだったはず。
Interactive Data Language (IDL) に慣れている自分からすると、python のデータ形式は複雑過ぎる印象、完全習得をしてない初心者だが、現状で非常に面倒くさい(;´Д`)。
各業界に、pythonの必要な機能をまとめる人間が必要だろこれ。
EPSがお手軽にできるのはありがたいが、colab だとTimes New Roman が簡単に使えないのがつらい。
あと、調べきれてないだけかもしれないが、年月日のテキストデータを配列一括操作でUNIX時間の秒データに変換できないのも不満。(これは酷いホットスポット)
選手の移動の軌跡とヒートマップについてのpython3ノートブックは、こちら。
速度プロットについてのpython3ノートブックは、こちら。
いきなり走らせても良いように、for文についてはテスト用の長さ1の変数を選択してある。
ディレクトリの整備は必要。
数値確認用にテキスト書き込みをしているので、必要に応じてコメントアウトを。
にほんブログ村
[記事一覧]トラッキングデータとスプリント回数について
0 件のコメント:
コメントを投稿