データ分析において最も重要なのではデータをどのように集めるかです
本サイトでは先行文献として下記のページを参考にデータ分析を進めました。
文系Python初学者のデータ分析~Jリーグの”走り”と”勝ち”について~|射矢翔太/いるやしょうた
【Python】Jリーグの試合スタッツをWebスクレイピングで収集する② – 脱帽Lab.
Pythonを使って2019年度J1チームデータを可視化してみた|Hana
データ分析に手をだそう ~ゴール期待値とゴール数の相関~ – Take it easy
上記ページで共通しているのは、PythonのBeautiful soupによりWebスクレイピング(webからデータを自動収集)し、同じくPythonのPandasで分析・可視化するという方法です。本来APIでデータを取得できればいいのですが、APIでデータ取得可能として世界最大として紹介されている「Footy stats」はJリーグのデータに関して不備が多いようでしたので、Jリーグ公式やフットボールラボの数字をスクレイピングする必要がありそうです。
サッカーの試合データを収集したい〜データ分析〜 #データ分析 – Qiita
ただし上記で得られるのは選手の出場時間やゴール数、シュート数といったデータに限られため、より詳細な試合情報については別途手に入れる必要があります。無料でデータを取得する方法としては、下記のサイトから過去シーズン限定にはなってしまいが入手できそうです。ただしデータソースを複数用いる場合はマッピング(同じ選手のデータを紐づける)の必要があるため後回しに…。
2024 シーズンの J1 リーグの無料データコンテンツを配布中|Hudl Japan
まとめると下記の選択肢があります
- Jリーグ公式等をWebスクレイピングしてデータを取得し、分析する
メリット:無料で高品質なデータを取得可能
デメリット:コードを作成する必要有。また取得できるデータには限りがあるため戦術分析等は難しい - APIを通してデータを取得し、分析する
メリット:欲しいデータを最低限のソースコードで取得可能
デメリット:Jリーグのデータについては品質に疑問。欧州メジャーリーグならよいかもしれない - ダウンロードした試合情報をもとに分析する
メリット:詳細なコンディションの変化や戦術分析等が実施可能
デメリット:処理が大変
本サイトは1番目のスクレイピングによるデータ分析を中心に行っていくこととします
コメント