How to analyze?その① 分析戦略

データ分析方法

データ分析において最も重要なのではデータをどのように集めるかです
本サイトでは先行文献として下記のページを参考にデータ分析を進めました。

文系Python初学者のデータ分析~Jリーグの”走り”と”勝ち”について~|射矢翔太/いるやしょうた

【Python】Jリーグの試合スタッツをWebスクレイピングで収集する② – 脱帽Lab.

Pythonを使って2019年度J1チームデータを可視化してみた|Hana

データ分析に手をだそう ~ゴール期待値とゴール数の相関~ – Take it easy

上記ページで共通しているのは、PythonのBeautiful soupによりWebスクレイピング(webからデータを自動収集)し、同じくPythonのPandasで分析・可視化するという方法です。本来APIでデータを取得できればいいのですが、APIでデータ取得可能として世界最大として紹介されている「Footy stats」はJリーグのデータに関して不備が多いようでしたので、Jリーグ公式やフットボールラボの数字をスクレイピングする必要がありそうです。

サッカーの試合データを収集したい〜データ分析〜 #データ分析 – Qiita

ただし上記で得られるのは選手の出場時間やゴール数、シュート数といったデータに限られため、より詳細な試合情報については別途手に入れる必要があります。無料でデータを取得する方法としては、下記のサイトから過去シーズン限定にはなってしまいが入手できそうです。ただしデータソースを複数用いる場合はマッピング(同じ選手のデータを紐づける)の必要があるため後回しに…。

2024 シーズンの J1 リーグの無料データコンテンツを配布中|Hudl Japan

まとめると下記の選択肢があります

  • Jリーグ公式等をWebスクレイピングしてデータを取得し、分析する
    メリット:無料で高品質なデータを取得可能
    デメリット:コードを作成する必要有。また取得できるデータには限りがあるため戦術分析等は難しい
  • APIを通してデータを取得し、分析する
    メリット:欲しいデータを最低限のソースコードで取得可能
    デメリット:Jリーグのデータについては品質に疑問。欧州メジャーリーグならよいかもしれない
  • ダウンロードした試合情報をもとに分析する
    メリット:詳細なコンディションの変化や戦術分析等が実施可能
    デメリット:処理が大変

本サイトは1番目のスクレイピングによるデータ分析を中心に行っていくこととします

コメント

タイトルとURLをコピーしました