ベースボールデータハッカソンに参加しました

何番煎じかわかりませんが、「パ・リーグ×パーソル ベースボールデータハッカソン」というイベントに関西から参加してきたので、そのメモ

techplay.jp

イベントの概要

パ・リーグが提供するプロ野球のデータを分析するハッカソン

期間は2日間。1日目の11時~19時、2日目の10時~14時半。

2部門に分かれており、参加者は1日目の最後に参加する部門を選択。

・エンジニアリング部門:データの予測精度を競う

コンサルティング部門:データから新しい発見を導き出しプレゼンする

実際はエンジニアリング部門に参加者が偏っていました。

以降は私が参加したエンジニアリング部門について記載します。

 

エンジニアリング部門の課題

ある球団のファンクラブ会員が特定の試合を観戦するか予測するといった内容でした。

f:id:HighGradeToppo:20181008214308p:plain

f:id:HighGradeToppo:20181008214324p:plain

 

上図以外に与えられたデータとして以下のようなものがありました。

・各打者の試合ごとの成績

・各投手の試合ごとの成績

・試合展開

 

取り組み

特徴量の生成は、直感的に試合前からわかる情報を中心に考えました。

予告先発

・相手チーム

etc…

人気選手の選手登録・抹消や達成間近な記録なども影響あるかと思いましたが、外部データの使用は禁止されてたので見送りました。

あまりオリジナリティのある特徴量を作れませんでしたが、入賞者の発表を聞く限りはは方向性としてあってた気がします。

モデルとしてはいろいろ試す時間がなかったのでランダムフォレストにぶちこんで結果をだしました。

game44とgame45はそもそも観戦者が少なそうだったのですべて0としました。

 

感想

結果としては入賞できずに残念でしたが、普段は周りにデータを扱う人がいないので色々な人と話せて臆せずに参加してよかったです。kaggleも最近はじめたばかりでデータの前処理に時間がだいぶかかってしまいモデルの選択などいろいろ試す余裕がなかったので、もう少し経験を積まないとというのが素直な感想です。野球やゲームなど興味があることに関するデータを扱うのは楽しかったので、また機会があれば参加したいと考えています。