# データ収集

## 公式記録から勝敗データを収集

[公式記録](https://data.j-league.or.jp/)からデータを収集する。

APIとかで取得できるようにはなっていないので、HTMLをパースして加工しやすいような形式にすることを考える。

`https://data.j-league.or.jp/SFMS01/search?competition_years=<年度>&competition_frame_ids=<カテゴリ>`

In [1]:
import requests
from bs4 import BeautifulSoup

In [2]:
year = 2018
competition = 2
url = 'https://data.j-league.or.jp/SFMS01/search?competition_years='+ str(year) + '&competition_frame_ids=' + str(competition)

print("URL= " + url)
resp = requests.get(url)
#print(resp.text)

URL= https://data.j-league.or.jp/SFMS01/search?competition_years=2018&competition_frame_ids=2


HTMLを直接見ると、tableタグのデータを見れば良さそう。

Tableタグの取得は、pandasで簡単に取れるらしい([参考](https://qiita.com/kitsuyui/items/4906bb457af4d0e2d0a5))ので、これを使う。

In [3]:
import pandas as pd
from IPython.core.display import display
dfs = pd.io.html.read_html(url)
dfs[0] = dfs[0].drop(['インターネット中継・TV放送','入場者数'],axis=1) # 結果に関係なさそうな放送局と入場者数はこの時点で削除しておく
display(dfs[0])

Unnamed: 0,年度,大会,節,試合日,K/O時刻,ホーム,スコア,アウェイ,スタジアム
0,2018,Ｊ２,第１節第１日,02/25(日),13:04,福岡,2-0,岐阜,レベスタ
1,2018,Ｊ２,第１節第１日,02/25(日),14:03,栃木,2-4,大分,栃木グ
2,2018,Ｊ２,第１節第１日,02/25(日),14:03,愛媛,1-2,金沢,ニンスタ
3,2018,Ｊ２,第１節第１日,02/25(日),14:03,東京Ｖ,2-1,千葉,味スタ
4,2018,Ｊ２,第１節第１日,02/25(日),14:03,讃岐,0-1,新潟,ピカスタ
5,2018,Ｊ２,第１節第１日,02/25(日),14:03,水戸,3-0,山形,Ｋｓスタ
6,2018,Ｊ２,第１節第１日,02/25(日),14:03,横浜FC,0-0,松本,ニッパツ
7,2018,Ｊ２,第１節第１日,02/25(日),14:05,徳島,0-1,岡山,鳴門大塚
8,2018,Ｊ２,第１節第１日,02/25(日),15:03,京都,0-2,町田,西京極
9,2018,Ｊ２,第１節第１日,02/25(日),15:34,山口,4-1,熊本,みらスタ


ここまでで、[download.py](download.py)の関数download_resultを作成したので、これで試してみる。

In [4]:
import download
df = download.download_result(year=1992)
display(df)

Unnamed: 0,年度,大会,節,試合日,K/O時刻,ホーム,スコア,アウェイ,スタジアム,入場者数,インターネット中継・TV放送
0,1992,ＹＮＣ,第１節第１日,09/05(土),15:00,鹿島,4-2,横浜Ｆ,笠松,5226,
1,1992,ＹＮＣ,第１節第１日,09/05(土),15:30,名古屋,3-0,清水,瑞穂球,8029,
2,1992,ＹＮＣ,第１節第１日,09/05(土),18:02,浦和,2-3,市原,大宮,4934,
3,1992,ＹＮＣ,第１節第１日,09/05(土),19:00,Ｇ大阪,2-0,横浜M,神戸中央,4728,
4,1992,ＹＮＣ,第１節第２日,09/06(日),19:00,広島,2-3,Ｖ川崎,広島ス,13861,
5,1992,ＹＮＣ,第２節第１日,09/09(水),18:30,広島,2-3,浦和,広島ス,3128,
6,1992,ＹＮＣ,第２節第１日,09/09(水),19:00,鹿島,4-3,Ｖ川崎,国立,18009,
7,1992,ＹＮＣ,第２節第１日,09/09(水),19:00,清水,2-1,横浜M,日本平,8032,
8,1992,ＹＮＣ,第２節第１日,09/09(水),19:00,名古屋,2-1,横浜Ｆ,瑞穂球,5165,
9,1992,ＹＮＣ,第２節第１日,09/09(水),19:00,Ｇ大阪,1-0,市原,神戸中央,2760,


CSVとかでいいけど、最近データベースを勉強中なのでsqlite3に保存してみる  
pandasのDataFrameはto_sqlメソッドでSQLに変換可能らしい([参考](http://www.stockdog.work/entry/2017/03/22/010057))。

保存場所として、data/jleague.dbとするものとした。  
この場合、dataフォルダが存在しない場合は作ることにする。

In [5]:
import sqlite3
import os
db_name = "data/test.db"
if os.path.exists('data') == False:
    os.mkdir('data')
conn = sqlite3.connect(db_name) # DB接続
dfs[0].to_sql("result", conn, if_exists='replace') # DFをDBに変換

ここまでで、download_all_resultsにした。

download_all_resultsは、1992年～2017年のデータを取得し、sqlite(data/jleague.db)に変換する。  
jleague.dbのresultというデータベースに、取得した結果を格納する。

In [6]:
download.download_all_results()

生成されたDBを見てみる。

In [7]:
import sqlite3
import pandas as pd
db_name = 'data/jleague.db'
conn = sqlite3.connect(db_name)
df = pd.read_sql("select * from result", conn)
conn.close()

display(df)

Unnamed: 0,index,年度,大会,節,試合日,K/O時刻,ホーム,スコア,アウェイ,スタジアム,入場者数,インターネット中継・TV放送
0,0,1992,ＹＮＣ,第１節第１日,09/05(土),15:00,鹿島,4-2,横浜Ｆ,笠松,5226.0,
1,1,1992,ＹＮＣ,第１節第１日,09/05(土),15:30,名古屋,3-0,清水,瑞穂球,8029.0,
2,2,1992,ＹＮＣ,第１節第１日,09/05(土),18:02,浦和,2-3,市原,大宮,4934.0,
3,3,1992,ＹＮＣ,第１節第１日,09/05(土),19:00,Ｇ大阪,2-0,横浜M,神戸中央,4728.0,
4,4,1992,ＹＮＣ,第１節第２日,09/06(日),19:00,広島,2-3,Ｖ川崎,広島ス,13861.0,
5,5,1992,ＹＮＣ,第２節第１日,09/09(水),18:30,広島,2-3,浦和,広島ス,3128.0,
6,6,1992,ＹＮＣ,第２節第１日,09/09(水),19:00,鹿島,4-3,Ｖ川崎,国立,18009.0,
7,7,1992,ＹＮＣ,第２節第１日,09/09(水),19:00,清水,2-1,横浜M,日本平,8032.0,
8,8,1992,ＹＮＣ,第２節第１日,09/09(水),19:00,名古屋,2-1,横浜Ｆ,瑞穂球,5165.0,
9,9,1992,ＹＮＣ,第２節第１日,09/09(水),19:00,Ｇ大阪,1-0,市原,神戸中央,2760.0,


全18118レコード取得可能。

## Football-Labからデータを収集

[Football-Lab](http://www.football-lab.jp/)はJリーグのデータ分析で有名なデータスタジアムが運営するWebサイト。  
勝敗データだけでなく、得点がどんな得点だったか/チームとして志向するスタイル等が見えるデータを提供している。

### 提供しているデータ

提供されているデータの中から、チーム毎のデータとして、シーズン毎の
* Team Data
  * 順位表
  * チャンス構築率
  * 得点パターン
  * 失点パターン
  * ボール支配率
* チームスタイル指標
  * ショートカウンター
  * ロングカウンター
  * 敵陣ポゼッション
  * 自陣ポゼッション
  * 左サイド攻撃
  * 中央攻撃
  * 右サイド攻撃
* チャンスビルディングポイント
  * 攻撃
  * パス
  * ドリブル
  * クロス
  * シュート
  * 守備
  * セーブ

を収集してみる。

### Team Data: 順位表

現時点の順位表データを取得する。

In [1]:
import pandas as pd
def get_rank_table(competition=1, year=2018):
    url = "http://www.football-lab.jp/summary/team_ranking/j" + str(competition) + "/?year=" + str(year)
    dfs = pd.io.html.read_html(url)
    df = dfs[0].drop("Unnamed: 1",axis=1).rename(columns={"Unnamed: 2":"チーム"})
    return df

In [2]:
rank = get_rank_table(competition=1, year=2017)
#display(rank)

チーム名がおかしいが、省略しないチーム名+省略名(公式データの省略名と同じ)になっているようなので、
公式データのチーム名と比較することにする。

In [3]:
import download
df = download.get_db_data()

In [4]:
teams = pd.concat([df["ホーム"],df["アウェイ"]]).drop_duplicates()
#display(teams)

In [5]:
for i in range(len(rank["チーム"])):
    for team in teams:
        if rank.loc[i, "チーム"].endswith(team) is True:
            rank.loc[i, "チーム"] = team
            print(rank["チーム"].iloc[i])

川崎Ｆ
鹿島
Ｃ大阪
柏
横浜FM
磐田
浦和
鳥栖
神戸
Ｇ大阪
札幌
仙台
FC東京
清水
広島
甲府
新潟
大宮


In [6]:
import download
rank = download.fl_get_rank(1,2018)
#display(rank)

### Team Data:チャンス構築率

|データ項目|プレー定義|
|----------|----------|
|攻撃(回数)|ある特定の状況において例外はあるものの、ボールを保持してから相手チームに渡る、<br>もしくはファウルやボールアウトで試合が止まるまでの間を１回の攻撃とする|
|シュート|データスタジアムが独自に集計したシュート数であり、公式記録の数値とは異なる|
|チャンス構築率|上記のシュート数÷攻撃回数により算出|
|ゴール|得点となったシュートの数。オウンゴールは含まれない|
|シュート成功率|上記のゴール数÷シュート数により算出|

In [7]:
url = "http://www.football-lab.jp/summary/team_ranking/j1/?year=2018&data=chance"
dfs = pd.io.html.read_html(url)
print(dfs)

[    Unnamed: 0     Unnamed: 1   攻撃回数 Unnamed: 3  シュート Unnamed: 5 チャンス構築率  \
0          NaN  北海道コンサドーレ札幌札幌  117.5      (15位)  14.6       (2位)   12.4%   
1          NaN       ベガルタ仙台仙台  127.7       (3位)  11.9      (13位)    9.3%   
2          NaN     鹿島アントラーズ鹿島  127.8       (2位)  13.7       (7位)   10.7%   
3          NaN        浦和レッズ浦和  117.9      (13位)  13.5       (8位)   11.4%   
4          NaN         柏レイソル柏  128.5       (1位)  14.6       (2位)   11.3%   
5          NaN       ＦＣ東京FC東京  119.5      (12位)  12.9      (11位)   10.8%   
6          NaN    川崎フロンターレ川崎Ｆ  116.3      (18位)  15.5       (1位)   13.4%   
7          NaN   横浜Ｆ・マリノス横浜FM  126.7       (4位)  14.1       (5位)   11.1%   
8          NaN      湘南ベルマーレ湘南  123.5       (7位)  11.7      (14位)    9.5%   
9          NaN      清水エスパルス清水  123.8       (6位)  11.6      (15位)    9.4%   
10         NaN       ジュビロ磐田磐田  121.0      (10位)  13.4       (9位)   11.1%   
11         NaN    名古屋グランパス名古屋  122.5       (9位)  10.9      (17位)    8.9%   
12         

In [8]:
def get_chance_rate(competition=1, year=2018):
    url = "http://www.football-lab.jp/summary/team_ranking/j" + str(competition) + "/?year=" + str(year) + "&data=chance"
    dfs = pd.io.html.read_html(url)
    attack = dfs[0].drop("Unnamed: 0",axis=1)
    attack = attack.drop("Unnamed: 3",axis=1)
    attack = attack.drop("Unnamed: 5",axis=1)
    attack = attack.drop("Unnamed: 7",axis=1)
    attack = attack.drop("Unnamed: 9",axis=1)
    attack = attack.drop("Unnamed: 11",axis=1)
    attack = attack.rename(columns={"Unnamed: 1":"チーム"})
    defense = dfs[2].drop("Unnamed: 0",axis=1)
    defense = defense.drop("Unnamed: 3",axis=1)
    defense = defense.drop("Unnamed: 5",axis=1)
    defense = defense.drop("Unnamed: 7",axis=1)
    defense = defense.drop("Unnamed: 9",axis=1)
    defense = defense.drop("Unnamed: 11",axis=1)
    defense = defense.rename(columns={"Unnamed: 1":"チーム"})
    return attack, defense

In [9]:
atk, dfe = get_chance_rate()
#display(atk)

In [10]:
atk, dfe = download.fl_get_chance_rate(competition=1,year=2018)
display(atk)

Unnamed: 0,チーム,攻撃回数,シュート,チャンス構築率,ゴール,シュート成功率
0,札幌,117.5,14.6,12.4%,1.3,9.0%
1,仙台,127.7,11.9,9.3%,1.4,11.7%
2,鹿島,127.8,13.7,10.7%,1.3,9.8%
3,浦和,117.9,13.5,11.4%,1.3,9.4%
4,柏,128.5,14.6,11.3%,1.0,6.9%
5,FC東京,119.5,12.9,10.8%,1.3,10.5%
6,川崎Ｆ,116.3,15.5,13.4%,1.4,8.8%
7,横浜FM,126.7,14.1,11.1%,1.6,11.6%
8,湘南,123.5,11.7,9.5%,1.0,8.5%
9,清水,123.8,11.6,9.4%,1.3,11.3%


### Team Data: ゴールパターン&失点パターン

テーブル属性ではないので、Beautifulsoupで収集。

In [11]:
from pprint import pprint
import requests
import re
import ast
from bs4 import BeautifulSoup,Comment

url = "http://www.football-lab.jp/summary/team_ranking/j1/?year=2018&data=goal"

response = requests.get(url)
bs = BeautifulSoup(response.content,"lxml")
test=str(bs.find(string=re.compile("function drawChart")))

tbl = re.search(r'arrayToDataTable\((.*?)\)', test, flags=re.DOTALL|re.MULTILINE).group(1)
pd.DataFrame(ast.literal_eval(tbl))

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10
0,チーム,ＰＫ,セットプレー直接,セットプレーから,クロスから,スルーパスから,ショートパスから,ロングパスから,ドリブルから,こぼれ球から,その他
1,広島,4,1,10,8,0,4,0,3,6,1
2,横浜FM,3,2,9,7,0,5,0,5,4,1
3,仙台,1,0,9,5,1,3,1,5,4,4
4,FC東京,3,1,6,6,4,4,1,3,2,3
5,鹿島,3,1,5,6,4,4,0,2,5,1
6,神戸,0,1,7,4,4,4,0,5,4,2
7,川崎Ｆ,1,1,5,7,2,6,1,3,2,3
8,札幌,0,0,6,10,2,6,1,3,1,1
9,Ｃ大阪,1,4,10,0,1,3,1,4,1,5


In [16]:
download.fl_get_goal_pattern(competition=2, year=2018)

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10
0,チーム,ＰＫ,セットプレー直接,セットプレーから,クロスから,スルーパスから,ショートパスから,ロングパスから,ドリブルから,こぼれ球から,その他
1,大分,3,1,5,12,6,8,2,2,4,7
2,千葉,5,0,14,14,1,6,0,2,5,2
3,町田,1,1,19,7,3,9,0,2,1,5
4,大宮,5,5,7,8,5,9,2,6,0,0
5,山口,2,0,7,11,2,8,3,4,6,4
6,甲府,2,0,12,5,4,6,0,7,4,5
7,横浜FC,2,2,11,13,1,10,0,0,2,1
8,松本,3,1,14,4,1,5,3,5,3,3
9,東京Ｖ,1,0,12,8,5,2,3,3,3,2


### Team Data: ボール支配率



In [13]:
url = "http://www.football-lab.jp/summary/team_ranking/j1/?year=2017&data=possession"
response = requests.get(url)
bs = BeautifulSoup(response.content,"lxml")
test=str(bs.find(string=re.compile("function drawChart"))).replace("(%)","%")    # なぜか(%)のところが変換できないので文字列として変換
tbl = re.search(r'arrayToDataTable\((.*?)\)', test, flags=re.DOTALL|re.MULTILINE).group(1)
tbl = re.sub(", \{.+?\}","", tbl)   # annotation属性が残ってしまうので削除
col = ast.literal_eval(tbl)[0]
col.append("dummy")
pd.DataFrame(ast.literal_eval(tbl)[1:],columns=col).drop("dummy",axis=1) # 不必要な列があるのでdummyと命名して削除

Unnamed: 0,チーム,ボール支配率%
0,浦和,59.6
1,川崎Ｆ,56.2
2,鹿島,53.6
3,柏,53.3
4,Ｇ大阪,52.5
5,仙台,52.5
6,広島,52.4
7,FC東京,50.3
8,横浜FM,50.2
9,神戸,49.8


In [15]:
download.fl_get_possession(competition=2,year=2018)

Unnamed: 0,チーム,ボール支配率%
0,千葉,60.2
1,岐阜,59.9
2,徳島,57.3
3,東京Ｖ,53.2
4,山口,52.2
5,大分,51.3
6,大宮,50.9
7,新潟,50.9
8,熊本,50.6
9,甲府,49.0
