# 文字列を数字に変換
0202_Preprocessing_niko.ipynbを読み込んで加工
- 機械学習でモデルにデータを渡す際には、データの全てが数値であることが求められる
- 特徴量となるデータを、文字列から数字に変換する

## ライブラリのインポート

In [14]:
import pandas as pd
import numpy as np
from matplotlib import pyplot as plt
%matplotlib inline
plt.rcParams["font.family"] = "IPAexGothic" # 日本語の文字化け防止
import seaborn as sns
sns.set(font="IPAexGothic",style="darkgrid")
pd.set_option("display.max_columns", 50) #jupyter notebook上で表示できるカラム数を50に設定

from sklearn.preprocessing import LabelEncoder # 文字列を数値にする

## データの読み込み

In [15]:
train = pd.read_csv("data/create/train_all_column_addition.csv")
test = pd.read_csv("data/create/test_all_column_addition.csv")
sample = pd.read_csv("data/received/sample_submit.csv",header=None)

In [16]:
train.head(1)

Unnamed: 0,id,y,year,stage,match,gameday,time,home,away,stadium,tv,home_score,away_score,weather,temperature,humidity,referee,home_team,home_01,home_02,home_03,home_04,home_05,home_06,home_07,...,away_05,away_06,away_07,away_08,away_09,away_10,away_11,address,capa,tv_num,home_lat,home_long,away_lat,away_long,distance_km,mobilization,stage_stadium,stadium_mobilization,MONTH,WEEK,timezone,WEEK_timezone_num,nhk,WEATHER,temp_condition
0,13994,18250,2012,Ｊ１,第１節第１日,03/10(土),14:04,ベガルタ仙台,鹿島アントラーズ,ユアテックスタジアム仙台,スカパー／ｅ２／スカパー光／ＮＨＫ総合,1,0,雨,3.8,66%,木村　博之,ベガルタ仙台,林　卓人,菅井　直樹,鎌田　次郎,上本　大海,田村　直也,富田　晋伍,角田　誠,...,アレックス,青木　剛,増田　誓志,小笠原　満男,本山　雅志,大迫　勇也,ジュニーニョ,宮城県仙台市泉区七北田字柳78,19694,4,38.319158,140.881857,35.992776,140.641766,259.062331,0.926678,Ｊ１ユアテックスタジアム仙台,0.766782,3,土,1,土1,1,雨,1.2


In [17]:
train.dtypes

id                        int64
y                         int64
year                      int64
stage                    object
match                    object
gameday                  object
time                     object
home                     object
away                     object
stadium                  object
tv                       object
home_score                int64
away_score                int64
weather                  object
temperature             float64
humidity                 object
referee                  object
home_team                object
home_01                  object
home_02                  object
home_03                  object
home_04                  object
home_05                  object
home_06                  object
home_07                  object
home_08                  object
home_09                  object
home_10                  object
home_11                  object
away_team                object
away_01                  object
away_02 

## 特徴量として使いたい列を、数字にする
- 'stage', 'WEEK', 'home', 'away', 'WEATHER', 'WEEK_timezone_num'
  - 辞書を作って同じ番号を反映させる
- 'stadium'
  - `LabelEncoder`を使って、数字を作る

### stage

In [18]:
train["0J1_1J2"] = train["stage"].apply(lambda x : 0 if x=='Ｊ１' else 1)
train["0J1_1J2"]

0       0
1       0
2       0
3       0
4       0
       ..
1947    1
1948    1
1949    1
1950    1
1951    1
Name: 0J1_1J2, Length: 1952, dtype: int64

### WEEK

In [19]:
week_dic ={"月":0, "火":1, "水":2, "木":3, "金":4, "土":5, "日":6}
train["WEEK_num"] = train["WEEK"].apply(lambda x : week_dic.get(x) )
train["WEEK_num"]

0       5
1       5
2       5
3       5
4       5
       ..
1947    2
1948    2
1949    2
1950    2
1951    2
Name: WEEK_num, Length: 1952, dtype: int64

### homeとaway
- チーム名に対する番号の辞書を作り、home列とaway列に反映させる

In [20]:
team_list = train['home'].drop_duplicates() # 43チーム
num_list = [ _ for _ in range(0,43)]
team_dic = dict(zip(team_list, num_list))
team_dic

{'ベガルタ仙台': 0,
 '名古屋グランパス': 1,
 'ガンバ大阪': 2,
 'サンフレッチェ広島': 3,
 'コンサドーレ札幌': 4,
 'サガン鳥栖': 5,
 '川崎フロンターレ': 6,
 '大宮アルディージャ': 7,
 '柏レイソル': 8,
 '鹿島アントラーズ': 9,
 '浦和レッズ': 10,
 '横浜Ｆ・マリノス': 11,
 'アルビレックス新潟': 12,
 'セレッソ大阪': 13,
 '清水エスパルス': 14,
 'ジュビロ磐田': 15,
 'ヴィッセル神戸': 16,
 'ＦＣ東京': 17,
 '水戸ホーリーホック': 18,
 '東京ヴェルディ': 19,
 'ヴァンフォーレ甲府': 20,
 'ＦＣ岐阜': 21,
 'ファジアーノ岡山': 22,
 'アビスパ福岡': 23,
 '大分トリニータ': 24,
 'ジェフユナイテッド千葉': 25,
 '愛媛ＦＣ': 26,
 '湘南ベルマーレ': 27,
 'ギラヴァンツ北九州': 28,
 '栃木ＳＣ': 29,
 'ＦＣ町田ゼルビア': 30,
 '松本山雅ＦＣ': 31,
 '徳島ヴォルティス': 32,
 'ザスパ草津': 33,
 '横浜ＦＣ': 34,
 'ロアッソ熊本': 35,
 '京都サンガF.C.': 36,
 'モンテディオ山形': 37,
 'ガイナーレ鳥取': 38,
 'カターレ富山': 39,
 'ザスパクサツ群馬': 40,
 'Ｖ・ファーレン長崎': 41,
 'カマタマーレ讃岐': 42}

In [21]:
train["home_num"] = train["home"].apply(lambda x : team_dic.get(x) )
train["away_num"] = train["away"].apply(lambda x : team_dic.get(x) )
train["away_num"]

0        9
1       14
2       16
3       10
4       15
        ..
1947    42
1948    22
1949    27
1950    29
1951    28
Name: away_num, Length: 1952, dtype: int64

### WEATHER

In [22]:
week_dic ={"雪":0, "屋":1, "曇":2, "雨":3, "晴":4}
train["WEATHER_num"] = train["WEATHER"].apply(lambda x : week_dic.get(x) )
train["WEATHER_num"]

0       3
1       1
2       4
3       2
4       1
       ..
1947    4
1948    4
1949    2
1950    3
1951    4
Name: WEATHER_num, Length: 1952, dtype: int64

### WEEK_num + timezone_num

In [23]:
train['WEEK_timezone_num'] = train.apply(lambda x: f"{x['WEEK_num']}{x['timezone']}", axis=1)

### stadium
ラベルエンコーディングを行うために、`LabelEncoder`クラスをインスタンス化  
`fit()`によりstadium列に対してラベルエンコーディングを行う  
`transform()`で数値へ変換

In [24]:
enc = LabelEncoder()
enc.fit_transform(train["stadium"].values)
train["stadium_num"] = enc.fit_transform(train["stadium"].values)
train["stadium_num"]

0       15
1       48
2       17
3        3
4       36
        ..
1947    13
1948    32
1949    16
1950    26
1951    40
Name: stadium_num, Length: 1952, dtype: int64

### testも同様に行う

In [25]:
# stage
test["0J1_1J2"] = test["stage"].apply(lambda x : 0 if x=='Ｊ１' else 1)

# WEEK
test["WEEK_num"] = test["WEEK"].apply(lambda x : week_dic.get(x) )

# homeとaway
test["home_num"] = test["home"].apply(lambda x : team_dic.get(x) )
test["away_num"] = test["away"].apply(lambda x : team_dic.get(x) )

# WEATHER
test["WEATHER_num"] = test["WEATHER"].apply(lambda x : week_dic.get(x) )
test["WEATHER_num"]

# WEEK_num + timezone_num
test['WEEK_timezone_num'] = test.apply(lambda x: f"{x['WEEK_num']}{x['timezone']}", axis=1)

# stadium
enc = LabelEncoder()
enc.fit_transform(test["stadium"].values)
test["stadium_num"] = enc.fit_transform(test["stadium"].values)
test["stadium_num"]

0      14
1      36
2      22
3      28
4       6
       ..
308    24
309    17
310    42
311    15
312    23
Name: stadium_num, Length: 313, dtype: int64

In [26]:
#文字コードをutf8に統一する為に、encoding="utf8"というオプションを記載
train.to_csv("data/create/train_all_column_addition_0203.csv",index=None,encoding="utf8")
test.to_csv("data/create/test_all_column_addition_0203.csv",index=None,encoding="utf8")