# Explorary Data Analysis (EDA)
EDAを行うことにより  
・データを理解するのに役立つ  
・データに対する直感を立てる  
・ターゲットデータへの仮説を作ることができる  
・新しいデータ作成のための洞察を得ることができる。
## Visualization
可視化はEDAで最も役にたつ手法  
データに対する仮説を立てることが可能。magic featuresを見つけることができる。  
まずは初めにEDAを行う。モデルの作成から行ってはいけない。
<img src="images/eda1.png" width='300px'>

## EDAの流れ
### 1. データのdomainについて理解を得る。
自分が行なおうとしている領域に対して、それぞれの特徴量がどのような意味を持っているのか理解する。  
kaggleは様々な分野の問題がでるので、その都度特徴量の意味をきちんと理解する必要がある。  
### 2. データが妥当かどうか調べる
データのdomainについての理解を得ることができれば、各カラムの特徴量の値が、その特徴量の持つ意味合いを考えて妥当な値かどうかチェックする。  
ex) ageの特徴量に200という値がある場合は、除外する必要がある。
### 3. データがどのように作成されたのか調べる
訓練データとテストデータが異なる方法で作成されていた場合、検証データを訓練データから作成することができない。  
データが作られた背景を調べることは、適切な評価を行う上で重要になる

## 匿名化されたデータの扱い
企業が情報を公開したくないため、データのカラム名をダミーの名前にしたり、文字列をハッシュ化させた値を使用しているデータのことを言う。  
### 1. 各特徴量を調べる
・カラムの意味を推測する  
・カラムのタイプを推測する。
categorical, numeric, text特徴量か調べることが最も重要。  
流れは、まずはdf.head()で特徴量の様子を確認し、ラベルエンコーディングで文字列データを分類器にかけられるように直してから、ランダムフォレストに入れる。そして、重要な特徴量は何だったかを確認して、重要な特徴量を具体的にスケーリングしながら確認する。
### 2. 特徴量の関係性を調べる  
・ペアごとの関係を明らかにする  
・特徴量のグループを明らかにする。  
<img src="images/eda2.png" width='300px'>
### 便利なPandas機能  
df.dtypes  
df.info()  
x.value_counts()  
x.isnull()

## Visualizations
## 各特徴量ごとの様子を確認
### histograms
ヒスグラムはデータの分布をみる最も簡単な方法。ヒストグラムの欠点は、表示するスケールによっては、データの偏りを誤解してしまう可能性がある。  
複数のプロットをする必要があるので注意。  
下の図のピークは欠損値に平均の値を入れていることを表す。こういった場合は、欠損値を表す値（-999）などを入れるなどをする。
<img src="images/visualization1.png" width='300px'>
### 単純なプロット plt. plot()
### 統計データ
df.describe()
### 要素数のカウント
x.value_counts()

## 特徴量間の関係を確認
### 散布図　scatterplot
二つの特徴量間での分布の様子を可視化。  
訓練データとテストデータを同時にプロットしたときに、分布が似ていなければ何か問題があるとわかる。
<img src="images/visualization2.png" width='300px'>
### ヒートマップ図
各特徴量間の相関関係を表したグラフ。  
特徴量をグループ分けし、新しい特徴量を作成する際に役に立つ
<img src="images/visualization3.png" width='300px'>
### 平均の値でプロット
df.mean().plot(style='.') 各特徴量ごとの平均値でプロットすることで、グループ分けが行いやすくなる
<img src="images/visualization4.png" width='300px'>
df.mean().sort_values().plot(style='.')
<img src="images/visualization5.png" width='300px'>


## Dataset Cleaning and other things to checks
## Duplicated and constant features
### ・要素が一つしかない特徴量  
train.unique()==1  
訓練データは一定値だが、テストデータには訓練データに存在しなかった要素がある場合、問題は複雑となる。  
新しい特徴量を作るか、取り除くことによって対応する必要がある。  
### ・重複している特徴量
別の特徴量と重複している場合は、モデルの性能に寄与せず、訓練時間を延ばすだけので削除する  
数値データの場合はtrain.T.drop_duplicates()  
categorical特徴量の場合は、見た目は異なっていても、内容は全く同じ内容の場合があるので注意する。  
for f in categorical_features:  
　　trainf[f]=train[f].factorize()  
　　train.T.drop_duplicates()　　
<img src="images/visualization6.png" width='300px'>  

# Validation and overfitting
validationを十分におこなわないと、プライベートテストデータで大きく順位を下げることになる。  
モデルが訓練データセットに対して適応しすぎると汎化性能を失う。
<img src="images/validation1.png" width='400px'> 
## validation type
### 1. Holdout
sklearn.model_selection.ShuffleSplit  
データを単純に訓練データと検証データに分ける方法  
### 2. kFold
データを訓練データと検証データに、k回分け、検証データの平均値をとる。  
学習時間がk倍になるので注意
### 3. strafication
各ラベルが均等に分配されるように分割される。kFoldよりも有効性が高い  

## Validation Strategy
時系列データで検証データを作成する際は、モデルが未来のデータに対する予測を行うものなので、時間軸で後ろのほうのデータを検証データにする必要がある。
<img src="images/validation2.png" width='400px'>  

### 1. random,rowwise
順番をシャッフルして検証データに分ける。
### 2. timewise
時系列データでは、未来の予測になるように検証データを分ける
### 3. By ID
Id-based split。データセットのIDを基準にして分ける。