# 準備

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import datetime as dt
import seaborn as sns
%matplotlib inline

FILE_SAVE = True
DEFAULT_COLOR = '#1f77b4'

In [None]:
train = pd.read_csv('./data/train.tsv', sep='\t')
test = pd.read_csv('./data/test.tsv', sep='\t')

## 実行条件

In [None]:
# 可視化結果を保存するかどうか
FILE_SAVE_FLAG = False

## 可視化関数

### df_plot_frec

In [None]:
# 頻度（ヒストグラム＆箱ひげ図）
def df_plot_frec(df, cols=None):
    i = 1
    if cols==None:
        cols = df.columns
    
    for col in cols:
        if(df[col].dtype!=np.object):
            fig = plt.figure(figsize=(14,3))
            ax1 = fig.add_subplot(121)
            ax1.set_title(str(i)+ ' : ' +str(col) + ' histgram')
            ax2 = fig.add_subplot(122)
            ax2.set_title(str(i)+ ' : ' +str(col) + ' box plot')
            
            if df[col].nunique() > 20:
                ax1.hist(df[col], bins=20)
                ax2.boxplot(df[col])
            else:
                ax1.hist(df[col])
                ax2.boxplot(df[col])
        i+=1

### df_plot_frec_bar

In [None]:
# 頻度棒グラフ（ランキング対応可）
def df_plot_frec_bar(df, cols=None, val_rank=False, sort_index=False):
    i = 1
    if cols==None:
        cols = df.columns
    
    for col in cols:
        if(df[col].dtype!=np.object):
            
            if df[col].nunique()>40:
                figsz = (20, 3)
            else:
                figsz = (7, 3)
            fig = plt.figure(figsize=figsz)
            ax = fig.add_subplot(111)
            ax.set_title(str(i)+ ' : ' +str(col))
            
            if val_rank == True:
                df[col].value_counts().plot(kind='bar', color=DEFAULT_COLOR)
            elif sort_index == True:
                df[col].value_counts().sort_index().plot(kind='bar', color=DEFAULT_COLOR)
            else:
                df[col].value_counts(sort=False).plot(kind='bar', color=DEFAULT_COLOR)
           
        i+=1

### df_plot_bar

In [None]:
# 棒グラフ（ランキング対応可）
def df_plot_bar(df, cols=None, val_rank=False, sort_index=False):
    i = 1
    figsz = (30, 7)
    if cols==None:
        cols = df.columns
    
    for col in cols:
        if(df[col].dtype!=np.object):

            fig = plt.figure(figsize=figsz)
            ax = fig.add_subplot(111)
            ax.set_title(str(i)+ ' : ' +str(col))
            
            if val_rank == True:
                df[col].sort_values(ascending=False).plot(kind='bar', color=DEFAULT_COLOR)
            else:
                df[col].plot(kind='bar', color=DEFAULT_COLOR)
                
        i+=1

### df_plot_time

In [None]:
# 折れ線グラフ（時系列）
def df_plot_time(df, timer=None, cols=None):
    i = 1
    figsz = (10, 4)
    if cols==None:
        cols = df.columns
    
    for col in cols:
        if(df[col].dtype!=np.object):

            fig = plt.figure(figsize=figsz)
            ax = fig.add_subplot(111)
            ax.set_title(str(i)+ ' : ' +str(col))
            
            if timer == None:
                ax.plot(df.index, df[col])
            else:
                ax.plot(df[timer], df[col])
            
        i+=1

---

# データ確認

## train

In [None]:
# データサイズ
train.shape

In [None]:
# データサンプル
train.head()

In [None]:
# 基本統計量
train.describe()

In [None]:
# 型
train.dtypes

In [None]:
# ユニーク数
train.nunique()

In [None]:
# NA数
train.isna().sum()

In [None]:
# カラム
default_feature_train = train.columns
default_feature_train

In [None]:
# 車種列挙
train['car name'].unique()

### 数量

In [None]:
# index 通り
# df_plot_bar(train)

In [None]:
# ランキング
df_plot_bar(train, val_rank=True)

### 頻度

In [None]:
# ヒストグラム&箱ひげ図
df_plot_frec(train)

In [None]:
# 頻度ランキング
df_plot_frec_bar(train, val_rank=True)

In [None]:
# 値昇順にしたときの頻度の並び
#df_plot_frec_bar(train, sort_index=True)

### 相関

In [None]:
train.corr()

In [None]:
sns.heatmap(train.corr(), cmap='Blues')

In [None]:
# mpg の相関係数列挙
train.corr().mpg.abs().sort_values(ascending=False)

In [None]:
sns.pairplot(train.loc[:, ["mpg", "weight", "displacement", "horsepower", "cylinders"]])

In [None]:
sns.pairplot(train.loc[:, ["mpg", "weight", "displacement", "horsepower", "cylinders", "origin"]], hue="cylinders")

In [None]:
sns.pairplot(train.loc[:, ["mpg", "weight", "displacement", "horsepower", "cylinders", "origin"]], hue="origin")

#### 気になったデータ

In [None]:
# シリンダー=3 は1件しかない
train.loc[train.loc[:, "cylinders"]==3, :].sort_values("mpg", ascending=False).head()

In [None]:
# シリンダー=5 も1件しかない
train.loc[train.loc[:, "cylinders"]==5, :].sort_values("mpg", ascending=False).head()

In [None]:
# シリンダー=6 で突出してmpgが高い行が2件ある
train.loc[train.loc[:, "cylinders"]==6, :].sort_values("mpg", ascending=False).head()

### グルーピング検討

In [None]:
# モデル年は時系列でデータ確認するのに使えそう

In [None]:
# 同車種名で世代が分かれているかどうか確認した。分かれていなかったからグルーピングは難しいと考える。
train[train.loc[:, "car name"].str.contains("corona")]

## test

In [None]:
# データサイズ
test.shape

In [None]:
# データサンプル
test.head()

In [None]:
# 基本統計量
test.describe()

In [None]:
# 型
test.dtypes

In [None]:
# ユニーク数
test.nunique()

In [None]:
# NA数
test.isna().sum()

In [None]:
# カラム
default_feature_test = test.columns
default_feature_test

----

# 前処理 ＆ データ保存

## 必要最低限の処理

In [None]:
# 異常行削除
train = train.loc[train.loc[:, 'horsepower']!="?", :]
train.horsepower = train.horsepower.astype("float64")

In [None]:
# 保管
if FILE_SAVE:
    train.to_csv("./data/train_processed_00.csv")

## 精度向上のための処理1

In [None]:
# レアケース行削除
train = train.loc[train.loc[:, "cylinders"]!=3, :]
train = train.loc[train.loc[:, "cylinders"]!=5, :]
train = train.loc[~((train.loc[:, "cylinders"]==6) & (train.loc[:, "mpg"]>32)), :]

In [None]:
# 保管
if FILE_SAVE:
    train.to_csv("./data/train_processed_01.csv")

## 精度向上のための処理2

In [None]:
train.drop(columns=["acceleration", "origin"], inplace=True)

In [None]:
# 保管
if FILE_SAVE:
    train.to_csv("./data/train_processed_02.csv")

## 標準化

In [None]:
# スキップ

## 時系列データ（model yaer)

In [None]:
# 時系列データ化
train2 = train.copy()
train2['model year'] = pd.to_datetime("19" + train['model year'].astype('str'), format="%Y")
# モデル年ごとにグルーピング
#grouped = 
grouped = train2.drop(columns=["id", "origin"]).groupby(pd.Grouper(key='model year', freq='Y')).mean()
grouped

----

# 前処理後データ確認

## train

In [None]:
# データサイズ
train.shape

In [None]:
# データサンプル
train.head()

In [None]:
# 基本統計量
train.describe()

In [None]:
# 型
train.dtypes

In [None]:
# ユニーク数
train.nunique()

In [None]:
# NA数
train.isna().sum()

In [None]:
# カラム
default_feature_train = train.columns
default_feature_train

In [None]:
# 車種列挙
train['car name'].unique()

### 数量

In [None]:
# index 通り
# df_plot_bar(train)

In [None]:
# ランキング
# df_plot_bar(train, val_rank=True)

### 頻度

In [None]:
# ヒストグラム&箱ひげ図
df_plot_frec(train)

In [None]:
# 頻度ランキング
df_plot_frec_bar(train, val_rank=True)

In [None]:
# 値昇順にしたときの頻度の並び
# df_plot_frec_bar(train, sort_index=True)

### 相関

In [None]:
# 各列の特徴量
train.corr()

In [None]:
# 特徴量をヒートマップで可視化
sns.heatmap(train.corr(), cmap='Blues')

In [None]:
# 目的変数 mpg の相関係数列挙
train.corr().mpg.abs().sort_values(ascending=False)

強い相関

- 重量
- 排気量
- 馬力
- シリンダ数

mpg(燃費)との因果関係がある項目として、
感覚的に重量は間違いない。
排気量、馬力、シリンダ数もエンジンのパフォーマンスに影響するのでたぶん関はあるがよく分からない。
この辺は基礎集計を通して紐解いていきたい。

In [None]:
# 目的変数と強い相関を持つ変数の分布
sns.pairplot(train.loc[:, ["mpg", "weight", "displacement", "horsepower", "cylinders"]])

In [None]:
# 目的変数と強い相関を持つ変数の分布 シリンダ数で色分け
sns.pairplot(train.loc[:, ["mpg", "weight", "displacement", "horsepower", "cylinders", "origin"]], hue="cylinders")

mpg 行の分布から、きれいに分布が分かれているように見える。
シリンダ数が違う中でそれぞれ傾向が見える可能性がある。

In [None]:
# 目的変数と強い相関を持つ変数の分布 世代数で色分け
sns.pairplot(train.loc[:, ["mpg", "weight", "displacement", "horsepower", "cylinders", "origin"]], hue="origin")

シリンダ数の時と違って、mpg行の分布がきれいに色別れしない。
世代別の傾向は現れなかったと判断。

### 時系列

In [None]:
# モデルイヤー別、各変数の平均値
df_plot_time(grouped)

In [None]:
# モデルイヤー別のmpgヒストグラム
for x in train2.drop(columns=["id", "origin"]).groupby(pd.Grouper(key='model year', freq='Y')):
    #print(x[1].mpg)

    fig = plt.figure(figsize=(12,2))
    ax1 = fig.add_subplot(121)
    ax2 = fig.add_subplot(122)
    ax1.set_xlim([0, 40])
    if len(x[1]) > 20:
        ax1.hist(x[1].mpg, bins=20)
        ax2.boxplot(x[1].mpg)
    else:
        ax1.hist(x[1].mpg)
        ax2.boxplot(x[1].mpg)

## 追加調査：メーカー

In [None]:
maker_list = ["honda", "toyota", "subaru", "mazda", "suzuki", "volkswagen"]

In [None]:
def count_makers(df):
    n_sum=0
    for x in maker_list:
        n = len( df.loc[df.loc[:, 'car name'].str.contains(x), :])
        n_sum += n
        print(x + " :" + str(n))

    print("[sum]" + str(n_sum))

In [None]:
count_makers(train)

In [None]:
 train.loc[train.loc[:, 'car name'].str.contains("honda"), :]

In [None]:
 train.loc[train.loc[:, 'car name'].str.contains("toyota"), :]

In [None]:
 train.loc[train.loc[:, 'car name'].str.contains(""), :]

In [None]:
 train.loc[train.loc[:, 'car name'].str.contains("subaru"), :]

In [None]:
 train.loc[train.loc[:, 'car name'].str.contains("mazda"), :]

In [None]:
 train.loc[train.loc[:, 'car name'].str.contains("suzuki"), :]

## 追加調査：高mpg の傾向

In [None]:
# 実際よく予想をはずした 30以上から見ていく
train_30 = train.loc[train['mpg']>=30, :]

In [None]:
# 全体の25%
len(train_30), len(train_30)/len(train)*100

In [None]:
train_30['car name']

In [None]:
# トヨタやるやないか
count_makers(train_30)

In [None]:
# シリンダーは4のみ
train_30.cylinders.unique()

In [None]:
# シリンダー＝４のおよそ45％の割合
len(train_30) / (train.cylinders==4).sum() * 100

### 頻度

In [None]:
df_plot_frec(train_30)

モデルイヤーが新しい＝mpgが良い（低燃費）

### 相関

In [None]:
train_30.corr()

In [None]:
# 特徴量をヒートマップで可視化
sns.heatmap(train_30.corr(), cmap='Blues')

In [None]:
# 目的変数と強い相関を持つ変数の分布 世代数で色分け
sns.pairplot(train_30.loc[:, ["mpg", "weight", "displacement", "horsepower", "model year"]])

# 仮説

- シリンダー数の違いによって分布の傾向が出やすい傾向にある
  - より傾向を顕著にするよう、突出したデータを削除すれば一般的な予測精度が上がると考えられる