## データ分析の流れ・よく使うコマンド

①データの読み込み・確認
1. データの読み込み
<p>read_csv()

2. データ精査
<p>df.head()
<p>df.shape()

3. 欠損値・外れ値の確認
<p>df.isnull()
<p>df.isnull().sum()
<p>ddf.rop(columns='')
<p>df.dropna()


---


②データの特徴把握(統計量とデータの可視化)
1. 変数の分布・値の確認
<p>df.descrive()
<p>df.type(data)
<p>df.plot.hist(title='')
<p>df.value_counts()
<p>df.plot.bar(title='')

2. 変数間の相関
<p>df.corr()
<p>sns.heatmap()
<p>plt.scatter(,)
<p>plt.xlabel('')
<p>plt.ylabel('')
<p>df.info()
<p>sns.boxplot(横軸に割り当てたいカラム, 縦軸に割り当てたいカラム,data=分析対象のデータが代入されているDataFrame)


---


③予測モデルの作成
1. 学習・評価データの分割
<p>df[['カラム1','カラム2','カラム3']]
<p>from sklearn.model_selection import train_test_split
<p>X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=, random_state= )

2. 評価関数の定義
<p>np.array()
<p>np.power(a,2) # aを2乗
<p>np.sum()
<p>len()
<p>np.sqrt()
<p>from sklearn.metrics import mean_squared_error as MSE
<p>MSE(実績値, 予測値)

3. モデルの学習
<p>from sklearn.linear_model import LinearRegression as LR
<p>model = LR()
<p>model.fit(X,y)
<p>model.predict(X)

4. モデルの精度評価
RMSE = np.sqrt(MSE(実績値, 予測値))
    1. グラフのサイズを指定し、グラフの大きさを正方形になるように設定する
    2. 横軸を実測値、縦軸を予測値として、散布図を描く
    3. 値域を揃える為に、y_test、y_pred_testの両方を見た上での最小値と最大値を求める
    4. 最小値と最大値を使い、x軸およびy軸の値域を指定する
    5. 対角線を描く
<p>plt.figure(figsize=(横の大きさ, 縦の大きさ))
<p>plt.scatter(x,y)
<p>np.max(X)
<p>np.min(X)
<p>np.maximum(A,B)
<p>p.minimum(A,B)
<p>plt.xlim([xmin, xmax])
<p>plt.ylim([ymin, ymax])
<p>plt.plot([x1,x2],[y1,y2])
<p>plt.xlabel('')
<p>plt.ylabel('')


---


④予測モデルの予測精度改善
1. ダミー変数化
<p>pd.get_dummies(X)
    <p>1. 目的変数と説明変数を表す変数を作成し、説明変数については必要があればダミー変数化をする
    <p>2. 学習データと評価データに分割する
    <p>3. モデルの箱を表す変数を作成し、目的変数・説明変数を用いて、モデルを学習する
    <p>4. 学習済みモデルと説明変数を用いて、学習および評価データに対する予測値を算出する
    <p>5. それぞれの予測値と評価関数を用いて、モデルの予測精度を評価する

2. 対数化
<p>np.log(DataFrameを代入した変数['対数化したいカラム名'])

In [None]:
# ライブラリのimport
import pandas as pd
import numpy as np
from matplotlib import pyplot as plt
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression as LR
from sklearn.metrics import mean_square_error as MSE

# データの読み込み
data = pd.read_csv('data.tsv', sep='\t')

# idの削除
data = data.drop(columns=['id'])

# 欠損値を含む行の削除
data = data.dropna()

# 目的変数と説明変数の準備
X = data[['cylinders','displacement','horsepower','acceleration','model_year','origin']]
y = data['kpl']

# 学習用データと評価用データの分割
X_train, X_test, y_train, y_test = train_test_split(X,y,random_state=32)

# モデルの箱を準備
lr = LR()

# モデルを学習
lr.fit(X_train, y_train)

# モデルから予測結果を求める
y_pred_train = lr.predict(X_train)
y_pred_test = lr.predict(X_test)

# 散布図の描画
plt.figure(figsize=(5,5))
plt.scatter(y_test,y_pred_test)

# y_test及びy_pred_testの最小値・最大値を求める
test_max = np.max(y_test)
test_min = np.min(y_test)
pred_max = np.max(y_pred_test)
pred_min = np.min(y_pred_test)

# それぞれの値を比較し、最終的な最小値・最大値を求める
max_value = np.maximum(test_max, pred_max)
min_value = np.minimum(test_min, pred_min)

# x軸およびy軸の値域を指定する
plt.xlim([min_value,max_value])
plt.ylim([min_value,max_value])

# 対角線を引く
plt.plot([min_value, max_value],[min_value,max_value])

# x軸とy軸に名前を付ける
plt.xlabel('実績値')
plt.ylabel('予測値')

# 可視化結果を表示する為に必要な関数
plt.show()

In [None]:
#ライブラリのimport
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression as LR
from sklearn.metrics import mean_squared_error as MSE

# データの読み込み
data = pd.read_csv('data.tsv', sep='\t')

# idの削除
data = data.drop(columns=['id'])

# 欠損値を含む行の削除
data = data.dropna() 

# 対数化
data['displacement_log']= np.log(data['displacement'])

# 目的変数及び説明変数を表す変数の準備
y = data['kpl'] # 目的変数
X = data[['cylinders','horsepower','acceleration','model_year','origin','drive_system','displacement_log']] # 説明変数
X = pd.get_dummies(X) # 各説明変数のダミー変数化

# データの分割
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state = 1)

# モデルの箱の準備および学習
lr = LR()
lr.fit(X_train, y_train)

# 予測値の算出
y_pred_train = lr.predict(X_train)
y_pred_test = lr.predict(X_test)

# MSEの算出
mse_train = MSE(y_train, y_pred_train)
mse_test = MSE(y_test, y_pred_test)

# RMSEの算出
rmse_train = np.sqrt(mse_train)
rmse_test = np.sqrt(mse_test)

# RMSEの表示
print(rmse_train)
print(rmse_test)