# Regression

# Linear Regression

-> 機械学習の結果 x と b を出力<br>
この結果が実際に観測された値とできるだけ近くなるようにする

単一の入力と出力における線形モデル
>y = x * w + b <br>

>>y : 目的変数<br>
>>x : 入力<br>
>>w : 重み<br>
>>b : バイアス

複数の入力と出力における線形モデル
>y1 = x1 * w11 + x2 * w21 + b1 <br>
>y2 = x1 * w12 + x2 * w22 + b2 <br>

>>y : 目的変数<br>
>>x : 入力<br>
>>w : 重み<br>
>>b : バイアス

目的変数がターゲット(t)に近づくようにしていく<br>
y = x * w + b  --> t

目的関数 -> 損失関数
> L(y,t)

# 1_線形回帰モデル
連続的な数値を予測する<br>
以下のポイントを充足しているか確認すること

#### - 線形性を有している
指数分布　->　対数変換<br>
指数分布の場合は対数変換することで線形性をもつことになり、回帰モデルにあてはめることができる<br>
> np.log(x)

In [None]:
# 対数変換する
price_log = np.log(data_cleaned['price'])
data_cleaned['price_log'] = price_log

# もとの列を削除しておく
data_cleaned = data_cleaned.drop(['price'],axis=1)

# 表示
data_cleaned

#### - 内生性がないこと
→　残差が説明変数と関係している<br>

#### - 正規性と同分散性<br>

- 正規性<br>
    中心極限定理を利用することで対処する
- 残差の平均が０<br>
    切片の値を加えることで対処する
- 同分散性

#### - 多重共線性がないこと
http://statisticalhorizons.com/multicollinearity<br>
statsmodel の VIF で確認することができる<br>
　・VIF = 1     ：多重共線性はない<br>
　・1 < VIF < 5 ：問題ない値<br>
　・5 < VIF     ：多重共線性あり<br>
        → 多重共線性がある列を取り除く

In [None]:
from statsmodels.stats.outliers_influence import varianve_inflation_factor

# 多重共線性の有無を調べたい列を指定する
variables = data_cleaned[['Milage','Year','Engine']]

vif = pd.DataFframe()
vif['VIF'] = [variance_inflation_factor(variables.values,i) for i in range(variables.shape[1])]
vif['features'] = variables.columns
vif

## ◆線形回帰モデルの作成

In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
sns.set()

%matplotlib inline

In [None]:
# 目的変数
target = data_preprocessed['log_price']

# 説明変数
inputs = data_preprocessed.drop(['log_price'],axis=1)

In [None]:
# 正規化
from sklearn import preprocessing

scaler = preprocessing.StandardScaler()
scaler.fit(inputs)

inputs_scaled = scaler.transform(inputs) 

In [None]:
# 学習・訓練データの分割
from sklearn.model_selection import train_test_split

dataA_train, dataB_test = train_test_split(a,test_size=0.2,shuffle=True,random_state=42)

In [None]:
# 回帰分析モデルを生成
from sklearn.linear_model import LinearRegression

reg = LinearRegression()　#最小二乗法
reg.fit(x_train,y_train)

In [None]:
# 予測
y_hat = reg_predict(x_train)

In [None]:
# 予測結果を散布図で表示
plt.scatter(y_train,y_hat)

# ラベルを定義
plt.xlabel('Targets(y_train)',size =10)
plt.ylabel('Predictions(y_hat)',size =10)

# 上限値・下限値設定
plt.xlim(6,13)
plt.ylim(6,13)

# 表示
plt.show()

In [None]:
# 評価
reg_summary.summary()

In [None]:
# 残差（ターゲットと予測値の差）を表示
sns.distplot(y_train - y_hat)
plt.title('Residuals',size=18)

In [None]:
# 決定係数(データのバラツキを何％で説明しているか)
reg.score(x_train,y_train)

In [None]:
# 重み
# ダミー変数を含む場合、ダミー変数から落とした項目をベンチマークとしてプラス・マイナスの値づけを行う
# 重みが大きいほど回帰に与える影響が大きい
reg_summary = pd.DataFrame(inputs.columns.values, columns=['features'])
reg_summary['Weights']=reg.coef_

# 2_ロジスティック回帰分析

カテゴリをもとにYes/Noを判断する場合に使われる

ある事象が発生する確率を予測する<br>
入力→確率
- 内生性がないこと
- 正規性と同分散性
- 自己相関がないこと
- 多重共線性がないこと

モデル
- ロジスティックモデル
- ロジットモデル
→　ロジットモデルのほうが簡潔に示すことができる

## ◆ロジスティック回帰モデルの作成

Import

In [2]:
import numpy as np
import pandas as pd
import statsmodels.api as sm
import matplotlib.pyplot as plt
import seaborn as sns
sns.set()

#Aplly a fix to the statsmodels library
from scipy import stats
stats.chisqprob = lambda chisq,df: stats.chi2.sf(chisq, df)

In [None]:
# Load the Data as data
raw_data = pd.read_csv('xx.csv')

In [None]:
data = row_data.copy()
data['Admitted'] = data['Addmitted'].map({'Yes':1,'No':0})
data

Regression

In [None]:
# ２つのステップで回帰モデルを作成する
x = sm.add_constant(x1)
reg_log = sm.Logit(y,x)　#logitモデル
results_log = reg_log.fit

Summary

In [None]:
results_log.summary

Accuracy

In [None]:
# 予測
results_log.predict()

In [12]:
# 混同行列
results_log.pred_table()