# 単回帰モデルの作成

ここでは[SIGNATEの練習問題データ](https://signate.jp/competitions/24/data)を使用している

* 学習データ：train.csv
* 評価データ：test.csv

## 単回帰モデルの概要

* 1つの目的変数を1つの説明変数のみでモデル化する方法
* 散布図の中に、各データそれぞれに対するちょうどよい直線を引くイメージ
* __y = ax + b__ の数式で表すことができる

## ダミー変数化

* 質的データを数値データに変換して使うこと
* 性別や天気を任意の数値に置き換える

## モデリングの手順

1. 説明変数の決定とデータの準備
    * どのデータを使ってモデルを作るかを決める
    * 欠損値の前処理をする
    * 学習データから説明変数と目的変数を抽出する
    * 評価データから説明変数を抽出する

2. モデルの準備
    * どの手法を使ってモデルを作るかを決める

3. モデルの作成
    * 学習データから取り出した説明変数と目的変数のデータを使ってモデルを作成する

4. モデルを使った予測
    * 評価データから抽出した説明変数のデータを使い、作成したモデルに当てはめる

5. モデルの評価
   * 評価データに対するモデルの予測結果と実際の値を比較して評価する

## データの準備

ライブラリのインポート

* __LinearRegression__ は線形回帰用のライブラリ
* インストールコマンドは下記
  * pip install scikit-learn


In [1]:
import pandas as pd
import numpy as np
from matplotlib import pyplot as plt
%matplotlib inline
from sklearn.linear_model import LinearRegression as LR

CSVデータの読み込み

In [2]:
train = pd.read_csv('train.csv')
test = pd.read_csv('test.csv')
sample = pd.read_csv('sample.csv', header=None)

欠損値を確認する

In [3]:
train.isnull().sum()

datetime           0
y                  0
week               0
soldout            0
name               0
kcal              41
remarks          186
event            193
payday           197
weather            0
precipitation      0
temperature        0
dtype: int64

In [4]:
test.isnull().sum()

datetime          0
week              0
soldout           0
name              0
kcal              4
remarks          33
event            37
payday           38
weather           0
precipitation     0
temperature       0
dtype: int64

## 説明変数と目的変数の設定

学習データから説明変数を抽出する

In [5]:
trainX = train['temperature']

学習データから目的変数を抽出する

In [6]:
y = train['y']

評価データから説明変数を抽出する

In [7]:
testX = test['temperature']

説明変数を合わせるためにデータの整形をする

In [8]:
trainX = trainX.values.reshape(-1,1)
testX = testX.values.reshape(-1,1)

## モデルの準備

モデルを表す変数を用意する

In [9]:
model = LR()

## モデルの作成

* fit関数でモデルを作成する
* 説明変数、目的変数の順に指定

In [10]:
model.fit(trainX,y)

モデルの傾きを確認する

In [11]:
model.coef_

array([-2.5023821])

モデルの切片を確認する

In [12]:
model.intercept_

134.79948383749922

## モデルを使った予測

predict関数での予測

In [13]:
model.predict(testX)

array([ 84.25136537,  74.99255159,  62.9811175 ,  80.99826864,
        79.49683938,  76.49398085,  78.49588653,  69.48731097,
        67.73564349,  95.76232304,  88.25517673,  77.24469548,
        74.99255159,  84.25136537,  96.01256125,  98.01446693,
        88.00493852,  77.99541011,  87.00398568,  85.75279463,
        85.75279463,  87.75470031,  87.5044621 ,  94.7613702 ,
        86.75374747,  84.50160358,  81.74898327,  98.01446693,
        98.76518156,  86.00303284,  95.26184662,  99.01541977,
        94.51113199,  97.51399051, 108.52447176,  97.51399051,
       106.27232787, 111.7775685 ,  97.01351409,  96.51303767])

predict関数を使った予測結果を変数に代入する

In [14]:
pred = model.predict(testX)

## モデルの評価

* SIGNATEで評価する形式にデータを加工する
* sampleファイルのカラム[1]に、予測結果を代入する

In [15]:
sample.head()

Unnamed: 0,0,1
0,2014-10-1,24
1,2014-10-2,71
2,2014-10-3,25
3,2014-10-6,32
4,2014-10-7,60


In [16]:
sample[1] = pred

In [16]:
sample.head()

Unnamed: 0,0,1
0,2014-10-1,84.251365
1,2014-10-2,74.992552
2,2014-10-3,62.981117
3,2014-10-6,80.998269
4,2014-10-7,79.496839


sampleをCSVファイルに書き出す

In [17]:
sample.to_csv('submit.csv', index=None, header=None)

書き出したファイルを[SIGNATE](https://signate.jp/competitions/24/data)に投稿して評価を確認する