# PART1 簡単な予測モデルを作ってみよう

## おまじない

In [6]:
import pandas as pd
import numpy as np
from matplotlib import pyplot as plt
%matplotlib inline
from sklearn.linear_model import LinearRegression as LR

## データの読み込み
- train.csvとtest.csvとsample.csvの３つのファイルを読み込みましょう
- それぞれを読み込んだものは変数はtrain, test, sampleに代入しましょう
- sampleを読み込む時は、header=Noneというオプションを忘れないようにしましょう

In [2]:
train = pd.read_csv("train.csv")
test = pd.read_csv("test.csv")
sample = pd.read_csv("sample.csv",header=None)

## trainの先頭行を見てみましょう

In [3]:
train.head()

Unnamed: 0,datetime,y,week,soldout,name,kcal,remarks,event,payday,weather,precipitation,temperature
0,2013-11-18,90,月,0,厚切りイカフライ,,,,,快晴,--,19.8
1,2013-11-19,101,火,1,手作りヒレカツ,,,,,快晴,--,17.0
2,2013-11-20,118,水,0,白身魚唐揚げ野菜あん,,,,,快晴,--,15.5
3,2013-11-21,120,木,1,若鶏ピリ辛焼,,,,,快晴,--,15.2
4,2013-11-22,130,金,1,ビッグメンチカツ,,,,,快晴,--,16.1


## trainから説明変数と目的変数となるデータを取り出しましょう
- 説明変数はtrainからtemperatureを選択し、変数名をtrainXとして代入しましょう
- 目的変数はtrainからyを選択し、変数名をyとして代入しましょう

In [4]:
trainX = train["temperature"]
y = train["y"]

## testから説明変数となるデータを取り出しましょう
- 説明変数はtrainと同じtemperatureを選択し、変数名をtestXとして代入しましょう

In [5]:
testX = test["temperature"]

## 単回帰の場合のみ、説明変数に対しておまじないが必要となります
- 単回帰の場合はややこしいですが、train,testの説明変数ともに、データの形を整える必要があります
- 具体的にはvalues.reshape(-1,1)というおまじないをします
- 整えた後、再び変数Xに代入します

In [7]:
trainX = trainX.values.reshape(-1,1)
testX = testX.values.reshape(-1,1)

## 回帰のモデルの箱を用意しましょう
- モデルを作る為にはまず、モデルを表す箱が必ず必要になります
- 変数名をmodel1として、LR()を代入しましょう

In [8]:
model1 = LR()

## 単回帰モデルを作りましょう
- fit関数を使います
- カッコの中に、説明変数、目的変数の順番に書きます

In [9]:
model1.fit(trainX,y)

LinearRegression()

## 作ったモデルの傾きや切片を確かめてみましょう
- 傾きはcoef_を使います
- 切片はintercept_を使います

In [10]:
model1.coef_

array([-2.5023821])

In [12]:
model1.intercept_

134.79948383749928

## 予測をしましょう
- predict関数を使います
- 予測結果は変数predに代入しましょう

In [13]:
pred = model1.predict(testX)

In [14]:
pred

array([ 84.25136537,  74.99255159,  62.9811175 ,  80.99826864,
        79.49683938,  76.49398085,  78.49588653,  69.48731097,
        67.73564349,  95.76232304,  88.25517673,  77.24469548,
        74.99255159,  84.25136537,  96.01256125,  98.01446693,
        88.00493852,  77.99541011,  87.00398568,  85.75279463,
        85.75279463,  87.75470031,  87.5044621 ,  94.7613702 ,
        86.75374747,  84.50160358,  81.74898327,  98.01446693,
        98.76518156,  86.00303284,  95.26184662,  99.01541977,
        94.51113199,  97.51399051, 108.52447176,  97.51399051,
       106.27232787, 111.7775685 ,  97.01351409,  96.51303767])

## sampleの中身を確認してみましょう

In [16]:
sample.head()

Unnamed: 0,0,1
0,2014-10-1,24
1,2014-10-2,71
2,2014-10-3,25
3,2014-10-6,32
4,2014-10-7,60


## sample[1]に予測結果を代入しましょう

In [17]:
sample[1] = pred

In [18]:
sample.head()

Unnamed: 0,0,1
0,2014-10-1,84.251365
1,2014-10-2,74.992552
2,2014-10-3,62.981117
3,2014-10-6,80.998269
4,2014-10-7,79.496839


## sampleをファイルで書きだしましょう
- to_csv関数を使います
- オプションは３つあり、"submit1.csv", index=None, header=Noneを書きます

In [19]:
sample.to_csv("submit1.csv",index=None,header=None)

# 実習
1.説明変数をkcalとして、単回帰モデルを作ろう。まず、 trainとtestのkcalに欠損値があるかないか確認しよう
- 本当に欠損があるかどうか、head関数を使って確認しよう

In [23]:
train["kcal"].isnull().sum()

41

In [25]:
test["kcal"].isnull().sum()

4

2.trainのkcalの平均値を求め、変数avgに代入しよう

In [27]:
avg = train["kcal"].mean()
avg

404.4096385542169

3.変数avgを使って、trainとtestのkcalの欠損値を補間し、それぞれを変数名trainXとtestXに代入してみよう

In [45]:
train.fillna(avg)
test.fillna(avg)


Unnamed: 0,datetime,week,soldout,name,kcal,remarks,event,payday,weather,precipitation,temperature
0,2014-10-1,水,1,メンチカツ,420.0,404.41,404.41,404.409639,雨,0,20.2
1,2014-10-2,木,0,バーベキューチキン,415.0,404.41,404.41,404.409639,曇,--,23.9
2,2014-10-3,金,0,豚肉のマスタード焼き,405.0,404.41,404.41,404.409639,晴れ,--,28.7
3,2014-10-6,月,1,麻婆春雨,400.0,404.41,404.41,404.409639,雨,0.5,21.5
4,2014-10-7,火,0,厚揚げ肉みそ炒め,430.0,404.41,404.41,404.409639,晴れ,--,22.1
5,2014-10-8,水,0,完熟トマトのホットカレー,420.0,404.41,404.41,404.409639,晴れ,--,23.3
6,2014-10-9,木,0,豚キムチ炒め,435.0,404.41,キャリアアップ支援セミナー,404.409639,曇,--,22.5
7,2014-10-10,金,0,ポークカレー,404.409639,お楽しみメニュー,404.41,1.0,薄曇,--,26.1
8,2014-10-14,火,0,若鶏梅肉包揚げ,408.0,404.41,404.41,404.409639,快晴,--,26.8
9,2014-10-15,水,1,ミックスグリル,450.0,料理長のこだわりメニュー,404.41,404.409639,雨,1.5,15.6


In [47]:
trainX = train["kcal"]
testX = test["kcal"]
train.head()

Unnamed: 0,datetime,y,week,soldout,name,kcal,remarks,event,payday,weather,precipitation,temperature
0,2013-11-18,90,月,0,厚切りイカフライ,,,,,快晴,--,19.8
1,2013-11-19,101,火,1,手作りヒレカツ,,,,,快晴,--,17.0
2,2013-11-20,118,水,0,白身魚唐揚げ野菜あん,,,,,快晴,--,15.5
3,2013-11-21,120,木,1,若鶏ピリ辛焼,,,,,快晴,--,15.2
4,2013-11-22,130,金,1,ビッグメンチカツ,,,,,快晴,--,16.1


4.trainXとtestXをvalues.reshape(-1,1)を使って形を整え、再びtrainX, testXへ代入しよう
    1. 3番ではtrainXにはavgで補間されたtrain["kcal"]が代入される
    2. 4番では補間されたtrainXにおまじないをかけたものがtrainXに代入されることになる

In [29]:
trainX = trainX.values.reshape(-1,1)
testX = testX.values.reshape(-1,1)

5.trainからyを取り出し、変数yに代入しよう

In [30]:
y=train["y"]

6.回帰モデルの箱を変数名model2として用意しよう

In [31]:
model2 = LR()

7.trainXとyを使って単回帰のモデルを作ろう

In [36]:
model2.fit(trainX,y)

ValueError: Expected 2D array, got 1D array instead:
array=[404.40963855 404.40963855 404.40963855 404.40963855 404.40963855
 404.40963855 404.40963855 404.40963855 404.40963855 404.40963855
 404.40963855 404.40963855 404.40963855 404.40963855 404.40963855
 404.40963855 404.40963855 404.40963855 404.40963855 404.40963855
 404.40963855 404.40963855 404.40963855 404.40963855 404.40963855
 404.40963855 404.40963855 404.40963855 404.         462.
 435.         440.         376.         450.         415.
 430.         375.         447.         426.         400.
 418.         415.         445.         450.         448.
 460.         445.         430.         420.         435.
 425.         423.         415.         438.         432.
 416.         426.         405.         426.         410.
 408.         396.         384.         436.         428.
 407.         413.         393.         409.         396.
 385.         397.         370.         372.         360.
 382.         400.         392.         372.         350.
 407.         392.         315.         404.40963855 349.
 377.         380.         390.         350.         387.
 353.         376.         362.         404.40963855 340.
 370.         330.         333.         325.         375.
 382.         340.         360.         404.40963855 342.
 368.         415.         420.         415.         405.
 434.         400.         428.         430.         403.
 404.40963855 406.         425.         430.         428.
 400.         430.         423.         414.         438.
 404.40963855 420.         418.         424.         405.
 430.         417.         426.         413.         440.
 404.40963855 440.         427.         426.         430.
 407.         421.         430.         420.         414.
 404.40963855 435.         362.         363.         412.
 432.         354.         370.         388.         386.
 404.40963855 418.         324.         434.         418.
 401.         409.         355.         410.         404.40963855
 432.         449.         441.         386.         380.
 410.         400.         410.         415.         404.40963855
 411.         400.         396.         385.         423.
 405.         404.40963855 412.         400.         410.
 396.         398.         380.         440.         408.
 405.         380.         385.         460.         450.
 385.         404.40963855 438.         430.         395.
 400.         395.         408.         394.         404.40963855
 404.         398.        ].
Reshape your data either using array.reshape(-1, 1) if your data has a single feature or array.reshape(1, -1) if it contains a single sample.

8.作ったモデルの傾きと切片を確認しよう

9.testXを使って予測をし、予測値を変数pred2に代入しよう

10.sample[1]にpred2を代入しよう

11.to_csv関数のindex=Noneがある時とない時の違い、header=Noneがある時とない時の違いは何かを考えてみよう

12.sampleをファイル出力し、submit2.csvという投稿用ファイルを作ろう

13.submit2.csvをDeepAnalyticsに投稿して、submit1.csvのスコアを比較してみよう