# お弁当需要予測大作戦!!(実践編)

In [None]:
import pandas as pd
import numpy as np
from matplotlib import pyplot as plt
%matplotlib inline
import seaborn as sns
sns.set(font=['MS Gothic'])

from sklearn.linear_model import LinearRegression
from sklearn import metrics

## データの準備

### データの読み込み

In [None]:
train = pd.read_csv('train.csv')
test = pd.read_csv('test.csv')
sample = pd.read_csv('sample.csv', header=None)

### データの表示

In [None]:
train

### DataFrame, Series

In [None]:
type(train)

In [None]:
type(train['y'])

## データの分析

### データの基礎統計量を見てみる

In [None]:
train.describe()

#### yのmin, 20%, 50%, 75%, maxを可視化する

In [None]:
train[['y']].boxplot()

#### yの中央値と平均値の関係を見てみよう(平均値を赤くしてみる)

In [None]:
train['y'].plot.hist()
plt.axvline(x=train['y'].mean(), color='red')

#### 曜日ごとの比率を見てみる

In [None]:
train[['y', 'week']].boxplot(by='week')

#### 中央値と平均値の関係を考察してみる

In [None]:
train[train['week'] == '金']['y'].plot.hist()
plt.axvline(x=train['y'].mean(), color='red')

In [None]:
train[train['week'] == '木']['y'].plot.hist()
plt.axvline(x=train['y'].mean(), color='red')

### データを可視化してみる

#### 折れ線グラフ(気温と時間の関係)

In [None]:
ax = train['temperature'].plot(title='気温')
ax.set_xlabel('time')
ax.set_ylabel('temperature')

#### 折れ線グラフ(yと時間の関係)

In [None]:
ax = train['y'].plot(title='y')
ax.set_xlabel('time')
ax.set_ylabel('y')

#### 散布図(気温とyの関係)

In [None]:
train.plot.scatter(x='temperature', y='y', figsize=(5,5))

#### 散布図(kcalとyの関係)

In [None]:
train.plot.scatter(x='kcal', y='y', figsize=(5,5))

#### ヒストグラム(kcalの頻度)

In [None]:
train['kcal'].plot.hist()

#### 箱ひげ図

In [None]:
train[['y', 'weather']].boxplot(by='weather')

### 欠損値を見る

In [None]:
train.isnull().any()

In [None]:
train.isnull().sum()

#### こんな例外もある

In [None]:
train["precipitation"].value_counts()

### 相関関係を見る

In [None]:
train.corr()

#### 相関がないもの

In [None]:
train.plot.scatter(x='temperature', y='kcal', figsize=(5,5))

#### 相関があり強いもの

In [None]:
train.plot.scatter(x='temperature', y='y', figsize=(5,5))

## 単回帰分析(説明変数は1つ)

## 入力データの作成

In [None]:
X = train['temperature'].values.reshape(-1, 1)
y = train['y']

## 予測モデルの作成

### 予測モデルを作る(LinearRegression)

In [None]:
model = LinearRegression()

### 予測モデルに学習させる

In [None]:
model.fit(X, y)

### 傾き

In [None]:
model.coef_

### 切片

In [None]:
model.intercept_

### 実際の結果を見てみよう

In [None]:
train.plot.scatter(x='temperature', y='y')

#回帰直線をプロット
plt.plot(X, model.predict(X), color='red')

### 評価関数RMSEを使って評価してみる

In [None]:
np.sqrt(metrics.mean_squared_error(y, model.predict(X)))

## 予測してみる

In [None]:
X_test = test['temperature'].values.reshape(-1, 1)
y_pred = model.predict(X_test)
y_pred

In [None]:
test['temperature']

### 予測結果をSignateに投稿してみる

In [None]:
sample[1] = y_pred

In [None]:
sample.to_csv('submit1.csv', header=None, index=None)

## 重回帰分析(説明変数は2つ以上)

## 入力データの作成

### weekをダミー変数化する

In [None]:
train['week']

In [None]:
pd.get_dummies(train['week'])

In [None]:
X = pd.get_dummies(train[['week', 'temperature']])

## 予測モデルの作成

### 予測モデルを作る

In [None]:
model = LinearRegression()

### 予測モデルを学習させる

In [None]:
model.fit(X, y)

### 切片と傾き(重回帰の場合は傾きは複数、切片は1つ)

In [None]:
model.coef_

In [None]:
model.intercept_

## 予測してみる

In [None]:
X_test = pd.get_dummies(test[['week', 'temperature']])

In [None]:
y_pred = model.predict(X_test)
y_pred

In [None]:
sample[1] = y_pred

In [None]:
sample.to_csv('submit2.csv', header=None, index=None)