# データ分析の事前準備

ここでは[SIGNATEの練習問題データ](https://signate.jp/competitions/24/data)を使用している

## よく使うPythonのライブラリ
#### numpy
* 演算用ライブラリ
* 行列の形式で演算できるため処理速度が早い
* numpyの形式が他の機械学習用ライブラリの前提になっている場合もある

#### matplotlib
* データを可視化するためのライブラリ

#### pandas
* データ前処理用のライブラリ
* データのラベル付けや不要列の削除などに用いる

#### 一般的な処理の流れ
1. pandasで前処理
2. numpyで演算
3. matplotlibで可視化

## データを読み込む

In [1]:
# ライブラリのインポート
import pandas as pd
import numpy as np
from matplotlib import pyplot as plt
import japanize_matplotlib
%matplotlib inline

In [2]:
# CSVデータの読み込み
train = pd.read_csv('train.csv')

## データの概要を見る

In [None]:
# 行数と列数
train.shape

In [None]:
# 先頭5行
train.head()

In [None]:
# 最終5行
train.tail()

## データの詳細を見る

In [None]:
# 基本統計量
train.describe()

In [None]:
# データの型
train.info()

In [None]:
# 特定の列
train[['y','week']]

In [None]:
# 特定の列の平均値
train['y'].mean()

In [None]:
# 特定の列の中央値
train['y'].median()

In [None]:
# 特定の列の値がそれぞれいくつあるか表示する
train['name'].value_counts()

In [None]:
# 特定の列の条件に合致する行
train[train['y']>=150]

In [None]:
# 特定の列の条件に合致する行
train[train['week']=='月']

In [None]:
# 特定の列の条件に合致した行の平均値
train[train['week']=='月']['y'].mean()

## 折れ線グラフにして見る

In [None]:
# グラフを描く
train['y'].plot()

In [None]:
# グラフの大きさを変える
train['y'].plot(figsize=(12,4))

In [None]:
# グラフと軸に名前を付ける
ax = train['temperature'].plot(title='気温')
ax.set_xlabel('time')
ax.set_ylabel('temperature')

## ヒストグラムにして見る

In [None]:
train['y'].plot.hist()

In [None]:
# グリッド線を引く
train['y'].plot.hist(grid=True)

In [None]:
# 平均値を表す赤線を描く
plt.axvline(x=train['y'].mean(),color='red')
train['y'].plot.hist()

In [None]:
# 大きさを変えて画像データとして出力する
plt.axvline(x=train['y'].mean(),color='red')
train['y'].plot.hist(figsize=(12,4),title='ヒストグラム')
plt.savefig('sample_fig.png')

## 欠損値を確かめる

In [None]:
# 欠損値が含まれているか確かめる
train.isnull()

In [None]:
# 欠損値が含まれている列を表示する
train.isnull().any()

In [None]:
# 欠損値の全体量を見て、行・列どちらで削除すべきか確認する
train.isnull().sum()

## 欠損値を処理する

In [None]:
# 欠損値を0で補間する
train.fillna(0)

In [None]:
# 欠損値を含む行を削除する
train.dropna()

In [None]:
# 特定の列に欠損値があった場合その行を削除する
train.dropna(subset=['kcal'])

In [None]:
# 平均値で欠損値を補間する
avg = train['kcal'].mean()
train['kcal'].fillna(avg)

## 相関係数を調べる

In [None]:
# 指定した2つの列の相関係数を調べる
train[['y','temperature']].corr()

## 散布図で確かめる

In [None]:
# 指定した2つの列の散布図を描く
train.plot.scatter(x='temperature',y='y',figsize=(5,5))