# データ分析

for Python 3.7.+

## Pandas

Python でデータ分析を始めると真っ先に使われてるのが `pandas` というライブラリ。 

このライブラリは matrix 状のデータ操作をかなり容易に行うものです。  
CSV/Excel などのデータから二次元配列でデータを読み取る、歯抜けの状態をざっくり確認し、欠損値の補正や列単位でのデータ変換を行うといった操作ができます。

import と、データセットの読み込みをしてみます。  
有名どころで、Iris (アヤメ)データセットを用意しました。`iris.csv`

In [None]:
import pandas as pd
import numpy as np

datasets = pd.read_csv('./iris.csv')

`iris.csv` は中を見ていただくとわかりますが、以下のようなデータになっています。

```csv
sepal_length,sepal_width,petal_lebgth,petal_width,class
5.1,3.5,1.4,0.2,Iris-setosa
4.9,3.0,1.4,0.2,Iris-setosa
4.7,3.2,1.3,0.2,Iris-setosa
4.6,3.1,1.5,0.2,Iris-setosa
5.0,3.6,1.4,0.2,Iris-setosa
...
```

英語だとわかりづらいかもですが、以下のような意味です。

* sepal: がく
* petal: 花弁

アヤメの種類は、ガクと花弁の大きさで分類できる（と言うことらしい）ので、機械学習で良く扱われるデータの一つとなっています。

`head` で先頭部分を取り出してみましょう。

In [None]:
datasets.head()

大分いい感じに取得できると思います。  
データを加工する前に、全体の情報をざっくり眺めます。

`info` を使えばどう言ったデータがあるのか、欠損値がどれ位あるかが見えます。

In [None]:
datasets.info()

指定した列だけ取得

In [None]:
datasets['sepal_width']

## データ操作

当然データを加工する必要があれば行うべきでしょう。  
ということで

### 転地

行列と見立てた操作ですね。

In [None]:
datasets.T

### 列抽出

利用する行だけ抽出することもできます。

In [None]:
datasets[['sepal_length', 'sepal_width']]

### 条件抽出

指定した条件でデータを取り出すことができます。

In [None]:
datasets[datasets['class'] == 'Iris-setosa']

### 新しい列に計算した値を設定

スケールが異なる場合は比率を扱うデータ行を作りたいところですよね。

In [None]:
datasets['sepal_rate'] = datasets['sepal_length'] / datasets['sepal_width']
datasets

### 余計な行の削除

これは AI を作るときに、ノイズ的な行を残すと余計な学習をする場合があるので削除も時折します。  
作ったものを削除してみます

In [None]:
datasets = datasets.drop(['sepal_rate'], axis=1)
datasets

### 平均/中央/再頻出値

ということで

In [None]:
print('平均  : ', datasets['sepal_length'].mean())
print('中央  : ', datasets['sepal_length'].median())
print('再頻出:', datasets['sepal_length'].mode())

### 各種集計

分散と標準偏差も出してみます。

In [None]:
print('分散: ', datasets['sepal_length'].var())
print('標準偏差: ', datasets['sepal_length'].std())


パーセンタイル値も取得できます。

In [None]:
datasets['sepal_length'].describe()

## データの可視化(matplotlib)

データ解析らしくなってきました。  
データをグラフにすることで解釈しやすい様にします。

`student-mat.csv` ファイルをサンプルに置いたので、それを読んでみましょう。  
ちなみにデータ自体は http://archive.ics.uci.edu/ml/machine-learning-databases/ ここからDLできます。

単純に情報を読み取ってみます。  
データはどこぞの大学の学生と数学の成績です。

G1,G2,G3 は各期の成績ですね。

In [None]:
student_math = pd.read_csv('./student-mat.csv')
student_math.info()

Matplotlib を取り込んでグラフ表示の準備をする。

In [None]:
import matplotlib as mpl
import seaborn as sns

import matplotlib.pyplot as plt

%matplotlib inline

### ヒストグラム

単純にヒストグラムを表示する。

In [None]:
plt.hist(student_math['absences'])
plt.xlabel('absense')
plt.ylabel('count')

plt.grid(True)

### 箱ひげ図

* 最大値
* 75% 値 (第３四分位点)
* 中央値(赤線)
* 20% 値 (第1四分位点)
* 最小値

という見方をする図です。

In [None]:
plt.boxplot(student_math['G1'])
plt.grid(True)

In [None]:
plt.boxplot([
    student_math['G1'],
    student_math['G2'],
    student_math['G3']
])
plt.grid(True)

### 散布図

見たまま分布がわかりますね。  


In [None]:
plt.plot(student_math['G1'], student_math['G3'], 'o')
plt.ylabel('G3 grade')
plt.xlabel('G1 grade')
plt.grid(True)

### 色々な図をまとめて

各行との相関をみる為のマトリクス状にグラフ化します。

In [None]:
sns.pairplot(student_math[['Dalc', 'Walc', 'G1', 'G3']])
plt.grid(True)