# Lesson 01 Pandasを使ってみよう

[pandasのDataFrameの概要と生成方法 | hydroculのメモ](https://hydrocul.github.io/wiki/numpy/pandas-dataframe-overview.html)  
pandasにはSeriesとDataFrameという2つのデータ構造があり、 Seriesは1次元配列に似ているのに対して、 DataFrameは2次元配列というかエクセルのようなスプレッドシートに似ている。

In [None]:
import pandas as pd

## 1. データフレームにcsvファイルを読み込む

In [None]:
csv_file_name = 'data/WA_Fn-UseC_-HR-Employee-Attrition.csv'

df = pd.read_csv(csv_file_name)
df.head()

## 2. データフレームにxlsxファイルを読み込む
* 以下のどれでも、dfに1シート目が割り当てられます。

### 2.1 pd.ExcelFile(...)

In [None]:
xlsx_file_name = 'data/WA_Fn-UseC_-HR-Employee-Attrition.xlsx'

xl = pd.ExcelFile(xlsx_file_name)
xl.sheet_names

In [None]:
df = xl.parse('WA_Fn-UseC_-HR-Employee-Attriti')
df.head()

In [None]:
df = xl.parse(xl.sheet_names[0])
df.head()

### 2.2 pd.read_excel(...)

In [None]:
df = pd.read_excel(xlsx_file_name, sheetname = 'WA_Fn-UseC_-HR-Employee-Attriti')
df.head()

In [None]:
df = pd.read_excel(xlsx_file_name)
df.head()

[10分でPandasを学ぶ - Qiita](http://qiita.com/tkazusa/items/23bc0142bf277d397260)  
[Python Pandasでのデータ操作の初歩まとめ − 前半：データ作成＆操作編 - Qiita](http://qiita.com/hik0107/items/d991cc44c2d1778bb82e)

## 3. 行数の確認

In [None]:
len(df)

## 4. 次元数の確認

In [None]:
df.shape #（行数、列数）の形で返す

## 5. データフレームの情報の一覧

In [None]:
df.info() #カラム名とその型の一覧

## 6. ヒストグラム
### df.hist(...)

In [None]:
import numpy as np
from pandas import *
import matplotlib.pyplot as plt
import seaborn as sns
sns.set(font='IPAexGothic')
df["DailyRate"].hist(linewidth = 1, alpha=.5)
plt.xlabel("DailyRate")
plt.ylabel("Freq")
plt.show()

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns
sns.set(font='IPAexGothic')
df["DailyRate"].hist(orientation='horizontal', alpha=.5)
plt.xlabel("DailyRate")
plt.ylabel("Freq")
plt.show()

参考:
1. [Visualization — pandas 0.20.3 documentation](https://pandas.pydata.org/pandas-docs/stable/visualization.html)
1. [Visualizing the distribution of a dataset — seaborn 0.8.0 documentation](https://seaborn.pydata.org/tutorial/distributions.html)

## 7. 散布図
### plt.scatter(...)

In [None]:
plt.scatter(df['HourlyRate'], df['DailyRate'])
plt.show()

## 8. 多変量散布図
### pd.plotting.scatter_matrix(df, ...)

In [None]:
pd.plotting.scatter_matrix(df[['HourlyRate', 'DailyRate', 'DistanceFromHome']], alpha=0.2, figsize=(6, 6), diagonal='kde')
plt.show()

[Computational tools — pandas 0.20.3 documentation](https://pandas.pydata.org/pandas-docs/stable/computation.html)

## 9. 共分散行列

In [None]:
df[['HourlyRate', 'DailyRate', 'DistanceFromHome']].cov()

In [None]:
df.cov()

# 相関係数を求める
[統計の問題を Python で実際に計算してみる - Qiita](http://qiita.com/ynakayama/items/1a55ddbb85ae08970ad8)

In [None]:
df.corr()

## 10. 行の情報
### df.index

In [None]:
df.index

## 11. 列の情報
### df.columns

In [None]:
df.columns

## 12. データフレームを配列に変換する
### df.values

In [None]:
df.values

## 13. 統計量の概要をまとめて表示する
### df.describe()

In [None]:
df.describe()

## 14. 先頭10行を確認する
### df.head(10) 

In [None]:
df.head(10) 

## 15. 末尾10行を確認する
### df.tail(10)

In [None]:
df.tail(10)

## 16. 列を指定し、シリーズにする
### df["列名"]

In [None]:
df["Department"]

## 17. 複数の列を指定し、データフレームにする
### df[["列名1","列名2", ...]]

In [None]:
df[["Department","Education"]]
df.head()

In [None]:
# 複数列を選択する場合にはリスト表記を使う
df.loc[:, ["Department", "Education"]]

## 18. locを使って列選択し、シリーズやデータフレームを得る
* 文法 ：iloc[rows, columns]の形で書く
* 列だけでなく行も同時にSubsettingできる

In [None]:
# 行は全てを選択するために「:」を入れている。
df.loc[:,"Department"]

## 19. ilocを使って列選択し、シリーズやデータフレームを得る
* 文法 ：iloc[rows番号, columns番号]の形で書く

In [None]:
# 番号で選択
df.iloc[:, 0]

In [None]:
#複数で連番の場合。リスト表記でも行ける
df.iloc[:, 0:2]

## 20. データフレームの行列を反転(転置)する
### df.T

In [None]:
df.T

## 21. 任意の軸でソートする。
* 例えば、ラベルを降順でソート。

In [None]:
df.sort_index(axis=1, ascending=False)

[pandas でソート - Qiita](http://qiita.com/y_sk71/items/c22f47bd4ddc1dc46dc8)[pandas でソート - Qiita](http://qiita.com/y_sk71/items/c22f47bd4ddc1dc46dc8)

In [None]:
# ラベル「Age」の値で昇順で。
df2 = df.sort_values(by=["Age"], ascending=True)
df2.head()

In [None]:
# 部門名
set(df.Department.tolist())

http://pythondatascience.plavox.info/pandas/行・列を削除  
https://nkmk.github.io/blog/python-pandas-dataframe-rename/

## 22. 特定の列を削除する

* 列 A を削除
> df.drop("A", axis=1, inplace=True)

## 23. 特定の行を削除する

* 行 5 を削除
> df.drop(5, inplace=True)

https://stackoverflow.com/questions/34113608/how-to-do-matrix-product-of-two-data-frames-in-panda

## 24. データフレームの行列積

* 転置行列 x 行列 の場合
> df.T.dot(df)