# pandas tutorial

## 目次

- [pandasとは？](#what)
- [参考資料](#reference)
- [import](#import)
- [Series](#series)
  - [要素の扱い](#elements)
- [DataFrame](#dataframe)
  - [要素の抽出、操作](#operation)
  - [連結](#join)
  - [関数の適用](#function)
  - [基本統計量](#statistics)
  - [多層インデックス](#multiindex)
- [おまけ](#cheat)

 <a name = "what"></a>
## pandasとは？

データ分析のためのpythonライブラリ。<br>
手軽に、素早くデータ分析を行うための、高度なデータ構造と機能を持っている。<br>
numpyベースで実装されている。

### pandasのデータ構造
シリーズ（Series）とデータフレーム（DataFrame）がある。（3次元のPanelもあるが、DataFrameで代替可能なので割愛）


 <a name = "reference"></a>

## 参考資料

- [pandasドキュメント](http://pandas.pydata.org/)
- [DataFrameドキュメント](http://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.html)

 <a name = "import"></a>

---
## import 

In [None]:
from pandas import Series, DataFrame
import pandas as pd   # pdとするのが通例

import numpy as np

 <a name = "series"></a>

---
## シリーズ（Series）
１次元の配列のようなオブジェクト。<br>
データ配列、インデックス、データ型情報によって構成される。

In [None]:
obj = Series([1,5,2,7])

In [None]:
obj

↑

○　×<br>
○　×<br>
○　×<br>
○　×<br>
dtype: ＝＝＝＝

○：インデックス<br>
×: データ配列<br>
dtype: データ型<br>

In [None]:
# 値を取得
obj.values

In [None]:
# インデックスを取得
obj.index

In [None]:
#インデックスを指定することもできる
obj = Series([1,5,2,7], index = ['d', 'a', 't', 'a'])

In [None]:
print(obj)
print(obj.index)

 <a name = "elements"></a>

---

### 要素の扱い

In [None]:
# Booleanの同型Seriesがかえって来る
obj >3

In [None]:
# ↑をマスクとして使う
obj[obj > 3]

In [None]:
# ブロードキャストで計算
print(obj * 3)
print("==========")
np.exp(obj)

#### 配列だけでなく、辞書型として扱うことも可能

In [None]:
sdata = {'Ohio': 35000, 'Texas': 71000, 'Oregon': 16000, 'Utah': 5000}
obj = Series(sdata)

In [None]:
obj

In [None]:
states = {'California', 'Ohio', 'Oregon', 'Texas'}
obj2  = Series(sdata, index = states)

In [None]:
obj2

In [None]:
# isnullでnullチェック
obj2.isnull()

In [None]:
# 結合（インデックスを自動判定）してくれる
obj + obj2

 <a name = "dataframe"></a>

---
## データフレーム（DataFrame）

デーブル形式のデータ構造。順序付けられた列を持っている<br>
各列には、別々の型（数値型、時系列型、文字列型、ブール型など）を持たせることができる。

シリーズ型の値を持つディクショナリと考えることもできる。

In [None]:
data = {'state': ['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada'],
       'year': [2000, 2001,2002,2001,2002],
       'pop': [1.5,1.7,3.6,2.4,2.9]}

In [None]:
DataFrame(data)

In [None]:
# 列の順序を指定できる
DataFrame(data,columns=['year', 'state', 'pop'])

In [None]:
# indexを別で指定
df = DataFrame(data,columns=['year', 'state', 'pop'], index = ['one','two','three','four','five'])
df

 <a name = "operation"></a>

### 要素の抽出、操作

In [None]:
# Seriesで返す[]
df['state']


In [None]:
# DataFrameで返す[[]]
df[['state']]

In [None]:
#行をインデックスで指定
df.loc[['three']]   #DataFrameで返す
# df.ix['three']   #Seriesで返す

In [None]:
# 列を追加
df['debt'] = np.arange(5)
df

In [None]:
# Seriesを代入
val = Series([-1.2,-1.5,-1.7], index=['two','four', 'five'])
df['debt'] = val
df

In [None]:
df['eastern'] = df.state == 'Ohio'
df

In [None]:
# 転置する.T
df.T

In [None]:
#indexを取得
print(df.index)
#columnを取得
print(df.columns)

In [None]:
#行の削除
df.drop('one')

In [None]:
# 列の削除
df.drop('state', axis = 1)

In [None]:
# booleanでマスク作成
df['pop'] > 2

In [None]:
# マスクを使ってフィルタリング
df[df['pop'] > 2]

 <a name = "join"></a>


### 連結

In [None]:
df1 = DataFrame(np.arange(9.).reshape(3,3), columns= list('bcd'),index=['Ohio', 'Texas', 'Colorado'])

In [None]:
df2 = DataFrame(np.arange(12.).reshape(4,3), columns= list('bde'),index=['Utah','Ohio', 'Texas', 'Oregon'])

In [None]:
df1

In [None]:
df2

In [None]:
# 両者になければNaNが入る
df1.add(df2)

In [None]:
#どちらかにあれば足す
df1.add(df2,fill_value=0)

In [None]:
# 縦にそのまま結合
pd.concat([df1,df2])

In [None]:
# 横にそのまま結合
pd.concat([df1,df2], axis=1)

In [None]:
# 共通部分のみ取り出す（内部結合）
pd.concat([df1,df2],join="inner")

In [None]:
# df1のindexのみ結合
pd.concat([df1, df2], axis=1, join_axes=[df1.index])


その他の結合は[こちら](http://sinhrks.hatenablog.com/entry/2015/01/28/073327)

 <a name = "function"></a>

### 関数の適用

In [None]:
df = DataFrame(np.random.randn(4,3), columns=list('bde'),index=['Utah','Ohio','Texas','Oregon'])

In [None]:
df

In [None]:
# NumPyのufunc（配列の要素に適用可能なメソッド）はpandasでも可能
np.abs(df)

In [None]:
# 一次元配列に適用可能なメソッドをapply()で適用
f = lambda x: x.max() - x.min()

In [None]:
df.apply(f)

In [None]:
df.apply(f,axis=1)

In [None]:
# 関数の適用
def f(x):
    return DataFrame([x.min(),x.max()], index=['min','max'])

In [None]:
f(df)

In [None]:
f(df.T)

 <a name = "statistics"></a>

### 要約統計量など

In [None]:
df.describe()

In [None]:
# その他
print("累積合計量")
print(df.cumsum())
print("====================")
print("最大値のインデックス")
print(df.idxmax())
print("====================")
print("最小値のインデックス")
print(df.idxmin())
print("====================")
print("分散")
print(df.var())
print("====================")
print("累積の積")
print(df.cumprod())
print("====================")
print("階差")
print(df.diff())
print("====================")

 <a name = "multiindex"></a>

---

## 多層インデックス

インデックスを階層化させることができる

In [None]:
# 多層Series
data = Series(np.random.randn(10),index=[['a','a','a','b','b','b','c','c','d','d',],[1,2,3,1,2,3,1,2,2,3]])

In [None]:
data

In [None]:
# MultiIndex
data.index

In [None]:
data['b']

In [None]:
# unstack()でDataFrameに
data.unstack()

In [None]:
# unstack()の逆はstack()
data.unstack().stack()

In [None]:
# DataFrame
frame = DataFrame(np.arange(12).reshape(4,3),index=[['a','a','b','b'],[1,2,1,2]],columns=[['Ohio','Ohio','Colorado'],['Green', 'Red', 'Green']])

In [None]:
frame

<a name="cheat"></a>

## おまけ

[***Pandas Cheat Sheet***](https://pandas.pydata.org/Pandas_Cheat_Sheet.pdf)