### pandasとは
Numpyを基盤として、**シリーズ(Series)** と **データフレーム(DataFrame)** というデータ型を提供するモジュール  

In [2]:
import pandas

### Seriesとは
Seriesは1次元のデータを扱えるデータ型

In [4]:
series = pandas.Series([10,20,30,40])
series

0    10
1    20
2    30
3    40
dtype: int64

Numpyを基盤としているため、格納される値はNumpy特有のものとなる  
今回の場合はint64  
Seriesはインデックスとその値を表示してくれる

### DataFrameとは
2次元のデータを扱えるデータ型

In [5]:
data_frame = pandas.DataFrame([[1,2,3],
                               [4,5,6],
                               [7,8,9]])
data_frame

Unnamed: 0,0,1,2
0,1,2,3
1,4,5,6
2,7,8,9


このようにDataFrameを作成するとクロス表のようにデータを扱う事が出来る  
また、DataFrameは**列ごとにデータ型を変える事が出来る**  
ここら辺はデータベースのテーブルと似ている概念

In [6]:
data_frame = pandas.DataFrame([[1,"a",True],
                               [4,"b",False],
                               [7,"c",True]])
data_frame

Unnamed: 0,0,1,2
0,1,a,True
1,4,b,False
2,7,c,True


基本は、列ごとにデータ型をそろえるが、そろえなくても、DataFrameは生成できる  
しかし、その場合は、その列は**オブジェクト型**として認識され、数値演算等は行えなくなる

### DataFrameの概要を見る

In [8]:
import numpy

# 0~99の数字を25×4行列に格納する
data_frame = pandas.DataFrame(numpy.arange(100).reshape((25,4)))
data_frame

Unnamed: 0,0,1,2,3
0,0,1,2,3
1,4,5,6,7
2,8,9,10,11
3,12,13,14,15
4,16,17,18,19
5,20,21,22,23
6,24,25,26,27
7,28,29,30,31
8,32,33,34,35
9,36,37,38,39


In [9]:
# headメソッドは先頭5行を表示する
data_frame.head()

Unnamed: 0,0,1,2,3
0,0,1,2,3
1,4,5,6,7
2,8,9,10,11
3,12,13,14,15
4,16,17,18,19


In [11]:
# tailは末尾5行を表示する
data_frame.tail()

Unnamed: 0,0,1,2,3
20,80,81,82,83
21,84,85,86,87
22,88,89,90,91
23,92,93,94,95
24,96,97,98,99


headで先頭5行、tailで末尾5行はlinuxコマンドと似た使い方ができる

In [14]:
# shapeでサイズを表示する
# これはメンバに直アクセス
data_frame.shape

(25, 4)

### DataFrameのインデックス名、カラム名を指定する
DataFrameはPython、Numpyで用意されている配列より、**データベースのテーブル**に近い存在  
そのため、行名、列名ともに指定して、表の意味を分かりやすくすることも出来る  

In [17]:
data_frame = pandas.DataFrame(numpy.arange(9).reshape((3,3)))
data_frame

Unnamed: 0,0,1,2
0,0,1,2
1,3,4,5
2,6,7,8


In [21]:
# 行名を指定
data_frame.index = ["first","second","third"]
data_frame

Unnamed: 0,0,1,2
first,0,1,2
second,3,4,5
third,6,7,8


In [22]:
# 列名を指定
data_frame.columns = ["1st","2nd","3rd"]
data_frame

Unnamed: 0,1st,2nd,3rd
first,0,1,2
second,3,4,5
third,6,7,8


In [24]:
# DataFrame作成時に指定することも出来る
data_frame = pandas.DataFrame(numpy.arange(9).reshape((3,3)),
                              columns = ["A","B","C"],
                              index = ["a","b","c"])
data_frame

Unnamed: 0,A,B,C
a,0,1,2
b,3,4,5
c,6,7,8


In [25]:
# 列名のみの指定なら、辞書型が使える
data_frame = pandas.DataFrame({"A":numpy.arange(3),"B":numpy.arange(3,6)})
data_frame

Unnamed: 0,A,B
0,0,3
1,1,4
2,2,5


### データの抽出
pandasのDataFrameはデータベースのように使えるのが利点  
そのため、データ抽出がNumpyやPython標準より、行いやすい


In [39]:
data_frame = pandas.DataFrame(numpy.arange(9).reshape((3,3)),
                              columns = ["A","B","C"],
                              index = ["a","b","c"])
data_frame

Unnamed: 0,A,B,C
a,0,1,2
b,3,4,5
c,6,7,8


In [27]:
# 列名指定で抽出
# 単純に1つだけの指定なら返値は、Series
data_frame["A"]

a    0
b    3
c    6
Name: A, dtype: int32

In [30]:
# 複数抽出
# リストで指定すれば返値は、DataFrame
data_frame[["A","B"]]

Unnamed: 0,A,B
a,0,1
b,3,4
c,6,7


In [31]:
# リストで指定すれば、要素が1つでもDataFrameが返ってくる
data_frame[["A"]]

Unnamed: 0,A
a,0
b,3
c,6


In [32]:
# 行の抽出はスライスで行う
data_frame[:2]

Unnamed: 0,A,B,C
a,0,1,2
b,3,4,5


In [33]:
data_frame[1:2]

Unnamed: 0,A,B,C
b,3,4,5


上記では、`[]`にて、データ抽出を行ったが、通常これは**推奨されない**  
というのも、**行を指定しているのか、列を指定しているのかわかりにくいから**である  
  
そこで、**loc** と **iloc** というメソッドを用いる

In [34]:
# locメソッドは行と列をそれぞれ指定する
data_frame.loc[:,:]

Unnamed: 0,A,B,C
a,0,1,2
b,3,4,5
c,6,7,8


In [40]:
# ただし、locで得られる結果は参照である点に注意
data_frame.loc["a","A"] = 999
data_frame

Unnamed: 0,A,B,C
a,999,1,2
b,3,4,5
c,6,7,8


In [41]:
# 行、列の順番で指定する
data_frame.loc[:,"A"]

a    999
b      3
c      6
Name: A, dtype: int32

In [42]:
# locもリストで指定するか否かで返りが変わってくる
data_frame.loc[:,["A"]]

Unnamed: 0,A
a,999
b,3
c,6


In [43]:
data_frame.loc["a",:]

A    999
B      1
C      2
Name: a, dtype: int32

In [44]:
data_frame.loc[["a"],:]

Unnamed: 0,A,B,C
a,999,1,2


In [45]:
data_frame.loc[["a"],["A","B"]]

Unnamed: 0,A,B
a,999,1


In [46]:
# ilocはlocのインデックスバージョン
data_frame.iloc[:,:]

Unnamed: 0,A,B,C
a,999,1,2
b,3,4,5
c,6,7,8


In [47]:
data_frame.iloc[1,:]

A    3
B    4
C    5
Name: b, dtype: int32

In [48]:
data_frame.iloc[[1],:]

Unnamed: 0,A,B,C
b,3,4,5


In [49]:
data_frame.iloc[[1,2],[1]]

Unnamed: 0,B
b,4
c,7


In [50]:
# ilocも返ってくる値は参照である点に注意する
data_frame.iloc[[1,2],[1]] = -999
data_frame

Unnamed: 0,A,B,C
a,999,1,2
b,3,-999,5
c,6,-999,8
