# ***Pandas***
---
Pandasとは、データ解析用のライブラリ。<br>
Pandasを使うと、データの統計量を表示したり、グラフ化するなど、データ分析や機械学習で必要となる作業を簡単に行うことができる。<br>
以下は、Pandasでできることの例。<br>
・データ前処理<br>
・データの結合や部分的な取り出しやピボッド処理<br>
・データの集約及びグループ演算<br>
・データに対しての統計処理及び回帰処理<br>

### ■Pandasの使用
Pandasを利用するために、インポートする。<br>

In [2]:
import pandas as pd

# データ生成用にnumpyをインポート
import numpy as np

### ■シリーズ(Series)、データフレーム(DataFrame)
Seriesは1列のみのデータ型。<br>
DataFrameは複数の列で、2次元のラベル付きのデータ構造のデータ型。<br>

#### ・Seriesの作成
リストから作成することができる。<br>

In [2]:
# リストからSeriesの作成
s1 = pd.Series([0,1,2,3,4]) 
print(s1)

0    0
1    1
2    2
3    3
4    4
dtype: int64


配列からも作成することができる。

In [3]:
# NumPy.array() 関数の配列からSeriesの作成
s2 = pd.Series(np.array(['札幌','旭川','函館','帯広','釧路']) )
print(s2)

0    札幌
1    旭川
2    函館
3    帯広
4    釧路
dtype: object


#### ・DataFrameの作成
リストから作成することができる。<br>

In [4]:
d1 = pd.DataFrame([[0,1,2,3,4],[5,6,7,8,9],[10,11,12,13,14],[15,16,17,18,19],[20,21,22,23,24]])
print(d1)

    0   1   2   3   4
0   0   1   2   3   4
1   5   6   7   8   9
2  10  11  12  13  14
3  15  16  17  18  19
4  20  21  22  23  24


配列から作成することもできる。
また、列名、行名の指定が可能である。

In [5]:
d2 = pd.DataFrame((np.arange(25).reshape(5,5)),
                  index = ['R_1','R_2','R_3','R_4','R_5'], 
                  columns=['C_1','C_2','C_3','C_4','C_5'])
print(d2)

     C_1  C_2  C_3  C_4  C_5
R_1    0    1    2    3    4
R_2    5    6    7    8    9
R_3   10   11   12   13   14
R_4   15   16   17   18   19
R_5   20   21   22   23   24


### ■CSVファイルからのDataFrameの作成
read_csv()関数で、CSVファイルを読み込み、DataFrameのオブジェクトを作成することができる。<br>
encoding引数にはファイルの文字コードを指定する。<br>
※データ出力にはto_csv()関数を使用する。<br>
<br>
・iris.csv－アヤメの種類 (species)、花弁 (petal)のがく片 (sepal) の長さ (length) と幅 (width) <br>
"sepal.length","sepal.width","petal.length","petal.width","variety"<br>
5.1,3.5,1.4,.2,"Setosa"<br>
4.9,3,1.4,.2,"Setosa"<br>
4.7,3.2,1.3,.2,"Setosa"<br>
4.6,3.1,1.5,.2,"Setosa"<br>
5,3.6,1.4,.2,"Setosa"<br>
5.4,3.9,1.7,.4,"Setosa"<br>
4.6,3.4,1.4,.3,"Setosa"<br>
5,3.4,1.5,.2,"Setosa"<br>
4.4,2.9,1.4,.2,"Setosa"<br>
4.9,3.1,1.5,.1,"Setosa"<br>

In [6]:
# CSVファイルの読み込み
iris_data = pd.read_csv('iris.csv', encoding = 'shift-jis')

### ■headとtail
head()メソッドで、DataFrameの先頭から数行を表示させることができる。<br>
引数は行数を指定する。省略した場合は、5行分が表示される。<br>
tail()メソッドは、末尾から表示される。

In [7]:
# 先頭から10行のデータを表示
iris_data.head(10)

Unnamed: 0,sepal.length,sepal.width,petal.length,petal.width,variety
0,5.1,3.5,1.4,0.2,Setosa
1,4.9,3.0,1.4,0.2,Setosa
2,4.7,3.2,1.3,0.2,Setosa
3,4.6,3.1,1.5,0.2,Setosa
4,5.0,3.6,1.4,0.2,Setosa
5,5.4,3.9,1.7,0.4,Setosa
6,4.6,3.4,1.4,0.3,Setosa
7,5.0,3.4,1.5,0.2,Setosa
8,4.4,2.9,1.4,0.2,Setosa
9,4.9,3.1,1.5,0.1,Setosa


In [8]:
# 末尾から5行のデータを表示
iris_data.tail()

Unnamed: 0,sepal.length,sepal.width,petal.length,petal.width,variety
145,6.7,3.0,5.2,2.3,Virginica
146,6.3,2.5,5.0,1.9,Virginica
147,6.5,3.0,5.2,2.0,Virginica
148,6.2,3.4,5.4,2.3,Virginica
149,5.9,3.0,5.1,1.8,Virginica


### ■要約情報、行数・列数、index、カラムの情報
infoメソッドで、DataFrameの要約情報を確認することができる。

In [9]:
iris_data.info

<bound method DataFrame.info of      sepal.length  sepal.width  petal.length  petal.width    variety
0             5.1          3.5           1.4          0.2     Setosa
1             4.9          3.0           1.4          0.2     Setosa
2             4.7          3.2           1.3          0.2     Setosa
3             4.6          3.1           1.5          0.2     Setosa
4             5.0          3.6           1.4          0.2     Setosa
..            ...          ...           ...          ...        ...
145           6.7          3.0           5.2          2.3  Virginica
146           6.3          2.5           5.0          1.9  Virginica
147           6.5          3.0           5.2          2.0  Virginica
148           6.2          3.4           5.4          2.3  Virginica
149           5.9          3.0           5.1          1.8  Virginica

[150 rows x 5 columns]>

shapeメソッドで、DataFrameの行数・列数が確認できる。

In [10]:
iris_data.shape

(150, 5)

indexメソッドで、DataFrameのindexの情報が確認できる。<br>

In [11]:
iris_data.index

RangeIndex(start=0, stop=150, step=1)

また、len() 関数を用いると、データフレームの行数が取得できる。

In [12]:
len(iris_data.index)

150

columnsメソッドで、カラムの情報を確認できる。

In [13]:
iris_data.columns

Index(['sepal.length', 'sepal.width', 'petal.length', 'petal.width',
       'variety'],
      dtype='object')

### ■ilocとloc（データの参照）
ilocメソッドで、行と列のindexを指定して、特定の行と列を抽出することができる。

In [16]:
# 3行目を取得
iris_data.iloc[2]

sepal.length       4.7
sepal.width        3.2
petal.length       1.3
petal.width        0.2
variety         Setosa
Name: 2, dtype: object

In [18]:
# 2～4行を取得
iris_data.iloc[1:4]

Unnamed: 0,sepal.length,sepal.width,petal.length,petal.width,variety
1,4.9,3.0,1.4,0.2,Setosa
2,4.7,3.2,1.3,0.2,Setosa
3,4.6,3.1,1.5,0.2,Setosa


In [20]:
# 2～4行、1～2列を取得
iris_data.iloc[1:4,0:2]

Unnamed: 0,sepal.length,sepal.width
1,4.9,3.0
2,4.7,3.2
3,4.6,3.1


locメソッドで、行と列の名称（ラベル）を指定して、任意の行と列を抽出することができる。<br>

In [21]:
# 3行目を取得
iris_data.loc[2]

sepal.length       4.7
sepal.width        3.2
petal.length       1.3
petal.width        0.2
variety         Setosa
Name: 2, dtype: object

In [24]:
# 2～4行を取得
iris_data.loc[2:4]

Unnamed: 0,sepal.length,sepal.width,petal.length,petal.width,variety
2,4.7,3.2,1.3,0.2,Setosa
3,4.6,3.1,1.5,0.2,Setosa
4,5.0,3.6,1.4,0.2,Setosa


In [26]:
# 2～4行、'sepal_length'と'sepal.width'とspecies'の列を取得
iris_data.loc[2:4, ['sepal.length','sepal.width','variety']]

Unnamed: 0,sepal.length,sepal.width,variety
2,4.7,3.2,Setosa
3,4.6,3.1,Setosa
4,5.0,3.6,Setosa


### ■条件抽出
DataFrameの列に対して条件を指定することで、条件に一致する行を抽出することができる。<br>

In [31]:
# 'sepal.length'列の値が5より小さい
iris_data[(iris_data['sepal.length'] < 5)]

Unnamed: 0,sepal.length,sepal.width,petal.length,petal.width,variety
1,4.9,3.0,1.4,0.2,Setosa
2,4.7,3.2,1.3,0.2,Setosa
3,4.6,3.1,1.5,0.2,Setosa
6,4.6,3.4,1.4,0.3,Setosa
8,4.4,2.9,1.4,0.2,Setosa
9,4.9,3.1,1.5,0.1,Setosa
11,4.8,3.4,1.6,0.2,Setosa
12,4.8,3.0,1.4,0.1,Setosa
13,4.3,3.0,1.1,0.1,Setosa
22,4.6,3.6,1.0,0.2,Setosa


複数条件を指定する場合は、「and」は「&」、「or」は「|」、「not」は「~」を使用する。

In [32]:
# 'sepal.length'列の値が5より小さく、'sepal.width'列の値が4より大きい
iris_data[(iris_data['sepal.length'] < 5.0) & (iris_data['sepal.width'] > 3.0)]

Unnamed: 0,sepal.length,sepal.width,petal.length,petal.width,variety
2,4.7,3.2,1.3,0.2,Setosa
3,4.6,3.1,1.5,0.2,Setosa
6,4.6,3.4,1.4,0.3,Setosa
9,4.9,3.1,1.5,0.1,Setosa
11,4.8,3.4,1.6,0.2,Setosa
22,4.6,3.6,1.0,0.2,Setosa
24,4.8,3.4,1.9,0.2,Setosa
29,4.7,3.2,1.6,0.2,Setosa
30,4.8,3.1,1.6,0.2,Setosa
34,4.9,3.1,1.5,0.2,Setosa


ブールインデックスを使用し条件抽出することができる。

In [3]:
data_i = pd.DataFrame([['札幌',1900000],['旭川',340000],['函館',270000],['帯広',160000],['釧路',180000]], columns=['地名','人口'])
print(data_i)

   地名       人口
0  札幌  1900000
1  旭川   340000
2  函館   270000
3  帯広   160000
4  釧路   180000


DataFrameに対して条件を指定すると、同じ要素数、boolean型、条件に一致する要素がTrueのSeriesがブールインデックスとして作成される。

In [5]:
data_i_j = data_i['人口'] < 200000
data_i_j

0    False
1    False
2    False
3     True
4     True
Name: 人口, dtype: bool

元のデータフレームにブールインデックスを条件指定することで、Trueの対象が抽出される。

In [7]:
print(data_i[data_i_j])

Unnamed: 0,地名,人口
3,帯広,160000
4,釧路,180000


### ■列の追加と削除
DataFrameへの列追加は、['列名']で列を追加することができる。

In [43]:
# 'col_a1''col_a2'列を追加
iris_data['col_a1']=iris_data.index
iris_data['col_a2']=iris_data.index
iris_data.head(5)

Unnamed: 0,sepal.length,sepal.width,petal.length,petal.width,variety,col_a1,col_a2
0,5.1,3.5,1.4,0.2,Setosa,0,0
1,4.9,3.0,1.4,0.2,Setosa,1,1
2,4.7,3.2,1.3,0.2,Setosa,2,2
3,4.6,3.1,1.5,0.2,Setosa,3,3
4,5.0,3.6,1.4,0.2,Setosa,4,4


delメソッドで、列名を指定し削除することができる。

In [44]:
# 'col_a2'列を削除
del iris_data['col_a2']
iris_data.head(5)

Unnamed: 0,sepal.length,sepal.width,petal.length,petal.width,variety,col_a1
0,5.1,3.5,1.4,0.2,Setosa,0
1,4.9,3.0,1.4,0.2,Setosa,1
2,4.7,3.2,1.3,0.2,Setosa,2
3,4.6,3.1,1.5,0.2,Setosa,3
4,5.0,3.6,1.4,0.2,Setosa,4


drop()メソッドでも、列名を指定し削除することができる。<br>
※axis=1で列、axis=0で行を指定<br>
　inplace=Trueで元のDataFrameを変更する。

In [48]:
# 'col_a1'列を削除、axisは1
iris_data.drop('col_a1', axis=1, inplace=True)
iris_data.head(5)

Unnamed: 0,sepal.length,sepal.width,petal.length,petal.width,variety
0,5.1,3.5,1.4,0.2,Setosa
1,4.9,3.0,1.4,0.2,Setosa
2,4.7,3.2,1.3,0.2,Setosa
3,4.6,3.1,1.5,0.2,Setosa
4,5.0,3.6,1.4,0.2,Setosa


### ■データの並び替え
sort_values()メソッドで、DataFrameのソートができる。<br>
昇順、降順や列の複数指定が可能。<br>
※inplace=Trueを指定しない場合は、元のDataFrameは変更されない（以下は別のDataFrameに設定して確認）

In [49]:
# 各列の昇順でソート
iris_data_sort = iris_data.sort_values(['sepal.length', 'sepal.width', 'petal.length', 'petal.width'])
iris_data_sort.head(10)

Unnamed: 0,sepal.length,sepal.width,petal.length,petal.width,variety
13,4.3,3.0,1.1,0.1,Setosa
8,4.4,2.9,1.4,0.2,Setosa
38,4.4,3.0,1.3,0.2,Setosa
42,4.4,3.2,1.3,0.2,Setosa
41,4.5,2.3,1.3,0.3,Setosa
3,4.6,3.1,1.5,0.2,Setosa
47,4.6,3.2,1.4,0.2,Setosa
6,4.6,3.4,1.4,0.3,Setosa
22,4.6,3.6,1.0,0.2,Setosa
2,4.7,3.2,1.3,0.2,Setosa


降順にソートする場合は、ascending引数を「False」にする。

In [50]:
# 各列の降順でソート
iris_data_sort = iris_data.sort_values(['sepal.length', 'sepal.width', 'petal.length', 'petal.width'], ascending=False)
iris_data_sort.head(10)

Unnamed: 0,sepal.length,sepal.width,petal.length,petal.width,variety
131,7.9,3.8,6.4,2.0,Virginica
117,7.7,3.8,6.7,2.2,Virginica
135,7.7,3.0,6.1,2.3,Virginica
122,7.7,2.8,6.7,2.0,Virginica
118,7.7,2.6,6.9,2.3,Virginica
105,7.6,3.0,6.6,2.1,Virginica
130,7.4,2.8,6.1,1.9,Virginica
107,7.3,2.9,6.3,1.8,Virginica
109,7.2,3.6,6.1,2.5,Virginica
125,7.2,3.2,6.0,1.8,Virginica


sort_index()メソッドで、DataFrameのインデックスでソートができる。<br>

In [54]:
# 各列の降順でソート済み
iris_data_sort.head(5)

Unnamed: 0,sepal.length,sepal.width,petal.length,petal.width,variety
131,7.9,3.8,6.4,2.0,Virginica
117,7.7,3.8,6.7,2.2,Virginica
135,7.7,3.0,6.1,2.3,Virginica
122,7.7,2.8,6.7,2.0,Virginica
118,7.7,2.6,6.9,2.3,Virginica


In [53]:
# indexの昇順でソート
iris_data_sort_idx = iris_data_sort.sort_index()
iris_data_sort_idx.head(5)

Unnamed: 0,sepal.length,sepal.width,petal.length,petal.width,variety
0,5.1,3.5,1.4,0.2,Setosa
1,4.9,3.0,1.4,0.2,Setosa
2,4.7,3.2,1.3,0.2,Setosa
3,4.6,3.1,1.5,0.2,Setosa
4,5.0,3.6,1.4,0.2,Setosa


### ■データの統計量
describe()メソッドで、各列の平均、標準偏差、最大値、最小値などの要約統計量を確認できる。

In [55]:
#「iris_data」の要約統計量
iris_data.describe()

Unnamed: 0,sepal.length,sepal.width,petal.length,petal.width
count,150.0,150.0,150.0,150.0
mean,5.843333,3.057333,3.758,1.199333
std,0.828066,0.435866,1.765298,0.762238
min,4.3,2.0,1.0,0.1
25%,5.1,2.8,1.6,0.3
50%,5.8,3.0,4.35,1.3
75%,6.4,3.3,5.1,1.8
max,7.9,4.4,6.9,2.5


### ■データの相関係数
corr()メソッドで、DataFrameの各列の間の相関係数を算出することができる。

※相関行列は、変量が多数ある場合に二つずつの組合せの相関係数を1枚の表にまとめたもの。

In [9]:
# 「iris_data」各数値列の相関行列を計算
iris_data.corr()

Unnamed: 0,sepal.length,sepal.width,petal.length,petal.width
sepal.length,1.0,-0.11757,0.871754,0.817941
sepal.width,-0.11757,1.0,-0.42844,-0.366126
petal.length,0.871754,-0.42844,1.0,0.962865
petal.width,0.817941,-0.366126,0.962865,1.0


### ■データの連結
concat()関数で、DataFrameを連結して新たなDataFrameを作成することができる。

In [65]:
# 「iris_data」の先頭3行のDataFrame作成
iris_data_1 = iris_data[:3]
iris_data_1

Unnamed: 0,sepal.length,sepal.width,petal.length,petal.width,variety
0,5.1,3.5,1.4,0.2,Setosa
1,4.9,3.0,1.4,0.2,Setosa
2,4.7,3.2,1.3,0.2,Setosa


In [66]:
# 「iris_data」の末尾3行のDataFrame作成
iris_data_2 = iris_data[-3:]
iris_data_2

Unnamed: 0,sepal.length,sepal.width,petal.length,petal.width,variety
147,6.5,3.0,5.2,2.0,Virginica
148,6.2,3.4,5.4,2.3,Virginica
149,5.9,3.0,5.1,1.8,Virginica


In [68]:
# 先頭3行と最終3行を連結
iris_data_concat = pd.concat([iris_data_1, iris_data_2])
iris_data_concat

Unnamed: 0,sepal.length,sepal.width,petal.length,petal.width,variety
0,5.1,3.5,1.4,0.2,Setosa
1,4.9,3.0,1.4,0.2,Setosa
2,4.7,3.2,1.3,0.2,Setosa
147,6.5,3.0,5.2,2.0,Virginica
148,6.2,3.4,5.4,2.3,Virginica
149,5.9,3.0,5.1,1.8,Virginica


concat()関数のaxis引数に「1」を指定すると、DataFrameを列方向に連結することができる。

In [69]:
# 「sepal.length」のDataFrame作成
iris_data_concat1 = iris_data_concat.loc[:, ['sepal.length']]
iris_data_concat1

Unnamed: 0,sepal.length
0,5.1
1,4.9
2,4.7
147,6.5
148,6.2
149,5.9


In [70]:
# 「variety」のDataFrame作成
iris_data_concat2 = iris_data_concat.loc[:, ['variety']]
iris_data_concat2

Unnamed: 0,variety
0,Setosa
1,Setosa
2,Setosa
147,Virginica
148,Virginica
149,Virginica


In [72]:
# 'sepal.length'列と'species'列を連結
iris_data_concat3 = pd.concat([iris_data_concat1,iris_data_concat2], axis=1)
iris_data_concat3

Unnamed: 0,sepal.length,variety
0,5.1,Setosa
1,4.9,Setosa
2,4.7,Setosa
147,6.5,Virginica
148,6.2,Virginica
149,5.9,Virginica


### ■データの結合
merge()関数で、任意の列の値をキーとして異なるDataFrameを結合することができる。<br>
結合のキーとする列名はon引数で指定する。

In [58]:
#'sepal.length'と'variety'列からなる3行のデータ
sepal_len = pd.concat([iris_data.loc[[0,51,101],['sepal.length']],iris_data.loc[[0,51,101], ['variety']]], axis=1)
#'sepal.width'と'variety'列からなる3行のデータ
sepal_wid = pd.concat([iris_data.loc[[0,51,101],['sepal.width']],iris_data.loc[[0,51,101], ['variety']]], axis=1)

#sepal.lenとsepal.widを'variety'をキーにして結合
sepal = pd.merge(sepal_len, sepal_wid, on='variety')
sepal

Unnamed: 0,sepal.length,variety,sepal.width
0,5.1,Setosa,3.5
1,6.4,Versicolor,3.2
2,5.8,Virginica,2.7


how引数で、内部結合、外部結合等の指定が可能である。

In [15]:
# 名称のDataFrame
data_m1 = pd.DataFrame([[10001,'TOMATO'],[10002,'POTATO'],[10003,'ONION'],[10004,'CARROT']], columns=['ID','NAME'])
data_m1

Unnamed: 0,ID,NAME
0,10001,TOMATO
1,10002,POTATO
2,10003,ONION
3,10004,CARROT


In [22]:
# 価格のDataFrame
data_m2 = pd.DataFrame([[10001,100],[10002,50],[10004,40],[10005,200]], columns=['ID','PRICE'])
data_m2

Unnamed: 0,ID,PRICE
0,10001,100
1,10002,50
2,10004,40
3,10005,200


内部結合の場合、how引数にinnerを指定する。<br>
（IDが一致する対象のみが結合される。）

In [19]:
data_mi = pd.merge(data_m1, data_m2, on='ID', how='inner')
data_mi

Unnamed: 0,ID,NAME,PRICE
0,10001,TOMATO,100
1,10002,POTATO,50
2,10004,CARROT,40


左外部結合の場合、how引数にleftを指定する。<br>
（第一引数のDataFrameは、すべてが出力される。第二引数のDataFrameは、IDが一致する対象のみのデータが出力され、不一致はNoneとして出力される）

In [23]:
data_ml = pd.merge(data_m1, data_m2, on='ID', how='left')
data_ml

Unnamed: 0,ID,NAME,PRICE
0,10001,TOMATO,100.0
1,10002,POTATO,50.0
2,10003,ONION,
3,10004,CARROT,40.0


### ■データのグループ化
groupby()メソッドで、指定した列のうち同じ値を持つ行をグループ化することができる。<br>
列は複数指定することもできる。<br>

In [59]:
# 'variety'の値で行をグループ化
iris_data.groupby('variety')

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x0000019A933B5190>

In [60]:
# グループごとの平均値を表示
iris_data.groupby('variety').mean()

Unnamed: 0_level_0,sepal.length,sepal.width,petal.length,petal.width
variety,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Setosa,5.006,3.428,1.462,0.246
Versicolor,5.936,2.77,4.26,1.326
Virginica,6.588,2.974,5.552,2.026


In [61]:
# グループごとの最大を表示
iris_data.groupby('variety').max()

Unnamed: 0_level_0,sepal.length,sepal.width,petal.length,petal.width
variety,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Setosa,5.8,4.4,1.9,0.6
Versicolor,7.0,3.4,5.1,1.8
Virginica,7.9,3.8,6.9,2.5


In [62]:
# グループごとの最小を表示
iris_data.groupby('variety').min()

Unnamed: 0_level_0,sepal.length,sepal.width,petal.length,petal.width
variety,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Setosa,4.3,2.3,1.0,0.1
Versicolor,4.9,2.0,3.0,1.0
Virginica,4.9,2.2,4.5,1.4


### ■欠損値の処理
Pandasには欠損値(NaN)の扱うメソッドは「dropna」、「fillna」、「isnull」、「notnull」がある。<br>
dropna：指定の軸方向にデータ列を見て、欠損値の有無に関して指定の条件を満たす場合に、そのデータ列を削除する。<br>
fillna：欠損値を指定の値もしくは、指定の方法で埋めることができる。<br>
isnull：データの要素ごとにNaNはTrue、それ以外をFalseとして扱い、元のデータと同じサイズのオブジェクトを返す。<br>
notnull：isnullとは逆の真偽値を返す。

In [79]:
data_d = pd.DataFrame([['札幌',1900000],['旭川',340000],['函館',270000],['帯広',160000],['釧路',180000],[None,170000]],
                      columns=['地名','人口'])
data_d

Unnamed: 0,地名,人口
0,札幌,1900000
1,旭川,340000
2,函館,270000
3,帯広,160000
4,釧路,180000
5,,170000


In [78]:
data_d.dropna(axis=0, how="any")

Unnamed: 0,地名,人口
0,札幌,1900000
1,旭川,340000
2,函館,270000
3,帯広,160000
4,釧路,180000
