# ***Pandas***
---
Pandasは、データ解析用のライブラリ。<br>
Pandasでは、データ前処理、データの結合や部分的な取り出し、集約やグループ演算、統計処理や回帰処理などを行うことができる。<br>
データ加工や解析の関数が豊富であり、多様な形式のデータや大規模なデータの処理に適しているため、<br>
データ分析や機械学習で必要となる作業を簡単に行うことができる。

### ■Pandasの使用
Pandasを利用するために、インポートする。<br>

In [1]:
import pandas as pd

# データ生成用にnumpyをインポート
import numpy as np

### ■シリーズ(Series)、データフレーム(DataFrame)
Seriesは1列のみのデータ型（1次元配列）。<br>
DataFrameは複数の列のデータ型（ラベル付きの2次元配列）。<br>

#### ・Seriesの作成
リストから作成することができる。<br>

In [2]:
s1 = pd.Series([0,1,2,3,4]) 
print(s1)

0    0
1    1
2    2
3    3
4    4
dtype: int64


配列からも作成することができる。

In [3]:
# NumPy.arrayの配列
s2 = pd.Series(np.array(['札幌','旭川','函館','帯広','釧路']) )
print(s2)

0    札幌
1    旭川
2    函館
3    帯広
4    釧路
dtype: object


#### ・DataFrameの作成
リストから作成することができる。<br>

In [4]:
d1 = pd.DataFrame([[0,1,2,3,4],[5,6,7,8,9],[10,11,12,13,14],[15,16,17,18,19],[20,21,22,23,24]])
print(d1)

    0   1   2   3   4
0   0   1   2   3   4
1   5   6   7   8   9
2  10  11  12  13  14
3  15  16  17  18  19
4  20  21  22  23  24


配列から作成することもできる。
また、列名、行名の指定が可能である。

In [5]:
# NumPy.arangeの配列
d2 = pd.DataFrame((np.arange(25).reshape(5,5)),
                  index = ['R_1','R_2','R_3','R_4','R_5'], 
                  columns=['C_1','C_2','C_3','C_4','C_5'])
print(d2)

     C_1  C_2  C_3  C_4  C_5
R_1    0    1    2    3    4
R_2    5    6    7    8    9
R_3   10   11   12   13   14
R_4   15   16   17   18   19
R_5   20   21   22   23   24


### ■CSVファイルからのDataFrameの作成
read_csvで、CSVファイルを読み込み、DataFrameを作成することができる。<br>
※データ出力にはto_csvを使用する。<br>
<br>
・入力データ「iris.csv」<br>
アヤメのがく片の長さと幅、花弁の長さと幅、種類の5項目<br>
<br>
"sepal_length","sepal_width","petal_length","petal_width","species"<br>
5.1,3.5,1.4,.2,"Setosa"<br>
4.9,3,1.4,.2,"Setosa"<br>
4.7,3.2,1.3,.2,"Setosa"<br>
4.6,3.1,1.5,.2,"Setosa"<br>
5,3.6,1.4,.2,"Setosa"<br>
5.4,3.9,1.7,.4,"Setosa"<br>
4.6,3.4,1.4,.3,"Setosa"<br>
5,3.4,1.5,.2,"Setosa"<br>
4.4,2.9,1.4,.2,"Setosa"<br>
4.9,3.1,1.5,.1,"Setosa"<br>

In [6]:
# 「data」フォルダの「iris.csv」を読み込み
iris_data = pd.read_csv('data/iris.csv')

### ■データの参照
headで、DataFrameの先頭から指定した行数を表示させることができる。<br>
tailは、末尾から表示される。<br>
※引数を省略した場合は、5行が表示される。<br>

In [7]:
# 先頭から3行を指定
iris_data.head(3)

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,5.1,3.5,1.4,0.2,Setosa
1,4.9,3.0,1.4,0.2,Setosa
2,4.7,3.2,1.3,0.2,Setosa


In [8]:
# 末尾から表示（引数は省略）
iris_data.tail()

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
145,6.7,3.0,5.2,2.3,Virginica
146,6.3,2.5,5.0,1.9,Virginica
147,6.5,3.0,5.2,2.0,Virginica
148,6.2,3.4,5.4,2.3,Virginica
149,5.9,3.0,5.1,1.8,Virginica


locで、行と列の名称（ラベル）を指定して、任意の行と列を抽出することができる。

In [9]:
# 1行目を取得
iris_data.loc[0]

sepal_length       5.1
sepal_width        3.5
petal_length       1.4
petal_width        0.2
species         Setosa
Name: 0, dtype: object

In [10]:
# 2～5行目を取得
iris_data.loc[1:4]

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
1,4.9,3.0,1.4,0.2,Setosa
2,4.7,3.2,1.3,0.2,Setosa
3,4.6,3.1,1.5,0.2,Setosa
4,5.0,3.6,1.4,0.2,Setosa


In [11]:
# 行は未指定、sepal_lengthとsepal_widthとspeciesの列を取得
iris_data.loc[:, ['sepal_length','sepal_width','species']]

Unnamed: 0,sepal_length,sepal_width,species
0,5.1,3.5,Setosa
1,4.9,3.0,Setosa
2,4.7,3.2,Setosa
3,4.6,3.1,Setosa
4,5.0,3.6,Setosa
...,...,...,...
145,6.7,3.0,Virginica
146,6.3,2.5,Virginica
147,6.5,3.0,Virginica
148,6.2,3.4,Virginica


ilocで、行と列のindexを指定して、特定の行と列を抽出することができる。

In [12]:
# 150行目を取得
iris_data.loc[149]

sepal_length          5.9
sepal_width           3.0
petal_length          5.1
petal_width           1.8
species         Virginica
Name: 149, dtype: object

In [13]:
# 146～149行目を取得
iris_data.iloc[145:149]

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
145,6.7,3.0,5.2,2.3,Virginica
146,6.3,2.5,5.0,1.9,Virginica
147,6.5,3.0,5.2,2.0,Virginica
148,6.2,3.4,5.4,2.3,Virginica


In [14]:
# 行は未指定、3～5（petal_lengthとpetal_widthとspecies）列を取得
iris_data.iloc[:,2:4]

Unnamed: 0,petal_length,petal_width
0,1.4,0.2
1,1.4,0.2
2,1.3,0.2
3,1.5,0.2
4,1.4,0.2
...,...,...
145,5.2,2.3
146,5.0,1.9
147,5.2,2.0
148,5.4,2.3


### ■要約情報、行数・列数、index、カラムの情報
infoで、DataFrameの要約情報が確認できる。

In [15]:
iris_data.info

<bound method DataFrame.info of      sepal_length  sepal_width  petal_length  petal_width    species
0             5.1          3.5           1.4          0.2     Setosa
1             4.9          3.0           1.4          0.2     Setosa
2             4.7          3.2           1.3          0.2     Setosa
3             4.6          3.1           1.5          0.2     Setosa
4             5.0          3.6           1.4          0.2     Setosa
..            ...          ...           ...          ...        ...
145           6.7          3.0           5.2          2.3  Virginica
146           6.3          2.5           5.0          1.9  Virginica
147           6.5          3.0           5.2          2.0  Virginica
148           6.2          3.4           5.4          2.3  Virginica
149           5.9          3.0           5.1          1.8  Virginica

[150 rows x 5 columns]>

shapeで、DataFrameの行数・列数が確認できる。

In [16]:
iris_data.shape

(150, 5)

indexで、DataFrameのindexの情報が確認できる。<br>

In [17]:
iris_data.index

RangeIndex(start=0, stop=150, step=1)

columnsで、カラムの情報が確認できる。

In [18]:
iris_data.columns

Index(['sepal_length', 'sepal_width', 'petal_length', 'petal_width',
       'species'],
      dtype='object')

### ■条件抽出
DataFrameの列に対して条件を指定することで、条件に一致する行を抽出することができる。<br>

In [19]:
# sepal_lengthが5より小さい
iris_data[(iris_data['sepal_length'] < 5)]

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
1,4.9,3.0,1.4,0.2,Setosa
2,4.7,3.2,1.3,0.2,Setosa
3,4.6,3.1,1.5,0.2,Setosa
6,4.6,3.4,1.4,0.3,Setosa
8,4.4,2.9,1.4,0.2,Setosa
9,4.9,3.1,1.5,0.1,Setosa
11,4.8,3.4,1.6,0.2,Setosa
12,4.8,3.0,1.4,0.1,Setosa
13,4.3,3.0,1.1,0.1,Setosa
22,4.6,3.6,1.0,0.2,Setosa


複数条件を指定する場合は、「and」は「&」、「or」は「|」、「not」は「~」を使用する。

In [20]:
# sepal_lengthが5より小さい、かつ、sepal_widthが3.3より大きい
iris_data[(iris_data['sepal_length'] < 5.0) & (iris_data['sepal_width'] > 3.3)]

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
6,4.6,3.4,1.4,0.3,Setosa
11,4.8,3.4,1.6,0.2,Setosa
22,4.6,3.6,1.0,0.2,Setosa
24,4.8,3.4,1.9,0.2,Setosa
37,4.9,3.6,1.4,0.1,Setosa


ブールインデックスを使用し、条件抽出することができる。<br>
（DataFrameの要素数と同じ数のboolean型のリストを指定することで、Trueの対象が抽出される）

In [21]:
# 元データを作成
data_i = pd.DataFrame([['札幌',1900000],['旭川',340000],['函館',270000],['帯広',160000],['釧路',180000]], columns=['地名','人口'])
print(data_i)

   地名       人口
0  札幌  1900000
1  旭川   340000
2  函館   270000
3  帯広   160000
4  釧路   180000


In [22]:
# ブールインデックスとして、条件に一致する要素がTrueのSeriesを作成
data_i_j = data_i['人口'] < 200000
data_i_j

0    False
1    False
2    False
3     True
4     True
Name: 人口, dtype: bool

元のDataFrameにブールインデックスを条件指定することで、Trueの対象が抽出される。

In [23]:
print(data_i[data_i_j])

   地名      人口
3  帯広  160000
4  釧路  180000


### ■列の追加と削除
DataFrameへの列追加は、['列名']で列を追加することができる。

In [24]:
# 追加前
iris_data.head(5)

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,5.1,3.5,1.4,0.2,Setosa
1,4.9,3.0,1.4,0.2,Setosa
2,4.7,3.2,1.3,0.2,Setosa
3,4.6,3.1,1.5,0.2,Setosa
4,5.0,3.6,1.4,0.2,Setosa


In [25]:
# col_a1列、col_a2列を追加（indexを値として設定）
iris_data['col_a1'] = iris_data.index
iris_data['col_a2'] = iris_data.index
iris_data.head(5)

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species,col_a1,col_a2
0,5.1,3.5,1.4,0.2,Setosa,0,0
1,4.9,3.0,1.4,0.2,Setosa,1,1
2,4.7,3.2,1.3,0.2,Setosa,2,2
3,4.6,3.1,1.5,0.2,Setosa,3,3
4,5.0,3.6,1.4,0.2,Setosa,4,4


delで、列名を指定し削除することができる。

In [26]:
# col_a2列を削除
del iris_data['col_a2']
iris_data.head(5)

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species,col_a1
0,5.1,3.5,1.4,0.2,Setosa,0
1,4.9,3.0,1.4,0.2,Setosa,1
2,4.7,3.2,1.3,0.2,Setosa,2
3,4.6,3.1,1.5,0.2,Setosa,3
4,5.0,3.6,1.4,0.2,Setosa,4


dropでも、列名を指定し削除することができる。<br>
※axis=1で列、axis=0で行を指定。<br>
　inplace=Trueで元のDataFrameを変更する。

In [27]:
# col_a1列を削除
iris_data.drop('col_a1', axis=1, inplace=True)
iris_data.head(5)

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,5.1,3.5,1.4,0.2,Setosa
1,4.9,3.0,1.4,0.2,Setosa
2,4.7,3.2,1.3,0.2,Setosa
3,4.6,3.1,1.5,0.2,Setosa
4,5.0,3.6,1.4,0.2,Setosa


### ■データの並び替え
sort_valuesで、DataFrameのソートができる。<br>
昇順、降順や列の複数指定が可能。<br>
※inplaceを指定しない場合、元のDataFrameは変更されない。

In [28]:
# 各列の昇順でソート
iris_data_sort = iris_data.sort_values(['sepal_length', 'sepal_width', 'petal_length', 'petal_width'])
iris_data_sort.head(20)

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
13,4.3,3.0,1.1,0.1,Setosa
8,4.4,2.9,1.4,0.2,Setosa
38,4.4,3.0,1.3,0.2,Setosa
42,4.4,3.2,1.3,0.2,Setosa
41,4.5,2.3,1.3,0.3,Setosa
3,4.6,3.1,1.5,0.2,Setosa
47,4.6,3.2,1.4,0.2,Setosa
6,4.6,3.4,1.4,0.3,Setosa
22,4.6,3.6,1.0,0.2,Setosa
2,4.7,3.2,1.3,0.2,Setosa


降順のソートは、ascending=Falseを指定する。

In [29]:
# 各列の降順でソート
iris_data_sort = iris_data.sort_values(['sepal_length', 'sepal_width', 'petal_length', 'petal_width'], ascending=False)
iris_data_sort.head(20)

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
131,7.9,3.8,6.4,2.0,Virginica
117,7.7,3.8,6.7,2.2,Virginica
135,7.7,3.0,6.1,2.3,Virginica
122,7.7,2.8,6.7,2.0,Virginica
118,7.7,2.6,6.9,2.3,Virginica
105,7.6,3.0,6.6,2.1,Virginica
130,7.4,2.8,6.1,1.9,Virginica
107,7.3,2.9,6.3,1.8,Virginica
109,7.2,3.6,6.1,2.5,Virginica
125,7.2,3.2,6.0,1.8,Virginica


sort_indexで、DataFrameのindexでソートができる。<br>

In [30]:
# 各列の降順でソート済み
iris_data_sort.head()

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
131,7.9,3.8,6.4,2.0,Virginica
117,7.7,3.8,6.7,2.2,Virginica
135,7.7,3.0,6.1,2.3,Virginica
122,7.7,2.8,6.7,2.0,Virginica
118,7.7,2.6,6.9,2.3,Virginica


In [31]:
# indexの昇順でソート
iris_data_sort_idx = iris_data_sort.sort_index()
iris_data_sort_idx.head()

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,5.1,3.5,1.4,0.2,Setosa
1,4.9,3.0,1.4,0.2,Setosa
2,4.7,3.2,1.3,0.2,Setosa
3,4.6,3.1,1.5,0.2,Setosa
4,5.0,3.6,1.4,0.2,Setosa


### ■データの統計量
describeで、各列の平均、標準偏差、最大値、最小値などの要約統計量を確認できる。

In [32]:
#「iris_data」の要約統計量
iris_data.describe()

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width
count,150.0,150.0,150.0,150.0
mean,5.843333,3.057333,3.758,1.199333
std,0.828066,0.435866,1.765298,0.762238
min,4.3,2.0,1.0,0.1
25%,5.1,2.8,1.6,0.3
50%,5.8,3.0,4.35,1.3
75%,6.4,3.3,5.1,1.8
max,7.9,4.4,6.9,2.5


### ■データの相関係数
corrで、DataFrameの各列の間の相関係数を算出することができる。

※相関行列は、変量が多数ある場合に二つずつの組合せの相関係数を1枚の表にまとめたもの。

In [33]:
# 「iris_data」の各数値列の相関行列を計算
iris_data.corr()

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width
sepal_length,1.0,-0.11757,0.871754,0.817941
sepal_width,-0.11757,1.0,-0.42844,-0.366126
petal_length,0.871754,-0.42844,1.0,0.962865
petal_width,0.817941,-0.366126,0.962865,1.0


## ■データの連結
concatで、DataFrameを連結できる。

In [34]:
# 元データ1を作成
data_con1 = pd.DataFrame([['札幌',1900000],['旭川',340000],['函館',270000]], columns=['地名','人口'])
data_con1

Unnamed: 0,地名,人口
0,札幌,1900000
1,旭川,340000
2,函館,270000


In [35]:
# 元データ2を作成
data_con2 = pd.DataFrame([['帯広',160000],['釧路',180000]], columns=['地名','人口'])
data_con2

Unnamed: 0,地名,人口
0,帯広,160000
1,釧路,180000


In [36]:
# 元データ1と2を連結
data_con12 = pd.concat([data_con1, data_con2])
data_con12

Unnamed: 0,地名,人口
0,札幌,1900000
1,旭川,340000
2,函館,270000
0,帯広,160000
1,釧路,180000


列方向の連結もできる。<br>
※axis=1を指定

In [37]:
# 元データを作成
data_con3 = pd.DataFrame([['札幌',1900000],['旭川',340000],['函館',270000],['帯広',160000],['釧路',180000]], columns=['地名','人口'])
data_con3

Unnamed: 0,地名,人口
0,札幌,1900000
1,旭川,340000
2,函館,270000
3,帯広,160000
4,釧路,180000


In [38]:
# 元データ3を作成
data_con4 = pd.DataFrame([['Sapporo'],['Asahikawa'],['Hakodate'],['Obihiro'],['Kushiro']], columns=['地名（英）'])
data_con4

Unnamed: 0,地名（英）
0,Sapporo
1,Asahikawa
2,Hakodate
3,Obihiro
4,Kushiro


In [39]:
# 元データ（元データ1と元データ2の連結）と元データ3を連結
data_con123 = pd.concat([data_con3, data_con4], axis=1)
data_con123

Unnamed: 0,地名,人口,地名（英）
0,札幌,1900000,Sapporo
1,旭川,340000,Asahikawa
2,函館,270000,Hakodate
3,帯広,160000,Obihiro
4,釧路,180000,Kushiro


### ■データの結合
mergeで、列の名称をキーとして2つのDataFrameを結合できる。<br>
キーはon='列名'で指定する。

In [40]:
# 名称データ
data_m1 = pd.DataFrame([[10001,'TOMATO'],[10002,'POTATO'],[10003,'ONION']], columns=['ID','NAME'])
data_m1

Unnamed: 0,ID,NAME
0,10001,TOMATO
1,10002,POTATO
2,10003,ONION


In [41]:
# 価格データ
data_m2 = pd.DataFrame([[10001,100],[10002,50],[10003,30]], columns=['ID','PRICE'])
data_m2

Unnamed: 0,ID,PRICE
0,10001,100
1,10002,50
2,10003,30


In [42]:
# 名称データと価格データをIDをキーとして結合
data_m3 = pd.merge(data_m1, data_m2, on = 'ID')
data_m3

Unnamed: 0,ID,NAME,PRICE
0,10001,TOMATO,100
1,10002,POTATO,50
2,10003,ONION,30


howで、内部結合、外部結合等の指定が可能である。

In [43]:
# 名称データ
data_m4 = pd.DataFrame([[10001,'TOMATO'],[10002,'POTATO'],[10003,'ONION'],[10004,'CARROT']], columns=['ID','NAME'])
data_m4

Unnamed: 0,ID,NAME
0,10001,TOMATO
1,10002,POTATO
2,10003,ONION
3,10004,CARROT


In [44]:
# 価格データ
data_m5 = pd.DataFrame([[10001,100],[10002,50],[10004,40],[10005,200]], columns=['ID','PRICE'])
data_m5

Unnamed: 0,ID,PRICE
0,10001,100
1,10002,50
2,10004,40
3,10005,200


内部結合の場合、howにinnerを指定する。<br>
（IDが一致する対象のみが結合される。）

In [45]:
data_mi = pd.merge(data_m4, data_m5, on='ID', how='inner')
data_mi

Unnamed: 0,ID,NAME,PRICE
0,10001,TOMATO,100
1,10002,POTATO,50
2,10004,CARROT,40


左外部結合の場合、howにleftを指定する。<br>
（第一引数のDataFrameは、すべてが出力される。第二引数のDataFrameは、IDが一致する対象のみのデータが出力され、不一致はNoneとして出力される）

In [46]:
data_ml = pd.merge(data_m4, data_m5, on='ID', how='left')
data_ml

Unnamed: 0,ID,NAME,PRICE
0,10001,TOMATO,100.0
1,10002,POTATO,50.0
2,10003,ONION,
3,10004,CARROT,40.0


### ■データのグループ化
groupbyで、指定した列で同じ値の行をグループ化することができる。<br>
また、列は複数指定することもできる。<br>

In [47]:
# グループ化前
iris_data.head()

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,5.1,3.5,1.4,0.2,Setosa
1,4.9,3.0,1.4,0.2,Setosa
2,4.7,3.2,1.3,0.2,Setosa
3,4.6,3.1,1.5,0.2,Setosa
4,5.0,3.6,1.4,0.2,Setosa


In [48]:
# グループごとの平均値を表示
iris_data.groupby('species').mean()

Unnamed: 0_level_0,sepal_length,sepal_width,petal_length,petal_width
species,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Setosa,5.006,3.428,1.462,0.246
Versicolor,5.936,2.77,4.26,1.326
Virginica,6.588,2.974,5.552,2.026


In [49]:
# グループごとの最大を表示
iris_data.groupby('species').max()

Unnamed: 0_level_0,sepal_length,sepal_width,petal_length,petal_width
species,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Setosa,5.8,4.4,1.9,0.6
Versicolor,7.0,3.4,5.1,1.8
Virginica,7.9,3.8,6.9,2.5


In [50]:
# グループごとの最小を表示
iris_data.groupby('species').min()

Unnamed: 0_level_0,sepal_length,sepal_width,petal_length,petal_width
species,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Setosa,4.3,2.3,1.0,0.1
Versicolor,4.9,2.0,3.0,1.0
Virginica,4.9,2.2,4.5,1.4


### ■欠損値の処理
dropnaで欠損値が含まれる行を削除できる。（列の削除も可能）<br>
※np.nan、Noneが欠損値として扱われる。

In [51]:
# 5行目の地名が欠損値
data_d = pd.DataFrame([['札幌',1960000],['旭川',329000],['函館',250000],['帯広',165000],['釧路',164000],[np.nan,169000]],
                      columns=['地名','人口'])
data_d

Unnamed: 0,地名,人口
0,札幌,1960000
1,旭川,329000
2,函館,250000
3,帯広,165000
4,釧路,164000
5,,169000


In [52]:
data_d.dropna()

Unnamed: 0,地名,人口
0,札幌,1960000
1,旭川,329000
2,函館,250000
3,帯広,165000
4,釧路,164000


fillnaで欠損値を指定の値もしくは、指定の方法で置換できる。<br>

In [53]:
# 6行目の人口が欠損値
data_f = pd.DataFrame([['札幌',1960000],['旭川',329000],['函館',250000],['帯広',165000],['釧路',164000],['苫小牧',None]],
                      columns=['地名','人口'])
data_f

Unnamed: 0,地名,人口
0,札幌,1960000.0
1,旭川,329000.0
2,函館,250000.0
3,帯広,165000.0
4,釧路,164000.0
5,苫小牧,


In [54]:
# 欠損値を0で置換
data_f.fillna(0)

Unnamed: 0,地名,人口
0,札幌,1960000.0
1,旭川,329000.0
2,函館,250000.0
3,帯広,165000.0
4,釧路,164000.0
5,苫小牧,0.0
