# ***Pandas***
---
Pandasは、データ解析用のライブラリ。<br>
Pandasでは、データ前処理、データの結合や部分的な取り出し、グループ演算、統計処理や欠損値の処理などを行うことができる。<br>
データ加工や解析の関数が豊富であり、多様な形式のデータや大規模なデータの処理に適しているため、<br>
データ分析や機械学習で必要となる作業を簡単に行うことができる。

### ■Pandasの使用
Pandasを利用するために、インポートする。<br>

In [1]:
import pandas as pd

# データ生成用にnumpyをインポート
import numpy as np

### ■シリーズ(Series)、データフレーム(DataFrame)
Seriesは1列のみのデータ型（インデックス付きの1次元配列）。<br>
DataFrameは複数の列のデータ型（インデックス付きの2次元配列）。<br>

#### ・Seriesの作成
リストから作成することができる。<br>

In [2]:
sr = pd.Series([0.0,1.0,2.0,3.0,4.0]) 
sr

0    0.0
1    1.0
2    2.0
3    3.0
4    4.0
dtype: float64

配列からも作成することができる。

In [3]:
# NumPy.arrayの配列
sr = pd.Series(np.array(['札幌','旭川','函館','帯広','釧路']) )
sr

0    札幌
1    旭川
2    函館
3    帯広
4    釧路
dtype: object

※Pandasでは文字列はobject型となる。

#### ・DataFrameの作成
リストから作成することができる。<br>

In [4]:
df = pd.DataFrame([[0,1,2,3,4],
                   [5,6,7,8,9],
                   [10,11,12,13,14],
                   [15,16,17,18,19],
                   [20,21,22,23,24]])
df

Unnamed: 0,0,1,2,3,4
0,0,1,2,3,4
1,5,6,7,8,9
2,10,11,12,13,14
3,15,16,17,18,19
4,20,21,22,23,24


配列から作成することもできる。
また、列名、行名の指定が可能である。

In [5]:
# NumPy.arangeの配列
df = pd.DataFrame((np.arange(25).reshape(5,5)),
                  index = ['R_1','R_2','R_3','R_4','R_5'], 
                  columns=['C_1','C_2','C_3','C_4','C_5'])
df

Unnamed: 0,C_1,C_2,C_3,C_4,C_5
R_1,0,1,2,3,4
R_2,5,6,7,8,9
R_3,10,11,12,13,14
R_4,15,16,17,18,19
R_5,20,21,22,23,24


### ■CSVファイルからの読み込み
read_csvで、CSVファイルを読み込み、DataFrameを作成することができる。<br>
※データ出力にはto_csvを使用する。<br>
<br>
・入力データ「iris.csv」<br>
アヤメのがく片の長さと幅、花弁の長さと幅、種類の5項目<br>
<br>
"sepal_length","sepal_width","petal_length","petal_width","species"<br>
5.1,3.5,1.4,.2,"Setosa"<br>
4.9,3,1.4,.2,"Setosa"<br>
4.7,3.2,1.3,.2,"Setosa"<br>
4.6,3.1,1.5,.2,"Setosa"<br>
5,3.6,1.4,.2,"Setosa"<br>
5.4,3.9,1.7,.4,"Setosa"<br>
4.6,3.4,1.4,.3,"Setosa"<br>
5,3.4,1.5,.2,"Setosa"<br>
4.4,2.9,1.4,.2,"Setosa"<br>
4.9,3.1,1.5,.1,"Setosa"<br>

In [6]:
# 「data」フォルダの「iris.csv」を読み込み
iris_data = pd.read_csv('data/iris.csv')

### ■データの確認
headで、DataFrameの先頭から指定した行数を表示させることができる。<br>
tailは、末尾から表示される。<br>
※引数を省略した場合は、5行が表示される。<br>

In [7]:
# 先頭から3行を指定
iris_data.head(3)

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,5.1,3.5,1.4,0.2,Setosa
1,4.9,3.0,1.4,0.2,Setosa
2,4.7,3.2,1.3,0.2,Setosa


In [8]:
# 末尾から表示（引数は省略）
iris_data.tail()

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
145,6.7,3.0,5.2,2.3,Virginica
146,6.3,2.5,5.0,1.9,Virginica
147,6.5,3.0,5.2,2.0,Virginica
148,6.2,3.4,5.4,2.3,Virginica
149,5.9,3.0,5.1,1.8,Virginica


infoで、DataFrameの要約情報が確認できる。

In [9]:
iris_data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 150 entries, 0 to 149
Data columns (total 5 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   sepal_length  150 non-null    float64
 1   sepal_width   150 non-null    float64
 2   petal_length  150 non-null    float64
 3   petal_width   150 non-null    float64
 4   species       150 non-null    object 
dtypes: float64(4), object(1)
memory usage: 6.0+ KB


shapeで、DataFrameの行数・列数が確認できる。

In [10]:
iris_data.shape

(150, 5)

indexで、DataFrameのindexの情報が確認できる。<br>

In [11]:
iris_data.index

RangeIndex(start=0, stop=150, step=1)

columnsで、カラムの情報が確認できる。

In [12]:
iris_data.columns

Index(['sepal_length', 'sepal_width', 'petal_length', 'petal_width',
       'species'],
      dtype='object')

### ■データの統計量
describeで、各列の平均、標準偏差、最大値、最小値などの要約統計量を確認できる。

In [13]:
#「iris_data」の要約統計量
iris_data.describe()

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width
count,150.0,150.0,150.0,150.0
mean,5.843333,3.057333,3.758,1.199333
std,0.828066,0.435866,1.765298,0.762238
min,4.3,2.0,1.0,0.1
25%,5.1,2.8,1.6,0.3
50%,5.8,3.0,4.35,1.3
75%,6.4,3.3,5.1,1.8
max,7.9,4.4,6.9,2.5


### ■データの相関係数
corrで、DataFrameの各列の間の相関係数を算出することができる。

※相関行列は、変量が多数ある場合に二つずつの組合せの相関係数を1枚の表にまとめたもの。

In [14]:
# 「iris_data」の各数値列の相関行列を計算
iris_data.corr()

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width
sepal_length,1.0,-0.11757,0.871754,0.817941
sepal_width,-0.11757,1.0,-0.42844,-0.366126
petal_length,0.871754,-0.42844,1.0,0.962865
petal_width,0.817941,-0.366126,0.962865,1.0


### ■データの抽出
#### ・loc
locで、行や列の「名称」を指定して、任意の行や列を抽出することができる。<br>
※行の名称はインデックスで指定する。

In [15]:
# irisデータから末尾10行のDataFrame（インデックス140～149のDataFrame）を作成
iris_data_tail = iris_data.tail(10)
iris_data_tail

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
140,6.7,3.1,5.6,2.4,Virginica
141,6.9,3.1,5.1,2.3,Virginica
142,5.8,2.7,5.1,1.9,Virginica
143,6.8,3.2,5.9,2.3,Virginica
144,6.7,3.3,5.7,2.5,Virginica
145,6.7,3.0,5.2,2.3,Virginica
146,6.3,2.5,5.0,1.9,Virginica
147,6.5,3.0,5.2,2.0,Virginica
148,6.2,3.4,5.4,2.3,Virginica
149,5.9,3.0,5.1,1.8,Virginica


In [16]:
# 名称指定で1行目（インデックス140）を取得
iris_data_tail.loc[140]

sepal_length          6.7
sepal_width           3.1
petal_length          5.6
petal_width           2.4
species         Virginica
Name: 140, dtype: object

範囲で抽出する場合、開始のインデックスから終了のインデックスまで抽出される。

In [17]:
# 2～5行目（インデックス141～144）を取得
iris_data_tail.loc[141:144]

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
141,6.9,3.1,5.1,2.3,Virginica
142,5.8,2.7,5.1,1.9,Virginica
143,6.8,3.2,5.9,2.3,Virginica
144,6.7,3.3,5.7,2.5,Virginica


In [18]:
# 行は全行を指定、列はsepal_lengthとsepal_widthとspeciesを取得
iris_data_tail.loc[:, ['sepal_length','sepal_width','species']]

Unnamed: 0,sepal_length,sepal_width,species
140,6.7,3.1,Virginica
141,6.9,3.1,Virginica
142,5.8,2.7,Virginica
143,6.8,3.2,Virginica
144,6.7,3.3,Virginica
145,6.7,3.0,Virginica
146,6.3,2.5,Virginica
147,6.5,3.0,Virginica
148,6.2,3.4,Virginica
149,5.9,3.0,Virginica


#### ・iloc
ilocで、行や列の「番号」を指定して、任意の行や列を抽出することができる。<br>
※行番号はインデックスとは異なる。

In [19]:
# 番号指定で1行目（インデックス140、行番号0）を取得
iris_data_tail.iloc[0]

sepal_length          6.7
sepal_width           3.1
petal_length          5.6
petal_width           2.4
species         Virginica
Name: 140, dtype: object

範囲で抽出する場合、開始の行番号から終了の行番号の前まで抽出される。

In [20]:
# 2～5行目（インデックス141～144、行番号1～4）を取得
iris_data_tail.iloc[1:5]

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
141,6.9,3.1,5.1,2.3,Virginica
142,5.8,2.7,5.1,1.9,Virginica
143,6.8,3.2,5.9,2.3,Virginica
144,6.7,3.3,5.7,2.5,Virginica


In [21]:
# 行は全行を指定、列は2～4（petal_lengthとpetal_widthとspecies）を取得
iris_data_tail.iloc[:,2:5]

Unnamed: 0,petal_length,petal_width,species
140,5.6,2.4,Virginica
141,5.1,2.3,Virginica
142,5.1,1.9,Virginica
143,5.9,2.3,Virginica
144,5.7,2.5,Virginica
145,5.2,2.3,Virginica
146,5.0,1.9,Virginica
147,5.2,2.0,Virginica
148,5.4,2.3,Virginica
149,5.1,1.8,Virginica


#### ・条件抽出
ブールインデックスを使用し、条件抽出することができる。<br>
（DataFrameの要素数と同じ数のboolean型のリストを指定することで、Trueの対象が抽出される）

In [22]:
# 元データを作成
data_i = pd.DataFrame([['札幌',1900000],
                       ['旭川',340000],
                       ['函館',270000],
                       ['帯広',160000],
                       ['釧路',180000]],
                      columns=['地名','人口'])
print(data_i)

   地名       人口
0  札幌  1900000
1  旭川   340000
2  函館   270000
3  帯広   160000
4  釧路   180000


In [23]:
# ブールインデックスとして、条件に一致する要素がTrueのSeriesを作成
bool_idx = data_i['人口'] < 200000
bool_idx

0    False
1    False
2    False
3     True
4     True
Name: 人口, dtype: bool

元のDataFrameにブールインデックスを条件指定することで、Trueの対象が抽出される。

In [24]:
print(data_i[bool_idx])

   地名      人口
3  帯広  160000
4  釧路  180000


上記のブールインデックスで段階に分けた手順は、以下のように一度の処理で記載できる。<br>

In [25]:
# sepal_lengthが5より小さい
iris_data[iris_data['sepal_length'] < 5]

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
1,4.9,3.0,1.4,0.2,Setosa
2,4.7,3.2,1.3,0.2,Setosa
3,4.6,3.1,1.5,0.2,Setosa
6,4.6,3.4,1.4,0.3,Setosa
8,4.4,2.9,1.4,0.2,Setosa
9,4.9,3.1,1.5,0.1,Setosa
11,4.8,3.4,1.6,0.2,Setosa
12,4.8,3.0,1.4,0.1,Setosa
13,4.3,3.0,1.1,0.1,Setosa
22,4.6,3.6,1.0,0.2,Setosa


複数条件を指定する場合は、「and」は「&」、「or」は「|」、「not」は「~」を使用する。

In [26]:
# sepal_lengthが5より小さい、かつ、sepal_widthが3.3より大きい
iris_data[(iris_data['sepal_length'] < 5.0) & (iris_data['sepal_width'] > 3.3)]

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
6,4.6,3.4,1.4,0.3,Setosa
11,4.8,3.4,1.6,0.2,Setosa
22,4.6,3.6,1.0,0.2,Setosa
24,4.8,3.4,1.9,0.2,Setosa
37,4.9,3.6,1.4,0.1,Setosa


### ■列の追加と削除
DataFrameへの列追加は、['列名']で列を追加できる。

In [27]:
# 追加前
iris_data.head(5)

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,5.1,3.5,1.4,0.2,Setosa
1,4.9,3.0,1.4,0.2,Setosa
2,4.7,3.2,1.3,0.2,Setosa
3,4.6,3.1,1.5,0.2,Setosa
4,5.0,3.6,1.4,0.2,Setosa


In [28]:
# col_a1列（値は100を設定）、col_a2列（値はsepal_length×100）を追加
iris_data['col_a1'] = 100
iris_data['col_a2'] = iris_data['sepal_length'] * 100
iris_data.head(5)

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species,col_a1,col_a2
0,5.1,3.5,1.4,0.2,Setosa,100,510.0
1,4.9,3.0,1.4,0.2,Setosa,100,490.0
2,4.7,3.2,1.3,0.2,Setosa,100,470.0
3,4.6,3.1,1.5,0.2,Setosa,100,460.0
4,5.0,3.6,1.4,0.2,Setosa,100,500.0


delで、列名を指定し削除することができる。

In [29]:
# col_a2列を削除
del iris_data['col_a2']
iris_data.head(5)

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species,col_a1
0,5.1,3.5,1.4,0.2,Setosa,100
1,4.9,3.0,1.4,0.2,Setosa,100
2,4.7,3.2,1.3,0.2,Setosa,100
3,4.6,3.1,1.5,0.2,Setosa,100
4,5.0,3.6,1.4,0.2,Setosa,100


dropでも、列や行の名称を指定し削除することができる。<br>
※axis=1で列を削除、axis=0で行を削除。<br>
　inplace=Trueで元のDataFrameを変更する。<br>
　inplace=Trueを指定しない場合は、元のDataFrameは変更されず、指定した列が削除されたDataFrameが返却される。

In [30]:
# col_a1列を削除（inplace=Trueを指定しない）
iris_data.drop('col_a1', axis=1).head(5)

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,5.1,3.5,1.4,0.2,Setosa
1,4.9,3.0,1.4,0.2,Setosa
2,4.7,3.2,1.3,0.2,Setosa
3,4.6,3.1,1.5,0.2,Setosa
4,5.0,3.6,1.4,0.2,Setosa


In [31]:
# 元のDataFrameは変更されない
iris_data.head(5)

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species,col_a1
0,5.1,3.5,1.4,0.2,Setosa,100
1,4.9,3.0,1.4,0.2,Setosa,100
2,4.7,3.2,1.3,0.2,Setosa,100
3,4.6,3.1,1.5,0.2,Setosa,100
4,5.0,3.6,1.4,0.2,Setosa,100


In [32]:
# col_a1列を削除（inplace=Trueを指定する）
iris_data.drop('col_a1', axis=1, inplace=True)
# 元のDataFrameが変更される
iris_data.head(5)

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,5.1,3.5,1.4,0.2,Setosa
1,4.9,3.0,1.4,0.2,Setosa
2,4.7,3.2,1.3,0.2,Setosa
3,4.6,3.1,1.5,0.2,Setosa
4,5.0,3.6,1.4,0.2,Setosa


### ■データのソート
sort_valuesで、DataFrameのソートができる。<br>
昇順、降順や列の複数指定が可能。<br>

In [33]:
# sepal_lengthの昇順でソート
iris_data.sort_values(['sepal_length'])

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
13,4.3,3.0,1.1,0.1,Setosa
42,4.4,3.2,1.3,0.2,Setosa
38,4.4,3.0,1.3,0.2,Setosa
8,4.4,2.9,1.4,0.2,Setosa
41,4.5,2.3,1.3,0.3,Setosa
...,...,...,...,...,...
122,7.7,2.8,6.7,2.0,Virginica
118,7.7,2.6,6.9,2.3,Virginica
117,7.7,3.8,6.7,2.2,Virginica
135,7.7,3.0,6.1,2.3,Virginica


降順のソートは、ascending=Falseを指定する。

In [34]:
# sepal_length,sepal_widthの降順でソート
iris_data.sort_values(['sepal_length', 'sepal_width'], ascending=False)

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
131,7.9,3.8,6.4,2.0,Virginica
117,7.7,3.8,6.7,2.2,Virginica
135,7.7,3.0,6.1,2.3,Virginica
122,7.7,2.8,6.7,2.0,Virginica
118,7.7,2.6,6.9,2.3,Virginica
...,...,...,...,...,...
41,4.5,2.3,1.3,0.3,Setosa
42,4.4,3.2,1.3,0.2,Setosa
38,4.4,3.0,1.3,0.2,Setosa
8,4.4,2.9,1.4,0.2,Setosa


列ごとに昇順と降順の指定が可能である。

In [35]:
# sepal_lengthの昇順,sepal_widthの降順でソート
iris_data.sort_values(['sepal_length', 'sepal_width'], ascending=[True, False])

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
13,4.3,3.0,1.1,0.1,Setosa
42,4.4,3.2,1.3,0.2,Setosa
38,4.4,3.0,1.3,0.2,Setosa
8,4.4,2.9,1.4,0.2,Setosa
41,4.5,2.3,1.3,0.3,Setosa
...,...,...,...,...,...
117,7.7,3.8,6.7,2.2,Virginica
135,7.7,3.0,6.1,2.3,Virginica
122,7.7,2.8,6.7,2.0,Virginica
118,7.7,2.6,6.9,2.3,Virginica


sort_indexで、DataFrameのindexでソートができる。<br>

In [36]:
# sepal_lengthの昇順でソートしたDataFrameを作成
iris_data_sort = iris_data.sort_values(['sepal_length'])
iris_data_sort

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
13,4.3,3.0,1.1,0.1,Setosa
42,4.4,3.2,1.3,0.2,Setosa
38,4.4,3.0,1.3,0.2,Setosa
8,4.4,2.9,1.4,0.2,Setosa
41,4.5,2.3,1.3,0.3,Setosa
...,...,...,...,...,...
122,7.7,2.8,6.7,2.0,Virginica
118,7.7,2.6,6.9,2.3,Virginica
117,7.7,3.8,6.7,2.2,Virginica
135,7.7,3.0,6.1,2.3,Virginica


In [37]:
# indexの昇順でソート
iris_data_sort.sort_index()

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,5.1,3.5,1.4,0.2,Setosa
1,4.9,3.0,1.4,0.2,Setosa
2,4.7,3.2,1.3,0.2,Setosa
3,4.6,3.1,1.5,0.2,Setosa
4,5.0,3.6,1.4,0.2,Setosa
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,Virginica
146,6.3,2.5,5.0,1.9,Virginica
147,6.5,3.0,5.2,2.0,Virginica
148,6.2,3.4,5.4,2.3,Virginica


### ■データの結合
mergeで、列の名称（またはインデックス）をキーとして2つのDataFrameを結合できる。<br>
結合方向は横方向のみが可能。<br>
キーはon='列名'で指定する。

In [38]:
# 名称データ
data_m1 = pd.DataFrame([[10001,'TOMATO'],
                        [10002,'POTATO'],
                        [10003,'ONION']],
                       columns=['ID','NAME'])
data_m1

Unnamed: 0,ID,NAME
0,10001,TOMATO
1,10002,POTATO
2,10003,ONION


In [39]:
# 価格データ
data_m2 = pd.DataFrame([[10001,100],
                        [10002,50],
                        [10003,30]],
                       columns=['ID','PRICE'])
data_m2

Unnamed: 0,ID,PRICE
0,10001,100
1,10002,50
2,10003,30


In [40]:
# 名称データと価格データをIDをキーとして結合
data_m3 = pd.merge(data_m1, data_m2, on = 'ID')
data_m3

Unnamed: 0,ID,NAME,PRICE
0,10001,TOMATO,100
1,10002,POTATO,50
2,10003,ONION,30


howで、内部結合、外部結合等の指定が可能である。

In [41]:
# 名称データ
data_m4 = pd.DataFrame([[10001,'TOMATO'],
                        [10002,'POTATO'],
                        [10003,'ONION'],
                        [10004,'CARROT']],
                       columns=['ID','NAME'])
data_m4

Unnamed: 0,ID,NAME
0,10001,TOMATO
1,10002,POTATO
2,10003,ONION
3,10004,CARROT


In [42]:
# 価格データ
data_m5 = pd.DataFrame([[10001,100],
                        [10002,50],
                        [10004,40],
                        [10005,200]],
                       columns=['ID','PRICE'])
data_m5

Unnamed: 0,ID,PRICE
0,10001,100
1,10002,50
2,10004,40
3,10005,200


内部結合の場合、howにinnerを指定する。<br>
（IDが一致する対象のみが結合される。）

In [43]:
data_mi = pd.merge(data_m4, data_m5, on='ID', how='inner')
data_mi

Unnamed: 0,ID,NAME,PRICE
0,10001,TOMATO,100
1,10002,POTATO,50
2,10004,CARROT,40


左外部結合の場合、howにleftを指定する。<br>
（第一引数のDataFrameは、すべてが出力される。第二引数のDataFrameは、IDが一致する対象のみのデータが出力され、不一致はNoneとして出力される）

In [44]:
data_ml = pd.merge(data_m4, data_m5, on='ID', how='left')
data_ml

Unnamed: 0,ID,NAME,PRICE
0,10001,TOMATO,100.0
1,10002,POTATO,50.0
2,10003,ONION,
3,10004,CARROT,40.0


## ■データの連結
concatで、DataFrameを連結できる。<br>
連結方向は縦方向、横方向が可能。<br>
縦方向は列の名称、横方向はインデックスをキーとして連結される。

In [45]:
# 元データ1を作成
data_con1 = pd.DataFrame([['札幌',1900000],
                          ['旭川',340000],
                          ['函館',270000]],
                         columns=['地名','人口'])
data_con1

Unnamed: 0,地名,人口
0,札幌,1900000
1,旭川,340000
2,函館,270000


In [46]:
# 元データ2を作成
data_con2 = pd.DataFrame([['帯広',160000],
                          ['釧路',180000]],
                         columns=['地名','人口'])
data_con2

Unnamed: 0,地名,人口
0,帯広,160000
1,釧路,180000


In [47]:
# 元データ1と2を縦方向に連結
data_con12 = pd.concat([data_con1, data_con2])
data_con12

Unnamed: 0,地名,人口
0,札幌,1900000
1,旭川,340000
2,函館,270000
0,帯広,160000
1,釧路,180000


In [48]:
# インデックスをリセットし、元データ3を作成
data_con3 = data_con12.reset_index(drop=True)
data_con3

Unnamed: 0,地名,人口
0,札幌,1900000
1,旭川,340000
2,函館,270000
3,帯広,160000
4,釧路,180000


In [49]:
# 元データ4を作成
data_con4 = pd.DataFrame([['Sapporo'],
                          ['Asahikawa'],
                          ['Hakodate'],
                          ['Obihiro'],
                          ['Kushiro']],
                         columns=['地名（英）'])
data_con4

Unnamed: 0,地名（英）
0,Sapporo
1,Asahikawa
2,Hakodate
3,Obihiro
4,Kushiro


横方向の連結はaxis=1を指定する。<br>

In [50]:
# 元データ3（元データ1と元データ2の縦方向の連結データ）と元データ4を横方向に連結
data_con34 = pd.concat([data_con3, data_con4], axis=1)
data_con34

Unnamed: 0,地名,人口,地名（英）
0,札幌,1900000,Sapporo
1,旭川,340000,Asahikawa
2,函館,270000,Hakodate
3,帯広,160000,Obihiro
4,釧路,180000,Kushiro


### ■データのグループ化
groupbyで、指定した列で同じ値の行をグループ化することができる。<br>
また、列は複数指定することもできる。<br>

In [51]:
# グループ化前
iris_data.head()

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,5.1,3.5,1.4,0.2,Setosa
1,4.9,3.0,1.4,0.2,Setosa
2,4.7,3.2,1.3,0.2,Setosa
3,4.6,3.1,1.5,0.2,Setosa
4,5.0,3.6,1.4,0.2,Setosa


In [52]:
# グループごとの平均値を表示
iris_data.groupby('species').mean()

Unnamed: 0_level_0,sepal_length,sepal_width,petal_length,petal_width
species,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Setosa,5.006,3.428,1.462,0.246
Versicolor,5.936,2.77,4.26,1.326
Virginica,6.588,2.974,5.552,2.026


In [53]:
# グループごとの最大を表示
iris_data.groupby('species').max()

Unnamed: 0_level_0,sepal_length,sepal_width,petal_length,petal_width
species,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Setosa,5.8,4.4,1.9,0.6
Versicolor,7.0,3.4,5.1,1.8
Virginica,7.9,3.8,6.9,2.5


In [54]:
# グループごとの最小を表示
iris_data.groupby('species').min()

Unnamed: 0_level_0,sepal_length,sepal_width,petal_length,petal_width
species,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Setosa,4.3,2.3,1.0,0.1
Versicolor,4.9,2.0,3.0,1.0
Virginica,4.9,2.2,4.5,1.4


### ■欠損値の処理
dropnaで欠損値が含まれる行を削除できる。（列の削除も可能）<br>
※np.nan、Noneが欠損値として扱われる。

In [55]:
# 旭川の平均気温（年）と苫小牧の人口が欠損値
data = pd.DataFrame([['札幌',1960000,12.8],
                       ['旭川',329000,None],
                       ['函館',250000,13.0],
                       ['帯広',165000,12.3],
                       ['釧路',164000,10.3],
                       ['苫小牧',np.nan,11.5]],
                      columns=['地名','人口','平均気温（年）'])
data

Unnamed: 0,地名,人口,平均気温（年）
0,札幌,1960000.0,12.8
1,旭川,329000.0,
2,函館,250000.0,13.0
3,帯広,165000.0,12.3
4,釧路,164000.0,10.3
5,苫小牧,,11.5


In [56]:
# 欠損値を削除
data.dropna()

Unnamed: 0,地名,人口,平均気温（年）
0,札幌,1960000.0,12.8
2,函館,250000.0,13.0
3,帯広,165000.0,12.3
4,釧路,164000.0,10.3


subset=['列名']で、欠損値を削除する列の指定が可能。<br>

In [57]:
# 「人口」列を対象に欠損値を削除
data.dropna(subset=['人口'])

Unnamed: 0,地名,人口,平均気温（年）
0,札幌,1960000.0,12.8
1,旭川,329000.0,
2,函館,250000.0,13.0
3,帯広,165000.0,12.3
4,釧路,164000.0,10.3


fillnaで欠損値を指定の値もしくは、指定の方法で置換できる。<br>

In [58]:
# 旭川の平均気温（年）と苫小牧の人口が欠損値
data

Unnamed: 0,地名,人口,平均気温（年）
0,札幌,1960000.0,12.8
1,旭川,329000.0,
2,函館,250000.0,13.0
3,帯広,165000.0,12.3
4,釧路,164000.0,10.3
5,苫小牧,,11.5


In [59]:
# 欠損値を0で置換
data.fillna(0)

Unnamed: 0,地名,人口,平均気温（年）
0,札幌,1960000.0,12.8
1,旭川,329000.0,0.0
2,函館,250000.0,13.0
3,帯広,165000.0,12.3
4,釧路,164000.0,10.3
5,苫小牧,0.0,11.5


引数が{'列名':指定値}で、欠損値を置換する列の指定が可能。<br>

In [60]:
# 「人口」列の欠損を中央値、「平均気温（年）」列の欠損を平均値で置換
population_median = data['人口'].median()
temperature_mean = data['平均気温（年）'].mean()
data.fillna({'人口': population_median, '平均気温（年）': temperature_mean})

Unnamed: 0,地名,人口,平均気温（年）
0,札幌,1960000.0,12.8
1,旭川,329000.0,11.98
2,函館,250000.0,13.0
3,帯広,165000.0,12.3
4,釧路,164000.0,10.3
5,苫小牧,250000.0,11.5
