# pandas 
pandasとはPython用のデータ分析ライブラリです。

エクセルのような表形式のデータを簡単に取り扱うことができ、種々の統計量の計算、データの可視化などもできる非常に優れたツールです。

データ分析を行う者にとって、このpandasを使いこなすスキルは必須と言ってよいでしょう。

In [1]:
import numpy as np
import pandas as pd

# SeriesクラスとDataFrameクラス
pandasには、Seriesと呼ばれる１次元のデータ構造を持つクラスとDataFrameと呼ばれる２次元のデータ構造を持つクラスが存在します。

いずれも重要なデータ構造なので、それぞれ基本的な操作方法を覚えておくとよいでしょう。

# Seriesの生成
Seriesクラスを生成するためには、Seriesメソッドを使います。

In [2]:
series = pd.Series(data=[1, 2, 3, 4, 5], index=['A', 'B', 'C', 'D', 'E'])
series

A    1
B    2
C    3
D    4
E    5
dtype: int64

### numpyの配列やリストを指定することもできます。

In [3]:
array = np.arange(1, 11) # numpy.ndarray
index = 'a b c d e f g h i j'.split() # list

series = pd.Series(data=array, index=index)
series

a     1
b     2
c     3
d     4
e     5
f     6
g     7
h     8
i     9
j    10
dtype: int64

# Seriesクラスの基本的な操作方法
## データの選択
辞書型のデータのように直接インデックス指定してデータを取り出すこともできますが、多くの場合locメソッドやilocメソッドを使います。

locメソッドはインデックスを指定、ilocメソッドはデータの位置を番号に変えて指定します。

In [4]:
series = pd.Series(data=[1, 2, 3, 4, 5], index=['A', 'B', 'C', 'D', 'E'])
series

A    1
B    2
C    3
D    4
E    5
dtype: int64

In [5]:
series['A']

1

In [6]:
series['A':'D']

A    1
B    2
C    3
D    4
dtype: int64

## loc

In [7]:
series.loc['A']

1

In [8]:
series.loc['A':'D']

A    1
B    2
C    3
D    4
dtype: int64

In [9]:
series.loc[['B', 'D']]

B    2
D    4
dtype: int64

## iloc

In [10]:
series.iloc[1]

2

In [11]:
series.iloc[:2]

A    1
B    2
dtype: int64

# DataFrameの生成
データ分析を行う上で最も扱う機会が多いのが、このDataFrameクラスでしょう。

In [12]:
df = pd.DataFrame(data=[[1, 2, 3], [4, 5, 6], [7, 8, 9]])
df

Unnamed: 0,0,1,2
0,1,2,3
1,4,5,6
2,7,8,9


In [13]:
df = pd.DataFrame(data=[[1, 2, 3], [4, 5, 6], [7, 8, 9]], index=['A', 'B', 'C'], columns=['C1', 'C2', 'C3'])
df

Unnamed: 0,C1,C2,C3
A,1,2,3
B,4,5,6
C,7,8,9


## head()メソッドを使うと上の５行だけを取り出します。

In [2]:
from sklearn.datasets import load_iris

iris = load_iris()
iris_df = pd.DataFrame(data=iris.data, columns=iris.feature_names)
iris_df.head()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2
3,4.6,3.1,1.5,0.2
4,5.0,3.6,1.4,0.2


# ファイルの読み込み
DataFrameクラスを生成して、０から自分でデータを作り出すことはかなり稀です。

多くの場合は、すでに何らかの形で収集されたデータを分析することが多いでしょう。

pandasを使うと、CSV, Excel, HTMLなどあらゆる形式のデータを読み込むことが可能です。

- read_csv
- read_excel
- read_html

In [15]:
df = pd.read_csv('train.csv', nrows=500)
df.head()

Unnamed: 0,key,fare_amount,pickup_datetime,pickup_longitude,pickup_latitude,dropoff_longitude,dropoff_latitude,passenger_count
0,2009-06-15 17:26:21.0000001,4.5,2009-06-15 17:26:21 UTC,-73.844311,40.721319,-73.84161,40.712278,1
1,2010-01-05 16:52:16.0000002,16.9,2010-01-05 16:52:16 UTC,-74.016048,40.711303,-73.979268,40.782004,1
2,2011-08-18 00:35:00.00000049,5.7,2011-08-18 00:35:00 UTC,-73.982738,40.76127,-73.991242,40.750562,2
3,2012-04-21 04:30:42.0000001,7.7,2012-04-21 04:30:42 UTC,-73.98713,40.733143,-73.991567,40.758092,1
4,2010-03-09 07:51:00.000000135,5.3,2010-03-09 07:51:00 UTC,-73.968095,40.768008,-73.956655,40.783762,1


# データの大まかな内容を確認する
データの大まかな内容を確認するのに便利な関数をいくつか紹介します。

### 形状を確認

In [16]:
df.shape

(500, 8)

### 各種統計量を確認

In [17]:
df.describe()

Unnamed: 0,fare_amount,pickup_longitude,pickup_latitude,dropoff_longitude,dropoff_latitude,passenger_count
count,500.0,500.0,500.0,500.0,500.0,500.0
mean,11.52462,-72.201015,39.773664,-72.347353,39.855403,1.64
std,9.156087,11.333406,6.243298,10.861792,5.9837,1.281282
min,2.5,-74.035839,0.0,-74.035839,0.0,0.0
25%,6.0,-73.992236,40.736283,-73.992803,40.732439,1.0
50%,8.5,-73.982112,40.752601,-73.98069,40.753305,1.0
75%,13.0,-73.968219,40.766804,-73.964584,40.767905,2.0
max,58.0,0.0,40.828531,0.0,40.881878,6.0


### データ数と型を確認

In [18]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 500 entries, 0 to 499
Data columns (total 8 columns):
key                  500 non-null object
fare_amount          500 non-null float64
pickup_datetime      500 non-null object
pickup_longitude     500 non-null float64
pickup_latitude      500 non-null float64
dropoff_longitude    500 non-null float64
dropoff_latitude     500 non-null float64
passenger_count      500 non-null int64
dtypes: float64(5), int64(1), object(2)
memory usage: 31.3+ KB


### ユニークな値の数を確認

In [19]:
df.nunique()

key                  500
fare_amount          115
pickup_datetime      498
pickup_longitude     489
pickup_latitude      487
dropoff_longitude    489
dropoff_latitude     489
passenger_count        7
dtype: int64

### 欠損値の数を確認

In [20]:
df.isnull().sum()

key                  0
fare_amount          0
pickup_datetime      0
pickup_longitude     0
pickup_latitude      0
dropoff_longitude    0
dropoff_latitude     0
passenger_count      0
dtype: int64

### 行名・列名を確認

In [21]:
df.index

RangeIndex(start=0, stop=500, step=1)

In [22]:
df.columns

Index(['key', 'fare_amount', 'pickup_datetime', 'pickup_longitude',
       'pickup_latitude', 'dropoff_longitude', 'dropoff_latitude',
       'passenger_count'],
      dtype='object')

# データの選択と抽出
DataFrameクラスの中から狙ったデータを自由に取り出すスキルは極めて重要です。

基本的な選択と抽出の方法は確実に覚えましょう。

In [23]:
np.random.seed(10)

df = pd.DataFrame(data=np.random.randn(5, 5), index=['A', 'B', 'C', 'D', 'E'],
                 columns=['C1', 'C2', 'C3', 'C4', 'C5'])
df

Unnamed: 0,C1,C2,C3,C4,C5
A,1.331587,0.715279,-1.5454,-0.008384,0.621336
B,-0.720086,0.265512,0.108549,0.004291,-0.1746
C,0.433026,1.203037,-0.965066,1.028274,0.22863
D,0.445138,-1.136602,0.135137,1.484537,-1.079805
E,-1.977728,-1.743372,0.26607,2.384967,1.123691


## 基本的な選択

In [24]:
df.loc['A']

C1    1.331587
C2    0.715279
C3   -1.545400
C4   -0.008384
C5    0.621336
Name: A, dtype: float64

In [25]:
df.loc[:, 'C1']

A    1.331587
B   -0.720086
C    0.433026
D    0.445138
E   -1.977728
Name: C1, dtype: float64

In [26]:
df.loc['A', ['C1', 'C3']]

C1    1.331587
C3   -1.545400
Name: A, dtype: float64

## 条件による選択

In [27]:
df > 0

Unnamed: 0,C1,C2,C3,C4,C5
A,True,True,False,False,True
B,False,True,True,True,False
C,True,True,False,True,True
D,True,False,True,True,False
E,False,False,True,True,True


In [28]:
df[df > 0]

Unnamed: 0,C1,C2,C3,C4,C5
A,1.331587,0.715279,,,0.621336
B,,0.265512,0.108549,0.004291,
C,0.433026,1.203037,,1.028274,0.22863
D,0.445138,,0.135137,1.484537,
E,,,0.26607,2.384967,1.123691


In [29]:
df['C1'] > 0

A     True
B    False
C     True
D     True
E    False
Name: C1, dtype: bool

In [30]:
df[df['C1'] > 0]

Unnamed: 0,C1,C2,C3,C4,C5
A,1.331587,0.715279,-1.5454,-0.008384,0.621336
C,0.433026,1.203037,-0.965066,1.028274,0.22863
D,0.445138,-1.136602,0.135137,1.484537,-1.079805


In [31]:
df[(df['C1'] > 0) & (df['C1'] < 1)]

Unnamed: 0,C1,C2,C3,C4,C5
C,0.433026,1.203037,-0.965066,1.028274,0.22863
D,0.445138,-1.136602,0.135137,1.484537,-1.079805


# データの追加と削除
## データの追加

In [32]:
df['new_column'] = df['C1'] * df['C2']
df

Unnamed: 0,C1,C2,C3,C4,C5,new_column
A,1.331587,0.715279,-1.5454,-0.008384,0.621336,0.952456
B,-0.720086,0.265512,0.108549,0.004291,-0.1746,-0.191191
C,0.433026,1.203037,-0.965066,1.028274,0.22863,0.520947
D,0.445138,-1.136602,0.135137,1.484537,-1.079805,-0.505944
E,-1.977728,-1.743372,0.26607,2.384967,1.123691,3.447917


## データの削除
データを削除するにはdropメソッドを使います。行名・列名をそれぞれ指定することが可能です。

inplaceという引数をTrueにすると、もとのdfが更新され、削除後のdfに置き換わります。

In [33]:
df.drop(columns=['C1'])

Unnamed: 0,C2,C3,C4,C5,new_column
A,0.715279,-1.5454,-0.008384,0.621336,0.952456
B,0.265512,0.108549,0.004291,-0.1746,-0.191191
C,1.203037,-0.965066,1.028274,0.22863,0.520947
D,-1.136602,0.135137,1.484537,-1.079805,-0.505944
E,-1.743372,0.26607,2.384967,1.123691,3.447917


In [34]:
df # 更新されていない

Unnamed: 0,C1,C2,C3,C4,C5,new_column
A,1.331587,0.715279,-1.5454,-0.008384,0.621336,0.952456
B,-0.720086,0.265512,0.108549,0.004291,-0.1746,-0.191191
C,0.433026,1.203037,-0.965066,1.028274,0.22863,0.520947
D,0.445138,-1.136602,0.135137,1.484537,-1.079805,-0.505944
E,-1.977728,-1.743372,0.26607,2.384967,1.123691,3.447917


In [35]:
df.drop(index=['A'], inplace=True)

In [36]:
df # 更新されている

Unnamed: 0,C1,C2,C3,C4,C5,new_column
B,-0.720086,0.265512,0.108549,0.004291,-0.1746,-0.191191
C,0.433026,1.203037,-0.965066,1.028274,0.22863,0.520947
D,0.445138,-1.136602,0.135137,1.484537,-1.079805,-0.505944
E,-1.977728,-1.743372,0.26607,2.384967,1.123691,3.447917


# 欠損値の処理
欠損値を処理する場合は、dropnaかfillnaを使いことが多いです。

- dropna: 欠損しているデータを削除
- fillna: 欠損値を別の値で埋める

In [37]:
df = pd.DataFrame(data=[[1, 2, 3, np.nan, 4], 
                        [5, np.nan, 6, np.nan, 7],
                        [8, 9, 10, np.nan, 11],
                        [12, np.nan, np.nan, np.nan, 13],
                        [14, 15, 16, 17, 18]],
                  index=['A', 'B', 'C', 'D', 'E'],
                  columns=['C1', 'C2', 'C3', 'C4', 'C5'])
df

Unnamed: 0,C1,C2,C3,C4,C5
A,1,2.0,3.0,,4
B,5,,6.0,,7
C,8,9.0,10.0,,11
D,12,,,,13
E,14,15.0,16.0,17.0,18


In [38]:
df.dropna()

Unnamed: 0,C1,C2,C3,C4,C5
E,14,15.0,16.0,17.0,18


In [39]:
df['C2'].dropna()

A     2.0
C     9.0
E    15.0
Name: C2, dtype: float64

### 特定の列について欠損値がある部分を削除

In [40]:
df['C2'].isnull()

A    False
B     True
C    False
D     True
E    False
Name: C2, dtype: bool

In [41]:
df[df['C2'].isnull() == False]

Unnamed: 0,C1,C2,C3,C4,C5
A,1,2.0,3.0,,4
C,8,9.0,10.0,,11
E,14,15.0,16.0,17.0,18


### 欠損値の数を指定して削除

In [42]:
df.dropna(thresh=3)

Unnamed: 0,C1,C2,C3,C4,C5
A,1,2.0,3.0,,4
B,5,,6.0,,7
C,8,9.0,10.0,,11
E,14,15.0,16.0,17.0,18


In [43]:
df.dropna(thresh=3, axis=1)

Unnamed: 0,C1,C2,C3,C5
A,1,2.0,3.0,4
B,5,,6.0,7
C,8,9.0,10.0,11
D,12,,,13
E,14,15.0,16.0,18


## 欠損値を別の値で置換

In [44]:
df['C2'].fillna(df['C2'].mean())

A     2.000000
B     8.666667
C     9.000000
D     8.666667
E    15.000000
Name: C2, dtype: float64

In [45]:
df.fillna(df.mean())

Unnamed: 0,C1,C2,C3,C4,C5
A,1,2.0,3.0,17.0,4
B,5,8.666667,6.0,17.0,7
C,8,9.0,10.0,17.0,11
D,12,8.666667,8.75,17.0,13
E,14,15.0,16.0,17.0,18


# カテゴリカルなデータの操作
データ分析を行う上では、数値データのみならず、カテゴリカルなデータの操作も行えなくてはなりません。

In [46]:
df = pd.DataFrame({'C1': ['A', 'A', 'A', 'B', 'B', 'C', np.nan],
                   'C2': [20, 50, 60, 80, 100, 30, 50],
                   'C3': [40, 200, 100, 500, 40, 200, 40]})
df

Unnamed: 0,C1,C2,C3
0,A,20,40
1,A,50,200
2,A,60,100
3,B,80,500
4,B,100,40
5,C,30,200
6,,50,40


## カテゴリとデータの数を確認

In [47]:
df['C1'].value_counts()

A    3
B    2
C    1
Name: C1, dtype: int64

## 特定のカテゴリのデータだけを取り出す

In [48]:
df[df['C1'] == 'A']

Unnamed: 0,C1,C2,C3
0,A,20,40
1,A,50,200
2,A,60,100


## カテゴリ変数の欠損値を埋める

In [49]:
df['C1'].fillna(df['C1'].mode()[0])

0    A
1    A
2    A
3    B
4    B
5    C
6    A
Name: C1, dtype: object

In [50]:
df # 更新されていない

Unnamed: 0,C1,C2,C3
0,A,20,40
1,A,50,200
2,A,60,100
3,B,80,500
4,B,100,40
5,C,30,200
6,,50,40


In [51]:
df['C1'] = df['C1'].fillna(df['C1'].mode()[0])
df

Unnamed: 0,C1,C2,C3
0,A,20,40
1,A,50,200
2,A,60,100
3,B,80,500
4,B,100,40
5,C,30,200
6,A,50,40


## 割合を計算する

In [52]:
round(df['C1'].value_counts() / len(df), 2)

A    0.57
B    0.29
C    0.14
Name: C1, dtype: float64

## グループ化して各種統計量を計算する

In [53]:
df.groupby('C1')

<pandas.core.groupby.groupby.DataFrameGroupBy object at 0x7f9d498cb9e8>

In [54]:
df.groupby('C1').sum()

Unnamed: 0_level_0,C2,C3
C1,Unnamed: 1_level_1,Unnamed: 2_level_1
A,180,380
B,180,540
C,30,200


In [55]:
df.groupby('C1').mean()

Unnamed: 0_level_0,C2,C3
C1,Unnamed: 1_level_1,Unnamed: 2_level_1
A,45,95
B,90,270
C,30,200


In [56]:
df.groupby('C1').max()

Unnamed: 0_level_0,C2,C3
C1,Unnamed: 1_level_1,Unnamed: 2_level_1
A,60,200
B,100,500
C,30,200


# DataFrameの結合
DataFrameを結合するメソッドにはさまざまなものがありますが、ここでは最も代表的でわかりやすいconcatメソッドを紹介します。

In [57]:
df_1 = pd.DataFrame(data=np.random.randn(5, 5), index=['A', 'B', 'C', 'D', 'E'],
                 columns=['C1', 'C2', 'C3', 'C4', 'C5'])

df_2 = pd.DataFrame(data=np.random.randn(5, 5), index=['F', 'G', 'H', 'I', 'J'],
                 columns=['C1', 'C2', 'C3', 'C4', 'C5'])

In [58]:
df_1

Unnamed: 0,C1,C2,C3,C4,C5
A,1.672622,0.099149,1.397996,-0.271248,0.613204
B,-0.267317,-0.549309,0.132708,-0.476142,1.308473
C,0.195013,0.40021,-0.337632,1.256472,-0.73197
D,0.660232,-0.350872,-0.939433,-0.489337,-0.804591
E,-0.212698,-0.33914,0.31217,0.565153,-0.14742


In [59]:
df_2

Unnamed: 0,C1,C2,C3,C4,C5
F,-0.025905,0.289094,-0.539879,0.70816,0.842225
G,0.203581,2.394704,0.917459,-0.112272,-0.36218
H,-0.232182,-0.501729,1.128785,-0.69781,-0.081122
I,-0.529296,1.046183,-1.418556,-0.362499,-0.121906
J,0.319356,0.460903,-0.21579,0.989072,0.314754


In [60]:
pd.concat([df_1, df_2])

Unnamed: 0,C1,C2,C3,C4,C5
A,1.672622,0.099149,1.397996,-0.271248,0.613204
B,-0.267317,-0.549309,0.132708,-0.476142,1.308473
C,0.195013,0.40021,-0.337632,1.256472,-0.73197
D,0.660232,-0.350872,-0.939433,-0.489337,-0.804591
E,-0.212698,-0.33914,0.31217,0.565153,-0.14742
F,-0.025905,0.289094,-0.539879,0.70816,0.842225
G,0.203581,2.394704,0.917459,-0.112272,-0.36218
H,-0.232182,-0.501729,1.128785,-0.69781,-0.081122
I,-0.529296,1.046183,-1.418556,-0.362499,-0.121906
J,0.319356,0.460903,-0.21579,0.989072,0.314754


In [61]:
pd.concat([df_1, df_2], axis=1, sort=True)

Unnamed: 0,C1,C2,C3,C4,C5,C1.1,C2.1,C3.1,C4.1,C5.1
A,1.672622,0.099149,1.397996,-0.271248,0.613204,,,,,
B,-0.267317,-0.549309,0.132708,-0.476142,1.308473,,,,,
C,0.195013,0.40021,-0.337632,1.256472,-0.73197,,,,,
D,0.660232,-0.350872,-0.939433,-0.489337,-0.804591,,,,,
E,-0.212698,-0.33914,0.31217,0.565153,-0.14742,,,,,
F,,,,,,-0.025905,0.289094,-0.539879,0.70816,0.842225
G,,,,,,0.203581,2.394704,0.917459,-0.112272,-0.36218
H,,,,,,-0.232182,-0.501729,1.128785,-0.69781,-0.081122
I,,,,,,-0.529296,1.046183,-1.418556,-0.362499,-0.121906
J,,,,,,0.319356,0.460903,-0.21579,0.989072,0.314754


# 関数の適用
特定のデータに関数を適用する場合は、applyメソッドを使うと便利です。

In [62]:
df = pd.DataFrame(data=np.random.randn(5, 5), index=['A', 'B', 'C', 'D', 'E'],
                 columns=['C1', 'C2', 'C3', 'C4', 'C5'])
df

Unnamed: 0,C1,C2,C3,C4,C5
A,2.467651,-1.508321,0.620601,-1.045133,-0.798009
B,1.985085,1.744814,-1.856185,-0.222774,-0.065848
C,-2.131712,-0.048831,0.393341,0.217265,-1.994394
D,1.107708,0.244544,-0.061912,-0.753893,0.711959
E,0.918269,-0.482093,0.089588,0.826999,-1.954512


In [63]:
def square(x):
    return x ** 2

In [64]:
df['C1'].apply(square)

A    6.089302
B    3.940561
C    4.544197
D    1.227018
E    0.843218
Name: C1, dtype: float64

## 複数の引数を取る場合
### 呼び出し時に特定のデータを指定する

In [65]:
def add(x, y):
    return x + y

In [66]:
add(df['C1'], df['C2'])

A    0.959330
B    3.729899
C   -2.180543
D    1.352252
E    0.436176
dtype: float64

### dfを引数に指定する

In [67]:
def add(df):
    return df['C1'] + df['C2']

In [68]:
df.apply(add, axis=1)

A    0.959330
B    3.729899
C   -2.180543
D    1.352252
E    0.436176
dtype: float64

## 複数の戻り値がある場合

In [69]:
def square_and_cube(x):
    return pd.Series([x**2, x**3])

In [70]:
df[['squared', 'cubed']] = df['C1'].apply(square_and_cube)
df

Unnamed: 0,C1,C2,C3,C4,C5,squared,cubed
A,2.467651,-1.508321,0.620601,-1.045133,-0.798009,6.089302,15.026272
B,1.985085,1.744814,-1.856185,-0.222774,-0.065848,3.940561,7.822347
C,-2.131712,-0.048831,0.393341,0.217265,-1.994394,4.544197,-9.686919
D,1.107708,0.244544,-0.061912,-0.753893,0.711959,1.227018,1.359177
E,0.918269,-0.482093,0.089588,0.826999,-1.954512,0.843218,0.774301


# その他
その他、時系列データの処理やデータの可視化などもできますが、それらについてはまた別の機会に解説します。