◯　データの取得・集計

◯　簡単なサンプル

In [1]:
# read_csv関数でcsvファイルを読み込む
import pandas as pd
pd.read_csv('items.csv')

Unnamed: 0,id,name,price,created_date
0,1,A,300,2017-02-01
1,2,B,100,2018-01-05
2,3,C,500,2018-03-10


In [2]:
# head関数で銭湯のレコード一件を抽出
items = pd.read_csv('items.csv')
items.head(1)

Unnamed: 0,id,name,price,created_date
0,1,A,300,2017-02-01


In [3]:
# :(コロン)を用いて指定位置から前のコードを抽出する結果が得られる。
items[:2]

Unnamed: 0,id,name,price,created_date
0,1,A,300,2017-02-01
1,2,B,100,2018-01-05


In [4]:
# tail関数を用いることで最後のデータを抽出できる
items.tail(1)

Unnamed: 0,id,name,price,created_date
2,3,C,500,2018-03-10


In [5]:
# :(コロン)を用いた記載でもtail関数と同様の結果が得られる
items[-1:]

Unnamed: 0,id,name,price,created_date
2,3,C,500,2018-03-10


◯　列(カラム)での抽出

In [6]:
import pandas as pd
items = pd.read_csv('items.csv')
items['name']

0    A
1    B
2    C
Name: name, dtype: object

◯　行(レコード)での抽出

In [7]:
import pandas as pd
items = pd.read_csv('items.csv')
items[items['name'] == 'A']

Unnamed: 0,id,name,price,created_date
0,1,A,300,2017-02-01


In [8]:
# 範囲指定も可能
# idが１より大きいレコードを取得

items[items['id'] > 1]

Unnamed: 0,id,name,price,created_date
1,2,B,100,2018-01-05
2,3,C,500,2018-03-10


In [9]:
# 複数の条件を指定することも可能
# idが１より大きい、かつ値段が２００より大きい商品を抽出
# &を用いる

items[(items['id'] > 1) & (items['price'] > 200)]

Unnamed: 0,id,name,price,created_date
2,3,C,500,2018-03-10


◯　並び替え

In [10]:
import pandas as pd
items = pd.read_csv('items.csv')
items.sort_values(by='price').head(3)

Unnamed: 0,id,name,price,created_date
1,2,B,100,2018-01-05
0,1,A,300,2017-02-01
2,3,C,500,2018-03-10


In [11]:
# デフォルトでは昇順だが、ascendingのパラメータにFalseを指定すると降順になる
items.sort_values(by='price', ascending=False).head(3)

Unnamed: 0,id,name,price,created_date
2,3,C,500,2018-03-10
0,1,A,300,2017-02-01
1,2,B,100,2018-01-05


◯　ランダムサンプリング

In [12]:
# 機械学習において、訓練データとテストデータを別々に用いることも必要になる。
# そのためにデータをランダムに抽出する
# 実行するたびに結果が変わる

import pandas as pd
logs = pd.read_csv('logs.csv')
logs.sample()

Unnamed: 0,id,item_id,user_id,purchase_number,purchase_datetime
3,4,2,3,5,2018-03-10 09:41:00


In [13]:
logs.sample()

Unnamed: 0,id,item_id,user_id,purchase_number,purchase_datetime
0,1,2,2,2,2018-01-01 14:59:01


In [14]:
# fracに抽出する行・列の割合を指定することもできる
logs.sample(frac=0.5)

Unnamed: 0,id,item_id,user_id,purchase_number,purchase_datetime
0,1,2,2,2,2018-01-01 14:59:01
1,2,1,2,1,2018-02-07 19:23:44


◯　集約

In [15]:
# Pandasではgroupby関数を用いて集約を行う
logs.head(1)

Unnamed: 0,id,item_id,user_id,purchase_number,purchase_datetime
0,1,2,2,2,2018-01-01 14:59:01


In [16]:
# ユーザごとの購入個数の合計
logs.groupby('user_id')['purchase_number'].sum()

user_id
1    20
2     3
3     5
Name: purchase_number, dtype: int64

In [17]:
# ユーザごとの購入個数の平均
logs.groupby('user_id')['purchase_number'].mean()

user_id
1    10.0
2     1.5
3     5.0
Name: purchase_number, dtype: float64

In [18]:
# ユーザごとの購入個数の平均ランキング
logs.groupby('user_id')['purchase_number'].mean().sort_values(ascending=False)

user_id
1    10.0
3     5.0
2     1.5
Name: purchase_number, dtype: float64

In [19]:
# ユーザごとの購入個数の中央値ランキング
# median()を用いる
logs.groupby('user_id')['purchase_number'].median().sort_values(ascending=False)

user_id
1    10.0
3     5.0
2     1.5
Name: purchase_number, dtype: float64

◯　時間の扱い方

◯　時間の型　：　文字列からdatetimeへの変換

In [20]:
# 購入データが入ったlogsをデータで見るとpurchase_datetimeはstr型
type(logs['purchase_datetime'][0])

str

In [21]:
# 日時を扱いやすくするためにdatetime型に変換
# デフォルト設定
pd.to_datetime(logs['purchase_datetime'][0])
# 詳細指定（結果は同じものが得られる）
pd.to_datetime(logs['purchase_datetime'][0], format='%Y-%m-%d %H:%M:%S')

Timestamp('2018-01-01 14:59:01')

In [22]:
# to_pydatetime()関数を用いることでdatetime型として扱える
pd.to_datetime(logs['purchase_datetime'][0], format='%Y-%m-%d %H:%M:%S').to_pydatetime()

datetime.datetime(2018, 1, 1, 14, 59, 1)

◯　UNIXTIMEからdatetimeへの変換

In [23]:
# pd.to_datetimeの引数に unit='s'を用いて変換
# 2018-01-01 12:59:01 (JST)のUNIXTIMEは1514786341

pd.to_datetime(1514786341, unit = 's')

Timestamp('2018-01-01 05:59:01')

◯　timezoneの扱い

In [24]:
# データの前処理を行う際に、タイムゾーンを揃えてデータを結合しなくてはいけない。
# pytzを用いて変換する
from pytz import timezone
timezone('Asia/Tokyo').localize(pd.to_datetime(logs['purchase_datetime'][0], format='%Y-%m-%d %H:%M:%S'))

Timestamp('2018-01-01 14:59:01+0900', tz='Asia/Tokyo')

In [25]:
# データフレームに適用
logs['purchase_datetime'] = pd.to_datetime(logs['purchase_datetime'], format='%Y-%m-%d %H:%M:%S')
logs['purchase_datetime'] = logs['purchase_datetime'].apply(lambda x: timezone('Asia/Tokyo').localize(x))
logs['purchase_datetime']

0   2018-01-01 14:59:01+09:00
1   2018-02-07 19:23:44+09:00
2   2018-02-22 21:02:20+09:00
3   2018-03-10 09:41:00+09:00
4   2018-04-05 11:35:30+09:00
Name: purchase_datetime, dtype: datetime64[ns, Asia/Tokyo]

In [26]:
# JST<=>UTCを相互に変換できる
logs['purchase_datetime_utc'] = logs['purchase_datetime'].apply(lambda x: x.astimezone('UTC'))
logs['purchase_datetime_utc']

0   2018-01-01 05:59:01+00:00
1   2018-02-07 10:23:44+00:00
2   2018-02-22 12:02:20+00:00
3   2018-03-10 00:41:00+00:00
4   2018-04-05 02:35:30+00:00
Name: purchase_datetime_utc, dtype: datetime64[ns, UTC]

◯　単位時間での集計

In [27]:
# 時刻を変換することができたため、groupbyを用いた集約を行う
logs.groupby('purchase_datetime')['purchase_number'].sum()

purchase_datetime
2018-01-01 14:59:01+09:00     2
2018-02-07 19:23:44+09:00     1
2018-02-22 21:02:20+09:00    10
2018-03-10 09:41:00+09:00     5
2018-04-05 11:35:30+09:00    10
Name: purchase_number, dtype: int64

In [28]:
# このままでは、秒ごとの集計になるため、新たなカラムとして、年と月を示すカラムを作成
logs['purchase_year'] = logs['purchase_datetime'].apply(lambda x: x.year)
logs['purchase_month'] = logs['purchase_datetime'].apply(lambda x: x.year)

In [29]:
# groupbyによる集計を行う

# 年ごと
by_year = logs.groupby('purchase_year')['purchase_number'].sum()

# 月ごと
by_month = logs.groupby('purchase_month')['purchase_number'].sum()

# 年月ごと
by_year_month = logs.groupby(['purchase_year', 'purchase_month'])['purchase_number'].sum()

◯　結合

In [30]:
# 結合には、Pandasのmerge関数を用いる
# 購入データにアイテム情報を付与する
users = pd.read_csv('users.csv')
logs.merge(items, left_on='item_id', right_on='id')

Unnamed: 0,id_x,item_id,user_id,purchase_number,purchase_datetime,purchase_datetime_utc,purchase_year,purchase_month,id_y,name,price,created_date
0,1,2,2,2,2018-01-01 14:59:01+09:00,2018-01-01 05:59:01+00:00,2018,2018,2,B,100,2018-01-05
1,4,2,3,5,2018-03-10 09:41:00+09:00,2018-03-10 00:41:00+00:00,2018,2018,2,B,100,2018-01-05
2,2,1,2,1,2018-02-07 19:23:44+09:00,2018-02-07 10:23:44+00:00,2018,2018,1,A,300,2017-02-01
3,3,3,1,10,2018-02-22 21:02:20+09:00,2018-02-22 12:02:20+00:00,2018,2018,3,C,500,2018-03-10
4,5,3,1,10,2018-04-05 11:35:30+09:00,2018-04-05 02:35:30+00:00,2018,2018,3,C,500,2018-03-10


In [31]:
# 結合ののちに集約を行うことでアイテムごとに売り上げを出せる
item_logs = logs.merge(items, left_on='item_id', right_on='id', suffixes=('_logs', '_items'))
user_logs = item_logs.merge(users, left_on='user_id', right_on='id', suffixes=('', '_users'))
# ユーザごとの売り上げ
user_logs.groupby('name_users')['price'].sum()

name_users
たかこ     100
たかし     400
たけし    1000
Name: price, dtype: int64

In [32]:
# 性別ごとの売り上げ
user_logs.groupby('gender')['price'].sum()

gender
female     100
male      1400
Name: price, dtype: int64

◯　間隔尺度

In [33]:
# 間隔尺度を機械学習で用いる場合、特定の日付からの差などに変換することで、比率尺度として扱える。
# データの中で最小の日付を基準（０）とする場合を考える
import pandas as pd
users = pd.read_csv('users.csv')
users['registration_date'] = pd.to_datetime(users['registration_date'], format='%Y-%m-%d')
mindate = users['registration_date'].min()

In [34]:
mindate

Timestamp('2011-12-02 00:00:00')

In [35]:
# pd.Timedelta、さらにはdays関数を用いて最小の日付の差分に変換する
users['registration_date_diff'] = users['registration_date'].apply(lambda x: pd.Timedelta(x - mindate).days)

In [36]:
users['registration_date_diff']
# 比較尺度として扱えると標準化なども行える。

0    2312
1    1666
2       0
Name: registration_date_diff, dtype: int64

◯　ダミー変数

In [37]:
# get_dummiesを用いて変換すると、数値データとして扱える
import pandas as pd
weekday = pd.read_csv('weekday.csv')
dummy = pd.get_dummies(weekday[['weekday']])

In [38]:
dummy

Unnamed: 0,weekday_土,weekday_日,weekday_月,weekday_木,weekday_水,weekday_火,weekday_金
0,0,0,1,0,0,0,0
1,0,0,0,0,0,1,0
2,0,0,0,0,1,0,0
3,0,0,0,1,0,0,0
4,0,0,0,0,0,0,1
5,1,0,0,0,0,0,0
6,0,1,0,0,0,0,0


◯　標準化

In [41]:
# データを標準偏差：１、平均：０に変換することを標準化という
# カラムごとに平均や分布が大きく異なる場合に用いる
# sklearn.preprocessingのStandardScalerを用いて算出

import pandas as pd
from sklearn.preprocessing import StandardScaler
height_weight = pd.read_csv('height_weight.csv')
scaler = StandardScaler()
scaler.fit(height_weight[['height', 'weight']])
height_weight['standalized_height'] = [x[0] for x in scaler.transform(height_weight[['height', 'weight']])]
height_weight['standalized_weight'] = [x[1] for x in scaler.transform(height_weight[['height', 'weight']])]

In [42]:
# このような処理を行うことで、身長と体重といった異なるデータを比較することができる
height_weight

Unnamed: 0,id,height,weight,standalized_height,standalized_weight
0,1,180,80,0.9424,0.372079
1,2,175,85,0.427025,0.755102
2,3,170,70,-0.08835,-0.393966
3,4,155,60,-1.634475,-1.160012
4,5,167,63,-0.397575,-0.930199
5,6,163,68,-0.809875,-0.547176
6,7,186,100,1.56085,1.904171


◯　欠損値の扱い

In [44]:
# 読み込んだデータに欠損値がある場合、Pandasでは欠損値をNaNを示して表現する
import numpy as np
string_array = pd.DataFrame({'name': ['test1', np.nan, 'test2', 'test3']})

In [45]:
string_array

Unnamed: 0,name
0,test1
1,
2,test2
3,test3


◯　欠損値を抽出

In [47]:
# 欠損値であるNaNの抽出にはisnull関数を用いる
# notnull関数でNaNではないものを抽出することができる

string_array.isnull()

Unnamed: 0,name
0,False
1,True
2,False
3,False


In [48]:
# NaNでないものを抽出
string_array.notnull()

Unnamed: 0,name
0,True
1,False
2,True
3,True


◯　欠損値の削除

In [49]:
# isnull関数を用いても削除できる
# dropna関数を用いると簡単にNaNであるレコード以外のレコードだけを抽出することができる。
# 複数のカラムのデータフレームの場合にはaxisを活用して列を削除することもできる
string_array.dropna()

Unnamed: 0,name
0,test1
2,test2
3,test3


◯　欠損値の補完

In [50]:
# 欠損値の補完にはfillna関数が便利である
# 欠損値を引数で指定した値で置き換えることもできる
string_array.fillna('err')

Unnamed: 0,name
0,test1
1,err
2,test2
3,test3


In [51]:
# 平均値でも置き換えられる
import pandas as pd
from sklearn.preprocessing import StandardScaler
height_weight = pd.read_csv('height_weight.csv')
height_weight['height'][2] = np.nan # 試しでnanで置き換える

In [52]:
height_weight['height']

0    180.0
1    175.0
2      NaN
3    155.0
4    167.0
5    163.0
6    186.0
Name: height, dtype: float64

In [53]:
height_weight['height'].fillna(height_weight['height'].mean())

0    180.0
1    175.0
2    171.0
3    155.0
4    167.0
5    163.0
6    186.0
Name: height, dtype: float64