# pandasでデータを処理しよう 

## サンプルデータの説明 

In [1]:
import os

base_url = 'https://raw.githubusercontent.com/practical-jupyter/sample-data/master/anime/'
anime_csv = os.path.join(base_url, 'anime.csv')

print(anime_csv)

https://raw.githubusercontent.com/practical-jupyter/sample-data/master/anime/anime.csv


In [2]:
import pandas as pd

anime_csv = os.path.join(base_url, 'anime.csv')
pd.read_csv(anime_csv).head()

URLError: <urlopen error [Errno 11001] getaddrinfo failed>

- これを加工したデータ（例えばGIntama&#039がGIntama'に置換されている）が次の``anime_master.csv``である。「3-6: データ処理」で実施した前処理の結果が保存されている：

In [None]:
anime_master_csv = os.path.join(base_url, 'anime_master.csv')
pd.read_csv(anime_master_csv).head()

- これを加工したデータが次の``anime_split_genre.csv``である。「3-8: クロス集計」で実施した前処理の結果が保存されている：

In [None]:
anime_split_genre_csv = os.path.join(base_url, 'anime_split_genre.csv')
pd.read_csv(anime_split_genre_csv).head()

- ``anime_stock_price.csv``は「東映アニメーション株式会社」と「株式会社IGポート」の株価データである。キーワード引数``index_col``に列番号を指定することで、対象列をラベルとする。キーワード引数``parse_dates``に列名をリストで指定することで、読み込み時にdatetime型として扱う：

In [None]:
anime_stock_price_csv = os.path.join(base_url, 'anime_stock_price.csv')
pd.read_csv(anime_stock_price_csv, index_col=0, parse_dates = ['Date']).head()

- ``anime_stock_returns.csv``は``anime_stock_returns.csv``を加工したデータである。最初のデータを1とした騰落率を算出している。相対的な比較をする場合に使われる手法である。算出方法は「3-9: 時系列データの処理」で解説する。

In [None]:
anime_stock_returns_csv = os.path.join(base_url, 'anime_stock_returns.csv')
pd.read_csv(anime_stock_returns_csv, index_col = 0, parse_dates = ['Date']).head()

## Series

- Seriesはインデックスと呼ばれるラベル（Python標準のタプルやリストのインデックスのような概念）を持った同一のデータ型を持つ1次元のデータである。
- Seriesの作成にはpandas.Seriesクラスを使用する。第一引数にはリスト、タプル、辞書、numpy.ndarrayのような1次元のデータを渡す。キーワード引数indexにラベルとなる値を渡す（省略もできる）。

In [None]:
ser = pd.Series([1, 2, 3], index=['a', 'b', 'c'])
ser

In [None]:
# indexキーワードを省略した場合
pd.Series([1, 2, 3])

- Series.locを使用/使用せずにラベルからデータを選択する：

In [None]:
ser.loc['b']

In [None]:
ser['b']

- ラベルの範囲を指定してスライスできる（開始位置と終了位置を含む、つまり、リストやタプルに対してのスライスとは挙動が異なることに注意）

In [None]:
ser.loc['b':'c']

- 複数の要素の指定はラベルをリストにすることでできる：

In [None]:
ser.loc[['a', 'c']]

- Series.ilocを使うとデータの位置を整数値で指定することもできる。ilocのスライスはPython標準のリストやタプルと同じような動作をする：

In [None]:
ser.iloc[1]

In [None]:
ser.iloc[1:3]

- locとilocには真偽値のリストを渡せる：

In [None]:
ser.loc[[True, False, True]]

- Seriesに対して比較演算をすることで真偽値が返る。これを利用するとデータの抽出ができる：

In [None]:
ser != 2

In [None]:
ser.loc[ser != 2]

## DataFrame

- DataFrameは行と列それぞれにラベルを持った2次元のデータである。列ごとに異なるデータ型を持つことができる。
- キーワード引数index（行）およびcolums（列）にラベルとなる値を渡すことで、データをラベリングする（作成する）。

In [None]:
df = pd.DataFrame(
    [[1, 10, 100], [2, 20, 200], [3, 30, 300]],
    index=['r1', 'r2', 'r3'],
    columns=['c1', 'c2', 'c3'])
df

- データ抽出は行と列のラベルをそれぞれ指定して行う。ある列全て、ある行全てを取り出すこともできる。行のデータ数が1で列のデータ数が複数、または行のデータ数が複数で列のデータ数が1の場合、返されるデータ型はSeriesになる（それ以外ならばDataFrame型になる）ことに注意：

In [None]:
df.loc['r2', 'c2']

In [None]:
df.loc['r2', :]

In [None]:
df.loc[:, 'c2']

In [None]:
df.loc[['r1', 'r3'], 'c2':'c3']

- Seriesと同様ilocを使ってデータの位置によるデータの選択もできる：

In [None]:
df.iloc[1:3, [0, 2]]

- 列名を指定して抽出することもできる（Seriesで返される）：

In [None]:
df['c2']

- 真偽値を使った抽出もできる：

In [None]:
df > 10

In [None]:
# c2列の値が10より大きいデータ
df.loc[df['c2'] > 10]

In [None]:
df.loc[(df['c1'] > 1) & (df['c3'] < 300)]

## さまざまなデータの読み込み

- pandasはCSVやExcel,データベース、JSON、HTMLなど様々な形式のデータを読み込める。
- csvファイルを読み込むにはpandas.read_csv()関数を利用する。

In [None]:
import os
import pandas as pd

baseurl = 'https://raw.githubusercontent.com/practical-jupyter/sample-data/master/anime'
anime_csv = os.path.join(base_url, 'anime.csv')

df = pd.read_csv(anime_csv)
df.head()

- キーワード引数index_colに数値または列名を指定することで、指定した列をDataFrameのインデックスにできる。

In [None]:
# インデックスにする列を番号で指定
df = pd.read_csv(anime_csv, index_col=0)
df.head()

In [None]:
# インデックスにする列を列名で指定
df = pd.read_csv(anime_csv, index_col='anime_id')
df.head()

- キーワード引数dtypeに列名（キー）と型（値）を辞書型で指定することで、指定した列を指定した型で読み込むことができる：

In [None]:
df = pd.read_csv(anime_csv, dtype = {'members': float})
df.head()

- datetime型の列が含まれている場合、キーワード引数parse_datesに列名をリストで指定することで読み込み時に型を変換できる：

In [None]:
anime_stock_price_csv = os.path.join(base_url, 'anime_stock_price.csv')
df = pd.read_csv(anime_stock_price_csv, parse_dates=['Date'])
df.dtypes

- デフォルトの区切り文字のカンマを変更するには、キーワード引数sepに文字列を指定する：

In [None]:
anime_tsv = os.path.join(base_url, 'anime.tsv')
df = pd.read_csv(anime_tsv, sep='\t')

- Excelファイルを読み込むにはpandas.read_excel()を使用する。

In [None]:
anime_xlsx = os.path.join(base_url, 'anime.xlsx')

df = pd.read_excel(anime_xlsx)
df.head()

In [None]:
# シート名を指定して読み込む
df = pd.read_excel(anime_xlsx, sheet_name='Movie')

- SQLを使用して読み込むにはpandas.read_sql()関数を使用する：

In [None]:
from urllib.request import urlopen
import sqlite3

animedb = os.path.join(base_url, 'anime.db')
res = urlopen(animedb)
with open('anime.db', 'wb') as f:
    f.write(res.read())
    with sqlite3.connect(f.name) as conn:
        df = pd.read_sql('SELECT * FROM anime', conn)

- HTMLファイルを読み込むにはpandas.read_html()関数を使用する：

In [None]:
url = 'https://docs.python.org/3/py-modindex.html'

tables = pd.read_html(url, index_col=1)
# 1番目のDataFrameから空の列と欠損値を除外
tables[0].loc[:, 1:].dropna().head(5)

## データ処理

- episodes列がUnknownになっているデータを抽出する：

In [None]:
import os
import pandas as pd

baseurl = 'https://raw.githubusercontent.com/practical-jupyter/sample-data/master/anime'
anime_csv = os.path.join(base_url, 'anime.csv')
df = pd.read_csv(anime_csv)

df.loc[df['episodes'] == 'Unknown'].head()

- 上のラベルを使った方法では、検索条件にマッチしなかった行は除外されてしまった。DataFrame.where()メソッドは該当しないデータを「NaN」で埋めたDataFrameを返す：

In [None]:
df.where(df['rating'] < 9.2).head()

- DataFrameのラベルを指定し、値を代入することで指定された範囲の値を変更することができる。次は値をNaNに変更する例である：

In [None]:
df.loc[74, 'episodes']

In [None]:
import numpy as np

df.loc[74, 'episodes'] = np.nan
df.loc[74, 'episodes']

In [None]:
# 複数の値の変更
df.loc[df['episodes'] == 'Unknown', 'episodes'] = np.nan

- NaNは欠損値として扱われる。isnull()メソッドは欠損値である場合にTrueを返す：

In [None]:
df.loc[df['episodes'].isnull()].head()

- DataFrame.dropna()メソッドで欠損値が含まれているデータを除外できる。

In [None]:
df.dropna().loc[70:].head()

- dropna()はデフォルトでは元のオブジェクトを維持し、新しいオブジェクトを作成する操作である。再度、元のDFを参照した場合に除外した値が残っていることが確認できる：

In [None]:
df.loc[70:].head()

- 元のオブジェクトを書き換えるdropna()を行いたい場合、キーワード引数inplaceにTrueを指定する。しかし、この操作を行うと対称のオブジェクトを参照している他の処理にも影響を与えるため注意が必要である：

In [None]:
df.dropna(inplace=True)
df.loc[70:].head()

- SeriesやDataFrameは作成された時点でデータの型が自動的に決定される。数値データはNumPyのデータ型が格納され、文字列などのデータはobject型として扱われる。

- Seriesのデータ型を確認する場合にはdtypeを参照する。

In [None]:
df['anime_id'].dtype

- DataFrameのデータ型を確認する場合にはdtypesを参照する。次の結果から、DataFrameは列ごとに型を持っていることが確認できる：

In [None]:
df.dtypes

- 型を変換するにはastype()メソッドを使用する。引数にはtype型あるいはNumPyのデータ型を指定する：

In [None]:
df['episodes'].head()

In [None]:
# pandasで表示する行数を設定
pd.options.display.max_rows = 10
df['episodes'].astype(np.int64)

- 複数列の型を変更する場合には、引数に辞書を指定する：

In [None]:
df.astype({'episodes': np.int64, 'rating': np.float64})

In [None]:
# astypeは非破壊的（元のオブジェクトを維持し新たなオブジェクトを生成する操作）であることが確認できる
df.dtypes

- DataFrameを書き換える（破壊的にデータ型を変更する）場合には、列を指定して代入する：

In [None]:
df['episodes'] = df['episodes'].astype(np.int64)
df.dtypes

- データをソートするには、sort_values()を使用する。対象がDataFrameの場合は引数に列名を指定する。デフォルトでは昇順にソートする。降順でソートする場合にはキーワード引数ascendingにFalseを指定する。
- sort_values()は非破壊的な操作である。元のデータを書き換えたいときにはキーワード引数inplaceにTrueを指定する。

In [None]:
df.sort_values('rating', ascending=False).head()

- SeriesまたはDataFrameから次のメソッドを使うことで任意の関数を適用できる。applymap()メソッドはDataFrameのみ使用できる。

メソッド | 適用対象 | 戻り値 
------------ | ------------ | ------------
map | Series（値ごと） | Series
apply | DataFrame（列または行ごと） | Series
applymap | DataFrame（値ごと） | DataFrame

- map()メソッドを使用しname列（Series）に対しhtml.unescape()関数を適用する。作品名「Gintama\&#039;」のhtml特殊文字が変換されている：

In [None]:
import html

print(df['name'].head())
print(df['name'].map(html.unescape).head())

- apply()メソッドを使用し、DataFrameの各列に対して組み込み関数のlen()を適用する：

In [None]:
df.apply(len)

- 各行に対して関数を適用する場合、キーワード引数axisに1を指定する。

In [None]:
df.apply(len, axis=1).head()

- apply()メソッドに渡された関数に渡される引数はSeries型になる。行に対して実施した場合も同様である：

In [None]:
# anime_id, nameなどを要素とするSeriesができる？
df.apply(type)

In [None]:
# 上を利用して適用する関数の中でラベルを指定する
df.apply(lambda x: len(x['name']) + len(x['genre']), axis=1).head()

- applymap()メソッドを使用し、DataFrameの各値に対してlen()を適用する：

In [None]:
df[['name', 'genre']].applymap(len).head()

## 統計量の算出 

- SeriesやDataFrameには一般的な数学的、統計的な計算を行うメソッドが使用できる。例としてDataFrameの列ごとの平均値を算出する：

In [None]:
import os
import pandas as pd

baseurl = 'https://raw.githubusercontent.com/practical-jupyter/sample-data/master/anime'
anime_master_csv = os.path.join(base_url, 'anime_master.csv')
df = pd.read_csv(anime_master_csv)

df.mean()

- Seriesにおいても同様のメソッドが使える：

In [None]:
df['members'].sum()

- describe()メソッドを使用することで、基本統計量を算出できる。round()を実行して小数第二位を四捨五入する例が次である：

In [None]:
df.describe().round(1)

- パーセンタイル値を変更する場合には、キーワード引数percentilesに、リストの要素に1以下の小数値を指定する。次ではリスト内に2つの値を指定しているが、3つ以上指定することも可能である：

In [None]:
df.describe(percentiles=[0.1, 0.9]).round(1)

- DataFrameに対して統計的な演算をするメソッドを実行した場合には数値型の列が対象となる。非数値の列に対してdescribe()メソッドを適用した場合には、次のような基本統計量が算出される。
    - count:欠損値を除いたデータ数
    - unique:ユニークなデータ数
    - top:データ数が最も多い値
    - freq:topのデータ数

In [None]:
df[['genre', 'type']].describe()

## クロス集計

- groupby()メソッドでDataFrameを集約する。指定された列で集約されたオブジェクトDataFrameGroupByが返される。

In [18]:
import os
import pandas as pd
import numpy as np

baseurl = 'https://raw.githubusercontent.com/practical-jupyter/sample-data/master/anime'
anime_master_csv = os.path.join(base_url, 'anime_master.csv')
df = pd.read_csv(anime_master_csv)

grouped = df.groupby('type')
type(grouped)

URLError: <urlopen error [Errno 11001] getaddrinfo failed>

- 各グループごとに数学的、統計的な関数が使用できるようになる：

In [None]:
grouped.mean().round(1)

In [None]:
grouped.describe().round(1).head(16)

- 複数の要素で集約する場合、groupby()メソッドの引数にリストを渡す。次はtype列とepisodes列に基づいてデータを集約し平均を求めている：

In [None]:
df.groupby(['type', 'episodes']).mean().round(1)

- groupby()メソッドと同様の処理を、pivot_table()メソッドでも実施できる。キーワード引数indexに集約対象の列名、aggfuncに集計する関数を指定する：

In [None]:
df.pivot_table(index='type', aggfunc=np.mean)

In [None]:
df.pivot_table(index=['type', 'episodes'], aggfunc=np.mean)

- これまではtype列に対して集計してきたが、ここからはtype列とgenre列の2項目によるクロス集計を行う。まず次の前処理を実施する：
    1. カンマ区切りで入力されていたgenre列をユニークにして取り出す。
    2. 元のDataFrame列から1.のデータを抽出
    3. 2.を結合

In [None]:
# カンマ区切りのgenre列を1行ごとに分割してユニークにする（1.の処理）
genres = df['genre'].map(lambda x: x.split(','))
# numpy.arrayにして2次元から1次元のデータに変換
ser = pd.Series(np.hstack(genres.values))
# ユニークにする
unique_genres = ser.str.strip().unique()
unique_genres.sort()
unique_genres

In [None]:
# 途中経過1
genres = df['genre'].map(lambda x: x.split(','))
genres

In [None]:
# 途中経過2
ser = pd.Series(np.hstack(genres.values))
ser

In [None]:
# genreごとのDataFrameを結合する前処理（2.の処理）
# 指定したジャンル名をDataFrameから抽出
def filter_df_by_genre(df, genre):
    genre_df = df.loc[df['genre'].map(lambda x: genre in x)].copy()
    genre_df['genre'] = genre
    return genre_df

# 上記の関数をすべてのジャンルに対して実行
genre_df_list = [filter_df_by_genre(df, genre) for genre in unique_genres]
# 上記データを結合（3.の処理）
df2 = pd.concat(genre_df_list)
# name列でソート
df2.sort_values('name', inplace=True)

# メンバ数が多いジャンルトップ10
top10 = df2.groupby('genre')['members'].sum().sort_values(ascending=False).index[:10]
# top10からデータを抽出
df2 = df2[df2['genre'].isin(top10)]

- 複数のジャンルが登録されている作品は次のようにDataFrameに格納される：

In [None]:
df2.loc[df2['name'] == 'Kimi no Na wa.']

- pivot_table()メソッドを使用してクロス集計をする。次ではgenre列を縦軸、type列を横軸にしてmembers列の合計をクロス集計している：

In [None]:
df2.pivot_table(index='genre', columns = 'type', values=['members'], aggfunc=np.sum).head()

## 時系列データの処理

In [None]:
import os
import pandas as pd

base_url = 'https://raw.githubusercontent.com/practical-jupyter/sample-data/master/anime/'
anime_stock_price_csv = os.path.join(base_url, 'anime_stock_price.csv')
df = pd.read_csv(anime_stock_price_csv, index_col=0, parse_dates=['Date'])
df.head()

- pct_change()メソッドを使用することで1つ前の値からの変化率を算出する。次は1日ごとの騰落率を算出している。

In [None]:
# pandasで表示する行数を設定
pd.options.display.max_rows = 10
# (x_i - x_{i-1})/x_{i-1}
pct_change = df['TOEI ANIMATION'].pct_change()
pct_change

- cumprod()メソッドを使用することで累積積を算出できる。次では初日の株価を1とし株価の累積リターンを算出している。

In [None]:
cumulative_returns = (pct_change + 1).cumprod()
cumulative_returns[0] = 1
cumulative_returns

- rolling()メソッドを使用することで、データの範囲を移動させながら関数を適用できる。第一引数に区間を整数で指定することで、この区間に対して関数を適用する。

In [None]:
df['TOEI ANIMATION'].rolling(5).mean()

- 組み込みのメソッドだけでなく任意の関数を適用できる。ヒストリカルボラティリティを算出する関数を適用する例が次である：

In [None]:
import numpy as np

def historical_volatility(x):
    # 対数収益率
    logreturns = np.diff(np.log(x))
    return np.sqrt(365 * logreturns.var())

df['TOEI ANIMATION'].rolling(20).apply(historical_volatility)

- pandasのDatetimeIndexはdatetime型に特化した処理ができるIndexである。pandas.date_range()関数は指定した周期(デフォルトでは1日）のDatetimeIndexを作成する。

In [None]:
ix = pd.date_range('2017-01', '2017-02', freq='1H')
ix

- DatetimeIndexはSeriesやDataFrameのインデックスとして使用できる。

In [None]:
time_series = pd.Series(np.arange(len(ix)), index=ix)
time_series

- DatetimeIndexのインデクサにはdatetime型と文字列型の両方が指定できる。次はdatetime型でデータを選択している：

In [None]:
from datetime import datetime

df.loc[datetime(2016, 1, 4)]

- インデクサに文字列を指定する方法が次である：

In [None]:
df.loc['2016-01-04']

- 特定の年や月のデータのみを抽出することもできる：

In [None]:
print(df.loc['2015'].head())

In [None]:
print(df.loc['2015-06'].head())

- 年や月などをスライスもできる：

In [None]:
print(df.loc['2015-12':'2016-01'])

- datetime.time型で指定した時刻のみのデータを抽出できる：

In [None]:
from datetime import time

time_series.loc[time(9, 0)]

- between_time()メソッドを使用することで、指定した時間帯のみを抽出できる：

In [None]:
time_series.between_time(time(9, 0), time(12, 0))

- resample()メソッドを使用することで時系列データの頻度を変換できる。日時のデータを週次や月次のデータにできる：

In [None]:
df['TOEI ANIMATION'].resample('M').mean().head()

- ohlc()メソッドを使用することで4本値（ある一定期間の始値、終値、高値、安値）に変換できる。次は日次のデータから週次の4本値に変換している：

In [None]:
df['TOEI ANIMATION'].resample('W').ohlc().head()

## データ可視化

- pandasのSeriesまたはDataFrameのplotメソッドを使うと可視化できる。plotメソッドは内部でmatplotlibを使用している。
- 本節ではpyplot.show()関数を使用する。

In [None]:
import pandas as pd
import matplotlib.pyplot as plt

ax = pd.Series([1, 2, 3]).plot()
ax.set_title('Line Chart')
plt.show()

- グラフのスタイルを変更する場合にはpyplot.style.use()関数の引数にスタイル名を渡す。

In [None]:
plt.style.use('ggplot')

- Seriesからplotメソッドを呼び出した場合、デフォルトでは折れ線グラフが出力される。インデックスがX軸、値（データ）がY軸となる。

In [None]:
ser = pd.Series([1, 2, 3])
ax = ser.plot()
ax.set_title('Line Chart')
plt.show()

- DataFrameからplotメソッドを呼び出した場合、基本的にはSeriesと同じ挙動をするが、列数に応じた要素が描画される。各列の値がYとなる。

In [None]:
df = pd.DataFrame({'a':[1, 2, 3], 'b': [3, 2, 1]})
ax = df.plot()
ax.set_title('Line Chart')
plt.show()

In [None]:
anime_stock_returns_csv = os.path.join(base_url, 'anime_stock_returns.csv')
anime_stock_returns_df = pd.read_csv(anime_stock_returns_csv, index_col=0)
pd.read_csv(anime_stock_returns_csv, index_col = 0, parse_dates = ['Date']).head()

In [None]:
ax = anime_stock_returns_df.plot()
ax.set_title('stock returns')
plt.show()

- Y軸の範囲が異なる場合にはplot()メソッドのキーワード引数secondary_yに2軸目となる列名をリスト型で指定する。Y軸のラベルはset_ylable()メソッドに第一軸の、right_ax.set_ylable()メソッドの引数に第二軸の名前を渡す。

In [None]:
anime_stock_price_df = pd.read_csv(anime_stock_price_csv, index_col=0)
anime_stock_price_df.head()

In [None]:
ax = anime_stock_price_df.plot(secondary_y=['IG Port'])
ax.set_title('secondary_y')
ax.set_ylabel('TOEI ANIMATION')
ax.right_ax.set_ylabel('IG Port')
plt.show()

- 複数の図に分割することもできる。plot()メソッドのキーワード引数subplotsにTrueを設定する。

In [None]:
ax1, ax2 = anime_stock_price_df.plot(subplots=True)
ax1.set_title('subplot1')
ax2.set_title('subplot2')
plt.show()

- 散布図を作成するには、plot.scatter()メソッドを使用する。キーワード引数xにX値となる列名、yにY値となる列名を指定する。

In [None]:
anime_master_csv = os.path.join(base_url, 'anime_master.csv')
anime_master_df = pd.read_csv(anime_master_csv)
anime_master_df.head()

In [None]:
ax = anime_master_df.plot.scatter(x='members', y='rating')
ax.set_title('Scatter')
plt.show()

- 棒グラフを作成するにはplot.bar()メソッドを使用する。左上に表示される「le7」は10の7乗を意味する。

In [None]:
anime_genre_top10_pivoted_csv = os.path.join(base_url, 'anime_genre_top10_pivoted.csv')
anime_genre_top10_pivoted_df  = pd.read_csv(anime_genre_top10_pivoted_csv, index_col=0)
anime_genre_top10_pivoted_df

In [None]:
ax = anime_genre_top10_pivoted_df.plot.bar()
plt.show()

- 対数軸に変更したい場合、plot.bar()メソッドのキーワード引数logyにTrueを設定することでY軸が対数になる。次では対数軸を使用し、凡例の位置を変更している。凡例の位置の調整はlegend()メソッドのキーワード引数bbox_to_anchorを設定することでできる。

In [None]:
ax = anime_genre_top10_pivoted_df.plot.bar(logy=True)
ax.legend(bbox_to_anchor=(1, 1))
plt.show()

- 積み上げ棒グラフはplot.bar()メソッドのキーワード引数stackedにTrueを設定する。

In [None]:
ax = anime_genre_top10_pivoted_df.plot.bar(stacked=True)
ax.set_title('stacked')
plt.show()

- ヒストグラムを作成するにはhist()メソッドを使用する。キーワード引数binsに整数値を設定することでビンの数を変更できる。

In [None]:
ax = anime_master_df['rating'].hist(bins=100)
ax.set_title('Histogram')
plt.show()

- 箱ひげ図を作成するには、plt.box()メソッドを使用する。

In [None]:
ax = anime_genre_top10_pivoted_df.plot.box()
ax.set_title('Box Plot')
plt.show()

In [None]:
import numpy
test = numpy.array([[1, 2], [3, 4], [5, 6]])

In [None]:
test[[0,1]][1]

In [None]:
import pandas
df = pandas.DataFrame(test)
df

In [None]:
df[[0,1]].iloc[0]

In [None]:
import numpy as np
x = np.arange(24).reshape(6,-1)
y = np.arange(6)
x

In [None]:
y

In [None]:
for p,q in zip(x,y):
    print(f'p:{p}, q:{q}')
    print(f'p.reshape(1,-1):{p.reshape(1,-1)}')
    print(f'q.reshape(1,):{q.reshape(1,)}')
    print(f'p.reshape(-1,):{p.reshape(-1,)}')

# Pythonによるデータ分析入門 

## 5章 Pandas入門

## 5.1 Pandasのデータ構造

### 5.1.1 シリーズ（Series）

シリーズは1次元の配列のようなオブジェクトである。シリーズには連続した値（NumPyのデータ型と似たような型をもつ）とそれに関連づけられた**インデックス**というデータラベルの配列が含まれる。

In [None]:
import pandas as pd
import numpy as np

In [None]:
obj = pd.Series([4, 7, -5, 3])
obj

In [None]:
obj.values

In [None]:
obj.index

In [None]:
obj2 = pd.Series([4, 7, -5, 3], index=['d', 'b', 'a', 'c'])
obj2

In [None]:
obj2.index

In [None]:
obj2['a']

In [None]:
obj2['d'] = 6

In [None]:
obj2[['c', 'a', 'd']]

In [None]:
obj2[obj2 > 0]

In [None]:
obj2 * 2

In [None]:
np.exp(obj2)

シリーズを、インデックスとデータ値がマッピングされた固定長の順序付きディクショナリととらえる見方もある。ディクショナリを使う文脈の多くでは、シリーズを使うことができる。

In [None]:
'b' in obj2

In [None]:
'e' in obj2

Pythonのディクショナリ形式のデータがある場合は、それを使ってシリーズを作成することができる。

In [None]:
sdata = {'Ohaio': 35000, 'Texas': 71000, 'Oregon': 16000, 'Utah': 5000}
obj3 = pd.Series(sdata)
obj3

In [None]:
states = ['California', 'Ohaio', 'Oregon', 'Texas']
obj4 = pd.Series(sdata, index=states)
obj4

上の例の場合、``sdata``の中に``California``に対応するデータは見つからないため、NaN(not a number、非数)となっている。NaNはpandasでは欠損値、またはNA値（Not Available）として扱われる。欠損値もNA値も同じ欠損値という意味で統一して使われることがある。``Utah``は、指定した``states``には含まれていないため、作成されたシリーズからは除外されている。

pandasの``isnull``関数と``notnull``関数は欠損値を特定するために使う。

In [None]:
pd.isnull(obj4)

In [None]:
pd.notnull(obj4)

シリーズはこれらのメソッドをインスタンスメソッドとしても持っている。

In [None]:
obj4.isnull()

便利なシリーズの機能として、算術演算をするときに別々にインデックス付けされたデータが自動的に整形されるというものがある。データベースでいえばテーブル結合の操作と言える。片方にしかないデータはNaNになる。

In [None]:
obj3

In [None]:
obj4

In [None]:
obj3 + obj4

In [None]:
obj4.name = 'population'
obj4.index.name = 'state'

In [None]:
obj4

In [None]:
obj4.index = ['Bob', 'Steve', 'Jeff', 'Ryan']

### 5.1.2 データフレーム（DataFrame） 

データフレームはテーブル形式のデータ構造を持ち、順序付けられた列を持っている。各列には別々の型（数値型、文字列型、ブール型など）を持たせることができる。データフレームは行と列の両方にインデックスを持っている。データフレームはシリーズをバリューとして持つディクショナリと見ることができる（各シリーズのインデックスを全体で共有しているようなイメージ）。

データフレームを作成する方法はたくさんあるが、最も一般的な方法は、同じ長さを持つリスト型のバリューを持ったディクショナリかNumpyの配列を使う方法である。

In [None]:
data = {'state':['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada', 'Nevada'], 'year': [2000, 2001, 2002, 2001, 2002, 2003], 'pop':[1.5, 1.7, 3.6, 2.4, 2.9, 3.2]}
frame = pd.DataFrame(data)

作成されるデータフレームは、シリーズと同じように自動的にインデックスが代入される。そして、列はソートされた順番に配置される。Jupyter Notebookでは、pandasのデータフレームオブジェクトはHTML形式の表として表示される。

In [None]:
framed

In [None]:
pd.DataFrame(data, columns=['year', 'state', 'pop'])

指定した列がデータを持っていない場合は、その列は結果として欠損値が代入される。

In [None]:
frame2 = pd.DataFrame(data, columns=['year', 'state', 'pop', 'debt'], index=['one', 'two', 'three', 'four', 'five', 'six'])
frame2

In [None]:
frame2.columns

データフレームの列はディクショナリ風の参照や、属性指定をすることで、シリーズとして取り出すことができる。``frame2['column']``はどのような列名でも動作するが、``frame2.column``は列名がPythonの変数名として扱える形式のときだけ使える。データフレームをインデックスで参照して取得できる列は、データフレームの内部に持っているデータへの**参照ビュー**であり、コピーではない。つまり、変更を行うとデータフレームにも反映される。列のコピーは``copy``メソッドを使うことで取得できる。

In [None]:
frame2['state']

In [None]:
frame2.year

In [None]:
frame2.loc['three']

In [None]:
frame2['debt'] = np.arange(6.)
frame2

シリーズを列に代入する場合は、ラベルはデータフレームのインデックスに従って正確に一致するように代入が行われ、データフレームのインデックスに対応するものがない場合は、欠損値が代入される。

In [None]:
val = pd.Series([-1.2, -1.5, -1.7], index=['two', 'four', 'five'])
frame2['debt'] = val
frame2

存在しない列に代入を行うと、新しい列が作成される（注意：``frame2.eastern``のような文法では作れない）。``del``キーワードを用いると、ディクショナリと同じように列を消すことができる。

In [None]:
frame2['eastern'] = frame2['state'] == 'Ohio'

In [None]:
del frame2['eastern']
frame2.columns

ネストしたディクショナリ：

In [None]:
pop = {'Nevada': {2001: 2.4, 2002:2.9}, 'Ohio':{2000: 1.5, 2001: 1.7, 2002: 3.6}}
frame3 = pd.DataFrame(pop)
frame3

データフレームは``NumPy``の配列と同様転置もできる：

In [None]:
frame3.T

In [None]:
pdata = {'Ohio': frame3['Ohio'][:-1], 'Nevada': frame3['Nevada'][:2]}
pd.DataFrame(pdata)

その他、データフレームのコンストラクタに渡すことが可能な入力値は次のようになっている：

|型           |説明 |
|-------------|-----|
|2次元ndarray |データの行列。任意で行と列の名前を渡すことが可能。|
|配列、リスト、タプルをバリューに持つディクショナリ|各シーケンスがデータフレームの列になる。すべてのシーケンスは同じ長さである必要がある。|
|NumPyの構造化/レコード配列|配列をバリューにもつディクショナリと同様に扱われる。|
|シリーズをバリューにもつディクショナリ|各シリーズが列になる。明示的にインデックスが渡されなかった場合は、各シリーズのインデックスが統合されて、行インデックスになる。|
|ディクショナリをバリューにもつディクショナリ|バリューになっている各ディクショナリが列になる。シリーズをバリューにもつディクショナリと同様に、ディクショナリのキーは統合されて、行インデックスになる。|
|ディクショナリ、または、シリーズのリスト|各要素はデータフレームの行になる。ディクショナリのキーや、シリーズのインデックスはデータフレームの列ラベルになる。|
|リスト、またはタプルのリスト|2次元ndarrayと同様に扱われる。|
|別のデータフレーム|何も指定されなければ、入力に使用したデータフレームのインデックスがインデックスとして使用される。|
|NumPyのMaskedArray|マスクされた値がデータフレームでは欠損値になるという点を除いて、2次元ndarrayの場合と同様に扱われる。|

データフレームの``index``や``columns``が``name``属性をもっている場合は、これらもコンソールに出力される。

In [None]:
frame3.index.name = 'year'
frame3.columns.name = 'state'
frame3

シリーズと同じように、``values``属性を参照すると、データフレームの中のデータが2次元のndarrayとして戻される。

In [None]:
frame3.values

データフレームの列が異なる``dtype``を保つ場合は、全ての列に対応した``dtype``が使われる。

In [None]:
frame2.values

###### インデックスオブジェクト

pandasのインデックスオブジェクトは、軸のラベルやその他のメタデータ（軸の``name``属性や``names``属性など）を保持する役目を持っている。シリーズやデータフレームを初期化するときに、配列やシーケンスなどで指定したラベルは、内部的にはインデックスオブジェクトに変換される。インデックスオブジェクトは変更不可能（immutable）である。

In [None]:
obj = pd.Series(range(3), index=['a', 'b', 'c'])
index = obj.index
index

In [None]:
index[1:]

In [None]:
index[1] = 'd'

変更不可能であることによって、インデックスオブジェクトは、データ構造の中で安全に共有することができる。インデックス付けされたデータを結果として出す演算も存在するため、インデックスの動作について理解しておくことは重要である。

In [None]:
labels = pd.Index(np.arange(3))
labels

In [None]:
obj2 = pd.Series([1.5, -2.5, 0], index=labels)
obj2

In [None]:
obj2.index is labels

インデックスオブジェクトは配列と似ているだけではなく、固定長のセットとしても機能する。

In [None]:
frame3

In [None]:
frame3.columns

In [None]:
'Ohio' in frame3.columns

In [None]:
2003 in frame3.index

## 5.2 pandasの重要な機能 

#### 再インデックスづけ

シリーズやデータフレームに保持されたデータとやり取りするための基本的な方法に目を通していく。

In [None]:
obj = pd.Series([4.5, 7.2, -5.3, 3.6], index=['d', 'b', 'a', 'c'])
obj

pandasのオブジェクトの非常に重要なメソッドに、``reindex``がある。このメソッドは、新しいインデックスに従ったデータを持つ新しいオブジェクトを作成する。このメソッドをこのシリーズで呼ぶと、新しいインデックスに従ってデータが再調整される。この際、インデックスに対する既存の値が無い場合、欠損値が代入される。

In [None]:
obj2 = obj.reindex(['a', 'b', 'c', 'd', 'e'])
obj2

データフレームでは、``reindex``メソッドで行インデックスや列インデックスを変更することができる。シーケンスだけを渡した場合は、行が再インデックス付けされ、引数``columns``を指定することで再インデックス付けすることができる。

In [None]:
frame = pd.DataFrame(np.arange(9).reshape((-1, 3)), index=['a', 'c', 'd'], columns=['Ohio', 'Texas', 'California'])
frame

In [None]:
frame2 = frame.reindex(['a', 'b', 'c', 'd'])
frame2

In [None]:
states = ['Texas', 'Utah', 'California']
frame.reindex(columns=states)

#### 軸から要素を削除する

特定の軸（列や行など）から、1つかそれ以上の要素を削除するためには、削除したい要素を指定するインデックスの配列やリストを用意し``drop``メソッドを使う。

In [None]:
obj = pd.Series(np.arange(5.), index=['a', 'b', 'c', 'd', 'e'])
obj

In [None]:
new_obj = obj.drop('c')
new_obj

In [None]:
obj.drop(['d', 'c'])

データフレームでもインデックスの要素をどちらかの軸から削除することができる。これにも``drop``メソッドを用いる。

In [None]:
data = pd.DataFrame(np.arange(16).reshape((-1, 4)), index=['Ohio', 'Colorado', 'Utah', 'New York'], columns=['one', 'two', 'three', 'four'])
data

In [None]:
data.drop(['Colorado', 'Ohio'])

列から削除する場合は、axis=1と指定してもよい

In [None]:
data.drop('two', axis='columns')

In [None]:
data.drop(['two', 'four'], axis=1)

``drop``のようなシリーズやデータフレームのサイズを変更する関数の多くは、オブジェクトを**インプレースで**（直接書き換えながら）新しいオブジェクトを戻さずに変更することもできる。

In [None]:
obj.drop('c', inplace=True)
obj

###### インデックス参照、選択、フィルタリング

In [None]:
obj = pd.Series(np.arange(4.), index=['a', 'b', 'c', 'd'])
obj

In [None]:
obj['b']

In [None]:
obj[1]

In [3]:
obj[['b', 'a', 'd']]

NameError: name 'obj' is not defined

In [None]:
obj[obj < 2]

ラベルを使ったスライシングは通常のPythonのスライシングとは振る舞いが異なり、終点が含まれる。また、インデックス参照をしてい一部を取り出した上で値を設定すると、取り出した部分が変更される。

In [None]:
obj['b':'c']

In [None]:
obj['b':'c'] = 5
obj

In [None]:
data = pd.DataFrame(np.arange(16).reshape((4,-1)), index=['Ohio', 'Colorado', 'Utah', 'New York'], columns=['one', 'two', 'three', 'four'])
data

In [None]:
data['two']

In [None]:
data[['three', 'one']]

上では[]演算子により列が選択されていたが、スライシングや真偽値の配列を使って取得する行も選択できる。

In [None]:
data[:2]

In [None]:
data[data['three'] > 5]

真偽値を持つデータフレームでのインデックス参照というのもある。

In [None]:
data[data < 5] = 0
data

``loc``と``iloc``によるデータの選択というものもある。``loc``はラベルベースのインデックス参照を明示的に表し、``iloc``はインデックス位置での参照を明示的に行う。

In [None]:
data.loc['Colorado', ['two', 'three']]

同じようなことは``iloc``を使ってもできる。

In [None]:
data.iloc[[1,2], [3, 0, 1]]

``loc``も``iloc``も、前述のようなラベルを使った指定に加えて、スライシングも使うことができる。

In [None]:
data.loc[:'Utah', 'two']

In [None]:
data.iloc[:, :3][data.three > 5]

pandasのオブジェクトに含まれるデータを選択したり再調整する方法はたくさんある。階層型インデックス参照は後に見るとして、簡潔にまとめると次の表のようになる。

|方法           |説明 |
|-------------|-----|
|df[val] |データフレームから列や列のシーケンスを取り出す方法。利便性のための特殊なケースとして、行を抽出するための真偽値の配列、行のスライス、真偽値を持つデータフレーム（同じ形式に基づいて作られたデータフレーム）が使用可能である。|
|df.loc[val]|データフレームの1つ以上の行を、ラベルを指定して選択する。|
|df.loc[:, val]|1つ以上の列を、ラベルを指定して選択する。|
|df.loc[val1, val2]|行、列を、ラベルを指定して選択する。|
|df.iloc[where]|データフレームの1つ以上の行を、整数インデックス位置を指定して選択する。|
|df.iloc[where_i, where_j]|行、列を、整数のインデックス位置を指定して選択する。|
|df.at[label_i, label_j]|行と列のラベルを指定して、1つの値を取得する。|
|df.iat[i, j]|行と列のインデックス位置（整数）を指定して、1つの値を取得する。|
|reindexメソッド|行や列を、ラベルを指定して選択する。|
|get_value, set_valueメソッド|行と列のラベルを指定して、1つの値を取得する。|

#### 整数のインデックス 

整数でインデックス付けされたpandasオブジェクトは、Python組み込みのデータ構造であるリストやタプルとはインデックス付けの方法が異なるため、混乱しやすい。

次はエラーを発生させる。このケースでは、インデックスとして0,1,2を持つが、-1と指定したユーザが期待しているものが、ラベルベースのインデックス参照であるのか、インデックス位置ベースのインデックス参照であるのか推測することが困難であるからである。

In [None]:
ser = pd.Series(np.arange(3.))
ser[-1]

整数でないインデックスを使う場合は、そういった潜在的あいまいさは無い（次の場合、インデックスに整数でなく文字が使われているため、-1と指定してもそれがラベルでのインデックス参照と解釈されることはなく、明らかにインデックス位置を指定していると判断できるためエラーが出ていない）。

一貫性のため、インデックスに整数を使う場合は、データを選択するときには常にインデックス位置での参照になる。正確に扱いたいときには、ラベルベースのインデック参照を明示的に使う``loc``や、インデックス位置での参照を明示的に行う``iloc``を使うとよい。

In [None]:
ser[:1]

In [None]:
ser.loc[:1]

In [None]:
ser.iloc[:1]

#### 算術とデータの整形

オブジェクトを加算した場合、足し合わせるオブジェクトのインデックスのペアのいずれかが異なる場合には、加算結果のオブジェクトのインデックスは、加算前のインデックスのペアの和集合になる。データベースの言葉でいえば、インデックスのペアの外部結合したものと考えるのが近い。

In [None]:
s1 = pd.Series([7.3, -2.5, 3.4, 1.5], index=['a', 'c', 'd', 'e'])
s2 = pd.Series([-2.1, 3.6, -1.5, 4, 3.1], index=['a', 'c', 'e', 'f', 'g'])
s1 + s2

In [None]:
df1 = pd.DataFrame(np.arange(9.).reshape((3, 3)), columns=list('bcd'), index=['Ohio', 'Texas', 'Colorado'])
df2 = pd.DataFrame(np.arange(12.).reshape((4, 3)), columns=list('bde'), index=['Utah', 'Ohio', 'Texas', 'Oregon'])

In [None]:
df1

In [None]:
df2

In [None]:
df1 + df2

In [4]:
df1 = pd.DataFrame(np.arange(12.).reshape((3, 4)), columns=list('abcd'))
df2 = pd.DataFrame(np.arange(20.).reshape((4, 5)), columns=list('abcde'))

NameError: name 'np' is not defined

``df1``の``add``メソッドを使うときに、``df2``と``fill_value``という引数を渡すと次のような結果になる。

In [None]:
df1.add(df2, fill_value=0)

シリーズとデータフレームの算術メソッドについてはいくつかあるが、各メソッドは、``r``で始まる対応するメソッドを持っており、それらはオブジェクトと引数の関係が逆転したものである。例えば次の2つは同じことをしている。

In [None]:
1 / df1

In [None]:
df1.rdiv(1)

#### データフレームとシリーズでの演算 

異なる次元を持つときのNumPyの配列と同じように、データフレームとシリーズの間での算術も定義されている。例えば2次元配列とその一部の行の減算は次のようになる。これは**ブロードキャスト**というものだが、データフレームとシリーズの演算はこれに似ている。

In [None]:
arr = np.arange(12.).reshape((3, 4))
arr

In [None]:
arr[0]

In [None]:
arr - arr[0]

In [None]:
frame = pd.DataFrame(np.arange(12.).reshape((4, 3)), columns=list('bde'), index=['Utah', 'Ohio', 'Texas', 'Oregon'])
series = frame.iloc[0]

In [None]:
frame

In [5]:
series

NameError: name 'series' is not defined

データフレームとシリーズの算術においては、デフォルトでは、シリーズのインデックスとデータフレームの列がマッチングされ、ブロードキャストは行方向に行われる。

In [None]:
frame - series

In [None]:
series2 = pd.Series(range(3), index=['b', 'e', 'f'])
series2

インデックスの値がデータフレームの列やシリーズのインデックスに見つからなかった場合は、両方のオブジェクトは再インデックスづけされ、インデックスの和集合が形成される。

In [None]:
frame + series2

インデックスを行にマッチングさせて、ブロードキャストを列方向に行いたい場合は、算術用のメソッドを使う必要がある。指定する軸の値は、インデックスを**マッチさせたい軸**を示す。次の例ではデータフレームの行インデックス（``axis="index"``または``axis=0``）にマッチさせてブロードキャストをさせている。

In [None]:
series3 = frame['d']
frame

In [None]:
series3

In [None]:
frame.sub(series3, axis='index')

### 関数の適用とマッピング

NumPyのufunc（配列の要素に適用可能なメソッド群）は、pandasのオブジェクトでも機能する。

In [None]:
frame = pd.DataFrame(np.random.randn(4, 3), columns=list('bde'), index=['Utah', 'Ohio', 'Texas', 'Oregon'])
frame

In [None]:
np.abs(frame)

1次元配列に適用可能な関数を行や列に対して適用するというものがある。データフレームの``apply``メソッドでこれを行うことができる。

In [None]:
f = lambda x: x.max() - x.min()
frame.apply(f)

``apply``はデフォルトではデータフレームの各列で一度だけ呼び出されるが、引数に``axis='columns``渡すと、各行に対して一度ずつこの関数が呼ばれる。

In [None]:
frame.apply(f, axis='columns')

多くの一般的な配列に対する集計処理（``sum``や``mean``など）は、データフレームのメソッドとして使うことができる。したがって、これらを行うために``apply``を使う必要はない。

``apply``メソッドに渡す関数は、スカラー値を戻す必要は無い。複数の値を持ったシリーズを戻すこともできる。

In [None]:
def f(x):
    return pd.Series([x.min(), x.max()], index=['min', 'max'])
frame.apply(f)

要素ごとに適用可能なPythonの関数を使うこともできる。これには``applymap``メソッドを用いる。

In [None]:
format = lambda x: '%.2f' % x
frame.applymap(format)

シリーズが要素ごとに関数を適用するためのメソッドとして``map``メソッドがある。

In [6]:
frame['e'].map(format)

NameError: name 'frame' is not defined

### ソートとランク 

行や列のインデックスを辞書順でソートするためには、``sort_index``メソッドを使う。

In [None]:
obj = pd.Series(range(4), index=['d', 'a', 'b', 'c'])
obj.sort_index()

In [None]:
frame = pd.DataFrame(np.arange(8).reshape((2, 4)), index=['three', 'one'], columns=['d', 'a', 'b', 'c'])
frame

In [None]:
frame.sort_index()

In [None]:
frame.sort_index(axis='columns')

データはデフォルトでは昇順でソートされるが、降順にすることもできる。

In [None]:
frame.sort_index(axis=1, ascending=False)

シリーズを値によってソートしたいときには``sort_values``メソッドを使う。

In [None]:
obj = pd.Series([4, 7, -3, 2])
obj.sort_values()

デフォルトでは、欠損値はシリーズの末尾にソートされる。

In [None]:
obj = pd.Series([4, np.nan, 7, np.nan, -3, 2])
obj.sort_values()

データフレームをソートするときには、1つ以上の列をソートキーに指定することができる。このためには、``sort_values``メソッドのオプションに1つ以上の列を渡す。

In [None]:
frame = pd.DataFrame({'b': [4, 7, -3, 2], 'a':[0, 1, 0, 1]})
frame

In [None]:
frame.sort_values(by='b')

複数の列でソートする場合は、列の名前をリストで渡す。

In [7]:
frame.sort_values(by=['a', 'b'])

NameError: name 'frame' is not defined

**ランク**は、配列のデータから妥当な数値をランクとして代入する。データフレームやシリーズの``rank``メソッドがこれを行う。デフォルトでは、タイになったグループは、各グループに平均値を代入してランクを決める（例えば4位のところで4が２つあれば共に4.5になる）。

In [None]:
obj = pd.Series([7, -5, 7, 4, 2, 0, 4])
obj.rank()

タイになったグループは、（平均値ではなく）観測された順番にしたがって代入することもできる。

In [None]:
obj.rank(method='first')

タイになったときの利用可能なルールとして、他には'min', 'max', 'dense'などがある。

データフレームでは、行か列でランクを計算することができる。

In [None]:
frame = pd.DataFrame({'a': [0, 1, 0, 1], 'b': [4.3, 7, -3, 2], 'c':[-2, 5, 8, -2.5]})
frame

In [None]:
frame.rank(axis='columns')

### 重複したラベルを持つ軸のインデックス 

``reindex``のように、pandasの多くの関数ではインデックスのラベルが一意であることを要求するが、インデックスのラベル自体は一意である必要はない。例として重複したインデックスを持つ小さなシリーズを考えてみる。

In [None]:
obj = pd.Series(range(5), index=['a', 'a', 'b', 'b', 'c'])
obj

インデックスの``is_unique``属性で、インデックスのラベルが一意かどうかを確認することができる。

In [None]:
obj.index.is_unique

データの選択結果は、インデックスに重複があるときに振る舞いが変わる主な点である。重複したインデックスがある場合にはシリーズが戻されるが、重複がない場合にはスカラー値が戻される。

In [None]:
obj['a']

In [None]:
obj['c']

## 要約統計量の集計と計算 

In [8]:
df = pd.DataFrame([[1.4, np.nan], [7.1, -4.5], [np.nan, np.nan], [0.75, -1.3]], index=['a', 'b', 'c', 'd'], columns=['one', 'two'])
df

NameError: name 'np' is not defined

In [None]:
df.sum()

In [None]:
df.sum(axis='columns')

行や列のすべてがNAである場合を除いて、NA値は計算から除外される。これは``skipna``オプションを指定することで無効にすることもできる。

In [None]:
df.mean(axis='columns', skipna=False)

``idxmin``や``idxmax``といったメソッドのように、最小や最大の値を持つ場所を示すインデックス値を戻すものもある。累積に分類されるメソッドもある。さらに、集約でも累積でもないものがある。例えば、``describe``メソッドはその一例であり、複数の要約統計量を1回で表示する。

In [None]:
df.idxmax()

In [None]:
df.cumsum()

In [None]:
df.describe()

数値データではない場合は、``describe``メソッドは別の要約統計量を提供する。

In [None]:
obj = pd.Series(['a', 'a', 'b', 'c']*4)
obj.describe()

#### 相関と共分散 

In [None]:
!pip install pandas_datareader

In [None]:
import pandas_datareader.data as web
all_data = {ticker: web.get_data_yahoo(ticker) for ticker in ['AAPL', 'IBM', 'MSFT', 'GOOG']}

price = pd.DataFrame({ticker: data['Adj Close'] for ticker, data in all_data.items()})
volume = pd.DataFrame({ticker: data['Volume'] for ticker, data in all_data.items()})

In [None]:
returns = price.pct_change()
returns.tail()

データフレームの``corr``や``cov``メソッドは、完全な相関と共分散の行列をデータフレーム形式で戻す。

In [9]:
returns.corr()

NameError: name 'returns' is not defined

In [None]:
returns.cov()

#### 一意な値、頻度の確認、所属の確認

In [None]:
obj = pd.Series(['c', 'a', 'd', 'a', 'a', 'b', 'b', 'c', 'c'])

``unique``は、シリーズの中の一意な値を配列として取り出す。

In [None]:
uniques = obj.unique()
uniques

``value_counts``関数は、シリーズに含まれる値の頻度を求める。

In [None]:
obj.value_counts()

``value_counts``メソッドは、pandasのトップレベルのメソッドとしても使うことができ、配列やシーケンスにも使える。

In [None]:
pd.value_counts(obj.values, sort=False)

``isin``メソッドは、ベクトル形式の集合を指定して、その値のいずれかが含まれるかを確認できる。シリーズやデータフレームの列のデータ集合をフィルタリングして、部分集合にするときに便利。

In [None]:
obj

In [None]:
mask = obj.isin(['b', 'c'])
mask

In [None]:
obj[mask]

データフレームの中の関連する複数の列でヒストグラムを表示したいときは次のように行う。

In [None]:
data = pd.DataFrame({'Qu1': [1, 3, 4, 3, 4], 'Qu2': [2, 3, 1, 2, 3], 'Qu3': [1, 5, 2, 4, 4]})
data

In [None]:
result = data.apply(pd.value_counts).fillna(0)
result

## 6章 データの読み込み、書き出しとファイル形式

pandasの特徴は、テーブル形式のデータをデータフレームオブジェクトとして読み込む関数がたくさんあることである：

|関数           |説明 |
|-------------|-----|
|``read_csv`` |ファイルやURL、その他のファイル系のオブジェクトから、区切り文字で区切られたデータを読み込む。デフォルトの区切り文字はコンマ。|
|``read_table``|ファイルやURL,その他のファイル系のオブジェクトから、区切り文字で区切られたデータを読み込む。デフォルトの区切り文字はタブ（``'\t'``）。|
|``read_fwf``|列の幅が固定されている形式のデータ（つまり区切り文字のないデータ）を読み込む。|
|``read_clipboard``|``read_table``の派生版で、クリップボードからデータを読み込む。ウェブページをテーブルに変換するのに便利。|
|``read_excel``|ExcelのXLSやXLSXファイルからテーブル形式のデータを読み込む。|
|``read_hdf``|pandasを用いて書き出したHDF5ファイルを読み込む。|
|``read_html``|指定されたHTML文書に含まれているあらゆるテーブルを読み込む。|
|``read_json``|JSON(JavaScript Object Notation)の文字列表現からデータを読み込む。|
|``read_msgpack``|MessagePakバイナリ形式を用いて符号化されたpandasデータを読み込む。|
|``read_pickle``|Pythonのpickle形式で書き出された任意のオブジェクトを読み込む。|
|``read_sas``|SASシステム独自の保存形式のいずれかのバージョンで書き出されたSASデータセットを読み込む。|
|``read_sql``|SQLクエリを（SQLAlchemyを用いて）発行した結果をpandasデータフレームとして読み込む。|
|``read_stata``|Stataファイル形式からデータセットを読み込む。|
|``read_feather``|Featherバイナリファイル形式を読み込む。|

In [10]:
import os
# https://stackoverflow.com/questions/55240330/how-to-read-csv-file-from-github-using-pandas

このファイルはコンマ区切りなので、``read_csv``で読み込んでデータフレームに変換できる。

In [11]:
df = pd.read_csv('https://raw.githubusercontent.com/wesm/pydata-book/2nd-edition/examples/ex1.csv')
df

URLError: <urlopen error [Errno 11001] getaddrinfo failed>

``read_table``を使って読むことも可能である。その場合は区切り文字の指定が必要となる。

In [None]:
pd.read_table('https://raw.githubusercontent.com/wesm/pydata-book/2nd-edition/examples/ex1.csv', sep=',')

ファイルにヘッダ行があるとは限らない。次のようなファイルを考えてみる。
次のファイルを読むには、いくつかのオプションが使える。pandasにデフォルトの列名を代入してもらうこともできるし、自分で列名を指定することもできる。

In [None]:
pd.read_csv('https://raw.githubusercontent.com/wesm/pydata-book/2nd-edition/examples/ex2.csv', header=None)

In [None]:
pd.read_csv('https://raw.githubusercontent.com/wesm/pydata-book/2nd-edition/examples/ex2.csv', names=['a', 'b', 'c', 'd', 'message'])

``message``列を、戻り値として得られるデータフレームのインデックスにしたい場合を考える。``index_col``という引数に対して、列名の配列（``names``）での``message``のインデックス番号4を指定するか、あるいは``"message"``という列名を指定するだけである。

In [None]:
names = ['a', 'b', 'c', 'd', 'message']
pd.read_csv('https://raw.githubusercontent.com/wesm/pydata-book/2nd-edition/examples/ex2.csv', names=names, index_col='message')

複数の列で構成される階層型インデックスを作りたい場合は、列の数か名前のリストを与える。

In [None]:
parsed = pd.read_csv('https://raw.githubusercontent.com/wesm/pydata-book/2nd-edition/examples/csv_mindex.csv', index_col=['key1', 'key2'])
parsed

テーブル形式のデータに、決まった区切り文字がない場合もある。例えば、フィールドを分割するのに、空白文字（ホワイトスペース）やそれ以外の何らかのパターンが使われている場合である。次のようなテキストファイルを考えてみる。

データに手で変更を加えることもできるが、この場合、フィールドの区切りは何文字かの空白文字となっている。このような場合は、``read_table``に正規表現を与えて区切り文字を指定できる。今回の場合、区切りは``\s+``という正規表現で表すことができるため、次のように処理できる。

In [None]:
result = pd.read_table('https://raw.githubusercontent.com/wesm/pydata-book/2nd-edition/examples/ex3.txt', sep='\s+')
result

ヘッダ行に含まれる列数がデータ行の列数よりも1つ少なくなっているため、``read_table``は、これは1つ目の列がデータフレームのインデックスになっている特殊な場合なのだろうと推測してくれる。

``read_table``などのこういったパーサ関数には、実際に存在するさまざまな種類の例外的なファイル形式を取り扱うのを手助けしてくれる、追加の引数がたくさんある（後述の表参照）。例えば、次のようなファイルの1行目、3行目、4行目は``skiprows``を使うと読み飛ばせる。

In [None]:
pd.read_csv('https://raw.githubusercontent.com/wesm/pydata-book/2nd-edition/examples/ex4.csv', skiprows=[0, 2, 3])

欠測値の取り扱いは、ファイルを読み込む上で重要な部分であり、しばしばファイルごとに少しずつ異なる部分でもある。欠測値は通常、値が存在しない（空文字列）か、あるいは、何らかの**標識**となる値で印を付けられている。デフォルトでは、pandasは``NA``や``NULL``などの一般によく使われる標識を使う。

In [None]:
result = pd.read_csv('https://raw.githubusercontent.com/wesm/pydata-book/2nd-edition/examples/ex5.csv')
result

In [None]:
pd.isnull(result)

``na_values``オプションに、欠測値とみなす文字列のリストかセットを指定できる。

In [None]:
result = pd.read_csv('https://raw.githubusercontent.com/wesm/pydata-book/2nd-edition/examples/ex5.csv', na_values=['foo', 'two'])
result

関数``read_csv``と``read_table``によく与える引数：

|引数           |説明 |
|-------------|-----|
|``path`` |ファイルシステム上の位置やURL、その他のファイル系のオブジェクトを示す文字列。|
|``sep``または``delimiter``|各行をフィールドに分割するのに用いる文字列あるいは正規表現。|
|``header``|列名として使う行の番号。デフォルトでは0（最初の行）。ヘッダ行が無い場合は``None``を指定。|
|``index_col``|戻り値として得られるオブジェクトにおいて、行のインデックスとして使われる列の番号か名前。単一の名前・番号か、階層型インデックスの場合は名前・番号のリスト。|
|``names``|戻り値として得られるオブジェクトの列名のリスト。``header=None``とともに使用する。|
|``skiprows``|ファイルの先頭で無視する行数か、読み飛ばす行番号（最初の行は0）。|
|``na_values``|欠損値で置き換える一連の値。|
|``comment``|この引数に指定した文字または文字列以降を各行からコメントとして切り離す。|
|``parse_dates``|データを日時として読み込もうとする。デフォルトでは``False``で、``True``の場合はすべての列で読み込もうとする。すべての列に適用したくない場合は、読み込む列の番号か名前を指定する。リストの要素がタプルやリストの場合、それらの複数の列を結合して日付として読み込む（例えば、日付と時刻が2つの列に分かれている場合に使用）。|
|``keep_date_col``|複数の列を結合して日付として読み込む場合に、結合に用いられた列を残す。デフォルトでは``False``。|
|``converters``|列番号を表す名前を、関数にマッピングするディクショナリ（例えば``{'foo': f}``を指定すると、列``'foo'``のすべての値に対して関数``f``を適用できる）。|
|``dayfirst``|複数の解釈ができる可能性のある日付を読み込む際に、ヨーロッパで標準的な、日にちが最初にくる形式として取り扱う（例：7/6/2012→2012年6月7日）。デフォルトでは``False``。|
|``date_parser``|日付を読み込むのに用いる関数。|
|``nrows``|ファイル先頭で読み込む行数。|
|``iterator``|ファイルを部分的に読み込むための``TextFileReader``オブジェクトを戻り値とする。|
|``chunksize``|イテレーションに用いるファイル内のブロックのサイズ。|
|``skip_footer``|ファイル末尾で無視する行数。|
|``verbose``|パーサの出力するさまざまな情報を表示する。例えば非数値の例に見つかった欠損値の数など。|
|``encoding``|Unicodeとして用いる文字コード（例えば、UTF-8でエンコードされたテキストの場合は'utf-8'を指定）。|
|``squeeze``|読み込まれたデータに1つの列しか含まれていない場合、シリーズを戻り値とする。|
|``thousands``|3桁区切りのセパレータ（例えば','や'.'）。|

非常に巨大なファイルを処理する場合や、巨大ファイルを正しく処理するのにどのような引数を与える必要があるか調べる場合には、まずは1つのファイルのごく一部だけを読み込んだり、ファイル内の小さなブロックごとに処理を繰り返したりしたいことがある。
巨大なファイルを表示する前に、pandasの表示の設定をもう少しコンパクトにする。

In [None]:
pd.options.display.max_rows = 10

In [None]:
result = pd.read_csv('https://raw.githubusercontent.com/wesm/pydata-book/2nd-edition/examples/ex6.csv')
#result

このCSVファイル全体を読み込まずに数行だけ読み取りたい場合は、行数を``nrows``で指定する。

In [12]:
pd.read_csv('https://raw.githubusercontent.com/wesm/pydata-book/2nd-edition/examples/ex6.csv', nrows=5)

URLError: <urlopen error [Errno 11001] getaddrinfo failed>

ファイルを少しずつ読み込みたい場合は、一度に読み込む行数を``chunksize``で指定する。

In [None]:
chunker = pd.read_csv('https://raw.githubusercontent.com/wesm/pydata-book/2nd-edition/examples/ex6.csv', chunksize=1000)
chunker

``read_csv``から戻される``TextFileReader``オブジェクトを使うと、``chunksize``で定められた行数ずつファイル内からブロックを読み込んで処理を繰り返せる。例えば次のように、``ex6.csv``に対して繰り返し処理を行い、``"key"``列に含まれる値ごとに個数を集計できる。

In [None]:
chunker = pd.read_csv('https://raw.githubusercontent.com/wesm/pydata-book/2nd-edition/examples/ex6.csv', chunksize=1000)

tot = pd.Series([])
for piece in chunker:
    tot = tot.add(piece['key'].value_counts(), fill_value=0)

tot = tot.sort_values(ascending=False)
tot[:10]

### 6.1.2 テキスト形式でのデータの書き出し

データは区切り文字で区切られた形式でのエクスポートもできる。先ほど読み取ったCSVファイルの1つを例に使う。

In [None]:
data = pd.read_csv('https://raw.githubusercontent.com/wesm/pydata-book/2nd-edition/examples/ex5.csv')
data

データフレームの``to_csv``メソッドを使うと、データをコンマ区切りのファイルに書き出せる。

In [None]:
# data.to_csv('to_csv_out.csv')

もちろん、他の区切り文字も使える（以下では``sys.stdout``に書き出すため、テキストの出力がコンソールに表示される）。

In [None]:
import sys
data.to_csv(sys.stdout, sep='|')

欠損値は出力では空文字列になるが、別の標識で示した方が良いときもあるだろう。

In [None]:
data.to_csv(sys.stdout, na_rep='NULL')

オプションで何も指定されていなければ、行と列の両方のラベルが書き出されるが、どちらも無効化できる。

In [None]:
data.to_csv(sys.stdout, index=False, header=False)

### 6.1.3 区切り文字で区切られた形式を操作する

テーブル形式のデータの大半は``pandas.read_table``のような関数を用いてディスクから読み込めるが、場合によっては手での処理が多少必要になる。``read_table``では取り扱えないような一部の行の形式が異なるファイルを受け取ることは珍しくない。

区切り文字が1文字のどんなファイルに対しても、Python組み込みのcsvモジュールを使える。これを使うには、ファイルやファイル系のオブジェクトをオープンして``csv.reader``に渡す。

In [None]:
import csv
data = pd.read_csv('https://raw.githubusercontent.com/wesm/pydata-book/2nd-edition/examples/ex7.csv')
data.to_csv('ex7.csv', index=False)
f = open('ex7.csv')

reader = csv.reader(f)

``csv.reader``から戻された``reader``に対して、ファイルの各行を扱うように繰り返し処理を行うと、引用符が全て取り除かれて各行の値のタプルが戻される。

In [None]:
for line in reader:
    print(line)
f.close()

これらのタプルに対し必要とするデータ形式でデータを出力するためにどんな操作が必要かは人によるが、ここではまずファイルの各行をリストとして読み込む。次にこれらの行をヘッダ行とデータ行に分割する。その上で、ディクショナリ内法表記と``zip(*values)``という式を用いて、ヘッダ行をキーとしたデータ列のディクショナリを作成する。

In [None]:
with open('ex7.csv') as f:
    lines = list(csv.reader(f))
header, values = lines[0], lines[1:]
data_dict = {h: v for h, v in zip(header, zip(*values))}
data_dict

csvファイルにはたくさんの異なる方言がある。区切り文字や行終端記号などに異なるものを用いる場合は、新しい形式を``csv.Dialect``のサブクラスとして簡単に定義できる。

In [None]:
class my_dialect(csv.Dialect):
    lineterminator = '\n'
    delimiter = ';'
    quotechar = '"'
    quoting = csv.QUOTE_MINIMAL

f = open('ex7.csv')
reader = csv.reader(f, dialect=my_dialect)
f.close()

新たなサブクラスを定義するのではなく、CSVの方言のそれぞれのパラメータを``csv.reader``にキーワードとして渡しても、同じことを実現できる。

In [13]:
with open('ex7.csv') as f:
    reader = csv.reader(f, delimiter='|')

NameError: name 'csv' is not defined

しかし、区切り文字がもっと複雑なファイルや、固定の複数文字を区切り文字として用いているファイルについては、``csv``モジュールは使えない。このような場合は、行の分割や不要な文字の除去をなどには、文字列のメソッド``split``や、正規表現のメソッド``re.split``を使用する必要がある。

### 6.1.4 JSONデータ

JSONはウェブブラウザと他のアプリケーションの間でHTTPリクエストでデータをやり取りする上で、標準的なデータ形式の1つとなった。CSVのようなテーブル形式のテキストデータと比較すると、JSONははるかに自由度が高くフリーフォームなデータ形式である。JSONのデータは例えば次のようになる（次では3つの二重引用符でくくられた部分のみがJSONデータであり、そのJSONデータを文字列として``obj``という変数に代入するというコード）。

In [None]:
obj = """
{"name": "Wes",
 "places_lived": ["United States", "Spain", "Germany"],
 "pet": null,
 "siblings": [{"name": "Scott", "age": 30, "pets": ["Zeus", "Zuko"]},
              {"name": "Katie", "age": 38,
               "pets": ["Sixes", "Stache", "Cisco"]}]
}
"""

JSONはnull値が``null``である点や、その他の微妙な差異（リストの最終要素の後ろにコンマを入れられない、など）を除けばほぼPythonコードそのものである。オブジェクトのキーはすべて文字列である必要がある。JSONデータを読み書きするためのPythonライブラリはいくつかあるが、ここでは、Python標準ライブラリに含まれている``json``を使う。JSONの文字列をPython形式に変換するには、``json.loads``を使う。

In [None]:
import json
result = json.loads(obj)
result

``json.dumps``を使うと、逆に、PythonオブジェクトをJSONに変換できる。

In [None]:
asjson = json.dumps(result)

JSONオブジェクトやオブジェクトのリストを、どのようにしてデータフレームやその他の分析に適したデータ構造に変換するかは、その人次第である。便利なのは、ディクショナリ（JSONオブジェクトを読み取ったもの）のリストをデータフレームのコンストラクタに渡して、一部のデータフィールドを選択するという方法である（``result['siblings']``の各要素は、``'age'``、``'name'``、``'pets'``とうい3つのキーがあるが、``pd.DataFrame``の``columns``引数で``'name'``と``'age'``だけを使ってデータフレームを作るよう指定している）。

In [None]:
siblings = pd.DataFrame(result['siblings'], columns=['name', 'age'])
siblings

別の方法として、``pandas.read_json``を使うと、特定の形のデータが連なったJSONデータセットをシリーズやデータフレームへと自動的に変換することができる。``pandas.read_json``のデフォルトオプションでは、JSON配列内の各オブジェクトがテーブルの行になると仮定される。

In [None]:
data = pd.read_json('https://raw.githubusercontent.com/wesm/pydata-book/2nd-edition/examples/example.json')
data

pandasからJSON形式でデータをエクスポートする必要がある場合、1つの方法としては、シリーズやデータフレームの``to_json``メソッドが使える。

In [None]:
print(data.to_json())

In [None]:
print(data.to_json(orient='records'))

### 6.1.5 XMLとHTML: ウェブスクレイピング

In [None]:
tables = pd.read_html('https://raw.githubusercontent.com/wesm/pydata-book/2nd-edition/examples/fdic_failed_bank_list.html')
len(tables)

#### 6.1.5.1 lxml.objectifyを使ったXMLの読み込み

In [None]:
from lxml import objectify

path = 

## 6.2 バイナリデータ形式 

バイナリ形式で効率よくデータを書き出す（いわゆる**シリアライズ**）最も簡単な方法の1つは、Python組み込みの``pickle``によるシリアライズを使うことである。pandasオブジェクトはすべて、データをpickle形式でディスクに書き出す``to_pickle``メソッドを持っている。

注意として、``pickle``が推奨されるのは、短期間の保存形式としてのみである。これは、データ形式が長期間安定しているという保証をしにくいという問題があるからである。つまり、今日pickle化したオブジェクトが、ライブラリの将来のバージョンでunpickleできない可能性がある。このような工法互換性は、これまで可能な限り保持されてきたが、将来のある時点でpickle形式を壊す必要が出るかもしれない。

In [None]:
frame = pd.read_csv('https://raw.githubusercontent.com/wesm/pydata-book/2nd-edition/examples/ex1.csv')

In [14]:
frame

NameError: name 'frame' is not defined

In [None]:
frame.to_pickle('frame_pickle')

「pickle化」されてファイルに書き出されたオブジェクトはどれでも、組み込みのpickleを用いて直接読み込める。あるいは、もっと便利な方法としては、``pandas.read_pickle``を使ってもよい。

In [None]:
pd.read_pickle('frame_pickle')

pandasでは、pickleの他にも、HDF5とMessagePackという2つのバイナリデータ形式のサポートが組み込まれている。その他にも、**bcolz**(https://bcolz.blosc.org/) や**Feather**(https://github.com/wesm/feather) などがある。自分でさまざまなファイル形式を試しに使ってみて、それらへの速度や、自分の分析への適性を確かめるのが良い。

### 6.2.1 HDF5形式の利用

HDF5 (Hierarchical Data Format 5)は、大量の科学的な配列データを保存するための、評判のよいファイル形式である。HDF5はCで書かれたライブラリだが、Java, Julia, MATLAB, Pythonなど多数の言語向けのインターフェースがある。各HDF5ファイルには、複数のデータセットや、それらのデータセットの情報を収めるメタデータの保存が可能である。もっと単純なデータ形式と比べると、HDF5はさまざまな圧縮モードでのオンザフライ（中間ファイルを保存しない）の圧縮をサポートしており、繰り返しパターンを持ったデータをより効率よく保存できるようになっている。HDF5では巨大な配列のごく一部を効率よく読み書きできるので、メモリに収まらない非常に巨大なデータセットに使うのは良い選択である。

PyTablesライブラリとh5pyライブラリのどちらかを使えば、HDF5ファイルへの直接アクセスは可能である。しかしpandasでは、シリーズやデータフレームのオブジェクトを簡単に書き出すための高レベルなインターフェースが提供されている。``HDFStore``クラスはディクショナリのように扱えるインターフェースであり、低レベルな詳細部分は内部的に処理してくれる。

In [15]:
frame = pd.DataFrame({'a': np.random.randn(100)})
store = pd.HDFStore('mydata.h5')
store['obj1'] = frame
store['obj1_col'] = frame['a']
store

NameError: name 'np' is not defined

HDF5ファイルに含まれるオブジェクトは、同様にディクショナリのようなAPIを用いて取り出せる。

In [16]:
store['obj1'].head(5)

UsageError: Unknown variable '['obj1'].head(5)'


HDFStoreでは、``'fixed'``と``'table'``の2つの書き出し形式がサポートされている。通常、``'table'``の方が低速であるが、特殊な文法を用いたクエリ操作をサポートしているという便利な点もある。

次でのputは、``store['obj2'] = frame``というコードと同じことを明示的に行うメソッドである。``put``を用いれば、ディクショナリのようなAPIでは渡せない、保存形式（``'format'``）のようなオプションを渡すことができる。

In [None]:
store.put('obj2', frame, format='table')
store['obj2'].head(5)

In [None]:
store.select('obj2', where=['index >= 10 and index <= 15'])

In [None]:
store.close()

``pandas.read_hdf``関数を用いると、これらのツールを簡単に使うことができる（ファイル``'mydata.h5'``の中から、``'obj3'``をキー（パス）とするデータを読み取り、``where``で指定した条件の行だけ抽出するという一連の操作を1つの関数で行っている）。

In [None]:
frame.to_hdf('mydata.h5', 'obj3', format='table')
pd.read_hdf('mydata.h5', 'obj3', where=['index < 5'])

In [None]:
store.close()

Amazon S3やHDFS(Hadoop Distributed File System: Hadoop上で利用される分散ファイルシステム)などのリモートのサーバ上に保存されたデータを処理する場合は分散ストレージ向けに設計されたApache Parquet (https://parquet.apache.org) など、他のバイナリ形式を用いる方が適しているかもしれない。ただ、Parquetなど他の保存形式のPythonサポートはまだ開発段階にある。

### 6.2.2 Microsoft Excelファイルの読み込み

pandasにはExcel 2003（以降）のファイルに保存されたテーブルデータの読み込みもサポートしている。読み込みは、``ExcelFile``クラスか``pandas.read_excel``関数のいずれか一方を用いて行う。これらのツールは、XLSファイルを読むのに``xlrd``、XLSXファイルを読むのに``openpyxl``というアドオンパッケージを内部で使用しているので、使う場合はpipやcondaを使ってこれらのアドオンパッケージを別途インストールする必要がある。

In [None]:
xlsx = pd.ExcelFile('examples/ex1.xlsx')

## 6.3 Web APIを用いたデータの取得 

多くのウェブサイトには、JSONなどの形式でデータフィードを提供している公開APIがある。このようなAPIにPythonからアクセスするには多くの方法がある。その中でも簡単に使えるお勧めの方法は、``requests``パッケージ （http://docs.python-requests.org） を使うことである。

ここではGitHub上のpandasのGitHub Issuesから最新の課題30個を取得するために、``requests``ライブラリをアドオンとして用いて、次のようなHTTPリクエスト``GET``を送信する。

In [None]:
import requests
url = 'https://api.github.com/repos/pandas-dev/pandas/issues'
resp = requests.get(url)
resp

Responseオブジェクトの``json``メソッドからは、JSONから読み出されたネイティブのPythonオブジェクトを含むディクショナリが戻される。

In [None]:
data = resp.json()
data[0]['title']

data内の各要素は、GitHub上のIssuesのページに含まれている（コメント以外の）すべてのデータを含んだディクショナリである。``data``を直接データフレームのコンストラクタに渡して、取り出したいフィールドを指定すれば、データフレームが得られる。

In [None]:
issues = pd.DataFrame(data, columns=['number', 'title', 'labels', 'state'])
issues

### 6.4 データベースからのデータの取得

ビジネスシーンでは、大半のデータは、テキストファイルやExcelファイルには保存されていないはずである。SQLベースのリレーショナルデータベース（SQL Server, PostgreSQL, MySQLなど）が広く使われており、それ以外にも、多くの代替となるデータベースの人気もかなり出てきた。どのデータベースを使うかは、通常、アプリケーションの要求するパフォーマンス、データ完全性、スケーラビリティによって決められる。

SQLからデータを読み込んでデータフレームに入れるのはかなり直感的な処理であり、pandasにはこの処理を簡単にしてくれる関数がいくつかある。読み込みの例を説明するために、まずはPython組み込みの`sqlite3`ドライバを用いて、SQLiteデータベースを作成する。

In [None]:
import sqlite3

In [None]:
query = """
CREATE TABLE test
(a VARCHAR(20), b VARCHAR(20), c REAL, d INTEGER);
"""
con = sqlite3.connect('mydata.sqlite')
con.execute(query)
con.commit()

データベースを作成したので、次に数行のデータを挿入する。

In [None]:
data = [('Atlanta', 'Georgia', 1.25, 6), ('Tallahassee', 'Florida', 2.6, 3), ('Sacramento', 'California', 1.7, 5)]
stmt = "INSERT INTO test VALUES(?, ?, ?, ?)"
con.executemany(stmt, data)
con.commit()

データベースの準備ができたため読み込む。PythonのSQLドライバの大半（PyODBC, psycopg2, MySQLdb, pymssqlなど）は、テーブルのデータを選択したときにタプルのリストを戻す。

In [None]:
cursor = con.execute('select * from test')
rows = cursor.fetchall()
rows

このタプルのリストをデータフレームのコンストラクタに渡してもよいが、その場合は列名も一緒に渡す必要がある。列名はカーソルの``description``属性に含まれている。

In [None]:
cursor.description

In [None]:
pd.DataFrame(rows, columns=[x[0] for x in cursor.description])

これはかなり面倒な処理であるため、データベースをクエリするときに毎回繰り返すのは嫌なはずである。SQLAlchemyプロジェクト （http://www.sqlalchemy.org/） は、SQLデータベース間によくある差異の多くを抽象化して取り除いてくれる、人気のあるPython用のSQLツールキットを提供している。このSQLAlchemyの汎用的なデータベース接続を通じて簡単にデータを読み出せる、``read_sql``という関数がpandasにはある。以下では、先ほどと同じSQLiteデータベースにSQLAlchemyを用いて接続し、先ほど作成したテーブルからデータを読み込んでみる。

In [None]:
import sqlalchemy as sqla
db  =sqla.create_engine('sqlite:///mydata.sqlite')
pd.read_sql('select * from test', db)

# 7章 データのクリーニングと前処理

データ分析やモデリングを行う過程で、かなりの時間がデータの前処理に使われる。データの前処理とは、読み込みやクリーニング、変形、整形といった作業のことであり、分析者の時間の80%以上を占めると言われることもある。その理由としては、扱いたいデータがファイルやデータベースに保存されていても、行いたい作業にとって適切な形式で保存されていないことがあるからである。そのような場合に多くの分析者は、汎用的なプログラミング言語を用いて、データを別の形式に変換するためのアドホックな処理を行うという対応をとる。ここで使われるプログラミング言語としては、PythonやPerl, R, Java, あるいはUnixのテキスト処理ツールであるsedやawkなどがある。幸いpandas本体やpandasから使えるPython組み込みの機能では、高度で柔軟性も高く、高速なツールセットが提供されているため、それらを用いてデータを適切な形に変換する作業ができる。

## 7.1 欠損値の取り扱い

欠測値は、さまざまなデータ分析事例でよく発生するテーマであるが、その欠測値の取り扱いをできる限り面倒臭くないようにする、というのが、pandasが目指す目的の1つである。例えば、デフォルトでは、pandasオブジェクトの記述統計量の算出時にはすべての欠測値が除外される。数値データについては、pandasでは欠測値の表現として``NaN``（非数値、Not a Number）を使う。この値のことを簡単に欠測値を見つけるための**標識**と呼ぶ。

In [None]:
string_data = pd.Series(['aardvark', 'artichoke', np.nan, 'avocado'])
string_data

In [None]:
string_data.isnull()

R言語での慣例に倣って、pandasでは欠測値をNAと呼んでいる。NAは利用不可（**not available**）の意味である。統計アプリケーションにおいてNAというデータは、存在しないデータを指す場合と、存在するが観測できなかったデータ（例えば収集過程で問題が発生したデータなど）を指す場合がある。

Python組み込みの値``None``がオブジェクトの配列に含まれている場合も、欠損値として扱われる。

In [None]:
string_data[0] = None
string_data.isnull()

欠測値の取り扱いに関する関数のうちいくつかは次の表にまとめられる：

|メソッド|説明|
|-------------|-----|
|``dropna``|指定した軸について、その軸のラベルの値に欠測値が含まれる場合はラベルを削除する。含まれる欠測値の数がいくつまでなら削除しないか、閾値で指定することもできる。|
|``fillna``|欠測値を指定した値で穴埋めする。または、``'ffill'``や``'bfill'``などの指定した方法で穴埋めする。|
|``isnull``|各値が欠測値（NA）であるかどうかを示す一連の真偽値を戻す。|
|``notnull``|``isnull``の反対の動作をする。|

### 7.1.1 欠損値を削除する

欠測値を削除する方法はいくつかある。``pandas.isnull``と真偽値の配列を用いて手動で削除するという方法も常に選択肢の1つではあるが、``dropna``を使う方法が便利である。シリーズに対して``dropna``を用いると、欠測値でないデータとそのインデックスのみを持ったシリーズが戻される。

In [None]:
from numpy import nan as NA

In [None]:
data = pd.Series([1, NA, 3.5, NA, 7])
data.dropna()

これは次の方法と等価である。

In [None]:
data[data.notnull()]

データフレームオブジェクトの場合は、少し複雑になる。この場合、全てのデータが欠測値である行か列を削除したいか、欠測値を1つでも含む行か列を削除したいかのどちらかである。``dropna``メソッドはデフォルトでは、欠測値を1つでも含む行をすべて削除する。

In [None]:
data = pd.DataFrame([[1., 6.5, 3.], [1., NA, NA], [NA, NA, NA], [NA, 6.5, 3.]])
cleaned = data.dropna()
data

In [None]:
cleaned

``how='all``を指定すると、すべてのデータが欠測値である行のみが削除される。

In [None]:
data.dropna(how='all')

このメソッドで、行でなく列を削除する場合には、``axis=1``を指定する。

In [None]:
data[4] = NA
data

In [None]:
data.dropna(axis=1, how='all')

データフレームの行を除外したいケースは時系列データを扱うときによく起きる。一定数の観測値が含まれる行だけを保持したいケースを考えてみる。この一定数を指定するときには引数``thresh``を指定する。

In [None]:
df = pd.DataFrame(np.random.randn(7, 3))
df.iloc[:4, 1] = NA
df.iloc[:2, 2] = NA
df

In [None]:
df.dropna()

In [None]:
# NaNの数<2の行だけ残す
df.dropna(thresh=2)

### 7.1.2 欠損値を穴埋めする 

欠測値を削除する（したがって、欠測値に紐付くその他の情報があっても捨ててしまうことになる）のではなく、欠測値という「穴」を何らかの方法で埋めたい場合もある。大抵の場合、その役目を果たしてくれるのが``fillna``メソッドである。

In [None]:
df.fillna(0)

``fillna``メソッドにディクショナリを与えると、列ごとに異なる値で埋めることができる。

In [None]:
df.fillna({1: 0.5, 2: 0})

``fillna``メソッドはデフォルトでは新しいオブジェクトを戻すが、既存のオブジェクトを直接変更することも可能である。

In [None]:
_ = df.fillna(0, inplace=True)
df

再インデックス付けのときと同じ穴埋め方法が``fillna``メソッドでも使える。

In [None]:
df = pd.DataFrame(np.random.randn(6, 3))
df.iloc[2:, 1] = NA
df.iloc[4:, 2] = NA
df

In [None]:
df.fillna(method='ffill')

In [None]:
df.fillna(method='ffill', limit=2)

少し工夫すると、``fillna``を用いて、他にもさまざま埋め方ができる。例えば、シリーズの平均値や中央値で穴を埋めてもよい。

In [None]:
data = pd.Series([1., NA, 3.5, NA, 7])
data.fillna(data.mean())

## 7.2 データの変形 

### 7.2.1 重複の除去

1つのデータフレーム内に重複した行が含まれることがある。データフレームの``duplicated``メソッドは、各行が重複しているか否か（同じ値を持つ行が前にもあるか否か）を真偽値のシリーズとして戻す。

In [None]:
data = pd.DataFrame({'k1': ['one', 'two'] * 3 + ['two'], 'k2': [1, 1, 2, 3, 3, 4, 4]})
data

In [None]:
data.duplicated()

関連するメソッドに``drop_duplicates``がある。このメソッドは重複を削除し、先ほどの``duplicated``の結果が``False``の要素のみを持つデータフレーム戻す。

In [None]:
data.drop_duplicates()

これらのメソッドはデフォルトではすべての列が同じ値の場合に重複と判定するが、重複の検出対象を一部の列に限定するよう指定することも可能である。例えば、先ほどのデータに列を追加した上で、``'k1'``列のみに基づいて重複を判定し、削除するようにしてみる。

In [None]:
data['v1'] = range(7)
data.drop_duplicates(['k1'])

``duplicated``メソッドも``drop_duplicates``メソッドも、デフォルトでは、重複が見つかった場合に最初の値を残す。``keep='last'``と指定すると、最後の値を残すよう処理を変更できる。

In [None]:
data.drop_duplicates(['k1', 'k2'], keep='last')

### 7.2.2 関数やマッピングを用いたデータの変換 

さまざまなデータセットを扱っていると、配列やシリーズ、データフレーム内の列の値に基づいて変更を行いたいことがある。例えば、さまざまな種類の肉に関する情報をまとめた、次のような仮想のデータを考えてみる。

In [None]:
data = pd.DataFrame({'food': ['bacon', 'pulled pork', 'bacon', 
                              'Pastrami', 'corned beef', 'Bacon', 
                              'pastrami', 'honey ham', 'nova lox'], 
                     'ounces': [4, 3, 12, 6, 7.5, 8, 3, 5, 6]})
data

それぞれの食材が得られた動物の種類を示す列を追加したい場合を考える。そのために、それぞれの肉の種類から動物の種類にマッピングするデータをディクショナリとして書き出す。

In [None]:
meat_to_animal = {
    'bacon': 'pig',
    'pulled pork': 'pig',
    'pastrami': 'cow',
    'corned beef': 'cow',
    'honey ham': 'pig',
    'nova lox': 'salmon'
}

シリーズの``map``メソッドには、マッピングを定義した関数オブジェクトかディクショナリ系オブジェクトを渡すことができる。次はこの後者にあたるが、肉の種類（``food``列）として先頭の文字をシリーズの``str.lower``メソッドを用いて小文字に統一した上で、マッピングを適用する。

In [None]:
lowercased = data['food'].str.lower()
lowercased

In [None]:
data['animal'] = lowercased.map(meat_to_animal)
data

これと同じことをシリーズの``map``メソッドに関数を渡して行う場合は、次のようにする：

In [None]:
data['food'].map(lambda x: meat_to_animal[x.lower()])

### 7.2.3 値の置き換え 

``fillna``や``map``メソッドよりもシンプルで柔軟性が高いのは、``replace``を使う方法である。例えば次のようなシリーズを考えてみる。

In [None]:
data = pd.Series([1., -999, 2., -999, -1000, 3.])
data

-999という値はおそらく欠測値を表すだろうと推測できる。これらの値を、pandasが欠測値と理解できるNAに置き換える。``replace``メソッドを用いると、``inplace=True``を渡さない限りは置き換えた新しいシリーズが戻される。

In [None]:
data.replace(-999, np.nan)

複数の値を同時に置き換えたい場合は、第1引数にリストを渡した上で、代わりに入れる値を第2引数で指定する。

In [None]:
data.replace([-999, -1000], np.nan)

置き換えたい値ごとに代わりに入れる値が異なる場合は、第2引数の置き換え後の値もリストで指定する。

In [None]:
data.replace([-999, -1000], [np.nan, 0])

もっとわかりやすくするため、置き換え前後の値をディクショナリで指定することも可能である。

In [None]:
data.replace({-999: np.nan, -1000: 0})

### 7.2.4 軸のインデックスの名前を変更する

シリーズ内の各値だけでなく軸のラベルも変更できる。新たなデータ構造を作成することなく、軸を直接変更することも可能である。

In [None]:
data = pd.DataFrame(np.arange(12).reshape((3, 4)), index=['Ohio', 'Colorado', 'New York'], columns=['one', 'two', 'three', 'four'])

シリーズと同様に、軸のインデックスにも``map``メソッドがあり、新たな軸のオブジェクトを生成できる。

In [None]:
transform = lambda x: x[:4].upper()
data.index.map(transform)

この変換結果を``index``属性に代入すれば、元のデータフレームオブジェクトのインデックスを直接変更できる。

data.index = data.index.map(transform)
data

元のデータセットを変更せずに、返還後の軸を持つデータセットを別に作成したい場合には、``rename``メソッドが便利である。

In [None]:
data.rename(index=str.title, columns=str.upper)

この``rename``メソッドは、データフレームを手動でコピーし、インデックスや別の属性（それぞれ``index``と``columns``）に新たな値を代入するという手間を省いてくれる。もし新たなデータセットを作るのではなく元のデータセットを直接変更したいのであれば、``inplace=True``を引数に渡せばよい：

In [None]:
data.rename(index={'OHIO': 'INDIANA'}, inplace=True)
data

### 7.2.6 外れ値の検出と除去 

外れ値の除去や変換は、ほとんどが配列に対する操作で対応できる問題である。ここでは、いくつかの正規分布をするデータの入ったデータフレームを使って考えてみる。

In [None]:
data = pd.DataFrame(np.random.randn(1000, 4))
data.describe()

まず4つの列のうち1つで外れ値を見つけたいとする。外れ値としては、絶対値が3より大きなものを考える。

In [None]:
col = data[2]
col[np.abs(col) > 3]

次に、3を上回るか-3を下回る値を1つ以上持つすべての行を選択する。そのためには、真偽値のデータフレームに対して``any``メソッドを使用する。

In [None]:
data[(np.abs(data) > 3).any(axis=1)]

閾値3や-3を超えた場合に、超えた値を別の値で置き換えることも可能である。次では-3から3までの範囲に収まらない数値に対して上限を定め、範囲に収まるようにしている。``np.sign``は``data``の各値の正負に応じて1か-1を戻す。

In [None]:
data[np.abs(data) > 3] = np.sign(data) * 3
data.describe()

### 順列（ランダムな並べ替え）やランダムサンプリング

シリーズやデータフレームの行の順列を得る（ランダムに並び替える）ことは、関数``numpy.random.permutation``を用いれば簡単にできる。``permunation``を呼び出す際に、並び替えたい軸の長さを引数として与えれば、新しい順序のインデックスを表す整数の配列が得られる。

In [None]:
df = pd.DataFrame(np.arange(5 * 4).reshape((5, 4)))
sampler = np.random.permutation(5)
sampler

得られた配列は、``iloc``を用いたインデックス参照や、それと同等のことを行う``take``関数に渡すことで使用できる。

In [None]:
df

In [None]:
df.take(sampler)

ランダムに一部分だけ非復元抽出で選択するには、シリーズやデータフレームに対して``sample``メソッドを使用するとよい。データフレームに対して適用すると、行単位で抽出される。

In [None]:
df.sample(n=3)

一方で、復元抽出によってサンプルを生成する場合は、``sample``メソッドに``replace=True``を選択する。

In [None]:
choices = pd.Series([5, 7, -1, 6, 4])
draws = choices.sample(n=10, replace=True)
draws

### 7.2.8 標識変数やダミー変数の計算

統計モデリングや機械学習アプリケーションで良く用いる変換方法の1つに、カテゴリ変数からダミー変数や標識変数行列（One-Hot-Encodingの結果の行列のこと）への変換がある。自前で実装することも難しくはないが、pandasには``get_dummies``という関数が用意されている。

In [None]:
df = pd.DataFrame({'key': ['b', 'b', 'a', 'c', 'a', 'b'], 'data1': range(6)})
pd.get_dummies(df['key'])

場合によっては、標識変数のデータフレームのそれぞれの別にプレフィクスを付けた上で、他のデータと結合するとよいことがある``get_dummies``メソッドには、プレフィクスを指定する``prefix``という引数を渡せる。

In [None]:
dummies = pd.get_dummies(df['key'], prefix='key')
df_with_dummy = df[['data1']].join(dummies)
df_with_dummy

データフレームの特定の行に複数のカテゴリにまたがる情報が含まれている場合は、もう少し面倒なことになる。MovieLensの映画データを使って考えてみる。

In [None]:
mnames = ['movie_id', 'title', 'genres']
movies = pd.read_table('datasets/movielens/movies.data', sep='::', header=None, names=mnames)
movies[:10]

``genres``行をもとに各ジャンルの標識変数の行を追加するには、データを少し改変する必要がある。まず、このデータセットからユニークなジャンルの一覧を取り出してみる。

In [None]:
all_genres = []
for x in movies.genres:
    all_genres.extend(x.split('|'))
genres = pd.unique(all_genres)
genres

標識変数行列のデータフレームを作成するための1つの方法として、すべてのセルをゼロで埋めたデータフレームから作成し始めるというやり方がある。ここではそれで行う。

``dummies``というすべてのセルがゼロのデータフレームをまず作る。

In [None]:
zero_matrix = np.zeros(len(movies), len(genres))
dummies = pd.DataFrame(zero_matrix, columns=genres)

次に、映画データのそれぞれの映画のジャンル情報を抽出し、``dummies``の対応する行およびジャンルの値を1に設定していく。そのうえで、各ジャンルに対応する``dummies``の列のインデックスを得るために、``dummies.columns``を使用する。まずは0行目のデータを用いてこの一連の操作を試してみる。

In [None]:
gen = movies.genres[0]
gen.split('|')

In [None]:
dummies.columns.get_indexer(gen.split('|'))

うまくいきそうなのでループする。これらのインデックスに基づいて値を設定するには、``.iloc``を使う。

In [None]:
for i, gen in enumerate(movies.genres):
    indices = dummies.columns.get_indexer(gen.split('|'))
    dummies.iloc[i, indices] = 1

そうすると、先ほどと同じようにデータフレームの結合ができる状態になった。``dummies``を``movies``と結合させる。

In [None]:
movies_windic = movies.join(dummies.add_prefix('Genre_'))
movies_windic.iloc[0]

注意として、はるかに大きなデータの場合、このような、所属する複数のカテゴリの標識変数に1つずつ値を設定していく形でデータフレームを作成する方法は、あまり高速ではない。NumPyの配列に直接書き込む低レベルの関数を作成して、その処理結果をデータフレームとしてラップするのがよい。

## 7.3 文字列操作

Pythonは昔から、生データ操作用の言語として人気がある。その理由の1つは、文字列やテキストデータを処理しやすい点にある。ほとんどの文字列操作は、文字列（string）オブジェクト組み込みのメソッドで簡単に行える。

### 7.3.1 文字列オブジェクトのメソッド

文字列操作をしたり、その処理をスクリプト化したりする場合、大抵は、組み込みの文字列処理メソッドだけで十分である。たとえば、コンマ区切りの文字列は``split``メソッドで簡単に分割できる。

In [None]:
val = 'a, b, guido'
val.split(',')

``split``で分割する際には、文字列の前後の空白文字（タブ、スペース、改行文字）を取り除く``strip``メソッドも一緒に良く用いられる。

In [None]:
pieces = [x.strip() for x in val.split(',')]
pieces

文字列を``+``で連結することも可能である。しかし、このやり方は実用面では汎用性が無い。特定の区切り文字でリストやタプルを連結する、もっと高速でPython的な方法は、その区切り文字の``join``メソッドにリストやタプルを渡すというやり方である。例えば'::'で連結する場合は次のようになる。

In [None]:
'::'.join(pieces)

分割や連結のためのメソッド以外は、部分文字列の検索に関連したメソッドばかりである。文字列内で部分文字列を見つけるには、Pythonのキーワード引数``in``を用いるのが最も良い方法である。``index``メソッドや``find``メソッドを使っても同じようなことができる。

In [None]:
'guido' in val

In [None]:
val.find(':')

上記の``find``と``index``の違いは、文字列が見つからなかったときの挙動であり、``find``は-1を戻すのに対し、``index``は例外を発生させる。

In [None]:
val.index(':')

関連するメソッドとしては、``count``もある。これは、指定した部分文字列が見つかった回数を戻す。

In [None]:
val.count(',')

``replace``は、あるパターンが見つかったときに他の文字列に置き換えるメソッドである。置き換え後の文字列として空文字列を渡せば特定のパターンを削除できるため、パターンを削除する目的でもよく用いられる。

In [None]:
val.replace(',', '::')

In [None]:
val.replace(',', '')

Pythonの文字列操作メソッドは他にもある。これらの操作の一部は正規表現でも利用できる。

### 7.3.2 正規表現

**正規表現**を用いると、（場合によっては複雑な）文字列パターンを用いた、テキスト内での柔軟な文字列検索やパターンマッチが可能になる。各正規表現（**regex**とも呼ばれる）は、正規表現言語の文法に従って書かれた文字列である。正規表現を文字列に適用する役割を担っているのがPython組み込みの``re``モジュールである。

``re``モジュールの関数は、パターンマッチング、文字列置換、文字列分割の3つのカテゴリに分類できる。
例えば、さまざまな数の空白文字で、ある文字列を分割したいとする。この場合、1文字以上の空白文字は``\s+``という正規表現で表せるので、分割するコードは次のようになる。

In [25]:
import re

In [26]:
text = "foo    bar\t baz   \tqux"
re.split('\s+', text)

['foo', 'bar', 'baz', 'qux']

``re.split('\s+', text)``を呼び出すと、まずはじめに``'\s+'``という正規表現が**コンパイル**される。そのうえで、コンパイルされた正規表現の``split``メソッドが、引数として渡されたテキスト（変数``text``）に対して呼び出される。コンパイルは自分で明示的に実行することもできる

In [27]:
regex = re.compile('\s+')
regex.split(text)

['foo', 'bar', 'baz', 'qux']

正規表現にマッチした文字列を区切り文字とするのではなく、正規表現にマッチした文字列のリストを得たい場合は、``findall``メソッドを用いるとよい。

In [28]:
regex.findall(text)

['    ', '\t ', '   \t']

正規表現内で必要以上に``\``を用いてエスケープしたくない場合は、Pythonの**raw**文字列リテラルを用いるのがよい。例えば、``r'C:\x'``と書けば、``'C:\\x'``と書くのと同等の意味になる。

もし正規表現をたくさんの文字列に対して適用するつもりであれば、先ほどのように``re.compile``で正規表現オブジェクトを生成しておく方が良い。これによりCPUサイクルを減らせるからである。

``search``メソッドと``match``メソッドは``findall``メソッドにかかわりのあるメソッドであり、``findall``がマッチしたすべての部分文字列を戻すのに対し、``search``メソッドは最初にマッチした1つだけを戻す。さらに厳格なのが``match``であり、文字列の先頭でマッチするか**のみ**を調べる。少し実用的な例として、数行のテキストデータに、大半のメールアドレスを認識できる正規表現を適用することを考えてみる。

In [29]:
text = """Dave dave@google.com
Steve steve@gmail.com
Rob rob@gmail.com
Ryan ryan@yahoo.com
"""
pattern = r'[A-Z0-9._%+-]+@[A-Z0-9.-]+\.[A-Z]{2,4}'

# re.IGNORECASEフラグにより、正規表現で大文字と小文字を区別しないようにする
regex = re.compile(pattern, flags=re.IGNORECASE)

``findall``メソッドをこのテキストに適用すると、メールアドレスのリストが得られる。

In [30]:
regex.findall(text)

['dave@google.com', 'steve@gmail.com', 'rob@gmail.com', 'ryan@yahoo.com']

``search``メソッドを適用すると、テキスト内の最初のメールアドレスに関する情報を含む、特殊なマッチオブジェクトが戻される。

In [31]:
m = regex.search(text)
m

<re.Match object; span=(5, 20), match='dave@google.com'>

In [32]:
text[m.start():m.end()]

'dave@google.com'

``regex.match``メソッドで先ほどの正規表現をテキストに適用すると、``None``が戻る。なぜなら``match``では、文字列の先頭にそのパターンが見つかった場合のみ、マッチしたとみなされるからである。

In [33]:
print(regex.match(text))

None


関連するメソッドとして、``sub``は、文字列内にパターンが見つかった際に、その部分を、指定した別の文字列に置き換えて返す。例えば、先ほどのテキスト内のメールアドレスをすべて``'REDACTED'``という文字列に置き換えてみる。

In [34]:
print(regex.sub('REDACTED', text))

Dave REDACTED
Steve REDACTED
Rob REDACTED
Ryan REDACTED



メールアドレスを見つけたときに、そのアドレスを3つの部分（ユーザ名、ドメイン名、ドメイン名の接尾辞）に分割したいとする。その場合は、抽出したいそれぞれの部分について、正規表現内の対応する表現を丸かっこでくくる。このような丸かっこでくくられた各部分をグループと呼ぶ。

In [35]:
pattern = r'([A-Z0-9._%+-]+)@([A-Z0-9.-]+)\.([A-Z]{2,4})'
regex = re.compile(pattern, flags=re.IGNORECASE)

この丸かっこが挿入された正規表現によるパターンマッチングでは、各グループのパターンにマッチした部分の情報を含むマッチオブジェクトが得られる。マッチオブジェクトの``groups``メソッドを用いると、それらの部分をタプルとして取り出せる。

In [36]:
m = regex.match('wesm@bright.net')
m.groups()

('wesm', 'bright', 'net')

このような、パターンにグループが含まれる正規表現の場合、``findall``ではタプルのリストが戻される。

In [37]:
regex.findall(text)

[('dave', 'google', 'com'),
 ('steve', 'gmail', 'com'),
 ('rob', 'gmail', 'com'),
 ('ryan', 'yahoo', 'com')]

``sub``メソッドでも、正規表現全体にマッチした各文字列内の各グループにアクセスできる。アクセスには、\1や\2などの特殊な表記を用いる。\1はマッチした最初のグループに対応、\2は2番目のグループに対応、といった感じである。

In [38]:
print(regex.sub(r'Username: \1, Domain: \2, Suffix: \3', text))

Dave Username: dave, Domain: google, Suffix: com
Steve Username: steve, Domain: gmail, Suffix: com
Rob Username: rob, Domain: gmail, Suffix: com
Ryan Username: ryan, Domain: yahoo, Suffix: com



### 7.3.3 pandasにおける文字列関数のベクトル化

乱雑なデータセットを分析できるようにクリーニングする際には、しばしば大量の文字列処理と正則化が必要になる。厄介なことに、文字列を含む列のデータが欠測であるために場合分けが必要になることもある。

In [39]:
data = {'Dave': 'dave@google.com', 'Steve':'steve@gmail.com', 'Rob':'rob@gmail.com', 'Wes':np.nan}
data = pd.Series(data)
data

Dave     dave@google.com
Steve    steve@gmail.com
Rob        rob@gmail.com
Wes                  NaN
dtype: object

In [40]:
data.isnull()

Dave     False
Steve    False
Rob      False
Wes       True
dtype: bool

文字列メソッドや正規表現メソッドをデータ内のそれぞれの値に適用したい場合、``data.map``を使って（``lambda``関数などの関数を``data.map``に渡すことで）実現できる。しかしその場合、欠測値（null）に当たると失敗してしまうという問題がある。この問題にうまく対処できるよう、シリーズには、欠測値を飛ばして処理してくれる配列志向の文字列操作メソッドがある。これらのメソッドには、シリーズの``str``属性からアクセスできる。例えば、``str.contains``メソッドを用いて、各メールアドレスに``'gmail'``という文字列が含まれているかチェックしてみる。

In [41]:
data.str.contains('gmail')

Dave     False
Steve     True
Rob       True
Wes        NaN
dtype: object

Python標準の文字列メソッドを使う場合と同じように、正規表現を利用することもできる。その場合、前述のIGNORECASEなどの正規表現オプションを指定することも可能である。

In [42]:
pattern

'([A-Z0-9._%+-]+)@([A-Z0-9.-]+)\\.([A-Z]{2,4})'

In [43]:
data.str.findall(pattern, flags=re.IGNORECASE)

Dave     [(dave, google, com)]
Steve    [(steve, gmail, com)]
Rob        [(rob, gmail, com)]
Wes                        NaN
dtype: object

ベクトル化された要素を得る方法はいくつかある。``str.get``を使う方法と、``str``属性内のインデックスを指定する方法である。次のようなパターンマッチの結果を考えてみる。

In [44]:
matches = data.str.match(pattern, flags=re.IGNORECASE)
matches

Dave     True
Steve    True
Rob      True
Wes       NaN
dtype: object

In [51]:
matches.str.get(1)

Dave    NaN
Steve   NaN
Rob     NaN
Wes     NaN
dtype: float64

In [54]:
matches.str[0]

Dave    NaN
Steve   NaN
Rob     NaN
Wes     NaN
dtype: float64

同様に、次のようなスライス記法を用いれば、文字列を切り出すことができる。

In [55]:
data.str[:5]

Dave     dave@
Steve    steve
Rob      rob@g
Wes        NaN
dtype: object

# 8章 データラングリング：連結、結合、変形

ここではデータの結合や連結、変形といった操作に役立つツールに焦点を当てる。

はじめにpandasの``階層型インデックス``という概念を紹介する。これは先に述べたデータ操作のいくつかで広く使われる概念である。階層型インデックスの後は、データの結合や変形に関するデータ操作を掘り下げていく。

## 8.1 階層型インデックス

**階層型インデックス**とは、複数（2つ以上）のインデックスの**階層**を軸に持たせることができる機能であり、pandasの重要な機能の1つである。やや抽象的な言い方をすると、階層型インデックスは、高次元のデータをより低次元の形で扱う方法を提供する。

In [56]:
data = pd.Series(np.random.randn(9), index=[['a', 'a', 'a', 'b', 'b', 'c', 'c', 'd', 'd'],
                                            [1, 2, 3, 1, 3, 1, 2, 2, 3]])
data

a  1   -1.058957
   2    0.381069
   3   -1.831025
b  1    0.089493
   3   -0.365948
c  1   -0.354939
   2   -0.628309
d  2    1.973865
   3   -0.794221
dtype: float64

上の出力は、階層型インデックスの実装である``MultiIndex``オブジェクトを持ったシリーズを見やすく表示したものである：

In [57]:
data.index

MultiIndex(levels=[['a', 'b', 'c', 'd'], [1, 2, 3]],
           labels=[[0, 0, 0, 1, 1, 2, 2, 3, 3], [0, 1, 2, 0, 2, 0, 1, 1, 2]])

階層型インデックスを持つオブジェクトを使うと、データの部分集合を簡潔に抽出できる。このような参照を俗に**部分インデックス参照**などとい言うこともある。

In [58]:
data['b']

1    0.089493
3   -0.365948
dtype: float64

In [59]:
data['b':'c']

b  1    0.089493
   3   -0.365948
c  1   -0.354939
   2   -0.628309
dtype: float64

In [60]:
data.loc[['b', 'd']]

b  1    0.089493
   3   -0.365948
d  2    1.973865
   3   -0.794221
dtype: float64

「内側」の階層を指定して抽出することもできる。

In [61]:
data.loc[:, 2]

a    0.381069
c   -0.628309
d    1.973865
dtype: float64

階層型インデックスは、データの変形や、ピボットテーブルの作成のようなグループベースの操作を行うときに重要な役割を果たす。例えば``unstack``メソッドは先ほどのデータをデータフレームに変形でき、``stack``メソッドはその逆の操作を行う。

In [63]:
data.unstack()

Unnamed: 0,1,2,3
a,-1.058957,0.381069,-1.831025
b,0.089493,,-0.365948
c,-0.354939,-0.628309,
d,,1.973865,-0.794221


In [64]:
data.unstack().stack()

a  1   -1.058957
   2    0.381069
   3   -1.831025
b  1    0.089493
   3   -0.365948
c  1   -0.354939
   2   -0.628309
d  2    1.973865
   3   -0.794221
dtype: float64

ここまではシリーズの例を見てきたが、データフレームの場合は、どちらの軸にも階層型インデックスを持たせることができる。

In [65]:
frame = pd.DataFrame(np.arange(12).reshape((4, 3)), index=[['a', 'a', 'b', 'b'], [1, 2, 1, 2]], columns=[['Ohio', 'Ohio', 'Colorado'], ['Green', 'Red', 'Green']])
frame

Unnamed: 0_level_0,Unnamed: 1_level_0,Ohio,Ohio,Colorado
Unnamed: 0_level_1,Unnamed: 1_level_1,Green,Red,Green
a,1,0,1,2
a,2,3,4,5
b,1,6,7,8
b,2,9,10,11


階層型インデックスの各階層には名前を付ける（文字列またはPythonオブジェクトを名前として設定する）ことが可能である。名前をつけるとコンソールの出力にインデックスの名前が表示される。次では``'state'``や``'color'``は列の各階層の名前であり、行のラベルではないことに注意。

In [67]:
frame.index.names = ['key1', 'key2']
frame.columns.names = ['state', 'color']
frame

Unnamed: 0_level_0,state,Ohio,Ohio,Colorado
Unnamed: 0_level_1,color,Green,Red,Green
key1,key2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
a,1,0,1,2
a,2,3,4,5
b,1,6,7,8
b,2,9,10,11


In [68]:
frame['Ohio']

Unnamed: 0_level_0,color,Green,Red
key1,key2,Unnamed: 2_level_1,Unnamed: 3_level_1
a,1,0,1
a,2,3,4
b,1,6,7
b,2,9,10


これまでの例ではシリーズやデータフレームを作成するときに階層型インデックスを作るよう引数で指定したが、``MultiIndex``オブジェクトだけを作成して、再利用することもできる。上の例だと次のようになる：

In [69]:
# NameError: name 'MultiIndex' is not defined
# MultiIndex.from_arrays([['Ohio', 'Ohio', 'Colorado'], ['Green', 'Red', 'Green']], names=['state', 'color'])

NameError: name 'MultiIndex' is not defined

### 8.1.1 階層の順序変更やソート

特定の軸のインデックス階層の順序を変更したり、特定の階層の値によってデータをソートしたりする操作は時々必要になる。インデックス階層の順序を変更するには、``swaplevel``というメソッドを使う。このメソッドに2つの階層を表す数値か名前を渡して実行すると、それらの階層を入れ替えた新しいオブジェクトが戻される（ただしこのとき、データの他の部分は変更されない）。

In [70]:
frame.swaplevel('key1', 'key2')

Unnamed: 0_level_0,state,Ohio,Ohio,Colorado
Unnamed: 0_level_1,color,Green,Red,Green
key2,key1,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
1,a,0,1,2
2,a,3,4,5
1,b,6,7,8
2,b,9,10,11


一方、``sort_index``メソッドは、特定の1つの階層の値だけを用いてデータをソートする。``swaplevel``で階層を入れ替えるときに``sort_index``も使って、新たな第一階層が辞書順に並ぶように結果を並べ替えることはよくある。

In [72]:
frame

Unnamed: 0_level_0,state,Ohio,Ohio,Colorado
Unnamed: 0_level_1,color,Green,Red,Green
key1,key2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
a,1,0,1,2
a,2,3,4,5
b,1,6,7,8
b,2,9,10,11


In [71]:
frame.sort_index(level=1)

Unnamed: 0_level_0,state,Ohio,Ohio,Colorado
Unnamed: 0_level_1,color,Green,Red,Green
key1,key2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
a,1,0,1,2
b,1,6,7,8
a,2,3,4,5
b,2,9,10,11


In [74]:
frame.swaplevel(0, 1).sort_index(level=0)

Unnamed: 0_level_0,state,Ohio,Ohio,Colorado
Unnamed: 0_level_1,color,Green,Red,Green
key2,key1,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
1,a,0,1,2
1,b,6,7,8
2,a,3,4,5
2,b,9,10,11


階層型インデックスを使用しているオブジェクトの場合、最も外側の階層から順に、インデックスが辞書順にソートされていると（つまり、``sort_index(level=0)``か``sort_index()``でソートされていると）、データ抽出のパフォーマンスが大きく改善する。

### 階層ごとの要約統計量

データフレームやシリーズの多くの要約統計量（記述統計量）には、``level``オプションを与えることができる。``level``オプションを使うと、その軸での集計対象としたい階層を指定できる。次の処理の内部では``groupby``機構が活用されている。

In [75]:
frame.sum(level='key2')

state,Ohio,Ohio,Colorado
color,Green,Red,Green
key2,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
1,6,8,10
2,12,14,16


In [76]:
frame.sum(level='color', axis=1)

Unnamed: 0_level_0,color,Green,Red
key1,key2,Unnamed: 2_level_1,Unnamed: 3_level_1
a,1,2,1
a,2,8,4
b,1,14,7
b,2,20,10


### 8.1.3 データフレームの列をインデックスに使う

データフレームの特定の列の値を行インデックスとして使いたいことはよくある。逆に、行インデックスをデータフレームの列に変換したい場合もある。

In [77]:
frame = pd.DataFrame({'a': range(7), 
                      'b': range(7, 0, -1), 
                      'c': ['one', 'one', 'one', 'two', 'two', 'two', 'two'], 
                      'd': [0, 1, 2, 0, 1, 2, 3]})
frame

Unnamed: 0,a,b,c,d
0,0,7,one,0
1,1,6,one,1
2,2,5,one,2
3,3,4,two,0
4,4,3,two,1
5,5,2,two,2
6,6,1,two,3


データフレームの``set_index``メソッドは、指定した1つ以上の列をインデックスとして持った新しいデータフレームオブジェクトを生成する。一方、``reset_index``は``set_index``の逆の動作をする。

In [80]:
frame2 = frame.set_index(['c', 'd'])
frame2

Unnamed: 0_level_0,Unnamed: 1_level_0,a,b
c,d,Unnamed: 2_level_1,Unnamed: 3_level_1
one,0,0,7
one,1,1,6
one,2,2,5
two,0,3,4
two,1,4,3
two,2,5,2
two,3,6,1


In [81]:
frame2.reset_index()

Unnamed: 0,c,d,a,b
0,one,0,0,7
1,one,1,1,6
2,one,2,2,5
3,two,0,3,4
4,two,1,4,3
5,two,2,5,2
6,two,3,6,1


``reset_index``では、デフォルトではインデックスに使用された列がデータフレームから削除される。しかし、残しておくこともできる。

In [82]:
frame.set_index(['c', 'd'], drop=False)

Unnamed: 0_level_0,Unnamed: 1_level_0,a,b,c,d
c,d,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
one,0,0,7,one,0
one,1,1,6,one,1
one,2,2,5,one,2
two,0,3,4,two,0
two,1,4,3,two,1
two,2,5,2,two,2
two,3,6,1,two,3


## 8.2 データセットの結合とマージ

pandasオブジェクトに含まれるデータは、いくつもの方法で結合できる。

- ``pandas.merge``という関数は、複数のデータフレームの行同士を1つ以上のキーに基づいて連結する。このような操作は、SQLなどのRDBのユーザにとってはなじみ深いものである。SQLでは、データベースの**join**という操作として実装されている。
- ``pandas.concat``という関数は、特定の軸に沿ってデータフレームを縦や横に連結する。
- ``combine_first``というインスタンスメソッドを用いると、重複するデータを持つ複数のオブジェクトをつなぎ合わせて、オブジェクトの欠測値を別のオブジェクトの値で穴埋めできる。

### 8.2.1 データフレームをデータベース風に結合する

マージや結合と呼ばれる操作は、複数のデータセットに含まれる行同士を、1つ以上のキーを使ってリンクさせることで、複数のデータセットを結び付ける操作である。

In [84]:
df1 = pd.DataFrame({'key': ['b', 'b', 'a', 'c', 'a', 'a', 'b'], 'data1': range(7)})
df2 = pd.DataFrame({'key': ['a', 'b', 'd'], 'data2':range(3)})
df1

Unnamed: 0,key,data1
0,b,0
1,b,1
2,a,2
3,c,3
4,a,4
5,a,5
6,b,6


In [85]:
df2

Unnamed: 0,key,data2
0,a,0
1,b,1
2,d,2


これは**多対一**の結合の例である。``df1``に含まれるデータには、``a``や``b``というラベルのついた行が複数存在する。一方、``df2``には``key``列の各値に対応する行は1つしかない。これらのオブジェクトに対して``merge``関数を呼び出すと、次のような結果が得られる。

In [87]:
pd.merge(df1, df2, on='key')

Unnamed: 0,key,data1,data2
0,b,0,1
1,b,1,1
2,b,6,1
3,a,2,0
4,a,4,0
5,a,5,0


キーとしたい列の名前が2つのデータフレームで異なっている場合、それぞれを個別に指定することができる。

In [88]:
df3 = pd.DataFrame({'lkey': ['b', 'b', 'a', 'c', 'a', 'a', 'b'], 'data1': range(7)})
df4 = pd.DataFrame({'rkey': ['a', 'b', 'd'], 'data2': range(3)})
pd.merge(df3, df4, left_on='lkey', right_on='rkey')

Unnamed: 0,lkey,data1,rkey,data2
0,b,0,b,1
1,b,1,b,1
2,b,6,b,1
3,a,2,a,0
4,a,4,a,0
5,a,5,a,0


ここまでの例で``'c'``や``'d'``というキーの値やそれに紐づいたデータ（行）が結果からなくなっていることからわかるように、デフォルトでは``merge``が行うのは``'inner'``なjoinである。これ以外にも``'outer'``などオプションで指定できる。

In [89]:
pd.merge(df1, df2, how='outer', on='key')

Unnamed: 0,key,data1,data2
0,b,0.0,1.0
1,b,1.0,1.0
2,b,6.0,1.0
3,a,2.0,0.0
4,a,4.0,0.0
5,a,5.0,0.0
6,c,3.0,
7,d,,2.0


**多対多**のマージがどのような挙動をするのかは明確に定義されているが直感的にわかりやすいわけではない。

In [90]:
df1 = pd.DataFrame({'key': ['b', 'b', 'a', 'c', 'a', 'b'], 'data1': range(6)})
df2 = pd.DataFrame({'key': ['a', 'b', 'a', 'b', 'd'], 'data2': range(5)})
df1

Unnamed: 0,key,data1
0,b,0
1,b,1
2,a,2
3,c,3
4,a,4
5,b,5


In [91]:
df2

Unnamed: 0,key,data2
0,a,0
1,b,1
2,a,2
3,b,3
4,d,4


In [92]:
pd.merge(df1, df2, on='key', how='left')

Unnamed: 0,key,data1,data2
0,b,0,1.0
1,b,0,3.0
2,b,1,1.0
3,b,1,3.0
4,a,2,0.0
5,a,2,2.0
6,c,3,
7,a,4,0.0
8,a,4,2.0
9,b,5,1.0


多対多の結合は行の直積の形をとる。この例では``'b'``というキーを持つ行が左のデータフレームに3個、右に2個存在するため、マージの結果、それらの組み合わせである6個の``'b'``の列ができている。

In [93]:
pd.merge(df1, df2, how='inner')

Unnamed: 0,key,data1,data2
0,b,0,1
1,b,0,3
2,b,1,1
3,b,1,3
4,b,5,1
5,b,5,3
6,a,2,0
7,a,2,2
8,a,4,0
9,a,4,2


マージ操作において考慮しなければならない最後の課題は、重複する列名の取り扱い方法である。マージ後に手動で重複に対応することもできるが、``merge``関数には``suffixes``というオプションがある。このオプションを使うと、列名が重複した場合に、左のデータフレームオブジェクト由来の列と右のデータフレームオブジェクト由来の列それぞれの名前の末尾に加える文字列を指定できる。

In [95]:
left = pd.DataFrame({'key1': ['foo', 'foo', 'bar'], 'key2': ['one', 'two', 'one'], 'lval': [1, 2, 3]})
right = pd.DataFrame({'key1': ['foo', 'foo', 'bar', 'bar'], 'key2': ['one', 'one', 'one', 'two'], 'rval': [4, 5, 6, 7]})

In [96]:
pd.merge(left, right, on='key1')

Unnamed: 0,key1,key2_x,lval,key2_y,rval
0,foo,one,1,one,4
1,foo,one,1,one,5
2,foo,two,2,one,4
3,foo,two,2,one,5
4,bar,one,3,one,6
5,bar,one,3,two,7


In [97]:
pd.merge(left, right, on='key1', suffixes=('_left', '_right'))

Unnamed: 0,key1,key2_left,lval,key2_right,rval
0,foo,one,1,one,4
1,foo,one,1,one,5
2,foo,two,2,one,4
3,foo,two,2,one,5
4,bar,one,3,one,6
5,bar,one,3,two,7


### 8.2.2 インデックスによるマージ 

マージに用いるキーがマージ対象のデータフレームの列ではなくインデックスに含まれている場合があるが、このようなときは``left_index=True``または``right_index=True``（あるいはこれら2つのオプション両方）を渡せばインデックスをマージキーとして用いることが可能である。

In [98]:
left1 = pd.DataFrame({'key': ['a', 'b', 'a', 'a', 'b', 'c'], 'value':range(6)})
right1 = pd.DataFrame({'group_val': [3.5, 7]}, index=['a', 'b'])
left1

Unnamed: 0,key,value
0,a,0
1,b,1
2,a,2
3,a,3
4,b,4
5,c,5


In [99]:
right1

Unnamed: 0,group_val
a,3.5
b,7.0


In [100]:
pd.merge(left1, right1, left_on='key', right_index=True)

Unnamed: 0,key,value,group_val
0,a,0,3.5
2,a,2,3.5
3,a,3,3.5
1,b,1,7.0
4,b,4,7.0


インデックスによるマージが簡単にできるよう、データフレームのインスタンスには``join``という便利なメソッドが用意されている。データフレームオブジェクトは重複した列があってはいけない、デフォルトではleft joinが行われる、などに留意しておく必要がある。

In [101]:
left1.join(right1, on='key')

Unnamed: 0,key,value,group_val
0,a,0,3.5
1,b,1,7.0
2,a,2,3.5
3,a,3,3.5
4,b,4,7.0
5,c,5,


### 8.2.3 軸に沿った連結

もう一つのデータ結合操作は、連結、バインド、あるいは積み重ねと言われるものである。NumPyにはNumPy配列を連結数r``concatenate``関数がある。例えば次の例では同じ配列を2つ、第1軸方向に連結している、

In [102]:
arr = np.arange(12).reshape((3, 4))
arr

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])

In [103]:
np.concatenate([arr, arr], axis=1)

array([[ 0,  1,  2,  3,  0,  1,  2,  3],
       [ 4,  5,  6,  7,  4,  5,  6,  7],
       [ 8,  9, 10, 11,  8,  9, 10, 11]])

pandasにも``concat``関数がある。

In [104]:
s1 = pd.Series([0, 1], index=['a', 'b'])
s2 = pd.Series([2, 3, 4], index=['c', 'd', 'e'])
s3 = pd.Series([5, 6], index=['f', 'g'])
pd.concat([s1, s2, s3])

a    0
b    1
c    2
d    3
e    4
f    5
g    6
dtype: int64

上のように、デフォルトでは``concat``関数は``axis=0``方向に連結し、結果を新たなシリーズとして返すが、これは変更できる。連結に用いない軸はouter joinかinner joinか指定できる。

In [106]:
pd.concat([s1, s2, s3], axis=1, sort='False')

Unnamed: 0,0,1,2
a,0.0,,
b,1.0,,
c,,2.0,
d,,3.0,
e,,4.0,
f,,,5.0
g,,,6.0


In [108]:
s4 = pd.concat([s1, s3])
s4

a    0
b    1
f    5
g    6
dtype: int64

In [110]:
pd.concat([s1, s4], axis=1, sort=False)

Unnamed: 0,0,1
a,0.0,0
b,1.0,1
f,,5
g,,6


In [111]:
pd.concat([s1, s4], axis=1, sort=False, join='inner')

Unnamed: 0,0,1
a,0,0
b,1,1


シリーズを列方向に結合する場合は、``keys``に与えた値はデータフレームの行のヘッダになる。

In [113]:
df1 = pd.DataFrame(np.arange(6).reshape(3, 2), index=['a', 'b', 'c'], columns=['one', 'two'])
df2 = pd.DataFrame(5 + np.arange(4).reshape(2, 2), index=['a', 'c'], columns=['three', 'four'])
df1

Unnamed: 0,one,two
a,0,1
b,2,3
c,4,5


In [114]:
df2

Unnamed: 0,three,four
a,5,6
c,7,8


In [115]:
pd.concat([df1, df2], axis=1, keys=['level1', 'level2'], sort=False)

Unnamed: 0_level_0,level1,level1,level2,level2
Unnamed: 0_level_1,one,two,three,four
a,0,1,5.0,6.0
b,2,3,,
c,4,5,7.0,8.0


### 8.2.4 重複のあるデータの結合

データのマージ操作とも連結操作とも言い難いような状況もある。2つのデータセットのインデックスの一部が重複しているか、完全に重複しているような場合である。具体的に、NumPyの``where``関数を使って、インデックスが重複したデータの一部だけを結合する例を見てみる。``where``関数は行列指向の``if-else``文でこの処理をベクトル化できる。

In [116]:
A = pd.Series([np.nan, 2.5, 0.0, 3.5, 4.5, np.nan], index=['f', 'e', 'd', 'c', 'b', 'a'])
B = pd.Series([0., np.nan, 2., np.nan, np.nan, 5.], index=['a', 'b', 'c', 'd', 'e', 'f'])
A

f    NaN
e    2.5
d    0.0
c    3.5
b    4.5
a    NaN
dtype: float64

In [117]:
B

a    0.0
b    NaN
c    2.0
d    NaN
e    NaN
f    5.0
dtype: float64

In [118]:
np.where(pd.isnull(A), B, A)

array([0. , 2.5, 0. , 3.5, 4.5, 5. ])

シリーズには``combine_first``というメソッドがあり、これにより先ほどと同等の操作を行える。

In [119]:
B.combine_first(A)

a    0.0
b    4.5
c    2.0
d    0.0
e    2.5
f    5.0
dtype: float64

データフレームに対しては、``combine_first()``は対応する列同士で同様の操作を行う。呼び出し元のオブジェクトに含まれる欠測値を引数に与えたオブジェクトから補完していると考えるのがよい。

In [120]:
df1 = pd.DataFrame({'a': [1., np.nan, 5., np.nan],
                    'b': [np.nan, 2., np.nan, 6.],
                    'c': range(2, 18, 4)})
df2 = pd.DataFrame({'a': [5., 4., np.nan, 3., 7.],
                    'b': [np.nan, 3., 4., 6., 8.]})
df1

Unnamed: 0,a,b,c
0,1.0,,2
1,,2.0,6
2,5.0,,10
3,,6.0,14


In [121]:
df2

Unnamed: 0,a,b
0,5.0,
1,4.0,3.0
2,,4.0
3,3.0,6.0
4,7.0,8.0


In [122]:
df1.combine_first(df2)

Unnamed: 0,a,b,c
0,1.0,,2.0
1,4.0,2.0,6.0
2,5.0,4.0,10.0
3,3.0,6.0,14.0
4,7.0,8.0,


## 8.3 変形とピボット操作

テーブル形式のデータを整形し直すための基本操作には**変形**や**ピボット操作**もある。

### 8.3.1 階層型インデックスによる変形

階層型インデックスを用いると、データフレームに含まれるデータの形状を一貫した方法で変更できる。
基本となるアクションは``stack``と``unstack``であり、前者はデータ内の各列を行へとピボット（回転）させ、後者は各行を列へと回転させる。

In [123]:
data = pd.DataFrame(np.arange(6).reshape((2, 3)), index=pd.Index(['Ohio', 'Colorado'], name='state'), columns=pd.Index(['one', 'two', 'three'], name='number'))
data

number,one,two,three
state,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Ohio,0,1,2
Colorado,3,4,5


``stack``や``unstack``される階層は引数で指定するが、最も内側にくる。

In [125]:
result = data.stack('number')
result

state     number
Ohio      one       0
          two       1
          three     2
Colorado  one       3
          two       4
          three     5
dtype: int32

In [126]:
result.unstack('state')

state,Ohio,Colorado
number,Unnamed: 1_level_1,Unnamed: 2_level_1
one,0,3
two,1,4
three,2,5


欠測値がある場合は、``unstack``では埋め込まれる、``stack``では除去される。これは指定もできる。

In [127]:
s1 = pd.Series([0, 1, 2, 3], index=['a', 'b', 'c', 'd'])
s2 = pd.Series([4, 5, 6], index=['c', 'd', 'e'])
data2 = pd.concat([s1, s2], keys=['one', 'two'])
data2

one  a    0
     b    1
     c    2
     d    3
two  c    4
     d    5
     e    6
dtype: int64

In [129]:
data2.unstack()

Unnamed: 0,a,b,c,d,e
one,0.0,1.0,2.0,3.0,
two,,,4.0,5.0,6.0


In [130]:
data2.unstack().stack()

one  a    0.0
     b    1.0
     c    2.0
     d    3.0
two  c    4.0
     d    5.0
     e    6.0
dtype: float64

In [131]:
data2.unstack().stack(dropna=False)

one  a    0.0
     b    1.0
     c    2.0
     d    3.0
     e    NaN
two  a    NaN
     b    NaN
     c    4.0
     d    5.0
     e    6.0
dtype: float64

In [132]:
df = pd.DataFrame({'left': result, 'right': result + 5}, columns=pd.Index(['left', 'right'], name='side'))
df

Unnamed: 0_level_0,side,left,right
state,number,Unnamed: 2_level_1,Unnamed: 3_level_1
Ohio,one,0,5
Ohio,two,1,6
Ohio,three,2,7
Colorado,one,3,8
Colorado,two,4,9
Colorado,three,5,10


In [133]:
df.unstack('state')

side,left,left,right,right
state,Ohio,Colorado,Ohio,Colorado
number,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
one,0,3,5,8
two,1,4,6,9
three,2,5,7,10


In [134]:
df.unstack('state').stack('side')

Unnamed: 0_level_0,state,Colorado,Ohio
number,side,Unnamed: 2_level_1,Unnamed: 3_level_1
one,left,3,0
one,right,8,5
two,left,4,1
two,right,9,6
three,left,5,2
three,right,10,7


### 8.3.2 縦持ちフォーマットから横持ちフォーマットへのピボット

複数の時系列データをデータベースやCSVファイルに保存する方法としては、いわゆる**long（縦持ち）フォーマット**や**積み上げ型フォーマット**がよく使われる。

In [None]:
data = pd.read_csv('examples/macrodata.csv')
data.head()

次は、2つ以上のキー（``data``, ``item``）をもつ複数の時系列データや他のデータをいわゆる**longフォーマット**で収めた例である。テーブルの各行が1回の観測を表す。

In [None]:
periods = pd.PeriodIndex(year=data.year, quarter=data.quarter, name='date')
columns = pd.Index(['realgdp', 'infl', 'unemp'], name='item')
data = data.reindex(columns=columns)
data.index = periods.to_timestamp('D', 'end')
ldata = data.stack().reset_index().rename(columns={0: 'value'})

In [None]:
ldata[:10]

MySQLのようなリレーショナルデータベースではよくこの例のように固定のスキーマをもった（列名とデータ型が固定された）形式でデータが格納される。この例では``date``と``item``が主キーとなるが、これにより関係の完全性が担保され、簡単に結合できるようになる。

しかし場合によっては縦持ちフォーマットではデータを取り扱うのが困難なこともある。``date``列に含まれるタイムスタンプがインデックスとなっており、個々の``item``の値ごとに1つの列が作られているデータフレームの方が望ましい。

In [135]:
pivoted = ldata.pivot('date', 'item', 'value')
pivoted

NameError: name 'ldata' is not defined

``pivot``メソッドに渡した最初の2つの引数は、生成するデータフレームの行と列のインデックスに用いる、呼び出し元のデータフレームの列名を指定するものである。最後の引数は生成するデータフレームの値として埋め込む、呼び出し元のデータフレームの列を指定する。

In [None]:
ldata['value2'] = np.random.randn(len(ldata))
ldata[:10]

In [None]:
pivoted = ldata.pivot('date', 'item')

In [None]:
pivoted['value'][:5]

実は、``pivot``を呼びだすのは、``set_index``を呼び出した後に``unstack``を呼び出して階層型インデックスを作成するのと同じである。

In [None]:
unstacked = ldata.set_index(['data', 'item']).unstack('item')
unstacked[:7]

### 8.3.3 横持ちフォーマットから縦持ちフォーマットへのピボット

データフレームの``pivot``メソッドの逆を行う操作は``pandas.melt``関数である。

In [137]:
df = pd.DataFrame({'key': ['foo', 'bar', 'baz'], 'A': [1, 2, 3], 'B': [4, 5, 6], 'C': [7, 8, 9]})
df

Unnamed: 0,key,A,B,C
0,foo,1,4,7
1,bar,2,5,8
2,baz,3,6,9


このデータフレームでは、グループを識別する情報が``key``という列に含まれており、データは他の列にある。``pandas.melt``を用いる際には、識別情報を含む列がもしあれば明示する必要がある。

In [138]:
melted = pd.melt(df, ['key'])
melted

Unnamed: 0,key,variable,value
0,foo,A,1
1,bar,A,2
2,baz,A,3
3,foo,B,4
4,bar,B,5
5,baz,B,6
6,foo,C,7
7,bar,C,8
8,baz,C,9


``pivot``を使えば元に戻せる。

In [139]:
reshaped = melted.pivot('key', 'variable', 'value')
reshaped

variable,A,B,C
key,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
bar,2,5,8
baz,3,6,9
foo,1,4,7


インデックスのデータを元に戻して使いたいときには``reset_index``を使うとよい。

In [140]:
reshaped.reset_index()

variable,key,A,B,C
0,bar,2,5,8
1,baz,3,6,9
2,foo,1,4,7


グループの識別情報を含む列を指定せずに使うことも可能である：

In [141]:
pd.melt(df, value_vars=['A', 'B', 'C'])

Unnamed: 0,variable,value
0,A,1
1,A,2
2,A,3
3,B,4
4,B,5
5,B,6
6,C,7
7,C,8
8,C,9


## Reference

- 実践JupyterNotebook
- Wes McKinney. Pythonによるデータ分析入門. 第2版, 株式会社オライリー・ジャパン, 2018, 571p.