#1-4 Pandasの利用

##概要

pandasは、高レベルなデータ構造を提供しています。また、構造化されたデータやテーブル形式のデータを、素早く簡単にわかりやすく扱えるように設計された関数も提供します。2010年に登場して以来、pandasの貢献によって、Pythonは強力で生産性の高いデータ分析環境になりました。

pandasの主要なオブジェクトはデータフレーム（DataFrame）という、テーブル形式で列指向のデータ構造です。データフレームは、行と列や、シリーズ（Series）という1次元のラベル配列オブジェクトを持ちます。

pandasは、NumPyの高性能な配列計算機能と、スプレッドシートやリレーショナルデータベースのデータを（SQLのように）柔軟に操作する機能を併せ持ちます。pandasは洗練されたインデックス機能を持ち、データの再形成やスライシング、ダイシング、集約、部分集合の選択が容易です。データの操作や準備、クリーニングは、データ分析において重要なスキルとなります。

pandasの名前の由来は、panel dataという、計量経済学での多次元の構造化されたデータセット示す語と、Python data analysisという表現の両方にあります。

##データ構造

pandasを始めるためには、シリーズ（Series）とデータフレーム（DataFrame）という便利なデータ構造に慣れる必要があります。これらはすべての問題に対する万能な解決策ではないですが、この2つの
データ構造によって、ほとんどのアプリケーションにとって信頼できる使いやすい基盤を提供することができます。


###シリーズ（Series）

シリーズは1次元の配列のようなオブジェクトです。シリーズには連続した値（NumPyのデータ型と似たような型を持つ）とそれに関連付けられたインデックスというデータラベルの配列が含まれます。

最もシンプルなシリーズは1つのデータ配列で構成されます。

In [0]:
import pandas as pd
obj = pd.Series([4, 7, -5, 3])

コンソールに出力されているシリーズの文字列表現では、インデックスが左側、データ値が右側に表示されます。ここでは、データに対するインデックスを指定しなかったため、0からN-1（Nはデータの長さ）のデフォルトのインデックスが作られています。values属性とindex属性を使うと、シリーズが持つデータ配列とインデックスオブジェクトをそれぞれ取得することができます。

In [0]:
obj.values

In [0]:
obj.index

各データを特定するためのインデックス付きのシリーズを作成する方が適切な場合もあるでしょう。

In [0]:
obj2 = pd.Series([4, 7, -5, 3], index=['d', 'b', 'a', 'c'])
obj2

In [0]:
obj2.index

NumPyの配列とは違って、1つの値や複数の値を参照するときにインデックスのラベルを使って指
定することができます。

In [0]:
obj2['a']

In [0]:
obj2['d'] = 6
obj2[['c', 'a', 'd']]

ここでは、['c', 'a', 'd']という部分は整数ではなく文字列を含んでいますが、インデックスのリストと解釈されています。
条件指定によるフィルタリング、スカラー値の掛け算、数学的な関数の適用、などのNumPyの関数やNumPy風の操作を行った場合も、インデックスとデータ値との関連は保持されます。

In [0]:
obj2[obj2 > 0]

In [0]:
obj2 * 2

In [0]:
'b' in obj2

Pythonのディクショナリ形式のデータがある場合は、それを使ってシリーズを作成することができます。

In [0]:
sdata = {'Ohio': 35000, 'Texas': 71000, 'Oregon': 16000, 'Utah': 5000}
obj3 = pd.Series(sdata)
obj3

前の例のように1つのディクショナリだけを渡した場合は、作成されるシリーズのインデックスはソートされたディクショナリのキーの順になります。この順番は上書きすることができ、ディクショナリのキーをシリーズの中で並べたい順に並べて渡すとその順番になります。

In [0]:
states = ['California', 'Ohio', 'Oregon', 'Texas']
obj4 = pd.Series(sdata, index=states)
obj4

この例の場合は、sdataの中に見つかった3つのデータは正しくインデックスと対応付けられていますが、'California'に対応するデータは見つからないため、NaN（not a number、非数）となっています。


NaNはpandasでは欠損値、または、NA値として扱われます。'Utah'は、指定したstatesには含まれていないため、作成されたシリーズからは除外されています。
この本では、欠損値もNA値も同じ欠損値という意味で使います。pandasのisnull関数とnotnull関数は欠損値を特定するために使います。

In [0]:
pd.isnull(obj4)

シリーズはこれらの関数をインスタンスメソッドとしても持っています。

In [0]:
obj4.isnull()

多くのアプリケーションにとって便利なシリーズの機能に、算術演算をするときに別々にインデックス付けされたデータが自動的に整形される、というものがあります。

In [0]:
obj3

In [0]:
obj4

In [0]:
obj3 + obj4

算術演算とデータ整形機能については後述します。もし、データベースを扱ったことがあれば、これはテーブル結合の操作と考えられるでしょう。


シリーズのオブジェクト自身とそのインデックスはname属性を持ちます。このname属性はpandasの別の主要な機能でも同じように持っています。

In [0]:
obj4.name = 'population'
obj4.index.name = 'state'
obj4

シリーズのインデックスは代入して置き換えることができます。

In [0]:
obj

In [0]:
obj.index = ['Bob', 'Steve', 'Jeff', 'Ryan']

###データフレーム（DataFrame）

データフレームはテーブル形式のデータ構造を持ち、順序付けられた列を持っています。各列には別々の型（数値型、文字列型、ブール型など）を持たせることができます。データフレームは行と列の
両方にインデックスを持っています。

データフレームはシリーズをバリューとして持つディクショナリと見ることができます（各シリーズのインデックスを全体で共有しているようなイメージです）。データフレームの内部データは、リストやディクショナリ、またはその他の1次元配列などの形式ではなく、1次元か2次元以上の形式で保存されています。

データフレームを作成する方法はたくさんあります。しかし、最も一般的な方法は、同じ長さを持つリスト型のバリューを持ったディクショナリか、NumPyの配列を使う方法です。

In [0]:
data = {'state': ['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada', 'Nevada'],
        'year': [2000, 2001, 2002, 2001, 2002, 2003],
        'pop': [1.5, 1.7, 3.6, 2.4, 2.9, 3.2]}
frame = pd.DataFrame(data)

作成されるデータフレームは、シリーズと同じように自動的にインデックスが代入されます。そして、
列はソートされた順番に配置されます。

In [0]:
frame

Jupyter Notebookを使っている場合は、pandasのデータフレームオブジェクトは、ブラウザで見やすいHTML形式の表として表示されます。

大きなデータフレームの場合は、headメソッドを使うと最初の5行だけが抽出されます。

In [0]:
frame.head()

In [0]:
pd.DataFrame(data, columns=['year', 'state', 'pop'])

指定した列がデータを持っていない場合は、その列は結果として欠損値が代入されます。

In [0]:
frame2 = pd.DataFrame(data, columns=['year', 'state', 'pop', 'debt'],
                      index=['one', 'two', 'three', 'four', 'five', 'six'])
frame2

In [0]:
frame2.columns

データフレームの列はディクショナリ風の参照や、属性指定をすることで、シリーズとして取り出すことができます。

In [0]:
frame2['state']

In [0]:
frame2.year

取り出したシリーズはデータフレームの持っていたインデックスと同じインデックスを持ち、name属性も適切に設定されています。
行も位置や名前で参照することができます。名前で参照するときには、locという属性を使います。

In [0]:
frame2.loc['three']

列の値は代入して変更できます。次の例のように、NA値になっていた'debt'列にスカラー値や配列を代入して変更することができます。

In [0]:
frame2['debt'] = 16.5
frame2

In [0]:
import numpy as np
frame2['debt'] = np.arange(6.)
frame2

列にリストや配列を代入するときは、それらの長さはデータフレームの長さと一致している必要があります。シリーズを列に代入する場合は、ラベルはデータフレームのインデックスに従って正確に一致
するように代入が行われ、データフレームのインデックスに対応するものがない場合は、欠損値が挿入されます。

In [0]:
val = pd.Series([-1.2, -1.5, -1.7], index=['two', 'four', 'five'])

In [0]:
frame2['debt'] = val

In [0]:
frame2

存在しない列に代入を行うと、新しい列が作成されます。delキーワードを使うと、ディクショナリと同じように列を消すことができます。
delの例を紹介するために、まず、state列が'Ohio'であるかどうかを示す真偽値を持った列を追加します。

In [0]:
frame2['eastern'] = frame2.state == 'Ohio'

In [0]:
frame2

そして、列を削除するためにdelキーワードを使います。

In [0]:
del frame2['eastern']

In [0]:
frame2.columns

データフレームをインデックスで参照して取得できる列は、データフレームの内部に持って
いるデータへの参照ビューであり、コピーではありません。つまり、取得したシリーズに対
して置き換えなどの変更を行うと、データフレームにも反映されます。列は明示的にシリー
ズのcopyメソッドを使うとコピーを取得することができます。

他の一般的なデータ形式に、ネストしたディクショナリがあります。

In [0]:
pop = {'Nevada': {2001: 2.4, 2002: 2.9},
       'Ohio': {2000: 1.5, 2001: 1.7, 2002: 3.6}}

このネストしたディクショナリをデータフレームに渡すと、pandasは外側のディクショナリのキーを
列のインデックスとして解釈し、内側のインデックスのキーを行のインデックスとして解釈します。

In [0]:
frame3 = pd.DataFrame(pop)
frame3

データフレームはNumPyの配列と同様な文法で転置（行と列を入れ替える）することができます。

In [0]:
frame3.T

内側のディクショナリのキーは統合した後にソートされ、データフレームのインデックスになります。
しかし、明示的にインデックスを指定した場合は、この処理は行われません。

In [0]:
pd.DataFrame(pop, index=[2001, 2002, 2003])

シリーズをバリューに持つディクショナリを使う場合も同じように扱われます。

In [0]:
pdata = {'Ohio': frame3['Ohio'][:-1],
         'Nevada': frame3['Nevada'][:2]}

In [0]:
pd.DataFrame(pdata)

データフレームのindexやcolumnsがname属性を持っている場合は、これらもコンソールに出力され
ます。

In [0]:
frame3.index.name = 'year'; frame3.columns.name = 'state'
frame3

シリーズと同じように、values属性を参照すると、データフレームの中のデータが2次元のndarray
として戻されます。

In [0]:
frame3.values