# pandas 入門

参考文献 「Pythonによるデータ分析入門」

以下のように pandas の import を行うのが慣習です。

In [1]:
import pandas as pd

numpy モジュールは import しておきます。

In [16]:
import numpy as np

## 5.1 pandas のデータ構造

pandas には Series と DataFrame という２つのデータ構造があります。

### 5.1.1 Series

最もシンプルな Series は、１つのデータ配列のみで構成されます。

In [2]:
obj = pd.Series([4, 7, -5, 3])

In [3]:
obj

0    4
1    7
2   -5
3    3
dtype: int64

インデックスが左側、データ値が右側に表示されます。
ここではインデックスを指定していないため、0〜3 のデフォルトのインデックスになっています。
values 属性、 index 属性で、データ配列とインデックスオブジェクトをそれぞれ取得できます。

In [4]:
obj.values

array([ 4,  7, -5,  3])

In [5]:
obj.index

RangeIndex(start=0, stop=4, step=1)

値を参照するときにインデックスで指定することができます。

In [18]:
obj[1]

7

In [19]:
obj[1:3]

1    7
2   -5
dtype: int64

インデックス付きの Series のほうが適切な場合もある。

In [6]:
obj2 = pd.Series([4, 7 ,-5, 3], index=['daikon', 'banana', 'apple', 'cherry'])

In [7]:
obj2

daikon    4
banana    7
apple    -5
cherry    3
dtype: int64

In [8]:
obj2.index

Index(['daikon', 'banana', 'apple', 'cherry'], dtype='object')

In [9]:
obj2['apple']

-5

In [10]:
obj2['daikon'] = 6

In [12]:
obj2[['cherry', 'apple', 'daikon']]

cherry    3
apple    -5
daikon    6
dtype: int64

In [13]:
obj2

daikon    6
banana    7
apple    -5
cherry    3
dtype: int64

In [14]:
obj2[obj2 > 0]

daikon    6
banana    7
cherry    3
dtype: int64

In [15]:
obj2 * 2

daikon    12
banana    14
apple    -10
cherry     6
dtype: int64

In [17]:
np.exp(obj2)

daikon     403.428793
banana    1096.633158
apple        0.006738
cherry      20.085537
dtype: float64

ディクショナリのようにも機能します

In [22]:
'banana' in obj2

True

In [23]:
'egg' in obj2

False

ディクショナリ形式のデータから Series を作ることもできます。

In [25]:
sdata = {'Ohio': 35000, 'Texas':71000, 'Oregon':16000, 'Utah':5000}

In [26]:
obj3 = pd.Series(sdata)

In [27]:
obj3

Ohio      35000
Texas     71000
Oregon    16000
Utah       5000
dtype: int64