In [1]:
import numpy as np
import pandas as pd

### Seriesオブジェクト
１次元のインデクス付きデータ、リストまたは配列から作成できる

In [2]:
data = pd.Series([0.25, 0.5, 0.75, 1.0])
data

0    0.25
1    0.50
2    0.75
3    1.00
dtype: float64

In [3]:
data.values

array([0.25, 0.5 , 0.75, 1.  ])

In [4]:
data.index

RangeIndex(start=0, stop=4, step=1)

In [5]:
# Numpyと同様にインデクスからデータにアクセスできる
data[1]

0.5

In [6]:
data[1:3]

1    0.50
2    0.75
dtype: float64

In [7]:
# インデクスは整数である必要はなく、任意の型で構成できる
data = pd.Series([0.25, 0.5, 0.75, 1.0],
                                index=['a', 'b', 'c', 'd'])
data

a    0.25
b    0.50
c    0.75
d    1.00
dtype: float64

In [8]:
# 値へのアクセス
data['b']

0.5

In [9]:
# インデクスは連続していなくても、順番に並んでいなくても良い
data = pd.Series([0.25, 0.5, 0.75, 1.0],
                                index=[2, 5, 3, 7])
data

2    0.25
5    0.50
3    0.75
7    1.00
dtype: float64

In [10]:
data[5]

0.5

#### 特殊辞書としてのSeries

In [14]:
population_dict = {'California': 38332521,
                                  'Texas': 26448193,
                                  'New York': 19651127,
                                  'Florida': 19552860,
                                  'Illinois': 12882135}
population = pd.Series(population_dict)
population

California    38332521
Florida       19552860
Illinois      12882135
New York      19651127
Texas         26448193
dtype: int64

In [12]:
population['California']

38332521

In [13]:
# スライスの操作もサポートされている
population['California':'Illinois']

California    38332521
Florida       19552860
Illinois      12882135
dtype: int64

### DataFrameオブジェクト

In [15]:
area_dict = {'California': 423967,
                      'Texas': 695662,
                      'New York': 141297,
                      'Florida': 170312,
                      'Illinois': 149995}
area = pd.Series(area_dict)
area

California    423967
Florida       170312
Illinois      149995
New York      141297
Texas         695662
dtype: int64

In [16]:
states = pd.DataFrame({'population': population,
                                          'area': area})
states

Unnamed: 0,area,population
California,423967,38332521
Florida,170312,19552860
Illinois,149995,12882135
New York,141297,19651127
Texas,695662,26448193


In [17]:
states.index

Index(['California', 'Florida', 'Illinois', 'New York', 'Texas'], dtype='object')

In [18]:
states.columns

Index(['area', 'population'], dtype='object')

In [19]:
# 列名のキーを指定すると　Seriesオブジェクトが返される
states['area']

California    423967
Florida       170312
Illinois      149995
New York      141297
Texas         695662
Name: area, dtype: int64

#### DataFrameオブジェクトの作成

In [20]:
# Seriesオブジェクトから作成する
# データフレームはSeriesオブジェクトのコレクションであり、１つのSeriesオブジェクトからは１つの列を持つ
# DataFrameが作成される
pd.DataFrame(population, columns=['population'])

Unnamed: 0,population
California,38332521
Florida,19552860
Illinois,12882135
New York,19651127
Texas,26448193


In [21]:
# 辞書のリストから作成する
# 辞書のリストは全てDataFrameにすることができる
data = [{'a': i, 'b': 2 * i} for i in range(3)]
pd.DataFrame(data)

Unnamed: 0,a,b
0,0,0
1,1,2
2,2,4


In [22]:
# 辞書内に値が見つからない場合、pandasはsorerawoNaN値で埋める
pd.DataFrame([{'a': 1, 'b': 2},{'b': 3, 'c': 4}])

Unnamed: 0,a,b,c
0,1.0,2,
1,,3,4.0


In [23]:
# Seriesオブジェクトの辞書から作成する
pd.DataFrame({'population': population,
                                          'area': area})

Unnamed: 0,area,population
California,423967,38332521
Florida,170312,19552860
Illinois,149995,12882135
New York,141297,19651127
Texas,695662,26448193


In [24]:
# ２次元NumPy配列から作成する
pd.DataFrame(np.random.rand(3, 2),
                        columns=['foo', 'bar'],
                        index=['a', 'b', 'c'])

Unnamed: 0,foo,bar
a,0.268915,0.717892
b,0.258781,0.745766
c,0.350262,0.78025


In [25]:
# NumPy構造化配列から作成する
A = np.zeros(3, dtype=[('A', 'i8'), ('B', 'f8')])
A

array([(0, 0.), (0, 0.), (0, 0.)], dtype=[('A', '<i8'), ('B', '<f8')])

In [26]:
pd.DataFrame(A)

Unnamed: 0,A,B
0,0,0.0
1,0,0.0
2,0,0.0


### Indexオブジェクト

In [27]:
# 整数のリストからIndexを構築
ind = pd.Index([2, 3, 5, 7, 11])
ind

Int64Index([2, 3, 5, 7, 11], dtype='int64')

In [28]:
# 不変配列としてのIndex
ind[1]

3

In [29]:
ind[::2]

Int64Index([2, 5, 11], dtype='int64')

In [31]:
# IndexオブジェクトにはNumPy配列の備える多くの属性も持っている
print(ind.size, ind.shape, ind.ndim, ind.dtype)

5 (5,) 1 int64


In [32]:
# NumPy配列との違いはインデクスが不変であるため、通常の方法では値を変更できない
ind[1] = 0

TypeError: Index does not support mutable operations

#### 順序付き集合(set)としてのIndex
データセット間の結合と行った多くの集合演算で使用する操作を容易にするため、設計されている。<br>
Indexオブジェクトは**和集合**(union)、**積集合**(intersection)、**差集合**(difference)を簡単に計算できる

In [36]:
indA = pd.Index([1, 3, 5, 7, 9])
indB = pd.Index([2, 3, 5, 7, 11])

In [37]:
indA & indB # intersection（積集合）

Int64Index([3, 5, 7], dtype='int64')

In [38]:
indA | indB # union（和集合）

Int64Index([1, 2, 3, 5, 7, 9, 11], dtype='int64')

In [39]:
indA ^ indB # symmetric difference（対称差）

Int64Index([1, 2, 9, 11], dtype='int64')

In [40]:
# 上記の操作はオブジェクトメソッドでも可能
indA.intersection(indB)

Int64Index([3, 5, 7], dtype='int64')