In [18]:
import numpy as np
import pandas as pd
from pandas import Series

Series는 일련의 객체를 담을 수 있는 1차원 배열 같은 자료구조이다. 그리고 **색인**이라고 하는 배열의 데이터와 연관된 이름을 가지고 있다.  
가장 간단한 Series 객체는 배열 데이터로부터 생성할 수 있다.

In [2]:
obj = pd.Series([4, 7, -5, 3])

In [3]:
obj

0    4
1    7
2   -5
3    3
dtype: int64

Series 객체의 문자여 표현은 왼쪽에 색인을 보여주고 오른쪽에 해당 색인의 값을 보여준다. 데이터의 색인을 지정해주지 않으면 기본 색인인 정수 0에서 N-1까지의 숫자가 표시된다. Series의 배열과 색인 객체는 각각 **values**와 **index** 속성을 통해 얻을 수 있다.

In [4]:
obj.values

array([ 4,  7, -5,  3])

In [5]:
obj.index

RangeIndex(start=0, stop=4, step=1)

각각의 데이터를 지정하는 색인을 지정하여 Series 객체를 생성해야 할 때는 다음과 같이 한다.

In [6]:
obj2 = pd.Series([4, 7, -5, 3], index=['a', 'b', 'c', 'd'])

In [7]:
obj2

a    4
b    7
c   -5
d    3
dtype: int64

단일 값을 선택하거나 여러 값을 선택할 때 색인으로 라벨을 사용할 수 있다.

In [8]:
obj2['a']

4

In [9]:
obj2['c']

-5

In [11]:
obj2[['c', 'b', 'd']]

c   -5
b    7
d    3
dtype: int64

Boolean 배열을 사용해서 값을 걸러 내거나 산술 곱섹을 수행하거나 또는 수학 함수를 적용하는 등 NumPy 배열 연산을 수행해도 색인-값 연결이 유지된다.

In [15]:
obj2[obj2 > 1]

a    4
b    7
d    3
dtype: int64

In [16]:
obj2 * 2

a     8
b    14
c   -10
d     6
dtype: int64

In [19]:
np.exp(obj2)

a      54.598150
b    1096.633158
c       0.006738
d      20.085537
dtype: float64

Series 객체는 파이썬의 사전형을 인자로 받아야 하는 많은 함수에서 사전형을 대체하여 사용할 수 있다.

In [20]:
'b' in obj2

True

In [21]:
'e' in obj2

False

파이썬 사전형에 데이터를 저장해야 한다면 파이썬 사전 객체로부터 Series 객체를 생성할 수도 있다.

In [22]:
sdata = {'Seoul': 35000, 'Daegu': 40000, 'Suwon': 9100, 'Busan': 5000}

In [23]:
obj3 = pd.Series(sdata)

In [24]:
obj3

Seoul    35000
Daegu    40000
Suwon     9100
Busan     5000
dtype: int64

dictionary 객체만 가지고 Series 객체를 생성하면 Series 객체의 색인에는 사전의 키값이 순서대로 들어간다. 색인을 직접 지정하고 싶으면 원하는 순서대로 색인을 직접 넘겨줄 수도 있다.

In [25]:
states = ['Incheon', 'Seoul', 'Suwon', 'Daegu']

In [26]:
obj4 = pd.Series(sdata, index=states)

In [27]:
obj4

Incheon        NaN
Seoul      35000.0
Suwon       9100.0
Daegu      40000.0
dtype: float64

'Incheon'에 대한 값은 NaN(not a number)로 표시되는데 pandas에서는 누락된 값, 혹은 NA값으로 취급한다.  
pandas의 **isnull**과 **notnull** 함수는 누락된 데이터를 찾을 때 사용한다.

In [28]:
pd.isnull(obj4)

Incheon     True
Seoul      False
Suwon      False
Daegu      False
dtype: bool

In [29]:
pd.notnull(obj4)

Incheon    False
Seoul       True
Suwon       True
Daegu       True
dtype: bool

In [30]:
obj4.isnull()

Incheon     True
Seoul      False
Suwon      False
Daegu      False
dtype: bool

Series의 유용한 기능은 산술 연산에서 색인과 라벨로 자동 정렬하는 것이다.

In [31]:
obj3

Seoul    35000
Daegu    40000
Suwon     9100
Busan     5000
dtype: int64

In [32]:
obj4

Incheon        NaN
Seoul      35000.0
Suwon       9100.0
Daegu      40000.0
dtype: float64

In [33]:
obj3 + obj4

Busan          NaN
Daegu      80000.0
Incheon        NaN
Seoul      70000.0
Suwon      18200.0
dtype: float64

Series 객체와 Series 색인은 모두 name 속성이 있는데 이 속성은 pandas의 핵심 기능과 밀접한 연관이 있다.

In [34]:
obj4.name = 'population'

In [35]:
obj4.index.name = 'state'

In [36]:
obj4

state
Incheon        NaN
Seoul      35000.0
Suwon       9100.0
Daegu      40000.0
Name: population, dtype: float64

Series의 색인은 대입하여 변경할 수 있다.

In [37]:
obj

0    4
1    7
2   -5
3    3
dtype: int64

In [38]:
obj.index = ['Paul', 'Alex', 'Jason', 'Gina']

In [39]:
obj

Paul     4
Alex     7
Jason   -5
Gina     3
dtype: int64