# pandas-02 Series

<img src="http://goo.gl/ht49rJ" >


#### 2017 FinanceData http://fb.com/financedata


# Series
* 1차원 배열 모습의 자료구조이며, 각 요소는 NumPy의 데이터 타입
* numpy.ndarray 의 서브클래스
* 값과 값에 대한 인덱스(index)로 구성
* 리스트, 딕셔너리 혹은 다른 시리즈로 부터 생성

In [1]:
import pandas as pd
from pandas import Series, DataFrame

In [2]:
pd.__version__

'0.18.1'

# 리스트에서 생성

일반적으로 리스트, 딕셔너리 혹은 다른 시리즈로 부터 생성한다.

In [3]:
s = Series([7, 0, -3, 8, 1])
s

0    7
1    0
2   -3
3    8
4    1
dtype: int64

In [4]:
print(s.values)
print(s.index)

[ 7  0 -3  8  1]
RangeIndex(start=0, stop=5, step=1)


# Series 생성하면서 인덱스를 지정
* 숫자 인덱스는 0에서 시작한다. 0:3 0, 1, 2
* 값에 접근할 때는 라벨을 인덱스로 이용

In [5]:
s = Series([7, 0, -3, 8, 1], index=['A', 'B', 'C', 'D', 'E'])
s

A    7
B    0
C   -3
D    8
E    1
dtype: int64

# 딕셔너리에서 Series 생성

In [6]:
s = Series({'A':7, 'B':0, 'C':-3, 'D':8})
s

A    7
B    0
C   -3
D    8
dtype: int64

# Series 접근

In [7]:
s = Series({'A':7, 'B':0, 'C':-3, 'D':8})

In [8]:
s['D']  # s[3] 과 같다.

8

In [9]:
s[['B', 'D']]

B    0
D    8
dtype: int64

In [10]:
s = Series({'A':7, 'B':0, 'C':-3, 'D':8})

print (s[0:3])      # 숫자 인덱스는 0에서 시작, 끝점은 포함하지 않는다.
print (s['A':'C'])  # 라벨 이름은 끝점을 포함

A    7
B    0
C   -3
dtype: int64
A    7
B    0
C   -3
dtype: int64


# 필터링과 연산
* 필터링: 값의 비교를 통해 Series의 일부를 추출
* NumPy 배열: 1)필터링, 2)스칼라 곱, 3)산술 연산을 인덱스-값 연계하여 수행

In [11]:
# 조건에 해당하는 요소 추출 (Booelan Mask)
s = Series({'A':7, 'B':0, 'C':-3, 'D':8})

s[s > 0] 

A    7
D    8
dtype: int64

In [12]:
# 스칼라 곱 (연산)
s = Series({'A':7, 'B':0, 'C':-3, 'D':8})

s10 = s * 10 
s10

A    70
B     0
C   -30
D    80
dtype: int64

In [13]:
# 범위에 값 할당
s = Series({'A':7, 'B':0, 'C':-3, 'D':8})

s[1:4] =  10 
s

A     7
B    10
C    10
D    10
dtype: int64

# Series를 다른 측면에서 보면
* 딕셔너리와(dict) 와 매우 유사
* 차이점: 요소에 임의 라벨을 붙일 수 있고, 요소의 타입이 서로 다를 수 있다
* 순서 있는 사전, 인덱스 값과 데이터 값이 매핑

# Series간 연산


In [14]:
a = Series([2, 3, 6, -4], index=['A', 'B', 'C', 'D'])
b = Series([10, 2, 3, 8], index=['B', 'C', 'D', 'E'])

c = a + b
c

A     NaN
B    13.0
C     8.0
D    -1.0
E     NaN
dtype: float64

# 누락 데이터(missing data)

In [15]:
# 누락 데이터(NaN)를 0으로 채우기
print (c)
print ('-' * 40)

fill_c = c.fillna(0)
print(fill_c)

A     NaN
B    13.0
C     8.0
D    -1.0
E     NaN
dtype: float64
----------------------------------------
A     0.0
B    13.0
C     8.0
D    -1.0
E     0.0
dtype: float64


# dropna()

In [16]:
# dropna(), NaN 요소 삭제
print(c)
print ('-' * 40)

drop_c = c.dropna()
print(drop_c)

A     NaN
B    13.0
C     8.0
D    -1.0
E     NaN
dtype: float64
----------------------------------------
B    13.0
C     8.0
D    -1.0
dtype: float64


# append()
자주 사용하지는 않지만, 시리즈에 값을 추가할때 사용

In [17]:
print (s)
print ('-' * 40)

f = Series(-1, index=['F'])
t = s.append(f)
t

A     7
B    10
C    10
D    10
dtype: int64
----------------------------------------


A     7
B    10
C    10
D    10
F    -1
dtype: int64

# 인덱스 이름 변경
* 인덱스 이름을 바꾸려면, index 속성에 리스트를 할당
* 요소의 개수는 작거나 같아야 (작으면 나머지는 삭제)
* Series 객체를 새로 생성하는 것이 아니라, 기존 Series 객체의 인덱스를 변경

In [18]:
print (s)
print ('-' * 40)

s.index = ['Alfa', 'Bravo', 'Charlie', 'Delta']
print(s)

A     7
B    10
C    10
D    10
dtype: int64
----------------------------------------
Alfa        7
Bravo      10
Charlie    10
Delta      10
dtype: int64


# 리뷰

* Series 생성: 일반적으로 리스트, 딕셔너리로 부터
* Series간 산술연산, 필터링
* 누락 데이터(missing data) 처리: fillna(), dropna()
* append()
* 인덱스 이름 변경, s.index = []

----
#### 2017 FinanceData http://fb.com/financedata http://financedata.github.com