# 실습: pandas 01

# 시리즈 (Series)
* 1차원 배열 모습의 자료구조이며, 각 요소는 NumPy의 데이터 타입
* numpy.ndarray 의 서브클래스
* 값과 값에 대한 인덱스(index)로 구성 (인덱스 라벨이 rodered 필요는 없으며, 중복 가능)
* Series 생성은 리스트, 딕셔너리, 시리즈로 부터 생성


In [1]:
import pandas as pd
from pandas import Series, DataFrame

In [2]:
pd.__version__

'0.17.1'

# 리스트에서 생성

In [3]:
s = Series([7, 0, -3, 8, 1])
s

0    7
1    0
2   -3
3    8
4    1
dtype: int64

In [4]:
s.values

array([ 7,  0, -3,  8,  1])

In [5]:
s.index

Int64Index([0, 1, 2, 3, 4], dtype='int64')

# 시리즈를 생성하면서 인덱스를 지정

In [6]:
s = Series([7, 0, -3, 8, 1], index=['A', 'B', 'C', 'D', 'E'])
s

A    7
B    0
C   -3
D    8
E    1
dtype: int64

# 만들어진 시리즈에 인덱스를 부여

In [7]:
s = Series([7, 0, -3, 8, 1])
s.index = ['A', 'B', 'C', 'D', 'E']
s

A    7
B    0
C   -3
D    8
E    1
dtype: int64

# 특정 라벨의 값 읽기
값에 접근할 때는 라벨을 인덱스로 이용한다.


In [8]:
s['D']  # t[3] 과 같다.

8

In [9]:
s[['B', 'D']] 


B    0
D    8
dtype: int64

# 특정 값들을 한번에 추출
* 인덱스를 배열로 만들어, 특정 값들을 한번에 추출
* 인덱스에 해당하는 값이 없으면 NaN

In [10]:
s[['C', 'D', 'E', 'G']]

C    -3
D     8
E     1
G   NaN
dtype: float64

In [11]:
s[0:3]

A    7
B    0
C   -3
dtype: int64

# ROW 인덱스와 라벨 끝점 
s[0:3]에서는 끝점을 포함, 라벨 이름은 끝점을 포함

In [12]:
s['A':'C']

A    7
B    0
C   -3
dtype: int64

# 필터링
값의 비교를 통해 추출
* NumPy 배열: 1)필터링, 2)스칼라 곱, 3)산술 연산을 인덱스-값 연계하여 수행

In [13]:
s[s > 0]

A    7
D    8
E    1
dtype: int64

# 스칼라 곱

In [14]:
s10 = s * 10
s10

A    70
B     0
C   -30
D    80
E    10
dtype: int64

# Series를 다른 측면에서 보면
* dict 와 유사
* 고정길이, 순서 있는 사전, 인덱스 값과 데이터 값이 매핑

# dict 에서 시리즈 생성

In [15]:
s = Series([7, 0, -3, 8], index=['A', 'B', 'C', 'D'])
s = Series({'A':7, 'B':0, 'C':-3, 'D':8})

# 시리즈로 부터 시리즈 생성
key를 전달하면 key의 순서대로 시리즈를 생성, 키값이 없으면 NaN 

In [16]:
s2 = Series(s, index=['B', 'A', 'C', 'D', 'E'])
s2

B     0
A     7
C    -3
D     8
E   NaN
dtype: float64

# Series간 연산

In [17]:
a = Series([2, 3, 6, -4], index=['A', 'B', 'C', 'D'])
b = Series([10, 2, 3, 8], index=['B', 'C', 'D', 'E'])

c = a + b
c

A   NaN
B    13
C     8
D    -1
E   NaN
dtype: float64

# 누락 데이터 처리
누락 데이터(missing data, NaN)을 특정 값으로 채우기

In [18]:
fill_c = c.fillna(0) # 누락 데이터(NaN)를 0으로 채우기
fill_c

A     0
B    13
C     8
D    -1
E     0
dtype: float64

# dropna()
NA 요소 삭제

In [19]:
drop_c = c.dropna()
drop_c

B    13
C     8
D    -1
dtype: float64

# append()
자주 사용하지는 않지만, 시리즈에 값을 추가할때 사용한다. append()

In [20]:
f = Series(-1, index=['F'])
t = s.append(f)
t

A    7
B    0
C   -3
D    8
F   -1
dtype: int64

# 인덱스 이름 변경
* 인덱스 이름을 바꾸려면, index 속성에 리스트를 할당
* 요소의 개수는 작거나 같아야 (작으면 나머지는 삭제)
* Series 객체를 새로 생성하는 것이 아니라, 기존 Series 객체의 인덱스를 변경

In [21]:
n = Series([2, 3, 6, -4], index=['A', 'B', 'C', 'D'])
print (n)

n.index = ['Alpha', 'Bravo', 'Charlie', 'Delta'] 
print (n)

A    2
B    3
C    6
D   -4
dtype: int64
Alpha      2
Bravo      3
Charlie    6
Delta     -4
dtype: int64
