# 5. Pandas 시작하기

<img src='files/images/panda.jpeg' width="300px" />

- 가장 자주 살펴볼 라이브러리
- 고수준의 자료구조와 파이썬을 통한 빠르고 쉬운 데이터 분석 도구 포함
- NumPy 기반에서 개발되어 NumPy를 사용하는 애플리케이션에서 쉽게 사용

## Pandas 개발 동기

- 자동적으로 혹은 명시적으로 축의 이름에 따라 데이터를 정렬할 수 있는 자료 구조. 잘못 정렬된 데이터에 의한 일반적인 오류를 에방하고 다양한 소스에서 가져온 다양한 방식으로 색인되어 있는 데이터를 다룰 수 있는 기능
- 통합된 시계열 기능
- 시계열 데이터와 비시계열 데이터를 함께 다룰 수 있는 통합 자료 구조
- 산술연산과 한 축의 모든 값을 더하는 등의 데이터 축약연산은 축의 이름 같은 메타데이터로 전달될 수 있어야 함
- 누락된 데이터를 유연하게 처리할 수 있는 기능
- SQL 같은 일반 데이터베이스처럼 데이터를 합치고 관계연산을 수행하는 기능
- 간편함, 단숨함에 대한 기본 방침

### Pandas import 컨벤션

from pandas import Series, DataFrame

import pandas as pd

- pd. 으로 시작하는게 좋지만 Series와 DataFrame은 많이 사용하기 때문에 local namespace로 import 하는 것이 훨씬 편함

## 5.1 pandas 자료 구조 소개

### 5.1.1. Series

- Series는 일련의 객체를 담을 수 있는 1차원 배열 같은 자료 구조(어떤 NumPy 자료형이라도 담을 수 있다)
- 색인이라고 하는 배열의 데이터에 연관된 이름을 가지고 있다.

In [1]:
from pandas import Series, DataFrame
import pandas as pd
import numpy as np

In [2]:
obj = Series([4, 7, -5, 3])

In [3]:
# Error! 배열이나 사전형으로 넘겨야 됨
obj2 = Series(4,7)

TypeError: Index(...) must be called with a collection of some kind, 7 was passed

In [4]:
obj

0    4
1    7
2   -5
3    3
dtype: int64

- 왼쪽에 색인
- 오른쪽에 색인의 값

In [5]:
obj.values

array([ 4,  7, -5,  3])

In [6]:
obj.index

RangeIndex(start=0, stop=4, step=1)

In [7]:
obj2 = Series([4, 7, -5, 3], index=['d', 'b', 'a', 'c'])

In [8]:
obj2

d    4
b    7
a   -5
c    3
dtype: int64

In [9]:
obj2.index

Index(['d', 'b', 'a', 'c'], dtype='object')

In [10]:
#인덱스로 해당 값을 얻을 수 있다.
obj2['a']

-5

In [11]:
obj2['d'] = 6

In [12]:
obj2[['c', 'a', 'd']]

c    3
a   -5
d    6
dtype: int64

In [13]:
obj2

d    6
b    7
a   -5
c    3
dtype: int64

- 불리언 배열을 사용해서 값을 걸러내거나 산술 곱셈을 수행하거나 또는 수학 함수를 적용하는 등 NumPy 배열연산을 수행해도 색인-값 연결은 유지

In [14]:
obj2[obj2 > 0]

d    6
b    7
c    3
dtype: int64

In [15]:
#벡터화
obj2 * 2

d    12
b    14
a   -10
c     6
dtype: int64

In [16]:
#해당 시리즈 각 원소의 지수를 계산해줌.
np.exp(obj2)

d     403.428793
b    1096.633158
a       0.006738
c      20.085537
dtype: float64

#### Series == 고정 길이의 정렬된 사전형

In [17]:
#특정값이 데이터에 속해있는지 확인할 수 있다.
'b' in obj2

True

In [18]:
'e' in obj2

False

In [19]:
#파이썬 기본 타입인 사전으로부터 시리즈를 만들 수 있다.
sdata = {'Ohio': 35000,
         'Texas': 71000,
         'Oregon': 16000,
         'Utah': 5000}

In [20]:
obj3 = Series(sdata)

In [21]:
obj3

Ohio      35000
Oregon    16000
Texas     71000
Utah       5000
dtype: int64

In [22]:
states = ['California', 'Ohio', 'Oregon', 'Texas']

In [23]:
obj4 = Series(sdata, index=states)

In [24]:
#인덱스 'California'에 해당하는 값이 없으므로 NaN으로 표시된다.
obj4

California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
dtype: float64

#### NaN(not a number)

- pandas에서는 누락된 값 혹은 NA 값으로 취급
- '누락된'과 'NA'를 누락된 데이터로 지칭
- pandas의 isnull과 notnull 함수는 누락된 함수를 찾을 때 사용
- 일반적인 프로그래밍 언어에서는 NULL 이라고도 한다.
- 각 프로그래밍 언어마다 다르지만 거의 비슷한 개념이 존재한다.

In [25]:
# NaN값이면 True를 반환하고 값이 있을 경우 False를 반환한다
pd.isnull(obj4)

California     True
Ohio          False
Oregon        False
Texas         False
dtype: bool

In [26]:
# NaN값이면 False를 반환하고 값이 있을 경우 True를 반환한다
pd.notnull(obj4)

California    False
Ohio           True
Oregon         True
Texas          True
dtype: bool

#### Series의 인스턴스 메서드

- 'hi'.isalpha()와 같이 인스턴스에서 바로 사용할 수 있는 편리함

In [27]:
obj4.isnull()

California     True
Ohio          False
Oregon        False
Texas         False
dtype: bool

In [28]:
obj4.notnull()

California    False
Ohio           True
Oregon         True
Texas          True
dtype: bool

#### Seriese의 가장 중요한 기능 - 다르게 색인된 데이터에 대한 산술연산

1. 다르게 색인된 데이터에 각각 값이 있어야 하며
2. intersection이 되지 않는다면 NaN 표시
3. intersecion이 된다면 해당 operator 연산

In [29]:
# 두 시리즈에 연산을 하면 공통의 인덱스가 있는 부분만 처리된다
obj3

Ohio      35000
Oregon    16000
Texas     71000
Utah       5000
dtype: int64

In [30]:
obj4

California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
dtype: float64

In [31]:
obj3 + obj4

California         NaN
Ohio           70000.0
Oregon         32000.0
Texas         142000.0
Utah               NaN
dtype: float64

#### Series 객체와 Series의 색인은 모두 name 속성 존재

In [32]:
#obj4시리즈의 이름은 population이고
obj4.name = 'population'

In [33]:
##obj4시리즈 인덱스의 이름이 state이다.
obj4.index.name = 'state'

In [34]:
obj4

state
California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
Name: population, dtype: float64

In [35]:
obj

0    4
1    7
2   -5
3    3
dtype: int64

In [36]:
#인덱스를 임의로 지정할 수 있다.
obj.index = ['Bob', 'Steve', 'Jeff', 'Ryan']

In [37]:
obj

Bob      4
Steve    7
Jeff    -5
Ryan     3
dtype: int64

In [38]:
# 색인의 갯수를 맞춰줘야 한다.
obj.index = ['Bob', 'Steve', 'Jeff']

ValueError: Length mismatch: Expected axis has 4 elements, new values have 3 elements

### 5.1.2. DataFrame

- 표 같은 스프레드시트 형식의 자료 구조로 여러 개의 컬럼
- 각 컬럼은 서로 다른 종류의 값(숫자, 문자열, 불리언) 담을 수 있다
- DataFrame은 로우와 컬럼에 대한 색인 존재.
- 이 DataFrame은 색인의 모양이 같은 Series 객체를 담고 있는 파이썬 사전으로 생각하면 편하다.
- R의 data.frame 같은 다른 DataFrame과 비슷한 자료 구조와 비교했을 때, DataFrame에서의 로우 연산과 컬럼 연산은 거의 대칭적으로 취급
- 내부적으로 데이터는 하나 이상의 2차원 배열에 저장
- 고차원의 표 형식 데이터를 나중에 살펴볼 계층적 색인(**Hierachical indexing**)을 통해 쉽게 표현(고급 기능에 필수적인 요소)

#### DataFrame 객체 생성

1. 같은 길이의 리스트에 담긴 사전 이용
1. NumPy 배열 이용

In [39]:
#사전으로부터 데이터프레임을 만드는 법
data = {'state': ['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada'],
        'year': [2000, 2001, 2002, 2001, 2002],
        'pop': [1.5, 1.7, 3.6, 2.4, 2.9]}

In [40]:
frame = DataFrame(data)

In [41]:
frame

Unnamed: 0,pop,state,year
0,1.5,Ohio,2000
1,1.7,Ohio,2001
2,3.6,Ohio,2002
3,2.4,Nevada,2001
4,2.9,Nevada,2002


In [42]:
# 원하는 순서대로 Column 지정 가능
# SQL에서 SELECT year, state pop FROM data 와 비슷하게 컬럼명 순서를 지정할 수 있다.
DataFrame(data, columns=['year', 'state', 'pop'])

Unnamed: 0,year,state,pop
0,2000,Ohio,1.5
1,2001,Ohio,1.7
2,2002,Ohio,3.6
3,2001,Nevada,2.4
4,2002,Nevada,2.9


In [43]:
# 없는 칼럼 값을 주면 NaN으로 처리된다.(아래에서 debt)
# 아래에서 인덱스 값을 새롭게 정의할 수 있다.

frame2 = DataFrame(data, columns=['year', 'state', 'pop', 'debt'],
                   index=['one', 'two', 'three', 'four', 'five'])

In [44]:
frame2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,
two,2001,Ohio,1.7,
three,2002,Ohio,3.6,
four,2001,Nevada,2.4,
five,2002,Nevada,2.9,


In [45]:
#데이터프레임의 칼럼값을 확인한다.
frame2.columns

Index(['year', 'state', 'pop', 'debt'], dtype='object')

In [46]:
#frame2의 형식을 확인한다.(DataFrame)
type(frame2)

pandas.core.frame.DataFrame

#### DataFrame 컬럼 접근 방법

1. 사전 형식의 표기법으로 접근(frame2['state'])
1. 속성 형식으로 접근(frame2.state)

In [47]:
# 컬럼(열)을 얻는 방법
frame2['state']

one        Ohio
two        Ohio
three      Ohio
four     Nevada
five     Nevada
Name: state, dtype: object

In [48]:
# 같은 결과를 얻는다 (속성 값으로 액세스)
frame2.state

one        Ohio
two        Ohio
three      Ohio
four     Nevada
five     Nevada
Name: state, dtype: object

In [49]:
frame2.year

one      2000
two      2001
three    2002
four     2001
five     2002
Name: year, dtype: int64

#### 로우는 위치나 ix같은 몇 가지 메서드를 통해 접근 가능

In [50]:
# 로(행)을 얻는 법 
frame2.ix['three']

.ix is deprecated. Please use
.loc for label based indexing or
.iloc for positional indexing

See the documentation here:
http://pandas.pydata.org/pandas-docs/stable/indexing.html#deprecate_ix
  from ipykernel import kernelapp as app


year     2002
state    Ohio
pop       3.6
debt      NaN
Name: three, dtype: object

In [51]:
# error 컬럼값인 year를 넣었을 시
frame2.ix['year']

KeyError: 'year'

In [52]:
# row name으로는 사전형식으로 접근 불가
frame2['three']

KeyError: 'three'

#### 컬럼 대입 가능

- 스칼라 값이나 배열의 값 대입 가능

In [53]:
#벡터화 방법.
frame2['debt'] = 16.5

In [54]:
frame2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,16.5
two,2001,Ohio,1.7,16.5
three,2002,Ohio,3.6,16.5
four,2001,Nevada,2.4,16.5
five,2002,Nevada,2.9,16.5


In [55]:
# numpy.arange(start, stop, step)는 start부터 stop까지 step간격으로 된 배열을 반환한다
# start는 default값으로 0을 가지고 step는 default값으로 1을 가진다
frame2['debt'] = np.arange(5.)

In [56]:
frame2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,0.0
two,2001,Ohio,1.7,1.0
three,2002,Ohio,3.6,2.0
four,2001,Nevada,2.4,3.0
five,2002,Nevada,2.9,4.0


In [57]:
# index 길이와 values의 길이가 같아야한다.
frame2['debt'] = np.arange(10)

ValueError: Length of values does not match length of index

- 리스트나 배열을 칼럼에 대입할 때는 대입하려는 값의 길이가 DataFrame의 크기와 같아야 한다.
- Series를 대입하면 DataFrame의 색인에 따라 값이 대입되며 없는 색인에는 값이 대입되지 않는다.

In [58]:
# 시리즈를 사용하여 컬럼 값을 입력할 수 있다 (없는 인덱스는 NaN이 된다)
val = Series([-1.2, -1.5, -1.7], index=['two', 'four', 'five'])

In [59]:
val

two    -1.2
four   -1.5
five   -1.7
dtype: float64

In [60]:
type(val)

pandas.core.series.Series

In [61]:
frame2['debt'] = val

In [62]:
frame2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,
two,2001,Ohio,1.7,-1.2
three,2002,Ohio,3.6,
four,2001,Nevada,2.4,-1.5
five,2002,Nevada,2.9,-1.7


In [63]:
#frame2에 eastern 칼럼을 만들고 frame2.state가 Ohio면 True값을 넣고 아닐경우 False를 넣는다.
frame2['eastern'] = frame2.state == 'Ohio'

In [64]:
frame2

Unnamed: 0,year,state,pop,debt,eastern
one,2000,Ohio,1.5,,True
two,2001,Ohio,1.7,-1.2,True
three,2002,Ohio,3.6,,True
four,2001,Nevada,2.4,-1.5,False
five,2002,Nevada,2.9,-1.7,False


In [65]:
# 컬럼을 간단히 삭제하는 명령으로 del이 있다.
# 참고로 복사본을 만들지 않고 원본을 바로 수정하므로 주의해야 한다.
del frame2['eastern']

In [66]:
frame2.columns

Index(['year', 'state', 'pop', 'debt'], dtype='object')

In [67]:
frame2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,
two,2001,Ohio,1.7,-1.2
three,2002,Ohio,3.6,
four,2001,Nevada,2.4,-1.5
five,2002,Nevada,2.9,-1.7


- DataFrame의 색인을 이용해서 생성된 칼럼은 내부 데이터에 대한 view이며 복사가 이루어지지 않는다.
- 따라서 이렇게 얻은 Series 객체에 대한 변경은 실제 DataFrame에 반영된다.
- 복사본이 필요할 때는 Series의 copy 메서드를 이용하자

#### 중첩된 사전을 이용해서 데이터 생성

In [68]:
# 중첩된 사전으로부터 바로 데이터프레임을 만들 수 있다.
# 바깥의 인덱스 명이 열이 된다.
pop = {'Nevada': {2001: 2.4,
                  2002: 2.9},
       'Ohio': {2000: 1.5,
                2001: 1.7,
                2002: 3.6}}

In [69]:
pop

{'Nevada': {2001: 2.4, 2002: 2.9}, 'Ohio': {2000: 1.5, 2001: 1.7, 2002: 3.6}}

In [70]:
type(pop)

dict

In [71]:
frame3 = DataFrame(pop)

In [72]:
frame3

Unnamed: 0,Nevada,Ohio
2000,,1.5
2001,2.4,1.7
2002,2.9,3.6


In [73]:
type(frame3)

pandas.core.frame.DataFrame

In [74]:
#'Ohio'칼럼에서 0번째 로우부터 마지막(-1)로우전까지(-1은 포함하지 않는다) 나타낸다.
frame3['Ohio'][:-1]

2000    1.5
2001    1.7
Name: Ohio, dtype: float64

In [75]:
frame3['Nevada'][:2]

2000    NaN
2001    2.4
Name: Nevada, dtype: float64

#### 로우, 컬럼 변경

In [76]:
# 행과 열을 간단히 바꿀 수 있다 (transpose)
frame3.T

Unnamed: 0,2000,2001,2002
Nevada,,2.4,2.9
Ohio,1.5,1.7,3.6


#### index를 직접 지정한다면 지정된 색인으로 DataFrame 생성

In [77]:
# 인덱스를 명시적으로 지정할 수 있다
# 값이 없으면 NaN이 된다
DataFrame(pop, index=[2001, 2002, 2003])

Unnamed: 0,Nevada,Ohio
2001,2.4,1.7
2002,2.9,3.6
2003,,


In [78]:
DataFrame(pop)

Unnamed: 0,Nevada,Ohio
2000,,1.5
2001,2.4,1.7
2002,2.9,3.6


#### Series 객체를 담고 있는 사전 데이터도 같은 방식으로 취급

In [79]:
pdata = {'Ohio': frame3['Ohio'][:-1],
         'Nevada': frame3['Nevada'][:2]}

In [80]:
pdata

{'Nevada': 2000    NaN
 2001    2.4
 Name: Nevada, dtype: float64, 'Ohio': 2000    1.5
 2001    1.7
 Name: Ohio, dtype: float64}

In [81]:
type(pdata)

dict

In [82]:
DataFrame(pdata)

Unnamed: 0,Nevada,Ohio
2000,,1.5
2001,2.4,1.7


In [83]:
frame3

Unnamed: 0,Nevada,Ohio
2000,,1.5
2001,2.4,1.7
2002,2.9,3.6


In [84]:
# 인덕스와 열의 이를을 지정할 수 있다.
frame3.index.name = 'year'; frame3.columns.name = 'state'

In [85]:
frame3

state,Nevada,Ohio
year,Unnamed: 1_level_1,Unnamed: 2_level_1
2000,,1.5
2001,2.4,1.7
2002,2.9,3.6


#### 새로운 index를 생성하려고 했는데 계속 바뀌기만 한다.

In [86]:
frame3.index.name = 'year3';

In [87]:
frame3

state,Nevada,Ohio
year3,Unnamed: 1_level_1,Unnamed: 2_level_1
2000,,1.5
2001,2.4,1.7
2002,2.9,3.6


In [88]:
frame3.columns.name = 'state3'

In [89]:
frame3

state3,Nevada,Ohio
year3,Unnamed: 1_level_1,Unnamed: 2_level_1
2000,,1.5
2001,2.4,1.7
2002,2.9,3.6


In [90]:
frame3.values

array([[ nan,  1.5],
       [ 2.4,  1.7],
       [ 2.9,  3.6]])

#### DataFrame의 칼럼에 서로 다른 dtype이 있다면 모든 칼럼을 수용하기 위해 그 칼럼 배열의 dtype이 선택된다.

In [91]:
frame2.values

array([[2000, 'Ohio', 1.5, nan],
       [2001, 'Ohio', 1.7, -1.2],
       [2002, 'Ohio', 3.6, nan],
       [2001, 'Nevada', 2.4, -1.5],
       [2002, 'Nevada', 2.9, -1.7]], dtype=object)

#### DataFrame 생성자에서 사용 가능한 입력 데이터

형 | 설명
--- | ---
2차원 ndarray | 데이터를 담고 있는 행렬. 선택적으로 로우와 칼럼의 이름을 전달할 수 있다.
배열, 리스트, 튜플의 사전 | 사전의 모든 항목은 같은 길이를 가져야 하며, 각 항목의 내용이 DataFrame의 칼럼이 된다.
NumPy의 구조화 배열 | 배열의 사전과 같은 방식으로 취급된다.
Series 사전 | Series의 각 값이 컬럼이 된다. 명시적으로 색인을 넘겨주지 않으면 각 Series의 색인이 하나로 합쳐져서 형의 색인이 된다.
사전의 사전 | 내부에 있는 사전이 칼럼이 된다. 키 값은 'Series의 사전'과 마찬가지로 합쳐져 로우의 색인이 된다.
사전이나 Series의 리스트 | 리스트의 각 항목이 DataFrame의 로우가 된다. 합쳐진 사전의 키 값이나 Series의 색인이 DataFrame 칼럼의 이름이 된다.
리스트나 튜플의 리스트 | '2차원 ndarray'와 같은 방식으로 취급된다.
다른 DataFrame | 색인이 따로 지정되지 않는다면 DataFrame의 색인이 그대로 사용된다.
NumPy MaskedArray | '2차원 ndarray'와 같은 방식으로 취급되지만 마스크 값은 반환되는 DataFrame에서 NA 값이 된다.

### 5.1.3 색인 객체

- pandas의 색인 객체는 표 형식의 데이터에서 각 로우와 칼럼에 대한 이름과 다른 메타데이터(축의 이름 등)를 저장하는 객체
- Series나 DataFrame 객체를 생성할 때 사용하는 배열이나 혹은 다른 순차적인 이름은 내부적으로 색인으로 변환

In [92]:
obj = Series(range(3), index=['a', 'b', 'c'])

In [93]:
index = obj.index

In [94]:
index

Index(['a', 'b', 'c'], dtype='object')

In [95]:
index[1:]

Index(['b', 'c'], dtype='object')

In [96]:
# 색인 객체 변경 불가
index[1] = 'd'

TypeError: Index does not support mutable operations

In [97]:
index = pd.Index(np.arange(3))

In [98]:
index

Int64Index([0, 1, 2], dtype='int64')

In [99]:
# index=는 함수의 키워드, 뒤의 index는 변수
obj2 = Series([1.5, -2.5, 0], index=index)

In [100]:
obj2

0    1.5
1   -2.5
2    0.0
dtype: float64

In [101]:
obj2.index is index

True

In [102]:
obj2.index

Int64Index([0, 1, 2], dtype='int64')

In [103]:
index

Int64Index([0, 1, 2], dtype='int64')

#### pandas의 주요 Index 객체

클래스 | 설명
--- | ---
Index | 가장 일반적인 Index 객체이며, 파이썬 객체의 NumPy 배열 형식으로 축의 이름을 표현한다.
Int64Index | 정수 값을 위한 특수한 Index
MultiIndex | 단일 축에 여러 단계의 색인을 표현하는 계층적 색인 객체. 튜플의 배열과 유사하다고 볼 수 있다.
DatetimeIndex | 나노초 타임스탬프를 저장한다(NumPy의 datetime64 dtype으로 표현된다).
PeriodIndex | 기간 데이터를 위한 특수한 Index

In [104]:
frame3

state3,Nevada,Ohio
year3,Unnamed: 1_level_1,Unnamed: 2_level_1
2000,,1.5
2001,2.4,1.7
2002,2.9,3.6


In [105]:
'Ohio' in frame3.columns

True

In [106]:
2003 in frame3.index

False

--------

#### 색인 메서드 append 연습

- 연습해보고 싶으신 분들은 index.tab 눌러서 어떤 메소드가 있는지 확인하고 테스트 해보면 좋겠습니다.
- 대부분 상식적으로 있을법한 메소드들이 있네요.
- 그냥 이런 것들이 있구나 하고 머리속에 Indexing만 하고 나중에 필요할 때 직접 써보는 것을 추천합니다.
- 모든 메소드들을 테스트 해보고 익히는게 가장 좋겠지만 시간이 부족하니까요.

-------

In [107]:
index

Int64Index([0, 1, 2], dtype='int64')

In [108]:
index2 = pd.Index(np.arange(5))

In [109]:
index2

Int64Index([0, 1, 2, 3, 4], dtype='int64')

In [110]:
sum_index = index.append(index2)

In [111]:
index

Int64Index([0, 1, 2], dtype='int64')

In [112]:
sum_index

Int64Index([0, 1, 2, 0, 1, 2, 3, 4], dtype='int64')

#### 색인 메서드와 속성

메서드 | 설명
--- | ---
append | 추가적인 Index 객체를 덧붙여 새로운 색인을 반환한다.
diff | 색인의 차집합을 반환한다.
intersection | 색인의 교집합을 반환한다.
union | 색인의 합집합을 반환한다.
isin | 넘겨받은 값이 해당 색인 위치에 존재하는지 알려주는 불리언 배열을 반환한다.
delete | i 위치의 색인이 삭제된 새로운 색인을 반환한다.
drop | 넘겨받은 값이 삭제된 새로운 색인을 반환한다.
insert | i 위치에 값이 추가된 새로운 색인을 반환한다.
is_monotonic | 색인이 단조성을 가진다면 True를 반환한다.
is_unique | 중복되는 색인이 없다면 True를 반환한다.
unique | 색인에서 중복되는 요소를 제거하고 유일한 값만을 반환한다.

## 5.2 핵심 기능

- Series나 DataFrame에 저장된 데이터를 다루는 기본 방법 설명
- 중요한 기능에만 초점

### 5.2.1 재색인

- 저자 말로는 기막힌 기능중 하나가 reindex 라고 하는데 왜 중요한지 모르겠다. 당연한거 아닌가? 아직 실제적으로 데이터를 분석해 보는 일을 안해서 못 느끼는 걸 수도 있다.
- reindex: 새로운 색인에 맞도록 객체를 새로 생성하는 기능

In [113]:
obj = Series([4.5, 7.2, -5.3, 3.6], index=['d', 'b', 'a', 'c'])

In [114]:
obj

d    4.5
b    7.2
a   -5.3
c    3.6
dtype: float64

#### Series 객체에 대해 reindex를 호출하면 데이터를 새로운 색인에 맞게 재배열하고, 없는 색인 값이 있다면 비어있는 값을 새로 추가한다

In [115]:
obj2 = obj.reindex(['a', 'b', 'c', 'd', 'e'])

In [116]:
obj2

a   -5.3
b    7.2
c    3.6
d    4.5
e    NaN
dtype: float64

In [117]:
# fill_value는 데이터 이가 빠진걸 채워넣을 수 있기 때문에 매우 좋은 기능이다.
obj.reindex(['a', 'b', 'c', 'd', 'e'], fill_value=0)

a   -5.3
b    7.2
c    3.6
d    4.5
e    0.0
dtype: float64

#### 객체가 원래 뷰에 대한 수정이 이루어지는 것인지
#### 아니면 복사한 객체에 대해 수정이 이루어지는 것인지 알아본다.
#### 다음을 보면 원래의 뷰는 바뀌지 않았고 복사한 객체가 바뀐다는 것을 알 수 있다.

In [118]:
obj

d    4.5
b    7.2
a   -5.3
c    3.6
dtype: float64

#### 시계열 같은 순차적인 데이터를 재색인할 때 값을 보간하거나 채워 넣어야 할 경우

- ffill을 사용하여 앞의 값으로 누락된 값을 채워 넣을 수 있다

In [119]:
obj3 = Series(['blue', 'purple', 'yellow'], index=[0, 2, 3])

In [120]:
obj3

0      blue
2    purple
3    yellow
dtype: object

In [121]:
#ffill은 앞의 값을 채워넣는다.
obj3.reindex(range(6), method='ffill')

0      blue
1      blue
2    purple
3    yellow
4    yellow
5    yellow
dtype: object

#### reindex 메서드(보간) 옵션

인자 | 설명
--- | ---
ffill 또는 pad | 앞의 값으로 채워 넣는다.
bfill 또는 backfill | 뒤의 값으로 채워 넣는다.

In [122]:
# reshape함수를 이용하여 배열의 형태를 재설정 할 수있다
# reshape(A, B)는 배열을 AxB로 바꿔준다
frame = DataFrame(np.arange(9).reshape((3, 3)), index=['a', 'c', 'd'],
                  columns=['Ohio', 'Texas', 'California'])

In [123]:
frame

Unnamed: 0,Ohio,Texas,California
a,0,1,2
c,3,4,5
d,6,7,8


In [124]:
# 기본적으로는 행을 중심으로 재배열을 수행한다
frame2 = frame.reindex(['a', 'b', 'c', 'd'])

In [125]:
frame2

Unnamed: 0,Ohio,Texas,California
a,0.0,1.0,2.0
b,,,
c,3.0,4.0,5.0
d,6.0,7.0,8.0


In [126]:
# 열의 이름을 명시적으로 지정하여 재배열할 수도 있다
states = ['Texas', 'Utah', 'California']

In [127]:
frame.reindex(columns=states)

Unnamed: 0,Texas,Utah,California
a,1,,2
c,4,,5
d,7,,8


#### 로우와 칼럼을 모두 한 번에 재색인할 수 있지만 보간은 로우에 대해서만 이루어진다(axis 0)

In [128]:
frame

Unnamed: 0,Ohio,Texas,California
a,0,1,2
c,3,4,5
d,6,7,8


In [129]:
# 1. 로우를 a,b,c,d로 재색인
# 2. 컬럼을 states로 재색인
# 3. 로우를 ffill로 보간 적용
frame.reindex(index=['a', 'b', 'c', 'd'], method='ffill',
              columns=states)

ValueError: index must be monotonic increasing or decreasing

In [None]:
frame.ix[['a', 'b', 'c', 'd'], states]

In [None]:
frame.reindex?

#### 재색인 함수 인자

인자 | 설명
--- | ---
index| 색인으로 사용할 새로운 순서. Index 인스턴스나 다른 순차적인 자료 구조를 사용할 수 있다. 색인은 복사가 이루어지지 않고 그대로 사용된다.
method | 보간 메서드
fill_value | 재색인 과정 중에 새롭게 나타나는 비어있는 데이터를 채우기 위한 값
limit | 전/후 보간 시에 사용할 최대 갭 크기
level | MultiIndex 단계(level)에 단순 색인을 맞춘다. 그렇지 않으면 MultiIndex의 하위 부분집합에 맞춘다.
copy | True인 경우 새로운 색인이 이전 색인과 같더라도 데이터를 복사한다. False라면 두 색인이 같은 경우 데이터를 복사하지 않는다.

### 5.2.2 하나의 로우 또는 칼럼 삭제하기

In [130]:
obj = Series(np.arange(5.), index=['a', 'b', 'c', 'd', 'e'])

In [131]:
obj

a    0.0
b    1.0
c    2.0
d    3.0
e    4.0
dtype: float64

In [132]:
# drop으로 행 삭제하기
new_obj = obj.drop('c')

In [133]:
new_obj

a    0.0
b    1.0
d    3.0
e    4.0
dtype: float64

In [134]:
obj.drop(['d', 'c'])

a    0.0
b    1.0
e    4.0
dtype: float64

In [135]:
data = DataFrame(np.arange(16).reshape((4, 4)),
                 index=['Ohio', 'Colorado', 'Utah', 'New York'],
                 columns=['one', 'two', 'three', 'four'])

In [136]:
data

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


In [137]:
data.drop(['Colorado', 'Ohio'])

Unnamed: 0,one,two,three,four
Utah,8,9,10,11
New York,12,13,14,15


In [138]:
data.drop('two', axis=1)

Unnamed: 0,one,three,four
Ohio,0,2,3
Colorado,4,6,7
Utah,8,10,11
New York,12,14,15


In [139]:
# list로 drop 할 목록 넘길 수도 있고
# 컬럼인지 로우인지 선택 가능
# axis=1은 칼럼을 삭제한다.
data.drop(['two', 'four'], axis=1)

Unnamed: 0,one,three
Ohio,0,2
Colorado,4,6
Utah,8,10
New York,12,14


### 5.2.3 색인하기, 선택하기, 거르기

#### Series의 색인은 NumPy 배열의 색인과 유사하게 동작하는데, Seriese의 색인은 정수가 아니어도 된다는 점이 다르다.

In [140]:
obj = Series(np.arange(4.), index=['a', 'b', 'c', 'd'])

In [141]:
#obj = Series([1, 1.1, 2, 3], index=['a', 'b', 'c', 'd'])

In [142]:
obj

a    0.0
b    1.0
c    2.0
d    3.0
dtype: float64

In [143]:
obj['b']

1.0

In [144]:
obj[1]

1.0

In [145]:
#2번째 로우부터 3번째 로우를 선택한다.
obj[2:4]

c    2.0
d    3.0
dtype: float64

In [146]:
obj[['b', 'a', 'd']]

b    1.0
a    0.0
d    3.0
dtype: float64

In [147]:
obj[[1, 3]]

b    1.0
d    3.0
dtype: float64

In [148]:
obj[obj < 2]

a    0.0
b    1.0
dtype: float64

#### 라벨 이름으로 슬라이싱하는 것은 시작점과 끝점을 포함한다는 점이 일반 파이썬에서의 슬라이싱과 다른 점이다.

In [149]:
# 양 끝점을 포함시킨다
obj['b':'c']

b    1.0
c    2.0
dtype: float64

In [150]:
obj['b':'c'] = 5

In [151]:
obj

a    0.0
b    5.0
c    5.0
d    3.0
dtype: float64

In [152]:
data = DataFrame(np.arange(16).reshape((4, 4)),
                 index=['Ohio', 'Colorado', 'Utah', 'New York'],
                 columns=['one', 'two', 'three', 'four'])

In [153]:
data

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


In [154]:
data['two']

Ohio         1
Colorado     5
Utah         9
New York    13
Name: two, dtype: int64

In [155]:
# 'three'와 'one'이라는 컬럼을 가진 값들을 가져온다.
data[['three', 'one']]

Unnamed: 0,three,one
Ohio,2,0
Colorado,6,4
Utah,10,8
New York,14,12


#### 슬라이싱으로 로우 선택
#### 불리언 배열로 컬럼 선택

In [156]:
# 2까지 로(행)을 가져온다.
data[:2]

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7


In [157]:
# 칼럼 'three'의 값이 5 초과인 값들을 가져온다.
data[data['three'] > 5]

Unnamed: 0,one,two,three,four
Colorado,4,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


In [158]:
data

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


In [159]:
# 실용성에 기인한 문법이다.
data < 5

Unnamed: 0,one,two,three,four
Ohio,True,True,True,True
Colorado,True,False,False,False
Utah,False,False,False,False
New York,False,False,False,False


In [160]:
#5이하의 값을 0으로 대체해준다.
data[data < 5] = 0

In [161]:
data

Unnamed: 0,one,two,three,four
Ohio,0,0,0,0
Colorado,0,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


#### ix 메소드에 대한 개인적인 생각

- ix가 좋은 것 같다. 왜냐하면 앞은 행, 뒤는 열로 딱 형식이 정해져 있기 때문이다.
- 다른 메소드들 같은 경우 axis가 0일때 행일때도 있고 열일 때도 있다. 어떤 기준을 가지고 행이 되고, 열이 되는지 불명확하다.
- 즉, 쓸려면 한 번 검증이 필요하기 때문에 귀찮다.
- 그냥 ix 메소드를 사용해서 앞은 행, 뒤는 열로 생각할 필요없이 바로 사용하는게 훨씬 맞는 방법 같다.

In [162]:
# Colorado 로(행)의 'two'와 'three'값을 Series 구조로 가져온다
data.ix['Colorado', ['two', 'three']]

.ix is deprecated. Please use
.loc for label based indexing or
.iloc for positional indexing

See the documentation here:
http://pandas.pydata.org/pandas-docs/stable/indexing.html#deprecate_ix
  from ipykernel import kernelapp as app


two      5
three    6
Name: Colorado, dtype: int64

In [163]:
data.ix[['Colorado', 'Utah'], ['two', 'three']]

Unnamed: 0,two,three
Colorado,5,6
Utah,9,10


In [164]:
# Colorado와 'Utah'행의 3, 0, 1번째 컬럼(열) 순서로 가져온다
data.ix[['Colorado', 'Utah'], [3, 0, 1]]

Unnamed: 0,four,one,two
Colorado,7,0,5
Utah,11,8,9


In [165]:
# 2번째 로(행)의 값을 가져온다
data.ix[2]

one       8
two       9
three    10
four     11
Name: Utah, dtype: int64

In [166]:
# 0부터 Utah까지 행의 컬럼 'two' 값을 가져온다
data.ix[:'Utah', 'two']

Ohio        0
Colorado    5
Utah        9
Name: two, dtype: int64

In [167]:
# 컬럼 three의 값이 5 초과인 값의 컬럼 3번째 까지 값을 가져온다
data.ix[data.three > 5, :3]

Unnamed: 0,one,two,three
Colorado,0,5,6
Utah,8,9,10
New York,12,13,14


In [168]:
# ,를 기준으로 앞은 행. 뒤로는 열을 나타낸다.
data.ix[data.three > 5, :2]

Unnamed: 0,one,two
Colorado,0,5
Utah,8,9
New York,12,13


#### 빈번하게 일어나는 칼럼 선택 작업을 할 때마다 칼럼을 선택하기 위해 frame[:, col]이라고 입력해야 하는 것이 너무과하다고 생각한다.
#### DataFrame에서는 기본적으로 컬럼을 기준으로 계산한다. 왜냐하면 로우보다 컬럼을 기준으로 데이터를 추출하는게 훨씬 많기 때문이다.
#### 라벨 색인 기능을 모두 ix에 넣었다.

#### DataFrame의 값 선택하기

방식 | 설명
--- | ---
obj[val] | DataFrame에서 하나의 칼럼 또는 여러 칼럼을 선택한다. 편의를 위해 불리언 배열, 슬라이스, 불리언 DataFrame(어떤 기준에 근거해서 값을 대입해야 할 때)을 사용할 수 있다.
obj.ix[val] | DataFrame에서 로우의 부분집합을 선택한다.
obj.ix[:, val] | DataFrame에서 칼럼의 부분집합을 선택한다.
obj.ix[val1, val2] | DataFrame에서 로우와 칼럼의 부분집합을 선택한다.
reindex 메서드 | 하나 이상의 축을 새로운 색인으로 맞춘다.
xs 메서드 | 라벨 이름으로 단일 로우나 칼럼을 Series 형식으로 선택한다.
icol, irow 메서드 | 각각 정수 색인으로 단일 로우나 칼럼을 Series 형식으로 선택한다.
get_value, set_value 메서드 | 로우와 칼럼 이름으로 DataFrame의 값을 선택한다.