## 5. pandas 시작하기

- Why is pandas called pandas?

    Pandas stands for“Python Data Analysis Library”. According to the Wikipedia page on Pandas, “the name is derived from the term “panel data”, an econometrics term for multidimensional structured data sets.” But I think it’s just a cute name to a super-useful Python library!
    
    from googling

- 판다스를 쓰는 이유
    - 자동적으로 혹은 명시적으로 축의 이름에 따라 데이터를 정렬할 수 있는 자료구조
    - 잘못 정렬된 데이터에 의한 일반적인 오류를 예방하고 다양한 소스에서 가져온 다양한 방식으로 색인되어 있는 데이터를 다룰 수 있는 기능
    - 통합된 시계열 기능
    - 시계열 데이터와 비시계열 데이터를 함께 다룰 수 있는 통합 자료 구조
    - 산술연산과 한 축의 모든 값을 더하는 등의 데이터 축약연산은 축의 이름 같은 메타데이터로 전달될 수 있어야 함
    - 누락된 데이터를 유연하게 처리할 수 있는 기능
    - SQL 같은 일반 데이터베이스처럼 데이터를 합치고 관계연산을 수행하는 기능

import conventions for pandas

In [1]:
from pandas import Series, DataFrame
import pandas as pd
import numpy as np

### 5.1 Pandas 자료구조 소개

#### 5.1.1 Series

Series는 일련의 객체를 담을 수 있는 1차원 배열 같은 자료 구조입니다.  
색인이라고 하는 배열의 데이터에 연관된 이름을 가지고 있습니다.  
가장 간단한 Series는 데이터 배열 하나로만 구성 될 수 있습니다.  

In [2]:
obj = Series([4, 7, -5, 3])
obj

0    4
1    7
2   -5
3    3
dtype: int64

Series 객체의 문자열 표현은 왼쪽에는 색인(인덱스)를, 오른쪽에는 값(벨류)을 보여줍니다.  
데이터의 인덱스를 지정하지 않으면 0부터 N-1인 기본 인덱스로 생성됩니다.  
Series의 배열과 인덱스 객체는 각각 values 와 index 속성을 통해 얻을 수 있습니다.  

In [3]:
obj.values

array([ 4,  7, -5,  3], dtype=int64)

In [4]:
obj.index

RangeIndex(start=0, stop=4, step=1)

각각의 데이터를 지칭하는 인덱스를 지정해 Series 객체를 생성해야 할 때 다음처럼 생성합니다.

In [5]:
obj2 = Series([4, 7, -5, 3], index=['d', 'b', 'a', 'c'])
obj2

d    4
b    7
a   -5
c    3
dtype: int64

In [6]:
obj2.index

Index(['d', 'b', 'a', 'c'], dtype='object')

In [7]:
obj2['a']

-5

In [13]:
obj2['d'] = 60
obj2

d    60
b     7
a    -5
c     3
dtype: int64

In [21]:
obj2[['c', 'a', 'd']]

c     3
a    -5
d    60
dtype: int64

In [22]:
obj2[obj2 > 0]

d    60
b     7
c     3
dtype: int64

In [23]:
obj2 * 2

d    120
b     14
a    -10
c      6
dtype: int64

In [24]:
np.exp(obj2)

d    1.142007e+26
b    1.096633e+03
a    6.737947e-03
c    2.008554e+01
dtype: float64

In [25]:
type(np.exp(obj2))

pandas.core.series.Series

In [26]:
'b' in obj2

True

판다스의 Series는 '고정 길이의 정렬된 사전형' 이라고 생각하면 되요.

파이썬 사전형 데이터를 저장해야 한다면 파이썬 사전 객체로부터 Series 객체를 생성할 수 도 있습니다.

In [27]:
sdata = {'Ohio': 35000, 'Texas': 71000, 'Oregon': 16000, 'Utah': 5000}
sdata

{'Ohio': 35000, 'Texas': 71000, 'Oregon': 16000, 'Utah': 5000}

In [29]:
obj3 = Series(sdata)
obj3

Ohio      35000
Texas     71000
Oregon    16000
Utah       5000
dtype: int64

In [31]:
states = ['California', 'Ohio', 'Oregon', 'Texas']
obj4 = Series(sdata, index=states)
obj4

California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
dtype: float64

위의 예시를보면 sdata에 있는 값 중에 3개만 만들어지고 California 값은 NaN으로 표시되었습니다.  
NaN 은 Not a Number 이고 누락된 값 or NA 값으로 취급됩니다.  

In [32]:
pd.isnull(obj4)

California     True
Ohio          False
Oregon        False
Texas         False
dtype: bool

In [33]:
pd.notnull(obj4)

California    False
Ohio           True
Oregon         True
Texas          True
dtype: bool

In [34]:
obj4.notnull()

California    False
Ohio           True
Oregon         True
Texas          True
dtype: bool

In [35]:
obj3 + obj4

California         NaN
Ohio           70000.0
Oregon         32000.0
Texas         142000.0
Utah               NaN
dtype: float64

In [37]:
obj4.name = 'population'
obj4.index.name = 'state'
obj4

state
California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
Name: population, dtype: float64

In [38]:
obj.index = ['Bob', 'Steve', 'Jeff', 'Ryan']
obj

Bob      4
Steve    7
Jeff    -5
Ryan     3
dtype: int64

#### 5.1.2 DataFrame

DataFrame은 표 같은 스프레드시트 형식의 자료 구조로 여러 개의 칼럼이 있는데,  
각 칼럼은 서로 다른 종류의 값을 담을 수 있습니다.  
DF의 장점 중 하나는 로우와 칼럼에 대한 색인이 가능합니다.  

In [62]:
# DataFrame 객체를 생성하는 흔한 방법
data = {'state': ['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada'],
       'year': [2000, 20001, 2002, 2001, 2002],
       'pop': [1.5, 1.7, 3.6, 2.4, 2.9]}
frame = DataFrame(data)
frame

Unnamed: 0,state,year,pop
0,Ohio,2000,1.5
1,Ohio,20001,1.7
2,Ohio,2002,3.6
3,Nevada,2001,2.4
4,Nevada,2002,2.9


In [63]:
frame.loc[1, 'year'] = 2001
frame

Unnamed: 0,state,year,pop
0,Ohio,2000,1.5
1,Ohio,2001,1.7
2,Ohio,2002,3.6
3,Nevada,2001,2.4
4,Nevada,2002,2.9


In [64]:
DataFrame(data, columns=['year', 'state', 'pop'])

Unnamed: 0,year,state,pop
0,2000,Ohio,1.5
1,20001,Ohio,1.7
2,2002,Ohio,3.6
3,2001,Nevada,2.4
4,2002,Nevada,2.9


In [65]:
frame2 = DataFrame(data, index=['one', 'two', 'three', 'four', 'five'], columns=['year', 'state', 'pop', 'debt'])
frame2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,
two,20001,Ohio,1.7,
three,2002,Ohio,3.6,
four,2001,Nevada,2.4,
five,2002,Nevada,2.9,


In [66]:
frame2.columns

Index(['year', 'state', 'pop', 'debt'], dtype='object')

In [67]:
frame2.index

Index(['one', 'two', 'three', 'four', 'five'], dtype='object')

In [68]:
frame2['state']

one        Ohio
two        Ohio
three      Ohio
four     Nevada
five     Nevada
Name: state, dtype: object

In [69]:
frame2.state

one        Ohio
two        Ohio
three      Ohio
four     Nevada
five     Nevada
Name: state, dtype: object

In [71]:
frame2.loc['three']

year     2002
state    Ohio
pop       3.6
debt      NaN
Name: three, dtype: object

In [73]:
frame2['debt'] = 16.5
frame2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,16.5
two,20001,Ohio,1.7,16.5
three,2002,Ohio,3.6,16.5
four,2001,Nevada,2.4,16.5
five,2002,Nevada,2.9,16.5


In [76]:
frame2['debt'] = np.arange(5.)
frame2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,0.0
two,20001,Ohio,1.7,1.0
three,2002,Ohio,3.6,2.0
four,2001,Nevada,2.4,3.0
five,2002,Nevada,2.9,4.0


리스트나 배열을 칼럼에 대입할 때는 대입하려는 값의 길이가 DataFrame의 크기와 같아야 합니다.

In [82]:
val = Series([-1.2, -1.5, -1.7], index=['two', 'four', 'five'])
val

two    -1.2
four   -1.5
five   -1.7
dtype: float64

In [83]:
frame2['debt'] = val
frame2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,
two,20001,Ohio,1.7,-1.2
three,2002,Ohio,3.6,
four,2001,Nevada,2.4,-1.5
five,2002,Nevada,2.9,-1.7


In [84]:
frame2['eastern'] = frame2.state == 'Ohio'
frame2

Unnamed: 0,year,state,pop,debt,eastern
one,2000,Ohio,1.5,,True
two,20001,Ohio,1.7,-1.2,True
three,2002,Ohio,3.6,,True
four,2001,Nevada,2.4,-1.5,False
five,2002,Nevada,2.9,-1.7,False


In [85]:
del frame2['eastern']

In [86]:
frame2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,
two,20001,Ohio,1.7,-1.2
three,2002,Ohio,3.6,
four,2001,Nevada,2.4,-1.5
five,2002,Nevada,2.9,-1.7


In [87]:
frame2.columns

Index(['year', 'state', 'pop', 'debt'], dtype='object')

DataFrame의 indexing을 통해서 생성된 칼럼은 view이며 복사가 이루어지지 않습니다.  

따라서 이렇게 얻은 Series 객체에 대한 변경은 실제 DataFrame에 반영됩니다.  

복사를 하고싶으면 Series의 copy메서드를 이용하세요.

중첩된 사전형을 쓰면 바깥에 있는 킷값이 칼럼이 되고 안에 있는 킷값이 로우가 됩니다.

In [89]:
pop = {'Nevada': {2001: 2.4, 2002: 2.9},
      'Ohio': {2000: 1.5, 2001: 1.7, 2002: 3.6}}
frame3 = DataFrame(pop)
frame3

Unnamed: 0,Nevada,Ohio
2001,2.4,1.7
2002,2.9,3.6
2000,,1.5


In [96]:
frame3.T

Unnamed: 0,2001,2002,2000
Nevada,2.4,2.9,
Ohio,1.7,3.6,1.5


In [94]:
# index를 직접 지정해줘서 만들 수 있습니다.
DataFrame(pop, index=[2001, 2002, 2003])

Unnamed: 0,Nevada,Ohio
2001,2.4,1.7
2002,2.9,3.6
2003,,


In [99]:
pdata = {'Ohio': frame3['Ohio'][:],
        'Nevada': frame3['Nevada'][:2]}
DataFrame(pdata)

Unnamed: 0,Ohio,Nevada
2000,1.5,
2001,1.7,2.4
2002,3.6,2.9


In [100]:
frame3.index.name = 'year'
frame3.columns.name = 'state'
frame3

state,Nevada,Ohio
year,Unnamed: 1_level_1,Unnamed: 2_level_1
2001,2.4,1.7
2002,2.9,3.6
2000,,1.5


In [101]:
frame3.values

array([[2.4, 1.7],
       [2.9, 3.6],
       [nan, 1.5]])

In [102]:
frame2.values

array([[2000, 'Ohio', 1.5, nan],
       [20001, 'Ohio', 1.7, -1.2],
       [2002, 'Ohio', 3.6, nan],
       [2001, 'Nevada', 2.4, -1.5],
       [2002, 'Nevada', 2.9, -1.7]], dtype=object)

DataFrame 생성자에 사용 가능한 입력 데이터

- 2차원 ndarray
- 배열, 리스트, 튜플의 사전
- NumPy의 구조화 배열
- Series 사전
- 사전의 사전
- 사전이나 Series의 리스트
- 리스트나 튜플의 리스트
- 다른 DataFrame
- NumPy MaskedArray

#### 5.1.3 색인 객체

In [103]:
obj = Series(range(3), index=['a', 'b', 'c'])
obj

a    0
b    1
c    2
dtype: int64

In [104]:
index = obj.index
index

Index(['a', 'b', 'c'], dtype='object')

인덱스 객체는 변경할 수 없다.  
인데스 객체는 변경할 수 없기 때문에 자료 구조 사이에서 안전하게 공유될 수 있다.  

In [107]:
# 에러 발생
# index[1] = 'b'

In [108]:
obj2 = Series([1.5, -2.5, 0], index=index)
obj2.index is index

True

In [109]:
frame3

state,Nevada,Ohio
year,Unnamed: 1_level_1,Unnamed: 2_level_1
2001,2.4,1.7
2002,2.9,3.6
2000,,1.5


In [111]:
'Ohio' in frame3.columns

True

In [112]:
2000 in frame3.index

True

Pandas의 주요 Index 객체

- Index: 가장 일반적인 Index 객체이며, 파이썬 객체의 NumPy 배열 형식으로 축의 이름을 표현합니다.
- Int64Index: 정수 값을 위한 특수한 Index
- MultiIndex: 단일 축에 여러 단계의 색인을 표현하는 계층적 색인 객체입니다. 튜플의 배열과 유사합니다.
- DatetimeIndex: 나노초 타임스탬프를 저장합니다.(NumPy의 datetime64 dtype으로 표현됩니다.)
- PeriodIndex: 기간 데이터를 위한 특수한 Index입니다.

Index 메소드와 속성

- append: 추가적인 Index 객체를 덧붙여 새로운 색인을 반환합니다.
- diff: 색인의 차집합을 반환합니다.
- intersection: 색인의 교집합을 반환합니다.
- union: 색인의 합집합을 반환합니다.
- isin: 넘겨받은 값이 해당 색인 위치에 존재하는지 알려주는 불리언 배열을 반환합니다.
- delete: i위치의 색인이 삭제된 새로운 색인을 반환합니다.
- drop: 넘겨받은 값이 삭제된 새로운 색인을 반환합니다.
- insert: i위치에 값이 추가된 새로운 색인을 반환합니다.
- is_monotonic: 색인이 단조성을 가진다면 True를 반환합니다.
- is_unique: 중복된 색인이 없다면 True를 반환합니다.
- unique: 중복되는 요소를 제거한 색인의 유일한 값만을 반환합니다.