<a href="https://colab.research.google.com/github/xuhu357/DataAnalysis/blob/master/ch05_Pandas_%EC%8B%9C%EC%9E%91%ED%95%98%EA%B8%B0.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## Pandas 간단한 소개

드디어, 본격적으로 강력한 데이터 분석 도구, pandas를 만나보게 된다.

pandas는 고수준의 자료구조와 파이썬을 통한 빠르고 쉬운 데이터 분석 도구를 포함한다.

Pandas는 Numpy기반에서 개발되어 Numpy를 사용하는 애플리케이션에서 쉽게 사용할 수 있다.

일단, pandas관련 import 컨벤션을 보자.


In [0]:
from pandas import Series, DataFrame

import pandas as pd

import numpy as np

### Pandas 자료 구조 소개

Series, DataFrame이다. 

이 두 자료 구조는 모든 문제를 해결할수는 없지만, 대부분의 application에서 사용하기 쉽고 탄탄한 기반을 제공.



#### Series

일련의 객체를 담을 수 있는 1차원 배열 같은 자료 구조다.

그리고 index라고 하는 배열의 데이터에 연관된 이름을 가지고 있다. 

가장 간단한 Series객체는 배열 데이터로부터 생성할 수 있다.


In [0]:
obj = Series([4, -7, -5, 3])

In [3]:
obj

0    4
1   -7
2   -5
3    3
dtype: int64

왼쪽은 index, 오른 쪽은 해당 index의 값을 보여줌.

이 예제에서는 index를 지정하지 않았으니, 기본 색인인 정수 0에서 N-1까지의 숫자가 표시.

In [4]:
obj.values

array([ 4, -7, -5,  3])

In [6]:
obj.index

RangeIndex(start=0, stop=4, step=1)

만약 각각의 데이터를 지칭하는 색인을 지정해서 Series를 생성해야 한다면, 아래와 같이 

In [0]:
obj2 = Series([4, 7, -5, 3], index=['d', 'b', 'a', 'c'])

In [8]:
obj2

d    4
b    7
a   -5
c    3
dtype: int64

배열에서 값을 선택하거나, 대입할 때에는 색인을 이용해서 접근

In [9]:
obj2['a']

-5

In [0]:
obj2['d'] = 6

In [11]:
obj2

d    6
b    7
a   -5
c    3
dtype: int64

In [12]:
obj2[['c', 'a', 'd']]

c    3
a   -5
d    6
dtype: int64

불리언 배열을 사용해서 값을 걸러내거나, 

산술 곱셉을 수행하거나, 

수학함수를 적용하는 등 Numpy 배열연산을 수행해도 색인-값 연결은 유지.

In [13]:
obj2[obj2 > 0]

d    6
b    7
c    3
dtype: int64

In [14]:
obj2 * 2

d    12
b    14
a   -10
c     6
dtype: int64

In [15]:
np.exp(obj2)

d     403.428793
b    1096.633158
a       0.006738
c      20.085537
dtype: float64

Series를 이해하는 다른 방법은, 


고정 길이의 정렬된 dictionary라고 생각하면 됨. 

Series는 색인 값에 데이터 값을 매핑하고 있으므로 파이썬의 dictionary 과 비슷하다. 

Series 객체는 파이썬의 사전형을 인자로 받아야 하는 많은 함수에서 사전형을 대체하여 사용할 수 있다. 


In [16]:
'b' in obj2

True

In [17]:
'e' in obj2

False

In [0]:
sdata = {'Ohio': 35000, 'Texas': 71000, 'Oregon': 16000, 'Utah':5000}

In [0]:
obj3 = Series(sdata)

In [20]:
obj3

Ohio      35000
Oregon    16000
Texas     71000
Utah       5000
dtype: int64

사전 객체만 가지고 Series객체를 생성하면 생성된 Series 객체의 색인은 사전의 키 값이 순서대로 들어간다. 즉 index가 정렬되어 있음.

In [0]:
states = ['California', 'Ohio', 'Oregon', 'Texas']

In [0]:
obj4 = Series(sdata, index=states)

In [23]:
obj4

California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
dtype: float64

이 예제를 보면, sdata에 있는 값 중 3개만 확인 할 수 있는데, 이는 'California'에 대한 값을 찾을 수 없기 때문이다. 

NaN, Not a Number 이고, NA은 누락된 값을 지칭한다. 

누락된 데이터를 찾을 때, 사용할 수 있는 함수는: pandas의 isnull()과 notnull 함수가 있다. 

In [24]:
pd.isnull(obj4)

California     True
Ohio          False
Oregon        False
Texas         False
dtype: bool

In [25]:
pd.notnull(obj4)

California    False
Ohio           True
Oregon         True
Texas          True
dtype: bool

다른 방식으로 Series의 인스턴스 메소드이다. 

In [26]:
obj4.isnull()

California     True
Ohio          False
Oregon        False
Texas         False
dtype: bool

In [27]:
obj4.notnull()

California    False
Ohio           True
Oregon         True
Texas          True
dtype: bool

누락된 데이터에 대한 처리는 매우 중요하지만, 지금 당장은 아니고, 조금 후에 살펴보도록 하고, 

먼저, Series의 중요한 기능을 살펴보자. 색인된 데이터에 대한 산술 연산이다.


In [28]:
obj3

Ohio      35000
Oregon    16000
Texas     71000
Utah       5000
dtype: int64

In [29]:
obj4

California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
dtype: float64

In [30]:
obj3 + obj4

California         NaN
Ohio           70000.0
Oregon         32000.0
Texas         142000.0
Utah               NaN
dtype: float64

Series객체와 Series 색인은 모두 name 속성이 있다. 

이 속성은 pandas의 기능에서 중요한 부분을 차지한다. 

How?


In [0]:
obj4.name = 'population'

In [32]:
obj4

California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
Name: population, dtype: float64

In [0]:
obj4.index.name = 'state'

In [34]:
obj4

state
California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
Name: population, dtype: float64

In [35]:
obj

0    4
1   -7
2   -5
3    3
dtype: int64

Series 색인은 대입을 통해 얼마든지 변경가능하다. 

In [0]:
obj.index = ['Bob', 'Steve', 'Jeff', 'Ryan']

In [37]:
obj

Bob      4
Steve   -7
Jeff    -5
Ryan     3
dtype: int64

이 정도면, Series의 중요한 부분은 대부분 살펴보았고, 이번에는 DataFrame에 대해서 알아보자

### DataFrame

1. 표 같은 스프레드시트 형식의 자료 구조
2. 여러개의 칼럼이 있음.
3. 각 칼럼은 서로 다른 종류의 값을 담을 수 있음. 
4. DataFrame은 row와 column에 대한 index가 있다. 
5. 이 DataFrame은 색인의 모양이 같은 Series 객체를 담고 있는 파이썬 사전으로 생각하면 편함.
6. 내부적으로 데이터는 하나 이상의 2차원 배열에 저장 된다. 


Note: DataFrame은 데이터를 내부적으로 2차원 형식으로 저장하므로, 고차원의 표형식의 데이터를 나중에 살펴볼 계층적 색인을 통해서 쉽게 표현 할 수 있다. 

계층적 색인은 pandas에서 데이터를 취급하는 고급 기능이다.

지금은 일단 있다는 정도만 알고, 하나하나 살펴보자.

DataFram 객체를 생성하는 방법:

가장 흔하게 사용하는 방법은 같은 길이의 리스트에 담긴 사전을 이용하거나 Numpy 배열을 이용하는 방법이다.


In [0]:
data = {
    'state': ['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada'], 
    'year': [2000, 2001, 2002, 2001, 2002],
    'pop': [1.5, 1.7, 3.6, 2.4, 2.9]
}

frame = DataFrame(data)

In [39]:
frame

Unnamed: 0,pop,state,year
0,1.5,Ohio,2000
1,1.7,Ohio,2001
2,3.6,Ohio,2002
3,2.4,Nevada,2001
4,2.9,Nevada,2002


In [40]:
frame.index

RangeIndex(start=0, stop=5, step=1)

칼럼의 순서가 뭔가 마음에 안든다고 하면, 과감히 바꾸면 됨.

In [41]:
DataFrame(data, columns=['year', 'state', 'pop'])

Unnamed: 0,year,state,pop
0,2000,Ohio,1.5
1,2001,Ohio,1.7
2,2002,Ohio,3.6
3,2001,Nevada,2.4
4,2002,Nevada,2.9


Series와 마찬가지로 없는 값을 넘기면 NA 값이 저장

In [0]:
frame2 = DataFrame(data, columns=['year', 'state', 'pop', 'debt'], index=['one', 'two', 'three', 'four', 'five'])

In [44]:
frame2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,
two,2001,Ohio,1.7,
three,2002,Ohio,3.6,
four,2001,Nevada,2.4,
five,2002,Nevada,2.9,


In [45]:
frame2.columns

Index(['year', 'state', 'pop', 'debt'], dtype='object')

DataFrame의 column은 Series처럼 사전 형식의 표기법으로 접근하거나, 속성 형식으로 접근 가능

In [46]:
frame2['state'] # dictionary 형식

one        Ohio
two        Ohio
three      Ohio
four     Nevada
five     Nevada
Name: state, dtype: object

In [47]:
frame2.state # 속성 접근 방식

one        Ohio
two        Ohio
three      Ohio
four     Nevada
five     Nevada
Name: state, dtype: object

Column을 확인하는 방법은 살펴보았으니, Row에 접근하는 방법을 보자.

In [48]:
frame2.ix['three']

.ix is deprecated. Please use
.loc for label based indexing or
.iloc for positional indexing

See the documentation here:
http://pandas.pydata.org/pandas-docs/stable/indexing.html#ix-indexer-is-deprecated
  """Entry point for launching an IPython kernel.


year     2002
state    Ohio
pop       3.6
debt      NaN
Name: three, dtype: object

메세지를 읽어보면, .ix는 deprecated라고 하네~, 대신에 .loc이나, iloc을 써라고 함. 

오케이 그럼 해보자.

In [49]:
# label based index 이니깐, 이것을 테스트 해보자
frame2.loc['three']

year     2002
state    Ohio
pop       3.6
debt      NaN
Name: three, dtype: object

In [0]:
# 그럼 iloc을 이때 쓰면 어떤 일이 벌어지는지도 한번 보자.
frame2.iloc['three']

In [52]:
frame2.iloc[2]

year     2002
state    Ohio
pop       3.6
debt      NaN
Name: three, dtype: object

칼럼은 대입 가능하다. 

In [0]:
frame2['debt'] = 16.5

In [54]:
frame2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,16.5
two,2001,Ohio,1.7,16.5
three,2002,Ohio,3.6,16.5
four,2001,Nevada,2.4,16.5
five,2002,Nevada,2.9,16.5


In [0]:
frame2['debt'] = np.arange(5)

In [56]:
frame2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,0
two,2001,Ohio,1.7,1
three,2002,Ohio,3.6,2
four,2001,Nevada,2.4,3
five,2002,Nevada,2.9,4


리스트나 배열을 칼럼에 대입할 때에는 대입하려는 값의 길이가 DataFrame의 크기와 같아야 함.

Series를 대입하면, DataFrame의 색인에 따라 값이 대입되며, 없는 색인에는 값이 대입되지 않는다. 

In [0]:
val = Series([-1.2, -1.5, 1.7], index=['two', 'four', 'six'])

In [0]:
frame2['debt'] = val

In [59]:
frame2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,
two,2001,Ohio,1.7,-1.2
three,2002,Ohio,3.6,
four,2001,Nevada,2.4,-1.5
five,2002,Nevada,2.9,


보다 싶이, Series에는 있으나, DataFrame에는 없는 six는 사라졌다. 

---

없는 칼럼을 대입하면, 새로운 칼럼이 생긴다. 

파이썬 사전형에서와 마찬가지로 del 예약어로 칼럼을 삭제할 수 있다. 

In [0]:
frame2['eastern'] = frame2.state == 'Ohio'

In [61]:
frame2

Unnamed: 0,year,state,pop,debt,eastern
one,2000,Ohio,1.5,,True
two,2001,Ohio,1.7,-1.2,True
three,2002,Ohio,3.6,,True
four,2001,Nevada,2.4,-1.5,False
five,2002,Nevada,2.9,,False


In [62]:
del frame2.eastern

AttributeError: ignored

del 할 때에는 내부 속성 접근이 안되나 보다. 

In [0]:
del frame2['eastern']

In [64]:
frame2.columns

Index(['year', 'state', 'pop', 'debt'], dtype='object')

**TIP**

DataFrame의 색인을 이용해서 생성된 칼럼은 내부 데이터에 대한 뷰이며, 복사가 이루어 지지 않는다. 

따라서, 이렇게 얻은 Series객체에 대한 변경은 실제 DataFrame에 반영된다. 복사본이 필요하다면, Series의 copy 메소드를 이용하자.

**만약, 중첩된 사전**을 이용해서 데이터를 생성할 수 있는데, 다음과 같은 중첩된 사전이 있다면, 

In [0]:
pop = {
    'Nevada': {2001:2.4, 2002:2.9},
    'Ohio': {2000: 1.5, 2001: 1.7, 2002: 3.6}
}

밖에 있는 키는 column이 되고, 안에 있는 키는 row가 된다.

In [0]:
frame3 = DataFrame(pop)

In [67]:
frame3

Unnamed: 0,Nevada,Ohio
2000,,1.5
2001,2.4,1.7
2002,2.9,3.6


numpy에서와 마찬가지로 결과 값의 순서를 뒤집을 수 있다. 


In [68]:
frame3.T

Unnamed: 0,2000,2001,2002
Nevada,,2.4,2.9
Ohio,1.5,1.7,3.6


In [69]:
DataFrame(pop, index=[2001, 2002, 2003])

Unnamed: 0,Nevada,Ohio
2001,2.4,1.7
2002,2.9,3.6
2003,,


In [72]:
frame3

Unnamed: 0,Nevada,Ohio
2000,,1.5
2001,2.4,1.7
2002,2.9,3.6


In [0]:
pdata = {
    'Ohio' : frame3['Ohio'][:-1],
    'Nevada': frame3['Nevada'][:2]
}

깜짝 테스트, 아래 코드의 결과는 무엇일까?

In [0]:
DataFrame(pdata) # 결과는 ???

 Dataframe도 Series와 마찬가지로 이름을 줄 수 있다. (index에 대해서, column에 대해서)


In [0]:
frame3.index.name = 'year'; frame3.columns.name = 'state'

In [74]:
frame3

state,Nevada,Ohio
year,Unnamed: 1_level_1,Unnamed: 2_level_1
2000,,1.5
2001,2.4,1.7
2002,2.9,3.6


Dataframe의 값을 확인하고 싶으면, 

In [75]:
frame3.values

array([[nan, 1.5],
       [2.4, 1.7],
       [2.9, 3.6]])

In [76]:
frame2.values

array([[2000, 'Ohio', 1.5, nan],
       [2001, 'Ohio', 1.7, -1.2],
       [2002, 'Ohio', 3.6, nan],
       [2001, 'Nevada', 2.4, -1.5],
       [2002, 'Nevada', 2.9, nan]], dtype=object)