<a href="https://colab.research.google.com/github/xuhu357/DataAnalysis/blob/master/ch05_Pandas_%EC%8B%9C%EC%9E%91%ED%95%98%EA%B8%B0.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## Pandas 간단한 소개

드디어, 본격적으로 강력한 데이터 분석 도구, pandas를 만나보게 된다.

pandas는 고수준의 자료구조와 파이썬을 통한 빠르고 쉬운 데이터 분석 도구를 포함한다.

Pandas는 Numpy기반에서 개발되어 Numpy를 사용하는 애플리케이션에서 쉽게 사용할 수 있다.

일단, pandas관련 import 컨벤션을 보자.


In [0]:
from pandas import Series, DataFrame

import pandas as pd

import numpy as np

### Pandas 자료 구조 소개

Series, DataFrame이다. 

이 두 자료 구조는 모든 문제를 해결할수는 없지만, 대부분의 application에서 사용하기 쉽고 탄탄한 기반을 제공.



#### Series

일련의 객체를 담을 수 있는 1차원 배열 같은 자료 구조다.

그리고 index라고 하는 배열의 데이터에 연관된 이름을 가지고 있다. 

가장 간단한 Series객체는 배열 데이터로부터 생성할 수 있다.


In [0]:
obj = Series([4, -7, -5, 3])

In [0]:
obj

0    4
1   -7
2   -5
3    3
dtype: int64

왼쪽은 index, 오른 쪽은 해당 index의 값을 보여줌.

이 예제에서는 index를 지정하지 않았으니, 기본 색인인 정수 0에서 N-1까지의 숫자가 표시.

In [0]:
obj.values

array([ 4, -7, -5,  3])

In [0]:
obj.index

RangeIndex(start=0, stop=4, step=1)

만약 각각의 데이터를 지칭하는 색인을 지정해서 Series를 생성해야 한다면, 아래와 같이 

In [0]:
obj2 = Series([4, 7, -5, 3], index=['d', 'b', 'a', 'c'])

In [0]:
obj2

d    4
b    7
a   -5
c    3
dtype: int64

배열에서 값을 선택하거나, 대입할 때에는 색인을 이용해서 접근

In [0]:
obj2['a']

-5

In [0]:
obj2['d'] = 6

In [0]:
obj2

d    6
b    7
a   -5
c    3
dtype: int64

In [0]:
obj2[['c', 'a', 'd']]

c    3
a   -5
d    6
dtype: int64

불리언 배열을 사용해서 값을 걸러내거나, 

산술 곱셉을 수행하거나, 

수학함수를 적용하는 등 Numpy 배열연산을 수행해도 색인-값 연결은 유지.

In [0]:
obj2[obj2 > 0]

d    6
b    7
c    3
dtype: int64

In [0]:
obj2 * 2

d    12
b    14
a   -10
c     6
dtype: int64

In [0]:
np.exp(obj2)

d     403.428793
b    1096.633158
a       0.006738
c      20.085537
dtype: float64

Series를 이해하는 다른 방법은, 


고정 길이의 정렬된 dictionary라고 생각하면 됨. 

Series는 색인 값에 데이터 값을 매핑하고 있으므로 파이썬의 dictionary 과 비슷하다. 

Series 객체는 파이썬의 사전형을 인자로 받아야 하는 많은 함수에서 사전형을 대체하여 사용할 수 있다. 


In [0]:
'b' in obj2

True

In [0]:
'e' in obj2

False

In [0]:
sdata = {'Ohio': 35000, 'Texas': 71000, 'Oregon': 16000, 'Utah':5000}

In [0]:
obj3 = Series(sdata)

In [0]:
obj3

Ohio      35000
Oregon    16000
Texas     71000
Utah       5000
dtype: int64

사전 객체만 가지고 Series객체를 생성하면 생성된 Series 객체의 색인은 사전의 키 값이 순서대로 들어간다. 즉 index가 정렬되어 있음.

In [0]:
states = ['California', 'Ohio', 'Oregon', 'Texas']

In [0]:
obj4 = Series(sdata, index=states)

In [0]:
obj4

California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
dtype: float64

이 예제를 보면, sdata에 있는 값 중 3개만 확인 할 수 있는데, 이는 'California'에 대한 값을 찾을 수 없기 때문이다. 

NaN, Not a Number 이고, NA은 누락된 값을 지칭한다. 

누락된 데이터를 찾을 때, 사용할 수 있는 함수는: pandas의 isnull()과 notnull 함수가 있다. 

In [0]:
pd.isnull(obj4)

California     True
Ohio          False
Oregon        False
Texas         False
dtype: bool

In [0]:
pd.notnull(obj4)

California    False
Ohio           True
Oregon         True
Texas          True
dtype: bool

다른 방식으로 Series의 인스턴스 메소드이다. 

In [0]:
obj4.isnull()

California     True
Ohio          False
Oregon        False
Texas         False
dtype: bool

In [0]:
obj4.notnull()

California    False
Ohio           True
Oregon         True
Texas          True
dtype: bool

누락된 데이터에 대한 처리는 매우 중요하지만, 지금 당장은 아니고, 조금 후에 살펴보도록 하고, 

먼저, Series의 중요한 기능을 살펴보자. 색인된 데이터에 대한 산술 연산이다.


In [0]:
obj3

Ohio      35000
Oregon    16000
Texas     71000
Utah       5000
dtype: int64

In [0]:
obj4

California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
dtype: float64

In [0]:
obj3 + obj4

California         NaN
Ohio           70000.0
Oregon         32000.0
Texas         142000.0
Utah               NaN
dtype: float64

Series객체와 Series 색인은 모두 name 속성이 있다. 

이 속성은 pandas의 기능에서 중요한 부분을 차지한다. 

How?


In [0]:
obj4.name = 'population'

In [0]:
obj4

California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
Name: population, dtype: float64

In [0]:
obj4.index.name = 'state'

In [0]:
obj4

state
California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
Name: population, dtype: float64

In [0]:
obj

0    4
1   -7
2   -5
3    3
dtype: int64

Series 색인은 대입을 통해 얼마든지 변경가능하다. 

In [0]:
obj.index = ['Bob', 'Steve', 'Jeff', 'Ryan']

In [0]:
obj

Bob      4
Steve   -7
Jeff    -5
Ryan     3
dtype: int64

이 정도면, Series의 중요한 부분은 대부분 살펴보았고, 이번에는 DataFrame에 대해서 알아보자

### DataFrame

1. 표 같은 스프레드시트 형식의 자료 구조
2. 여러개의 칼럼이 있음.
3. 각 칼럼은 서로 다른 종류의 값을 담을 수 있음. 
4. DataFrame은 row와 column에 대한 index가 있다. 
5. 이 DataFrame은 색인의 모양이 같은 Series 객체를 담고 있는 파이썬 사전으로 생각하면 편함.
6. 내부적으로 데이터는 하나 이상의 2차원 배열에 저장 된다. 


Note: DataFrame은 데이터를 내부적으로 2차원 형식으로 저장하므로, 고차원의 표형식의 데이터를 나중에 살펴볼 계층적 색인을 통해서 쉽게 표현 할 수 있다. 

계층적 색인은 pandas에서 데이터를 취급하는 고급 기능이다.

지금은 일단 있다는 정도만 알고, 하나하나 살펴보자.

DataFram 객체를 생성하는 방법:

가장 흔하게 사용하는 방법은 같은 길이의 리스트에 담긴 사전을 이용하거나 Numpy 배열을 이용하는 방법이다.


In [0]:
data = {
    'state': ['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada'], 
    'year': [2000, 2001, 2002, 2001, 2002],
    'pop': [1.5, 1.7, 3.6, 2.4, 2.9]
}

frame = DataFrame(data)

In [0]:
frame

Unnamed: 0,pop,state,year
0,1.5,Ohio,2000
1,1.7,Ohio,2001
2,3.6,Ohio,2002
3,2.4,Nevada,2001
4,2.9,Nevada,2002


In [0]:
frame.index

RangeIndex(start=0, stop=5, step=1)

칼럼의 순서가 뭔가 마음에 안든다고 하면, 과감히 바꾸면 됨.

In [0]:
DataFrame(data, columns=['year', 'state', 'pop'])

Unnamed: 0,year,state,pop
0,2000,Ohio,1.5
1,2001,Ohio,1.7
2,2002,Ohio,3.6
3,2001,Nevada,2.4
4,2002,Nevada,2.9


Series와 마찬가지로 없는 값을 넘기면 NA 값이 저장

In [0]:
frame2 = DataFrame(data, columns=['year', 'state', 'pop', 'debt'], index=['one', 'two', 'three', 'four', 'five'])

In [0]:
frame2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,
two,2001,Ohio,1.7,
three,2002,Ohio,3.6,
four,2001,Nevada,2.4,
five,2002,Nevada,2.9,


In [0]:
frame2.columns

Index(['year', 'state', 'pop', 'debt'], dtype='object')

DataFrame의 column은 Series처럼 사전 형식의 표기법으로 접근하거나, 속성 형식으로 접근 가능

In [0]:
frame2['state'] # dictionary 형식

one        Ohio
two        Ohio
three      Ohio
four     Nevada
five     Nevada
Name: state, dtype: object

In [0]:
frame2.state # 속성 접근 방식

one        Ohio
two        Ohio
three      Ohio
four     Nevada
five     Nevada
Name: state, dtype: object

Column을 확인하는 방법은 살펴보았으니, Row에 접근하는 방법을 보자.

In [0]:
frame2.ix['three']

.ix is deprecated. Please use
.loc for label based indexing or
.iloc for positional indexing

See the documentation here:
http://pandas.pydata.org/pandas-docs/stable/indexing.html#ix-indexer-is-deprecated
  """Entry point for launching an IPython kernel.


year     2002
state    Ohio
pop       3.6
debt      NaN
Name: three, dtype: object

메세지를 읽어보면, .ix는 deprecated라고 하네~, 대신에 .loc이나, iloc을 써라고 함. 

오케이 그럼 해보자.

In [0]:
# label based index 이니깐, 이것을 테스트 해보자
frame2.loc['three']

year     2002
state    Ohio
pop       3.6
debt      NaN
Name: three, dtype: object

In [0]:
# 그럼 iloc을 이때 쓰면 어떤 일이 벌어지는지도 한번 보자.
frame2.iloc['three']

In [0]:
frame2.iloc[2]

year     2002
state    Ohio
pop       3.6
debt      NaN
Name: three, dtype: object

칼럼은 대입 가능하다. 

In [0]:
frame2['debt'] = 16.5

In [0]:
frame2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,16.5
two,2001,Ohio,1.7,16.5
three,2002,Ohio,3.6,16.5
four,2001,Nevada,2.4,16.5
five,2002,Nevada,2.9,16.5


In [0]:
frame2['debt'] = np.arange(5)

In [0]:
frame2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,0
two,2001,Ohio,1.7,1
three,2002,Ohio,3.6,2
four,2001,Nevada,2.4,3
five,2002,Nevada,2.9,4


리스트나 배열을 칼럼에 대입할 때에는 대입하려는 값의 길이가 DataFrame의 크기와 같아야 함.

Series를 대입하면, DataFrame의 색인에 따라 값이 대입되며, 없는 색인에는 값이 대입되지 않는다. 

In [0]:
val = Series([-1.2, -1.5, 1.7], index=['two', 'four', 'six'])

In [0]:
frame2['debt'] = val

In [0]:
frame2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,
two,2001,Ohio,1.7,-1.2
three,2002,Ohio,3.6,
four,2001,Nevada,2.4,-1.5
five,2002,Nevada,2.9,


보다 싶이, Series에는 있으나, DataFrame에는 없는 six는 사라졌다. 

---

없는 칼럼을 대입하면, 새로운 칼럼이 생긴다. 

파이썬 사전형에서와 마찬가지로 del 예약어로 칼럼을 삭제할 수 있다. 

In [0]:
frame2['eastern'] = frame2.state == 'Ohio'

In [0]:
frame2

Unnamed: 0,year,state,pop,debt,eastern
one,2000,Ohio,1.5,,True
two,2001,Ohio,1.7,-1.2,True
three,2002,Ohio,3.6,,True
four,2001,Nevada,2.4,-1.5,False
five,2002,Nevada,2.9,,False


In [0]:
del frame2.eastern

AttributeError: ignored

del 할 때에는 내부 속성 접근이 안되나 보다. 

In [0]:
del frame2['eastern']

In [0]:
frame2.columns

Index(['year', 'state', 'pop', 'debt'], dtype='object')

**TIP**

DataFrame의 색인을 이용해서 생성된 칼럼은 내부 데이터에 대한 뷰이며, 복사가 이루어 지지 않는다. 

따라서, 이렇게 얻은 Series객체에 대한 변경은 실제 DataFrame에 반영된다. 복사본이 필요하다면, Series의 copy 메소드를 이용하자.

**만약, 중첩된 사전**을 이용해서 데이터를 생성할 수 있는데, 다음과 같은 중첩된 사전이 있다면, 

In [0]:
pop = {
    'Nevada': {2001:2.4, 2002:2.9},
    'Ohio': {2000: 1.5, 2001: 1.7, 2002: 3.6}
}

밖에 있는 키는 column이 되고, 안에 있는 키는 row가 된다.

In [0]:
frame3 = DataFrame(pop)

In [0]:
frame3

Unnamed: 0,Nevada,Ohio
2000,,1.5
2001,2.4,1.7
2002,2.9,3.6


numpy에서와 마찬가지로 결과 값의 순서를 뒤집을 수 있다. 


In [0]:
frame3.T

Unnamed: 0,2000,2001,2002
Nevada,,2.4,2.9
Ohio,1.5,1.7,3.6


In [0]:
DataFrame(pop, index=[2001, 2002, 2003])

Unnamed: 0,Nevada,Ohio
2001,2.4,1.7
2002,2.9,3.6
2003,,


In [0]:
frame3

Unnamed: 0,Nevada,Ohio
2000,,1.5
2001,2.4,1.7
2002,2.9,3.6


In [0]:
pdata = {
    'Ohio' : frame3['Ohio'][:-1],
    'Nevada': frame3['Nevada'][:2]
}

깜짝 테스트, 아래 코드의 결과는 무엇일까?

In [0]:
DataFrame(pdata) # 결과는 ???

 Dataframe도 Series와 마찬가지로 이름을 줄 수 있다. (index에 대해서, column에 대해서)


In [0]:
frame3.index.name = 'year'; frame3.columns.name = 'state'

In [0]:
frame3

state,Nevada,Ohio
year,Unnamed: 1_level_1,Unnamed: 2_level_1
2000,,1.5
2001,2.4,1.7
2002,2.9,3.6


Dataframe의 값을 확인하고 싶으면, 

In [0]:
frame3.values

array([[nan, 1.5],
       [2.4, 1.7],
       [2.9, 3.6]])

In [0]:
frame2.values

array([[2000, 'Ohio', 1.5, nan],
       [2001, 'Ohio', 1.7, -1.2],
       [2002, 'Ohio', 3.6, nan],
       [2001, 'Nevada', 2.4, -1.5],
       [2002, 'Nevada', 2.9, nan]], dtype=object)

### 색인 객체

pandas의 색인 객체는 표형식의 데이터에서 각 row와 column에 대한 이름과 다른 메타데이터를 저장하는 객체이다. Series, DataFrame 객체를 생성할 때, 사용되는 배열이나, 다른 순차적인 이름은 내부적으로 색으로 변환 가능.


In [0]:
obj = Series(range(3), index = ['a', 'b', 'c'])

In [0]:
obj.index

Index(['a', 'b', 'c'], dtype='object')

In [0]:
index = obj.index

In [0]:
index[1:]

Index(['b', 'c'], dtype='object')

색인 객체는 변경 불가이다. 

In [0]:
index[1] = 'd'

TypeError: ignored

In [0]:
index = pd.Index(np.arange(3))

In [0]:
obj2 = Series([1.5, -2.5, 0], index=index)

In [0]:
obj2.index

Int64Index([0, 1, 2], dtype='int64')

In [0]:
obj2.index is index

True

**색인 메소드와 속성**

1. append: 추가적인 Index객체를 덧붙여 새로운 색인을 반환
2. diff: 색인의 차집합을 반환
3. intersection : 색인의 교집합을 반환
4. union: 색인의 합집합을 반환
5. isin: 넘겨받은 값이 해당 색인 위치에 존재하는지 알려주는 불리언 배열을 반환한다.
6. delete: i 위치이 색인이 삭제된 새로운 색인을 반환
7. drop : 넘겨 바은 값이 삭제된 새로운 색인을 반환
8. insert: i 위치에 값이 추가된 새로운 색인을 반환
9. is_monotonic: 색인이 단조성을 가진다면 True를 반환
10. is_unique: 중복되는 색인이 없다면, True를 반환
11. unique: 색인에서 중복되는 요소를 제거하고 유일한 값만을 반환

## 핵심기능

### 재색인, ReIndex

In [0]:
obj = Series([4.5, 7.2, -5.3, 3.6], index=['d', 'b', 'a', 'c'])

In [0]:
obj

d    4.5
b    7.2
a   -5.3
c    3.6
dtype: float64

In [0]:
obj2 = obj.reindex(['a', 'b', 'c', 'd', 'e'])

In [0]:
obj2

a   -5.3
b    7.2
c    3.6
d    4.5
e    NaN
dtype: float64

In [0]:
obj.reindex(['a', 'b', 'c', 'd', 'e'], fill_value=0)

a   -5.3
b    7.2
c    3.6
d    4.5
e    0.0
dtype: float64

누락한 값을 보간하거나 채워 넣어야 하는 경우, 


1.   앞의 항목값으로 채워넣을 때는, ffill 또는 pad
2.   위의 항목 값으로 채워 넣을 때는, bfill, backfill



In [0]:
obj3 = Series(['blue', 'purple', 'yellow'], index=[0, 2, 4])

In [0]:
obj3.reindex(range(6), method='ffill')

0      blue
1      blue
2    purple
3    purple
4    yellow
5    yellow
dtype: object

In [0]:
obj3

0      blue
2    purple
4    yellow
dtype: object

In [0]:
obj3.reindex(range(6), method='pad')

0      blue
1      blue
2    purple
3    purple
4    yellow
5    yellow
dtype: object

In [0]:
obj3.reindex(range(6), method='bfill', fill_value=0)

0      blue
1    purple
2    purple
3    yellow
4    yellow
5         0
dtype: object

DataFrame에 대한 reindex는 row, column 둘다 변경 가능. 그냥 순서만 전달하면 로우가 재색인된다.

In [0]:
frame = DataFrame(np.arange(9).reshape((3, 3)), index=['a', 'c', 'd'], columns=['Ohio', 'Texas', 'California'])

In [0]:
frame

Unnamed: 0,Ohio,Texas,California
a,0,1,2
c,3,4,5
d,6,7,8


In [0]:
frame2 = frame.reindex(['a', 'b', 'c', 'd'])

In [0]:
frame2

Unnamed: 0,Ohio,Texas,California
a,0.0,1.0,2.0
b,,,
c,3.0,4.0,5.0
d,6.0,7.0,8.0


In [0]:
frame2.fillna(0.0)

Unnamed: 0,Ohio,Texas,California
a,0.0,1.0,2.0
b,0.0,0.0,0.0
c,3.0,4.0,5.0
d,6.0,7.0,8.0


In [0]:
frame2

Unnamed: 0,Ohio,Texas,California
a,0.0,1.0,2.0
b,,,
c,3.0,4.0,5.0
d,6.0,7.0,8.0


In [0]:
states = ['Texas', 'Utah', 'California']

In [0]:
frame.reindex(columns=states)

Unnamed: 0,Texas,Utah,California
a,1,,2
c,4,,5
d,7,,8


In [0]:
frame.reindex(index=['a', 'b', 'c', 'd'], columns=states)

Unnamed: 0,Texas,Utah,California
a,1.0,,2.0
b,,,
c,4.0,,5.0
d,7.0,,8.0


In [0]:
frame.ix[['a', 'b', 'c', 'd'], states]

.ix is deprecated. Please use
.loc for label based indexing or
.iloc for positional indexing

See the documentation here:
http://pandas.pydata.org/pandas-docs/stable/indexing.html#ix-indexer-is-deprecated
  """Entry point for launching an IPython kernel.


Unnamed: 0,Texas,Utah,California
a,1.0,,2.0
b,,,
c,4.0,,5.0
d,7.0,,8.0


In [0]:
frame.reindex(['a', 'b', 'c', 'd'], states)

	'.reindex(a, b)' as 
	'.reindex(index=a, columns=b)'.
Use named arguments to remove any ambiguity. In the future, using positional arguments for 'index' or 'columns' will raise  a 'TypeError'.
  """Entry point for launching an IPython kernel.


Unnamed: 0,Texas,Utah,California
a,1.0,,2.0
b,,,
c,4.0,,5.0
d,7.0,,8.0


재색인 함수 인자

* index : 색인은 복사가 이루어 지지 않고 그대로 사용된다.
* method: 보간 메소드, ffill, bfill, pad, nearest
* fill_value: 재색인 과정에서 새롭게 나타나는 비어 있는 데이터를 채우기 위한 값
* limit: 전/후 보간 시에 사용할 최대 gap 크기
* level: MultiIndex 단계(level)에 단순 색인을 맞춘다. 그렇지 않으면, MultiIndex의 하위 부분집합에 맞춘다.
* copy: True인 경우 새로운 색인이 이전 색인과 같더라도 데이터를 복사, False라면 두 색인이 같을 경우 데이터를 복사하지 않는다.

### 하나의 로우 또는 칼럼 삭제 하기



In [0]:
obj = Series(np.arange(5), index=['a', 'b', 'c', 'd', 'e'])

In [0]:
new_obj = obj.drop('c')

In [0]:
new_obj

a    0
b    1
d    3
e    4
dtype: int64

In [0]:
obj

a    0
b    1
c    2
d    3
e    4
dtype: int64

In [0]:
obj.drop(['d', 'c'])

a    0
b    1
e    4
dtype: int64

In [0]:
obj

a    0
b    1
c    2
d    3
e    4
dtype: int64

In [0]:
# DataFrame은 row, column 모두 가능하다.

data = DataFrame(np.arange(16).reshape((4, 4)), index=['Ohio', 'Colorado', 'Utah', 'New York'], columns=['one', 'two', 'three', 'four'])

In [0]:
data

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


In [0]:
data.drop('two')

ValueError: ignored

In [0]:
data.drop('two', axis=1)

Unnamed: 0,one,three,four
Ohio,0,2,3
Colorado,4,6,7
Utah,8,10,11
New York,12,14,15


In [0]:
data.drop(columns=['two'])

Unnamed: 0,one,three,four
Ohio,0,2,3
Colorado,4,6,7
Utah,8,10,11
New York,12,14,15


In [0]:
data

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


In [0]:
data[:2]

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7


In [0]:
data[data['three'] > 5]

Unnamed: 0,one,two,three,four
Colorado,4,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


In [0]:
data < 5

Unnamed: 0,one,two,three,four
Ohio,True,True,True,True
Colorado,True,False,False,False
Utah,False,False,False,False
New York,False,False,False,False


In [0]:
data[data<5] = 0

In [0]:
data

Unnamed: 0,one,two,three,four
Ohio,0,0,0,0
Colorado,0,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


In [0]:
data.ix['Colorado', ['two', 'three']]

.ix is deprecated. Please use
.loc for label based indexing or
.iloc for positional indexing

See the documentation here:
http://pandas.pydata.org/pandas-docs/stable/indexing.html#ix-indexer-is-deprecated
  """Entry point for launching an IPython kernel.


two      5
three    6
Name: Colorado, dtype: int64

In [0]:
data.loc['Colorado', ['two', 'four']]

two     5
four    7
Name: Colorado, dtype: int64

In [0]:
data.iloc[2]

one       8
two       9
three    10
four     11
Name: Utah, dtype: int64

In [0]:
data.loc[:'Utah', 'two']

Ohio        0
Colorado    5
Utah        9
Name: two, dtype: int64

In [0]:
data.loc[data.three> 5, :"two"]

Unnamed: 0,one,two
Colorado,0,5
Utah,8,9
New York,12,13


In [0]:
data.ix[data.three>5, :3]

Unnamed: 0,one,two,three
Colorado,0,5,6
Utah,8,9,10
New York,12,13,14


In [0]:
data.ix[:2]

Unnamed: 0,one,two,three,four
Ohio,0,0,0,0
Colorado,0,5,6,7


### 산술연산과 데이터 정렬

pandas에서 중요한 기능은 색인이 다른 객체 간의 산술 연산이다. 

객체를 더할 때, 짝이 맞지 않는 색인이 있다면, 결과에 두 색인이 통합된다. 


In [0]:
s1 = Series([7.3, -2.5, 3.4, 1.5], index=['a', 'c', 'd', 'e'])

In [0]:
s2 = Series([-2.1, 3.6, -1.5, 4, 3.1], index=['a', 'c', 'e', 'f', 'g'])

In [0]:
s1

a    7.3
c   -2.5
d    3.4
e    1.5
dtype: float64

In [0]:
s2

a   -2.1
c    3.6
e   -1.5
f    4.0
g    3.1
dtype: float64

In [0]:
s1 + s2

a    5.2
c    1.1
d    NaN
e    0.0
f    NaN
g    NaN
dtype: float64

서로 겹치는 부분이 없다면, 결과는 Not Available 값이 된다.

In [0]:
df1 = DataFrame(np.arange(9).reshape((3,3)), columns=list('bcd'), index=['Ohio', 'Texas', 'Colorado'])

In [0]:
df1

Unnamed: 0,b,c,d
Ohio,0,1,2
Texas,3,4,5
Colorado,6,7,8


In [0]:
df2 = DataFrame(np.arange(12).reshape((4, 3)), columns=list('bde'), index=['Utah', 'Ohio', 'Texas', 'Oregon'])

In [0]:
df2

Unnamed: 0,b,d,e
Utah,0,1,2
Ohio,3,4,5
Texas,6,7,8
Oregon,9,10,11


In [0]:
df1 + df2

Unnamed: 0,b,c,d,e
Colorado,,,,
Ohio,3.0,,6.0,
Oregon,,,,
Texas,9.0,,12.0,
Utah,,,,


In [0]:
(df1+df2).fillna(-1)

Unnamed: 0,b,c,d,e
Colorado,-1.0,-1.0,-1.0,-1.0
Ohio,3.0,-1.0,6.0,-1.0
Oregon,-1.0,-1.0,-1.0,-1.0
Texas,9.0,-1.0,12.0,-1.0
Utah,-1.0,-1.0,-1.0,-1.0


In [0]:
df1.add(df2, fill_value=0)

Unnamed: 0,b,c,d,e
Colorado,6.0,7.0,8.0,
Ohio,3.0,1.0,6.0,5.0
Oregon,9.0,,10.0,11.0
Texas,9.0,4.0,12.0,8.0
Utah,0.0,,1.0,2.0


In [0]:
df1

Unnamed: 0,b,c,d
Ohio,0,1,2
Texas,3,4,5
Colorado,6,7,8


In [0]:
df2

Unnamed: 0,b,d,e
Utah,0,1,2
Ohio,3,4,5
Texas,6,7,8
Oregon,9,10,11


fill_value 는 NaN, NA를 0으로 대신해주지만, 두 항이 모두 NAN, NA이면, NaN으로 반환

###  DataFrame과 Series간의 연산

In [0]:
arr = np.arange(12).reshape((4, 3))

In [0]:
arr

array([[ 0,  1,  2],
       [ 3,  4,  5],
       [ 6,  7,  8],
       [ 9, 10, 11]])

In [0]:
arr[0]

array([0, 1, 2])

In [0]:
arr - arr[0]

array([[0, 0, 0],
       [3, 3, 3],
       [6, 6, 6],
       [9, 9, 9]])

In [0]:
frame = DataFrame(np.arange(12).reshape((4, 3)), columns=list('bde'), index=['Utah', 'Ohio', 'Texas', 'Oregon'])

In [0]:
frame

Unnamed: 0,b,d,e
Utah,0,1,2
Ohio,3,4,5
Texas,6,7,8
Oregon,9,10,11


In [0]:
series = frame.iloc[0]

In [0]:
series

b    0
d    1
e    2
Name: Utah, dtype: int64

In [0]:
frame - series

Unnamed: 0,b,d,e
Utah,0,0,0
Ohio,3,3,3
Texas,6,6,6
Oregon,9,9,9


In [0]:
series2 = Series(range(3), index= ['b', 'e', 'f'])

In [0]:
frame + series2

Unnamed: 0,b,d,e,f
Utah,0.0,,3.0,
Ohio,3.0,,6.0,
Texas,6.0,,9.0,
Oregon,9.0,,12.0,


In [0]:
frame

Unnamed: 0,b,d,e
Utah,0,1,2
Ohio,3,4,5
Texas,6,7,8
Oregon,9,10,11


In [0]:
series2


b    0
e    1
f    2
dtype: int64

In [0]:
series3 = frame['d']

In [0]:
series3

Utah       1
Ohio       4
Texas      7
Oregon    10
Name: d, dtype: int64

In [0]:
frame

Unnamed: 0,b,d,e
Utah,0,1,2
Ohio,3,4,5
Texas,6,7,8
Oregon,9,10,11


In [0]:
frame.sub(series3, axis=0)

Unnamed: 0,b,d,e
Utah,-1,0,1
Ohio,-1,0,1
Texas,-1,0,1
Oregon,-1,0,1


이 예제에서 인자로 넘기는 axis 값은 연산을 적용할 축 번호이며, 여기서 axis=0은 DataFrame의 로우를 따라 연산을 수행하라는 의미다.

### 함수 적용과 매핑

pandas 객체에도 Numpy의 유니버설 함수를 적용 가능

In [0]:
frame = DataFrame(np.random.randn(4, 3), columns=list('bde'), index=['Utah', 'Ohio', 'Texas', 'Oregon'])

In [0]:
frame

Unnamed: 0,b,d,e
Utah,-1.020478,0.659094,-1.050828
Ohio,2.151553,-0.925304,0.919938
Texas,-0.354792,-0.749744,-1.067502
Oregon,-0.479605,0.29289,0.498393


In [0]:
np.abs(frame)

Unnamed: 0,b,d,e
Utah,1.020478,0.659094,1.050828
Ohio,2.151553,0.925304,0.919938
Texas,0.354792,0.749744,1.067502
Oregon,0.479605,0.29289,0.498393


DataFrame의 apply 함수를 사용해보자

In [0]:
f = lambda x : x.max() - x.min()

In [0]:
frame.apply(f)

b    3.172031
d    1.584398
e    1.987441
dtype: float64

In [0]:
frame.apply(f, axis=1)

Utah      1.709922
Ohio      3.076857
Texas     0.712710
Oregon    0.977998
dtype: float64

In [0]:
def f(x):
  return Series([x.min(), x.max()], index=['min', 'max'])

In [0]:
frame

Unnamed: 0,b,d,e
Utah,-1.020478,0.659094,-1.050828
Ohio,2.151553,-0.925304,0.919938
Texas,-0.354792,-0.749744,-1.067502
Oregon,-0.479605,0.29289,0.498393


In [0]:
frame.apply(f)

Unnamed: 0,b,d,e
min,-1.020478,-0.925304,-1.067502
max,2.151553,0.659094,0.919938


In [0]:
frame.apply(f, axis=1)

Unnamed: 0,min,max
Utah,-1.050828,0.659094
Ohio,-0.925304,2.151553
Texas,-1.067502,-0.354792
Oregon,-0.479605,0.498393


배열의 각 원소에 적용되는 파이썬의 함수를 사용할 수 도 있다.

frame의 객체에서 실수 값을 문자열 포맷으로 변환하고 싶다면 applymap을 이용하면 됨.

In [0]:
format_fun = lambda x : '%.2f' % x

In [0]:
frame.applymap(format_fun)

Unnamed: 0,b,d,e
Utah,-1.02,0.66,-1.05
Ohio,2.15,-0.93,0.92
Texas,-0.35,-0.75,-1.07
Oregon,-0.48,0.29,0.5


In [0]:
frame['e'].applymap(format_fun)

AttributeError: ignored

In [0]:
frame['e'].map(format_fun)

Utah      -1.05
Ohio       0.92
Texas     -1.07
Oregon     0.50
Name: e, dtype: object

DataFrame은 apply가 일반적인데, Series는 map이 일반적이다.
DataFrame의 각 Series에 모두 적용하려면, apply + map -> applymap 인것 같음.

### 정렬과 순위

In [0]:
obj = Series(range(4), index=list('dabc'))

In [0]:
obj

d    0
a    1
b    2
c    3
dtype: int64

In [0]:
#index에 관해서 정렬하면 

obj.sort_index()

a    1
b    2
c    3
d    0
dtype: int64

In [0]:
# 값에 관해서 정렬하면
obj.sort_values()

d    0
a    1
b    2
c    3
dtype: int64

DataFrame은 row나 column 기준으로 정렬할 수 있다. 

In [0]:
frame = DataFrame(np.arange(8).reshape((2, 4)), index = ['three', 'four'], columns=list('dabc'))

In [0]:
frame

Unnamed: 0,d,a,b,c
three,0,1,2,3
four,4,5,6,7


In [0]:
frame.sort_index()

Unnamed: 0,d,a,b,c
four,4,5,6,7
three,0,1,2,3


In [0]:
frame.sort_index(axis=1)

Unnamed: 0,a,b,c,d
three,1,2,3,0
four,5,6,7,4


In [0]:
frame.sort_index(axis=1, ascending=False)

Unnamed: 0,d,c,b,a
three,0,3,2,1
four,4,7,6,5


Series객체를 값에 따라서 정렬하고 싶다면, sort_value() 를 사용

In [0]:
obj = Series([4, 7, -3, 2])

In [0]:
obj.sort_values()

2   -3
3    2
0    4
1    7
dtype: int64

만약 값 중에 nan이 있다면, 생각하신것처럼 nan은 나중에 배치된다.

In [0]:
obj = Series([4, np.nan, 7, np.nan, -3, 2])

In [0]:
obj.sort_values()

4   -3.0
5    2.0
0    4.0
2    7.0
1    NaN
3    NaN
dtype: float64

In [0]:
frame = DataFrame({'b':[4, 7, -3, 2], 'a':[0, 3, 2, 1]})

In [0]:
frame

Unnamed: 0,a,b
0,0,4
1,3,7
2,2,-3
3,1,2


In [0]:
frame.sort_values(by='b')

Unnamed: 0,a,b
2,2,-3
3,1,2
0,0,4
1,3,7


In [0]:
frame.sort_values(by=['a', 'b'])

Unnamed: 0,a,b
0,0,4
3,1,2
2,2,-3
1,3,7


순위는 정렬과 거의 흡사하며, 1부터 배열의 유효한 데이터 개수까지의 순위를 매긴다. 

기본적으로 Series와 DataFrame의 rank 메소드는 동점인 항목에 대해서는 평균 순위를 매긴다.

In [0]:
obj = Series([7, -5, 7, 4, 2, 0, 4])

In [0]:
obj.rank()

0    6.5
1    1.0
2    6.5
3    4.5
4    3.0
5    2.0
6    4.5
dtype: float64

In [0]:
obj

0    7
1   -5
2    7
3    4
4    2
5    0
6    4
dtype: int64

In [0]:
obj.rank(method='first')

0    6.0
1    1.0
2    7.0
3    4.0
4    3.0
5    2.0
6    5.0
dtype: float64

In [0]:
obj.rank(ascending=False, method='max')

0    2.0
1    7.0
2    2.0
3    4.0
4    5.0
5    6.0
6    4.0
dtype: float64

In [0]:
obj

0    7
1   -5
2    7
3    4
4    2
5    0
6    4
dtype: int64

순위의 동률을 처리하는 메소드



* average: 기본값, 같은 값을 가지는 항목의 평균 값을 순위로 삼는다
* min: 같은 값을 가지는 그룹을 낮은 순위로 매긴다
* max: 같은 값을 가지는 그룹을 높은 순위로 매긴다.
* first: 데이터 내에서 위치에 따라 순위를 매긴다.



### 중복 색인

In [0]:
obj = Series(range(5), index = ['a', 'a', 'b', 'b', 'c'])

In [0]:
obj

a    0
a    1
b    2
b    3
c    4
dtype: int64

In [0]:
obj.index.is_unique

False

In [0]:
obj['a']

a    0
a    1
dtype: int64

In [0]:
df = DataFrame(np.random.randn(4, 3), index =['a', 'a', 'b', 'b'])

In [0]:
df

Unnamed: 0,0,1,2
a,-1.045312,-1.49537,-0.592767
a,0.556217,-0.952497,0.133409
b,-1.068718,-0.649541,-0.55019
b,-0.943637,1.010567,0.407167


In [0]:
df.loc['b']

Unnamed: 0,0,1,2
b,-1.068718,-0.649541,-0.55019
b,-0.943637,1.010567,0.407167


## 기술통계 계산과 요약

순수한 Numpy 배열에서 제공하는 동일한 메소드와 비교하여 pandas 의 메소드는 처음부터 누락된 데이터를 제외하도록 설계

In [0]:
df = DataFrame([[1.4, np.nan],[7.1, -4.5],
               [np.nan, np.nan], [0.75, -1.3]],
                index = list('abcd'),
                columns =['one', 'two']
              )

In [0]:
df

Unnamed: 0,one,two
a,1.4,
b,7.1,-4.5
c,,
d,0.75,-1.3


In [0]:
df.sum()

one    9.25
two   -5.80
dtype: float64

In [0]:
df.sum(axis = 1)

a    1.40
b    2.60
c    0.00
d   -0.55
dtype: float64

In [0]:
df.mean(axis = 1, skipna=False)

a      NaN
b    1.300
c      NaN
d   -0.275
dtype: float64

In [0]:
df.mean(axis = 1, skipna=True)

a    1.400
b    1.300
c      NaN
d   -0.275
dtype: float64

축소 메소드 옵션

* axis : 연산을 수행할 축, DataFrame에서 0은 row, 1은 column이다.
* skipna: 누락된 값을 제외할 것인지, 정하는 옵션이다. 기본 값은 True
* level: 계산하려는 축이 계층적(다중 색인)이라면 레벨에 따라 묶어서 계산

In [0]:
df

Unnamed: 0,one,two
a,1.4,
b,7.1,-4.5
c,,
d,0.75,-1.3


In [0]:
df.idxmax()

one    b
two    d
dtype: object

In [0]:
df.idxmin()

one    d
two    b
dtype: object

In [0]:
df.cumsum()

Unnamed: 0,one,two
a,1.4,
b,8.5,-4.5
c,,
d,9.25,-5.8


describe 메소드는 한번에 통계결과를 여러개 만들어 내는 작용을 함. 

In [0]:
df.describe()

Unnamed: 0,one,two
count,3.0,2.0
mean,3.083333,-2.9
std,3.493685,2.262742
min,0.75,-4.5
25%,1.075,-3.7
50%,1.4,-2.9
75%,4.25,-2.1
max,7.1,-1.3


In [0]:
obj = Series(['a', 'a', 'b', 'c'] * 4)

In [0]:
obj

0     a
1     a
2     b
3     c
4     a
5     a
6     b
7     c
8     a
9     a
10    b
11    c
12    a
13    a
14    b
15    c
dtype: object

In [0]:
obj.describe()

count     16
unique     3
top        a
freq       8
dtype: object

기술통계와 요약통계

* count: NA 값을 제외한 값의 수를 반환
* describe: Series나 DataFrame의 각 칼럼에 대한 요약통계를 계산
* min, max: 최소, 최대 값을 계산
* argmin, argmax: 각각, 최소, 최대 값을 갖고 있는 색인의 위치을 반환
* idxmin, idxmax: 각각 최소, 최대 값을 갖고 있는 색인의 값을 반환
* quantile: 0부터 1까지의 분위수를 계산
* sum: 합을 계산
* mean: 평균을 계산
* median: 중간 값을 반환
* mad: 평균 값에서 절대 평균편차를 구한다.
* var: 표본 분산의 값
* std: 표본 정규 분산의 값을 구한다.
* skew: 표본 비대칭도의 값을 구한다.
* kurt: 표본 첨도의 값을 구한다. ???
* cumsum: 누적합
* cummin, cummax: 누적 최소값과 누적 최대값을 계산
* cumprod: 누적 곱
* diff: 1차 산술차를 구한다.
* pct_change: 퍼센트 변화율 계산