## **CHAPTER 5 pandas 시작하기**

**pandas는 앞으로 가장 자주 살펴볼 라이브러리이다. pandas는 Numpy 기반에서 개발되어 Numpy를 사용하는 애플리케이션에서 쉽게 사용할 수 있다.**

#### **pandas의 대표적인 기능**

> **통합된 시계열 기능**

> **시계열 데이터와 비시계열 데이터를 함께 다룰 수 있는 통합 자료 구조**

> **산술연산과 한 축의 모든 값을 더하는 등의 데이터 축약연산은 축의 이름 같은 메타데이터로 전달될 수 있어야 함**

> **누락된 데이터를 유연하게 처리할 수 있는 기능**

> **SQL 같은 일반 데이터베이스처럼 데이터를 합치고 관계연산을 수행하는 기능**

**따라서 pandas는 훨씬 더 안정적으로 대용량 데이터를 처리할 수 있게 확정되었고 상당히 큰 라이브러리가 되었음에도 간편함과 단순함에 대한 기본 방침은 유지되고 있다.**

In [1]:
from pandas import Series, DataFrame
import numpy as np
import pandas as pd

## **5.1 pandas 자료 구조 소개**

**pandas에 대해서 자세히 알기 위해서는 Series와 DataFrame, 이 두가지 자료 구조에 익숙해질 필요가 있다.**

### **5.1.1 Series**

**Series는 일련의 객체를 담을 수 있는 1차원 배열 같은 자료 구조다(어떤 Numpy 자료형이라도 담을 수 있다.) 그리고 index라 하는 배열의 데이터에 연관된 이름을 가지고 있다.**

In [2]:
obj = Series([4,7,-5,3])

In [3]:
# 왼쪽은 index 값, 오른쪽은 해당 index 객체 값
obj

0    4
1    7
2   -5
3    3
dtype: int64

In [4]:
# obj(Series)에 잇는 index 값을 array 형태로 반환
indexes = obj.index
indexes.values

array([0, 1, 2, 3], dtype=int64)

In [5]:
# obj(Series)에 있는 index 객체 값을 array형태로 반환
obj.values

array([ 4,  7, -5,  3], dtype=int64)

In [6]:
# 각각의 데이터를 지칭하는 색인을 지정해 Series 객체를 생성해야 할 때는 다음처럼 생성
obj2 = Series([4,7,-5,3],index=['d','b','a','c'])
obj2.index.values 

array(['d', 'b', 'a', 'c'], dtype=object)

In [7]:
# 배열에서 값을 선택하거나 대입할 때는 색인을 이용해서 접근한다.
print('obj2 객체의 a 번째 index 객체 값 추출:',obj2['a'])

obj2 객체의 a 번째 index 객체 값 추출: -5


In [8]:
obj2['d'] = 6
print('변경된 Series 객체:\n',obj2)

변경된 Series 객체:
 d    6
b    7
a   -5
c    3
dtype: int64


In [9]:
# 여러 index를 지정해서 출력할 경우 흔히 list방식처럼 list안에 여러 개의 index 값을 넣어주면 된다.
obj2[['c','a','d']]

c    3
a   -5
d    6
dtype: int64

In [10]:
# 불리언 배열을 사용해서 값을 걸러내거나 산술 곱셈을 수행하거나 또는 수학 함수를 적용하는 등 Numpy 배열연산을 수행해도 색인-값 연결은 유지된다.
print(obj2[obj2>0])
print(obj2*2)
print(np.exp(obj2))

d    6
b    7
c    3
dtype: int64
d    12
b    14
a   -10
c     6
dtype: int64
d     403.428793
b    1096.633158
a       0.006738
c      20.085537
dtype: float64


In [11]:
# Series를 이해하는 다른 방법은 고정 길이의 정렬된 사전형이라고 이해하는 것이다.
# Series는 index 값에 데이터 값을 매핑하고 있으므로 파이썬의 사전형과 비슷하다.
# Series 객체는 파이썬의 사전형을 인자로 받아야 하는 많은 함수에서 사전형을 대체하여 사용할 수 있다.
print('b' in obj2)
print('e' in obj2)

True
False


In [12]:
# 딕셔너리 객체로부터 Series 객체를 생성할 수 있다.
# 딕셔너리 객체만 가지고 Series 객체를 생성하면 생성된 Series 객체의 index는 사전의 키 값이 순서대로 들어간다.
sdata = {'Ohio':35000, 'Texas': 71000, 'Oregon': 16000, 'Utah':5000}
obj3 = Series(sdata)
obj3

Ohio      35000
Texas     71000
Oregon    16000
Utah       5000
dtype: int64

In [13]:
# 아래 결과를 보면 California에 대한 값을 찾을 수 없기 때문에 NaN(Not a number)으로 표시된다.
states = ['California','Ohio','Oregon','Texas']
obj4 = Series(sdata, index=states)
obj4

California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
dtype: float64

In [14]:
# pandas의 isnull과 notnull 함수는 누락된 데이터를 찾을 때 사용된다.
print(pd.isnull(obj4))
print(pd.notnull(obj4))

California     True
Ohio          False
Oregon        False
Texas         False
dtype: bool
California    False
Ohio           True
Oregon         True
Texas          True
dtype: bool


In [15]:
# 이 메서드는 Series의 인스턴스 메서드이기도 하다.
obj4.isnull()

California     True
Ohio          False
Oregon        False
Texas         False
dtype: bool

In [16]:
# 가장 중요한 Series의 기능은 다르게 index된 데이터에 대한 산술연산이다
obj3 + obj4

California         NaN
Ohio           70000.0
Oregon         32000.0
Texas         142000.0
Utah               NaN
dtype: float64

In [17]:
# Series 객체와 Series의 색인은 모두 name 속성이 있는데, 이 속성은 pandas의 기능에서 중요한 부분을 차지하고 있다.
obj4.name = 'population' # 데이터 프레임 이름 설정
obj4.index.name = 'state' # index 이름 설정
obj4

state
California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
Name: population, dtype: float64

In [18]:
# Series의 인덱스는 대입을 통해 변경할 수 있다.
print('변경전:')
print(obj)
print('변경후')
obj.index = ['Bob','Steve','Jeff','Ryan']
print(obj)

변경전:
0    4
1    7
2   -5
3    3
dtype: int64
변경후
Bob      4
Steve    7
Jeff    -5
Ryan     3
dtype: int64


### **5.1.2 DataFrame**

**DataFrame은 표 같은 스프레드시트 형식의 자료 구조로 여러 개의 칼럼이 있는데, 각 칼럼은 서로 다른 종류의 값(숫자, 문자열, 불리언 등)을 담을 수 있다.**

**DataFrame은 로우와 칼럼에 대한 index가 있는데, 이 DataFrame은 index의 모양이 같은 Series 객체를 담고 있는 파이썬 사전으로 생각하면 편하다.**

**내부적으로 데이터는 리스트나 사전 또는 1차원 배열을 담고 있는 다른 컬렉션이 아니라 하나 이상의 2차원 배열에 저장된다.**

In [19]:
# DataFrame 객체는 다양한 방법으로 생성할 수 있지만 
# 가장 흔하게 사용되는 방법은 같은 길이의 리스트에 담긴 사전을 이용하거나 numpy 배열을 이용하는 방법이다.
data = {'state':['Ohio','Ohio','Ohio','Nevada','Nevada'],
        'year':[2000,2001,2002,2001,2002],
        'pop':[1.5,1.7,3.6,2.4,2.9],
        }
frame = pd.DataFrame(data)
frame

Unnamed: 0,state,year,pop
0,Ohio,2000,1.5
1,Ohio,2001,1.7
2,Ohio,2002,3.6
3,Nevada,2001,2.4
4,Nevada,2002,2.9


In [20]:
# 원하는 순서대로 Columns를 지정하면 원하는 순서를 가진 DataFrame 객체가 생성된다.
frame = pd.DataFrame(data=data, columns=['year','state','pop'])
frame

Unnamed: 0,year,state,pop
0,2000,Ohio,1.5
1,2001,Ohio,1.7
2,2002,Ohio,3.6
3,2001,Nevada,2.4
4,2002,Nevada,2.9


In [21]:
# Series와 마찬가지로 data에 없는 값을 넘기면 NA값이 저장된다.
frame2 = pd.DataFrame(data, columns=['year','state','pop','debt'],
                     index = ['one','two','three','four','five'])
frame2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,
two,2001,Ohio,1.7,
three,2002,Ohio,3.6,
four,2001,Nevada,2.4,
five,2002,Nevada,2.9,


In [22]:
# DataFrame의 칼럼은 Series처럼 사전 형식의 표기법으로 접근하거나 속성 형식으로 접근할 수 있다.
# dict형식으로 접근하는 방법이 가장 일반적이다.

# 사전형식
print('사전형식:')
print(frame2['state'])
print('\n\n')

# 속성형식
print('속성형식:')
print(frame2.year)

사전형식:
one        Ohio
two        Ohio
three      Ohio
four     Nevada
five     Nevada
Name: state, dtype: object



속성형식:
one      2000
two      2001
three    2002
four     2001
five     2002
Name: year, dtype: int64


In [23]:
# 반환된 Series 객체가 DataFrame 같은 index을 가지면 알맞은 값으로 name 속성이 채워진다.
# 로우는 위치나 iloc, loc와 같은 몇 가지 메서드를 통해 접근할 수 있다.

frame2.loc['three'] # frame2.iloc['three']

year     2002
state    Ohio
pop       3.6
debt      NaN
Name: three, dtype: object

In [24]:
# 칼럼은 대입이 가능하다 예를 들면 현재 비어있는 debt 칼럼에 스칼라 값이나 배열의 값을 대입할 수 있다.
frame2['debt'] = 16.5
frame2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,16.5
two,2001,Ohio,1.7,16.5
three,2002,Ohio,3.6,16.5
four,2001,Nevada,2.4,16.5
five,2002,Nevada,2.9,16.5


In [25]:
frame2['debt'] = np.arange(5)
frame2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,0
two,2001,Ohio,1.7,1
three,2002,Ohio,3.6,2
four,2001,Nevada,2.4,3
five,2002,Nevada,2.9,4


In [26]:
# 리스트나 배열의 칼럼에 대입할 때는 대입하려는 값의 길이가 DataFrame의 크기와 같아야 한다. 
# Series를 대입하면 DataFrame의 index에 따라 값이 대입되며 없는 index에는 값이 대입되지 않는다.

# 특정 index에 index 객체 값을 부여
val = Series([-1.2,-1.5,-1.7], index=['two','four','five'])
frame2['debt'] = val # Series를 DataFrame 칼럼에 할당
frame2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,
two,2001,Ohio,1.7,-1.2
three,2002,Ohio,3.6,
four,2001,Nevada,2.4,-1.5
five,2002,Nevada,2.9,-1.7


In [27]:
# 없는 칼럼을 대입하면 새로운 칼럼이 생성된다. 파이썬 딕셔너리형에서와 마찬가지로 del 예약어를 사용해서 칼럼을 삭제할 수 있다. (변경됨)
# 실제로는 del 예약어를 사용하기 보단 drop() 메서드를 사용해서 삭제하는 경우가 많다.
frame2['eastern'] = frame2.state == 'Ohio'
frame2

Unnamed: 0,year,state,pop,debt,eastern
one,2000,Ohio,1.5,,True
two,2001,Ohio,1.7,-1.2,True
three,2002,Ohio,3.6,,True
four,2001,Nevada,2.4,-1.5,False
five,2002,Nevada,2.9,-1.7,False


In [28]:
frame2 = frame2.drop(labels='eastern',axis=1)
frame2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,
two,2001,Ohio,1.7,-1.2
three,2002,Ohio,3.6,
four,2001,Nevada,2.4,-1.5
five,2002,Nevada,2.9,-1.7


In [29]:
# 중첩된 사전을 이용해서 데이터를 생성할 수 있는데, 다음과 같은 중첩된 사전이 있다면 바깥에 있는 사전의 
# 키 값이 칼럼이 되고 안에 있는 키는 로우가 된다.
pop = {'Nevada': {2001:2.4, 2002:2.9},
       'Ohio': {2000:1.5, 2001:1.7,2002:3.6}}
frame3 = pd.DataFrame(pop)
frame3

Unnamed: 0,Nevada,Ohio
2001,2.4,1.7
2002,2.9,3.6
2000,,1.5


In [30]:
# Numpy에서와 마찬가지로 결과 값의 순서를 뒤집을 수 있다.
frame3.T

Unnamed: 0,2001,2002,2000
Nevada,2.4,2.9,
Ohio,1.7,3.6,1.5


In [31]:
# 중첩된 사전을 이용해서 DataFrame을 생성할 때 안쪽에 있는 사전 값은 키 값별로 조합되어 결과의 index가 되지만,
# index를 직접 지정한다면 지정된 index로 DataFrame을 생성한다.
pd.DataFrame(pop,index=[2001,2002,2003])

Unnamed: 0,Nevada,Ohio
2001,2.4,1.7
2002,2.9,3.6
2003,,


In [32]:
# Series 객체를 담고 있는 사전 데이터도 같은 방식으로 취급한다.
pdata = {'Ohio': frame3['Ohio'][:-1],
        'Nevada': frame3['Nevada'][:2]}
pd.DataFrame(pdata)

Unnamed: 0,Ohio,Nevada
2001,1.7,2.4
2002,3.6,2.9


In [33]:
# DataFrame 생성자에 넘길 수 있는 자료형의 목록은 [표]를 참고
frame3.index.name = 'year'; frame3.columns.name = 'state'
frame3

state,Nevada,Ohio
year,Unnamed: 1_level_1,Unnamed: 2_level_1
2001,2.4,1.7
2002,2.9,3.6
2000,,1.5


In [34]:
# Series와 유사하게 value 속성은 DataFrame에 저장된 데이터를 2차원 배열로 반환한다.
frame3.values

array([[2.4, 1.7],
       [2.9, 3.6],
       [nan, 1.5]])

In [35]:
# DataFrame의 칼럼에 서로 다른 dtype이 있다면 모든 칼럼을 수용하기 위해 그 칼럼 배열의 dtype이 선택된다.
# 즉, 자료형을 통일 시키기위해 자료형 우선순위를 적용
# array 자료형의 특징
frame2.values

array([[2000, 'Ohio', 1.5, nan],
       [2001, 'Ohio', 1.7, -1.2],
       [2002, 'Ohio', 3.6, nan],
       [2001, 'Nevada', 2.4, -1.5],
       [2002, 'Nevada', 2.9, -1.7]], dtype=object)

|   형  | 설명 | 
|:---:|---:|
| `2차원 ndarray` | 데이터를 담고 있는 행렬, 선택적으로 로우와 칼럼의 이름을 전달할 수 있다.  | 
| `배열,리스트,튜플의 사전`| 사전의 모든 항목은 같은 길이를 가져야 하며, 각 항목의 내용이 DataFrame의 칼럼이 된다. |
| `NumPy의 구조화 배열`| 배열의 사전과 같은 방식으로 취급된다. |
| `Series 사전`| Series의 각 값이 칼럼이 된다. 명시적으로 index을 넘겨주지 않으면 각 Series의 index이 하나로 합쳐져서 로우의 index가 된다. |
| `사전의 사전`| 내부에 있는 사전이 칼럼이 된다. 키 값은 Series의 사전과 마찬가지로 합쳐저서 로우에 index가 된다. |
| `사전이나 Series의 리스트`| 리스트의 각 항목이 DataFrame의 로우가 된다. 합쳐진 사전의 키 값이나 Series의 index가 DataFrame 칼럼의 이름이 된다. |
| `리스트나 튜플의 리스트`| 2차원 ndarray와 같은 방식으로 취급된다. |
| `다른 DataFrame`| index를 따로 지정되지 않는다면 DataFrame의 index가 그대로 적용된다. |
| `Numpy MaskedArray`| 2차원 ndarray와 같은 방식으로 취급하지만 마스크 값은 반환되는 DataFrame에서 NA값이 된다. |

### **5.1.3 색인 객체**

**pandas의 index는 표 형식의 데이터에서 각 로우와 칼럼에 대한 이름과 다른 메타데이터 (축의 이름 등)를 저장한다. Series나 DataFrame 객체를 생성할 때 사용되는 배열이나 혹은 다른 순차적인 이름은 내부적으로 index로 변환된다.**

In [36]:
obj = Series(range(3), index=['a','b','c'])

index = obj.index

index

Index(['a', 'b', 'c'], dtype='object')

In [37]:
# index는 변경할 수 없다.
# index[1] = 'd'

In [38]:
# 따라서 index는 최초 선언 후에 변경될 수 없기 때문에 잘 구조 사이에서 안전하게 공유될 수 있다.
index = pd.Index(np.arange(3))

obj2 = Series([1.5,-2.5,0],index=index)

obj2.index is index

True

**pandas에서 사용하는 내장 index 클래스가 정리되어 있다. 특수한 목적으로 축을 index하는 기능을 개발하기 위해 index 클래스의 서브클래스를 만들 수 있다.**

|  클래스  | 설명 | 
|:---:|---:|
| ` index ` | 가장 일반적인 Index 객체이며, 파이썬 객체의 NumpyPy 배열 형식으로 축의 이름을 표현한다.  | 
| ` Int64Index ` | 정수 값을 위한 특수한 index |
| ` MultiIndex ` | 단일 축에 여러 단계의 index을 표현하는 계층적 index 객체, 튜플의 배열과 유사하다고 볼 수 있다.  |
| ` DatetimeIndex ` | 나노초 타임스탬프를 저장한다.(Numpy의 datetime64 dtype으로 표현된다.)  |
| ` PeriodIndex ` | 기간 데이터를 위한 특수한 Index |

In [39]:
frame3

state,Nevada,Ohio
year,Unnamed: 1_level_1,Unnamed: 2_level_1
2001,2.4,1.7
2002,2.9,3.6
2000,,1.5


In [40]:
'Ohio' in frame3.columns

True

In [41]:
2003 in frame3.index

False

|  메서드  | 설명 | 
|:---:|---:|
| ` append ` | 추가적인 Index 객체를 덧붙여 새로운 index를 반환한다. | 
| ` diff ` | index의 차집합을 반환한다. |
| ` interscation ` | index의 교집합을 반환한다. |
| ` union ` | index의 합집합을 반환한다. |
| ` isin ` | 넘겨받은 값이 해당 index 위치에 존재하는지 알려주는 불리언 배열을 반환한다. |
| ` delete ` | i 위치의 index이 삭제된 새로운 index을 반환한다. |
| ` drop ` | 넘겨받은 값이 삭제된 새로운 index를 반환한다. |
| ` insert ` | i 위치에 값이 추가된 새로운 index를 반환한다. |
| ` is_monotonic ` | index이 단조성을 가진다면 True를 반환한다. |
| ` is_unique ` | 중복되는 index가 없다면 True를 반환한다. |
| ` unique ` | index에서 중복되는 요소를 제거하고 유일한 값만을 반환한다. |

## **5.2 핵심 기능**

**이 절에서는 Series나 DataFrame에 저장된 데이터를 다루는 기본 방법을 설명한다.**

### **5.2.1 재색인**

**pandas 객체의 강력한 기능 중 하나인 reindex는 새로운 index에 맞도록 객체를 새로 생성하는 기능이다.**

In [42]:
obj = Series([4.5,7.2,-5.3,3.6], index=['d','b','a','c'])
obj

d    4.5
b    7.2
a   -5.3
c    3.6
dtype: float64

In [43]:
# 이 Series 객체에 대해 reindex를 호출하면 데이터를 새로운 index에 맞게 재배열하고, 없는 index 값이 있다면 비어있는 값을 새로 추가한다.
obj2= obj.reindex(['a','b','c','d','e'])
obj2

a   -5.3
b    7.2
c    3.6
d    4.5
e    NaN
dtype: float64

In [44]:
obj.reindex(['a','b','c','d','e'],fill_value=0)

a   -5.3
b    7.2
c    3.6
d    4.5
e    0.0
dtype: float64

In [45]:
obj3 = Series(['blue','purple','yellow'],index=[0,2,4]) # 0,2,4의 인덱스를 가진 Series 객체 생성
obj3.reindex(range(6),method='ffill') # reindex함수를 통해 0 ~ 5 까지의 인덱스를 생성하고 ffill 메서드를 사용하여 앞의 값으로 누락된 값을 채워넣는다.

0      blue
1      blue
2    purple
3    purple
4    yellow
5    yellow
dtype: object

|  인자  | 설명 | 
|:---:|---:|
| ` ffill 또는 pad ` | 앞의 값으로 채워 넣는다. | 
| ` bfill 또는 backfill ` | 뒤의 값으로 채워 넣는다. |

In [46]:
# DataFrame에 대한 reindex는 (row, column)index 둘 다 변경이 가능하다. 그냥 순서만 전달하면 로우가 reindex 된다.
frame = DataFrame(np.arange(9).reshape(3,3),index=['a','c','d'],
                 columns=['Ohio','Texas','California'])
frame

Unnamed: 0,Ohio,Texas,California
a,0,1,2
c,3,4,5
d,6,7,8


In [47]:
frame2 = frame.reindex(['a','b','c','d'])
frame2

Unnamed: 0,Ohio,Texas,California
a,0.0,1.0,2.0
b,,,
c,3.0,4.0,5.0
d,6.0,7.0,8.0


In [48]:
# 열은 Columns 예약어를 사용해서 reindex할 수 있다.
states = ['Texas','Utah','California']

frame.reindex(columns=states)

Unnamed: 0,Texas,Utah,California
a,1,,2
c,4,,5
d,7,,8


In [49]:
frame.loc[['a','b','c','d'], states]

Passing list-likes to .loc or [] with any missing label will raise
KeyError in the future, you can use .reindex() as an alternative.

See the documentation here:
https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#deprecate-loc-reindex-listlike
  return self._getitem_tuple(key)


Unnamed: 0,Texas,Utah,California
a,1.0,,2.0
b,,,
c,4.0,,5.0
d,7.0,,8.0


|  인자  | 설명 | 
|:---:|---:|
| ` index ` | index으로 사용할 새로운 순서, index 인스턴스나 다른 순차적인 자료 구조를 사용할 수 있다. index는 복사가 이루어지지 않고 그대로 사용된다. | 
| ` method ` | 보간 메서드 [표5-4]를 참고 |
| ` fill_value ` | reindex 과정 중에 새롭게 나타나는 비어있는 데이터를 채우기 위한 값 |
| ` limit ` | 전/후 보간 시에 사용할 최대 갭 크기 |
| ` level ` | Multilndex 단계 (level)에 단순 index을 맞춘다. 그렇지 않으면 Multiindex의 하위 부분 집합에 맞춘다. |
| ` copy ` | True인 경우 새로운 index가 이전 index와 같더라도 데이터를 복사한다. False라면 두 index가 같을 경우 데이터를 복사하지 않는다. |

### **5.2.2 하나의 로우 또는 칼럼 삭제하기**

**index 배열 또는 삭제하려는 로우나 칼럼이 제외된 리스트를 이미 가지고 있다면 로우나 칼럼을 쉽게 삭제할 수 있는데, 이 방법은 데이터의 모양을 변경하는 작업이 필요하다. drop 메서드를 사용하면 선택한 값이 삭제된 새로운 객체를 얻을 수 있다.**

In [50]:
obj = Series(np.arange(5.), index=['a','b','c','d','e'])

new_obj = obj.drop('c')

new_obj

a    0.0
b    1.0
d    3.0
e    4.0
dtype: float64

In [51]:
obj.drop(['d','c'])

a    0.0
b    1.0
e    4.0
dtype: float64

In [52]:
# DataFrame에서는 로우와 칼럼 모두에서 값을 삭제할 수 있다.
data = DataFrame(np.arange(16).reshape(4,4),
                index = ['Ohio','Colorado','Utah','New York'],
                columns=['one','two','three','four'])

data

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


In [53]:
data.drop(labels=['Colorado','Ohio'],axis=0) # axis = 1로 하면 error 

Unnamed: 0,one,two,three,four
Utah,8,9,10,11
New York,12,13,14,15


In [54]:
data.drop('two',axis=1)

Unnamed: 0,one,three,four
Ohio,0,2,3
Colorado,4,6,7
Utah,8,10,11
New York,12,14,15


In [55]:
data.drop(['two','four'],axis=1)

Unnamed: 0,one,three
Ohio,0,2
Colorado,4,6
Utah,8,10
New York,12,14


### **5.2.3 색인하기, 선택하기, 거르기**

In [56]:
# Series의 색인은 Numpy 배열의 색인과 유사하게 동작하는데, Series의 색인은 정수가 아니어도 된다는 점이 다르다
obj = Series(np.arange(4.),index=['a','b','c','d'])
obj

a    0.0
b    1.0
c    2.0
d    3.0
dtype: float64

In [57]:
# iloc,loc 함수
obj.loc['b'] # obj.iloc[1]

1.0

In [58]:
obj.loc['a':'c'] # obj.iloc[0:3]

a    0.0
b    1.0
c    2.0
dtype: float64

In [59]:
# boolean 인덱스
obj[obj < 2]

a    0.0
b    1.0
dtype: float64

In [60]:
# 라벨 이름으로 슬라이싱하는 것은 시작점가 끝점을 포함한다는 점이 일반 파이썬에서의 슬라이싱과 다른 점이다.
obj.loc['b':'c']

b    1.0
c    2.0
dtype: float64

In [61]:
# 슬라이싱 문법으로 선택된 영역에 값을 대입하는 것은 예상한 대로 동작한다.
obj.loc['b':'c'] = 5
obj

a    0.0
b    5.0
c    5.0
d    3.0
dtype: float64

In [62]:
# 앞에서 확인했듯이 index으로 DataFrame에서 칼럼의 값을 하나 이상 가져올 수 있다.
data = DataFrame(np.arange(16).reshape(4,4),
                index = ['Ohio','Colorado','Utah','New York'],
                columns=['one','two','three','four'])

In [63]:
data

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


In [64]:
data['two']

Ohio         1
Colorado     5
Utah         9
New York    13
Name: two, dtype: int32

In [65]:
data[['three','one']]

Unnamed: 0,three,one
Ohio,2,0
Colorado,6,4
Utah,10,8
New York,14,12


In [66]:
# 슬라이싱으로 로우를 선택하거나 불리언 배열로 칼럼을 선택할 수도 있다.
data.iloc[:2]

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7


In [67]:
data[data['three'] > 5]

Unnamed: 0,one,two,three,four
Colorado,4,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


In [68]:
# 스칼라 비교를 통해 생성된 불리언 DataFrame을 사용해서 값을 선택하는 것이다.
data < 5

Unnamed: 0,one,two,three,four
Ohio,True,True,True,True
Colorado,True,False,False,False
Utah,False,False,False,False
New York,False,False,False,False


In [69]:
data[data < 5] = 0
data

Unnamed: 0,one,two,three,four
Ohio,0,0,0,0
Colorado,0,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


In [70]:
# DataFrame의 칼럼에 대해 라벨로 index하는 방법으로, 특수한 index 필드인 iloc, loc를 소개한다. 
# iloc,loc는 Numpy와 비슷한 방식에 추가적으로 축의 라벨을 사용하여 DataFrame의 로우와 컬럼을 선택할 수 있도록 한다.
data.loc['Colorado',['two','three']]

two      5
three    6
Name: Colorado, dtype: int32

In [71]:
data.iloc[1,[1,2]]

two      5
three    6
Name: Colorado, dtype: int32

In [72]:
data.loc[['Colorado','Utah'],['four','one','two']]

Unnamed: 0,four,one,two
Colorado,7,0,5
Utah,11,8,9


In [73]:
data.iloc[[1,2],[3,0,1]]

Unnamed: 0,four,one,two
Colorado,7,0,5
Utah,11,8,9


In [74]:
data.loc['Utah']

one       8
two       9
three    10
four     11
Name: Utah, dtype: int32

In [75]:
data.iloc[2]

one       8
two       9
three    10
four     11
Name: Utah, dtype: int32

In [76]:
data

Unnamed: 0,one,two,three,four
Ohio,0,0,0,0
Colorado,0,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


In [77]:
data.loc[:'Utah','two']

Ohio        0
Colorado    5
Utah        9
Name: two, dtype: int32

In [78]:
data.iloc[:3,1]

Ohio        0
Colorado    5
Utah        9
Name: two, dtype: int32

### **5.2.4 산술연산과 데이터 정렬**

**pandas에서 중요한 기능은 index의 다른 객체 간의 산술연산이다. 객체를 더할 때 짝이 맞지 않는 index가 있다면 결과에 두 index가 통합된다.**

In [79]:
s1 = Series([7.3,-2.5,3.4,1.5],index=['a','c','d','e'])
s2 = Series([-2.1,3.6,-1.5,4,3.1],index=['a','c','e','f','g'])

In [80]:
print('-'*50)
print(s1)
print('-'*50)
print(s2)
print('-'*50)

--------------------------------------------------
a    7.3
c   -2.5
d    3.4
e    1.5
dtype: float64
--------------------------------------------------
a   -2.1
c    3.6
e   -1.5
f    4.0
g    3.1
dtype: float64
--------------------------------------------------


In [81]:
# 서로 겹치는 index가 없다면 데이터 NA값이 된다. 산술연산 시 누락된 값은 전파되며, DataFrame에서는 로우와 칼럼 모두에 적용된다.
s1 + s2

a    5.2
c    1.1
d    NaN
e    0.0
f    NaN
g    NaN
dtype: float64

In [82]:
df1 = DataFrame(np.arange(9.).reshape(3,3),columns=list('bcd'),
               index = ['Ohio','Texas','Colorado'])
df2 = DataFrame(np.arange(12.).reshape(4,3),columns=list('bde'),
               index = ['Utah','Ohio','Texas','Oregon'])

In [83]:
df1

Unnamed: 0,b,c,d
Ohio,0.0,1.0,2.0
Texas,3.0,4.0,5.0
Colorado,6.0,7.0,8.0


In [84]:
df2

Unnamed: 0,b,d,e
Utah,0.0,1.0,2.0
Ohio,3.0,4.0,5.0
Texas,6.0,7.0,8.0
Oregon,9.0,10.0,11.0


In [85]:
# 이 두 DataFrame을 더하면 각 DataFrame에 있는 index와 칼럼이 하나로 합쳐진다.
df1+df2

Unnamed: 0,b,c,d,e
Colorado,,,,
Ohio,3.0,,6.0,
Oregon,,,,
Texas,9.0,,12.0,
Utah,,,,


#### **산술연산 메서드에 채워 넣을 값 지정하기**

**서로 다른 inddex을 가지는 객체 간의 산술연산에서 존재하지 않는 축의 특수한 값(0 같은)으로 지정하고 싶을 때는 다음과 같이 할 수 있다.**

In [86]:
df1 = DataFrame(np.arange(12.).reshape(3,4), columns=list('abcd'))
df2 = DataFrame(np.arange(20.).reshape(4,5), columns=list('abcde'))

In [87]:
df1

Unnamed: 0,a,b,c,d
0,0.0,1.0,2.0,3.0
1,4.0,5.0,6.0,7.0
2,8.0,9.0,10.0,11.0


In [88]:
df2

Unnamed: 0,a,b,c,d,e
0,0.0,1.0,2.0,3.0,4.0
1,5.0,6.0,7.0,8.0,9.0
2,10.0,11.0,12.0,13.0,14.0
3,15.0,16.0,17.0,18.0,19.0


In [89]:
# 이 둘을 더하면 겹치지 않는 부분의 값은 NA 값이 된다.
df1 + df2

Unnamed: 0,a,b,c,d,e
0,0.0,2.0,4.0,6.0,
1,9.0,11.0,13.0,15.0,
2,18.0,20.0,22.0,24.0,
3,,,,,


In [90]:
# df1의 add 메서드로 df2와 fill_value 값을 인자로 전달한다.
# 즉, NaN 값을 0으로 채운 후 기존에 있던 e columns과 더하기 연산을 진행
df1.add(df2, fill_value=0)

Unnamed: 0,a,b,c,d,e
0,0.0,2.0,4.0,6.0,4.0
1,9.0,11.0,13.0,15.0,9.0
2,18.0,20.0,22.0,24.0,14.0
3,15.0,16.0,17.0,18.0,19.0


In [91]:
# Series나 DataFrame을 reindex할 때 역시 fill_value를 지정할 수 있다.
# df1에 있는 abcd를 df2에 있는 abcde로 reindex하면서 e의 column이 생겨나고 새로 생긴 컬럼의 값은 0으로 채워준다.
df1.reindex(columns=df2.columns, fill_value=0)

Unnamed: 0,a,b,c,d,e
0,0.0,1.0,2.0,3.0,0
1,4.0,5.0,6.0,7.0,0
2,8.0,9.0,10.0,11.0,0


|   메서드  | 설명 | 
|:---:|---:|
| `add` | 덧셈(+)을 위한 메서드 | 
| `sub` | 뺄셈(-)을 위한 메서드 |
| `div` | 나눗셈(/)을 위한 메서드 |
| `mul` | 곱셈(X)을 위한 메서드 |

#### **DataFrame과 Series 간의 연산**

**Numpy 배열의 연산처럼 DataFrame과 Series간의 연산도 잘 정의되어 있다.**

In [92]:
arr = np.arange(12.).reshape(3,4)
arr

array([[ 0.,  1.,  2.,  3.],
       [ 4.,  5.,  6.,  7.],
       [ 8.,  9., 10., 11.]])

In [93]:
arr[0]

array([0., 1., 2., 3.])

![test](./img/브로드캐스팅.png)

In [94]:
# 이 예제는 브로드캐스팅에 대한 예제로, 위 그림을 참고하자
arr - arr[0]

array([[0., 0., 0., 0.],
       [4., 4., 4., 4.],
       [8., 8., 8., 8.]])

In [95]:
frame = DataFrame(np.arange(12.).reshape(4,3), columns=list('bde'),
                  index = ['Utah','Ohio','Texas','Oregon'])
frame

Unnamed: 0,b,d,e
Utah,0.0,1.0,2.0
Ohio,3.0,4.0,5.0
Texas,6.0,7.0,8.0
Oregon,9.0,10.0,11.0


In [96]:
series = frame.loc['Utah'] # series.iloc[0]
series

b    0.0
d    1.0
e    2.0
Name: Utah, dtype: float64

In [97]:
# 기본적으로 DataFrame과 Series 간의 산술연산은 Series의 index을 DataFrame의 칼럼에 맞추고 아래 로우로 전파한다.
frame - series

Unnamed: 0,b,d,e
Utah,0.0,0.0,0.0
Ohio,3.0,3.0,3.0
Texas,6.0,6.0,6.0
Oregon,9.0,9.0,9.0


In [98]:
# 만약 index 값을 DataFrame의 칼럼이나 Series의 index에서 찾을 수 없다면 그 객체는 형식을 맞추기 위해 reindex한다.
series2 = Series(range(3),index=['b','e','f'])
frame + series2

Unnamed: 0,b,d,e,f
Utah,0.0,,3.0,
Ohio,3.0,,6.0,
Texas,6.0,,9.0,
Oregon,9.0,,12.0,


In [101]:
# 만약 각 로우에 대해 연산을 수행하고 싶다면 산술연산 메서드를 사용하면 된다.
frame

Unnamed: 0,b,d,e
Utah,0.0,1.0,2.0
Ohio,3.0,4.0,5.0
Texas,6.0,7.0,8.0
Oregon,9.0,10.0,11.0


In [100]:
series3 = frame['d']
series3

Utah       1.0
Ohio       4.0
Texas      7.0
Oregon    10.0
Name: d, dtype: float64

In [102]:
# 이 예에서 인자로 넘기는 axis 값은 연산을 적용할 축 번호이며, 여기서 axis=0은 DataFrame의 로우에 따라 연산을 수행하라는 의미이다.
frame.sub(series3,axis=0)

Unnamed: 0,b,d,e
Utah,-1.0,0.0,1.0
Ohio,-1.0,0.0,1.0
Texas,-1.0,0.0,1.0
Oregon,-1.0,0.0,1.0


### **5.2.5 함수 적용과 매핑**

**pandas 객체에도 Numpy의 유니버셜 함수(배열의 각 원소에 적용되는 메서드)를 적용할 수 있다.**

In [103]:
frame = DataFrame(np.random.randn(4,3), columns=list('bde'),
                 index = ['Utah', 'Ohio', 'Texas', 'Oregon'])

In [104]:
frame

Unnamed: 0,b,d,e
Utah,0.73227,0.292368,-0.219
Ohio,-0.758917,-0.320133,0.125069
Texas,-0.061545,-0.770623,1.892164
Oregon,0.073525,0.99575,-0.845767


In [105]:
np.abs(frame) # np.abs는 절대값으로 변환해주는 유니버셜 함수이다.

Unnamed: 0,b,d,e
Utah,0.73227,0.292368,0.219
Ohio,0.758917,0.320133,0.125069
Texas,0.061545,0.770623,1.892164
Oregon,0.073525,0.99575,0.845767


In [109]:
# 자주 사용되는 또 다른 연산은 각 로우나 칼럼의 1차원 배열에 함수를 적용하는 것이다.
# DataFrame의 apply 메서드를 통해 수행할 수 있다.
f = lambda x : x.max() - x.min() # 입력 값의 최대값 - 최소값을 반환하는 lambda 함수 정의
frame.apply(f) # 즉, 각 칼럼의 최대값 - 최소값을 한 값을 반환

b    3.034677
d    2.809446
e    0.794292
dtype: float64

In [110]:
frame.apply(f, axis=1) # 각 로우의 최대값 - 최소값을 한 값을 반환

Utah      2.026470
Ohio      1.873259
Texas     2.505405
Oregon    2.489977
dtype: float64

In [111]:
# 배열의 합계나 평균 같은 일반적인 통계는 DataFrame의 메서드에 있으므로 apply 메서드를 사용해야만 하는 것은 아니다.
# apply 메서드에 전달된 함수는 스칼라 값을 반환할 필요가 없으며, Series 또는 여러 값을 반환해도 된다.
def f(x): # f라는 함수 정의에 x 값을 입력인자로 받는다.
    return Series([x.min(), x.max()], index = ['min','max'])

In [112]:
# 즉, 각 칼럼의 최소값과 최대값을 반환하는데 각 칼럼을 Series형태로 만들어서 출력하고, Series의 index명을 min, max로 바꿔준다.
frame.apply(f) 

Unnamed: 0,b,d,e
min,-2.167405,-1.234509,-0.155542
max,0.867272,1.574937,0.638751


In [113]:
# 배열의 각 원소에 적용되는 파이썬의 함수를 사용할 수도 있다.
# frame 객체에서 실수 값을 문자열 포맷으로 변환하고 싶다면 applymap을 이용해서 다음과 같이 해도 된다.
# 이 메서드의 이름이 applymap인 이유는 Series가 각 원소에 적용할 함수를 지정하기 위한 map 메서드를 가지고 있기 때문이다.
format1 = lambda x: '%.2f' % x # 입력인자를 x로 받고 소수점 둘째 자리까지 잘라 문자열로 변환한다.
frame.applymap(format1)

Unnamed: 0,b,d,e
Utah,0.87,-1.16,-0.12
Ohio,-0.85,-1.23,0.64
Texas,-2.17,0.34,-0.16
Oregon,-0.92,1.57,0.4


In [114]:
frame['e'].map(format1)

Utah      -0.12
Ohio       0.64
Texas     -0.16
Oregon     0.40
Name: e, dtype: object

### **5.2.6 정렬과 순위**

**어떤 기준에 근거해서 데이터를 정렬하는 것 역시 중요한 명령이다. 로우나 칼럼의 index를 알파벳 순으로 정렬하려면 정렬된 새로운 객체를 반환하는 sort_index 메서드를 사용하면 된다.**

In [116]:
obj = Series(range(4),index = ['d','a','b','c'])
obj.sort_index()

a    1
b    2
c    3
d    0
dtype: int64

In [117]:
# DataFrame은 로우나 칼럼 중 하나의 축을 기준으로 정렬할 수 있다.
frame = DataFrame(np.arange(8).reshape(2,4), index = ['three','one'],
                 columns=['d','a','b','c'])

In [119]:
frame.sort_index(axis=0)

Unnamed: 0,d,a,b,c
one,4,5,6,7
three,0,1,2,3


In [120]:
frame.sort_index(axis=1)

Unnamed: 0,a,b,c,d
three,1,2,3,0
one,5,6,7,4


In [121]:
# 데이터는 기본적으로 오름차순으로 정렬되지만 내림차순으로 정렬할 수도 있다.
frame.sort_index(axis=1, ascending=False)
frame

Unnamed: 0,d,a,b,c
three,0,1,2,3
one,4,5,6,7


In [122]:
# Series 객체를 값에 따라 정렬하고 싶다면 sort_values 메서드를 사용하자
obj = Series([4,7,-3,2])
obj.sort_values()

2   -3
3    2
0    4
1    7
dtype: int64

In [123]:
# 정렬할 때 비어있는 값은 기본적으로 Series 객체에서 가장 마지막에 위치한다.
obj = Series([4,np.nan,7,np.nan,-3,2])
obj.sort_values()

4   -3.0
5    2.0
0    4.0
2    7.0
1    NaN
3    NaN
dtype: float64

In [125]:
# DataFrame에서는 하나 이상의 칼럼에 있는 값으로 정렬이 필요할 수 있다. 이럴 때는 by 옵션에 필요한 칼럼의 이름을 넘기면 된다.
frame = DataFrame({'b':[4,7,-3,2], 'a': [0,1,0,1]})
frame

Unnamed: 0,b,a
0,4,0
1,7,1
2,-3,0
3,2,1


In [126]:
# 하나 이상의 칼럼명을 기준으로 정렬을 수행할때 by를 사용한다.
frame.sort_values(by='b')

Unnamed: 0,b,a
2,-3,0
3,2,1
0,4,0
1,7,1


In [129]:
# 여러 개의 칼럼을 정렬하려면 칼럼의 이름이 담긴 리스트를 전달하면 된다.
frame.sort_values(by=['a','b'])

Unnamed: 0,b,a
2,-3,0
0,4,0
3,2,1
1,7,1


In [131]:
# 순위는 정렬과 거의 흡사하며, 1부터 배열의 유효한 데이터 개수까지의 순위를 매긴다.
# 또한 순위는 numpy.argsort에서 반환하는 간접 정렬 index와 유사한데, 동률인 순위를 처리하는 방식이 다르다.
# 기본적으로 Series와 DataFrame의 rank 메서드는 동점인 항목에 대해서는 평균 순위를 매긴다.
obj = Series([7,-5,7,4,2,0,4])
obj.rank()

0    6.5
1    1.0
2    6.5
3    4.5
4    3.0
5    2.0
6    4.5
dtype: float64

In [132]:
# 데이터 상에서 나타나는 순서에 따라 순위를 매길 수도 있다.
obj.rank(method='first')

0    6.0
1    1.0
2    7.0
3    4.0
4    3.0
5    2.0
6    5.0
dtype: float64

In [133]:
# 내림차순으로 순위를 매길 수도 있다.
obj.rank(ascending=False, method='max')

0    2.0
1    7.0
2    2.0
3    4.0
4    5.0
5    6.0
6    4.0
dtype: float64

In [134]:
frame = DataFrame({'b': [4.3,7,-3,2], 'a': [0,1,0,1],
                  'c': [-2,5,8,-2.5]})

In [135]:
frame

Unnamed: 0,b,a,c
0,4.3,0,-2.0
1,7.0,1,5.0
2,-3.0,0,8.0
3,2.0,1,-2.5


In [136]:
# 로우축을 기준으로 rank
frame.rank(axis=1)

Unnamed: 0,b,a,c
0,3.0,2.0,1.0
1,3.0,1.0,2.0
2,1.0,2.0,3.0
3,3.0,2.0,1.0


|   메서드  | 설명 | 
|:---:|---:|
| `average` | 기본 값: 같은 값을 가지는 항목의 평균 값을 순위로 삼는다. | 
| `min` | 같은 값을 가지는 그룹을 낮은 순위로 매긴다. |
| `max` | 같은 값을 가지는 그룹을 높은 순위로 매긴다. |
| `first` | 데이터 내에서 위치에 따라 순위를 매긴다. |

#### **5.2.7 중복 색인**

**지금까지 살펴본 모든 예제는 모두 축의 이름 (index 값)이 유일했다. pandas의 많은 함수 (reindex 같은)에서 index 값은 유일해야 하지만 강제 사항은 아니다. 이제 색인 값이 중복된 Series 객체를 살펴보자**

In [137]:
obj = Series(range(5), index=['a','a','b','b','c'])
obj

a    0
a    1
b    2
b    3
c    4
dtype: int64

In [138]:
# index의 is_unique 속성은 해당 값이 유일한지 아닌지 알려준다.
obj.index.is_unique

False

In [139]:
# 중복되는 index 값이 있으면 index을 이용한 데이터 선택은 다르게 동작하고 하나의 Series 객체를 반환한다.
# 하지만 중복되는 index 값이 없으면 index을 이용한 데이터 선택은 스칼라 값을 반환한다.
obj['a']

a    0
a    1
dtype: int64

In [140]:
obj['c']

4

In [141]:
# DataFrame에서 로우를 선택하는 것도 동일하다.
df = DataFrame(np.random.randn(4,3), index = ['a','a','b','b'])
df

Unnamed: 0,0,1,2
a,-2.090145,0.105307,-1.232695
a,1.036432,-1.106298,-1.526188
b,0.764386,-0.331064,0.07325
b,-1.12366,1.320293,2.220593


In [142]:
df.loc['b'] # iloc는 index 기반이기 때문에 신경 안 써도 된다.

Unnamed: 0,0,1,2
b,0.764386,-0.331064,0.07325
b,-1.12366,1.320293,2.220593


## **5.3 기술통계 계산과 요약**

**pandas 객체는 일반적인 수학 메서드와 통계 메서드를 가지고 있다. 이 메서드는 대부분 Series나 DataFrame 하나의 칼럼이나 로우에서 단일 값 (합이나 평균 같은)을 구하는 축소 혹은 요약통계 범주에 속한다.**

**순수 Numpy 배열에서 제공하는 동일한 메서드와 비교하여 pandas의 메서드는 처음부터 누락된 데이터를 제외하도록 설계되었다.**

In [145]:
df = DataFrame([[1.4,np.nan],[7.1,-4.5],
               [np.nan,np.nan],[0.75,-1.3]],
              index=['a','b','c','d'],
              columns=['one','two'])

In [146]:
df

Unnamed: 0,one,two
a,1.4,
b,7.1,-4.5
c,,
d,0.75,-1.3


In [147]:
# DataFrame의 sum 메서드를 호출하면 각 칼럼의 합을 담은 Series를 반환한다.
df.sum() # axis = 0

one    9.25
two   -5.80
dtype: float64

In [148]:
# axis=1 옵션을 넘기면 각 로우의 합을 반환한다.
df.sum(axis=1)

a    1.40
b    2.60
c    0.00
d   -0.55
dtype: float64

In [149]:
# 전체 로우나 칼럼의 값이 NA가 아니라면 계산 과정에서 NA 값은 제외시키고 계산된다. 이는 skipna 옵션을 통해 조정할 수 있다.
df.mean(axis=1, skipna=False)

a      NaN
b    1.300
c      NaN
d   -0.275
dtype: float64

|   메서드  | 설명 | 
|:---:|---:|
| `axis` | 연산을 수행할 축. DataFrame에서 0은 로우고 1은 칼럼이다. | 
| `skipna` | 같은 값을 가지는 그룹을 낮은 순위로 매긴다. |
| `level` | 계산하려는 축이 계층적 index라면 레벨에 따라 묶어서 계산한다. |

In [152]:
df

Unnamed: 0,one,two
a,1.4,
b,7.1,-4.5
c,,
d,0.75,-1.3


In [151]:
# idxmin이나 idxmax 같은 메서드는 최소 혹은 최대 값을 가지고 있는 index 값 같은 간접 통계를 반환한다.
df.idxmax() # 각 칼럼의 최대 값을 반환

one    b
two    d
dtype: object

In [153]:
df.idxmin() # 각 칼럼의 최소 값을 반환

one    d
two    b
dtype: object

In [154]:
# 누산 (누적 산술)
df.cumsum() # axis=0 축으로 누적 합을 계산한다.

Unnamed: 0,one,two
a,1.4,
b,8.5,-4.5
c,,
d,9.25,-5.8


In [155]:
# 축소나 누산도 아닌 다른 종류의 메서드로 describe가 있는데, describe 메서드는 한 번에 통계 결과를 여러 개 만들어낸다.
df.describe()

Unnamed: 0,one,two
count,3.0,2.0
mean,3.083333,-2.9
std,3.493685,2.262742
min,0.75,-4.5
25%,1.075,-3.7
50%,1.4,-2.9
75%,4.25,-2.1
max,7.1,-1.3


In [157]:
# 수치 데이터가 아니면 다른 요약통계를 생성한다.
obj = Series(['a','a','b','c'] * 4)
obj.describe()

count     16
unique     3
top        a
freq       8
dtype: object

|   메서드  | 설명 | 
|:---:|---:|
| `count` | NA 값을 제외한 값의 수를 반환한다. | 
| `describe` | Series나 DataFrame의 각 칼럼에 대한 요약통계를 계산한다. |
| `min,max` | 최소, 최대 값을 계산한다. |
| `argmin, argmax` | 각각 최소, 최대 값을 갖고 있는 index 위치(정수)를 반환한다. | 
| `idxmin, idxmax` | 각각 최소, 최대 값을 갖고 있는 index 값을 반환한다. |
| `quantile` | 0부터 1까지의 분위수를 계산한다. |
| `sum` | 합을 계산 | 
| `mean` | 평균을 계산 |
| `median` | 중간 값(50% 분위)를 반환한다. |
| `mad` | 평균 값에서 절대 평균편차를 구한다. | 
| `var` | 표본 분산 값을 구한다. |
| `std` | 표본 표준편차 값을 구한다. |
| `skew` | 표본 비대칭도(3차 적률)의 값을 구한다. | 
| `kurt` | 표본 첨도(4차 적률)의 값을 구한다. |
| `cumsum` | 누적 합을 구한다. |
| `cummin, cummax` | 각각의 누적 최소 값과 누적 최대 값을 계산한다. | 
| `cumprod` | 누적 곱을 구한다. |
| `diff` | 1차 산술 차를 구한다(시계열 데이터 처리 시 유용하다. |
| `pct_change` | 퍼센트 변화율을 계산한다. |

### **5.3.1 상관관계와 공분산**

**상관관계와 공분산 같은 요약통계 계산은 인자가 2개 필요하다. 구글 파이낸스 사이트에서 구한 주식 가격과 시가 총액을 담고 있는 다음 DataFrame에 대해 생각해보자**

In [158]:
import pandas as pd
from pandas_datareader import data

In [162]:
# 집값 데이터 불러오기
housing = pd.read_csv('housing.csv')

In [175]:
housing.head()

Unnamed: 0,longitude,latitude,housing_median_age,total_rooms,total_bedrooms,population,households,median_income,median_house_value,ocean_proximity
0,-122.23,37.88,41.0,880.0,129.0,322.0,126.0,8.3252,452600.0,NEAR BAY
1,-122.22,37.86,21.0,7099.0,1106.0,2401.0,1138.0,8.3014,358500.0,NEAR BAY
2,-122.24,37.85,52.0,1467.0,190.0,496.0,177.0,7.2574,352100.0,NEAR BAY
3,-122.25,37.85,52.0,1274.0,235.0,558.0,219.0,5.6431,341300.0,NEAR BAY
4,-122.25,37.85,52.0,1627.0,280.0,565.0,259.0,3.8462,342200.0,NEAR BAY


In [171]:
# housing에 latitude Series를 추출해 DataFrame으로 변환
latitude = pd.DataFrame(housing['latitude'])

In [176]:
latitude.head()

Unnamed: 0,latitude
0,37.88
1,37.86
2,37.85
3,37.85
4,37.85


In [173]:
# latitude(고도)의 퍼센트 변화율을 계산한다.
returns = latitude.pct_change()

In [177]:
returns.tail()

Unnamed: 0,latitude
20635,0.005348
20636,0.000253
20637,-0.001519
20638,0.0
20639,-0.001522


In [180]:
# corr 메서드는 NA가 아니고 정렬된 index에서 연속하는 두 Series에 대해 상관관계를 계산하고 cov 메서드는 공분산을 계산한다.
# housing의 total_rooms와 median_income의 상관관계를 구한다.
housing['total_rooms'].corr(housing['median_income'])

0.19804964508461004

In [181]:
housing['total_rooms'].cov(housing['median_income'])

820.852409952237

In [182]:
# 반면에 DataFrame에서 corr과 cov 메서드는 DataFrame 행렬상에서 상관관계와 공분산을 계산한다.
# Series로 접근하지 않고 DataFrame상에서 corr,cov하면 수치형 데이터 전체의 상관계수와 공분산을 구한다.
housing.corr()

Unnamed: 0,longitude,latitude,housing_median_age,total_rooms,total_bedrooms,population,households,median_income,median_house_value
longitude,1.0,-0.924664,-0.108197,0.044568,0.069608,0.099773,0.05531,-0.015176,-0.045967
latitude,-0.924664,1.0,0.011173,-0.0361,-0.066983,-0.108785,-0.071035,-0.079809,-0.14416
housing_median_age,-0.108197,0.011173,1.0,-0.361262,-0.320451,-0.296244,-0.302916,-0.119034,0.105623
total_rooms,0.044568,-0.0361,-0.361262,1.0,0.93038,0.857126,0.918484,0.19805,0.134153
total_bedrooms,0.069608,-0.066983,-0.320451,0.93038,1.0,0.877747,0.979728,-0.007723,0.049686
population,0.099773,-0.108785,-0.296244,0.857126,0.877747,1.0,0.907222,0.004834,-0.02465
households,0.05531,-0.071035,-0.302916,0.918484,0.979728,0.907222,1.0,0.013033,0.065843
median_income,-0.015176,-0.079809,-0.119034,0.19805,-0.007723,0.004834,0.013033,1.0,0.688075
median_house_value,-0.045967,-0.14416,0.105623,0.134153,0.049686,-0.02465,0.065843,0.688075,1.0


In [183]:
housing.cov()

Unnamed: 0,longitude,latitude,housing_median_age,total_rooms,total_bedrooms,population,households,median_income,median_house_value
longitude,4.014139,-3.957054,-2.728244,194.8037,58.76851,226.3778,42.36807,-0.057765,-10627.43
latitude,-3.957054,4.562293,0.300346,-168.2178,-60.29962,-263.1378,-58.01024,-0.32386,-35532.56
housing_median_age,-2.728244,0.300346,158.39626,-9919.12,-1700.313,-4222.271,-1457.581,-2.84614,153398.8
total_rooms,194.80375,-168.217847,-9919.12006,4759445.0,856730.6,2117613.0,766104.6,820.85241,33772890.0
total_bedrooms,58.768508,-60.299623,-1700.312817,856730.6,177565.4,419139.1,157829.5,-6.180851,2416878.0
population,226.377839,-263.137814,-4222.270582,2117613.0,419139.1,1282470.0,392803.6,10.400979,-3221249.0
households,42.368072,-58.010245,-1457.58129,766104.6,157829.5,392803.6,146176.0,9.466667,2904924.0
median_income,-0.057765,-0.32386,-2.84614,820.8524,-6.180851,10.40098,9.466667,3.609323,150847.5
median_house_value,-10627.425205,-35532.559074,153398.801329,33772890.0,2416878.0,-3221249.0,2904924.0,150847.482793,13316150000.0


In [184]:
# DataFrame의 corrwith 메서드를 사용하면 다른 Series나 DataFrame과의 상관관계를 계산한다.
# Series를 넘기면 각 칼럼에 대해 계산한 상관관계를 담고 있는 Series를 반환한다.
# DataFrame을 넘기면 맞아떨어지는 칼럼의 이름에 대한 상관관계를 계산한다.
returns.corrwith(housing['latitude'])

latitude    0.038798
dtype: float64

### **5.3.2 유일 값, 값 세기, 멤버십**

**또 다른 종류의 메서드로는 1차원 Series에 담긴 값의 정보를 추출하는 메서드가 있다. 다음 예제를 살펴본다.**

In [185]:
obj = Series(['c','a','d','a','a','b','b','c','c'])

In [186]:
# 첫 번째로 unique 함수는 Series에서 중복되는 값을 제거하고 유일 값만 담고 있는 Series를 반환한다.
uniques = obj.unique()
uniques

array(['c', 'a', 'd', 'b'], dtype=object)

In [187]:
# 유일 값은 정렬된 순서로 반환되지 않지만 필요하다면 uniques.sort()를 이용해서 나중에 정렬할 수도 있다.
# 그리고 value_counts는 Series에서 도수를 계산하여 반환한다.
obj.value_counts()

a    3
c    3
b    2
d    1
dtype: int64

In [189]:
# value_counts에서 반환하는 Series는 담고 있는 값으로 내림차순 정렬된다.
# 또한 value_counts 메서드는 pandas의 최상위 메서드로, 어떤 배열이나 순차 자료 구조에서도 사용할 수 있다.
pd.value_counts(obj.values,sort=False)

b    2
c    3
a    3
d    1
dtype: int64

In [192]:
obj

0    c
1    a
2    d
3    a
4    a
5    b
6    b
7    c
8    c
dtype: object

In [190]:
# 마지막으로 isin 메서드는 어떤 값이 Series에 있는지 나타내는 불리언 벡터를 반환하는데,
# Series나 DataFrame의 칼럼에서 값을 골라내고 싶을 때 유용하게 사용한다.
mask = obj.isin(['b','c'])

In [191]:
# 'b','c'가 있는 인덱스를 불리언 자료형으로 반환
mask

0     True
1    False
2    False
3    False
4    False
5     True
6     True
7     True
8     True
dtype: bool

In [193]:
# mask와 일치하는 인덱스 위치에 객체 값을 반환한다.
obj[mask]

0    c
5    b
6    b
7    c
8    c
dtype: object

|   메서드  | 설명 | 
|:---:|---:|
| `isin` | Series의 각 원소가 넘겨받은 연속된 값에 속하는지를 나타내는 불리언 배열을 반환한다. | 
| `unique` | Series에서 중복되는 값을 제거하고 유일한 값만 포함하는 배열을 반환한다. 결과는 Series에서 발견된 순서대로 반환한다. |
| `value_counts` | Series에서 유일 값에 대한 index 값과 도수를 계산한다. 결과는 도수 값의 내림차순으로 정렬 된다. |

In [198]:
# DataFrame의 여러 로우에 대해 히스토그램을 구해야 하는 경우가 있다.
data = DataFrame({'Qu1': [1,3,4,3,4],
                  'Qu2': [2,3,1,2,3],
                  'Qu3': [1,5,2,4,4]})

In [199]:
data

Unnamed: 0,Qu1,Qu2,Qu3
0,1,2,1
1,3,3,5
2,4,1,2
3,3,2,4
4,4,3,4


In [200]:
# 그런 경우 DataFrame의 apply 함수에 pandas.value_counts를 넘기면 다음과 같은 결과를 얻을 수 있다.
# value_counts 메서드의 결과가 DataFrame의 칼럼 크기보다 작을 수 있기 때문에 fillna(0) 함수를 이용해서 비어있는 값은 0으로 채움
result = data.apply(pd.value_counts).fillna(0)
result

Unnamed: 0,Qu1,Qu2,Qu3
1,1.0,1.0,1.0
2,0.0,2.0,1.0
3,2.0,2.0,0.0
4,2.0,0.0,2.0
5,0.0,0.0,1.0


## **5.4 누락된 데이터 처리하기**

**누락된 데이터를 처리하는 일은 데이터 분석 애플리케이션에서 흔히 있는 일이다.**

> **pandas의 설계 목표 중 하나는 누락 데이터를 가능한 한 쉽게 처리할 수 있도록 하는 것이다.**

**pandas는 누락된 데이터를 실수든 아니는 모두 NaN(Not a number)으로 취급한다. 그래서 누락된 값을 쉽게 찾을 수 있게 하는 파수병 역할을 한다.**

In [201]:
string_data = Series(['aardvark','artichoke',np.nan,'avocado'])

In [202]:
string_data

0     aardvark
1    artichoke
2          NaN
3      avocado
dtype: object

In [204]:
# 결측값이 있는 위치의 index에 있는 객체를 불리언 형태로 반환한다.
string_data.isnull()

0    False
1    False
2     True
3    False
dtype: bool

In [205]:
# 파이썬의 내장 None 값 또한 NA 값으로 취급된다.
string_data[0] = None

In [206]:
string_data.isnull()

0     True
1    False
2     True
3    False
dtype: bool

**pandas에서 NA 값을 표기하는 것이 최선이라는 주장을 하려는 것은 아니지만 pandas에서 사용하는 방법이 더 간단하고 일관적이다.**

**성능 면에서도 훌륭하며 Numpy 자료형에는 존재하지 않는 진짜 NA 자료형이나 비트 패턴 위에서 만든 간단한 API를 제공한다.**

|   메서드  | 설명 | 
|:---:|---:|
| `dropna` | 누락된 데이터가 있는 축(로우,칼럼)을 제외시킨다. 어느 정도의 누락 데이터까지 용인할 것인지 지정할 수 있다. | 
| `fillna` | 누락된 데이터를 대신할 값을 채우거나 'ffill' 또는 'bfill'같은 보간 메서드를 적용한다. |
| `isnull` | 누락되거나 NA인 값을 알려주는 불리언 값이 저장된, 같은 형의 객체를 반환한다. |
| `notnull` | isnull과 반대되는 메서드다. |

### **5.4.1 누락된 데이터 골라내기**

**누락된 데이터를 골라내는 방법에는 여러 가지가 있는데, 직접 손으로 제거하는 것도 한 방법이지만 dropna를 사용하는 것이 매우 유용하다.**

**Series에 대해 dropna 메서드를 적용하면 실제 데이터가 들어있는 index 값과 데이터를 Series 값으로 반환한다.**

In [207]:
from numpy import nan as NA

In [208]:
data = Series([1,NA,3.5,NA,7])

In [209]:
data.dropna()

0    1.0
2    3.5
4    7.0
dtype: float64

In [210]:
# 불리언 index을 이용해서 직접 계산하는 것도 가능하다.
data[data.notnull()]

0    1.0
2    3.5
4    7.0
dtype: float64

In [211]:
# DataFrame 객체의 경우는 조금 복잡한데, 모두 NA인 로우나 칼럼을 제외하든가
# 하나라도 NA인 값을 포함하고 있는 로우나 칼럼을 제외시킬 수도 있다.
# dropna는 기본적으로 NA 값이 하나라도 있는 로우는 제외시킨다.
data = DataFrame([[1.,6.5,3.],[1.,NA,NA],
                 [NA,NA,NA], [NA,6.5,3.]])

In [212]:
data

Unnamed: 0,0,1,2
0,1.0,6.5,3.0
1,1.0,,
2,,,
3,,6.5,3.0


In [214]:
cleaned = data.dropna()
cleaned

Unnamed: 0,0,1,2
0,1.0,6.5,3.0


In [215]:
# how='all' 옵션을 주면 모든 값이 NA인 로우만 제외시킨다.
data.dropna(how='all')

Unnamed: 0,0,1,2
0,1.0,6.5,3.0
1,1.0,,
3,,6.5,3.0


In [219]:
# 칼럼을 제외시키는 방법은 옵션으로 axis=1을 주면 제외시키는 것과 동일한 방식으로 진행
data[4] = NA
data

Unnamed: 0,0,1,2,4
0,1.0,6.5,3.0,
1,1.0,,,
2,,,,
3,,6.5,3.0,


In [220]:
data.dropna(axis=1, how='all')

Unnamed: 0,0,1,2
0,1.0,6.5,3.0
1,1.0,,
2,,,
3,,6.5,3.0


In [222]:
# DataFrame의 로우를 제외시키는 방법은 주로 시계열 데이터 사용되는 경향이 있다.
# 몇 개의 이상의 값이 들어있는 로우만 살펴보고 싶다면 thresh 인자에 원하는 값을 넘기면 된다.
df = DataFrame(np.random.randn(7,3))
df

Unnamed: 0,0,1,2
0,-0.380156,-0.19971,-0.295531
1,-1.178545,0.296709,-1.268332
2,1.617906,-1.054635,1.418656
3,0.418195,0.439722,-1.410703
4,0.638314,-0.256749,-1.137451
5,-0.577569,-0.010876,-3.219737
6,0.157629,1.943302,0.273287


In [223]:
df.loc[:4,1] = NA; df.loc[:2,2] = NA
df

Unnamed: 0,0,1,2
0,-0.380156,,
1,-1.178545,,
2,1.617906,,
3,0.418195,,-1.410703
4,0.638314,,-1.137451
5,-0.577569,-0.010876,-3.219737
6,0.157629,1.943302,0.273287


In [225]:
# 3개 이상의 값들만 있는 로우를 출력
df.dropna(thresh=3)

Unnamed: 0,0,1,2
5,-0.577569,-0.010876,-3.219737
6,0.157629,1.943302,0.273287


### **5.4.2 누락된 값 채우기**

**누락된 값을 제외시키지 않고 데이터상의 결측값을 어떻게든 메우고 싶은 경우가 있는데, 이런 경우에는 fillna 메서드를 활용하면 된다.**

In [226]:
df.fillna(0)

Unnamed: 0,0,1,2
0,-0.380156,0.0,0.0
1,-1.178545,0.0,0.0
2,1.617906,0.0,0.0
3,0.418195,0.0,-1.410703
4,0.638314,0.0,-1.137451
5,-0.577569,-0.010876,-3.219737
6,0.157629,1.943302,0.273287


In [228]:
# fillna에 사전 값을 넘겨서 각 칼럼마다 다른 값을 채워 넣을 수도 있다.
df.fillna({1:0.5, 2:-1})

Unnamed: 0,0,1,2
0,-0.380156,0.5,-1.0
1,-1.178545,0.5,-1.0
2,1.617906,0.5,-1.0
3,0.418195,0.5,-1.410703
4,0.638314,0.5,-1.137451
5,-0.577569,-0.010876,-3.219737
6,0.157629,1.943302,0.273287


In [231]:
# fillna는 새로운 객체를 반환하지만 다음처럼 기존 객체를 변경할 수도 있다.
df.fillna(0, inplace=True)

In [232]:
df

Unnamed: 0,0,1,2
0,-0.380156,0.0,0.0
1,-1.178545,0.0,0.0
2,1.617906,0.0,0.0
3,0.418195,0.0,-1.410703
4,0.638314,0.0,-1.137451
5,-0.577569,-0.010876,-3.219737
6,0.157629,1.943302,0.273287


In [233]:
# reindex에서 사용 가능한 보간 메서드는 fillna 메서드에서도 사용이 가능하다.
df = DataFrame(np.random.randn(6,3))
df

Unnamed: 0,0,1,2
0,-0.490237,-1.263252,0.490305
1,0.762523,0.029177,0.055108
2,1.06394,-0.45144,-1.594521
3,0.435553,-1.31247,-1.77953
4,-0.021904,-0.88062,-0.853287
5,0.859156,-0.283866,0.765776


In [234]:
df.loc[2:,1] = NA; df.loc[4:,2] = NA
df

Unnamed: 0,0,1,2
0,-0.490237,-1.263252,0.490305
1,0.762523,0.029177,0.055108
2,1.06394,,-1.594521
3,0.435553,,-1.77953
4,-0.021904,,
5,0.859156,,


In [235]:
df.fillna(method='ffill')

Unnamed: 0,0,1,2
0,-0.490237,-1.263252,0.490305
1,0.762523,0.029177,0.055108
2,1.06394,0.029177,-1.594521
3,0.435553,0.029177,-1.77953
4,-0.021904,0.029177,-1.77953
5,0.859156,0.029177,-1.77953


In [236]:
df.fillna(method='ffill',limit=2)

Unnamed: 0,0,1,2
0,-0.490237,-1.263252,0.490305
1,0.762523,0.029177,0.055108
2,1.06394,0.029177,-1.594521
3,0.435553,0.029177,-1.77953
4,-0.021904,,-1.77953
5,0.859156,,-1.77953


In [239]:
# 조금만 창의적으로 생각하면 fillna를 이용해서 매우 다양한 일을 할 수 있는데,
# 예를 들면 Series의 평균 값이나 중간 값을 전달할 수도 있다.
data = Series([1.,NA, 3.5, NA, 7])
data

0    1.0
1    NaN
2    3.5
3    NaN
4    7.0
dtype: float64

In [240]:
data.fillna(data.mean())

0    1.000000
1    3.833333
2    3.500000
3    3.833333
4    7.000000
dtype: float64

|   인자  | 설명 | 
|:---:|---:|
| `value` | 비어있는 값을 채울 스칼라 값이나 사전 형식의 객체 | 
| `method` | 보간 방식. 기본적으로 'ffill'을 사용 |
| `axis` | 값을 채워 넣을 축, 기본 값은 0 |
| `inplace` | 복사본을 생성하지 않고 호출한 객체를 변경한다. |
| `limit` | 값을 앞 혹은 뒤에서부터 몇 개까지 채울지 지정한다. |

## **5.5 계층적 색인**

**계층적 index은 pandas의 중요한 기능으로, 축에 대해 다중 index 단계를 지정할 수 있도록 해준다.**

**약간 추상적으로 말하면 차원이 높은(고차원) 데이터를 낮은 차원의 형식으로 다룰 수 있게 해주는 기능이다.**

In [241]:
data = Series(np.random.randn(10),
             index=[['a','a','a','b','b','b','c','c','d','d'],
                   [1,2,3,1,2,3,1,2,2,3]])

In [242]:
data

a  1   -1.071429
   2   -0.094631
   3   -0.433165
b  1    0.419984
   2   -0.120522
   3    0.795311
c  1   -1.332597
   2    0.114372
d  2    0.268811
   3   -0.301238
dtype: float64

In [243]:
# 지금 생성한 객체는 MultiIndex를 index로 하는 Series로, index 계층을 보여주고 있다.
# 바로 위 단계의 index를 이용해서 하위 계층으로 직접 접근할 수 있다.
data.index

MultiIndex([('a', 1),
            ('a', 2),
            ('a', 3),
            ('b', 1),
            ('b', 2),
            ('b', 3),
            ('c', 1),
            ('c', 2),
            ('d', 2),
            ('d', 3)],
           )

In [244]:
# 계층적으로 index된 객체는 데이터의 부분집합을 부분적 index으로 접근하는 것이 가능하다.
data['b']

1    0.419984
2   -0.120522
3    0.795311
dtype: float64

In [245]:
data['b':'c']

b  1    0.419984
   2   -0.120522
   3    0.795311
c  1   -1.332597
   2    0.114372
dtype: float64

In [246]:
data.loc[['b','c']]

b  1    0.419984
   2   -0.120522
   3    0.795311
c  1   -1.332597
   2    0.114372
dtype: float64

In [247]:
# 하위 계층의 객체를 선택하는 것도 가능하다.
# :는 a,b,c,d로 접근하고 하위 계층인 2인 index들을 추출
data[:,2]

a   -0.094631
b   -0.120522
c    0.114372
d    0.268811
dtype: float64

In [248]:
data.loc[:,2]

a   -0.094631
b   -0.120522
c    0.114372
d    0.268811
dtype: float64

In [249]:
# 계층적인 index은 데이터를 재형성하고 피벗 테이블 생성 같은 그룹 기반의 작업을 할 떄 중요하게 사용된다.
# 예를 들어 위에서 만든 DataFrame 객체에 unstack 메서드를 사용해서 데이터를 새롭게 배열
# NaN값은 위에서 선언할때 지정하지 않은 c,d의 값들 (자세한 unstack메서드는 7장에서 한다.)
data.unstack()

Unnamed: 0,1,2,3
a,-1.071429,-0.094631,-0.433165
b,0.419984,-0.120522,0.795311
c,-1.332597,0.114372,
d,,0.268811,-0.301238


In [250]:
# DataFrame에서는 두 축 모두 계층적 색인을 가질 수 있다.
frame = DataFrame(np.arange(12).reshape(4,3),
                 index = [['a','a','b','b'],[1,2,1,2,]],
                 columns=[['Ohio','Ohio','Colorado'],
                          ['Green','Red','Green']])
frame

Unnamed: 0_level_0,Unnamed: 1_level_0,Ohio,Ohio,Colorado
Unnamed: 0_level_1,Unnamed: 1_level_1,Green,Red,Green
a,1,0,1,2
a,2,3,4,5
b,1,6,7,8
b,2,9,10,11


In [251]:
# 계층적 index의 각 단계는 이름을 가질 수 있고, 만약 이름이 있다면 콘솔 출력 시에 함께 나타난다.
# index 이름과 축의 라벨과 혼동하지말자

frame.index.names = ['Key1','Key2']
frame.columns.names = ['state','color']
frame

Unnamed: 0_level_0,state,Ohio,Ohio,Colorado
Unnamed: 0_level_1,color,Green,Red,Green
Key1,Key2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
a,1,0,1,2
a,2,3,4,5
b,1,6,7,8
b,2,9,10,11


In [252]:
# 칼럼의 부분집합을 부분적 index으로 접근하는 것도 로우에 대한 부분적 index와 비슷하게 사용하면 된다.
frame['Ohio']

Unnamed: 0_level_0,color,Green,Red
Key1,Key2,Unnamed: 2_level_1,Unnamed: 3_level_1
a,1,0,1
a,2,3,4
b,1,6,7
b,2,9,10


### **5.5.1 계층 순서 바꾸고 정렬하기**

**계층적 index에서 계층 순서를 바꾸거나 지정된 계층에 따라 데이터를 정렬해야 하는 경우도 있다.**

**swaplevel은 넘겨받은 2개의 계층 번호나 이름이 뒤바뀐 새로운 객체를 반환한다.(하지만 데이터는 변경되지 않는다.)**

In [254]:
frame.swaplevel('Key1','Key2')

Unnamed: 0_level_0,state,Ohio,Ohio,Colorado
Unnamed: 0_level_1,color,Green,Red,Green
Key2,Key1,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
1,a,0,1,2
2,a,3,4,5
1,b,6,7,8
2,b,9,10,11


### **5.5.2 단계별 요약통계**

**DataFrame과 Series의 많은 기술통계와 요약통계는 level 옵션을 가지고 있는데, 이는 어떤 한 축에 대해 합을 구하고 싶은 단계를 지정할 수 있는 옵션이다.**

In [256]:
# 앞에서 살펴본 DataFrame에서 로우나 칼럼을 아래처럼 단계별로 정렬하여 합을 구할 수 있다.
frame.sum(level='Key2')

state,Ohio,Ohio,Colorado
color,Green,Red,Green
Key2,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
1,6,8,10
2,12,14,16


In [257]:
# color를 기준으로 로우 방향으로 합을 계산
frame.sum(level='color',axis=1)

Unnamed: 0_level_0,color,Green,Red
Key1,Key2,Unnamed: 2_level_1,Unnamed: 3_level_1
a,1,2,1
a,2,8,4
b,1,14,7
b,2,20,10


### **5.5.3 DataFrame의 칼럼 사용하기**

**DataFrame에서 로우를 선택하기 위한 index으로 하나 이상의 칼럼을 사용하는 것은 드물지 않은 일이다.**

**아니면 로우의 index을 DataFrame의 칼럼으로 옮기고 싶을 것이다. 다음과 같은 DataFrame이 있다.**

In [258]:
frame = DataFrame({'a':range(7), 'b':range(7,0,-1),
                   'c': ['one','one','one','two','two','two','two'],
                   'd': [0,1,2,0,1,2,3]})
frame

Unnamed: 0,a,b,c,d
0,0,7,one,0
1,1,6,one,1
2,2,5,one,2
3,3,4,two,0
4,4,3,two,1
5,5,2,two,2
6,6,1,two,3


In [259]:
# DataFrame의 set_index 함수는 하나 이상의 칼럼을 index로 하는 새로운 DataFrame을 생성한다.
frame2 = frame.set_index(['c','d'])
frame2

Unnamed: 0_level_0,Unnamed: 1_level_0,a,b
c,d,Unnamed: 2_level_1,Unnamed: 3_level_1
one,0,0,7
one,1,1,6
one,2,2,5
two,0,3,4
two,1,4,3
two,2,5,2
two,3,6,1


In [260]:
# 다음처럼 칼럼을 명시적으로 남겨두지 않으면 DataFrame에서 삭제된다.
frame.set_index(['c','d'],drop=False)

Unnamed: 0_level_0,Unnamed: 1_level_0,a,b,c,d
c,d,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
one,0,0,7,one,0
one,1,1,6,one,1
one,2,2,5,one,2
two,0,3,4,two,0
two,1,4,3,two,1
two,2,5,2,two,2
two,3,6,1,two,3


In [261]:
# 반면에 reset_index 함수는 set_index와 반대되는 개념으로, 계층적 index 단계가 칼럼으로 이동한다.
frame2.reset_index()

Unnamed: 0,c,d,a,b
0,one,0,0,7
1,one,1,1,6
2,one,2,2,5
3,two,0,3,4
4,two,1,4,3
5,two,2,5,2
6,two,3,6,1
