# chap5. Pandas
## 개요
- 주로 데이터를 머신러닝에 이용하는 경우 스프레드시트(엑셀로 생각하면 됌) 형식으로 2차원으로 준다


    행(index) : data point 로서 하나의 객체에 대한 관찰 값들을 이야기한다
    열(columns) : 특성(feature) 로서 해당 객체의 특성 값들을 이야기한다.

### pandas 의 대표적인 데이터 타입

    Series : 어떤 관찰값(특성 한개)을 시간 순서나, 객체에 대해 나열해 놓은 것
    DataFrame : Series 가 열로 합쳐진 것으로 생각하면 된다. 여러 특성에 대해 시간 순서나 객체에 대해 저장한 것

In [6]:
# numpy 와 pandas 는 호환이 잘 되고, 같이 사용하는 경우가 많아 주로 이렇게 import 해준다.
from pandas import Series, DataFrame
import numpy as np

In [7]:
import pandas as pd

In [8]:
import pandas as pd
import random

In [9]:
import os
os.path

<module 'ntpath' from 'c:\\program files\\python36\\lib\\ntpath.py'>

In [10]:
data = []
for i in range(4):
    data.append(random.randint(0,10))
    
obj = Series(data)
obj

0    1
1    0
2    1
3    2
dtype: int64

In [11]:
data

[1, 0, 1, 2]

### 행 색인 추가 : df.index = [  ]

In [14]:
obj

0    1
1    0
2    1
3    2
dtype: int64

In [8]:
obj.index

RangeIndex(start=0, stop=4, step=1)

In [15]:
obj.index = ["a","b","c","d"] # 행의 색인을 추가한다.
obj

a    1
b    0
c    1
d    2
dtype: int64

### Series(딕셔너리)
    key : index에 해당
    value : 데이터 요소값

Series 인덱싱

    Series객체[[해당 인덱스 이름 리스트]]
    Series객체[[해당 인덱스 정수]]

In [19]:
dic = dict(zip(("가","나","다","라","마"), range(0,5)))

dic


{'가': 0, '나': 1, '다': 2, '라': 3, '마': 4}

In [20]:
ds = Series(dic)
ds

가    0
나    1
다    2
라    3
마    4
dtype: int64

In [21]:
ds[["나","라","가"]] # index를 주면 그 행만 추출가능

나    1
라    3
가    0
dtype: int64

In [22]:
ds['나':'라'] # 숫자 색인과 다르게 슬라이싱의 뒷 부분까지 포함하여 반환한다.

나    1
다    2
라    3
dtype: int64

In [23]:
ds[3:] # 기본값인 숫자 index 도 데이터 추출 시 사용 가능하다.

라    3
마    4
dtype: int64

#### 연산 규칙 
같은 인덱스끼리 연산을 수행한다.

In [24]:
dic2 = dict(zip(("가","나","바","사"), (0,3,6,7)))
ds2 = Series(dic2)

In [27]:
ds

가    0
나    1
다    2
라    3
마    4
dtype: int64

In [26]:
ds2

가    0
나    3
바    6
사    7
dtype: int64

In [12]:
ds + ds2 # 인덱스가 다른 경우는 연산이 실행되지 않는다. Nan 값 반환

가    0.0
나    4.0
다    NaN
라    NaN
마    NaN
바    NaN
사    NaN
dtype: float64

## DataFrame : Series 가 여러 개의 열(columns) 가 존재하는 스프레드시트
### 데이터 접근

    df[열] : 기본적으로 dataframe은 열을 우선으로 택하는 방식 사용
    df[열 ] [ 행] : 내부에는 각각 index 이름이 들어가야한다. 
            만약 index 가 사용자가 설정한 것으로 되어있는 경우 default로 적용되는 숫자 인덱스는 사용이 불가
    df.loc[행이름 , 열이름 ]
    df.iloc[행인덱스, 열인덱스] 


In [53]:
l = [[i for i in range(0,4)],[i for i in range(5,9)],[i for i in range(10,14)]]
df = DataFrame(l)
df.columns = ['col0',"col1","col2","col3"]
df.index = ["row0","row1","row2"]
df


Unnamed: 0,col0,col1,col2,col3
row0,0,1,2,3
row1,5,6,7,8
row2,10,11,12,13


In [54]:
l

[[0, 1, 2, 3], [5, 6, 7, 8], [10, 11, 12, 13]]

In [55]:
df = DataFrame(l, index = ["row0","row1","row2"],
               columns = ["col0","col1","col2","col3"]) # 생성부터 옵션을 주어 한번에 만들 수 있다.
df

Unnamed: 0,col0,col1,col2,col3
row0,0,1,2,3
row1,5,6,7,8
row2,10,11,12,13


In [56]:
df[["col1","col3"]] # DctaFrame은 기본적으로 색인을 인자로 주었을 때 열(columns) 인덱스를 받는다.

Unnamed: 0,col1,col3
row0,1,3
row1,6,8
row2,11,13


In [57]:
# df['row1']['col3'] 와 같은 'row1' : 행(row)의 인덱스는 바로 받지 못하고 에러가 발생한다.
#행과 열의 순서로 받게 하기 위해서는
# df.iloc[행, 열] 을 사용해야 한다.

In [58]:
df

Unnamed: 0,col0,col1,col2,col3
row0,0,1,2,3
row1,5,6,7,8
row2,10,11,12,13


In [59]:
# iloc[행위치(정수), 열위치(정수)]
df.iloc[1,1:3]

col1    6
col2    7
Name: row1, dtype: int64

In [60]:
# 위치가 아닌 이름을 사용하면 에러
df.iloc['row1',1:3]

ValueError: Location based indexing can only have [integer, integer slice (START point is INCLUDED, END point is EXCLUDED), listlike of integers, boolean array] types

In [61]:
# .loc[행이름, 열이름]
df.loc['row1':'row2','col1' : 'col3']

Unnamed: 0,col1,col2,col3
row1,6,7,8
row2,11,12,13


In [62]:
# loc위치 사용하는 경우 에러
df.loc[1, 2:3]

TypeError: cannot do label indexing on <class 'pandas.core.indexes.base.Index'> with these indexers [1] of <class 'int'>

In [63]:
arr = np.array([[1,2,3,4],["a","b","c","d"],[True, False, False, True]])
arr

array([['1', '2', '3', '4'],
       ['a', 'b', 'c', 'd'],
       ['True', 'False', 'False', 'True']], dtype='<U11')

In [64]:
df[['col1','col3']] # df의 열(column)에서[콜','ㅋ'] 인 column 만 추출

Unnamed: 0,col1,col3
row0,1,3
row1,6,8
row2,11,13


In [65]:
df[['col1','col3']]["row1":] 

Unnamed: 0,col1,col3
row1,6,8
row2,11,13


In [66]:
df.columns = ['c0','c1','c2','c3'] # 인덱스를 바꿀 수 있다.

In [67]:
df

Unnamed: 0,c0,c1,c2,c3
row0,0,1,2,3
row1,5,6,7,8
row2,10,11,12,13


In [68]:
df.index.name = "rowName"
df.columns.name = "colName"
df

colName,c0,c1,c2,c3
rowName,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
row0,0,1,2,3
row1,5,6,7,8
row2,10,11,12,13


#### 재색인

index(row) 나 column(column) 의 순서를 바꾸어 보고 싶은 경우

    dataframe객체.reindex([원하는 이름 순서], axis = 해당 열(0은 index, 1은 columns))

In [71]:
df.reindex(['c1','c0','c3','c2'],axis = 1)

colName,c1,c0,c3,c2
rowName,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
row0,1,0,3,2
row1,6,5,8,7
row2,11,10,13,12


In [20]:
# 기존 객체의 index 의 순서를 reindex 를 통해 원하는 순서로 재색인 할 수 있다.
## 기본값은 index(axis= 0)
df.reindex(['row1','row2','row0'])

colName,c0,c1,c2,c3
rowName,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
row1,5,6,7,8
row2,10,11,12,13
row0,0,1,2,3


In [21]:
# 원 객체는 변경 X
## 변경을 원하는 경우 객체 이름에 저장해야한다.
df 


colName,c0,c1,c2,c3
rowName,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
row0,0,1,2,3
row1,5,6,7,8
row2,10,11,12,13


In [75]:
list('abc')

['a', 'b', 'c']

In [22]:
# # 기존의 index 요소 값이 아닌 것이 포함되는 경우 불러올 수 없으므로 Nan 값이 뜬다.
df.reindex(list('abc')) 

colName,c0,c1,c2,c3
rowName,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
a,,,,
b,,,,
c,,,,


In [23]:
# axis = 1 (각 열에 대해 수행)을 통해 column도 재색인 할 수 있다.
df.reindex(["c3","c2","c1","c0"], axis = 1) 

colName,c3,c2,c1,c0
rowName,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
row0,3,2,1,0
row1,8,7,6,5
row2,13,12,11,10


In [24]:
df

colName,c0,c1,c2,c3
rowName,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
row0,0,1,2,3
row1,5,6,7,8
row2,10,11,12,13


### 행이나 열 삭제하기
    df.drop(행이나 열이름 리스트, axis =  , inplace = )
        기본 옵션 - 행 삭제(axis = 0)
        inplace : 객체 자체를 변경시킬 것인지 여부, True 인 경우 반환값이 없으며 객체 자체가 바뀐다.

In [78]:
df.drop('row1') # 기본적으로 행(row)를 지운다. (axis = 0 )객체는 변경되지 않는다.
# 변경을 원할 시 inplace = True 옵션을 넣어주어야 한다.

colName,c0,c1,c2,c3
rowName,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
row0,0,1,2,3
row2,10,11,12,13


In [81]:
# 기본적으로 행을 지우는 함수이므로 열이름만 주면 에러
df.drop('c1')

KeyError: "['c1'] not found in axis"

In [27]:
df.drop(['c2', 'c1'], axis = 1)

colName,c0,c3
rowName,Unnamed: 1_level_1,Unnamed: 2_level_1
row0,0,3
row1,5,8
row2,10,13


In [28]:
# df와 같은 데이터를 담은 객체 생성 : 메모리 주소는 다름
df_copy = df.copy()

# inplace 를 사용하여 객체에 저장하는 등호(=) 코드 없이 변경
df_copy.drop(['c1','c3'], axis = 1, inplace= True)

In [29]:
df_copy

colName,c0,c2
rowName,Unnamed: 1_level_1,Unnamed: 2_level_1
row0,0,2
row1,5,7
row2,10,12


#### 데이터 프레임간의 연산

    같은 행, 열 이름인 객체끼리 연산

    같은 행,열 객체가 없는 경우 NA 값 발생

In [89]:
df2 = DataFrame(np.arange(1,13).reshape(3,4))
df2
df2.index = ["row2","row1","row2"]
df2.columns = ["c1","c0","c2","c10"]

In [38]:
print(df)
print(df2)

colName  c0  c1  c2  c3
rowName                
row0      0   1   2   3
row1      5   6   7   8
row2     10  11  12  13
      c1  c0  c2  c10
row2   1   2   3    4
row1   5   6   7    8
row2   9  10  11   12


In [39]:
df * df2

Unnamed: 0,c0,c1,c10,c2,c3
row0,,,,,
row1,30.0,30.0,,49.0,
row2,20.0,11.0,,36.0,
row2,100.0,99.0,,132.0,


In [40]:
f = lambda x: "%.2f" % x # x에 대해 소숫점 둘째자리 까지 표시하여 반환한다.
df.loc["row1"].map(f) # map 메서드를 이용하여 함수를 dataframe에 적용한다.

colName
c0    5.00
c1    6.00
c2    7.00
c3    8.00
Name: row1, dtype: object

In [41]:
df

colName,c0,c1,c2,c3
rowName,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
row0,0,1,2,3
row1,5,6,7,8
row2,10,11,12,13


In [42]:
df.index = ["나","가","다"]
df["new_col"] = [5,2,7]


In [43]:
df

colName,c0,c1,c2,c3,new_col
나,0,1,2,3,5
가,5,6,7,8,2
다,10,11,12,13,7


### 정렬

data 값으로 정렬
    
    dataframe객체.sort_values(by = 정렬 기준이 될 행이나 열 이름 리스트, axis = 0(행) or 1(열), ascending =, inplace = )
    
index 값으로 정렬
    
    dataframe객체.sort_index(axis = , ascending = , inplace = )

In [95]:
df = DataFrame(np.random.randn(3,4))
df.index = list('abc')
df.columns = list('ABCD')

In [96]:
df

Unnamed: 0,A,B,C,D
a,0.39969,-0.644369,0.367781,-0.478488
b,-1.686416,0.601806,-0.26822,-0.097591
c,1.410222,-0.691537,-0.887164,0.31808


In [99]:
df.sort_values(['A','B'], ascending = False)

Unnamed: 0,A,B,C,D
c,1.410222,-0.691537,-0.887164,0.31808
a,0.39969,-0.644369,0.367781,-0.478488
b,-1.686416,0.601806,-0.26822,-0.097591


In [92]:
df

array([[ 0.23456465, -0.00951621,  0.29775464,  0.62380893],
       [-0.55904182,  0.4132448 ,  1.28029998,  3.61847537],
       [ 0.69840841, -0.08559647, -1.48144255,  0.22232606]])

In [90]:
df

colName,c0,c1,c2,c3
rowName,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
row0,0,1,2,3
row1,5,6,7,8
row2,10,11,12,13


In [45]:
df.sort_values(by = 'new_col')

colName,c0,c1,c2,c3,new_col
가,5,6,7,8,2
나,0,1,2,3,5
다,10,11,12,13,7


In [46]:
df.sort_index(axis = 0)# 인덱스를 알파벳 순으로 정렬 axis = 0 : 행

colName,c0,c1,c2,c3,new_col
가,5,6,7,8,2
나,0,1,2,3,5
다,10,11,12,13,7


In [47]:
df.sort_index(axis = 1) # 인덱스를 알파벳 순으로 정렬 axis = 1 : 열

colName,c0,c1,c2,c3,new_col
나,0,1,2,3,5
가,5,6,7,8,2
다,10,11,12,13,7


In [48]:
df.sort_index(axis = 1, ascending = False) # ascending 옵션으로 정렬 순서를 오름차순/내림차순으로 설정 가능하다.

colName,new_col,c3,c2,c1,c0
나,5,3,2,1,0
가,2,8,7,6,5
다,7,13,12,11,10


#### 데이터 ranking

데이터 크기에 따라 순위를 매기는 것

In [49]:
df.rank(method = "first") # 데이터의 크기에 따라 rank를 매긴다
# method = '   ' 랭크 새기기 방법 

colName,c0,c1,c2,c3,new_col
나,1.0,1.0,1.0,1.0,2.0
가,2.0,2.0,2.0,2.0,1.0
다,3.0,3.0,3.0,3.0,3.0


### 중복 색인 : 색인 값이 같은 것이 있는 것
색인 데이터가 많은 경우 색인 값이 중복되는 것이 있는지 확인해야한다.
    
    dataframe객체.index.is_unique

In [100]:
arr = np.array([[i for i in range(5)],
              [3,6,2,3,5],
              [6,1,2,3,4],
              [9,3,5,7,8],
              [5,4,6,6,7]])
 
df3 = DataFrame(arr, index = ['a','a','b','b','c'])
df3


Unnamed: 0,0,1,2,3,4
a,0,1,2,3,4
a,3,6,2,3,5
b,6,1,2,3,4
b,9,3,5,7,8
c,5,4,6,6,7


In [101]:
df3.index.is_unique

False

In [102]:
df3.loc["a"][:] # 'a' 가 중복색인이므로 두 행이 추출되는 것을 볼 수 있다.


Unnamed: 0,0,1,2,3,4
a,0,1,2,3,4
a,3,6,2,3,5


In [103]:
df3

Unnamed: 0,0,1,2,3,4
a,0,1,2,3,4
a,3,6,2,3,5
b,6,1,2,3,4
b,9,3,5,7,8
c,5,4,6,6,7


In [107]:
df3.cumsum(axis = 0)

Unnamed: 0,0,1,2,3,4
a,0,1,2,3,4
a,3,7,4,6,9
b,9,8,6,9,13
b,18,11,11,16,21
c,23,15,17,22,28


### 통계 및 데이터 프레임 요약 정보

    dataframe객체.describe() : 평균, 분위값, 중앙값, 최소, 최댓값 등등
    dataframe객체.info() : type, non-null 값의 수
    
    
tip 

    dataframe객체.isnull().sum() : column 의 null 값의 수를 보고 싶은 경우

In [108]:
df3

Unnamed: 0,0,1,2,3,4
a,0,1,2,3,4
a,3,6,2,3,5
b,6,1,2,3,4
b,9,3,5,7,8
c,5,4,6,6,7


In [54]:
df3.info()

<class 'pandas.core.frame.DataFrame'>
Index: 5 entries, a to c
Data columns (total 5 columns):
0    5 non-null int32
1    5 non-null int32
2    5 non-null int32
3    5 non-null int32
4    5 non-null int32
dtypes: int32(5)
memory usage: 300.0+ bytes


In [55]:
df3.describe()

Unnamed: 0,0,1,2,3,4
count,5.0,5.0,5.0,5.0,5.0
mean,4.6,3.0,3.4,4.4,5.6
std,3.361547,2.12132,1.949359,1.949359,1.81659
min,0.0,1.0,2.0,3.0,4.0
25%,3.0,1.0,2.0,3.0,4.0
50%,5.0,3.0,2.0,3.0,5.0
75%,6.0,4.0,5.0,6.0,7.0
max,9.0,6.0,6.0,7.0,8.0


In [110]:
dfr = DataFrame(np.random.randn(10,3))
dfr

Unnamed: 0,0,1,2
0,1.20284,-0.699993,1.096097
1,0.29396,0.988642,-1.488776
2,-1.748691,-0.412335,0.252137
3,0.832151,-0.1856,-0.142925
4,-0.198833,-0.250371,-0.423383
5,-0.213734,0.946593,0.603836
6,1.300008,0.786054,1.180374
7,0.097066,-0.67826,0.7155
8,-0.100515,0.377492,-0.766608
9,-0.138894,-0.268057,-0.98811


In [57]:
dfr.corr() # 모든 열끼리의 corr matrix를 반환

Unnamed: 0,0,1,2
0,1.0,-0.705164,-0.621411
1,-0.705164,1.0,0.539307
2,-0.621411,0.539307,1.0


In [58]:
dfr.T.corr() # 각 행끼리의 corr를 보고 싶다면 T 변환 후 corr 를 사용하면 된다.

Unnamed: 0,0,1,2,3,4,5,6,7,8,9
0,1.0,0.97749,0.99518,-0.398002,-0.638959,-0.998455,-0.989809,0.261463,0.238472,-0.989893
1,0.97749,1.0,0.993468,-0.195492,-0.786871,-0.987703,-0.997572,0.459219,0.02821,-0.997531
2,0.99518,0.993468,1.0,-0.306124,-0.711311,-0.999092,-0.999003,0.354852,0.142091,-0.999029
3,-0.398002,-0.195492,-0.306124,1.0,-0.451384,0.346414,0.263311,0.78141,-0.98583,0.263877
4,-0.638959,-0.786871,-0.711311,-0.451384,1.0,0.680713,0.741986,-0.909546,0.594674,0.741593
5,-0.998455,-0.987703,-0.999092,0.346414,0.680713,1.0,0.996192,-0.314689,-0.184143,0.996243
6,-0.989809,-0.997572,-0.999003,0.263311,0.741986,0.996192,1.0,-0.396244,-0.097751,1.0
7,0.261463,0.459219,0.354852,0.78141,-0.909546,-0.314689,-0.396244,1.0,-0.875015,-0.395705
8,0.238472,0.02821,0.142091,-0.98583,0.594674,-0.184143,-0.097751,-0.875015,1.0,-0.098335
9,-0.989893,-0.997531,-0.999029,0.263877,0.741593,0.996243,1.0,-0.395705,-0.098335,1.0


In [59]:
dfr.corrwith(dfr[2]) # 지정한 열과 나머지 열끼리의 corr

0   -0.621411
1    0.539307
2    1.000000
dtype: float64

### 값이 있는지 확인하기

In [62]:
df

colName,c0,c1,c2,c3,new_col
나,0,1,2,3,5
가,5,6,7,8,2
다,10,11,12,13,7


In [60]:
df.isin([1])

colName,c0,c1,c2,c3,new_col
나,False,True,False,False,False
가,False,False,False,False,False
다,False,False,False,False,False


In [61]:
pd.isnull(df)

colName,c0,c1,c2,c3,new_col
나,False,False,False,False,False
가,False,False,False,False,False
다,False,False,False,False,False


### Nan 값 처리하기

    dropna( axis =  , how = '   ') : NA 값 존재에 따라 행 or 열을 지운다.
        axis = 0(행지우기) or 1(열지우기)
        how = 'any'(하나라도 있으면 지우기) or 'all'(모두 NA 값이면 지우기)
    fillna( { '해당 열이나 행' : 대체하려는 값 , '해당 열이나 행' : 대체하려는 값 } , axis )

In [113]:
dfrint = pd.DataFrame(np.random.randint(10, size = 12).reshape(3,4),
                     index = ['가','나','다'],
                     columns = ['콜0','콜1','콜2','콜3'])
dfrint.loc['나','콜2'] = np.nan
dfrint

Unnamed: 0,콜0,콜1,콜2,콜3
가,7,8,7.0,9
나,7,9,,5
다,0,0,0.0,2


In [114]:
dfrint.isnull().sum() / len(dfrint)

콜0    0.000000
콜1    0.000000
콜2    0.333333
콜3    0.000000
dtype: float64

In [66]:
dfrint.isnull()

Unnamed: 0,콜0,콜1,콜2,콜3
가,False,False,False,False
나,False,False,True,False
다,False,False,False,False


In [67]:
dfrint.dropna(how = "all") # how = 'all' 행의 모든 요소가 Nan인 경우 해당 행을 삭제한다.

Unnamed: 0,콜0,콜1,콜2,콜3
가,4,2,8.0,4
나,4,5,,5
다,9,6,8.0,0


In [68]:
dfrint.dropna() # Nan이 포함된 행을 지운다. default 값은 how = 'any'

Unnamed: 0,콜0,콜1,콜2,콜3
가,4,2,8.0,4
다,9,6,8.0,0


In [69]:
dfrint.dropna(axis = 1) # axis = 1 : 열에 대해 Nan 값의 여부를 판단하고 삭제한다.

Unnamed: 0,콜0,콜1,콜3
가,4,2,4
나,4,5,5
다,9,6,0


In [70]:
dfrint # 해당 객체는 변경되지 않는다.

Unnamed: 0,콜0,콜1,콜2,콜3
가,4,2,8.0,4
나,4,5,,5
다,9,6,8.0,0


In [114]:
dfrint.dropna(axis = 1 , inplace = True) # 해당 열(axis = 1)을 삭제하고 객체를 변경하였다.
dfrint

Unnamed: 0,콜0,콜1,콜3
가,5,8,1
나,8,8,8
다,2,4,5


In [116]:
dfrint2 = pd.DataFrame(np.random.randint(10, size = 12).reshape(3,4),
                     index = ['가','나','다'],
                     columns = ['콜0','콜1','콜2','콜3'])
dfrint2.loc['나','콜2'] = np.nan
dfrint2.loc["나":,:"콜1"] = np.nan
dfrint2

Unnamed: 0,콜0,콜1,콜2,콜3
가,5.0,8.0,9.0,7
나,,,,5
다,,,3.0,6


In [117]:
dfrint2.fillna({"콜0":-9999,"콜1":-5000}) 

Unnamed: 0,콜0,콜1,콜2,콜3
가,5.0,8.0,9.0,7
나,-9999.0,-5000.0,,5
다,-9999.0,-5000.0,3.0,6


In [123]:
# 행에 대해서는 안되는 것 같다.
dfrint2.fillna({'나' : 2000}, axis = 0) 

Unnamed: 0,콜0,콜1,콜2,콜3
가,9.0,1.0,2.0,3
나,,,,5
다,,,3.0,4


In [124]:
dfrint2.fillna({'나' : ''})

Unnamed: 0,콜0,콜1,콜2,콜3
가,9.0,1.0,2.0,3
나,,,,5
다,,,3.0,4


# 5.5 계층적 색인

row나 column에 색인이 여러겹으로 들어가는 것


계층적 색인 함수

    stack() : 계층적 색인으로 만들어준다.
    unstack() : stack()의 반대


In [120]:
data = Series(np.random.randn(10),
              # index(row)의 색인을 두겹으로 하였다.
             index = [['a','a','a','b','b','b','c','c','d','d'],
                      [1,2,3,1,2,3,1,2,2,3]])

data.index.names = ['type1','type2']


In [121]:
data

type1  type2
a      1       -0.635068
       2        1.399466
       3       -1.108151
b      1       -1.451129
       2        0.960421
       3       -0.461083
c      1        0.249462
       2        1.053426
d      2       -1.594850
       3        0.799184
dtype: float64

In [123]:
# 계층적 색인중 원하는 색인을 columns으로 만들어 2차원으로 만든다.
data.unstack(level = 0)

type1,a,b,c,d
type2,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1,-0.635068,-1.451129,0.249462,
2,1.399466,0.960421,1.053426,-1.59485
3,-1.108151,-0.461083,,0.799184


In [83]:
data.unstack(level= 1)

type2,1,2,3
type1,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
a,0.271821,-0.120586,-1.632397
b,1.723924,-0.594255,-1.726619
c,-0.775866,-0.503523,
d,,1.22696,1.110263


In [82]:
# 색인 이름을 넘겨주어 unstack 가능
data.unstack('type2')

type2,1,2,3
type1,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
a,0.271821,-0.120586,-1.632397
b,1.723924,-0.594255,-1.726619
c,-0.775866,-0.503523,
d,,1.22696,1.110263


In [67]:
data.index

MultiIndex(levels=[['a', 'b', 'c', 'd'], [1, 2, 3]],
           labels=[[0, 0, 0, 1, 1, 1, 2, 2, 3, 3], [0, 1, 2, 0, 1, 2, 0, 1, 1, 2]],
           names=['type1', 'type2'])

In [68]:
data['b':'c']

type1  type2
b      1       -1.574779
       2       -0.383129
       3        0.305447
c      1        1.112320
       2        1.049278
dtype: float64

In [69]:
data[:][2]

-0.06945868379864345

### 계층적 색인 -> DataFrame으로 변환하기

    unstack( level = 숫자 또는 / 해당 인덱스 이름)
    level 옵션은 가장 좌측인덱스부터가 0 이다. 0.1,2,3......

In [84]:
data.unstack()

type2,1,2,3
type1,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
a,0.271821,-0.120586,-1.632397
b,1.723924,-0.594255,-1.726619
c,-0.775866,-0.503523,
d,,1.22696,1.110263


In [85]:
data.unstack(level = 0) # level 을 지정하여 column 으로 갈 인덱스를 정할 수 있다. 

type1,a,b,c,d
type2,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1,0.271821,1.723924,-0.775866,
2,-0.120586,-0.594255,-0.503523,1.22696
3,-1.632397,-1.726619,,1.110263


In [86]:
data.unstack('type2') # 행의 이름을 직접 넣어 unstack 가능

type2,1,2,3
type1,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
a,0.271821,-0.120586,-1.632397
b,1.723924,-0.594255,-1.726619
c,-0.775866,-0.503523,
d,,1.22696,1.110263


In [87]:
data.index.names = ['col1','col2']
data

col1  col2
a     1       0.271821
      2      -0.120586
      3      -1.632397
b     1       1.723924
      2      -0.594255
      3      -1.726619
c     1      -0.775866
      2      -0.503523
d     2       1.226960
      3       1.110263
dtype: float64

In [88]:
data2 = Series(np.random.randn(10), 
              index = 
              [[i for i in range(10)],
               'a,a,a,b,c,d,c,a,d,d'.split(","),
               '가,나,다,라,가,나,다,라,마,바'.split(','),
               '아,이,에,이,에,아,아,이,에,우'.split(',')])
               

In [89]:
data2

0  a  가  아   -2.735158
1  a  나  이    0.293580
2  a  다  에   -0.379128
3  b  라  이   -1.589033
4  c  가  에   -1.643062
5  d  나  아    2.880967
6  c  다  아   -0.986316
7  a  라  이   -2.153933
8  d  마  에    0.145538
9  d  바  우    1.149179
dtype: float64

In [90]:
data2.unstack(level = 1) # 좌측에서 두번째 순서인 abcd로 된 인덱스가 column 으로 옮겨졌다.

Unnamed: 0,Unnamed: 1,Unnamed: 2,a,b,c,d
0,가,아,-2.735158,,,
1,나,이,0.29358,,,
2,다,에,-0.379128,,,
3,라,이,,-1.589033,,
4,가,에,,,-1.643062,
5,나,아,,,,2.880967
6,다,아,,,-0.986316,
7,라,이,-2.153933,,,
8,마,에,,,,0.145538
9,바,우,,,,1.149179


In [91]:
data2u = data2.unstack()

In [92]:
data2u

Unnamed: 0,Unnamed: 1,Unnamed: 2,아,에,우,이
0,a,가,-2.735158,,,
1,a,나,,,,0.29358
2,a,다,,-0.379128,,
3,b,라,,,,-1.589033
4,c,가,,-1.643062,,
5,d,나,2.880967,,,
6,c,다,-0.986316,,,
7,a,라,,,,-2.153933
8,d,마,,0.145538,,
9,d,바,,,1.149179,


In [93]:
data2 #가장 왼쪽부터(바깥쪽) level 이 0이다.

0  a  가  아   -2.735158
1  a  나  이    0.293580
2  a  다  에   -0.379128
3  b  라  이   -1.589033
4  c  가  에   -1.643062
5  d  나  아    2.880967
6  c  다  아   -0.986316
7  a  라  이   -2.153933
8  d  마  에    0.145538
9  d  바  우    1.149179
dtype: float64

In [94]:
data2u2 = data2.unstack(level = [0,1,2])
data2u2

Unnamed: 0_level_0,0,1,2,3,4,5,6,7,8,9
Unnamed: 0_level_1,a,a,a,b,c,d,c,a,d,d
Unnamed: 0_level_2,가,나,다,라,가,나,다,라,마,바
아,-2.735158,,,,,2.880967,-0.986316,,,
에,,,-0.379128,,-1.643062,,,,0.145538,
우,,,,,,,,,,1.149179
이,,0.29358,,-1.589033,,,,-2.153933,,


In [95]:
data2u2.stack(level = [0,2]) # stack 도 마찬가지로 가장 윗부분(바깥쪽) 부터 level 이 0 이고 레벨을 정하여 stack : 열 -> 행으로 보낸다.

Unnamed: 0,Unnamed: 1,Unnamed: 2,a,b,c,d
아,0,가,-2.735158,,,
아,5,나,,,,2.880967
아,6,다,,,-0.986316,
에,2,다,-0.379128,,,
에,4,가,,,-1.643062,
에,8,마,,,,0.145538
우,9,바,,,,1.149179
이,1,나,0.29358,,,
이,3,라,,-1.589033,,
이,7,라,-2.153933,,,


In [96]:
data2u

Unnamed: 0,Unnamed: 1,Unnamed: 2,아,에,우,이
0,a,가,-2.735158,,,
1,a,나,,,,0.29358
2,a,다,,-0.379128,,
3,b,라,,,,-1.589033
4,c,가,,-1.643062,,
5,d,나,2.880967,,,
6,c,다,-0.986316,,,
7,a,라,,,,-2.153933
8,d,마,,0.145538,,
9,d,바,,,1.149179,


In [97]:
data2u.index.names = ['num','alpha','hangle']

In [98]:
data2u

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,아,에,우,이
num,alpha,hangle,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
0,a,가,-2.735158,,,
1,a,나,,,,0.29358
2,a,다,,-0.379128,,
3,b,라,,,,-1.589033
4,c,가,,-1.643062,,
5,d,나,2.880967,,,
6,c,다,-0.986316,,,
7,a,라,,,,-2.153933
8,d,마,,0.145538,,
9,d,바,,,1.149179,


In [99]:
data2u3 = data2u.unstack(level = 'alpha')
data2u3
                      

Unnamed: 0_level_0,Unnamed: 1_level_0,아,아,아,아,에,에,에,에,우,우,우,우,이,이,이,이
Unnamed: 0_level_1,alpha,a,b,c,d,a,b,c,d,a,b,c,d,a,b,c,d
num,hangle,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2,Unnamed: 14_level_2,Unnamed: 15_level_2,Unnamed: 16_level_2,Unnamed: 17_level_2
0,가,-2.735158,,,,,,,,,,,,,,,
1,나,,,,,,,,,,,,,0.29358,,,
2,다,,,,,-0.379128,,,,,,,,,,,
3,라,,,,,,,,,,,,,,-1.589033,,
4,가,,,,,,,-1.643062,,,,,,,,,
5,나,,,,2.880967,,,,,,,,,,,,
6,다,,,-0.986316,,,,,,,,,,,,,
7,라,,,,,,,,,,,,,-2.153933,,,
8,마,,,,,,,,0.145538,,,,,,,,
9,바,,,,,,,,,,,,1.149179,,,,


# dataframe 계층적 색인&정렬


In [101]:
datadf = DataFrame(np.random.randn(10,10),
                  index = [[i for i in range(10)],
               'a,a,a,b,c,d,c,a,d,d'.split(",")],
                  columns = ['가,나,다,라,가,나,다,라,마,바'.split(','),
               '아,이,에,이,에,아,아,이,에,우'.split(',')] )
datadf.index.names = ["num","alpha"]
datadf.columns.names = ["Kor1","Kor2"]
datadf


Unnamed: 0_level_0,Kor1,가,나,다,라,가,나,다,라,마,바
Unnamed: 0_level_1,Kor2,아,이,에,이,에,아,아,이,에,우
num,alpha,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2
0,a,-0.367131,-0.90505,-0.793557,0.646319,-0.708994,0.501733,-0.888762,-0.736864,1.316683,-0.85793
1,a,-0.432789,0.180435,0.490009,1.344813,-0.766493,0.330627,-0.135947,-0.403731,-0.028938,-0.256561
2,a,-0.429595,0.280314,-0.901042,1.098898,-0.087509,-0.590357,-1.536874,0.09587,0.083537,-0.311539
3,b,-1.441906,-1.305678,1.230701,0.172386,0.993626,0.346762,1.030337,-1.562726,-0.550049,-0.004746
4,c,-0.341203,-1.115839,-0.488403,-0.733187,-0.214827,-1.565722,0.790823,0.567358,-0.177793,-1.207401
5,d,-0.818123,0.066747,-0.814598,-0.287748,-1.250692,0.75539,-0.375423,1.170855,1.410184,-0.187773
6,c,-1.023771,0.548181,1.145309,1.16306,-0.254684,1.067822,1.497831,0.939369,0.755248,1.101415
7,a,0.515122,0.969857,0.896699,-1.800581,0.871144,-0.302822,-0.70354,1.914853,0.980973,-1.858666
8,d,-0.504614,0.283968,0.063717,1.295239,-0.441312,-1.275789,-0.493813,0.050003,0.038602,-0.248356
9,d,0.206125,-0.61478,0.005456,-0.285971,-1.613175,0.863377,1.905038,-1.078789,0.136082,0.421767


In [102]:
datadf["나"]

Unnamed: 0_level_0,Kor2,이,아
num,alpha,Unnamed: 2_level_1,Unnamed: 3_level_1
0,a,-0.90505,0.501733
1,a,0.180435,0.330627
2,a,0.280314,-0.590357
3,b,-1.305678,0.346762
4,c,-1.115839,-1.565722
5,d,0.066747,0.75539
6,c,0.548181,1.067822
7,a,0.969857,-0.302822
8,d,0.283968,-1.275789
9,d,-0.61478,0.863377


In [90]:
datadf['나']['이'] 
# 열에 대해 접근한 dataframe 객체에서 또 다시 열로 접근
# 현재 예제는 df[행][열] 접근과 다르다! 

num  alpha
0    a        0.708339
1    a       -0.580936
2    a       -0.008335
3    b        0.459166
4    c        0.904457
5    d       -1.309395
6    c        1.864095
7    a        0.633781
8    d        0.129601
9    d        0.485670
Name: 이, dtype: float64

In [103]:
datadf.index.levels[0]


Int64Index([0, 1, 2, 3, 4, 5, 6, 7, 8, 9], dtype='int64', name='num')

### 5.5.2단계별 요약통계


In [108]:
datadf.sum(level = "alpha")

Kor1,가,나,다,라,가,나,다,라,마,바
Kor2,아,이,에,이,에,아,아,이,에,우
alpha,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2
a,-0.714393,0.525556,-0.307891,1.289449,-0.691852,-0.06082,-3.265124,0.870127,2.352255,-3.284697
b,-1.441906,-1.305678,1.230701,0.172386,0.993626,0.346762,1.030337,-1.562726,-0.550049,-0.004746
c,-1.364973,-0.567658,0.656906,0.429873,-0.469511,-0.4979,2.288654,1.506727,0.577455,-0.105986
d,-1.116612,-0.264065,-0.745425,0.72152,-3.305178,0.342978,1.035802,0.14207,1.584869,-0.014361


In [107]:
datadf.sum(level = "Kor1", axis = 1)

Unnamed: 0_level_0,Kor1,가,나,다,라,마,바
num,alpha,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
0,a,-0.2188,1.996373,1.194568,-0.63612,-0.221466,-0.235155
1,a,-1.7155,-0.576723,0.45885,0.671972,-3.398972,-0.352872
2,a,0.183995,1.043989,1.071617,-2.006196,0.652088,-0.468372
3,b,2.106709,0.466923,-0.410107,2.096295,-1.737314,0.203411
4,c,-1.324442,1.559165,-0.559744,1.531411,0.503143,-0.15312
5,d,1.367153,-1.354165,-0.383365,-1.616017,0.497935,-0.39447
6,c,-1.653011,0.836742,3.431941,0.564182,-0.132344,-0.345144
7,a,3.881877,-0.53705,-1.07358,2.941167,-0.954753,0.097137
8,d,0.977693,0.032043,3.385425,0.254788,0.95002,1.203979
9,d,-1.87324,-0.431543,-0.6763,3.197344,0.39414,-1.092098


### 5.6.1 정수 색인


### 5.6.2 Panel 데이터
3차원 이상이 가능한 데이터프레임

    차원 접근 : items -> major_axis -> minor_axis
    panel 객체.ix[ items, major_axis, minor_axis ]

In [4]:
from pandas import Panel
import numpy as np
import pandas as pd


parr = np.arange(60).reshape(3,4,5)
parr

array([[[ 0,  1,  2,  3,  4],
        [ 5,  6,  7,  8,  9],
        [10, 11, 12, 13, 14],
        [15, 16, 17, 18, 19]],

       [[20, 21, 22, 23, 24],
        [25, 26, 27, 28, 29],
        [30, 31, 32, 33, 34],
        [35, 36, 37, 38, 39]],

       [[40, 41, 42, 43, 44],
        [45, 46, 47, 48, 49],
        [50, 51, 52, 53, 54],
        [55, 56, 57, 58, 59]]])

In [7]:
pn = Panel(parr)
#pn.index = ["a","b","c"]
# pn 객체에 3 by 4 by 5 array 를 넣어주었다
pn.items = ["a","b","c"] # 처음 차원(items)의 각 이름(3개) -> 'a','b','c'
pn.major_axis =  ["가","나","다","라"] # 두번째 차원(major_axis)의 각 이름(4개) -> '가','나','다','라'
pn.minor_axis = ['아','에','이','오','우'] # 세번재 차원(minor_axis)의 각 이름(5개) -> '아','에','이','오','우'
pn

<class 'pandas.core.panel.Panel'>
Dimensions: 3 (items) x 4 (major_axis) x 5 (minor_axis)
Items axis: a to c
Major_axis axis: 가 to 라
Minor_axis axis: 아 to 우

In [8]:
pn['b','나':,:]

Unnamed: 0,아,에,이,오,우
나,25,26,27,28,29
다,30,31,32,33,34
라,35,36,37,38,39


In [9]:
pn_toframe = pn.to_frame()
pn_toframe
# to_frame() 메서드를 이용하여 Panel 객체 -> DataFrame 객체로 변환

Unnamed: 0_level_0,Unnamed: 1_level_0,a,b,c
major,minor,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
가,아,0,20,40
가,에,1,21,41
가,이,2,22,42
가,오,3,23,43
가,우,4,24,44
나,아,5,25,45
나,에,6,26,46
나,이,7,27,47
나,오,8,28,48
나,우,9,29,49


In [10]:
pn_toframe_topanel = pn_toframe.to_panel()
pn_toframe_topanel

Panel is deprecated and will be removed in a future version.
The recommended way to represent these types of 3-dimensional data are with a MultiIndex on a DataFrame, via the Panel.to_frame() method
Alternatively, you can use the xarray package http://xarray.pydata.org/en/stable/.
Pandas provides a `.to_xarray()` method to help automate this conversion.

  """Entry point for launching an IPython kernel.


<class 'pandas.core.panel.Panel'>
Dimensions: 3 (items) x 4 (major_axis) x 5 (minor_axis)
Items axis: a to c
Major_axis axis: 가 to 라
Minor_axis axis: 아 to 우

In [11]:
datadfp = pn_toframe.to_panel().fillna("모르는값")
datadfp # Panel 객체

Panel is deprecated and will be removed in a future version.
The recommended way to represent these types of 3-dimensional data are with a MultiIndex on a DataFrame, via the Panel.to_frame() method
Alternatively, you can use the xarray package http://xarray.pydata.org/en/stable/.
Pandas provides a `.to_xarray()` method to help automate this conversion.

  """Entry point for launching an IPython kernel.
Panel is deprecated and will be removed in a future version.
The recommended way to represent these types of 3-dimensional data are with a MultiIndex on a DataFrame, via the Panel.to_frame() method
Alternatively, you can use the xarray package http://xarray.pydata.org/en/stable/.
Pandas provides a `.to_xarray()` method to help automate this conversion.

  downcast=downcast, **kwargs)


<class 'pandas.core.panel.Panel'>
Dimensions: 3 (items) x 4 (major_axis) x 5 (minor_axis)
Items axis: a to c
Major_axis axis: 가 to 라
Minor_axis axis: 아 to 우

In [12]:
datadfp.ix['b','가':'다','에']
# Panel 객체도 데이터 프레임과 마찬가지로 접근

.ix is deprecated. Please use
.loc for label based indexing or
.iloc for positional indexing

See the documentation here:
http://pandas.pydata.org/pandas-docs/stable/indexing.html#ix-indexer-is-deprecated
  """Entry point for launching an IPython kernel.


major
가    21
나    26
다    31
Name: 에, dtype: int32