# 6. 판다스를 이용해 데이터 다루기

### 6.1 개요와 사전준비

6.1.1 라이브러리 임포트

In [1]:
# 아래의 라이브러리를 사용하므로 미리 임포트
import numpy as np
import numpy.random as random
import scipy as sp
import pandas as pd
from pandas import Series, DataFrame

# 시각화 라이브러리
import matplotlib.pyplot as plt
import matplotlib as mpl
import seaborn as sns
%matplotlib inline

# 소수점 세 번째 자리까지 표시
%precision 3

'%.3f'

### 6.2 판다스로 데이터를 다루는 기본적인 방법

6.2.1 계층적 인덱스

여러 개의 변수를 기준으로 집계할 때 계층적 인덱스가 편리, 복수의 변수로 계층적 인덱스를 만들어 계층별로 집계 가능 

In [2]:
# 3열 3행 데이터 생성, 인덱스와 컬럼명 설정
hier_df = DataFrame(
    np.arange(9).reshape((3,3)),
    index = [
             ['a', 'a', 'b'],
             [1, 2, 2]
    ],
columns = [
    ['Pusan', 'Seoul', 'Pusan'],
    ['Blue', 'Red', 'Red']
    ]
)
hier_df

Unnamed: 0_level_0,Unnamed: 1_level_0,Pusan,Seoul,Pusan
Unnamed: 0_level_1,Unnamed: 1_level_1,Blue,Red,Red
a,1,0,1,2
a,2,3,4,5
b,2,6,7,8


In [3]:
# 코드 쪼개기
# 3열 3행 데이터 생성하기

df = DataFrame(np.arange(9).reshape((3,3))) # ((3,3))은 튜플 리셰잎

df 

Unnamed: 0,0,1,2
0,0,1,2
1,3,4,5
2,6,7,8


In [4]:
# index에 이름 붙이기
hier_df.index.names = ['key1', 'key2']

# 컬럼에 이름 붙이기
hier_df.columns.names = ['city', 'color']
hier_df

Unnamed: 0_level_0,city,Pusan,Seoul,Pusan
Unnamed: 0_level_1,color,Blue,Red,Red
key1,key2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
a,1,0,1,2
a,2,3,4,5
b,2,6,7,8


컬럼 범위 축소

In [5]:
# city가 Pusan인 데이터만 보기
hier_df['Pusan']

Unnamed: 0_level_0,color,Blue,Red
key1,key2,Unnamed: 2_level_1,Unnamed: 3_level_1
a,1,0,2
a,2,3,5
b,2,6,8


In [6]:
# 코드 쪼개기

hier_df[('Pusan', 'Blue')]  # 상위층 인덱스로 먼저 접근 후 하위층 인덱스 접근이 가능

key1  key2
a     1       0
      2       3
b     2       6
Name: (Pusan, Blue), dtype: int64

In [7]:
# 코드 쪼개기

hier_df['Pusan', 'Blue']  # 소괄호는 있어도 없어도 괜찮음

key1  key2
a     1       0
      2       3
b     2       6
Name: (Pusan, Blue), dtype: int64

In [8]:
# 코드 쪼개기

data = {'Column 1'     : [1., 2., 3., 4.],
        'Index Title'  : ["Apples", "Oranges", "Puppies", "Ducks"]}
df = pd.DataFrame(data)
df.index = df["Index Title"]
del df["Index Title"]
print(df)

             Column 1
Index Title          
Apples            1.0
Oranges           2.0
Puppies           3.0
Ducks             4.0


In [9]:
df.reset_index()

Unnamed: 0,Index Title,Column 1
0,Apples,1.0
1,Oranges,2.0
2,Puppies,3.0
3,Ducks,4.0


인덱스 기준 집계

In [10]:
# key2 인덱스 기준으로 집계

# 계층별 요약통계량 : 행 합계
hier_df.sum(level = 'key2', axis = 0)

city,Pusan,Seoul,Pusan
color,Blue,Red,Red
key2,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
1,0,1,2
2,9,11,13


In [11]:
# 계층별 요약통계량 : 열 합계
hier_df.sum(level = 'color', axis = 1)

Unnamed: 0_level_0,color,Blue,Red
key1,key2,Unnamed: 2_level_1,Unnamed: 3_level_1
a,1,0,3
a,2,3,9
b,2,6,15


인덱스 원소 삭제

In [12]:
# drop 메서드 : 특정 인덱스를 삭제할 때 사용

# key1의 b 인덱스 삭제

hier_df.drop(['b'])

Unnamed: 0_level_0,city,Pusan,Seoul,Pusan
Unnamed: 0_level_1,color,Blue,Red,Red
key1,key2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
a,1,0,1,2
a,2,3,4,5


In [13]:
# city의 Seoul 컬럼 삭제
# 컬럼에서는 axis = 1 지정, inplace = True 하면 원본에 적용 / False면 사본 반환
hier_df.drop(['Seoul'], axis = 1, inplace=True)

  obj = obj._drop_axis(labels, axis, level=level, errors=errors)


### [ 연습문제 6 - 1 ]
다음 데이터에서 Daegu 열만 추출하세요.

In [14]:
hier_df1 = DataFrame(
    np.arange(12).reshape((3,4)),
    index = [['c','d','d'], [1, 2, 1]],
    columns = [
        ['Daegu', 'Daejeon', 'Gangneung', 'Daegu'],
        ['Yellow', 'Yellow', 'Red', 'Blue']
    ]
)
hier_df1.index.names = ['key1', 'key2']
hier_df1.columns.names = ['city', 'color']
hier_df1

Unnamed: 0_level_0,city,Daegu,Daejeon,Gangneung,Daegu
Unnamed: 0_level_1,color,Yellow,Yellow,Red,Blue
key1,key2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
c,1,0,1,2,3
d,2,4,5,6,7
d,1,8,9,10,11


In [15]:
# Daegu 열만 추출
hier_df1['Daegu']

Unnamed: 0_level_0,color,Yellow,Blue
key1,key2,Unnamed: 2_level_1,Unnamed: 3_level_1
c,1,0,3
d,2,4,7
d,1,8,11


### [ 연습문제 6 - 2 ]
연습문제 6-1 데이터에서 city별 평균값을 산출하세요.

In [16]:
hier_df1.mean(level = 'city', axis = 1)

Unnamed: 0_level_0,city,Daegu,Daejeon,Gangneung
key1,key2,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
c,1,1.5,1.0,2.0
d,2,5.5,5.0,6.0
d,1,9.5,9.0,10.0


### [ 연습문제 6 - 3 ]
연습문제 6-1 데이터에서 key2별로 각 행의 합계를 산출하세요.

In [17]:
hier_df1.sum(level = 'key2', axis = 0)

city,Daegu,Daejeon,Gangneung,Daegu
color,Yellow,Yellow,Red,Blue
key2,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
1,8,10,12,14
2,4,5,6,7


6.2.2 데이터 결합

In [18]:
# 다양한 패턴의 결합방식 알아보기

In [19]:
# data1 생성
data1 = {
    'id' : ['100', '101', '102', '103', '104', '106', '108', '110', '111', '113'],
    'city' : ['Seoul', 'Pusan', 'Daegu', 'Gangneung', 'Seoul', 'Seoul', 'Pusan', 'Daegu', 'Gangneung', 'Seoul'],
    'birth_year' : [1990, 1989, 1992, 1997, 1982, 1991, 1988, 1990, 1995, 1981],
    'name' : ['Junho', 'Heejin', 'Mijung', 'Minho', 'Steeve', 'Mina', 'Sumi', 'Minsu', 'Jinhee', 'Daeho']
}
df1 = DataFrame(data1)
df1

Unnamed: 0,id,city,birth_year,name
0,100,Seoul,1990,Junho
1,101,Pusan,1989,Heejin
2,102,Daegu,1992,Mijung
3,103,Gangneung,1997,Minho
4,104,Seoul,1982,Steeve
5,106,Seoul,1991,Mina
6,108,Pusan,1988,Sumi
7,110,Daegu,1990,Minsu
8,111,Gangneung,1995,Jinhee
9,113,Seoul,1981,Daeho


In [20]:
# 코드 쪼개기
# 딕셔너리 키 하나에 밸류 리스트로 여러개 넣기
# 딕셔너리로 데이터프레임 만들기
# data1 = {
#    'id' : ['100', '101', '102', '103', '104', '106', '108', '110', '111', '113'],
#    'city' : ['Seoul', 'Pusan', 'Daegu', 'Gangneung', 'Seoul', 'Seoul', 'Pusan', 'Daegu', 'Gangneung', 'Seoul'],
#    'birth_year' : [1990, 1989, 1992, 1997, 1982, 1991, 1988, 1990, 1995, 1981],
#    'name' : ['Junho', 'Heejin', 'Mijung', 'Minho', 'Steeve', 'Mina', 'Sumi', 'Minsu', 'Jinhee', 'Daeho']
#}


In [21]:
# 데이터 2 생성
data2 = {
    'id' : ['100', '101', '102', '105', '107'],
    'math' : [50, 43, 33, 76, 98],
    'english' : [90, 30, 20, 50, 30],
    'sex' : ['M', 'F', 'F', 'M', 'M'],
    'index_num' : [0, 1, 2, 3, 4]
}
df2 = DataFrame(data2)
df2

Unnamed: 0,id,math,english,sex,index_num
0,100,50,90,M,0
1,101,43,30,F,1
2,102,33,20,F,2
3,105,76,50,M,3
4,107,98,30,M,4


결합

In [22]:
# 내부결합 : 양쪽 데이터에 공통 키 값이 있을 때 결합
# 외부결합 : 양쪽 모든 데이터 결합
# 왼쪽결합 : 왼쪽 데이터의 키 값을 기준으로 결합
# 오른쪽결합 : 오른쪽 데이터의 키 값을 기준으로 결합

내부결합

In [23]:
# merge 메서드 : 내부결합이 기본 값

In [24]:
# 데이터 결합(내부결합, 키는 자동으로 인식하지만 on으로 명시적으로 지정할 수 있음)
print('*결합 테이블')
pd.merge(df1, df2, on = 'id') # on = 'id' 부분 삭제해도 자동 머지

# 동일한 id값이 양쪽 DataFrame 객체에 존재하는 것만 출력

*결합 테이블


Unnamed: 0,id,city,birth_year,name,math,english,sex,index_num
0,100,Seoul,1990,Junho,50,90,M,0
1,101,Pusan,1989,Heejin,43,30,F,1
2,102,Daegu,1992,Mijung,33,20,F,2


외부결합

In [25]:
# 양쪽 테이블 모두 결합하는 전결합
# how 파라미터에 outer 지정
# 결합된 데이터의 특정 변수가 값이 없을 때 NaN으로 표시

In [26]:
# 데이터 결합(전결합)
pd.merge(df1, df2, how = 'outer')

Unnamed: 0,id,city,birth_year,name,math,english,sex,index_num
0,100,Seoul,1990.0,Junho,50.0,90.0,M,0.0
1,101,Pusan,1989.0,Heejin,43.0,30.0,F,1.0
2,102,Daegu,1992.0,Mijung,33.0,20.0,F,2.0
3,103,Gangneung,1997.0,Minho,,,,
4,104,Seoul,1982.0,Steeve,,,,
5,106,Seoul,1991.0,Mina,,,,
6,108,Pusan,1988.0,Sumi,,,,
7,110,Daegu,1990.0,Minsu,,,,
8,111,Gangneung,1995.0,Jinhee,,,,
9,113,Seoul,1981.0,Daeho,,,,


In [27]:
# left_index이나 right_on 파라미터로 키를 인덱스로 지정해 결합

In [28]:
# index를 이용한 결합
pd.merge(df1, df2, left_index = True, right_on = 'index_num')

Unnamed: 0,id_x,city,birth_year,name,id_y,math,english,sex,index_num
0,100,Seoul,1990,Junho,100,50,90,M,0
1,101,Pusan,1989,Heejin,101,43,30,F,1
2,102,Daegu,1992,Mijung,102,33,20,F,2
3,103,Gangneung,1997,Minho,105,76,50,M,3
4,104,Seoul,1982,Steeve,107,98,30,M,4


In [29]:
help(pd.merge)

Help on function merge in module pandas.core.reshape.merge:

merge(left, right, how: str = 'inner', on=None, left_on=None, right_on=None, left_index: bool = False, right_index: bool = False, sort: bool = False, suffixes=('_x', '_y'), copy: bool = True, indicator: bool = False, validate=None) -> 'DataFrame'
    Merge DataFrame or named Series objects with a database-style join.
    
    The join is done on columns or indexes. If joining columns on
    columns, the DataFrame indexes *will be ignored*. Otherwise if joining indexes
    on indexes or indexes on a column or columns, the index will be passed on.
    
    Parameters
    ----------
    left : DataFrame
    right : DataFrame or named Series
        Object to merge with.
    how : {'left', 'right', 'outer', 'inner'}, default 'inner'
        Type of merge to be performed.
    
        * left: use only keys from left frame, similar to a SQL left outer join;
          preserve key order.
        * right: use only keys from right fra

왼쪽 결합

In [30]:
# how 파라미터를 left로 지정
# 왼쪽 데이터(첫 번째 인수)에 맞춰 DataFrame 객체 데이터 결합
# 왼쪽 데이터 기준 변수(인수)에 대응하는 데이터가 오른쪽 데이터(두 번재 인수)에 없는 경우 해당 칼럼의 값은 NaN

In [31]:
# 데이터 결합(left)
pd.merge(df1, df2, how = 'left')

Unnamed: 0,id,city,birth_year,name,math,english,sex,index_num
0,100,Seoul,1990,Junho,50.0,90.0,M,0.0
1,101,Pusan,1989,Heejin,43.0,30.0,F,1.0
2,102,Daegu,1992,Mijung,33.0,20.0,F,2.0
3,103,Gangneung,1997,Minho,,,,
4,104,Seoul,1982,Steeve,,,,
5,106,Seoul,1991,Mina,,,,
6,108,Pusan,1988,Sumi,,,,
7,110,Daegu,1990,Minsu,,,,
8,111,Gangneung,1995,Jinhee,,,,
9,113,Seoul,1981,Daeho,,,,


수직방향 결합

In [32]:
# concat 메서드 이용으로 데이터 수직방향 쌓기

In [33]:
# 데이터 3 생성
data3 = {
    'id' : ['117', '118', '119', '120', '125'],
    'city' : ['Ilsan', 'Gunpo', 'Seoul', 'Changwon', 'Jeju'],
    'birth_year' : [1990, 1989, 1992, 1997, 1982],
    'name' : ['Jinhee', 'Yeongho', 'Jongho', 'Yeonghee', 'Hyejin']
}
df3 = DataFrame(data3)
df3

Unnamed: 0,id,city,birth_year,name
0,117,Ilsan,1990,Jinhee
1,118,Gunpo,1989,Yeongho
2,119,Seoul,1992,Jongho
3,120,Changwon,1997,Yeonghee
4,125,Jeju,1982,Hyejin


In [34]:
# concat 수직방향 결합
concat_data = pd.concat([df1, df3])
concat_data

Unnamed: 0,id,city,birth_year,name
0,100,Seoul,1990,Junho
1,101,Pusan,1989,Heejin
2,102,Daegu,1992,Mijung
3,103,Gangneung,1997,Minho
4,104,Seoul,1982,Steeve
5,106,Seoul,1991,Mina
6,108,Pusan,1988,Sumi
7,110,Daegu,1990,Minsu
8,111,Gangneung,1995,Jinhee
9,113,Seoul,1981,Daeho


### [ 연습문제 6-4 ]  
아래 두 가지 데이터를 내부결합하세요.

In [35]:
# 데이터 4 생성
data4 = {
    'id' : ['0', '1', '2', '3', '4', '6', '8', '11', '12', '13'],
    'city' : ['Seoul', 'Pusan', 'Daegu', 'Gangneung', 'Seoul', 'Seoul',
              'Pusan', 'Daegu', 'Gangneung', 'Seoul'],
    'birth_year' : [1990, 1989, 1992, 1997, 1982, 1991, 1988, 1990, 1995, 1981],
    'name' : ['Junho', 'Heejin', 'Mijung', 'Minho', 'Steeve', 'Mina',
              'Sumi', 'Minsu', 'Jinhee', 'Daeho']
}
df4 = DataFrame(data4)
df4

Unnamed: 0,id,city,birth_year,name
0,0,Seoul,1990,Junho
1,1,Pusan,1989,Heejin
2,2,Daegu,1992,Mijung
3,3,Gangneung,1997,Minho
4,4,Seoul,1982,Steeve
5,6,Seoul,1991,Mina
6,8,Pusan,1988,Sumi
7,11,Daegu,1990,Minsu
8,12,Gangneung,1995,Jinhee
9,13,Seoul,1981,Daeho


In [36]:
# 데이터 5 생성
data5 = {
    'id' : ['0', '1', '3', '6', '8'],
    'math' : [20, 30, 50, 70, 90],
    'english' : [30, 50, 50, 70, 20],
    'sex' : ['M', 'F', 'F', 'M', 'M'],
    'index_num' : [0, 1, 2, 3, 4]
}
df5 = DataFrame(data5)
df5

Unnamed: 0,id,math,english,sex,index_num
0,0,20,30,M,0
1,1,30,50,F,1
2,3,50,50,F,2
3,6,70,70,M,3
4,8,90,20,M,4


In [37]:
# 내부결합
pd.merge(df4, df5, on ='id')

Unnamed: 0,id,city,birth_year,name,math,english,sex,index_num
0,0,Seoul,1990,Junho,20,30,M,0
1,1,Pusan,1989,Heejin,30,50,F,1
2,3,Gangneung,1997,Minho,50,50,F,2
3,6,Seoul,1991,Mina,70,70,M,3
4,8,Pusan,1988,Sumi,90,20,M,4


### [ 연습문제 6-5 ]  
연습문제 6-4 데이터를 이용해 df4를 기준으로 df5 테이블을 전결합하세요.

In [38]:
pd.merge(df4, df5, how = 'outer')

Unnamed: 0,id,city,birth_year,name,math,english,sex,index_num
0,0,Seoul,1990,Junho,20.0,30.0,M,0.0
1,1,Pusan,1989,Heejin,30.0,50.0,F,1.0
2,2,Daegu,1992,Mijung,,,,
3,3,Gangneung,1997,Minho,50.0,50.0,F,2.0
4,4,Seoul,1982,Steeve,,,,
5,6,Seoul,1991,Mina,70.0,70.0,M,3.0
6,8,Pusan,1988,Sumi,90.0,20.0,M,4.0
7,11,Daegu,1990,Minsu,,,,
8,12,Gangneung,1995,Jinhee,,,,
9,13,Seoul,1981,Daeho,,,,


[ 연습문제 6-6 ]  
연습문제 6-4 데이터를 이용해 df4를 기준으로 아래의 데이터를 수직방향으로 결합하세요.

In [39]:
# 데이터 생성
data6 = {
    'id' : ['70', '80', '90', '120', '150'],
    'city' : ['Ilsan', 'Gunpo', 'Seoul', 'Changwon', 'Jeju'],
    'birth_year' : [1980, 1999, 1995, 1994, 1994],
    'name' : ['Jinhee', 'Yeongho', 'Jongho', 'Yeonghee', 'Hyejin']
}
df6 = DataFrame(data6)

In [40]:
concat_data2 = pd.concat([df4, df6])
concat_data2

Unnamed: 0,id,city,birth_year,name
0,0,Seoul,1990,Junho
1,1,Pusan,1989,Heejin
2,2,Daegu,1992,Mijung
3,3,Gangneung,1997,Minho
4,4,Seoul,1982,Steeve
5,6,Seoul,1991,Mina
6,8,Pusan,1988,Sumi
7,11,Daegu,1990,Minsu
8,12,Gangneung,1995,Jinhee
9,13,Seoul,1981,Daeho


6.2.3 데이터 조작과 변환

데이터 피봇

In [41]:
# 데이터 피봇 : 피봇은 데이터의 행을 열로, 열을 행으로 바꾸는 작업

In [42]:
# heir_df 생성

hier_df = DataFrame(
    np.arange(9).reshape((3, 3)),
    index = [
             ['a', 'a', 'b'],
             [1, 2, 2]
    ],
    columns = [
               ['Pusan', 'Seoul', 'Pusan'],
               ['Blue', 'Red', 'Red']
    ]
)
hier_df

Unnamed: 0_level_0,Unnamed: 1_level_0,Pusan,Seoul,Pusan
Unnamed: 0_level_1,Unnamed: 1_level_1,Blue,Red,Red
a,1,0,1,2
a,2,3,4,5
b,2,6,7,8


In [43]:
# 피봇 기능으로 Blue, Red 열을 행으로 변경
hier_df.stack()

Unnamed: 0,Unnamed: 1,Unnamed: 2,Pusan,Seoul
a,1,Blue,0,
a,1,Red,2,1.0
a,2,Blue,3,
a,2,Red,5,4.0
b,2,Blue,6,
b,2,Red,8,7.0


In [44]:
# unstack 메서드로
# Blue, Red 행을 열로 변경

hier_df.stack().unstack()

Unnamed: 0_level_0,Unnamed: 1_level_0,Pusan,Pusan,Seoul,Seoul
Unnamed: 0_level_1,Unnamed: 1_level_1,Blue,Red,Blue,Red
a,1,0,2,,1.0
a,2,3,5,,4.0
b,2,6,8,,7.0


중복 데이터 제거

In [45]:
# 중복 값이 있는 데이터
dupli_data = DataFrame({
    'col1' : [1, 1, 2, 3, 4, 4, 6, 6],
    'col2' : ['a', 'b', 'b', 'b', 'c', 'c', 'b', 'b']
})

print('・원본 데이터')
dupli_data

・원본 데이터


Unnamed: 0,col1,col2
0,1,a
1,1,b
2,2,b
3,3,b
4,4,c
5,4,c
6,6,b
7,6,b


In [46]:
# 중복 판정
dupli_data.duplicated()

0    False
1    False
2    False
3    False
4    False
5     True
6    False
7     True
dtype: bool

In [47]:
# 중복 제거
dupli_data.drop_duplicates()

Unnamed: 0,col1,col2
0,1,a
1,1,b
2,2,b
3,3,b
4,4,c
6,6,b


매핑

In [48]:
# 엑셀의 vlookup 함수와 같은 작업 수행
# 같은 키 값이 존재하는 두 개의 데이터에서 한쪽(참조) 데이터에서 다른 한쪽 데이터 키 값에 대응하는 데이터를 추출하는 기능

In [49]:
# 참조 데이터
city_map = {
    'Seoul' : 'Sudo',           # 딕셔너리
    'Gangneung' : 'Yeongdong',
    'Pusan' : 'Yeongnam',
    'Daegu' : 'Yeongnam'
} 
city_map

{'Daegu': 'Yeongnam',
 'Gangneung': 'Yeongdong',
 'Pusan': 'Yeongnam',
 'Seoul': 'Sudo'}

In [50]:
# 참조 데이터 결합
# 대응하는 데이터가 없으면 NaN이 됨

# df1에서 city 컬럼을 기준으로 위의 참조 데이터 city_map에 대응하는 지역명 데이터를 추출해 가장 오른쪽에 region 컬럼으로 추가하는 작업
df1['region'] = df1['city'].map(city_map)
df1

Unnamed: 0,id,city,birth_year,name,region
0,100,Seoul,1990,Junho,Sudo
1,101,Pusan,1989,Heejin,Yeongnam
2,102,Daegu,1992,Mijung,Yeongnam
3,103,Gangneung,1997,Minho,Yeongdong
4,104,Seoul,1982,Steeve,Sudo
5,106,Seoul,1991,Mina,Sudo
6,108,Pusan,1988,Sumi,Yeongnam
7,110,Daegu,1990,Minsu,Yeongnam
8,111,Gangneung,1995,Jinhee,Yeongdong
9,113,Seoul,1981,Daeho,Sudo


익명함수와 map 함수 조합

In [51]:
# birth_year에서 왼쪽부터 3개의 숫자-문자를 추출
df1['up_two_num'] = df1['birth_year'].map(lambda x: str(x) [0:3])
df1

Unnamed: 0,id,city,birth_year,name,region,up_two_num
0,100,Seoul,1990,Junho,Sudo,199
1,101,Pusan,1989,Heejin,Yeongnam,198
2,102,Daegu,1992,Mijung,Yeongnam,199
3,103,Gangneung,1997,Minho,Yeongdong,199
4,104,Seoul,1982,Steeve,Sudo,198
5,106,Seoul,1991,Mina,Sudo,199
6,108,Pusan,1988,Sumi,Yeongnam,198
7,110,Daegu,1990,Minsu,Yeongnam,199
8,111,Gangneung,1995,Jinhee,Yeongdong,199
9,113,Seoul,1981,Daeho,Sudo,198


구간화

In [52]:
# 이산적 구간으로 나누어 집계할 때 구간 분할 기능을 이요하면 편리
# 판다스 cut 함수를 이용해 구간 생성 가능
# cut 함수의 첫 번째 인수는 대상 데이터, 두 번째 인수는 구간을 나누는 경곗값 지정

In [53]:
# 구간 분할 단위
birth_year_bins = [1980, 1985, 1990, 1995, 2000]

# 구간 분할 실행
birth_year_cut_data = pd.cut(df1.birth_year, birth_year_bins)
birth_year_cut_data

0    (1985, 1990]
1    (1985, 1990]
2    (1990, 1995]
3    (1995, 2000]
4    (1980, 1985]
5    (1990, 1995]
6    (1985, 1990]
7    (1985, 1990]
8    (1990, 1995]
9    (1980, 1985]
Name: birth_year, dtype: category
Categories (4, interval[int64]): [(1980, 1985] < (1985, 1990] < (1990, 1995] < (1995, 2000]]

In [54]:
# 집계 결과

# count_value 함수 : 구간으로 분할된 데이터의 구간별 개수 집계 시 이용
pd.value_counts(birth_year_cut_data)

(1985, 1990]    4
(1990, 1995]    3
(1980, 1985]    2
(1995, 2000]    1
Name: birth_year, dtype: int64

In [55]:
# 이름 붙이기
group_names = ['early1980s', 'late1980s', 'early1990s', 'late1990s']
birth_year_cut_data = pd.cut(df1.birth_year, birth_year_bins,
                             labels = group_names)
pd.value_counts(birth_year_cut_data)

late1980s     4
early1990s    3
early1980s    2
late1990s     1
Name: birth_year, dtype: int64

In [56]:
# 나눌 구간 수를 지정 가능, 여기에서는 두 개 구간으로 분할
pd.cut(df1.birth_year, 2)

0      (1989.0, 1997.0]
1    (1980.984, 1989.0]
2      (1989.0, 1997.0]
3      (1989.0, 1997.0]
4    (1980.984, 1989.0]
5      (1989.0, 1997.0]
6    (1980.984, 1989.0]
7      (1989.0, 1997.0]
8      (1989.0, 1997.0]
9    (1980.984, 1989.0]
Name: birth_year, dtype: category
Categories (2, interval[float64]): [(1980.984, 1989.0] < (1989.0, 1997.0]]

In [57]:
# qcut 함수 : 분위수를 기준으로 각 구간마다 거의 동일한 샘플 데이터 개수를 포함하도록 분할

pd.value_counts(pd.qcut(df1.birth_year, 2))

(1980.999, 1990.0]    6
(1990.0, 1997.0]      4
Name: birth_year, dtype: int64

### [ 연습문제 6-7 ]
3장의 수학 성적 데이터 student-mat.csv를 읽어 들여, 연령(age)에 2를 곱한 새로운 컬럼을 마지막 열에 추가하세요.

In [58]:
import requests, zipfile
from io import StringIO
import io

In [59]:
url = 'http://archive.ics.uci.edu/ml/machine-learning-databases/00356/student.zip'

r = requests.get(url, stream = True)

z = zipfile.ZipFile(io.BytesIO(r.content))
z.extractall()

In [60]:
student_data_mat = pd.read_csv('student-mat.csv', sep = ';')

In [61]:
# student_data_mat1 = student_data_mat

In [62]:
student_data_mat.insert(3, 'age2', student_data_mat['age'].map(lambda x: x*2), allow_duplicates=False)

In [63]:
student_data_mat

Unnamed: 0,school,sex,age,age2,address,famsize,Pstatus,Medu,Fedu,Mjob,Fjob,reason,guardian,traveltime,studytime,failures,schoolsup,famsup,paid,activities,nursery,higher,internet,romantic,famrel,freetime,goout,Dalc,Walc,health,absences,G1,G2,G3
0,GP,F,18,36,U,GT3,A,4,4,at_home,teacher,course,mother,2,2,0,yes,no,no,no,yes,yes,no,no,4,3,4,1,1,3,6,5,6,6
1,GP,F,17,34,U,GT3,T,1,1,at_home,other,course,father,1,2,0,no,yes,no,no,no,yes,yes,no,5,3,3,1,1,3,4,5,5,6
2,GP,F,15,30,U,LE3,T,1,1,at_home,other,other,mother,1,2,3,yes,no,yes,no,yes,yes,yes,no,4,3,2,2,3,3,10,7,8,10
3,GP,F,15,30,U,GT3,T,4,2,health,services,home,mother,1,3,0,no,yes,yes,yes,yes,yes,yes,yes,3,2,2,1,1,5,2,15,14,15
4,GP,F,16,32,U,GT3,T,3,3,other,other,home,father,1,2,0,no,yes,yes,no,yes,yes,no,no,4,3,2,1,2,5,4,6,10,10
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
390,MS,M,20,40,U,LE3,A,2,2,services,services,course,other,1,2,2,no,yes,yes,no,yes,yes,no,no,5,5,4,4,5,4,11,9,9,9
391,MS,M,17,34,U,LE3,T,3,1,services,services,course,mother,2,1,0,no,no,no,no,no,yes,yes,no,2,4,5,3,4,2,3,14,16,16
392,MS,M,21,42,R,GT3,T,1,1,other,other,course,other,1,1,3,no,no,no,no,no,yes,no,no,5,5,3,3,3,3,3,10,8,7
393,MS,M,18,36,R,LE3,T,3,2,services,other,course,mother,3,1,0,no,no,no,no,no,yes,yes,no,4,4,1,3,4,5,0,11,12,10


### [ 연습문제 6-8 ]
연습문제 6-7과 동일한 데이터에서 absences 컬럼을 세 개의 구간으로 나누고 각 구간별 학생 수를 계산하세요. cut이 기본 설정은 오른쪽이 구간에 포함되지 않는데(폐구간), 이번에는 cut 함수에서 right = False 옵션을 지정해 오른쪽을 구간에 포함하세요(개구간).  

In [64]:
# 구간 분할 간격
absences_bins = [0, 1, 5, 100]

In [65]:
cut_absences = pd.cut(student_data_mat.absences, absences_bins, right = False)

In [66]:
pd.value_counts(cut_absences)

[5, 100)    151
[1, 5)      129
[0, 1)      115
Name: absences, dtype: int64

### [ 연습문제 6-9 ]
동일한 데이터에서 absences 컬럼을 qcut 함수로 세 개의 구간으로 분할하세요.

In [67]:
qcut_absences = pd.qcut(student_data_mat.absences, 3)

In [68]:
pd.value_counts(qcut_absences)

(-0.001, 2.0]    183
(6.0, 75.0]      115
(2.0, 6.0]        97
Name: absences, dtype: int64

6.2.4. 데이터 집계와 그룹 연산

In [69]:
# 데이터 준비(확인), region 포함
df1

Unnamed: 0,id,city,birth_year,name,region,up_two_num
0,100,Seoul,1990,Junho,Sudo,199
1,101,Pusan,1989,Heejin,Yeongnam,198
2,102,Daegu,1992,Mijung,Yeongnam,199
3,103,Gangneung,1997,Minho,Yeongdong,199
4,104,Seoul,1982,Steeve,Sudo,198
5,106,Seoul,1991,Mina,Sudo,199
6,108,Pusan,1988,Sumi,Yeongnam,198
7,110,Daegu,1990,Minsu,Yeongnam,199
8,111,Gangneung,1995,Jinhee,Yeongdong,199
9,113,Seoul,1981,Daeho,Sudo,198


In [70]:
# groupby 메서드 : 데이터를 특정 변수 기준으로 그룹화한 후 size 메서드로 각 city별 데이터 개수가 몇 개인지 집계 가능

df1.groupby('city').size()

city
Daegu        2
Gangneung    2
Pusan        2
Seoul        4
dtype: int64

In [71]:
# city를 기준으로 birth_yerar 평균값을 구함
df1.groupby('city')['birth_year'].mean()

city
Daegu        1991.0
Gangneung    1996.0
Pusan        1988.5
Seoul        1986.0
Name: birth_year, dtype: float64

In [72]:
# 이렇게 해도 같은 결과 출력됨
df1.groupby('city').mean('birth_year')

Unnamed: 0_level_0,birth_year
city,Unnamed: 1_level_1
Daegu,1991.0
Gangneung,1996.0
Pusan,1988.5
Seoul,1986.0


In [73]:
# groupby 메서드에서 as_index = False 설정 시 그룹별 출력 결과에 인덱스가 지정되지 않음
# 인덱스가 없는 형태의 데이터를 다뤄야 할 때 이용

df1.groupby(['region', 'city'], as_index = False)['birth_year'].mean()

Unnamed: 0,region,city,birth_year
0,Sudo,Seoul,1986.0
1,Yeongdong,Gangneung,1996.0
2,Yeongnam,Daegu,1991.0
3,Yeongnam,Pusan,1988.5


In [74]:
# iterator 반복자 기능 : 실행 결과 원솟값을 파이썬 for 문으로 작업할 수 있어 편리

In [75]:
# region의 이름을 추출하고 subdf는 해당 region만의 행 데이터를 추출

for group, subdf in df1.groupby('region'):
  print('===========================================')
  print('Region Name: {0}'.format(group))
  print(subdf)

Region Name: Sudo
    id   city  birth_year    name region up_two_num
0  100  Seoul        1990   Junho   Sudo        199
4  104  Seoul        1982  Steeve   Sudo        198
5  106  Seoul        1991    Mina   Sudo        199
9  113  Seoul        1981   Daeho   Sudo        198
Region Name: Yeongdong
    id       city  birth_year    name     region up_two_num
3  103  Gangneung        1997   Minho  Yeongdong        199
8  111  Gangneung        1995  Jinhee  Yeongdong        199
Region Name: Yeongnam
    id   city  birth_year    name    region up_two_num
1  101  Pusan        1989  Heejin  Yeongnam        198
2  102  Daegu        1992  Mijung  Yeongnam        199
6  108  Pusan        1988    Sumi  Yeongnam        198
7  110  Daegu        1990   Minsu  Yeongnam        199


In [79]:
# agg 메서드 : 여러 가지 계산을 한번에 모아 수행 시 편리
# agg 메서드의 인수는 여러 개의 실행 함수를 히스트 데이터 형태로 전달

In [82]:
# student_data_mat 사용해 데이터 개수, 평균, 최댓값, 최솟값 계산
student_data_math = student_data_mat

# 데이터 각 열에 복수의 함수 적용
functions = ['count', 'mean', 'min', 'max']
grouped_student_data_math1 = student_data_math.groupby(['sex', 'address'])
grouped_student_data_math1['age', 'G1'].agg(functions)

  import sys


Unnamed: 0_level_0,Unnamed: 1_level_0,age,age,age,age,G1,G1,G1,G1
Unnamed: 0_level_1,Unnamed: 1_level_1,count,mean,min,max,count,mean,min,max
sex,address,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2
F,R,44,16.977273,15,19,44,10.295455,6,19
F,U,164,16.664634,15,20,164,10.707317,4,18
M,R,44,17.113636,15,21,44,10.659091,3,18
M,U,143,16.517483,15,22,143,11.405594,5,19


### [ 연습문제 6 - 10 ]
연습문제 6-7의 student-mat.csv 에서 학교(school) 변수를 기준으로 각 학교의 G1 평균 점수를 구하세요.

In [85]:
student_data_math.groupby(['school'])['G1'].mean()

school
GP    10.939828
MS    10.673913
Name: G1, dtype: float64

### [ 연습문제 6 - 11 ]
연습문제 6-7의 student-mat.csv 에서 학교(school)와 성별(sex) 기준으로 G1, G2, G3 평균 점수를 구하세요.

In [86]:
student_data_math.groupby(['school', 'sex'])['G1', 'G2', 'G3'].mean()

  """Entry point for launching an IPython kernel.


Unnamed: 0_level_0,Unnamed: 1_level_0,G1,G2,G3
school,sex,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
GP,F,10.579235,10.398907,9.972678
GP,M,11.337349,11.204819,11.060241
MS,F,10.92,10.32,9.92
MS,M,10.380952,10.047619,9.761905


### [ 연습문제 6 - 12 ]
연습문제 6-7의 student-mat.csv에서 학교(school)와 성별(sex) 기준으로 G1, G2, G3의 최댓값, 최솟값을 한번에 계산하세요.

In [88]:
functions = ['max', 'min']
student_data_math.groupby(['school', 'sex'])['G1', 'G2', 'G3'].agg(functions)

  


Unnamed: 0_level_0,Unnamed: 1_level_0,G1,G1,G2,G2,G3,G3
Unnamed: 0_level_1,Unnamed: 1_level_1,max,min,max,min,max,min
school,sex,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2
GP,F,18,4,18,0,19,0
GP,M,19,3,19,0,20,0
MS,F,19,6,18,5,19,0
MS,M,15,6,16,5,16,0


### 6.3 결측 데이터와 이상값 처리

6.3.1 결측 데이터 대처 방법

In [89]:
# 결측 데이터에 대한 무시, 삭제, 대체 등의 결정 필요 -> 편향 발생 가능성

In [90]:
# 라이브러리 임포트
import numpy as np
from numpy import nan as NA
import pandas as pd

# 데이터 생성
df = pd.DataFrame(np.random.rand(10, 4))

# NA로 변경
df.iloc[1,0] = NA
df.iloc[2:3, 2] = NA
df.iloc[5:, 3] = NA

In [91]:
df

Unnamed: 0,0,1,2,3
0,0.446172,0.003929,0.651559,0.084023
1,,0.61288,0.661242,0.247499
2,0.770408,0.883478,,0.655746
3,0.934316,0.054061,0.295767,0.393036
4,0.101299,0.263455,0.522541,0.862756
5,0.323135,0.603585,0.376343,
6,0.187597,0.740824,0.724371,
7,0.864645,0.926293,0.032185,
8,0.968126,0.279385,0.476837,
9,0.654867,0.954398,0.392,


리스트와이즈 삭제

In [92]:
# 리스트와이즈listwise 삭제 : NaN이 있는 행을 모두 삭제하기 위해 dropna 메서드를 사용하는 방법

df.dropna()

Unnamed: 0,0,1,2,3
0,0.446172,0.003929,0.651559,0.084023
3,0.934316,0.054061,0.295767,0.393036
4,0.101299,0.263455,0.522541,0.862756


페어와이즈 삭제

In [93]:
# 페어와이즈pairwise 삭제 : 결측 데이터가 있는 열의 데이터는 무시하고 사용 가능한 데이터만 활용하는 방법

df[[0,1]].dropna()

Unnamed: 0,0,1
0,0.446172,0.003929
2,0.770408,0.883478
3,0.934316,0.054061
4,0.101299,0.263455
5,0.323135,0.603585
6,0.187597,0.740824
7,0.864645,0.926293
8,0.968126,0.279385
9,0.654867,0.954398


fillna로 채우기

In [96]:
# fillna(value)로 NaN을 괄호 안의 값으로 대체 가능

df.fillna(0)

Unnamed: 0,0,1,2,3
0,0.446172,0.003929,0.651559,0.084023
1,0.0,0.61288,0.661242,0.247499
2,0.770408,0.883478,0.0,0.655746
3,0.934316,0.054061,0.295767,0.393036
4,0.101299,0.263455,0.522541,0.862756
5,0.323135,0.603585,0.376343,0.0
6,0.187597,0.740824,0.724371,0.0
7,0.864645,0.926293,0.032185,0.0
8,0.968126,0.279385,0.476837,0.0
9,0.654867,0.954398,0.392,0.0


이웃하는 값으로 대체하기

In [97]:
# fill 메서드를 이용해 이웃하는 값(직전 행의 값)으로 대체 가능

df.iloc[1, 0]

nan

In [100]:
df.fillna(method = 'ffill')

# method : {'backfill', 'bfill', 'pad', 'ffill', None}, default None
# Method to use for filling holes in reindexed Series
# pad / ffill: propagate last valid observation forward to next valid
# backfill / bfill: use next valid observation to fill gap.

"  method : {'backfill', 'bfill', 'pad', 'ffill', None}, default None\n     Method to use for filling holes in reindexed Series\n     pad / ffill: propagate last valid observation forward to next valid\n     backfill / bfill: use next valid observation to fill gap. "

평균값으로 대체하기

In [101]:
# 평균대체법 : mean 메서드를 이용하여 결측 데이터를 평균값으로 대체

# 각 컬럼의 평균값(확인용)
df.mean()

0    0.583396
1    0.532229
2    0.459205
3    0.448612
dtype: float64

In [102]:
df.fillna(df.mean())

Unnamed: 0,0,1,2,3
0,0.446172,0.003929,0.651559,0.084023
1,0.583396,0.61288,0.661242,0.247499
2,0.770408,0.883478,0.459205,0.655746
3,0.934316,0.054061,0.295767,0.393036
4,0.101299,0.263455,0.522541,0.862756
5,0.323135,0.603585,0.376343,0.448612
6,0.187597,0.740824,0.724371,0.448612
7,0.864645,0.926293,0.032185,0.448612
8,0.968126,0.279385,0.476837,0.448612
9,0.654867,0.954398,0.392,0.448612


In [103]:
?df.fillna

### [ 연습문제 6 - 13 ]
아래 데이터에서 1열이라도 NaN이 있는 경우 삭제하고 그 결과를 출력하세요.

In [105]:
# 데이터 생성
df2 = pd.DataFrame(np.random.rand(15,6))

# NA으로 설정
df2.iloc[2,0] = NA
df2.iloc[5:8, 2] = NA
df2.iloc[7:9, 3] = NA
df2.iloc[10, 5] = NA

df2

Unnamed: 0,0,1,2,3,4,5
0,0.230645,0.503831,0.68657,0.143755,0.191673,0.283552
1,0.33601,0.99723,0.668141,0.679791,0.660924,0.975388
2,,0.751187,0.160328,0.023238,0.720907,0.844804
3,0.787293,0.638538,0.272068,0.451298,0.498588,0.366096
4,0.639026,0.155033,0.75433,0.228818,0.516834,0.484174
5,0.098398,0.244528,,0.640256,0.753341,0.954041
6,0.145784,0.569335,,0.032253,0.396065,0.885987
7,0.651162,0.296624,,,0.468545,0.300553
8,0.794864,0.277316,0.285733,,0.880189,0.970076
9,0.896086,0.189121,0.542573,0.166711,0.671869,0.814108


In [106]:
df2.dropna()

Unnamed: 0,0,1,2,3,4,5
0,0.230645,0.503831,0.68657,0.143755,0.191673,0.283552
1,0.33601,0.99723,0.668141,0.679791,0.660924,0.975388
3,0.787293,0.638538,0.272068,0.451298,0.498588,0.366096
4,0.639026,0.155033,0.75433,0.228818,0.516834,0.484174
9,0.896086,0.189121,0.542573,0.166711,0.671869,0.814108
11,0.101211,0.241622,0.002751,0.90544,0.064862,0.198014
12,0.398824,0.014088,0.447212,0.802235,0.760415,0.310051
13,0.818621,0.933177,0.843105,0.831184,0.85131,0.903692
14,0.119488,0.272458,0.028326,0.422571,0.228086,0.260121


### [ 연습문제 6 - 14 ]
연습문제 6-13에서 생성한 데이터에서 NaN을 0으로 대체하세요.

In [107]:
df2.fillna(0)

Unnamed: 0,0,1,2,3,4,5
0,0.230645,0.503831,0.68657,0.143755,0.191673,0.283552
1,0.33601,0.99723,0.668141,0.679791,0.660924,0.975388
2,0.0,0.751187,0.160328,0.023238,0.720907,0.844804
3,0.787293,0.638538,0.272068,0.451298,0.498588,0.366096
4,0.639026,0.155033,0.75433,0.228818,0.516834,0.484174
5,0.098398,0.244528,0.0,0.640256,0.753341,0.954041
6,0.145784,0.569335,0.0,0.032253,0.396065,0.885987
7,0.651162,0.296624,0.0,0.0,0.468545,0.300553
8,0.794864,0.277316,0.285733,0.0,0.880189,0.970076
9,0.896086,0.189121,0.542573,0.166711,0.671869,0.814108


### [ 연습문제 6 - 15 ]
연습문제 6-13에서 생성한 데이터에서 NaN을 각 열의 평균값으로 대체하세요.

In [110]:
df2.mean()

0    0.443168
1    0.457937
2    0.414064
3    0.436082
4    0.511231
5    0.610761
dtype: float64

In [111]:
df2.fillna(df2.mean())

Unnamed: 0,0,1,2,3,4,5
0,0.230645,0.503831,0.68657,0.143755,0.191673,0.283552
1,0.33601,0.99723,0.668141,0.679791,0.660924,0.975388
2,0.443168,0.751187,0.160328,0.023238,0.720907,0.844804
3,0.787293,0.638538,0.272068,0.451298,0.498588,0.366096
4,0.639026,0.155033,0.75433,0.228818,0.516834,0.484174
5,0.098398,0.244528,0.414064,0.640256,0.753341,0.954041
6,0.145784,0.569335,0.414064,0.032253,0.396065,0.885987
7,0.651162,0.296624,0.414064,0.436082,0.468545,0.300553
8,0.794864,0.277316,0.285733,0.436082,0.880189,0.970076
9,0.896086,0.189121,0.542573,0.166711,0.671869,0.814108


6.3.2 이상값을 다루는 방법

In [112]:
# 이상값 데이터에 대한 유지, 삭제, 대체 결정 필요

In [113]:
# 박스플롯
# 정규분포
# 공간적 근접성
# 머신러닝 등 활용 가능

6.4 시계열 데이터 분석 방법 기초

In [114]:
import pandas_datareader.data as pdr

6.4.1 시계열 데이터 조작과 변환

In [118]:
start_date = '2001/1/2'
end_date = '2016/12/30'

fx_jpusdata = pdr.DataReader('DEXJPUS', 'fred', start_date, end_date)

In [119]:
fx_jpusdata.head()

Unnamed: 0_level_0,DEXJPUS
DATE,Unnamed: 1_level_1
2001-01-02,114.73
2001-01-03,114.26
2001-01-04,115.47
2001-01-05,116.19
2001-01-08,115.97


특정 연월 데이터 참조

In [120]:
# 2016년 4월 데이터만 보고 싶을 경우

fx_jpusdata['2016-04']

Unnamed: 0_level_0,DEXJPUS
DATE,Unnamed: 1_level_1
2016-04-01,112.06
2016-04-04,111.18
2016-04-05,110.26
2016-04-06,109.63
2016-04-07,107.98
2016-04-08,108.36
2016-04-11,107.96
2016-04-12,108.54
2016-04-13,109.21
2016-04-14,109.2


In [121]:
# resample 메서드 인수에 M을 지정해 월별 데이터를 지정, 일별은 D, 연도별은 Y
# last 메서드로 매월 마지막 날 데이터만 추출, 평균은 mean 메서드 사용
# 리샘플링 : 빈도 데이터를 별개의 빈도 데이터 기준으로 재추출하는 것

fx_jpusdata.resample('M').last().head()

Unnamed: 0_level_0,DEXJPUS
DATE,Unnamed: 1_level_1
2001-01-31,116.39
2001-02-28,117.28
2001-03-31,125.54
2001-04-30,123.57
2001-05-31,118.88


결측 데이터가 있을 경우 처리 방법

In [122]:
# 시계열 데이터에 결측 데이터가 있는 경우

fx_jpusdata.resample('D').last().head()

Unnamed: 0_level_0,DEXJPUS
DATE,Unnamed: 1_level_1
2001-01-02,114.73
2001-01-03,114.26
2001-01-04,115.47
2001-01-05,116.19
2001-01-06,


In [123]:
# 직전 날의 값으로 대체

fx_jpusdata.resample('D').ffill().head()

Unnamed: 0_level_0,DEXJPUS
DATE,Unnamed: 1_level_1
2001-01-02,114.73
2001-01-03,114.26
2001-01-04,115.47
2001-01-05,116.19
2001-01-06,116.19


데이터를 이동시켜 비율 계산

In [131]:
# shift 메서드 : 인덱스는 고정 데이터는 이동

# 데이터를 하나씩 뒤로 이동시켜 2001-01-02 환율을 2001-01-03 환율로 변경
fx_jpusdata.shift(1).head()

Unnamed: 0_level_0,DEXJPUS
DATE,Unnamed: 1_level_1
2001-01-02,
2001-01-03,114.73
2001-01-04,114.26
2001-01-05,115.47
2001-01-08,116.19


In [130]:
fx_jpusdata_ratio = fx_jpusdata / fx_jpusdata.shift(1)
fx_jpusdata_ratio.head()

Unnamed: 0_level_0,DEXJPUS
DATE,Unnamed: 1_level_1
2001-01-02,
2001-01-03,0.995903
2001-01-04,1.01059
2001-01-05,1.006235
2001-01-08,0.998107


In [132]:
# diff와 pct_change 조사하기

### [ 연습문제 6 -16 ]
6-4-1에서 읽어 들인 fx_jpusdata을 이용해 연도별 평균값 추세 데이터를 만들어 보세요.

In [133]:
fx_jpusdata.resample('Y').mean()

Unnamed: 0_level_0,DEXJPUS
DATE,Unnamed: 1_level_1
2001-12-31,121.56804
2002-12-31,125.220438
2003-12-31,115.938685
2004-12-31,108.15083
2005-12-31,110.106932
2006-12-31,116.312072
2007-12-31,117.762323
2008-12-31,103.390635
2009-12-31,93.682659
2010-12-31,87.78168


6.4.2 이동평균

In [136]:
# 판다스 rolling 메서드로 3일 이동 평균선 만들기
# rolling 메서드와 mean 메서드를 이용해 이동평균 계산

fx_jpusdata.head()

Unnamed: 0_level_0,DEXJPUS
DATE,Unnamed: 1_level_1
2001-01-02,114.73
2001-01-03,114.26
2001-01-04,115.47
2001-01-05,116.19
2001-01-08,115.97


In [137]:
fx_jpusdata.rolling(3).mean().head()

Unnamed: 0_level_0,DEXJPUS
DATE,Unnamed: 1_level_1
2001-01-02,
2001-01-03,
2001-01-04,114.82
2001-01-05,115.306667
2001-01-08,115.876667


In [138]:
fx_jpusdata.rolling(3).std()

Unnamed: 0_level_0,DEXJPUS
DATE,Unnamed: 1_level_1
2001-01-02,
2001-01-03,
2001-01-04,0.610000
2001-01-05,0.975312
2001-01-08,0.368963
...,...
2016-12-26,
2016-12-27,
2016-12-28,
2016-12-29,0.736569


In [143]:
?df.rolling()

### [ 연습문제 6 - 17 ]
연습문제 6-16의 fx_jpusdata 데이터를 이용해 20일 이동평균 데이터를 만드세요. 단, NaN은 삭제하고 원래 존재하지 않는 결측 데이터 값은 대체할 필요는 없습니다.

In [172]:
fx_jpusdata.rolling(20).mean().dropna()

Unnamed: 0_level_0,DEXJPUS
DATE,Unnamed: 1_level_1
2001-02-12,116.6910
2001-02-13,116.6920
2001-02-14,116.6070
2001-02-15,116.5015
2001-02-16,116.4130
...,...
2016-11-08,104.1600
2016-11-09,104.1780
2016-11-10,104.3250
2016-12-22,115.1555


# 6장 종합문제
### [ 종합문제 6 - 1 데이터 처리 ]
3장에서 사용한 수학 성적 데이터 student-mat.csv를 이용해 다음 질문에 답하세요. 

1. 연령(age) x 성별(sex) 기준으로 G1 평균을 계산하고 세로축이 연령(age), 가로축이 성별(sex)인 표를 만드세요.

In [168]:
student_data_math.groupby(['age', 'sex'])['G1'].mean().unstack()

sex,F,M
age,Unnamed: 1_level_1,Unnamed: 2_level_1
15,10.052632,12.25
16,10.203704,11.74
17,11.103448,10.6
18,10.883721,10.538462
19,10.642857,9.7
20,15.0,13.0
21,,10.0
22,,6.0


2. 1번 문제에서 만든 표에서 NaN인 행 데이터를 모두 제거한 결과를 출력하세요.

In [169]:
student_data_math.groupby(['age', 'sex'])['G1'].mean().unstack().dropna()

sex,F,M
age,Unnamed: 1_level_1,Unnamed: 2_level_1
15,10.052632,12.25
16,10.203704,11.74
17,11.103448,10.6
18,10.883721,10.538462
19,10.642857,9.7
20,15.0,13.0
