In [1]:
import warnings
warnings.filterwarnings('ignore')
from IPython.display import Image
import numpy as np
import pandas as pd

In [4]:
# Pew Reseaech Center는 세계의 여론 조사, 인구 통계 등 다양한 사회 과학 연구를 수행하는 곳이다.
# Pew Reseaech Center에서 조사한 '미국의 소득과 종교' 데이터를 사용한다.
pew = pd.read_csv('./data/pew.csv')
pew.head()

Unnamed: 0,religion,<$10k,$10-20k,$20-30k,$30-40k,$40-50k,$50-75k,$75-100k,$100-150k,>150k,Don't know/refused
0,Agnostic,27,34,60,81,76,137,122,109,84,96
1,Atheist,12,27,37,52,35,70,73,59,74,76
2,Buddhist,27,21,30,34,33,58,62,39,53,54
3,Catholic,418,617,732,670,638,1116,949,792,633,1489
4,Don’t know/refused,15,14,15,11,10,35,21,17,18,116


melt() 함수  
데이터프레임을 깔끔한 형태로 정리하는 데 사용하는 melt() 함수는 지정한 열의 데이터를 모두 행으로 정리한다.  
melt(데이터프레임, id_vars[, value_vars, var_name, value_name])  
id_vars: 위치를 그대로 유지할 열 이름  
value_vars: 행으로 위치를 변경할 열 이름, 생략시 모든 열을 행으로 변경한다.  
var_name: value_vars로 위치를 변경한 열 이름을 지정한다. 생략시 variable로 작성된다.  
value_name: var_name으로 위치를 변경한 열의 데이터에 지정할 열 이름을 지정한다. 생략시 value로 작성된다.

In [6]:
# 종교(religion) 열은 위치를 그대로 유지하고 열을 구성하고 있는 소득 정보 데이터를 행 데이터로 옮긴다.
# id_vars 속성으로 지정한 열(religion)을 제외한 나머지 소득 정보열(<$10k, $10-20k, $20-30k, ..., >150k, Don't know/refused)이
# variable 열로 소득 정보 데이터는 value 열로 정리가 되고 value_vars를 생략하면 모든 열을 대상으로 함수가 실행된다.
# 이런 과정을 'religion' 열을 고정해서 '피벗했다' 라고 말한다.
pew_long = pd.melt(pew, id_vars='religion')
pew_long

Unnamed: 0,religion,variable,value
0,Agnostic,<$10k,27
1,Atheist,<$10k,12
2,Buddhist,<$10k,27
3,Catholic,<$10k,418
4,Don’t know/refused,<$10k,15
...,...,...,...
175,Orthodox,Don't know/refused,73
176,Other Christian,Don't know/refused,18
177,Other Faiths,Don't know/refused,71
178,Other World Religions,Don't know/refused,8


In [9]:
# value_vars 속성을 지정하면 지정한 열만 대상으로 피벗한다.
pew_long = pd.melt(pew, id_vars='religion', value_vars='$10-20k') # 피벗할 열이 1개
pew_long

Unnamed: 0,religion,variable,value
0,Agnostic,$10-20k,34
1,Atheist,$10-20k,27
2,Buddhist,$10-20k,21
3,Catholic,$10-20k,617
4,Don’t know/refused,$10-20k,14
5,Evangelical Prot,$10-20k,869
6,Hindu,$10-20k,9
7,Historically Black Prot,$10-20k,244
8,Jehovah's Witness,$10-20k,27
9,Jewish,$10-20k,19


In [12]:
# 피벗할 열이 2개 이상이라면 피벗할 열을 리스트로 묶어 value_vars 속성에 전달하면 된다.
pew_long = pd.melt(pew, id_vars='religion', value_vars=['$10-20k', '$100-150k']) # 피벗할 열이 1개 이상
pew_long

Unnamed: 0,religion,variable,value
0,Agnostic,$10-20k,34
1,Atheist,$10-20k,27
2,Buddhist,$10-20k,21
3,Catholic,$10-20k,617
4,Don’t know/refused,$10-20k,14
5,Evangelical Prot,$10-20k,869
6,Hindu,$10-20k,9
7,Historically Black Prot,$10-20k,244
8,Jehovah's Witness,$10-20k,27
9,Jewish,$10-20k,19


In [17]:
# var_name 속성을 이용해서 variable로 표시되는 열 이름을 변경한다.
# value_name 속성을 이용해서 value로 표시되던 열 이름을 변경한다.
pew_long = pd.melt(pew, id_vars='religion', value_vars='$10-20k', var_name='최저임금', value_name='인원수')
pew_long

Unnamed: 0,religion,최저임금,인원수
0,Agnostic,$10-20k,34
1,Atheist,$10-20k,27
2,Buddhist,$10-20k,21
3,Catholic,$10-20k,617
4,Don’t know/refused,$10-20k,14
5,Evangelical Prot,$10-20k,869
6,Hindu,$10-20k,9
7,Historically Black Prot,$10-20k,244
8,Jehovah's Witness,$10-20k,27
9,Jewish,$10-20k,19


In [18]:
ebola = pd.read_csv('./data/country_timeseries.csv')
ebola.head()

Unnamed: 0,Date,Day,Cases_Guinea,Cases_Liberia,Cases_SierraLeone,Cases_Nigeria,Cases_Senegal,Cases_UnitedStates,Cases_Spain,Cases_Mali,Deaths_Guinea,Deaths_Liberia,Deaths_SierraLeone,Deaths_Nigeria,Deaths_Senegal,Deaths_UnitedStates,Deaths_Spain,Deaths_Mali
0,1/5/2015,289,2776.0,,10030.0,,,,,,1786.0,,2977.0,,,,,
1,1/4/2015,288,2775.0,,9780.0,,,,,,1781.0,,2943.0,,,,,
2,1/3/2015,287,2769.0,8166.0,9722.0,,,,,,1767.0,3496.0,2915.0,,,,,
3,1/2/2015,286,,8157.0,,,,,,,,3496.0,,,,,,
4,12/31/2014,284,2730.0,8115.0,9633.0,,,,,,1739.0,3471.0,2827.0,,,,,


In [20]:
ebola.loc[:, ['Date', 'Day', 'Cases_Guinea', 'Cases_Liberia', 'Deaths_Guinea', 'Deaths_Liberia']].head()

Unnamed: 0,Date,Day,Cases_Guinea,Cases_Liberia,Deaths_Guinea,Deaths_Liberia
0,1/5/2015,289,2776.0,,1786.0,
1,1/4/2015,288,2775.0,,1781.0,
2,1/3/2015,287,2769.0,8166.0,1767.0,3496.0
3,1/2/2015,286,,8157.0,,3496.0
4,12/31/2014,284,2730.0,8115.0,1739.0,3471.0


In [21]:
ebola.iloc[:, [0, 1, 2, 3, 10, 11]].head()

Unnamed: 0,Date,Day,Cases_Guinea,Cases_Liberia,Deaths_Guinea,Deaths_Liberia
0,1/5/2015,289,2776.0,,1786.0,
1,1/4/2015,288,2775.0,,1781.0,
2,1/3/2015,287,2769.0,8166.0,1767.0,3496.0
3,1/2/2015,286,,8157.0,,3496.0
4,12/31/2014,284,2730.0,8115.0,1739.0,3471.0


In [25]:
# Date와 Day를 고정하고 나머지를 행으로 피벗하면 각 나라별 환자 수와 사망자 수를 볼 수 있다.
ebola_long = pd.melt(ebola, id_vars=['Date', 'Day'])
ebola_long.columns = ['날짜', '경과일', '국가명', '인원수']
ebola_long

Unnamed: 0,날짜,경과일,국가명,인원수
0,1/5/2015,289,Cases_Guinea,2776.0
1,1/4/2015,288,Cases_Guinea,2775.0
2,1/3/2015,287,Cases_Guinea,2769.0
3,1/2/2015,286,Cases_Guinea,
4,12/31/2014,284,Cases_Guinea,2730.0
...,...,...,...,...
1947,3/27/2014,5,Deaths_Mali,
1948,3/26/2014,4,Deaths_Mali,
1949,3/25/2014,3,Deaths_Mali,
1950,3/24/2014,2,Deaths_Mali,


In [36]:
# split() 함수의 인수에 '_'를 구분자로 전달하면 Cases_Guinea를 Cases와 Guinea로 분리할 수 있다.
print(type(ebola_long['국가명']))
print(type(ebola_long.국가명))
print(type(ebola_long.국가명.str)) # Series는 문자열 함수를 사용할 수 없으므로 str을 사용해서 문자열로 변환한 후 사용한다.
variable_split = ebola_long.국가명.str.split('_')
print('=' * 80)
# 분리된 데이터 전체는 시리즈 타입의 데이터이다.
print(type(variable_split))
print(variable_split.head())
print('=' * 80)
# 분리된 시리즈 데이터에서 특정 위치의 데이터만 얻어오면 리스트 타입의 데이터이다.
print(type(variable_split[0]))
print(variable_split[0])
print(variable_split[0][0])
print(variable_split[0][1])

<class 'pandas.core.series.Series'>
<class 'pandas.core.series.Series'>
<class 'pandas.core.strings.StringMethods'>
<class 'pandas.core.series.Series'>
0    [Cases, Guinea]
1    [Cases, Guinea]
2    [Cases, Guinea]
3    [Cases, Guinea]
4    [Cases, Guinea]
Name: 국가명, dtype: object
<class 'list'>
['Cases', 'Guinea']
Cases
Guinea


In [46]:
print(type(variable_split))
print(variable_split.head())
print('=' * 80)
print(type(variable_split.str))
print(variable_split.str[0].head())
print(variable_split.str[1].head())
print('=' * 80)
print(variable_split.str.get(0).head())
print(variable_split.str.get(1).head())

<class 'pandas.core.series.Series'>
0    [Cases, Guinea]
1    [Cases, Guinea]
2    [Cases, Guinea]
3    [Cases, Guinea]
4    [Cases, Guinea]
Name: 국가명, dtype: object
<class 'pandas.core.strings.StringMethods'>
0    Cases
1    Cases
2    Cases
3    Cases
4    Cases
Name: 국가명, dtype: object
0    Guinea
1    Guinea
2    Guinea
3    Guinea
4    Guinea
Name: 국가명, dtype: object
0    Cases
1    Cases
2    Cases
3    Cases
4    Cases
Name: 국가명, dtype: object
0    Guinea
1    Guinea
2    Guinea
3    Guinea
4    Guinea
Name: 국가명, dtype: object


In [48]:
status_values = variable_split.str[0]
print(status_values.head())
country_values = variable_split.str[1]
print(country_values.head())

0    Cases
1    Cases
2    Cases
3    Cases
4    Cases
Name: 국가명, dtype: object
0    Guinea
1    Guinea
2    Guinea
3    Guinea
4    Guinea
Name: 국가명, dtype: object


In [49]:
ebola_long['상태'] = status_values
ebola_long['국가'] = country_values
ebola_long

Unnamed: 0,날짜,경과일,국가명,인원수,상태,국가
0,1/5/2015,289,Cases_Guinea,2776.0,Cases,Guinea
1,1/4/2015,288,Cases_Guinea,2775.0,Cases,Guinea
2,1/3/2015,287,Cases_Guinea,2769.0,Cases,Guinea
3,1/2/2015,286,Cases_Guinea,,Cases,Guinea
4,12/31/2014,284,Cases_Guinea,2730.0,Cases,Guinea
...,...,...,...,...,...,...
1947,3/27/2014,5,Deaths_Mali,,Deaths,Mali
1948,3/26/2014,4,Deaths_Mali,,Deaths,Mali
1949,3/25/2014,3,Deaths_Mali,,Deaths,Mali
1950,3/24/2014,2,Deaths_Mali,,Deaths,Mali


In [52]:
variable_split = ebola_long.국가명.str.split('_')
print(type(variable_split))
# split() 함수에 expand 옵션을 True로 지정하면 구분자를 경계로 분리한 데이터를 데이터프레임으로 리턴한다.
variable_split = ebola_long.국가명.str.split('_', expand=True)
print(type(variable_split))
variable_split.head()

<class 'pandas.core.series.Series'>
<class 'pandas.core.frame.DataFrame'>


Unnamed: 0,0,1
0,Cases,Guinea
1,Cases,Guinea
2,Cases,Guinea
3,Cases,Guinea
4,Cases,Guinea


In [54]:
variable_split.columns = ['상태2', '국가2']
variable_split.head()

Unnamed: 0,상태2,국가2
0,Cases,Guinea
1,Cases,Guinea
2,Cases,Guinea
3,Cases,Guinea
4,Cases,Guinea


In [56]:
ebola_parsed = pd.concat([ebola_long, variable_split], axis=1)
ebola_parsed.head()

Unnamed: 0,날짜,경과일,국가명,인원수,상태,국가,상태2,국가2
0,1/5/2015,289,Cases_Guinea,2776.0,Cases,Guinea,Cases,Guinea
1,1/4/2015,288,Cases_Guinea,2775.0,Cases,Guinea,Cases,Guinea
2,1/3/2015,287,Cases_Guinea,2769.0,Cases,Guinea,Cases,Guinea
3,1/2/2015,286,Cases_Guinea,,Cases,Guinea,Cases,Guinea
4,12/31/2014,284,Cases_Guinea,2730.0,Cases,Guinea,Cases,Guinea
