In [1]:
import warnings
warnings.filterwarnings("ignore")
from IPython.display import Image
import numpy as np
import pandas as pd
import matplotlib as mpl
import matplotlib.pyplot as plt
plt.rcParams["font.size"] = 18
plt.rcParams["font.family"] = "NanumGothicCoding"
mpl.rcParams["axes.unicode_minus"] = False
import seaborn as sns
%matplotlib notebook

In [2]:
# Per Research Center는 세계의 여론 조사, 인구 통계 등 다양한 사회 과학 연구를 수행하는 곳이다.
# Per Research Center에서 조사한 "미국의 소득과 종교" 데이터를 사용한다.
pew = pd.read_csv("./data/pew.csv")
pew

Unnamed: 0,religion,<$10k,$10-20k,$20-30k,$30-40k,$40-50k,$50-75k,$75-100k,$100-150k,>150k,Don't know/refused
0,Agnostic,27,34,60,81,76,137,122,109,84,96
1,Atheist,12,27,37,52,35,70,73,59,74,76
2,Buddhist,27,21,30,34,33,58,62,39,53,54
3,Catholic,418,617,732,670,638,1116,949,792,633,1489
4,Don’t know/refused,15,14,15,11,10,35,21,17,18,116
5,Evangelical Prot,575,869,1064,982,881,1486,949,723,414,1529
6,Hindu,1,9,7,9,11,34,47,48,54,37
7,Historically Black Prot,228,244,236,238,197,223,131,81,78,339
8,Jehovah's Witness,20,27,24,24,21,30,15,11,6,37
9,Jewish,19,19,25,25,30,95,69,87,151,162


melt() 메소드  
데이터프레임을 깔끔한 데이터로 정리하는데 사용하는 melt() 메소드는 지정한 열의 데이터를 모두 행으로 정리해 준다.  
melt(데이터프레임, id_vars[, value_vars, var_name, value_name])  
id_vars => 위치를 그대로 유지할 열의 이름을 지정한다.  
value_vars => 행으로 위치를 변경할 열의 이름을 지정한다.  
var_name => value_vars로 위치를 변경한 열의 이름을 지정한다.  
value_name => var_name으로 위치를 변경한 열의 데이터를 저장한 열의 이름을 지정한다.

In [3]:
# 소득 정보가 열을 구성하고 있다. => 소득 정보열을 행 데이터로 옮기려 한다.
# id_vars 속성으로 지정한 열(religion)을 제외한 나머지 소득 정보열(<$10k, $10-20k, ..., >150k,
# Don't know/refused)이 variable 열로 소득 정보 열의 데이터는 value 열로 정리된다.
# value_vars 열을 생략하면 모든 열을 대상으로 메소드가 실행된다.
# 이러한 과정을 "id_vars 속성으로 지정된 열을 고정하여 피벗했다."라고 말한다.
pew_long = pd.melt(pew, id_vars = "religion")
pew_long

Unnamed: 0,religion,variable,value
0,Agnostic,<$10k,27
1,Atheist,<$10k,12
2,Buddhist,<$10k,27
3,Catholic,<$10k,418
4,Don’t know/refused,<$10k,15
...,...,...,...
175,Orthodox,Don't know/refused,73
176,Other Christian,Don't know/refused,18
177,Other Faiths,Don't know/refused,71
178,Other World Religions,Don't know/refused,8


In [4]:
# value_vars 속성을 지정하면 지정된 열만을 대상으로 피벗한다. => 피벗할 열이 2개 이상이면 리스트로
# 묶어서 value_vars 속성으로 지정하면 된다.
pew_long = pd.melt(pew, id_vars = "religion", value_vars = ["$50-75k", "$75-100k"])
pew_long

Unnamed: 0,religion,variable,value
0,Agnostic,$50-75k,137
1,Atheist,$50-75k,70
2,Buddhist,$50-75k,58
3,Catholic,$50-75k,1116
4,Don’t know/refused,$50-75k,35
5,Evangelical Prot,$50-75k,1486
6,Hindu,$50-75k,34
7,Historically Black Prot,$50-75k,223
8,Jehovah's Witness,$50-75k,30
9,Jewish,$50-75k,95


In [5]:
# var_name 속성을 이용해서 variable이라 표시되는 피벗된 열의 이름을 변경하고 value_name 속성을
# 이용해서 피벗된 데이터의 열 이름을 지정한다.
pew_long = pd.melt(pew, id_vars = "religion", value_vars = ["$10-20k"], var_name = "최저임금",
                  value_name = "인원수")
pew_long

Unnamed: 0,religion,최저임금,인원수
0,Agnostic,$10-20k,34
1,Atheist,$10-20k,27
2,Buddhist,$10-20k,21
3,Catholic,$10-20k,617
4,Don’t know/refused,$10-20k,14
5,Evangelical Prot,$10-20k,869
6,Hindu,$10-20k,9
7,Historically Black Prot,$10-20k,244
8,Jehovah's Witness,$10-20k,27
9,Jewish,$10-20k,19


In [6]:
# 빌보드 차트
billboard = pd.read_csv("./data/billboard.csv")
billboard

Unnamed: 0,year,artist,track,time,date.entered,wk1,wk2,wk3,wk4,wk5,...,wk67,wk68,wk69,wk70,wk71,wk72,wk73,wk74,wk75,wk76
0,2000,2 Pac,Baby Don't Cry (Keep...,4:22,2000-02-26,87,82.0,72.0,77.0,87.0,...,,,,,,,,,,
1,2000,2Ge+her,The Hardest Part Of ...,3:15,2000-09-02,91,87.0,92.0,,,...,,,,,,,,,,
2,2000,3 Doors Down,Kryptonite,3:53,2000-04-08,81,70.0,68.0,67.0,66.0,...,,,,,,,,,,
3,2000,3 Doors Down,Loser,4:24,2000-10-21,76,76.0,72.0,69.0,67.0,...,,,,,,,,,,
4,2000,504 Boyz,Wobble Wobble,3:35,2000-04-15,57,34.0,25.0,17.0,17.0,...,,,,,,,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
312,2000,Yankee Grey,Another Nine Minutes,3:10,2000-04-29,86,83.0,77.0,74.0,83.0,...,,,,,,,,,,
313,2000,"Yearwood, Trisha",Real Live Woman,3:55,2000-04-01,85,83.0,83.0,82.0,81.0,...,,,,,,,,,,
314,2000,Ying Yang Twins,Whistle While You Tw...,4:19,2000-03-18,95,94.0,91.0,85.0,84.0,...,,,,,,,,,,
315,2000,Zombie Nation,Kernkraft 400,3:30,2000-09-02,99,99.0,,,,...,,,,,,,,,,


In [7]:
# "year", "artist", "track", "time", "date.entered" 열은 고정하고 "wk10"로 피벗한 다음 variable 
# 열을 "week"로 value 열을 "rating"으로 바꾼다.
billboard_long = pd.melt(billboard, id_vars = ["year", "artist", "track", "time", "date.entered"], 
                        value_vars = "wk10", var_name = "week", value_name = "rating")

billboard_long

Unnamed: 0,year,artist,track,time,date.entered,week,rating
0,2000,2 Pac,Baby Don't Cry (Keep...,4:22,2000-02-26,wk10,
1,2000,2Ge+her,The Hardest Part Of ...,3:15,2000-09-02,wk10,
2,2000,3 Doors Down,Kryptonite,3:53,2000-04-08,wk10,51.0
3,2000,3 Doors Down,Loser,4:24,2000-10-21,wk10,61.0
4,2000,504 Boyz,Wobble Wobble,3:35,2000-04-15,wk10,57.0
...,...,...,...,...,...,...,...
312,2000,Yankee Grey,Another Nine Minutes,3:10,2000-04-29,wk10,
313,2000,"Yearwood, Trisha",Real Live Woman,3:55,2000-04-01,wk10,
314,2000,Ying Yang Twins,Whistle While You Tw...,4:19,2000-03-18,wk10,89.0
315,2000,Zombie Nation,Kernkraft 400,3:30,2000-09-02,wk10,


In [8]:
# 에볼라
ebola = pd.read_csv("./data/country_timeseries.csv")
ebola.iloc[:, [0, 1, 2, 3, 10, 11]]

Unnamed: 0,Date,Day,Cases_Guinea,Cases_Liberia,Deaths_Guinea,Deaths_Liberia
0,1/5/2015,289,2776.0,,1786.0,
1,1/4/2015,288,2775.0,,1781.0,
2,1/3/2015,287,2769.0,8166.0,1767.0,3496.0
3,1/2/2015,286,,8157.0,,3496.0
4,12/31/2014,284,2730.0,8115.0,1739.0,3471.0
...,...,...,...,...,...,...
117,3/27/2014,5,103.0,8.0,66.0,6.0
118,3/26/2014,4,86.0,,62.0,
119,3/25/2014,3,86.0,,60.0,
120,3/24/2014,2,86.0,,59.0,


In [9]:
ebola_long = pd.melt(ebola, id_vars = ["Date", "Day"])
ebola_long

Unnamed: 0,Date,Day,variable,value
0,1/5/2015,289,Cases_Guinea,2776.0
1,1/4/2015,288,Cases_Guinea,2775.0
2,1/3/2015,287,Cases_Guinea,2769.0
3,1/2/2015,286,Cases_Guinea,
4,12/31/2014,284,Cases_Guinea,2730.0
...,...,...,...,...
1947,3/27/2014,5,Deaths_Mali,
1948,3/26/2014,4,Deaths_Mali,
1949,3/25/2014,3,Deaths_Mali,
1950,3/24/2014,2,Deaths_Mali,


In [10]:
# split() 메소드에 "_"를 구분자로 전달하면 Cases_Guinea를 Cases와 Guinea로 분리할 수 있다.

print(type(ebola_long.variable))
# split() 메소드는 시리즈의 메소드가 아니라 문자열을 처리하는 메소드이므로 시리즈에 바로 실행하면
# 에러가 발생되므로 시리즈 뒤에 "."을 찍고 "str"을 붙여 문자열로 변경시켜서 문자열 관련 메소드가
# 실행될 수 있는 상태로 변경시킨 후 실행해야 한다.
# variable_split = ebola_long.variable.split("_") # 에러 발생
print(type(ebola_long.variable.str))
variable_split = ebola_long.variable.str.split("_")
# 분리된 데이터 전체는 시리즈 타입의 데이터이고 시리즈 타입의 데이터에서 특정 데이터만 얻어오면
# 리스트 타입으 데이터가 된다.
print(type(variable_split))
variable_split

<class 'pandas.core.series.Series'>
<class 'pandas.core.strings.StringMethods'>
<class 'pandas.core.series.Series'>


0       [Cases, Guinea]
1       [Cases, Guinea]
2       [Cases, Guinea]
3       [Cases, Guinea]
4       [Cases, Guinea]
             ...       
1947     [Deaths, Mali]
1948     [Deaths, Mali]
1949     [Deaths, Mali]
1950     [Deaths, Mali]
1951     [Deaths, Mali]
Name: variable, Length: 1952, dtype: object

In [11]:
print(type(variable_split[0]))
print(variable_split[0])
print(variable_split[0][1])

<class 'list'>
['Cases', 'Guinea']
Guinea


In [12]:
# status_values = variable_split.get(0) # variable_split[0]
status_values = variable_split.str.get(0)
status_values

0        Cases
1        Cases
2        Cases
3        Cases
4        Cases
         ...  
1947    Deaths
1948    Deaths
1949    Deaths
1950    Deaths
1951    Deaths
Name: variable, Length: 1952, dtype: object

In [13]:
country_values = variable_split.str.get(1)
country_values

0       Guinea
1       Guinea
2       Guinea
3       Guinea
4       Guinea
         ...  
1947      Mali
1948      Mali
1949      Mali
1950      Mali
1951      Mali
Name: variable, Length: 1952, dtype: object

In [14]:
ebola_long["status"] = status_values
ebola_long["country"] = country_values
ebola_long

Unnamed: 0,Date,Day,variable,value,status,country
0,1/5/2015,289,Cases_Guinea,2776.0,Cases,Guinea
1,1/4/2015,288,Cases_Guinea,2775.0,Cases,Guinea
2,1/3/2015,287,Cases_Guinea,2769.0,Cases,Guinea
3,1/2/2015,286,Cases_Guinea,,Cases,Guinea
4,12/31/2014,284,Cases_Guinea,2730.0,Cases,Guinea
...,...,...,...,...,...,...
1947,3/27/2014,5,Deaths_Mali,,Deaths,Mali
1948,3/26/2014,4,Deaths_Mali,,Deaths,Mali
1949,3/25/2014,3,Deaths_Mali,,Deaths,Mali
1950,3/24/2014,2,Deaths_Mali,,Deaths,Mali
