In [50]:
import warnings

import pandas as pd

warnings.filterwarnings('ignore')

In [51]:
# Pew Research Center는 세계 여론 조사, 인구 통계 등 다양한 사회과학 연구를 수행하는 곳이다.
# Pew Research Center에서 조사한 '미국의 소득과 종교' 데이터를 사용한다.
pew = pd.read_csv('./data/pew.csv', sep=',')
pew

Unnamed: 0,religion,<$10k,$10-20k,$20-30k,$30-40k,$40-50k,$50-75k,$75-100k,$100-150k,>150k,Don't know/refused
0,Agnostic,27,34,60,81,76,137,122,109,84,96
1,Atheist,12,27,37,52,35,70,73,59,74,76
2,Buddhist,27,21,30,34,33,58,62,39,53,54
3,Catholic,418,617,732,670,638,1116,949,792,633,1489
4,Don’t know/refused,15,14,15,11,10,35,21,17,18,116
5,Evangelical Prot,575,869,1064,982,881,1486,949,723,414,1529
6,Hindu,1,9,7,9,11,34,47,48,54,37
7,Historically Black Prot,228,244,236,238,197,223,131,81,78,339
8,Jehovah's Witness,20,27,24,24,21,30,15,11,6,37
9,Jewish,19,19,25,25,30,95,69,87,151,162


# melt()
- 데이터프레임을 깔끔한 데이터로 정리하는데 사용하는 melt() 메서드는 지정한 열의 데이터를 모두 행으로 정리해준다.
melt(frame: DataFrame,
&Tab;id_vars: {__len__, __iter__, __add__} | None = None,   → 위치를 그대로 유지할 열 지정, 필수
&Tab;value_vars: Any = None,    → 행으로 위치를 변경할 열
&Tab;var_name: Any = None,  → value_vars로 위치를 변경한 열
&Tab;value_name: str = "value") → value_vars로 위치를 변경한 열의 데이터를 저장한 열

In [52]:
# 소득 정보가 열을 구성하고 있다. → 소득 정보 열을 행 데이터로 옮기려고 한다.
# id_vars 속성으로 지정한 열(religion)을 제외한 나머지 소득 정보 열이 variable 열로, 소득 정보 열의 데이터는 value로 정리된다.
# value_vars 속성을 생략하면 모든 열을 대상으로 메서드가 실행된다.
# 이러한 과정을 'religion' 열을 고정하여 pivot 했다고 말한다.
pew_long = pd.melt(pew, id_vars='religion')
pew_long

Unnamed: 0,religion,variable,value
0,Agnostic,<$10k,27
1,Atheist,<$10k,12
2,Buddhist,<$10k,27
3,Catholic,<$10k,418
4,Don’t know/refused,<$10k,15
...,...,...,...
175,Orthodox,Don't know/refused,73
176,Other Christian,Don't know/refused,18
177,Other Faiths,Don't know/refused,71
178,Other World Religions,Don't know/refused,8


In [53]:
# value_vars 속성을 지정하면 지정한 열만 지정한 열만 대상으로 pivot 한다.
pew_long = pd.melt(pew, id_vars='religion', value_vars='$10-20k')
pew_long

Unnamed: 0,religion,variable,value
0,Agnostic,$10-20k,34
1,Atheist,$10-20k,27
2,Buddhist,$10-20k,21
3,Catholic,$10-20k,617
4,Don’t know/refused,$10-20k,14
5,Evangelical Prot,$10-20k,869
6,Hindu,$10-20k,9
7,Historically Black Prot,$10-20k,244
8,Jehovah's Witness,$10-20k,27
9,Jewish,$10-20k,19


In [54]:
# Pivot 할 열이 2개 이상일 경우 Pivot 할 열을 리스트로 묶어서 value_vars 속성으로 전달하면 된다.
pew_long = pd.melt(pew, id_vars='religion', value_vars=['$10-20k', '$100-150k'])
pew_long

Unnamed: 0,religion,variable,value
0,Agnostic,$10-20k,34
1,Atheist,$10-20k,27
2,Buddhist,$10-20k,21
3,Catholic,$10-20k,617
4,Don’t know/refused,$10-20k,14
5,Evangelical Prot,$10-20k,869
6,Hindu,$10-20k,9
7,Historically Black Prot,$10-20k,244
8,Jehovah's Witness,$10-20k,27
9,Jewish,$10-20k,19


In [55]:
# var_name 속성을 이용해서 variable로 표시되던 열 이름을 '연봉'으로 변경하고, value로 표시되던 열 이름을 '인원 수로 변경한다.
pew_long = pd.melt(pew, id_vars='religion', value_vars='$10-20k', var_name='연봉', value_name='인원 수')
pew_long.columns = ['종교', '연봉', '인원 수']
pew_long

Unnamed: 0,종교,연봉,인원 수
0,Agnostic,$10-20k,34
1,Atheist,$10-20k,27
2,Buddhist,$10-20k,21
3,Catholic,$10-20k,617
4,Don’t know/refused,$10-20k,14
5,Evangelical Prot,$10-20k,869
6,Hindu,$10-20k,9
7,Historically Black Prot,$10-20k,244
8,Jehovah's Witness,$10-20k,27
9,Jewish,$10-20k,19


In [56]:
# Exercise
ebola = pd.read_csv('./data/country_timeseries.csv', sep=',')
ebola_short = ebola.loc[:, ['Date', 'Day', 'Cases_Guinea', 'Cases_Liberia', 'Deaths_Guinea', 'Deaths_Liberia']]
ebola_short

Unnamed: 0,Date,Day,Cases_Guinea,Cases_Liberia,Deaths_Guinea,Deaths_Liberia
0,1/5/2015,289,2776.0,,1786.0,
1,1/4/2015,288,2775.0,,1781.0,
2,1/3/2015,287,2769.0,8166.0,1767.0,3496.0
3,1/2/2015,286,,8157.0,,3496.0
4,12/31/2014,284,2730.0,8115.0,1739.0,3471.0
...,...,...,...,...,...,...
117,3/27/2014,5,103.0,8.0,66.0,6.0
118,3/26/2014,4,86.0,,62.0,
119,3/25/2014,3,86.0,,60.0,
120,3/24/2014,2,86.0,,59.0,


In [57]:
ebola_long = pd.melt(ebola, id_vars=['Date','Day'])
ebola_long

Unnamed: 0,Date,Day,variable,value
0,1/5/2015,289,Cases_Guinea,2776.0
1,1/4/2015,288,Cases_Guinea,2775.0
2,1/3/2015,287,Cases_Guinea,2769.0
3,1/2/2015,286,Cases_Guinea,
4,12/31/2014,284,Cases_Guinea,2730.0
...,...,...,...,...
1947,3/27/2014,5,Deaths_Mali,
1948,3/26/2014,4,Deaths_Mali,
1949,3/25/2014,3,Deaths_Mali,
1950,3/24/2014,2,Deaths_Mali,


In [58]:
# split() 메서드에 '_'를 구분자로 전달하면 Cases_Guinea를 Cases와 Guinea로 분리할 수 있다.
print(type(ebola_long.variable))    # <class 'pandas.core.series.Series'>
print(type(ebola_long.variable.str))    # <class 'pandas.core.strings.accessor.StringMethods'>
# 시리즈 뒤에 '.'을 찍고 str을 붙여주면 시리즈에 문자열 관련 메서드를 실행할 수 있도록 해준다.
variable_split = ebola_long.variable.str.split('_')
print(type(variable_split))     # <class 'pandas.core.series.Series'>: 분리된 데이터 전체는 시리즈 타입이다.
print(variable_split)
# 분리된 데이터가 저장된 시리즈에서 특정 위치의 데이터만 얻어오면 리스트 타입이다.
print(type(variable_split[0]))  # <class 'list'>
print(variable_split[0])
print(variable_split[0][1])

<class 'pandas.core.series.Series'>
<class 'pandas.core.strings.accessor.StringMethods'>
<class 'pandas.core.series.Series'>
0       [Cases, Guinea]
1       [Cases, Guinea]
2       [Cases, Guinea]
3       [Cases, Guinea]
4       [Cases, Guinea]
             ...       
1947     [Deaths, Mali]
1948     [Deaths, Mali]
1949     [Deaths, Mali]
1950     [Deaths, Mali]
1951     [Deaths, Mali]
Name: variable, Length: 1952, dtype: object
<class 'list'>
['Cases', 'Guinea']
Guinea


In [59]:
# status_values = variable_split.str[0]     # variable_split 시리즈의 0번째 인덱스 위치의 값 [Cases, Guinea]를 얻어온다.
# status_values = variable_split.str[0][0]  # 0번째 인덱스 위치의 값 [Cases, Guinea]에서 0번째 인덱스인 'Cases'를 얻어온다.
# str 적용 후 1회에 한하여 문자열 관련 기능이 실행되면 다시 시리즈로 돌아간다.
status_values = variable_split.str.get(0)
print(type(status_values))
status_values

<class 'pandas.core.series.Series'>


0        Cases
1        Cases
2        Cases
3        Cases
4        Cases
         ...  
1947    Deaths
1948    Deaths
1949    Deaths
1950    Deaths
1951    Deaths
Name: variable, Length: 1952, dtype: object

In [60]:
country_values = variable_split.str[1]
country_values

0       Guinea
1       Guinea
2       Guinea
3       Guinea
4       Guinea
         ...  
1947      Mali
1948      Mali
1949      Mali
1950      Mali
1951      Mali
Name: variable, Length: 1952, dtype: object

In [61]:
print(ebola_long.columns)
ebola_long['status'] = status_values
ebola_long['country'] = country_values
ebola_long

Index(['Date', 'Day', 'variable', 'value'], dtype='object')


Unnamed: 0,Date,Day,variable,value,status,country
0,1/5/2015,289,Cases_Guinea,2776.0,Cases,Guinea
1,1/4/2015,288,Cases_Guinea,2775.0,Cases,Guinea
2,1/3/2015,287,Cases_Guinea,2769.0,Cases,Guinea
3,1/2/2015,286,Cases_Guinea,,Cases,Guinea
4,12/31/2014,284,Cases_Guinea,2730.0,Cases,Guinea
...,...,...,...,...,...,...
1947,3/27/2014,5,Deaths_Mali,,Deaths,Mali
1948,3/26/2014,4,Deaths_Mali,,Deaths,Mali
1949,3/25/2014,3,Deaths_Mali,,Deaths,Mali
1950,3/24/2014,2,Deaths_Mali,,Deaths,Mali


In [62]:
# split() 메서드에 expand='True' 옵션을 지정하면 split() 메서드가 실행된 결과를 데이터프레임으로 만든다.
variable_split = ebola_long.variable.str.split('_', expand=True)
variable_split.columns = ['status2', 'country2']
variable_split

Unnamed: 0,status2,country2
0,Cases,Guinea
1,Cases,Guinea
2,Cases,Guinea
3,Cases,Guinea
4,Cases,Guinea
...,...,...
1947,Deaths,Mali
1948,Deaths,Mali
1949,Deaths,Mali
1950,Deaths,Mali


In [63]:
ebola_parsed = pd.concat([ebola_long, variable_split], axis=1)
ebola_parsed

Unnamed: 0,Date,Day,variable,value,status,country,status2,country2
0,1/5/2015,289,Cases_Guinea,2776.0,Cases,Guinea,Cases,Guinea
1,1/4/2015,288,Cases_Guinea,2775.0,Cases,Guinea,Cases,Guinea
2,1/3/2015,287,Cases_Guinea,2769.0,Cases,Guinea,Cases,Guinea
3,1/2/2015,286,Cases_Guinea,,Cases,Guinea,Cases,Guinea
4,12/31/2014,284,Cases_Guinea,2730.0,Cases,Guinea,Cases,Guinea
...,...,...,...,...,...,...,...,...
1947,3/27/2014,5,Deaths_Mali,,Deaths,Mali,Deaths,Mali
1948,3/26/2014,4,Deaths_Mali,,Deaths,Mali,Deaths,Mali
1949,3/25/2014,3,Deaths_Mali,,Deaths,Mali,Deaths,Mali
1950,3/24/2014,2,Deaths_Mali,,Deaths,Mali,Deaths,Mali


In [64]:
addr = pd.Series(['서울시 종로구 관철동 123-45', '서울시 강남구 역삼동 789-45'])
print(type(addr))
addr

<class 'pandas.core.series.Series'>


0    서울시 종로구 관철동 123-45
1    서울시 강남구 역삼동 789-45
dtype: object

In [67]:
addr_df = addr.str.split(' ', expand=True)
addr_df.columns = ['시도', '구군', '동읍면', '세부주소']
addr_df

Unnamed: 0,시도,구군,동읍면,세부주소
0,서울시,종로구,관철동,123-45
1,서울시,강남구,역삼동,789-45
