# Chapter 7 깔끔한 데이터

이번에는 깔끔한 데이터를 만드는 과정에 대해 알아보자. 목차는 다음과 같다.

 - 7-1: 열과 피벗
 - 7-2: 열 이름 관리하기
 - 7-3: 여러 열을 하나로 정리하기
 - 7-4: 중복 데이터 처리하기 
 - 7-5: 대용량 데이터 처리하기
 
 ## 7-1  열과 피벗
 
 ### 넓은 데이터
 
 데이터프레임의 열은 파이썬의 변수와 비슷한 역할을 한다. 예를 들어 ebola 데이터프레임 열은 사망한 날짜, 발병 국가 등의 데이터를 저장하고 있다. 하지만 이번에 다루는 데이터프레임의 열은 열 자체가 어떤 값을 의미 한다. 그러다 보니 데이터프레임의 열이 옆으로 길게 늘어선 형태가 되는데 이를 넓은 데이터라고 한다. 7장에서는 넓은 데이터를 사용해 다양한 실습을 진행할 것이다. 이를 알아보기 위해서는 melt 메서드를 먼저 알아보자. 
 
 #### melt 메서드
 판다스는 데이터프레임을 깔끔한 데이터로 정리하는데 유용한 melt 메서드를 제공한다. melt 메서드는 지정한 열의 데이터를 모두 행으로 정리해 준다. 다음은 melt 메서드를 실슴할 때 사용할 인자를 정리한 표이다. 본격적인 실습을 진행하기 전에 다음의 메서드 Table을 확인해보자. 
 
 
|메서드 인자|설명|
|:-:|:-:|
|id_vars|위치를 그대로 유지할 열의 이름을 지정|
|value_vars|행으로 위치를 변경할 열의 이름을 지정|
|var_name|value_vars로 위치를 변경한 열의 이름을 지정|
|valu_name|var_name으로 위치를 변경한 열의 데이터를 저장한 열의 이름을 지정|

### melt 메서드 사용

#### 1. 1개의 열만 고정하고 나버지 열을 행으로 바꾸기

이번에 사용할 데이터 집합은 표 리서치 센터에서 조사한 '미국의 소득과 종교'라는 데이터 이다 이 데이터 프레임은 총 11개의 컬럼으로 구성되어 있다.

In [2]:
import pandas as pd

pew = pd.read_csv("data/pew.csv")

pew

Unnamed: 0,religion,<$10k,$10-20k,$20-30k,$30-40k,$40-50k,$50-75k,$75-100k,$100-150k,>150k,Don't know/refused
0,Agnostic,27,34,60,81,76,137,122,109,84,96
1,Atheist,12,27,37,52,35,70,73,59,74,76
2,Buddhist,27,21,30,34,33,58,62,39,53,54
3,Catholic,418,617,732,670,638,1116,949,792,633,1489
4,Don’t know/refused,15,14,15,11,10,35,21,17,18,116
5,Evangelical Prot,575,869,1064,982,881,1486,949,723,414,1529
6,Hindu,1,9,7,9,11,34,47,48,54,37
7,Historically Black Prot,228,244,236,238,197,223,131,81,78,339
8,Jehovah's Witness,20,27,24,24,21,30,15,11,6,37
9,Jewish,19,19,25,25,30,95,69,87,151,162


#### 2. 
6개의 열만 출력해 보자. 그러면 종교와 소득 정보가 출력이 되게 된다 하지만 이상태에서는 소득정보가 열을 구성하고 있어서 보기가 힘들다. 이 소득 정보 열을 행 데이터로 옮겨 보자.

In [3]:
pew.iloc[:, 0:6]

Unnamed: 0,religion,<$10k,$10-20k,$20-30k,$30-40k,$40-50k
0,Agnostic,27,34,60,81,76
1,Atheist,12,27,37,52,35
2,Buddhist,27,21,30,34,33
3,Catholic,418,617,732,670,638
4,Don’t know/refused,15,14,15,11,10
5,Evangelical Prot,575,869,1064,982,881
6,Hindu,1,9,7,9,11
7,Historically Black Prot,228,244,236,238,197
8,Jehovah's Witness,20,27,24,24,21
9,Jewish,19,19,25,25,30


#### 3. 
다음은 id_vars 인자값으로 지정한 열을 제외한 나머지 소득 정보 열이 variable 열로 정리되고 소득 정보 열의 행 데이터도 value 열 로 정리 되어 있다. 바로 이 과정을 **'religion 열을 고정하여 피벗했다. '**라고 한다. 

In [4]:
pew_long = pd.melt(pew, id_vars='religion')
pew_long

Unnamed: 0,religion,variable,value
0,Agnostic,<$10k,27
1,Atheist,<$10k,12
2,Buddhist,<$10k,27
3,Catholic,<$10k,418
4,Don’t know/refused,<$10k,15
...,...,...,...
175,Orthodox,Don't know/refused,73
176,Other Christian,Don't know/refused,18
177,Other Faiths,Don't know/refused,71
178,Other World Religions,Don't know/refused,8


#### 4. 
그러면 variable, value 열의 열 이름은 어떻게 바꿀 수 있을까? var_name, value_name, 인자값을 사용하면 된다. 다음은 variable, value 라는 열이름을 income, count로 재설정한 코드이다.

In [5]:
pew_long = pd.melt(pew, id_vars = 'religion', var_name = 'income', value_name ='count')
pew_long.head()

Unnamed: 0,religion,income,count
0,Agnostic,<$10k,27
1,Atheist,<$10k,12
2,Buddhist,<$10k,27
3,Catholic,<$10k,418
4,Don’t know/refused,<$10k,15


#### 5. 2개 이상의 열을 고정하고 나머지 열을 행으로 바꾸기 
이번에는 빌보드 차트 데이터를 사용하여 실습을 진행 해보자. 2개 이상의 열을 고정하고 나머지 열을 행으로 바꾸는 작업을 해보려 한다. 다음은 빌보드 차트의 데이터 집합을 불러온 다음 데이터를 확인한 것이다. 빌보드 차트 데이터프레임이 어떻게 구성되어 있는지 확인해 보자.

In [6]:
billboard = pd.read_csv('data/billboard.csv')
billboard.iloc[0:5, 0:16]

Unnamed: 0,year,artist,track,time,date.entered,wk1,wk2,wk3,wk4,wk5,wk6,wk7,wk8,wk9,wk10,wk11
0,2000,2 Pac,Baby Don't Cry (Keep...,4:22,2000-02-26,87,82.0,72.0,77.0,87.0,94.0,99.0,,,,
1,2000,2Ge+her,The Hardest Part Of ...,3:15,2000-09-02,91,87.0,92.0,,,,,,,,
2,2000,3 Doors Down,Kryptonite,3:53,2000-04-08,81,70.0,68.0,67.0,66.0,57.0,54.0,53.0,51.0,51.0,51.0
3,2000,3 Doors Down,Loser,4:24,2000-10-21,76,76.0,72.0,69.0,67.0,65.0,55.0,59.0,62.0,61.0,61.0
4,2000,504 Boyz,Wobble Wobble,3:35,2000-04-15,57,34.0,25.0,17.0,17.0,31.0,36.0,49.0,53.0,57.0,64.0


#### 6. 
다음은 year, artist, track, time, date.entered 열을 모두 고정하고 나머지 열을 피벗한 것이다.

In [7]:
billboard_long = pd.melt(billboard, id_vars=['year', 'artist', 'track', 'time', 'date.entered'], var_name='week', value_name = 'rating')
billboard_long

Unnamed: 0,year,artist,track,time,date.entered,week,rating
0,2000,2 Pac,Baby Don't Cry (Keep...,4:22,2000-02-26,wk1,87.0
1,2000,2Ge+her,The Hardest Part Of ...,3:15,2000-09-02,wk1,91.0
2,2000,3 Doors Down,Kryptonite,3:53,2000-04-08,wk1,81.0
3,2000,3 Doors Down,Loser,4:24,2000-10-21,wk1,76.0
4,2000,504 Boyz,Wobble Wobble,3:35,2000-04-15,wk1,57.0
...,...,...,...,...,...,...,...
24087,2000,Yankee Grey,Another Nine Minutes,3:10,2000-04-29,wk76,
24088,2000,"Yearwood, Trisha",Real Live Woman,3:55,2000-04-01,wk76,
24089,2000,Ying Yang Twins,Whistle While You Tw...,4:19,2000-03-18,wk76,
24090,2000,Zombie Nation,Kernkraft 400,3:30,2000-09-02,wk76,


## 7-2 열 이름 관리하기 

### 하나의 열이 여러 의미를 가지고 있는 경우 
어떤 열은 여러가지 의미를 가지고 있을ㅇ 수 있다. 예로, ebola 데이터 집합의 열 중 하나인 Deaths_Guinea는 '사망자 수'와 '나라 이름'을 합쳐 만든 이름이다. 그러면 ebola 데이터 집합을 살펴보면서 하나의 열이 여러 가지 의미를 가지고 있다는 것이 무엇인지 구체적으로 알아보자.

### ebola 데이터 집합 살펴보기

#### 1. 다음은 ebola 데이터를 불러온 다음 0,1,2,3,10,11 열의 5개 데이터만 확인한 것이다. 

In [9]:
ebola = pd.read_csv("data/country_timeseries.csv")
print(ebola.columns)
print(ebola.iloc[:5, [0,1,2,3,10,11]])

Index(['Date', 'Day', 'Cases_Guinea', 'Cases_Liberia', 'Cases_SierraLeone',
       'Cases_Nigeria', 'Cases_Senegal', 'Cases_UnitedStates', 'Cases_Spain',
       'Cases_Mali', 'Deaths_Guinea', 'Deaths_Liberia', 'Deaths_SierraLeone',
       'Deaths_Nigeria', 'Deaths_Senegal', 'Deaths_UnitedStates',
       'Deaths_Spain', 'Deaths_Mali'],
      dtype='object')
         Date  Day  Cases_Guinea  Cases_Liberia  Deaths_Guinea  Deaths_Liberia
0    1/5/2015  289        2776.0            NaN         1786.0             NaN
1    1/4/2015  288        2775.0            NaN         1781.0             NaN
2    1/3/2015  287        2769.0         8166.0         1767.0          3496.0
3    1/2/2015  286           NaN         8157.0            NaN          3496.0
4  12/31/2014  284        2730.0         8115.0         1739.0          3471.0


#### 2. 
일단 Date와 Day를 고정하고 나머지를 행으로 피벗해보자. 그러면 각 나라별 사망자 수를 행으로 볼 수 있어 편리하다.

In [10]:
ebola_long = pd.melt(ebola, id_vars=['Date', 'Day'])
ebola_long.head()

Unnamed: 0,Date,Day,variable,value
0,1/5/2015,289,Cases_Guinea,2776.0
1,1/4/2015,288,Cases_Guinea,2775.0
2,1/3/2015,287,Cases_Guinea,2769.0
3,1/2/2015,286,Cases_Guinea,
4,12/31/2014,284,Cases_Guinea,2730.0


### split 메서드로 열 이름 분리하기 
Cases_Guinea와 같이 2개 이상의 의미를 가지고 이는 열 이름은 밑줄을 기준으로 Cases, Guinea와 같은 방법으로 분리할 수 있다. 이때 열 이름을 분리하려면 split 메서드를 사용하면 된다. split 메서드는 기본적으로 공백을 기준으로 문자열을 자른다.

### 열 이름 분리하고 데이터프레임에 추가 하기.

#### 1. 
split 메서드에 '_'를 전달하면 Caes_Guinea를 Cases, Guinea로 분리할 수 있다.

In [11]:
variable_split = ebola_long.variable.str.split("_")
print(variable_split[:5])

0    [Cases, Guinea]
1    [Cases, Guinea]
2    [Cases, Guinea]
3    [Cases, Guinea]
4    [Cases, Guinea]
Name: variable, dtype: object


#### 2. 
이때 variable_split에 저장된 값의 자료형은 시리즈이고 각각의 시리즈에 저장된 값의 자료형은 리스트이다.

In [12]:
print(type(variable_split))
print(type(variable_split[0]))


<class 'pandas.core.series.Series'>
<class 'list'>


#### 3. 
이때 과정 1에서 구한 리스트의 0번째 인덱스에 담긴 문자열을 Cases와 Deaths같은 상태를 의미하고 1번째 인덱스에 담긴 문자열은 나라 이름을 의미한다. 이제 이 문자열을 분리하여 데이터프레임의 새로운 열을 추가 하자. 다음은 get 메서드를 사용하여 0,1번째 인덱스의 데이터를 한 번에 추출한 것이다.

In [13]:
status_values = variable_split.str.get(0)
country_values = variable_split.str.get(1)

print(status_values[:5])
print(status_values[-5:])
print(country_values[:5])
print(country_values[-5:])

0    Cases
1    Cases
2    Cases
3    Cases
4    Cases
Name: variable, dtype: object
1947    Deaths
1948    Deaths
1949    Deaths
1950    Deaths
1951    Deaths
Name: variable, dtype: object
0    Guinea
1    Guinea
2    Guinea
3    Guinea
4    Guinea
Name: variable, dtype: object
1947    Mali
1948    Mali
1949    Mali
1950    Mali
1951    Mali
Name: variable, dtype: object


#### 4. 
다음은 과정 3에서 분리한 문자열을 status, counstry라는 열 이름으로 데이터프레임에 추가한 코드이다. 

In [14]:
ebola_long['status'] = status_values
ebola_long['country'] = country_values
print(ebola_long.head())

         Date  Day      variable   value status country
0    1/5/2015  289  Cases_Guinea  2776.0  Cases  Guinea
1    1/4/2015  288  Cases_Guinea  2775.0  Cases  Guinea
2    1/3/2015  287  Cases_Guinea  2769.0  Cases  Guinea
3    1/2/2015  286  Cases_Guinea     NaN  Cases  Guinea
4  12/31/2014  284  Cases_Guinea  2730.0  Cases  Guinea


### Tip
#### concat 메서드로 데이터프레임에 열 추가하기.
concat 메서드를 활용하면 split 메서드로 분리한 데이터를 바로 데이터프레임에 추가할 수도 있다. 다음은 바로 앞에서 실행한 내용을 concat 메서드로 바꿔 실행한 코드이다.

In [15]:
variable_split = ebola_long.variable.str.split("_", expand=True)
variable_split.columns = ['status', 'country']
ebola_parsed = pd.concat([ebola_long, variable_split], axis = 1)

print(ebola_parsed.head())

         Date  Day      variable   value status country status country
0    1/5/2015  289  Cases_Guinea  2776.0  Cases  Guinea  Cases  Guinea
1    1/4/2015  288  Cases_Guinea  2775.0  Cases  Guinea  Cases  Guinea
2    1/3/2015  287  Cases_Guinea  2769.0  Cases  Guinea  Cases  Guinea
3    1/2/2015  286  Cases_Guinea     NaN  Cases  Guinea  Cases  Guinea
4  12/31/2014  284  Cases_Guinea  2730.0  Cases  Guinea  Cases  Guinea


## 7-3 여러 열을 하나로 정리하기

보통 데이터프레임의 열은 파이썬 변수와 같은 개념으로 사용한다. 하지만 비슷한 성질의 데이터를 관리하기 위해 열이 여러 개로 분리되어 있는 경우도 있다. 다음 실습을 통해 여러 개로 분리된 열을 정리하는 방법에 대해 알아보자. 

### 기상 데이터의 여러 열을 하라로 정리하기 - melt, pivot_table 메서드

#### 1. 
다음은 기상 데이터를 불러와 출력한 것이다. 날짜 열에는 각 월별 최고, 최저 온도 데이터가 저장되어 있다. 지금은 날짜 열이 옆으로 길게 늘어져 있어 보기 불편하기 때문에 이를 피벗해보자.

In [16]:
weather = pd.read_csv("data/weather.csv")
weather.iloc[:5, :]

Unnamed: 0,id,year,month,element,d1,d2,d3,d4,d5,d6,...,d22,d23,d24,d25,d26,d27,d28,d29,d30,d31
0,MX17004,2010,1,tmax,,,,,,,...,,,,,,,,,27.8,
1,MX17004,2010,1,tmin,,,,,,,...,,,,,,,,,14.5,
2,MX17004,2010,2,tmax,,27.3,24.1,,,,...,,29.9,,,,,,,,
3,MX17004,2010,2,tmin,,14.4,14.4,,,,...,,10.7,,,,,,,,
4,MX17004,2010,3,tmax,,,,,32.1,,...,,,,,,,,,,


#### 2. 
다음은 melt 메서드로 일별 온도 측정값을 피벗한 것이다. 그러면 day 열에 날짜 열이 정리되고 날짜 열의 데이터는 temp 열에 정리 된다. 하지만 아직 최고, 최저 온도가 한눈에 들어오지 않는다.

In [18]:
weater_melt = pd.melt(weather, id_vars=['id', 'year', 'month', 'element'], var_name = 'day', value_name='temp')
print(weater_melt.head())

        id  year  month element day  temp
0  MX17004  2010      1    tmax  d1   NaN
1  MX17004  2010      1    tmin  d1   NaN
2  MX17004  2010      2    tmax  d1   NaN
3  MX17004  2010      2    tmin  d1   NaN
4  MX17004  2010      3    tmax  d1   NaN


#### 3. 
이제 pivot_table 메서드를 사용하자. 