# Part 02. 데이터 전처리

R에서 데이터 전처리에 사용하는 패키지인 plyr, dplyr, reshape2, data.table에 대해 학습하는 장입니다.

파이썬에서 유사한 기능을 구현하기 위해 다른 패키지들을 사용합니다.

<br>

-----------------

## 4장. 패키지를 활용한 데이터 전처리

<p style='color:#726a77; text-align:right'>홍준호 작성</p>

### 3절 . reshape2

- R에서 reshape2는 reshpe를 개선한 것으로 melt와 cast라는 핵심 함수가 있다. 
- python에서 melt를 사용하기 위해서는 <b>pandas</b> 패키지를 사용
- python에서 cast 대신 <b>pivot_table()</b>를 사용 

<b>pd.melt()</b> : 배열을 입력받아 함수를 적용한 후 데이터프레임으로 반환<br>
<b>pivot_table()</b> : 데이터 프레임을 입력받아 함수를 적용한 후 데이터프레임으로 반환


- 함수 사용법 : pd.melt(data,id_vars,var_name,value_name)
- https://rfriend.tistory.com/278



<b>[예제]</b> R의 airquality는 1973년 5~9월 동안 뉴욕의 일일 대기 질 측정량에 대한 데이터로, 153개의 행과 6개의 변수로 \
이루어져 있다. 6개의 변수 중 Month(월)과 Day(일)을 식별자로 두고, 나머지 변수와 변수 값은 모두 데이터 내에 포함되는 형태로 변환해보자. 



In [1]:
# 여기서는 R의 샘플 데이터를 편하게 받아오기 위해 rpy2 패키지의 함수를 사용함
from rpy2.robjects import r, pandas2ri
pandas2ri.activate()  # rpy2의 pandas 변환을 활성화 -->  R에서 pandas 개체로의 변환이 자동으로 수행됨
r.data('airquality')        # r의 샘플데이터를 불러옴
airquality = r['airquality']

In [2]:
airquality

Unnamed: 0,Ozone,Solar.R,Wind,Temp,Month,Day
1,41,190,7.4,67,5,1
2,36,118,8.0,72,5,2
3,12,149,12.6,74,5,3
4,18,313,11.5,62,5,4
5,-2147483648,-2147483648,14.3,56,5,5
...,...,...,...,...,...,...
149,30,193,6.9,70,9,26
150,-2147483648,145,13.2,77,9,27
151,14,191,14.3,75,9,28
152,18,131,8.0,76,9,29


In [4]:
import pandas as pd 
import numpy as np 

In [6]:
pd.melt(airquality,id_vars=['Month','Day'])

Unnamed: 0,Month,Day,variable,value
0,5,1,Ozone,4.100000e+01
1,5,2,Ozone,3.600000e+01
2,5,3,Ozone,1.200000e+01
3,5,4,Ozone,1.800000e+01
4,5,5,Ozone,-2.147484e+09
...,...,...,...,...
607,9,26,Temp,7.000000e+01
608,9,27,Temp,7.700000e+01
609,9,28,Temp,7.500000e+01
610,9,29,Temp,7.600000e+01


------------------------------------------------------------------------------------------------------------


<b>[예제2]</b> melt 함수에 대한 예제에서 airquality에 melt를 적용한 데이터를 air_melt에 저장하고, \
이 데이터를 다시 원래 airquality와 동일한 형태로 변환해보자. 


* 파이썬에서는 R의 dcast 함수가 없고 재정의 하는 pivot함수를 사용하면 재정리 가능 

In [41]:
air_melt = pd.melt(airquality,id_vars=['Month','Day'])

In [43]:
table1 = pd.pivot_table(air_melt,index=['Month','Day'], columns = 'variable')
table1.reset_index()

Unnamed: 0_level_0,Month,Day,value,value,value,value
variable,Unnamed: 1_level_1,Unnamed: 2_level_1,Ozone,Solar.R,Temp,Wind
0,5,1,4.100000e+01,1.900000e+02,67.0,7.4
1,5,2,3.600000e+01,1.180000e+02,72.0,8.0
2,5,3,1.200000e+01,1.490000e+02,74.0,12.6
3,5,4,1.800000e+01,3.130000e+02,62.0,11.5
4,5,5,-2.147484e+09,-2.147484e+09,56.0,14.3
...,...,...,...,...,...,...
148,9,26,3.000000e+01,1.930000e+02,70.0,6.9
149,9,27,-2.147484e+09,1.450000e+02,77.0,13.2
150,9,28,1.400000e+01,1.910000e+02,75.0,14.3
151,9,29,1.800000e+01,1.310000e+02,76.0,8.0


------------------------------------------------------------------------------------------------------------


<b>[예제3]</b> 위 예제에서 생성한 air_melt데이터에서 Month와 Day를 기준으로 나머지 변수들의 평균값을 구해보자 


In [50]:
pd.pivot_table(air_melt,index= ['Month','Day'], columns = 'variable', aggfunc='mean').reset_index()

Unnamed: 0_level_0,Month,Day,value,value,value,value
variable,Unnamed: 1_level_1,Unnamed: 2_level_1,Ozone,Solar.R,Temp,Wind
0,5,1,4.100000e+01,1.900000e+02,67.0,7.4
1,5,2,3.600000e+01,1.180000e+02,72.0,8.0
2,5,3,1.200000e+01,1.490000e+02,74.0,12.6
3,5,4,1.800000e+01,3.130000e+02,62.0,11.5
4,5,5,-2.147484e+09,-2.147484e+09,56.0,14.3
...,...,...,...,...,...,...
148,9,26,3.000000e+01,1.930000e+02,70.0,6.9
149,9,27,-2.147484e+09,1.450000e+02,77.0,13.2
150,9,28,1.400000e+01,1.910000e+02,75.0,14.3
151,9,29,1.800000e+01,1.310000e+02,76.0,8.0



### 4절 data.table 

- R에서 data.table 패키지는 연산속도가 매우 빨라 크기가 큰 데이터를 처리하거나 탐색하는데 유용하며, 그만큼 자주 사용하는 패키지이다. 데이터 테이블은 데이터 프레임과 동일하게 취급되므로 데이터 프레임에 적용할 수 있는 함수들을 데이터 테이블에 적용할 수도 있다. 

- 데이터 테이블 클래스는 데이터 테이블을 포함하고 있으므로 데이터 테이블은 데이터 프레임으로 변환해서 사용ㅇ이 가능하다. 
- 데이터 테이블은 데이터 프레임을 생성하는 것과 비슷한 문법으로 만들어낼 수 있으며, 관련함수들은 아래와 같다. 


<b>datatable_df = dt.fread("~.csv")</b> : read_csv보다 훨씬 빠름 , 대용량의 데이터를 가져올 때 좋다 (100G까지) 
<b>pandas_df= datatable.to_pandas()</b> : 판다스로 변환하여 사용 가능 

* Pandas에서는 통계량 값을 뽑을 때 메모리를 소모하지만, data.table은 그렇지 않음 
- 큰 데이터에서 기초 통계량 작업을 하다가 메모리 초과현상이 많이 나타나 data.table이 유용하다고 함 




In [67]:
##!pip3 install datatable

import datatable as dt



In [68]:
%%time
datatable_df = dt.fread("Fruits.csv")

print(type(datatable_df))



<class 'datatable.Frame'>
Wall time: 1.53 ms


In [69]:
%%time
pandas_df= pd.read_csv("Fruits.csv")
print(type(pandas_df))

<class 'pandas.core.frame.DataFrame'>
Wall time: 4 ms


In [70]:
%%time
datatable_pandas = datatable_df.to_pandas()

Wall time: 2 ms


* 파일을 데이터 테이블 프레임으로 읽은 다음 pandas 데이터 프레임으로 변환하는 것은 pandas 데이터 프레임을 읽는 것보다 시간이 덜 걸립니다. 따라서 데이터 테이블을 통해 대용량 데이터 파일을 가져온 다음 pandas 데이터 프레임으로 변환하는 것이 좋습니다.

* https://towardsdatascience.com/an-overview-of-pythons-datatable-package-5d3a97394ee9

In [71]:
datatable_df

Unnamed: 0_level_0,Fruit,Year,Location,Sales,Expenses,Profit,Date
Unnamed: 0_level_1,▪▪▪▪,▪▪▪▪,▪▪▪▪,▪▪▪▪,▪▪▪▪,▪▪▪▪,▪▪▪▪
0,Apples,2008,West,98,78,20,2008-12-31
1,Apples,2009,West,111,79,32,2009-12-31
2,Apples,2010,West,89,76,13,2010-12-31
3,Oranges,2008,East,96,81,15,2008-12-31
4,Bananas,2008,East,85,76,9,2008-12-31
5,Oranges,2009,East,93,80,13,2009-12-31
6,Bananas,2009,East,94,78,16,2009-12-31
7,Oranges,2010,East,98,91,7,2010-12-31
8,Bananas,2010,East,81,71,10,2010-12-31


AttributeError: 'datatable.Frame' object has no attribute 'groupby'

In [76]:
datatable_df.mean()

Unnamed: 0_level_0,Fruit,Year,Location,Sales,Expenses,Profit,Date
Unnamed: 0_level_1,▪▪▪▪▪▪▪▪,▪▪▪▪▪▪▪▪,▪▪▪▪▪▪▪▪,▪▪▪▪▪▪▪▪,▪▪▪▪▪▪▪▪,▪▪▪▪▪▪▪▪,▪▪▪▪▪▪▪▪
0,,2009,,93.8889,78.8889,15,


In [78]:
## True False로 만들면 바로 뽑을 수도 있음.

datatable_df[datatable_df[:,"Expenses"].to_numpy()>70,["Fruit","Sales"]]

Unnamed: 0_level_0,Fruit,Sales
Unnamed: 0_level_1,▪▪▪▪,▪▪▪▪
0,Apples,98
1,Apples,111
2,Apples,89
3,Oranges,96
4,Bananas,85
5,Oranges,93
6,Bananas,94
7,Oranges,98
8,Bananas,81


In [79]:
datatable_df.groupby("Fruit").mean()

##오류가 난다. datatable 연산에 대해 알아야함 

AttributeError: 'datatable.Frame' object has no attribute 'groupby'

In [84]:
a = datatable_df[:,dt.mean(dt.f.Expenses),dt.by(dt.f.Fruit)]

##위에 보면 f라는 게 있는데 이것은 frame proxy라고 하고, Frame 연산할 때 쓰는 것 같습니다.


In [85]:
a

Unnamed: 0_level_0,Fruit,Expenses
Unnamed: 0_level_1,▪▪▪▪,▪▪▪▪▪▪▪▪
0,Apples,77.6667
1,Bananas,75.0
2,Oranges,84.0



* 일단 이렇게 data.table에서 소개를 했는데,  실제 기능은 아직 Pandas 보다 떨어진다고 합니다. 하지만 현재 계속 개발 중이고, 원래 R을 쓰시다가 Python으로 넘어올 때, 급하게 빅데이터를 처리할 때 유용할 것 같습니다!