## 1. 열과 피벗

- 데이터프레임의 열 자체가 어떤값을 의미할때가 있다.
  그러다 보니 데이터프레임의 열이 옆으로 길게 늘어선 형태가 된다. 이런 데이터를 넓은 데이터라 한다. 
- 판다스는 데이터프레임을 깔끔한 데이터로 정리하는데 유용한 melt 메서드를 제공한다.

※ 피벗이란 회전하는 물체의 균형을 잡아 주는 중심점이라는 뜻이다.

※ 피벗 했다는 것은 여러 데이터 중에서 자신이 원하는 데이터만을 가지고 원하는
   행과 열에 데이터를 배치하여 새로운 데이터 집합을 만드는 것이다.

### melt 메서드 사용하기

1개의 열만 고정하고 나머지 열을 행으로 바꾸기.

퓨 리서치 센터(pew Research Center)에서 조사한 '미국의 소득과 종교' 라는 데이터를 사용한다. 

11개 열이 있는 데이터프레임이다. 소득정보가 열을 구성하고 있다.

In [1]:
import pandas as pd
pew = pd.read_csv('../data2/pew.csv')
print(type(pew))
pew.head()

<class 'pandas.core.frame.DataFrame'>


Unnamed: 0,religion,<$10k,$10-20k,$20-30k,$30-40k,$40-50k,$50-75k,$75-100k,$100-150k,>150k,Don't know/refused
0,Agnostic,27,34,60,81,76,137,122,109,84,96
1,Atheist,12,27,37,52,35,70,73,59,74,76
2,Buddhist,27,21,30,34,33,58,62,39,53,54
3,Catholic,418,617,732,670,638,1116,949,792,633,1489
4,Don’t know/refused,15,14,15,11,10,35,21,17,18,116


In [32]:
# 모든행과 0-5열까지 데이터 가져오기
pew.iloc[ :, 0:6] #iloc을 사용하려면 인덱스 번호를 입력

Unnamed: 0,religion,<$10k,$10-20k,$20-30k,$30-40k,$40-50k
0,Agnostic,27,34,60,81,76
1,Atheist,12,27,37,52,35
2,Buddhist,27,21,30,34,33
3,Catholic,418,617,732,670,638
4,Don’t know/refused,15,14,15,11,10
5,Evangelical Prot,575,869,1064,982,881
6,Hindu,1,9,7,9,11
7,Historically Black Prot,228,244,236,238,197
8,Jehovah's Witness,20,27,24,24,21
9,Jewish,19,19,25,25,30


In [2]:
# 모든행과 0-5열까지 데이터 가져오기
pew.loc[ :, 'religion':'$40-50k'] #loc을 사용하려면 열 이름을 입력

Unnamed: 0,religion,<$10k,$10-20k,$20-30k,$30-40k,$40-50k
0,Agnostic,27,34,60,81,76
1,Atheist,12,27,37,52,35
2,Buddhist,27,21,30,34,33
3,Catholic,418,617,732,670,638
4,Don’t know/refused,15,14,15,11,10
5,Evangelical Prot,575,869,1064,982,881
6,Hindu,1,9,7,9,11
7,Historically Black Prot,228,244,236,238,197
8,Jehovah's Witness,20,27,24,24,21
9,Jewish,19,19,25,25,30


#### id_vars 속성

- 소득정보 열들을 행 데이터로 옮긴다 id_vars = 'religion'으로 지정한다.

  religion만 제외한 나머진 소득정보 열들이  variable 열로 정리되고 소득 정보의 행데이터가 value열로 정리되었다.
  
  
- 이것을 ' religion 열을 고정하여 피벗했다 ' 라고 말한다.

In [5]:
#id_vars로 하나의 고정할 열 이름 지정, 나머지는 variable, value열로 재배치
pew_long = pd.melt(pew, id_vars = 'religion')
pew_long

Unnamed: 0,religion,variable,value
0,Agnostic,<$10k,27
1,Atheist,<$10k,12
2,Buddhist,<$10k,27
3,Catholic,<$10k,418
4,Don’t know/refused,<$10k,15
...,...,...,...
175,Orthodox,Don't know/refused,73
176,Other Christian,Don't know/refused,18
177,Other Faiths,Don't know/refused,71
178,Other World Religions,Don't know/refused,8


**variable, value** 열은 피벗하면서 자동으로 생긴 이름이다. 

원하는 이름으로 바꾸려면 **var_name= 'income', value_name= 'count'** 로  인자값을 추가 설정하면 된다.

In [36]:
pew_long = pd.melt(pew, id_vars='religion', var_name='income', value_name='count')
pew_long.head()

Unnamed: 0,religion,income,count
0,Agnostic,<$10k,27
1,Atheist,<$10k,12
2,Buddhist,<$10k,27
3,Catholic,<$10k,418
4,Don’t know/refused,<$10k,15


#### 2개 이상의 열을 고정하고 나머지 열을 행으로 바꾸기

빌보드 차트 데이터를 사용하여 실습한다.

In [6]:
billboard_wide = pd.read_csv('../data2/billboard.csv')
billboard_wide.iloc[0:5, 0:16]

Unnamed: 0,year,artist,track,time,date.entered,wk1,wk2,wk3,wk4,wk5,wk6,wk7,wk8,wk9,wk10,wk11
0,2000,2 Pac,Baby Don't Cry (Keep...,4:22,2000-02-26,87,82.0,72.0,77.0,87.0,94.0,99.0,,,,
1,2000,2Ge+her,The Hardest Part Of ...,3:15,2000-09-02,91,87.0,92.0,,,,,,,,
2,2000,3 Doors Down,Kryptonite,3:53,2000-04-08,81,70.0,68.0,67.0,66.0,57.0,54.0,53.0,51.0,51.0,51.0
3,2000,3 Doors Down,Loser,4:24,2000-10-21,76,76.0,72.0,69.0,67.0,65.0,55.0,59.0,62.0,61.0,61.0
4,2000,504 Boyz,Wobble Wobble,3:35,2000-04-15,57,34.0,25.0,17.0,17.0,31.0,36.0,49.0,53.0,57.0,64.0


In [7]:
billboard_wide.shape

(317, 81)

id_vars 속성에 year, artist, track, time, date.entered 열을 지정해서 이 5개의 열을 고정하고, 나머지 열(wk1,wk2......)을 피벗한다.

In [37]:
billboard_long = pd.melt(billboard, id_vars=['year','artist','track','time','date.entered'],
                        var_name='week', value_name='rating')
billboard_long .head()
#새로 생성된 week열에는 wk1, wk2, wk3, ... wk76 값들이 들어가고
#새로 생성된 rating열에는 각 year, artist, track, time, date.entered, week에 해당하는 rating값이 들어간다

Unnamed: 0,year,artist,track,time,date.entered,week,rating
0,2000,2 Pac,Baby Don't Cry (Keep...,4:22,2000-02-26,wk1,87.0
1,2000,2Ge+her,The Hardest Part Of ...,3:15,2000-09-02,wk1,91.0
2,2000,3 Doors Down,Kryptonite,3:53,2000-04-08,wk1,81.0
3,2000,3 Doors Down,Loser,4:24,2000-10-21,wk1,76.0
4,2000,504 Boyz,Wobble Wobble,3:35,2000-04-15,wk1,57.0


In [38]:
billboard_long.iloc[0:500, :].head() #500개의 행을 뽑아오자.

Unnamed: 0,year,artist,track,time,date.entered,week,rating
0,2000,2 Pac,Baby Don't Cry (Keep...,4:22,2000-02-26,wk1,87.0
1,2000,2Ge+her,The Hardest Part Of ...,3:15,2000-09-02,wk1,91.0
2,2000,3 Doors Down,Kryptonite,3:53,2000-04-08,wk1,81.0
3,2000,3 Doors Down,Loser,4:24,2000-10-21,wk1,76.0
4,2000,504 Boyz,Wobble Wobble,3:35,2000-04-15,wk1,57.0


### pivot_table 메서드 사용하기

 - pivot_table이란 기존 데이터의 칼럼을 재구성해서 데이터에 대한 통계를 한눈에
   파악할 수 있게 정리한 표의 형태이다.

In [12]:
# 지난수업에서 merge를 연습하면서 sample.xlsx파일을 저장했는데 이번 실습을 위해 다시 읽어온다.
sample = pd.read_excel('../data2/sample.xlsx')
sample

Unnamed: 0,국적코드,성별,입국객수,국적명,기준년월
0,A01,남성,106320,일본,2019-11
1,A01,여성,191436,일본,2019-11
2,A18,남성,158912,중국,2019-11
3,A18,여성,232943,중국,2019-11
4,A01,남성,92556,일본,2019-12
5,A01,여성,163737,일본,2019-12
6,A18,남성,155540,중국,2019-12
7,A18,여성,249023,중국,2019-12


 - 국적과 기준월에 따른 입국객수의 평균값을 추출한다.
 
 - **pivot_table 메서드**의 인자값:
 
     - **values** -> 피벗테이블의 내부에 들어갈 값 설정
     - **index** -> 피벗테이블의 행으로 배치할 값 설정. index로 지정된 열의 unique값으로 데이터가 정리된다.
     - **columns** -> 피벗테이블의 열로 배치할 값 설정(index로 구분 후, 더 세분화된 구분을 위해 열 지정)
     - **aggfunc** -> 셀에 보여줄 values 값을 어떤 통계/연산 값으로 보여줄것인지(index와 column기준의 통계값)
   
참고: aggfunc의 값으로 mean(평균), sum(합계), min(최솟값), median(중앙값),max(최댓값),count(개수) nunique(중복을 제거한 후 개수,원소개수) 등을 사용한다.

In [19]:
sample_pivot = sample.pivot_table(values='입국객수', #셀에 보여줄 값
                                 index='국적명',     #행으로 배치(고정 열, 이 열을 중심으로 pivot)
                                 columns='기준년월', #열로 배치
                                 aggfunc='mean')     #values값을 index와 columns기준으로 평균값을 계산한다.
sample_pivot

기준년월,2019-11,2019-12
국적명,Unnamed: 1_level_1,Unnamed: 2_level_1
일본,148878.0,128146.5
중국,195927.5,202281.5


index, column는 둘다 항상 있어야 하는 것이 아니다. 필요에 의해 index만 배치할 수도 있다.

In [20]:
#국적에 따른 년도별 입국객수를 구분하지않고
#그냥 국적별 입국객 수를 알아본다. (aggfunc이 max이기때문에 최대 입국객수)
sample_pivot_2 = sample.pivot_table(values='입국객수',
                                   index='국적명',
                                   aggfunc='max')
sample_pivot_2

Unnamed: 0_level_0,입국객수
국적명,Unnamed: 1_level_1
일본,191436
중국,249023


### melt , pivot_table 메서드 함께 사용하기

- 기상 데이터의 날짜열(d1,...d31)에 월별 최고, 최저 온도 데이터가 저장되어 있다.
- 날짜 열이 옆으로 길게 늘어져 있어 보기 불편하다.
- **melt 메서드로** 일별 온도(d1,d2,...)를 피벗하여 day열에 날짜 열이 정리되고
  날짜 열의 데이터는 temp열에 정리된다.

In [24]:
weather = pd.read_csv('../data2/weather.csv')
print(weather.shape)
weather.iloc[:10, :11]

(22, 35)


Unnamed: 0,id,year,month,element,d1,d2,d3,d4,d5,d6,d7
0,MX17004,2010,1,tmax,,,,,,,
1,MX17004,2010,1,tmin,,,,,,,
2,MX17004,2010,2,tmax,,27.3,24.1,,,,
3,MX17004,2010,2,tmin,,14.4,14.4,,,,
4,MX17004,2010,3,tmax,,,,,32.1,,
5,MX17004,2010,3,tmin,,,,,14.2,,
6,MX17004,2010,4,tmax,,,,,,,
7,MX17004,2010,4,tmin,,,,,,,
8,MX17004,2010,5,tmax,,,,,,,
9,MX17004,2010,5,tmin,,,,,,,


In [39]:
weather_melt = pd.melt(weather,
                      id_vars=['id','year','month','element'],
                      var_name='day',
                      value_name='temp')
weather_melt.head()

Unnamed: 0,id,year,month,element,day,temp
0,MX17004,2010,1,tmax,d1,
1,MX17004,2010,1,tmin,d1,
2,MX17004,2010,2,tmax,d1,
3,MX17004,2010,2,tmin,d1,
4,MX17004,2010,3,tmax,d1,


- 월별 최고,최저 온도를 한눈에 보여주기 위해 pivot_table 메서드를 사용한다.
- **pivot_table 메소드는** 행과 열의 위치를 다시 바꿔 정리를 해준다.
    - index 인자는 위치를 유지할 열 이름
    - columns 인자는 피벗해서 새로 생성할 column 이름이 될 값들(tmax, tmin)이 담긴 열이름('element')
    - values 인자는 새로운 column의 데이터가 될 이름
    
columns로 tmax, tmin이 담긴 element열을 지정해서 index(=id, year, month, day)별 tmax, tmin 값을 각각의 tmax, tmin 열에서 바로 확인 할 수 있다.

In [20]:
weather_tidy = weather_melt.pivot_table(index=['id','year','month','day'],
                                       columns='element',
                                       values='temp')
weather_tidy

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,element,tmax,tmin
id,year,month,day,Unnamed: 4_level_1,Unnamed: 5_level_1
MX17004,2010,1,d30,27.8,14.5
MX17004,2010,2,d11,29.7,13.4
MX17004,2010,2,d2,27.3,14.4
MX17004,2010,2,d23,29.9,10.7
MX17004,2010,2,d3,24.1,14.4
MX17004,2010,3,d10,34.5,16.8
MX17004,2010,3,d16,31.1,17.6
MX17004,2010,3,d5,32.1,14.2
MX17004,2010,4,d27,36.3,16.7
MX17004,2010,5,d27,33.2,18.2


**reset_index()**

위에서 구한 데이터에 reset_index 메서드로 인덱스를 새로 지정한다

In [21]:
weather_tidy_flat = weather_tidy.reset_index()
weather_tidy_flat

element,id,year,month,day,tmax,tmin
0,MX17004,2010,1,d30,27.8,14.5
1,MX17004,2010,2,d11,29.7,13.4
2,MX17004,2010,2,d2,27.3,14.4
3,MX17004,2010,2,d23,29.9,10.7
4,MX17004,2010,2,d3,24.1,14.4
5,MX17004,2010,3,d10,34.5,16.8
6,MX17004,2010,3,d16,31.1,17.6
7,MX17004,2010,3,d5,32.1,14.2
8,MX17004,2010,4,d27,36.3,16.7
9,MX17004,2010,5,d27,33.2,18.2


## 2. 중복데이터 처리

- 빌보드 차트 데이터는 artist, track, time, date.entered 열의 데이터가 중복된다.
- 일관성 유지가 필요한 가수(artist)는 고유한 값으로 따로 관리하는것이 좋다.
- 분석중간에 반복되는 artist 이름이 변경되면 분석내용이 잘못될 수 있다.

In [40]:
billboard = pd.read_csv('../data2/billboard.csv')
billboard_long = pd.melt(billboard,
                        id_vars=['year','artist','track','time','date.entered'],
                        var_name='week',
                        value_name='rating')

print(billboard_long.shape)

billboard_long.head()

(24092, 7)


Unnamed: 0,year,artist,track,time,date.entered,week,rating
0,2000,2 Pac,Baby Don't Cry (Keep...,4:22,2000-02-26,wk1,87.0
1,2000,2Ge+her,The Hardest Part Of ...,3:15,2000-09-02,wk1,91.0
2,2000,3 Doors Down,Kryptonite,3:53,2000-04-08,wk1,81.0
3,2000,3 Doors Down,Loser,4:24,2000-10-21,wk1,76.0
4,2000,504 Boyz,Wobble Wobble,3:35,2000-04-15,wk1,57.0


In [23]:
billboard_long[billboard_long.track == 'Loser'].head() #boolean추출

Unnamed: 0,year,artist,track,time,date.entered,week,rating
3,2000,3 Doors Down,Loser,4:24,2000-10-21,wk1,76.0
320,2000,3 Doors Down,Loser,4:24,2000-10-21,wk2,76.0
637,2000,3 Doors Down,Loser,4:24,2000-10-21,wk3,72.0
954,2000,3 Doors Down,Loser,4:24,2000-10-21,wk4,69.0
1271,2000,3 Doors Down,Loser,4:24,2000-10-21,wk5,67.0


#### drop_duplications 메서드

중복 데이터를 가지고 있는 열은 따로 모아 새로운 데이터프레임에 저장하고,
drop_duplications 메서드로 데이터프레임의 중목 데이터를 제거한다.

In [31]:
billboard_songs = billboard_long[['year','artist','track','time']]
billboard_songs.shape #중복데이터만 가지고있는 dataframe

(24092, 4)

In [32]:
billboard_songs = billboard_songs.drop_duplicates()
billboard_songs.shape #중복 제거 후, 24092행 --> 317행 갯수로 줄어듬!

(317, 4)

In [41]:
billboard_songs.head()

Unnamed: 0,year,artist,track,time,id
0,2000,2 Pac,Baby Don't Cry (Keep...,4:22,0
1,2000,2Ge+her,The Hardest Part Of ...,3:15,1
2,2000,3 Doors Down,Kryptonite,3:53,2
3,2000,3 Doors Down,Loser,4:24,3
4,2000,504 Boyz,Wobble Wobble,3:35,4


중복제거한 데이터프레임에 아이디(id) 열을 추가한다.

In [42]:
billboard_songs['id'] = range(len(billboard_songs))
billboard_songs.head()

Unnamed: 0,year,artist,track,time,id
0,2000,2 Pac,Baby Don't Cry (Keep...,4:22,0
1,2000,2Ge+her,The Hardest Part Of ...,3:15,1
2,2000,3 Doors Down,Kryptonite,3:53,2
3,2000,3 Doors Down,Loser,4:24,3
4,2000,504 Boyz,Wobble Wobble,3:35,4


merge 메서드로 주간 순위(billboard_long) dataframe에 노래정보(billboard_songs) dataframe을 합친다.

같은 노래에 대한 주별 차트 진입에 대한 데이터를 좀더 깔끔하고 보기 좋게 확인할 수 있다.

In [43]:
billboard_ratings = billboard_long.merge(
        billboard_songs,
        on = ['year','artist','track','time'])

billboard_ratings.head()

Unnamed: 0,year,artist,track,time,date.entered,week,rating,id
0,2000,2 Pac,Baby Don't Cry (Keep...,4:22,2000-02-26,wk1,87.0,0
1,2000,2 Pac,Baby Don't Cry (Keep...,4:22,2000-02-26,wk2,82.0,0
2,2000,2 Pac,Baby Don't Cry (Keep...,4:22,2000-02-26,wk3,72.0,0
3,2000,2 Pac,Baby Don't Cry (Keep...,4:22,2000-02-26,wk4,77.0,0
4,2000,2 Pac,Baby Don't Cry (Keep...,4:22,2000-02-26,wk5,87.0,0
