# 와이드포맷을 롱포맷으로 변경(피벗팅)하기

## 데이터셋 준비

In [1]:
import pandas as pd

# 미국 퓨 리서치 센터(Pew Research Center)에서 조사한 미국의 소득과 종교 관련 데이터셋
pew = pd.read_csv('./data/pew.csv')
pew.head()

# - 데이터프레임 구조가 전형적인 와이드(wide), 컬럼와이즈(column-wise), 숏포맷(short) 포맷임

Unnamed: 0,religion,<$10k,$10-20k,$20-30k,$30-40k,$40-50k,$50-75k,$75-100k,$100-150k,>150k,Don't know/refused
0,Agnostic,27,34,60,81,76,137,122,109,84,96
1,Atheist,12,27,37,52,35,70,73,59,74,76
2,Buddhist,27,21,30,34,33,58,62,39,53,54
3,Catholic,418,617,732,670,638,1116,949,792,633,1489
4,Don’t know/refused,15,14,15,11,10,35,21,17,18,116


## 와이드포맷에서 롱포맷으로 피벗팅

In [2]:
# .melt() 함수사용 와이드포맷에서 롱포맷으로 변경
# - 피벗팅 기준/고정 변수컬럼만 지정
# - 원래 와이드로 나열되어 있다가 롱포맷으로 쌓이는 
#   변수컬럼들을 비롯해, 실제 요소값들을 지칭하는 변수컬럼명은
#   디폴트로 부여되는 variable과 value를 사용함

pew_long = pd.melt(pew, id_vars = 'religion')
pew_long

# - id_vars: 와이드포맷에서 롱포맷으로 데이터프레임을 피벗핑할 때
#            변환에 상관없이 그대로 유지해야하는 기준/고정 변수컬럼
# - variable: 와이드포맷에서 가로방향으로 나열되어 있던 
#             변수컬럼들의 컬럼명칭( <$10k ~ Don't know/refused)이 
#             세로방향으로 길게 쌓이게 됨
# - value: 와이드포맷에서 가로방향으로 나열되어 있던 
#          변수컬럼들의 실제 요소값들이 
#          세로방향으로 길게 쌓이게 됨

Unnamed: 0,religion,variable,value
0,Agnostic,<$10k,27
1,Atheist,<$10k,12
2,Buddhist,<$10k,27
3,Catholic,<$10k,418
4,Don’t know/refused,<$10k,15
5,Evangelical Prot,<$10k,575
6,Hindu,<$10k,1
7,Historically Black Prot,<$10k,228
8,Jehovah's Witness,<$10k,20
9,Jewish,<$10k,19


In [3]:
# .melt() 함수사용 와이드포맷에서 롱포맷으로 변경
# - 피벗팅 기준/고정 변수컬럼을 지정함
# - 원래 와이드로 나열되어 있다가 롱포맷으로 쌓이는 
#   변수컬럼들을 비롯해, 실제 요소값들을 지칭하는 변수컬럼명도
#   디폴트로 부여되는 variable과 value를 대신에 별도로 지정함

pew_long = pd.melt(pew, id_vars = 'religion', 
                   var_name = 'income', 
                   value_name = 'count')
pew_long

# - id_vars: 와이드포맷에서 롱포맷으로 데이터프레임을 피벗핑할 때
#            변환에 상관없이 그대로 유지해야하는 기준/고정 변수컬럼
# - variable: 와이드포맷에서 가로방향으로 나열되어 있던 
#             변수컬럼들의 컬럼명칭( <$10k ~ Don't know/refused)이 
#             세로방향으로 길게 쌓이게 됨
# - value: 와이드포맷에서 가로방향으로 나열되어 있던 
#          변수컬럼들의 실제 요소값들이 
#          세로방향으로 길게 쌓이게 됨

Unnamed: 0,religion,income,count
0,Agnostic,<$10k,27
1,Atheist,<$10k,12
2,Buddhist,<$10k,27
3,Catholic,<$10k,418
4,Don’t know/refused,<$10k,15
5,Evangelical Prot,<$10k,575
6,Hindu,<$10k,1
7,Historically Black Prot,<$10k,228
8,Jehovah's Witness,<$10k,20
9,Jewish,<$10k,19


## billboard 데이터셋을 와이드에서 롱포맷으로 변환

### 복수의 변수컬럼을 피벗팅 기준/고정 변수컬럼으로 고정하고, 나머지 나열된 열들을 세로방향 행으로 바꾸기

In [4]:
billboard = pd.read_csv('./data/billboard.csv')
billboard

Unnamed: 0,year,artist,track,time,date.entered,wk1,wk2,wk3,wk4,wk5,...,wk67,wk68,wk69,wk70,wk71,wk72,wk73,wk74,wk75,wk76
0,2000,2 Pac,Baby Don't Cry (Keep...,4:22,2000-02-26,87,82.0,72.0,77.0,87.0,...,,,,,,,,,,
1,2000,2Ge+her,The Hardest Part Of ...,3:15,2000-09-02,91,87.0,92.0,,,...,,,,,,,,,,
2,2000,3 Doors Down,Kryptonite,3:53,2000-04-08,81,70.0,68.0,67.0,66.0,...,,,,,,,,,,
3,2000,3 Doors Down,Loser,4:24,2000-10-21,76,76.0,72.0,69.0,67.0,...,,,,,,,,,,
4,2000,504 Boyz,Wobble Wobble,3:35,2000-04-15,57,34.0,25.0,17.0,17.0,...,,,,,,,,,,
5,2000,98^0,Give Me Just One Nig...,3:24,2000-08-19,51,39.0,34.0,26.0,26.0,...,,,,,,,,,,
6,2000,A*Teens,Dancing Queen,3:44,2000-07-08,97,97.0,96.0,95.0,100.0,...,,,,,,,,,,
7,2000,Aaliyah,I Don't Wanna,4:15,2000-01-29,84,62.0,51.0,41.0,38.0,...,,,,,,,,,,
8,2000,Aaliyah,Try Again,4:03,2000-03-18,59,53.0,38.0,28.0,21.0,...,,,,,,,,,,
9,2000,"Adams, Yolanda",Open My Heart,5:30,2000-08-26,76,76.0,74.0,69.0,68.0,...,,,,,,,,,,


In [5]:
billboard_long = pd.melt(billboard, 
                         id_vars = ['year', 'artist', 'track', 
                                    'time', 'date.entered'], 
                         var_name = 'week', 
                         value_name = 'rating')
# - id_vars: 와이드포맷에서 롱포맷으로 데이터프레임을 피벗핑할 때
#            변환에 상관없이 그대로 유지해야하는 기준/고정 변수컬럼들
# - variable: 와이드포맷에서 가로방향으로 나열되어 있던 
#             변수컬럼들의 컬럼명칭(wk1 ~ wk76)이 세로방향으로 길게 쌓이게 되며, 
#             이를 대표하는 변수컬럼명으로 week를 설정함
# - value: 와이드포맷에서 가로방향으로 나열되어 있던 
#          변수컬럼들의 실제 요소값들이 세로방향으로 길게 쌓이게 되며, 
#          이를 대표하는 변수컬럼명으로 rating을 설정함

billboard_long

Unnamed: 0,year,artist,track,time,date.entered,week,rating
0,2000,2 Pac,Baby Don't Cry (Keep...,4:22,2000-02-26,wk1,87.0
1,2000,2Ge+her,The Hardest Part Of ...,3:15,2000-09-02,wk1,91.0
2,2000,3 Doors Down,Kryptonite,3:53,2000-04-08,wk1,81.0
3,2000,3 Doors Down,Loser,4:24,2000-10-21,wk1,76.0
4,2000,504 Boyz,Wobble Wobble,3:35,2000-04-15,wk1,57.0
5,2000,98^0,Give Me Just One Nig...,3:24,2000-08-19,wk1,51.0
6,2000,A*Teens,Dancing Queen,3:44,2000-07-08,wk1,97.0
7,2000,Aaliyah,I Don't Wanna,4:15,2000-01-29,wk1,84.0
8,2000,Aaliyah,Try Again,4:03,2000-03-18,wk1,59.0
9,2000,"Adams, Yolanda",Open My Heart,5:30,2000-08-26,wk1,76.0


# ebola 데이터프레임 변환하기

In [6]:
ebola = pd.read_csv('./data/country_timeseries.csv')
ebola

Unnamed: 0,Date,Day,Cases_Guinea,Cases_Liberia,Cases_SierraLeone,Cases_Nigeria,Cases_Senegal,Cases_UnitedStates,Cases_Spain,Cases_Mali,Deaths_Guinea,Deaths_Liberia,Deaths_SierraLeone,Deaths_Nigeria,Deaths_Senegal,Deaths_UnitedStates,Deaths_Spain,Deaths_Mali
0,1/5/2015,289,2776.0,,10030.0,,,,,,1786.0,,2977.0,,,,,
1,1/4/2015,288,2775.0,,9780.0,,,,,,1781.0,,2943.0,,,,,
2,1/3/2015,287,2769.0,8166.0,9722.0,,,,,,1767.0,3496.0,2915.0,,,,,
3,1/2/2015,286,,8157.0,,,,,,,,3496.0,,,,,,
4,12/31/2014,284,2730.0,8115.0,9633.0,,,,,,1739.0,3471.0,2827.0,,,,,
5,12/28/2014,281,2706.0,8018.0,9446.0,,,,,,1708.0,3423.0,2758.0,,,,,
6,12/27/2014,280,2695.0,,9409.0,,,,,,1697.0,,2732.0,,,,,
7,12/24/2014,277,2630.0,7977.0,9203.0,,,,,,,3413.0,2655.0,,,,,
8,12/21/2014,273,2597.0,,9004.0,,,,,,1607.0,,2582.0,,,,,
9,12/20/2014,272,2571.0,7862.0,8939.0,,,,,,1586.0,3384.0,2556.0,,,,,


In [7]:
# 변수컬럼 목록 확인
ebola.columns

Index(['Date', 'Day', 'Cases_Guinea', 'Cases_Liberia', 'Cases_SierraLeone',
       'Cases_Nigeria', 'Cases_Senegal', 'Cases_UnitedStates', 'Cases_Spain',
       'Cases_Mali', 'Deaths_Guinea', 'Deaths_Liberia', 'Deaths_SierraLeone',
       'Deaths_Nigeria', 'Deaths_Senegal', 'Deaths_UnitedStates',
       'Deaths_Spain', 'Deaths_Mali'],
      dtype='object')

In [8]:
# 일부 데이터 배치 현황 파악
ebola.iloc[:5, [0, 1, 2, 3, 10, 11]]

Unnamed: 0,Date,Day,Cases_Guinea,Cases_Liberia,Deaths_Guinea,Deaths_Liberia
0,1/5/2015,289,2776.0,,1786.0,
1,1/4/2015,288,2775.0,,1781.0,
2,1/3/2015,287,2769.0,8166.0,1767.0,3496.0
3,1/2/2015,286,,8157.0,,3496.0
4,12/31/2014,284,2730.0,8115.0,1739.0,3471.0


### ebola 데이터셋 와이드포맷에서 롱포맷으로 변환

In [9]:
# ebola 데이터셋 와이드포맷에서 롱포맷으로 변환
ebola_long = pd.melt(ebola, id_vars=['Date', 'Day'])
ebola_long

# - id_vars: 와이드포맷에서 롱포맷으로 데이터프레임을 피벗핑할 때
#            변환에 상관없이 그대로 유지해야하는 기준/고정 변수컬럼들
# - variable: 와이드포맷에서 가로방향으로 나열되어 있던 
#             변수컬럼들의 컬럼명칭(Cases_OOO ~ Deaths_OOO)이 세로방향으로 길게 쌓이게 되며, 
#             이를 대표하는 변수컬럼명으로 디폴트값인 variable이 자동으로 설정됨
# - value: 와이드포맷에서 가로방향으로 나열되어 있던 
#          변수컬럼들의 실제 요소값들이 세로방향으로 길게 쌓이게 되며, 
#          이를 대표하는 변수컬럼명으로 디폴트값인 rating이 자동으로 설정됨

Unnamed: 0,Date,Day,variable,value
0,1/5/2015,289,Cases_Guinea,2776.0
1,1/4/2015,288,Cases_Guinea,2775.0
2,1/3/2015,287,Cases_Guinea,2769.0
3,1/2/2015,286,Cases_Guinea,
4,12/31/2014,284,Cases_Guinea,2730.0
5,12/28/2014,281,Cases_Guinea,2706.0
6,12/27/2014,280,Cases_Guinea,2695.0
7,12/24/2014,277,Cases_Guinea,2630.0
8,12/21/2014,273,Cases_Guinea,2597.0
9,12/20/2014,272,Cases_Guinea,2571.0


### ebola 데이터셋 열 이름 분리와 데이터프레임에 추가하기

In [10]:
variable_split = ebola_long.variable.str.split('_')
variable_split

0       [Cases, Guinea]
1       [Cases, Guinea]
2       [Cases, Guinea]
3       [Cases, Guinea]
4       [Cases, Guinea]
5       [Cases, Guinea]
6       [Cases, Guinea]
7       [Cases, Guinea]
8       [Cases, Guinea]
9       [Cases, Guinea]
10      [Cases, Guinea]
11      [Cases, Guinea]
12      [Cases, Guinea]
13      [Cases, Guinea]
14      [Cases, Guinea]
15      [Cases, Guinea]
16      [Cases, Guinea]
17      [Cases, Guinea]
18      [Cases, Guinea]
19      [Cases, Guinea]
20      [Cases, Guinea]
21      [Cases, Guinea]
22      [Cases, Guinea]
23      [Cases, Guinea]
24      [Cases, Guinea]
25      [Cases, Guinea]
26      [Cases, Guinea]
27      [Cases, Guinea]
28      [Cases, Guinea]
29      [Cases, Guinea]
             ...       
1922     [Deaths, Mali]
1923     [Deaths, Mali]
1924     [Deaths, Mali]
1925     [Deaths, Mali]
1926     [Deaths, Mali]
1927     [Deaths, Mali]
1928     [Deaths, Mali]
1929     [Deaths, Mali]
1930     [Deaths, Mali]
1931     [Deaths, Mali]
1932     [Deaths

In [11]:
print(type(variable_split)) 
# - 분리된 변수컬럼명 데이터셋은 시리즈 포맷임

print(type(variable_split[0]))
# - 분리된 변수컬럼명 데이터셋의 각 요소값은 리스트포맷임

<class 'pandas.core.series.Series'>
<class 'list'>


In [12]:
# 분리된 변수컬럼명 시리즈객체의 각 리스트 요소에서
# 이벤트와 국가명을 별도의 시리즈로 분리해냄
status_values = variable_split.str.get(0) 
print(status_values[:5])
print(type(status_values))

print()

country_values = variable_split.str.get(1)
print(country_values[:5])
print(type(country_values))

0    Cases
1    Cases
2    Cases
3    Cases
4    Cases
Name: variable, dtype: object
<class 'pandas.core.series.Series'>

0    Guinea
1    Guinea
2    Guinea
3    Guinea
4    Guinea
Name: variable, dtype: object
<class 'pandas.core.series.Series'>


In [13]:
# 각각 분리해낸 이벤트와 국가명 시리즈 객체를 파생변수로 추가
ebola_long['status'] = status_values 
ebola_long['country'] = country_values
ebola_long.head()

Unnamed: 0,Date,Day,variable,value,status,country
0,1/5/2015,289,Cases_Guinea,2776.0,Cases,Guinea
1,1/4/2015,288,Cases_Guinea,2775.0,Cases,Guinea
2,1/3/2015,287,Cases_Guinea,2769.0,Cases,Guinea
3,1/2/2015,286,Cases_Guinea,,Cases,Guinea
4,12/31/2014,284,Cases_Guinea,2730.0,Cases,Guinea


# concat 메서드를 응용하여 데이터프레임에 열 추가하기

In [14]:
# 특정변수컬럼명의 문자열 분리시 expand = False 디폴트 옵션으로 분리
variable_split = ebola_long.variable.str.split('_', expand = False) 

print(variable_split[0:5]) 
print(type(variable_split)) 
# - 분리된 변수컬럼명 데이터셋은 시리즈 객체임

print() 

print(variable_split[0])
print(type(variable_split[0]))
# - 분리된 변수컬럼명 데이터셋의 각 요소값은 리스트 객체임

0    [Cases, Guinea]
1    [Cases, Guinea]
2    [Cases, Guinea]
3    [Cases, Guinea]
4    [Cases, Guinea]
Name: variable, dtype: object
<class 'pandas.core.series.Series'>

['Cases', 'Guinea']
<class 'list'>


In [15]:
# 특정변수컬럼명의 문자열 분리시 expand = True 옵션으로 분리
variable_split = ebola_long.variable.str.split('_', expand = True) 

print(variable_split[0:5]) 
print(type(variable_split)) 
# - 분리된 변수컬럼명 데이터셋은 데이터프레임 객체임
# - 2개로 분리된 각 변수컬럼의 임시 변수컬럼명으로 0과 1이라는 인덱스 번호로 부여함

print() 

print(variable_split[0][:5])
print(type(variable_split[0]))
# - 분리된 변수컬럼명 데이터셋의 각 요소값은 시리즈객체임

       0       1
0  Cases  Guinea
1  Cases  Guinea
2  Cases  Guinea
3  Cases  Guinea
4  Cases  Guinea
<class 'pandas.core.frame.DataFrame'>

0    Cases
1    Cases
2    Cases
3    Cases
4    Cases
Name: 0, dtype: object
<class 'pandas.core.series.Series'>


In [16]:
# 분리된 2개 변수컬럼의 0과 1이라는 
# 임시 인덱스번호 변수컬럼명을 새로운 변수컬럼명으로 변경함
variable_split.columns = ['status', 'country'] 
variable_split.head()

Unnamed: 0,status,country
0,Cases,Guinea
1,Cases,Guinea
2,Cases,Guinea
3,Cases,Guinea
4,Cases,Guinea


In [17]:
# .concat() 함수를 이용해서 2개 데이터 프레임간에 열방향(좌-우)로 결합함
ebola_long_varsplit = pd.concat([ebola_long, variable_split], axis=1)

ebola_long_varsplit.head()

Unnamed: 0,Date,Day,variable,value,status,country,status.1,country.1
0,1/5/2015,289,Cases_Guinea,2776.0,Cases,Guinea,Cases,Guinea
1,1/4/2015,288,Cases_Guinea,2775.0,Cases,Guinea,Cases,Guinea
2,1/3/2015,287,Cases_Guinea,2769.0,Cases,Guinea,Cases,Guinea
3,1/2/2015,286,Cases_Guinea,,Cases,Guinea,Cases,Guinea
4,12/31/2014,284,Cases_Guinea,2730.0,Cases,Guinea,Cases,Guinea


# 기상데이터셋을 이용한 와이드에서 롱으로, 롱에서 와이드로 변환

In [18]:
# 기상데이터셋 로딩
weather = pd.read_csv('./data/weather.csv')
weather
# - 년도(year), 월(month), 일자별(d1~d31) 최고온도(tmax)와 최저온도(tmin)를 element변수컬럼에 정리한 관측데이터셋

Unnamed: 0,id,year,month,element,d1,d2,d3,d4,d5,d6,...,d22,d23,d24,d25,d26,d27,d28,d29,d30,d31
0,MX17004,2010,1,tmax,,,,,,,...,,,,,,,,,27.8,
1,MX17004,2010,1,tmin,,,,,,,...,,,,,,,,,14.5,
2,MX17004,2010,2,tmax,,27.3,24.1,,,,...,,29.9,,,,,,,,
3,MX17004,2010,2,tmin,,14.4,14.4,,,,...,,10.7,,,,,,,,
4,MX17004,2010,3,tmax,,,,,32.1,,...,,,,,,,,,,
5,MX17004,2010,3,tmin,,,,,14.2,,...,,,,,,,,,,
6,MX17004,2010,4,tmax,,,,,,,...,,,,,,36.3,,,,
7,MX17004,2010,4,tmin,,,,,,,...,,,,,,16.7,,,,
8,MX17004,2010,5,tmax,,,,,,,...,,,,,,33.2,,,,
9,MX17004,2010,5,tmin,,,,,,,...,,,,,,18.2,,,,


In [19]:
# 와이드포맷형태인 일자(di~d31)을 롱포맷으로 변환(피벗팅)함
weather_long = pd.melt(weather, 
                       id_vars=['id', 'year', 'month', 'element'], 
                       var_name='day', value_name='temp')
# - id_vars: 와이드포맷에서 롱포맷으로 데이터프레임을 피벗핑할 때
#            변환에 상관없이 그대로 유지해야하는 기준/고정 변수컬럼들
# - variable: 와이드포맷에서 가로방향으로 나열되어 있던 
#             변수컬럼들의 컬럼명칭(d1 ~ d31)이 세로방향으로 길게 쌓이게 되며, 
#             이를 대표하는 변수컬럼명으로 day를 설정함
# - value: 와이드포맷에서 가로방향으로 나열되어 있던 
#          변수컬럼들의 실제 요소값들이 세로방향으로 길게 쌓이게 되며, 
#          이를 대표하는 변수컬럼명으로 temp를 설정함

weather_long

Unnamed: 0,id,year,month,element,day,temp
0,MX17004,2010,1,tmax,d1,
1,MX17004,2010,1,tmin,d1,
2,MX17004,2010,2,tmax,d1,
3,MX17004,2010,2,tmin,d1,
4,MX17004,2010,3,tmax,d1,
5,MX17004,2010,3,tmin,d1,
6,MX17004,2010,4,tmax,d1,
7,MX17004,2010,4,tmin,d1,
8,MX17004,2010,5,tmax,d1,
9,MX17004,2010,5,tmin,d1,


In [20]:
# 롱포맷형태인 최고/최저온도(element) 변수컬럼을 와이드포맷으로 변환(피벗팅)함
weather_wide = weather_long.pivot_table(
    index=['id', 'year', 'month', 'day'], 
    columns='element', 
    values='temp')
# - index: 롱포맷에서 와이드포맷으로 데이터프레임을 피벗핑할 때
#          변환에 상관없이 그대로 유지해야하는 기준/고정 변수컬럼들
# - columns: 롱포맷에서 세로방향으로 길게 쌓여 있는 변수컬럼들 중에서 
#            가로방향으로 분리해 나열(tmax, tmin)하게 될 
#            대상 변수컬럼(element)을 지정함 
# - values: 롱포맷에서 세로방향으로 길게 쌓여 있는 변수컬럼들 중에서 
#           가로방향으로 분리해 나열하게 될 실제값들을 
#           어떠한 변수컬럼(temp)에서 가져올지를 설정함

weather_wide

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,element,tmax,tmin
id,year,month,day,Unnamed: 4_level_1,Unnamed: 5_level_1
MX17004,2010,1,d30,27.8,14.5
MX17004,2010,2,d11,29.7,13.4
MX17004,2010,2,d2,27.3,14.4
MX17004,2010,2,d23,29.9,10.7
MX17004,2010,2,d3,24.1,14.4
MX17004,2010,3,d10,34.5,16.8
MX17004,2010,3,d16,31.1,17.6
MX17004,2010,3,d5,32.1,14.2
MX17004,2010,4,d27,36.3,16.7
MX17004,2010,5,d27,33.2,18.2


In [21]:
# 롱포맷에서 와이드포맷 변환시 발생했떤 원본인덱스 순서를 리셋시킴
weather_long_resetindex = weather_long.reset_index() 
weather_long_resetindex.head()

Unnamed: 0,index,id,year,month,element,day,temp
0,0,MX17004,2010,1,tmax,d1,
1,1,MX17004,2010,1,tmin,d1,
2,2,MX17004,2010,2,tmax,d1,
3,3,MX17004,2010,2,tmin,d1,
4,4,MX17004,2010,3,tmax,d1,


# 빌보드 차트의 중복 데이터 처리하기

In [22]:
billboard = pd.read_csv('./data/billboard.csv')
billboard_long = pd.melt(billboard, 
                         id_vars=['year', 'artist', 'track', 'time', 'date.entered'], 
                         var_name='week', 
                         value_name='rating')

print(billboard_long.shape)
print(billboard_long)

(24092, 7)
       year                artist                    track  time date.entered  \
0      2000                 2 Pac  Baby Don't Cry (Keep...  4:22   2000-02-26   
1      2000               2Ge+her  The Hardest Part Of ...  3:15   2000-09-02   
2      2000          3 Doors Down               Kryptonite  3:53   2000-04-08   
3      2000          3 Doors Down                    Loser  4:24   2000-10-21   
4      2000              504 Boyz            Wobble Wobble  3:35   2000-04-15   
5      2000                  98^0  Give Me Just One Nig...  3:24   2000-08-19   
6      2000               A*Teens            Dancing Queen  3:44   2000-07-08   
7      2000               Aaliyah            I Don't Wanna  4:15   2000-01-29   
8      2000               Aaliyah                Try Again  4:03   2000-03-18   
9      2000        Adams, Yolanda            Open My Heart  5:30   2000-08-26   
10     2000         Adkins, Trace                     More  3:05   2000-04-29   
11     2000   Agu

In [23]:
# 빌보드데이터 중 중복가능성이 있는 변수컬럼들을 별도의 데이터셋을 추출
billboard_songs = billboard_long[['year', 'artist', 'track', 'time']] 
print(billboard_songs.shape)
print(billboard_songs)

(24092, 4)
       year                artist                    track  time
0      2000                 2 Pac  Baby Don't Cry (Keep...  4:22
1      2000               2Ge+her  The Hardest Part Of ...  3:15
2      2000          3 Doors Down               Kryptonite  3:53
3      2000          3 Doors Down                    Loser  4:24
4      2000              504 Boyz            Wobble Wobble  3:35
5      2000                  98^0  Give Me Just One Nig...  3:24
6      2000               A*Teens            Dancing Queen  3:44
7      2000               Aaliyah            I Don't Wanna  4:15
8      2000               Aaliyah                Try Again  4:03
9      2000        Adams, Yolanda            Open My Heart  5:30
10     2000         Adkins, Trace                     More  3:05
11     2000   Aguilera, Christina  Come On Over Baby (A...  3:38
12     2000   Aguilera, Christina            I Turn To You  4:00
13     2000   Aguilera, Christina        What A Girl Wants  3:18
14     2000   

In [24]:
# 데이터셋내 중복 레코드 통합
billboard_songs = billboard_songs.drop_duplicates() 
print(billboard_songs.shape)
print(billboard_songs)

(317, 4)
     year                artist                    track  time
0    2000                 2 Pac  Baby Don't Cry (Keep...  4:22
1    2000               2Ge+her  The Hardest Part Of ...  3:15
2    2000          3 Doors Down               Kryptonite  3:53
3    2000          3 Doors Down                    Loser  4:24
4    2000              504 Boyz            Wobble Wobble  3:35
5    2000                  98^0  Give Me Just One Nig...  3:24
6    2000               A*Teens            Dancing Queen  3:44
7    2000               Aaliyah            I Don't Wanna  4:15
8    2000               Aaliyah                Try Again  4:03
9    2000        Adams, Yolanda            Open My Heart  5:30
10   2000         Adkins, Trace                     More  3:05
11   2000   Aguilera, Christina  Come On Over Baby (A...  3:38
12   2000   Aguilera, Christina            I Turn To You  4:00
13   2000   Aguilera, Christina        What A Girl Wants  3:18
14   2000          Alice Deejay         Better

In [25]:
billboard_songs['id'] = range(len(billboard_songs)) 
print(billboard_songs.head(n=10))

   year          artist                    track  time  id
0  2000           2 Pac  Baby Don't Cry (Keep...  4:22   0
1  2000         2Ge+her  The Hardest Part Of ...  3:15   1
2  2000    3 Doors Down               Kryptonite  3:53   2
3  2000    3 Doors Down                    Loser  4:24   3
4  2000        504 Boyz            Wobble Wobble  3:35   4
5  2000            98^0  Give Me Just One Nig...  3:24   5
6  2000         A*Teens            Dancing Queen  3:44   6
7  2000         Aaliyah            I Don't Wanna  4:15   7
8  2000         Aaliyah                Try Again  4:03   8
9  2000  Adams, Yolanda            Open My Heart  5:30   9


In [26]:
# 노래정보와 주간순위 데이터를 다시 머지함
billboard_ratings = billboard_long.merge(billboard_songs, on=['year', 'artist', 'track', 'time']) 
billboard_ratings.shape

(24092, 8)

In [27]:
billboard_ratings.head()

Unnamed: 0,year,artist,track,time,date.entered,week,rating,id
0,2000,2 Pac,Baby Don't Cry (Keep...,4:22,2000-02-26,wk1,87.0,0
1,2000,2 Pac,Baby Don't Cry (Keep...,4:22,2000-02-26,wk2,82.0,0
2,2000,2 Pac,Baby Don't Cry (Keep...,4:22,2000-02-26,wk3,72.0,0
3,2000,2 Pac,Baby Don't Cry (Keep...,4:22,2000-02-26,wk4,77.0,0
4,2000,2 Pac,Baby Don't Cry (Keep...,4:22,2000-02-26,wk5,87.0,0


# End of Source