<span style="font-weight: bold; font-size:40px; color:#2196F3">07-4</span>
# 중복 데이터 처리하기

이번에 다룰 빌보드 차트 데이터 artist, track, time, date.entered 열의 데이터가 반복된다. 이런 반복되는 데이터는 따로 관리하는 것이 좋다. 왜 따로 관리하는 것이 좋을까? 그리고 따로 관리하려면 어떻게 해야 할까? 다음 실습을 통해 중복 데이터를 처리하는 방법에 대해 알아보겠다.

### 빌보드 차트의 중복 데이터 처리하기
#### 다음은 빌보드 차트 데이터를 불러온 것이다.

In [1]:
import pandas as pd
billboard = pd.read_csv('doit_pandas_data/data/billboard.csv')
billboard_long = pd.melt(billboard, id_vars=['year', 'artist', 'track', 'time', 'date.entered'], var_name='week', value_name='rating')

print(billboard_long.shape)
print(billboard_long.head())

(24092, 7)
   year        artist                    track  time date.entered week  rating
0  2000         2 Pac  Baby Don't Cry (Keep...  4:22   2000-02-26  wk1    87.0
1  2000       2Ge+her  The Hardest Part Of ...  3:15   2000-09-02  wk1    91.0
2  2000  3 Doors Down               Kryptonite  3:53   2000-04-08  wk1    81.0
3  2000  3 Doors Down                    Loser  4:24   2000-10-21  wk1    76.0
4  2000      504 Boyz            Wobble Wobble  3:35   2000-04-15  wk1    57.0


#### 노래 제목(track)이 Loser인 데이터만 따로 모아 살펴보면 중복 데이터가 꽤 많다는 것을 알 수 있다. 예를 들어 가수(artist)는 고유한 값이기 때문에 따로 관리하는 것이 데이터의 일관성을 유지하는 데 더 도움이 된다.

In [2]:
print(billboard_long[billboard_long.track == 'Loser'].head())

      year        artist  track  time date.entered week  rating
3     2000  3 Doors Down  Loser  4:24   2000-10-21  wk1    76.0
320   2000  3 Doors Down  Loser  4:24   2000-10-21  wk2    76.0
637   2000  3 Doors Down  Loser  4:24   2000-10-21  wk3    72.0
954   2000  3 Doors Down  Loser  4:24   2000-10-21  wk4    69.0
1271  2000  3 Doors Down  Loser  4:24   2000-10-21  wk5    67.0


#### 중복 데이터를 가지고 있는 열은 year, artist, track, time, date이다. 이 열을 따로 모아 새로운 데이터프레임에 저장한다.

In [3]:
billboard_songs = billboard_long[['year', 'artist', 'track', 'time']]
print(billboard_songs.shape)

(24092, 4)


#### 그런 다음 drop_duplicates 메서드로 데이터프레임의 중복 데이터를 제거한다.

In [4]:
billboard_songs = billboard_songs.drop_duplicates()
print(billboard_songs.shape)

(317, 4)


#### 중복을 제거한 데이터프레임에 다음과 같이 아이디(id)도 추가한다.

In [7]:
billboard_songs['id'] = range(len(billboard_songs))
print(billboard_songs.head(n=10))

   year          artist                    track  time  id
0  2000           2 Pac  Baby Don't Cry (Keep...  4:22   0
1  2000         2Ge+her  The Hardest Part Of ...  3:15   1
2  2000    3 Doors Down               Kryptonite  3:53   2
3  2000    3 Doors Down                    Loser  4:24   3
4  2000        504 Boyz            Wobble Wobble  3:35   4
5  2000            98^0  Give Me Just One Nig...  3:24   5
6  2000         A*Teens            Dancing Queen  3:44   6
7  2000         Aaliyah            I Don't Wanna  4:15   7
8  2000         Aaliyah                Try Again  4:03   8
9  2000  Adams, Yolanda            Open My Heart  5:30   9


6. 다음은 merge 메서드를 사용해 노래 정보와 주간 순위 데이터를 합친 것이다.

In [8]:
billboard_ratings = billboard_long.merge(billboard_songs, 
                                         on=['year', 'artist', 'track', 'time'])
print(billboard_ratings.shape)

(24092, 8)


In [9]:
print(billboard_ratings.head())

   year artist                    track  time date.entered week  rating  id
0  2000  2 Pac  Baby Don't Cry (Keep...  4:22   2000-02-26  wk1    87.0   0
1  2000  2 Pac  Baby Don't Cry (Keep...  4:22   2000-02-26  wk2    82.0   0
2  2000  2 Pac  Baby Don't Cry (Keep...  4:22   2000-02-26  wk3    72.0   0
3  2000  2 Pac  Baby Don't Cry (Keep...  4:22   2000-02-26  wk4    77.0   0
4  2000  2 Pac  Baby Don't Cry (Keep...  4:22   2000-02-26  wk5    87.0   0


<span style="font-weight: bold; font-size:20px; color:Gray">출처 : Do it! 데이터 분석을 위한 판다스</span>