## 데이터 핸들링 및 전처리 

## 05. 데이터 타입 변환/중복데이터 제거

<img src = "https://images.unsplash.com/photo-1646106842476-70e9dc6039f4?ixlib=rb-4.0.3&ixid=MnwxMjA3fDB8MHxwaG90by1wYWdlfHx8fGVufDB8fHx8&auto=format&fit=crop&w=1170&q=80" width=80% align="center"/>

<div align="right">사진: <a href="https://unsplash.com/ko/s/%EC%82%AC%EC%A7%84/same?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Unsplash</a>의<a href="https://unsplash.com/@markuswinkler?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Markus Winkler</a>
  </div>
  
  

## 0. 데이터 불러오기
- ### 데이터 설명
    1. preprocessing_05.csv : 이전 실습에서 결측치를 제거한 데이터 
> - MovieId : (int) 영화 아이디 <br>
> - ImdbId : (int) IMDb 데이터베이스 관리 아이디<br>
> - TmdbId : (float) TMDB 데이터베이스 관리 아이디<br>
> - Title : (object) 영화 제목 <br> 
> - Year : (int) 제작년도 <br> 
> - Genres : (object) 영화의 장르, '|'을 구분자로 한 복수 장르
> - UserId : (int) 유저 아이디 <br>
> - Rating : (float) 영화 평점 <br>
> - Gender : (object) 성별, M/F <br>
> - Age : (int) 나이<br>
> - Occupation : (object) 직업,<br>

In [1]:
# 라이브러리 불러오기
import pandas as pd

import warnings
warnings.filterwarnings(action='ignore')

In [2]:
# 데이터 불러오기
df = pd.read_csv("./data/preprocessing_05.csv")

In [3]:
# 데이터 샘플 확인하기
df.head()

Unnamed: 0,MovieId,ImdbId,TmdbId,Title,Year,Genres,UserId,Rating,Gender,Age,Occupation
0,1.0,114709.0,862.0,Toy Story,1995.0,Adventure|Animation|Children|Comedy|Fantasy,1.0,4.0,F,2.0,K-12 student
1,1.0,114709.0,862.0,Toy Story,1995.0,Adventure|Animation|Children|Comedy|Fantasy,5.0,4.0,M,30.0,writer
2,1.0,114709.0,862.0,Toy Story,1995.0,Adventure|Animation|Children|Comedy|Fantasy,7.0,4.5,M,39.0,academic/educator
3,1.0,114709.0,862.0,Toy Story,1995.0,Adventure|Animation|Children|Comedy|Fantasy,15.0,2.5,M,29.0,executive/managerial
4,1.0,114709.0,862.0,Toy Story,1995.0,Adventure|Animation|Children|Comedy|Fantasy,17.0,4.5,M,52.0,academic/educator


In [5]:
temp_df = df

# type 을 문자열로 변환
temp_df['MovieId'] = temp_df['MovieId'].astype(str)

temp_df.dtypes

0              1.0
1              1.0
2              1.0
3              1.0
4              1.0
            ...   
100836    193581.0
100837    193583.0
100838    193585.0
100839    193587.0
100840    193609.0
Name: MovieId, Length: 100841, dtype: object

In [6]:
df.tail()

Unnamed: 0,MovieId,ImdbId,TmdbId,Title,Year,Genres,UserId,Rating,Gender,Age,Occupation
100836,193581.0,5476944.0,432131.0,Black Butler: Book of the Atlantic,2017.0,Action|Animation|Comedy|Fantasy,184.0,4.0,F,33.0,other
100837,193583.0,5914996.0,445030.0,No Game No Life: Zero,2017.0,Animation|Comedy|Fantasy,184.0,3.5,F,33.0,other
100838,193585.0,6397426.0,479308.0,Flint,2017.0,Drama,184.0,3.5,F,33.0,other
100839,193587.0,8391976.0,483455.0,Bungo Stray Dogs: Dead Apple,2018.0,Action|Animation,184.0,3.5,F,33.0,other
100840,193609.0,101726.0,37891.0,Andrew Dice Clay: Dice Rules,1991.0,Comedy,331.0,4.0,M,32.0,executive/managerial


---

### 1. 데이터 타입 확인하기
데이터프레임은 .info() 메소드로 column별 상세내용을 확인할 수 있으며 각 column의 dtype 또한 확인할 수 있습니다.

#### 1-1 info() 메소드로 전체 확인하기

In [7]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100841 entries, 0 to 100840
Data columns (total 11 columns):
 #   Column      Non-Null Count   Dtype  
---  ------      --------------   -----  
 0   MovieId     100841 non-null  object 
 1   ImdbId      100841 non-null  float64
 2   TmdbId      100841 non-null  float64
 3   Title       100841 non-null  object 
 4   Year        100841 non-null  float64
 5   Genres      100841 non-null  object 
 6   UserId      100841 non-null  float64
 7   Rating      100841 non-null  float64
 8   Gender      100841 non-null  object 
 9   Age         100841 non-null  float64
 10  Occupation  100841 non-null  object 
dtypes: float64(6), object(5)
memory usage: 8.5+ MB


#### 1-2. dtype 을 활용하여 Column 데이터 타입 확인하기
- .dtypes는 모든 컬럼의 데이터타입을 확인할 수 있습니다.

In [8]:
df.dtypes

MovieId        object
ImdbId        float64
TmdbId        float64
Title          object
Year          float64
Genres         object
UserId        float64
Rating        float64
Gender         object
Age           float64
Occupation     object
dtype: object

- .dtype 은 컬렴 별로 데이터 타입을 확인할 수 있습니다. 

In [12]:
df['MovieId'].dtype, df['Gender'].dtype, df['UserId'].dtype

(dtype('O'), dtype('O'), dtype('float64'))

---

### 2. 데이터 타입 변경하기
불러온 데이터프레임에 넣고 다루다 보면 간혹 잘못된 데이터 타입이 확인될 때가 있습니다. 
이럴 때 Pandas의 .astype(dtype) 메소드를 사용하면 쉽게 변경할 수 있습니다.

#### 2-1. 모든 Column의 데이터 타입을 변경하기
> df.astype(dtype)

- 모든 Columns의 데이터 타입을 'object' 형으로 변경해 보겠습니다. 

In [13]:
df_temp = df.copy()
df_temp = df_temp.astype('object')

In [14]:
df_temp.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100841 entries, 0 to 100840
Data columns (total 11 columns):
 #   Column      Non-Null Count   Dtype 
---  ------      --------------   ----- 
 0   MovieId     100841 non-null  object
 1   ImdbId      100841 non-null  object
 2   TmdbId      100841 non-null  object
 3   Title       100841 non-null  object
 4   Year        100841 non-null  object
 5   Genres      100841 non-null  object
 6   UserId      100841 non-null  object
 7   Rating      100841 non-null  object
 8   Gender      100841 non-null  object
 9   Age         100841 non-null  object
 10  Occupation  100841 non-null  object
dtypes: object(11)
memory usage: 8.5+ MB


In [15]:
df_temp.head()

Unnamed: 0,MovieId,ImdbId,TmdbId,Title,Year,Genres,UserId,Rating,Gender,Age,Occupation
0,1.0,114709.0,862.0,Toy Story,1995.0,Adventure|Animation|Children|Comedy|Fantasy,1.0,4.0,F,2.0,K-12 student
1,1.0,114709.0,862.0,Toy Story,1995.0,Adventure|Animation|Children|Comedy|Fantasy,5.0,4.0,M,30.0,writer
2,1.0,114709.0,862.0,Toy Story,1995.0,Adventure|Animation|Children|Comedy|Fantasy,7.0,4.5,M,39.0,academic/educator
3,1.0,114709.0,862.0,Toy Story,1995.0,Adventure|Animation|Children|Comedy|Fantasy,15.0,2.5,M,29.0,executive/managerial
4,1.0,114709.0,862.0,Toy Story,1995.0,Adventure|Animation|Children|Comedy|Fantasy,17.0,4.5,M,52.0,academic/educator


#### 2-2. 특정 Columns의 데이터 타입을 변경하기
dictionary 형태로 컬럼명과 변경할 타입으로 매핑하여 변경할 수 있습니다.
> df.astype({'컬럼명':dtype})

- Object인 'Year' Column의 데이터 타입을 수치형 'int'로 변경해 보겠습니다. 

In [16]:
df.dtypes

MovieId        object
ImdbId        float64
TmdbId        float64
Title          object
Year          float64
Genres         object
UserId        float64
Rating        float64
Gender         object
Age           float64
Occupation     object
dtype: object

In [20]:
 df['Year']

0         1995
1         1995
2         1995
3         1995
4         1995
          ... 
100836    2017
100837    2017
100838    2017
100839    2018
100840    1991
Name: Year, Length: 100841, dtype: int64

In [18]:
df = df.astype({'Year':'int'})

In [19]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100841 entries, 0 to 100840
Data columns (total 11 columns):
 #   Column      Non-Null Count   Dtype  
---  ------      --------------   -----  
 0   MovieId     100841 non-null  object 
 1   ImdbId      100841 non-null  float64
 2   TmdbId      100841 non-null  float64
 3   Title       100841 non-null  object 
 4   Year        100841 non-null  int64  
 5   Genres      100841 non-null  object 
 6   UserId      100841 non-null  float64
 7   Rating      100841 non-null  float64
 8   Gender      100841 non-null  object 
 9   Age         100841 non-null  float64
 10  Occupation  100841 non-null  object 
dtypes: float64(5), int64(1), object(5)
memory usage: 8.5+ MB


---

### 3. 중복 데이터 처리하기
데이터프레임의 규모가 큰 경우 미처 확인하지 못한 중복된 데이터가 있을 수 있습니다. <br>
    이 때, Pandas의 duplicated와 drop_duplicated 메소드를 적용하면 쉽게 해결할 수 있습니다. 

#### 3-1. 중복 데이터 확인하기
> df.duplicated()
- 옵션
> - subset : 특정 열을 지정하여 검색, 리스트 형태로 복수의 컬럼 조건 지정 가능 <br>
> - keep : 기본값 'first' 첫 번째 값은 False, 두 번째 값부터는 True 반환 <br>

- 데이터프레임 df의 중복데이터를 확인해 봅시다.

In [31]:
df.duplicated()

0         False
1         False
2         False
3         False
4         False
          ...  
100836    False
100837    False
100838    False
100839    False
100840    False
Length: 100841, dtype: bool

In [32]:
df.duplicated().sum()

0

- subset 옵션을 활용해서 데이터프레임 df의 'Title'과 'UserId' 컬럼이 중복이 되는 데이터를 확인해 봅시다.


In [33]:
df.duplicated(subset=['Title','UserId']).sum()

365

In [34]:
df[df.duplicated(['Title','UserId'])]

Unnamed: 0,MovieId,ImdbId,TmdbId,Title,Year,Genres,UserId,Rating,Gender,Age,Occupation
20761,915.0,47437.0,6620.0,Sabrina,1954,Comedy|Romance,19.0,2.0,M,3.0,K-12 student
20763,915.0,47437.0,6620.0,Sabrina,1954,Comedy|Romance,84.0,3.0,M,18.0,college/grad student
20769,915.0,47437.0,6620.0,Sabrina,1954,Comedy|Romance,177.0,5.0,M,51.0,academic/educator
20779,915.0,47437.0,6620.0,Sabrina,1954,Comedy|Romance,414.0,4.0,M,34.0,other
20780,915.0,47437.0,6620.0,Sabrina,1954,Comedy|Romance,474.0,4.0,M,34.0,technician/engineer
...,...,...,...,...,...,...,...,...,...,...,...
99813,156675.0,63465.0,29398.0,Project X,1968,Mystery|Sci-Fi,599.0,2.0,M,55.0,doctor/health care
99989,160573.0,2788732.0,294272.0,Pete's Dragon,2016,Adventure|Children|Fantasy,448.0,3.0,M,33.0,technician/engineer
100185,166024.0,2654430.0,367412.0,Whiplash,2013,(no genres listed),414.0,4.5,M,34.0,other
100269,167296.0,22002.0,194310.0,Iron Man,1931,Drama,550.0,0.5,M,47.0,farmer


- 영화 제목이 같은 영화를 두번 본 고객이 존재한다고?!

In [35]:
df[(df['Title']=='Iron Man') & (df['UserId']==550)]

Unnamed: 0,MovieId,ImdbId,TmdbId,Title,Year,Genres,UserId,Rating,Gender,Age,Occupation
87235,59315.0,371746.0,1726.0,Iron Man,2008,Action|Adventure|Sci-Fi,550.0,5.0,M,47.0,farmer
100269,167296.0,22002.0,194310.0,Iron Man,1931,Drama,550.0,0.5,M,47.0,farmer


- 'Title'과 'UserId' 가 같고 거기다가 'Year' 제작년도까지 같은 데이터를 확인해 보겠습니다. 

In [36]:
df.duplicated(['Title','UserId', 'Year']).sum()

4

In [37]:
df[df.duplicated(['Title','UserId', 'Year'])]

Unnamed: 0,MovieId,ImdbId,TmdbId,Title,Year,Genres,UserId,Rating,Gender,Age,Occupation
78306,26958.0,118308.0,12254.0,Emma,1996,Romance,509.0,3.5,M,29.0,artist
88677,64997.0,449040.0,34812.0,War of the Worlds,2005,Action|Sci-Fi,28.0,3.5,F,33.0,academic/educator
88678,64997.0,449040.0,34812.0,War of the Worlds,2005,Action|Sci-Fi,68.0,2.5,M,18.0,college/grad student
99488,144606.0,270288.0,4912.0,Confessions of a Dangerous Mind,2002,Comedy|Crime|Drama|Romance|Thriller,111.0,4.0,M,40.0,scientist


#### 3-2. 중복 데이터 제거하기

> df.drop_duplicated()

- 옵션
> - subset : 특정 열을 지정하여 검색, 리스트 형태로 복수의 컬럼 조건 지정 가능 <br>
> - keep : 기본값 'first' 첫 번째 값은 False, 두 번째 값부터는 True 반환 <br>
> - ignore_index : 기존 인덱스를 무시하고 새로 인덱스를 부여<br>
> - inplace 

- 'Title'과 'UserId' 가 같고 거기다가 'Year' 제작년도까지 같은 데이터를 삭제해 봅시다.

In [38]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100841 entries, 0 to 100840
Data columns (total 11 columns):
 #   Column      Non-Null Count   Dtype  
---  ------      --------------   -----  
 0   MovieId     100841 non-null  object 
 1   ImdbId      100841 non-null  float64
 2   TmdbId      100841 non-null  float64
 3   Title       100841 non-null  object 
 4   Year        100841 non-null  int64  
 5   Genres      100841 non-null  object 
 6   UserId      100841 non-null  float64
 7   Rating      100841 non-null  float64
 8   Gender      100841 non-null  object 
 9   Age         100841 non-null  float64
 10  Occupation  100841 non-null  object 
dtypes: float64(5), int64(1), object(5)
memory usage: 8.5+ MB


In [39]:
df.drop_duplicates(['Title','UserId', 'Year'], ignore_index=True)

Unnamed: 0,MovieId,ImdbId,TmdbId,Title,Year,Genres,UserId,Rating,Gender,Age,Occupation
0,1.0,114709.0,862.0,Toy Story,1995,Adventure|Animation|Children|Comedy|Fantasy,1.0,4.0,F,2.0,K-12 student
1,1.0,114709.0,862.0,Toy Story,1995,Adventure|Animation|Children|Comedy|Fantasy,5.0,4.0,M,30.0,writer
2,1.0,114709.0,862.0,Toy Story,1995,Adventure|Animation|Children|Comedy|Fantasy,7.0,4.5,M,39.0,academic/educator
3,1.0,114709.0,862.0,Toy Story,1995,Adventure|Animation|Children|Comedy|Fantasy,15.0,2.5,M,29.0,executive/managerial
4,1.0,114709.0,862.0,Toy Story,1995,Adventure|Animation|Children|Comedy|Fantasy,17.0,4.5,M,52.0,academic/educator
...,...,...,...,...,...,...,...,...,...,...,...
100832,193581.0,5476944.0,432131.0,Black Butler: Book of the Atlantic,2017,Action|Animation|Comedy|Fantasy,184.0,4.0,F,33.0,other
100833,193583.0,5914996.0,445030.0,No Game No Life: Zero,2017,Animation|Comedy|Fantasy,184.0,3.5,F,33.0,other
100834,193585.0,6397426.0,479308.0,Flint,2017,Drama,184.0,3.5,F,33.0,other
100835,193587.0,8391976.0,483455.0,Bungo Stray Dogs: Dead Apple,2018,Action|Animation,184.0,3.5,F,33.0,other


---

## 실습문제

#### Q1. 데이터프레임 'df' 의 데이터 타입을 확인해 보세요.

In [41]:
# 여기에 작성하세요.
df.dtypes

MovieId        object
ImdbId        float64
TmdbId        float64
Title          object
Year            int64
Genres         object
UserId        float64
Rating        float64
Gender         object
Age           float64
Occupation     object
dtype: object

#### Q2. 데이터프레임 'df'에서 수치형 중 평점인 'Rating' 컬럼을 제외한 나머지 컬럼들을 float형이 아닌 int(정수형)으로 변경하세요.

In [45]:
# 여기에 작성하세요.
numeric_columns = df.select_dtypes(include=['number']).columns
non_rating_columns = numeric_columns.drop('Rating')
df[non_rating_columns] = df[non_rating_columns].astype(int)

df.dtypes

MovieId        object
ImdbId          int64
TmdbId          int64
Title          object
Year            int64
Genres         object
UserId          int64
Rating        float64
Gender         object
Age             int64
Occupation     object
dtype: object

#### Q3. 데이터프레임 'df'에는 'Title', 'Year'이 같은 영화를 여러 번 본 고객('UserId')이 있습니다. <br> &emsp; 거기에 평점('Rating' 까지 같은 점수를 준 경우가 있으면 해당 데이터를 삭제하고,  'df' 데이터프레임에 반영하세요
    📌 inplace와 ignore_index 옵션을 활용하세요.

In [55]:
# 여기에 작성하세요.
print(df.duplicated(subset=['Title','UserId', 'Year', 'Rating']).sum())
df.drop_duplicates(subset=['Title','UserId', 'Year', 'Rating'], inplace=True)

print(df.duplicated(subset=['Title','UserId', 'Year', 'Rating']).sum())


0
0


---