# 3. 중복 데이터 처리하기
## Keypoint!
- DataFrame 안에는 의도치 않게 여러 데이터가 들어갈 수 있습니다.
- DataFrame 함수를 통해서 중복 데이터의 여부를 확인하고, 이를 제거할 수 있습니다.

---

정형 데이터 각 행은 각각 다른 객체를 나타내게 됩니다.  
하지만 연산의 오류 등의 이유로 해당 값이 **중복**으로 들어가있는 경우가 있습니다.

이러한 중복 데이터는 데이터분석을 진행하는 과정에서 유의깊게 살펴봐야하는데요  
저희가 앞으로 시각화를 진행하거나, 기술통계량을 구하는 과정에서 노이즈를 넣는 중요한 요인 중 하나이기 때문입니다.

In [1]:
# DataFrame을 사용하기 위해 Pandas를 불러와봅시다.

import pandas as pd

### 0. 데이터 준비하기

`.read_csv()`를 이용해서 Comma Separated Value를 DataFrame으로 생성해줄 수 있습니다.

In [2]:
# train.csv 데이터를 이용해서 새로 데이터를 만들어봅시다.

data = pd.read_csv("./train.csv")

data.head(5)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


### 1. 얼마나 데이터가 있나? - 데이터 개수 확인하기 : `.value_counts()`

각 데이터가 Series/DataFrame에 얼마나 존재하는지를 확인할 수 있습니다.

- `value_counts()` : 각 데이터가 얼마나 있는지를 나타냅니다.

In [3]:
# 각 행에 해당하는 개수를 확인해봅시다.

data.value_counts()

PassengerId  Survived  Pclass  Name                                                  Sex     Age   SibSp  Parch  Ticket    Fare      Cabin  Embarked
2            1         1       Cumings, Mrs. John Bradley (Florence Briggs Thayer)   female  38.0  1      0      PC 17599  71.2833   C85    C           1
572          1         1       Appleton, Mrs. Edward Dale (Charlotte Lamson)         female  53.0  2      0      11769     51.4792   C101   S           1
578          1         1       Silvey, Mrs. William Baird (Alice Munger)             female  39.0  1      0      13507     55.9000   E44    S           1
582          1         1       Thayer, Mrs. John Borland (Marian Longstreth Morris)  female  39.0  1      1      17421     110.8833  C68    C           1
584          0         1       Ross, Mr. John Hugo                                   male    36.0  0      0      13049     40.1250   A10    C           1
                                                                                 

위 정보는 데이터의 복잡도가 너무 높기 때문에 의미가 없습니다. 한 열에 대해서만 이를 진행해봅시다.

In [4]:
# 성별("Sex") Column에 각 요소가 얼마나 존재하는지 확인해봅시다.

data['Sex'].value_counts()

Sex
male      577
female    314
Name: count, dtype: int64

### 2. 데이터의 종류 확인하기 : `.unique()`

어떤 열에 어떤 데이터들이 존재할 수 있는지 궁금한 경우에 사용합니다.

- `unique()` : 존재하는 데이터의 유일한 값들을 모은 Series를 반환합니다.

In [6]:
# Pclass Column에 각 요소가 얼마나 존재하는지 확인해봅시다.

data['Sex'].unique()

array(['male', 'female'], dtype=object)

### 3. 데이터가 중복되어있는지 확인하기 : `.duplicated()`

어떤 열의 값이 나왔었는지를 체크할 수 있습니다.

- `duplicated()` : 각 열에 대해 값이 이전에 존재했었는지를 True, False 의 boolean 형태의 Series를 반환합니다.
- visited list 떠올리면 편함

In [19]:
# 중복 확인이 편하도록 새로운 데이터프레임을 정의해봅시다.
new = pd.DataFrame({'id':[1,2,2,2,3,4],'name':['Alice','Alice','Bob','Bob','Cat','Dog']})
new

Unnamed: 0,id,name
0,1,Alice
1,2,Alice
2,2,Bob
3,2,Bob
4,3,Cat
5,4,Dog


In [20]:
# id Column에 중복이 있는지 확인해봅시다.
new.duplicated(['id']) # visited 배열 형식으로 2가 한번 나왔기때문에 이후로도 False

0    False
1    False
2     True
3     True
4    False
5    False
dtype: bool

In [21]:
# 처음이 아니라 마지막을 기준으로 하고싶다면 keep을 변경하면 된다.
new.duplicated(['id'], keep='last') # 마지막에 있는 것을 처음 발견한걸로 여김
# 데이터를 업데이트 하고싶은 경우 : 거꾸로 순회하는 경우에 필요함.

0    False
1     True
2     True
3    False
4    False
5    False
dtype: bool

In [22]:
# 중복이라면 모두 체크하고 싶다면 keep을 False로 두면 된다.

new.duplicated(['id'], keep=False)

0    False
1     True
2     True
3     True
4    False
5    False
dtype: bool

In [23]:
# 두 개 이상의 Column을 기준으로 할 수도 있다.

new.duplicated(['id','name']) # 두 column 내용이 겹치는 경우

0    False
1    False
2    False
3     True
4    False
5    False
dtype: bool

### 4. 데이터의 중복 제거하기 : `.drop_duplicates()`

중복값을 keep 인자에 따라서 unique한 1개의 key값만 남기고 나머지 중복은 제거를 한 후의 DataFrame을 반환합니다.

- `drop_duplicates(keep="...")` : 중복을 제거한 Series를 반환합니다.

In [24]:
# id Column에 대해 가장 처음 나오는 요소를 제외하고 전부 제거해봅시다.
new.drop_duplicates(['id'], keep='first')


Unnamed: 0,id,name
0,1,Alice
1,2,Alice
4,3,Cat
5,4,Dog


In [25]:
# id Column에 대해 가장 나중에 나오는 요소를 제외하고 전부 제거해봅시다.
new.drop_duplicates(['id'], keep='last')

Unnamed: 0,id,name
0,1,Alice
3,2,Bob
4,3,Cat
5,4,Dog


In [26]:
# id, name Column에 대해 중복되는 요소는 전부 제거해봅시다.
new.drop_duplicates(['id'], keep=False)

Unnamed: 0,id,name
0,1,Alice
4,3,Cat
5,4,Dog
