# 중복 데이터 처리

- 데이터프레임에서 각 행은 분석 대상이 갖고 있는 모든 속성에 댛ㄴ 관측값을 뜻함
- 하나의 데이터셋에서 동일한 관측값이 중복되는 경우 분석 결과를 왜곡할 수 있기 때문에 삭제해야 함

## 중복 데이터 확인

- duplicated()
    - 행의 레코드가 중복되는지 여부를 확인
    - 전에 나온 행들과 비교하여 중복되는 행이면 True를 반환하고 처음 나오는 행은 False를 반환
    
- 데이터프레임에 duplicated() 메서드를 적용하면 각 행의 중복 여부를 나타내는 boolean 시리즈를 반환

In [1]:
import pandas as pd

In [7]:
# 중복 데이터를 갖는 데이터프레임 만들기
df = pd.DataFrame({"name" : ["Alice", "Bob", "Charlie", "Bob", "Charlie"],
                  "age" : [25, 30, 35, 30, 68],
                  "city" : ["New York", "Paris", "London", "Paris", "London"]})

In [8]:
df

Unnamed: 0,name,age,city
0,Alice,25,New York
1,Bob,30,Paris
2,Charlie,35,London
3,Bob,30,Paris
4,Charlie,68,London


In [9]:
# 데이터프레임 전체 행 데이터 중에서 중복값 찾기
df.duplicated()

0    False
1    False
2    False
3     True
4    False
dtype: bool

In [10]:
# 데이터프레임의 특정 열 데이터에서 중복값 찾기
df["name"].duplicated()

0    False
1    False
2    False
3     True
4     True
Name: name, dtype: bool

In [14]:
# keep = "first"를 사용하면 첫 번째 값을 False로 반환하고 나머지를 True로 반환[기본값]
df["name"].duplicated(keep = "first")

0    False
1    False
2    False
3     True
4     True
Name: name, dtype: bool

In [15]:
# keep = "last"를 사용하면 마지막 값을 False로 반환하고 나머지는 True로 반환
df["name"].duplicated(keep = "last")

0    False
1     True
2     True
3    False
4    False
Name: name, dtype: bool

In [16]:
# keep = False를 사용하면 처음이나 끝인지 여부를 고려하지 않고 무조건 True를 반환
df["name"].duplicated(keep = False)

0    False
1     True
2     True
3     True
4     True
Name: name, dtype: bool

## 중복 데이터 제거

- drop_duplicates()
    - 중복되는 행을 제거하고 고유한 관측값을 가진 행들만 유지
    
    - subset 옵션에 열 이름의 리스트를 전달할 수 있음
        - 중복 여부를 판별할 때, subset 옵션에 해당하는 열을 기준으로 판단

In [17]:
df

Unnamed: 0,name,age,city
0,Alice,25,New York
1,Bob,30,Paris
2,Charlie,35,London
3,Bob,30,Paris
4,Charlie,68,London


In [18]:
# 데이터프레임에서 중복 행 제거
df. drop_duplicates()

Unnamed: 0,name,age,city
0,Alice,25,New York
1,Bob,30,Paris
2,Charlie,35,London
4,Charlie,68,London


In [20]:
# name 열을 기준으로 중복 행을 제거
df.drop_duplicates(subset = ["name"])

Unnamed: 0,name,age,city
0,Alice,25,New York
1,Bob,30,Paris
2,Charlie,35,London


In [21]:
# keep = "first"를 사용하면 처음 값을 남기고 나머지를 삭제(기본값)
df.drop_duplicates(subset = ["name"], keep = "first")

Unnamed: 0,name,age,city
0,Alice,25,New York
1,Bob,30,Paris
2,Charlie,35,London


In [22]:
# keep = "last"를 사용하면 마지막 값을 남기고 나머지를 삭제
df.drop_duplicates(subset = ["name"], keep = "last")

Unnamed: 0,name,age,city
0,Alice,25,New York
3,Bob,30,Paris
4,Charlie,68,London


In [24]:
# keep = False를 사용하면 모든 중복 데이터를 삭제
df.drop_duplicates(subset = ["name"], keep = False)

Unnamed: 0,name,age,city
0,Alice,25,New York
