# 데이터 중복값 처리

데이터를 수집하거나 여러 데이터 소스를 결합하는 과정에서 동일한 데이터가 여러 번 기록되는 경우가 발생할 수 있습니다. 이러한 **중복 데이터(Duplicate Data)**는 데이터 분석 결과를 왜곡시킬 수 있으므로, 전처리 과정에서 반드시 확인하고 제거해야 합니다.

### 왜 중복값을 처리해야 하는가?

1.  **분석 왜곡**: 동일한 데이터가 여러 개 존재하면 특정 값의 개수가 부풀려져 통계량이 왜곡될 수 있습니다.
2.  **모델 성능 저하**: 머신러닝 모델 학습 시, 중복된 데이터는 특정 패턴에 과적합(Overfitting)되는 원인이 될 수 있습니다.
3.  **자원 낭비**: 불필요한 데이터가 저장 공간과 계산 리소스를 낭비하게 됩니다.

In [None]:
import pandas as pd

# 예제 데이터프레임 생성 (중복값 포함)
data = {
    'c1': ['a', 'b', 'c', 'a', 'd', 'b'],
    'c2': [1, 2, 3, 1, 4, 2],
    'c3': [10.1, 20.2, 30.3, 10.1, 40.4, 20.2]
}
df = pd.DataFrame(data)

print("--- 원본 데이터프레임 ---")
print(df)

## 1. 중복값 확인 (`duplicated()`)

`duplicated()` 메서드는 각 행이 이전에 나타난 행과 중복되는지 여부를 boolean 값 (True/False)으로 반환합니다. 모든 열의 값이 완전히 동일해야 중복으로 간주합니다.

### 주요 파라미터
- `keep`: 중복된 값들 중 어떤 것을 `False` (중복 아님)로 표시할지 결정합니다.
  - `'first'` (기본값): 처음 나타나는 값은 `False`, 그 이후의 중복값들은 `True`로 표시합니다.
  - `'last'`: 마지막에 나타나는 값은 `False`, 그 이전의 중복값들은 `True`로 표시합니다.
  - `False`: 모든 중복값들을 `True`로 표시합니다.

In [None]:
# 중복 여부 확인 (기본값 keep='first')
# 0, 1, 2, 4번 행은 처음 나타났으므로 False
# 3번 행은 0번 행과 중복, 5번 행은 1번 행과 중복이므로 True
print("--- 중복 확인 (keep='first') ---")
print(df.duplicated())

# 중복된 행들만 필터링하여 확인
print("\n--- 중복된 행 조회 ---")
print(df[df.duplicated()])

# 모든 중복 행을 True로 표시 (keep=False)
print("\n--- 모든 중복 행 확인 (keep=False) ---")
print(df[df.duplicated(keep=False)])

## 2. 중복값 제거 (`drop_duplicates()`)

`drop_duplicates()` 메서드는 중복된 행을 제거한 새로운 데이터프레임을 반환합니다.

### 주요 파라미터
- `subset`: 중복 여부를 판단할 기준이 되는 열(들)을 리스트 형태로 지정합니다. 지정하지 않으면 모든 열을 기준으로 판단합니다.
- `keep`: 중복된 값들 중 어떤 것을 남길지 결정합니다. (`'first'`, `'last'`, `False`)
  - `'first'` (기본값): 처음 나타나는 값만 남기고 나머지는 제거합니다.
  - `'last'`: 마지막에 나타나는 값만 남기고 나머지는 제거합니다.
  - `False`: 모든 중복값을 제거합니다.
- `inplace`: `True`로 설정하면 원본 데이터프레임을 직접 수정합니다. (기본값은 `False`)

In [None]:
# 모든 열을 기준으로 중복된 행 제거 (기본값 keep='first')
df_deduplicated = df.drop_duplicates()
print("--- 전체 열 기준 중복 제거 후 ---")
print(df_deduplicated)

# 마지막 중복값을 남기고 제거 (keep='last')
df_deduplicated_last = df.drop_duplicates(keep='last')
print("\n--- 마지막 값 남기고 중복 제거 후 ---")
print(df_deduplicated_last)

### 특정 열을 기준으로 중복 처리

때로는 모든 열이 아니라 특정 열의 값이 중복되는 경우만 처리하고 싶을 수 있습니다. 이때 `subset` 파라미터를 사용합니다.

In [None]:
# 'c1' 열의 값을 기준으로 중복 제거
# 'a'와 'b'가 중복되므로, 처음 나타나는 0번, 1번 행만 남음
df_subset_deduplicated = df.drop_duplicates(subset=['c1'])
print("--- 'c1' 열 기준 중복 제거 후 ---")
print(df_subset_deduplicated)

# 'c1'과 'c2' 열을 기준으로 중복 제거
# (c1, c2) 쌍이 ('a', 1), ('b', 2)인 행들이 중복되므로, 처음 나타나는 행들만 남음
df_subset_multi_deduplicated = df.drop_duplicates(subset=['c1', 'c2'])
print("\n--- 'c1', 'c2' 열 기준 중복 제거 후 ---")
print(df_subset_multi_deduplicated)