# 중복 데이터?
* 데이터가 중복으로 저장된 경우를 의미하며, 회원가입, 데이터베이스 오류, API 데이터 수집 중 발생할 수 있음
* 동일한 고객이 여러 번 기록되면, 통계 분석에서 특정 그룹의 비중이 과대평가될 수 있다.

# 중복 데이터 제거

## 중복 데이터 확인하기 : duplicated()

실습에 사용할 데이터를 준비하겠습니다.

In [None]:
import pandas as pd

# 예제 데이터 생성
data = {
    "이름": ["John", "Anna", "John", "Peter", "Anna"],
    "나이": [20, 25, 20, 30, 25],
    "도시": ["서울", "부산", "서울", "대전", "부산"]
}

df = pd.DataFrame(data)
df


중복된 데이터가 있는지 확인해보세요.

In [None]:
# 여기에 코드를 작성해보세요!

In [None]:
# 모범답안

print(df.duplicated())

<br/>
<br/>

## 중복데이터 제거하기 : drop_cuplicates()

중복된 데이터를 제거해보세요.

In [None]:
# 여기에 코드를 작성해보세요!

In [None]:
# 모범답안

df_unique = df.drop_duplicates()
df_unique

중복 데이터가 제거된 것을 확인 할 수 있었습니다.
만약 특정 열을 기준으로 중복 데이터를 제거 하고 싶다면 subset 옵션을 사용할 수 있습니다.  
"이름" 컬럼을 기준으로 중복 데이터를 제거합니다.  
중복 데이터 중 가장 첫번째 데이터만 남깁니다.

In [None]:
# 여기에 코드를 작성해보세요!

In [None]:
# 모범답안

df_clean = df.drop_duplicates(subset=["이름"], keep="first")
print(df_clean)


## value_counts() 활용 중복데이터 제거

중복 데이터를 확인하는 작업을 하려면 특정 열에서 value_counts()를 수행하여 갯수 2 이상이라면 중복으로 확인할 수 있습니다.

In [None]:
# 여기에 코드를 작성해보세요!

In [None]:
# 모범답안

print(df["이름"].value_counts())

# 결측치란?
* 데이터가 누락된 상태를 의미하며, 설문조사 응답 누락, 센서 오류, 시스템 입력 오류 등으로 발생할 수 있음

#결측치가 분석에 미치는 영향
* 데이터가 부족하면 평균, 합계 등 통계 계산이 정확하지 않을 수 있음
* 머신러닝 모델을 학습할 때 결측치가 많으면 모델의 성능이 저하될 수 있음
* 결측치가 포함된 데이터를 그대로 사용하면 잘못된 해석을 내릴 가능성이 높음
<br/>
<br/>

# 결측치 처리

## 결측치 확인 : isnull()

실습에 사용할 데이터를 준비하겠습니다.

In [None]:
import pandas as pd

data = {
    "이름": ["John", "Anna", "Peter", "Sue"],
    "나이": [20, 25, None, 30],  # 결측치 존재
    "도시": ["서울", None, "대전", "부산"]
}

df = pd.DataFrame(data)
df

결측치를 확인해보세요. 결측치가 있는 곳에 true 값이 들어있습니다.

In [None]:
# 여기에 코드를 작성해보세요!

In [None]:
# 모범답안

df.isnull()  # 결측치 확인

데이터에 **결측치**가 있는지 확인할 때,
True는 1, False는 0처럼 작동하는 파이썬의 특징을 이용하면
열마다 결측치가 몇 개인지 쉽게 알 수 있습니다.

sum() 메서드를 활용하여 결측치의 수를 확인해보세요.

In [None]:
# 여기에 코드를 작성해보세요!

In [None]:
# 모범답안

df.isnull().sum()

## 결측치 제거 :dropna()
결측치가 포함된 행을 모두 제거해보세요.

In [None]:
# 여기에 코드를 작성해보세요!

In [None]:
# 모범답안

df_clean = df.dropna()  # 결측치가 포함된 행 제거
df_clean

## 결측치를 특정 값으로 대체 : fillna()

결측치가 존재하는 모든 행을 삭제한다면, 데이터 갯수가 크게 줄어들 수 있습니다. 결측치를 제거하는 대신 특정 값으로 채울 수도 있습니다.  
`나이` 컬럼의 결측치는 나이의 평균 값으로 채우고 `도시` 컬럼의 결측치는 문자열 "알 수 없음"으로 채워보세요.

In [None]:
# 여기에 코드를 작성해보세요!



In [None]:
# 모범답안

df_age = df["나이"].fillna(df["나이"].mean())  # 나이를 평균값으로 채움

df_age

In [None]:
# 모범답안

df_city = df["도시"].fillna("알 수 없음")  # 도시를 "알 수 없음"으로 채움

df_city

# 이상치란?
* 데이터에서 정상적인 패턴에서 벗어난 극단적인 값을 의미함
* 이상치는 데이터 입력 오류, 센서 오작동, 특수한 상황 등으로 발생할 수 있음

# 이상치가 분석에 미치는 영향
* 평균값 등 대표값이 왜곡될 가능성이 높음
* 머신러닝 모델 학습 시 이상치에 의해 성능이 저하될 수 있음

<br/>
<br/>

# 이상치 제거

## 이상치 확인 : IQR 방법 사용

실습에 사용할 데이터를 준비하겠습니다.


In [None]:
import numpy as np
import pandas as pd

data = {
    "이름": ["John", "Anna", "Peter", "Sue", "Tedy"],
    "나이": [20, 25, 30, 120, 23]  # 120은 이상치
}

df = pd.DataFrame(data)


IQR(사분위 범위)은 하위 25%에 해당하는 제1사분위수(Q1)와 상위 25%에 해당하는 제3사분위수(Q3)의 차이를 통해 계산되는 값입니다.

IQR의 범위 상한선과 하한선을 계산하고 이 범위를 벗어나는 데이터를 찾아보세요.

In [None]:
# 여기에 코드를 작성해보세요!

In [None]:
# 모범답안

Q1 = np.percentile(df["나이"], 25)  # 1사분위수 (Q1)
Q3 = np.percentile(df["나이"], 75)  # 3사분위수 (Q3)
IQR = Q3 - Q1  # 사분위 범위

lower_bound = Q1 - (1.5 * IQR)
upper_bound = Q3 + (1.5 * IQR)

print(f"이상치 기준: {lower_bound} ~ {upper_bound}")
print(df[(df["나이"] < lower_bound) | (df["나이"] > upper_bound)])  # 이상치 찾기

## 이상치 제거
위에서 구한 IQR 범위 내에 들어오는 데이터를 찾아 DataFrame 을 추출한 후, 새로운 변수에 할당해보세요.

In [None]:
# 여기에 코드를 작성해보세요!

In [None]:
# 모범 답안

df_clean = df[(df["나이"] >= lower_bound) & (df["나이"] <= upper_bound)]
df_clean

<br/>
<br/>

---
<br/>
<br/>

# [자율] 실습문제

다음 주어진 데이터를 활용하여

1. 이 데이터에서 중복된 행을 제거하세요.
(전체 행 기준 중복입니다. 예: '김영희'가 완전히 같은 데이터로 2번 있음)


2. 이 데이터에서 **결측치(NaN)**가 있는 행을 제거하세요.

In [None]:
import pandas as pd
import numpy as np

data = {
    '이름': ['김영희', '이철수', '박민수', '김영희', '최지민', '정해인'],
    '부서': ['인사', '총무', '개발', '인사', '개발', np.nan],
    '입사연도': [2018, 2019, 2020, 2018, 2021, 2022],
    '연봉': [4500, 4700, 5000, 4500, np.nan, 5200],
    '성별': ['여', '남', '남', '여', '여', '남']
}

df = pd.DataFrame(data)
df


In [None]:
# 1. 여기에 코드를 작성해보세요!

In [None]:
# 2. 여기에 코드를 작성해보세요!

In [None]:
# 모범답안

# 1. 중복 행 제거
df_no_duplicates = df.drop_duplicates()
print("중복 제거 결과:")
print(df_no_duplicates)

# 2. 결측치 제거
df_no_na = df_no_duplicates.dropna()
print("\n결측치 제거 결과:")
print(df_no_na)