In [None]:
'''
2025년 8월 27일 화이팅입니다!!!

이번 수업은 데이터의 전처리 - 결측치와 이상치 보정을 배우는 장이다.
'''

## 데이터 전처리!!

#### 1-1) 결측치 확인

In [None]:
'''
데이터에서 특정 값이 누락된 경우를 뜻한다.
Pandas 라이브러리의 isnull(), isnull().sum()을 이용하거나 info() 등을 통해 확인할 수 있다.
'''

In [39]:
import pandas as pd

# 예제 데이터프레임 생성
data = {"name"  : ['Alice', 'Bob', 'Charlie'],
        'Age'   : [25, None, 30],
        'Score' : [90, 85, None]
        }
df = pd.DataFrame(data)

print('#### 결측치 여부 확인 ####')
print(df.isnull())      ## 결측치가 존재하면 True 값을 띄운다

#### 결측치 여부 확인 ####
    name    Age  Score
0  False  False  False
1  False   True  False
2  False  False   True


In [None]:
## 시험 단골문제이므로 반드시 기억해야함!

print("#### 컬럼별 결측치 개수 확인 ####")
print(df.isnull().sum())

#### 컬럼별 결측치 개수 확인 ####
name     0
Age      1
Score    1
dtype: int64


In [3]:
print("#### 특정 열에 결측치 존재 여부 확인 ####")
print(df.isnull().any())

#### 특정 열에 결측치 존재 여부 확인 ####
name     False
Age       True
Score     True
dtype: bool


#### 1-2) 결측치 처리

In [None]:
'''
결측치를 발견했다면 이를 처리할 수 있는 방법은 삭제와 대체다.
삭제란 결측치가 존재하는 데이터(행) 자체를 삭제하는 것이고
대체는 평균값, 최빈값, 중앙값으로 대체할 수 있고
앞이나 뒷 값을 이용한 보간을 할 수 있으며
회귀분석을 통한 다중 대체법도 고려해 볼 수 있다.
'''

In [None]:
## 결측치를 대체하는 방법.
df_2 = df.fillna(0, inplace= False)     ## inplace = True이면 원본 데이터를 수정한다.
print(df_2)

## 결측치가 0으로 대체된 모습 - 

      name   Age  Score
0    Alice  25.0   90.0
1      Bob   0.0   85.0
2  Charlie  30.0    0.0


In [10]:
df_2 = df.fillna('결측치')
print(df_2)

      name   Age Score
0    Alice  25.0  90.0
1      Bob   결측치  85.0
2  Charlie  30.0   결측치


In [None]:
mean_age = df['Age'].mean()
df['Age'] = df['Age'].fillna(mean_age)

mean_score = df['Score'].mean()
df['Score'] = df['Score'].fillna(mean_score)

print(df)

# 결측치를 평균값으로 채운 모습이다.

      name   Age  Score
0    Alice  25.0   90.0
1      Bob  27.5   85.0
2  Charlie  30.0   87.5


In [37]:
# fillna()를 딕셔너리 형식을 이용해 채우는 방식

df2 = df.fillna({'Age'   : df['Age'].mean(),
                 'Score' : df['Score'].mean()
                })

print(df2)

      name   Age  Score
0    Alice  25.0   90.0
1      Bob  27.5   85.0
2  Charlie  30.0   87.5


In [None]:
# 혹은 column마다 다른 방법으로 결측치를 대체할 수도 있다

df2 = df.fillna({'Age'   : df['Age'].median(),         ## 중간값 대체
                 'Score' : df['Score'].mode()[0]       ## 최빈값 대체
                })

print(df2)

      name   Age  Score
0    Alice  25.0   90.0
1      Bob  27.5   85.0
2  Charlie  30.0   85.0


In [None]:
# 앞, 뒤 값으로 채우는 방식
df2 = df.fillna(method= "ffill", inplace= False)
print(df2)

df3 = df.fillna(method= 'bfill', inplace= False)
print(df3)              ## 뒷 값이 없어서 채워지지 않은 결측치가 있다.

      name   Age  Score
0    Alice  25.0   90.0
1      Bob  25.0   85.0
2  Charlie  30.0   85.0
      name   Age  Score
0    Alice  25.0   90.0
1      Bob  30.0   85.0
2  Charlie  30.0    NaN


  df2 = df.fillna(method= "ffill", inplace= False)
  df3 = df.fillna(method= 'bfill', inplace= False)


In [24]:
print(df)

# try-except로 예외 처리
for column in df.columns:
    try:
        df[column] = df[column].fillna(df[column].mean())
    except:
        print(f"'{column}' 열은 숫자형이 아니므로 건너뜁니다.")
        continue

print(df)

      name   Age  Score
0    Alice  25.0   90.0
1      Bob   NaN   85.0
2  Charlie  30.0    NaN
'name' 열은 숫자형이 아니므로 건너뜁니다.
      name   Age  Score
0    Alice  25.0   90.0
1      Bob  27.5   85.0
2  Charlie  30.0   87.5


In [None]:
## 결측치가 있는 행을 그대로 삭제하는 방식
df_3 = df.dropna()
print(df_3)

## 결측치가 있던 두개의 행이 삭제되었다.

    name   Age  Score
0  Alice  25.0   90.0


In [None]:
## dropna()의 인자 가운데 axis= 의 기본값은 0이다(행 삭제)
df_3 = df.dropna(axis=1)
print(df_3)

## 반대로 axis = 1로 설정하게 된다면 결측치가 존재하는 열을 삭제한다.

      name
0    Alice
1      Bob
2  Charlie


#### 2-1) 이상치 확인

In [None]:
'''
이상치(Outlier)는 데이터 분포에서 다른 값들과 크게 차이가 나는 값을 말한다.
키가 300cm이거나 나이가 200살이 넘는 경우가 이에 해당한다고 볼 수 있다.

이상치 확인을 위한 방법으로는 
1. 최대 최솟값 확인
2. IQR(사분위 범위)
3. Z-Score 확인
등이 있다. 하나하나씩 알아보도록 하겠다.
'''

In [None]:
import pandas as pd
import numpy  as np
from   scipy  import stats

In [63]:
data = {
    "Name" : ["Alice", "Bob", "Charlie", "David", "Eve", "Frank"],
    "Age"  : [25, 30, 28, 22, 150, 27],   # '150'은 이상치
    "Score": [90, 85, 88, 92, 87, 300]    # '300'은 이상치
}
df = pd.DataFrame(data)

print(df)

      Name  Age  Score
0    Alice   25     90
1      Bob   30     85
2  Charlie   28     88
3    David   22     92
4      Eve  150     87
5    Frank   27    300


In [None]:
# 1. 최대-최소값 확인 (scipy 라이브러리 - describe)
df.describe()       ## min과 max로 최소, 최대 확인 가능

Unnamed: 0,Age,Score
count,6.0,6.0
mean,47.0,123.666667
std,50.533157,86.419134
min,22.0,85.0
25%,25.5,87.25
50%,27.5,89.0
75%,29.5,91.5
max,150.0,300.0


In [None]:
# 2. IQR 사분위 범위
Q1 = df['Score'].quantile(0.25)
Q3 = df['Score'].quantile(0.75)

IQR = Q3 - Q1
print(IQR)

'''
이상치 판별 공식:
하한선: Q1 - 1.5 * IQR
상한선: Q3 + 1.5 * IQR
'''

upper = Q3 + 1.5 * IQR
lower = Q1 - 1.5 * IQR

print(upper)
print(lower)

## 80점보다 낮거나 98점 이상인 점수는 IQR에 따라서 아웃라이어로 간주된다는 것임
'''
장점:
간단하고 직관적
이상치에 강건함 (median 기반)
분포 모양에 상관없이 사용 가능
시각적으로 이해하기 쉬움 (박스플롯)

단점:
정상 범위가 넓어질 수 있음
소수의 극값만 이상치로 판별
1.5배 기준이 임의적
'''

outlier = df[(df['Score'] > upper) | (df['Score'] < lower)]
print(outlier)
# 성공적으로 이상치를 색출해냈다!!!

4.25
97.875
80.875
    Name  Age  Score
5  Frank   27    300


In [None]:
# 3. Z-Score 기준 이상치 (정규분포 신뢰수준 95%)
stats.zscore(df['Age'])         ## 보면 혼자 2.232 만큼 떨어진 표본이 있음.. 150세의 Eve 옹..
'''
장점:
정확한 통계적 기준 (표준편차 기반)
연속적인 점수 (이상치 정도 측정 가능)
정규분포에서 매우 효과적

단점:
정규분포 가정 필요 (비정규분포에서 부정확)
극값에 민감 (평균과 표준편차가 이상치에 영향받음)
소표본에서 불안정
'''

df['Age_Zscore']   = stats.zscore(df['Age'])
df['Score_Zscore'] = stats.zscore(df['Score'])
print(df)
print()

outlier = df[(df['Age_Zscore']   >  2) |
             (df['Age_Zscore']   < -2) |
             (df['Score_Zscore'] >  2) |
             (df['Score_Zscore'] < -2)
             ]
print(outlier)

## Zscore가 2를 넘어가면 이상치로 의심하고, 3이 넘어가면 확실한 상황!

      Name  Age  Score  Age_Zscore  Score_Zscore
0    Alice   25     90   -0.476910     -0.426757
1      Bob   30     85   -0.368522     -0.490137
2  Charlie   28     88   -0.411877     -0.452109
3    David   22     92   -0.541944     -0.401405
4      Eve  150     87    2.232808     -0.464785
5    Frank   27    300   -0.433555      2.235194

    Name  Age  Score  Age_Zscore  Score_Zscore
4    Eve  150     87    2.232808     -0.464785
5  Frank   27    300   -0.433555      2.235194


#### 2-2) 이상치 제거

In [None]:
## 바로 위 코드에서 이런 식의 응용을 할 수 있음
inlier = df[(df['Age_Zscore']   <  2) &
            (df['Age_Zscore']   > -2) &
            (df['Score_Zscore'] <  2) &
            (df['Score_Zscore'] > -2)
             ]
print(inlier)

      Name  Age  Score  Age_Zscore  Score_Zscore
0    Alice   25     90   -0.476910     -0.426757
1      Bob   30     85   -0.368522     -0.490137
2  Charlie   28     88   -0.411877     -0.452109
3    David   22     92   -0.541944     -0.401405
