In [1]:
import numpy as np
import pandas as pd
import seaborn as sns
import platform

from matplotlib import pyplot as plt
from matplotlib import font_manager, rc
from scipy.stats import *
from sklearn.preprocessing import *
from scipy import *
import warnings
warnings.filterwarnings('ignore')
%matplotlib inline

In [8]:
df = pd.DataFrame(np.random.rand(5)) 
# 0~1 사이의 무작위수 -> 1차원 배열 -> 2차원 데이터 프레임
print(type(df))
df.head(2)

<class 'pandas.core.frame.DataFrame'>


Unnamed: 0,0
0,0.946667
1,0.107374


In [9]:
df = pd.DataFrame(np.random.rand(3, 4))
# 0~1 사이의 무작위수 -> 2차원 행과 열이 있는 테이블 -> 2차원 데이터 프레임
## DataFrame : 배열 XX -> 배열은 Numpy

print(type(df))
df.head(2)

<class 'pandas.core.frame.DataFrame'>


Unnamed: 0,0,1,2,3
0,0.478993,0.60944,0.200405,0.276005
1,0.767994,0.536238,0.681499,0.079809


In [4]:
df = pd.DataFrame(np.random.randn(5))
# 평균 0, 표준편차 1인 정규분포 ==> -1 ~ 1 근처에 (-3~~ 이런식으로도 나옴)
df

Unnamed: 0,0
0,0.730819
1,-1.273355
2,-1.99558
3,-2.733565
4,0.006611


In [5]:
df = pd.DataFrame(np.random.randn(3, 4))
df

Unnamed: 0,0,1,2,3
0,1.975815,-0.733163,-0.055764,0.705256
1,-0.724537,-0.942539,-0.328861,-1.066713
2,-0.297517,-0.016566,-0.416115,1.152769


---

# 데이터 전처리
- 데이터를 분석에 사용할 때 **성능을 더 좋게 만들기 위해 데이터 수정 또는 형태 변형**을 수행하는 과정
- 분석 목적에 맞게 데이터의 품질을 확인하고, 필요 시 품질을 높이기 위한 필터링 작업 포함
- **데이터 품질 요소**: 신뢰성, 정확성, 적시성(시의성) 등

---

## 데이터 전처리를 하는 이유
1. 수집한 데이터를 머신러닝 등에 **바로 사용할 수 있는 경우는 거의 없음**
2. 데이터 크기가 너무 크면 한 번에 분석하기 어려우므로 **적절히 축소** 필요
3. 잘못된 값, 이상치, 결측치(NaN) 등을 **처리해야 함**
4. 비정형 데이터라면 이를 **정형 데이터로 변환**해야 함

> **Note:** 파이썬으로 데이터 분석을 하려면 반드시 **정형 데이터** 형태여야 한다.
--- 

## 전처리 유형

1. **데이터 누락**
   - 중간에 데이터가 빠진 경우 (결측치 처리 필요)
     
2. **잘못된 값**
   - 틀린 값, 비현실적인 값 등이 들어 있는 경우 (오타, 잘못된 범위 값 등)
    
3. **단위 불일치**
   - 데이터 단위가 서로 다른 경우 (예: m ↔ inch, kg ↔ 파운드)
     
4. **결측치(NaN) 및 이상치 처리** <중요도 ↑>
   - NaN 값 보정 또는 제거
   - 이상치(Outlier) 탐지 및 처리
     
5. **범주형 데이터 변환**
   - 문자열 기반의 범주형 데이터를 숫자형 표현으로 변경 필요  
   - 예시:  
     - 요일 → 월요일=1, 화요일=2, …  
     - 성별 → 남성=0, 여성=1

---

## 데이터 변환

### 1. 로그 변환 (Log Transformation) 
- **정의**: 데이터에 로그 함수(ln, log10 등)를 적용
- **효과**:
  - 큰 값을 줄이고 작은 값의 차이를 확대 → 분포를 안정화
  - 분포가 한쪽으로 치우친 경우(오른쪽 긴 꼬리, positive skew) 정규 분포에 가깝게 만듦
- **예시**: 집값, 소득, 매출처럼 값의 범위가 큰 데이터를 log 변환 + 사람이 느끼는 오감


### 2. 역수 변환 (Reciprocal Transformation)
- 역수를 사용하면 선형적인 특성을 가져 분석의 정확도가 높아지는 경우
- 역수 관계: 자동차의 성능 지표
  - 자동차 마일리지(연료 1l로 가는 거리 km)
  - 연비

### 3. 정규 분포로 변환 (Normalization to Normal Distribution)
- **정의**: 데이터를 통계적 기법으로 변형하여 정규 분포(가우시안 분포)에 맞추는 방법
- **방법**:
  - Box-Cox 변환 (양수 데이터만 가능)
  - Yeo-Johnson 변환 (음수, 0 포함 가능)
- **효과**:
  - 정규성을 확보해 선형 회귀, ANOVA, t-test 등에서 가정 충족
  - 머신러닝 알고리즘의 학습 성능 향상

** 변환 목적: 선형시스템이어야 정확한 예측 가능

---

## 데이터 전처리 – 전처리 유형

| 구분 | 처리 방법 |
|------|------------|
| **결측치 (missing) 처리** | - 결측치가 포함된 항목을 **모두 버리는 방법**<br>  → 단, 비중이 크면 무시하기 어려움<br>- 결측치를 **적절한 값으로 대체**<br>  → 예: 0, 평균값, 최소값, 특정 상수, 인접 값 등으로 추정 보정<br>- **분석 단계로 결측치 처리 넘김** (NA로 표기)<br>- 별도의 범주형 변수를 정의하여 추적 가능하게 관리 |
| **틀린 값 (invalid) 처리** | - 틀린 값이 포함된 항목을 **모두 버리는 방법**<br>- 틀린 값을 **다른 적절한 값으로 대체**<br>- **분석 단계로 틀린 값 처리 넘김** |
| **이상치 (outlier) 검출** | - 값이 일반적인 범위를 벗어나 특별한 값을 갖는 경우<br>- 데이터 분석 과정의 활동이므로 **분석 단계로 넘김**<br>- 예: 도난 카드 사용, 불법 보험료 청구 등 |

---


In [11]:
df = pd.DataFrame({'A':[1, 2, np.nan, 4, 5],
                   'B':[6, 7, 8,np.nan, 10],
                   'C':[11, 12, 13, np.nan, np.nan]})
df

Unnamed: 0,A,B,C
0,1.0,6.0,11.0
1,2.0,7.0,12.0
2,,8.0,13.0
3,4.0,,
4,5.0,10.0,


In [12]:
pd.isna(df)

Unnamed: 0,A,B,C
0,False,False,False
1,False,False,False
2,True,False,False
3,False,True,True
4,False,False,True


In [14]:
pd.isna(df).sum() # 열 단위로 결측치 개수 세기

A    1
B    1
C    2
dtype: int64

In [21]:
dropDf = df.dropna()
dropDf

Unnamed: 0,A,B,C
0,1.0,6.0,11.0
1,2.0,7.0,12.0


In [22]:
dfAll = df.fillna(0)
dfAll

Unnamed: 0,A,B,C
0,1.0,6.0,11.0
1,2.0,7.0,12.0
2,0.0,8.0,13.0
3,4.0,0.0,0.0
4,5.0,10.0,0.0


In [18]:
dfC=df['C'].fillna(0)
dfC

0    11.0
1    12.0
2    13.0
3     0.0
4     0.0
Name: C, dtype: float64

In [19]:
dfA = df['A'].fillna('Missing')
dfA

0        1.0
1        2.0
2    Missing
3        4.0
4        5.0
Name: A, dtype: object

In [20]:
dfM = df.fillna(df.mean())
dfM

Unnamed: 0,A,B,C
0,1.0,6.0,11.0
1,2.0,7.0,12.0
2,3.0,8.0,13.0
3,4.0,7.75,12.0
4,5.0,10.0,12.0


In [23]:
dfUp = df.fillna(method='ffill') # 위의 값으로 대체
dfUp

Unnamed: 0,A,B,C
0,1.0,6.0,11.0
1,2.0,7.0,12.0
2,2.0,8.0,13.0
3,4.0,8.0,13.0
4,5.0,10.0,13.0


In [25]:
dfDown=df.fillna(method='bfill') # 아래 값으로 대체
dfDown

Unnamed: 0,A,B,C
0,1.0,6.0,11.0
1,2.0,7.0,12.0
2,4.0,8.0,13.0
3,4.0,10.0,
4,5.0,10.0,


In [26]:
dfCO = df.fillna({'A':df['A'].mean(), 'B':'12/15', 'C':'Missing'})
dfCO

Unnamed: 0,A,B,C
0,1.0,6.0,11.0
1,2.0,7.0,12.0
2,3.0,8.0,13.0
3,4.0,12/15,Missing
4,5.0,10.0,Missing


In [27]:
test = {'A':df['A'].min(), 'B':'5/4', 'C':'M'}
dfCO2 = df.fillna(value=test)
dfCO2

Unnamed: 0,A,B,C
0,1.0,6.0,11.0
1,2.0,7.0,12.0
2,1.0,8.0,13.0
3,4.0,5/4,M
4,5.0,10.0,M
