## 1. 데이터 탐색과 전처리

  - **핵심 원리**: 훌륭한 요리가 좋은 재료에서 시작되듯, 뛰어난 머신러닝 모델은 **잘 정제된 데이터**에서 비롯됨.
  - **프로세스의 중요성**: 모델링(레시피) 이전에 \*\*데이터 탐색(EDA)\*\*과 **전처리(재료 손질)** 과정이 프로젝트 성패의 80% 이상을 좌우함. 지저분한 데이터는 좋은 결과를 낼 수 없음.

## 2. 핵심 원리 파헤치기 (Deep Dive)

### EDA 가속화

  - **전통적 EDA**: `for` 문을 사용해 모든 변수를 일일이 `describe()`, `hist()` 등으로 확인하는 수작업 방식임.
  - **`dataprep` 활용**: 이 모든 과정을 자동화하여 **종합 보고서**를 생성해주는 도구임.
  - **장점**: 단 한 줄의 코드로 변수별 **분포(치우침, 이상치)**, 변수 간 **상관관계(다중공선성)**, **결측값 현황**을 한눈에 파악하여 분석 초기 방향을 빠르게 설정하도록 도움.

### 데이터 전처리

  - **직관적 비유**: 머신러닝 모델을 '숫자만 이해하고, 재료 단위(scale)에 민감한 까다로운 요리사'로 비유할 수 있음. 데이터 전처리는 이 요리사를 위한 재료 손질 과정임.

  - **`표준화(Standardization)`**: '**단위 맞추기**' 과정.

      - 변수마다 값의 범위가 다르면(예: 방 개수 vs 주택 넓이), 모델이 값의 범위가 큰 변수를 더 중요하다고 **착각**할 수 있음.
      - 모든 변수를 **공평한 출발선**에 세워 모델이 편견 없이 학습하도록 돕는 필수 과정임.

  - **`인코딩(Encoding)`**: '**숫자로 번역하기**' 과정.

      - '남성', '서울'과 같은 **문자(text) 데이터**를 모델이 이해할 수 있는 숫자로 변환하는 작업임.
      - **레이블 인코딩**: '서울=0, 부산=1'처럼 순서대로 번호를 부여함. 간단하지만 모델이 숫자의 크기를 **순서나 중요도로 오해**할 위험이 있음.
      - **원-핫 인코딩**: '서울 여부', '부산 여부'처럼 각 항목을 **새로운 독립 변수**로 만듦. 순서 관계의 오해는 없으나, 항목이 많아지면 \*\*'차원의 저주'\*\*에 빠질 수 있음.
      - **평균값 인코딩**: 'female'이라는 문자 대신 '**여성의 평균 생존율**'처럼 **예측 대상(Target)의 평균값**을 사용함. 모델에 강력한 힌트를 주어 매우 효과적이지만, **과적합(overfitting) 위험**이 높아 신중한 사용이 필요함.

  - **`결측값 처리(Imputation)`**: '**빈칸 채우기**' 과정.

      - 대부분의 알고리즘은 \*\*빈칸(NaN)\*\*이 있으면 오류를 발생시킴.
      - 이 빈칸을 **평균, 중앙값** 등 통계적으로 가장 그럴듯한 값으로 채워 모델이 안정적으로 학습하도록 만듦.

## 4. 실전 코드 분석 및 적용 (Code Walkthrough & Application)

### 2.2 데이터 EDA 가속화

  - 데이터 탐색 과정을 단순화하여 시간을 줄여주는 **`dataprep`** 패키지를 활용함.

아래 코드는 코랩 버전 특성 상 진행하지 않습니다. 확인만 하시면 됩니다.

In [None]:
# dataprep 패키지 설치
!pip install dataprep -q



`dataprep.eda` 모듈의 주요 함수는 다음과 같습니다.

- `plot()`: 데이터프레임의 각 변수에 대한 분포를 다양한 그래프로 표시합니다.
    
- `plot_correlation()`: 변수들 사이의 상관계수를 히트맵으로 그려줍니다.
    
- `plot_missing()`: 결측값 분포를 쉽게 확인할 수 있도록 도와줍니다.
    



In [None]:
# 필요한 라이브러리 및 함수 임포트
from dataprep.eda import plot, plot_correlation, plot_missing
# dataprep.eda: 데이터 탐색적 분석(EDA, Exploratory Data Analysis)을 돕는 라이브러리
# plot: 단일/다중 변수의 분포 및 관계 시각화
# plot_correlation: 변수들 간 상관관계(피어슨, 스피어만 등)를 시각화
# plot_missing: 결측치 분포를 시각화

import seaborn as sns
# seaborn: 시각화 라이브러리 (matplotlib 기반), 데이터셋 로드 기능도 제공

# iris 데이터셋 로드
iris = sns.load_dataset("iris")



#### 1) `plot()`

`plot()` 함수는 데이터프레임의 기본 통계량과 각 변수에 대한 분포를 여러 가지 방법으로 표현해 줍니다.



In [None]:
# iris 데이터프레임 전체에 대한 EDA 리포트 생성
plot(iris)



코드 해설

단 한 줄의 코드로 모든 변수의 분포를 시각화하고, `Show Stats and Insights` 버튼을 통해 데이터셋의 기초 통계량(변수 개수, 행 개수, 결측값, 중복값 등)과 간단한 인사이트(데이터가 치우쳤는지 등)를 얻을 수 있습니다.
여기서 우리는 각 변수의 분포가 정규분포를 따르는지, 혹은 특정 값에 치우쳐 있는지 등을 빠르게 파악해야 합니다.

특정 변수에 관심이 있는 경우, 해당 변수 이름을 매개변수로 전달하여 더 자세한 그래프를 볼 수 있습니다.



In [None]:
# 'species' 변수에 대한 상세 분석 (막대 수 20개로 지정)
plot(iris, "species", bins=20)



코드 해설

범주형 변수인 'species'를 지정하면 막대그래프, 파이 차트, 워드 클라우드 등 다양한 관점에서 변수를 분석한 결과를 보여줍니다.
이를 통해 각 범주(class)의 데이터 개수가 균등한지(balanced) 혹은 불균등한지(imbalanced) 확인할 수 있습니다.

두 개의 변수를 전달하면 두 변수 간의 관계를 시각화합니다.



In [None]:
# 'petal_length'와 'petal_width' 두 변수 간의 관계 분석
plot(iris, "petal_length", "petal_width")



코드 해설

두 숫자형 변수를 입력하면 기본적으로 산점도(Scatter Plot)를 그려주며, Hexbin Plot, Box Plot 등 다른 형태의 그래프로도 관계를 확인할 수 있습니다.
산점도를 통해 두 변수 간에 선형 관계가 있는지, 비선형 관계가 있는지, 혹은 아무 관계가 없는지를 직관적으로 파악할 수 있습니다.

#### 2) `plot_correlation()`

`plot_correlation()` 함수는 변수 사이의 상관 행렬을 그립니다.



In [None]:
# 모든 숫자형 변수 간의 상관관계 분석
plot_correlation(iris)



코드 해설

Pearson, Spearman 등 여러 상관계수를 계산하고 시각화하여 변수 간의 선형 및 비선형 관계를 종합적으로 파악할 수 있도록 도와줍니다.
특히 상관계수가 매우 높은(예: 0.9 이상) 변수 쌍은 다중공선성(multicollinearity) 문제를 일으킬 수 있으므로 주의 깊게 살펴봐야 합니다.

특정 변수 간의 관계에만 관심이 있다면 `x`, `y` 매개변수를 지정할 수 있습니다.



In [None]:
# 'petal_length'와 'petal_width'의 상관관계와 회귀선, 영향점이 큰 10개 점 표시
plot_correlation(iris, x="petal_length", y="petal_width", k=10)



코드 해설

두 변수의 관계를 산점도와 회귀선으로 보여주며, k 옵션을 통해 회귀선에 가장 큰 영향을 미치는 데이터 포인트를 시각적으로 확인할 수 있습니다.
이를 통해 일반적인 추세에서 벗어나는 이상치(outlier)를 식별하는 데 도움을 받을 수 있습니다.

#### 3) `plot_missing()`

결측치의 분포도 쉽게 확인할 수 있습니다.



In [None]:
# iris 데이터의 결측값 분포 시각화
plot_missing(iris)



코드 해설

iris 데이터셋은 결측치가 없으므로 모든 막대가 100%로 표시됩니다.
이 함수는 결측치에 대한 기본 통계정보 외에도 막대그래프, 스펙트럼, 히트맵, 덴드로그램 등 다양한 모양의 결측치 분포 그래프를 제공하여 데이터의 누락 패턴이 무작위적인지 혹은 특정 변수나 행에 집중되어 있는지를 직관적으로 파악하게 해줍니다.

### 3절. 데이터 전처리


#### 3.1 표준화(Standardization)

  - 데이터를 특정 규칙에 따라 변환하는 과정으로, **`sklearn.preprocessing`** 모듈의 함수들을 이용함.


In [None]:
# 표준화 실습을 위한 데이터 준비
import seaborn as sns
iris = sns.load_dataset("iris")
iris_X = iris.iloc[:, :-1] # 종(species) 열을 제외한 나머지 데이터
iris_X.head()

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2
3,4.6,3.1,1.5,0.2
4,5.0,3.6,1.4,0.2


##### 코드 해설

##### `scale()`: 기본 표준화


  - **평균 0, 표준편차 1**이 되도록 변환하는 가장 일반적인 표준화 방법임. 데이터를 **표준 정규 분포**와 유사한 형태로 만듦.

In [None]:
from sklearn.preprocessing import scale

# 데이터를 표준 정규분포에 맞게 표준화
iris_scaled = scale(iris_X)

print("표준화 후 데이터 (처음 5개):\n", iris_scaled[:5, :])
print("\n표준화 후 각 열의 평균:\n", iris_scaled.mean(axis=0))
print("\n표준화 후 각 열의 표준편차:\n", iris_scaled.std(axis=0))

표준화 후 데이터 (처음 5개):
 [[-0.90068117  1.01900435 -1.34022653 -1.3154443 ]
 [-1.14301691 -0.13197948 -1.34022653 -1.3154443 ]
 [-1.38535265  0.32841405 -1.39706395 -1.3154443 ]
 [-1.50652052  0.09821729 -1.2833891  -1.3154443 ]
 [-1.02184904  1.24920112 -1.34022653 -1.3154443 ]]

표준화 후 각 열의 평균:
 [-4.73695157e-16 -7.81597009e-16 -4.26325641e-16 -4.73695157e-16]

표준화 후 각 열의 표준편차:
 [1. 1. 1. 1.]


##### 코드 해설

##### `robust_scale()`: 이상치에 강건한 표준화

  - **중위수(median)**와 **사분위범위(interquartile range)**를 사용하여 **이상치(outlier)의 영향을 최소화**하는 강건한 표준화 방식임.

In [None]:
from sklearn.preprocessing import robust_scale

iris_robust_scaled = robust_scale(iris_X)
print("Robust 스케일링 후 데이터 (처음 5개):\n", iris_robust_scaled[:5, :])

Robust 스케일링 후 데이터 (처음 5개):
 [[-0.53846154  1.         -0.84285714 -0.73333333]
 [-0.69230769  0.         -0.84285714 -0.73333333]
 [-0.84615385  0.4        -0.87142857 -0.73333333]
 [-0.92307692  0.2        -0.81428571 -0.73333333]
 [-0.61538462  1.2        -0.84285714 -0.73333333]]


##### 코드 해설

##### `minmax_scale()`: Min-Max 표준화

  - 모든 데이터를 **0과 1 사이**의 값으로 변환함. **신경망(Neural Network)** 모델 등에서 주로 사용됨.

In [None]:
from sklearn.preprocessing import minmax_scale

iris_minmax_scaled = minmax_scale(iris_X)
print("Min-Max 스케일링 후 데이터 (처음 5개):\n", iris_minmax_scaled[:5, :])

Min-Max 스케일링 후 데이터 (처음 5개):
 [[0.22222222 0.625      0.06779661 0.04166667]
 [0.16666667 0.41666667 0.06779661 0.04166667]
 [0.11111111 0.5        0.05084746 0.04166667]
 [0.08333333 0.45833333 0.08474576 0.04166667]
 [0.19444444 0.66666667 0.06779661 0.04166667]]


##### 코드 해설

##### `maxabs_scale()`: MaxAbs 표준화


  - 각 변수의 **최대 절댓값**을 1로 만들어 **-1과 1 사이**의 값으로 변환함. 데이터의 **0 중심성**을 유지할 때 유용함.

In [None]:
from sklearn.preprocessing import maxabs_scale

iris_maxabs_scaled = maxabs_scale(iris_X)
print("MaxAbs 스케일링 후 데이터 (처음 5개):\n", iris_maxabs_scaled[:5, :])

MaxAbs 스케일링 후 데이터 (처음 5개):
 [[0.64556962 0.79545455 0.20289855 0.08      ]
 [0.62025316 0.68181818 0.20289855 0.08      ]
 [0.59493671 0.72727273 0.1884058  0.08      ]
 [0.58227848 0.70454545 0.2173913  0.08      ]
 [0.63291139 0.81818182 0.20289855 0.08      ]]


##### 코드 해설

##### 표준화 클래스



  - **`StandardScaler`**, **`MinMaxScaler`** 등의 클래스 사용 시, 스케일링 규칙(평균, 표준편차 등)을 객체에 저장 가능함.
  - 이를 통해 **새로운 데이터(테스트 데이터)에 동일한 규칙을 적용**하거나 원본 값으로 복원(**`inverse_transform`**)할 수 있음.
  - 이는 **데이터 유출(Data Leakage)**을 방지하는 핵심적인 방법임.

In [None]:
from sklearn.preprocessing import StandardScaler

# StandardScaler 객체 생성
sc = StandardScaler()

# fit_transform 메서드로 스케일링 규칙을 학습하고 데이터를 변환
iris_scaled = sc.fit_transform(iris.iloc[:, :-1])

# inverse_transform 메서드로 표준화된 데이터를 원본 스케일로 복원
iris_origin = sc.inverse_transform(iris_scaled)

print("StandardScaler로 변환 후 (처음 5개):\n", iris_scaled[:5, :])
print("\n원본 스케일로 복원 후 (처음 5개):\n", iris_origin[:5, :])

StandardScaler로 변환 후 (처음 5개):
 [[-0.90068117  1.01900435 -1.34022653 -1.3154443 ]
 [-1.14301691 -0.13197948 -1.34022653 -1.3154443 ]
 [-1.38535265  0.32841405 -1.39706395 -1.3154443 ]
 [-1.50652052  0.09821729 -1.2833891  -1.3154443 ]
 [-1.02184904  1.24920112 -1.34022653 -1.3154443 ]]

원본 스케일로 복원 후 (처음 5개):
 [[5.1 3.5 1.4 0.2]
 [4.9 3.  1.4 0.2]
 [4.7 3.2 1.3 0.2]
 [4.6 3.1 1.5 0.2]
 [5.  3.6 1.4 0.2]]


##### 코드 해설



#### 3.2 인코딩(Encoding)

 - 기계학습에 사용할 범주형 데이터를 숫자로 변환


##### 1) 레이블 인코딩


  - `LabelEncoder`는 범주형 데이터를 **0부터 K-1까지의 정수**로 변환

In [None]:
from sklearn.preprocessing import LabelEncoder

# LabelEncoder 객체 생성
le = LabelEncoder()

# fit 메서드로 어떤 클래스가 있는지 학습
le.fit(iris.species)
print("학습된 클래스:", le.classes_)

# transform 메서드로 실제 인코딩 수행
species_encoded = le.transform(iris.species)
print("인코딩된 결과 (일부):", species_encoded)

# inverse_transform 메서드로 다시 원래 문자로 변환
species_decoded = le.inverse_transform(species_encoded)
print("디코딩된 결과 (일부):", species_decoded[:10])

학습된 클래스: ['setosa' 'versicolor' 'virginica']
인코딩된 결과 (일부): [0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2
 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2
 2 2]
디코딩된 결과 (일부): ['setosa' 'setosa' 'setosa' 'setosa' 'setosa' 'setosa' 'setosa' 'setosa'
 'setosa' 'setosa']


##### 코드 해설



##### 2) 원-핫 인코딩



  - **클래스 수만큼의 새로운 열**을 생성하고, 해당하는 클래스의 열에만 **1을 표시**하는 방식

In [None]:
from sklearn.preprocessing import OneHotEncoder

# OneHotEncoder 객체 생성
enc = OneHotEncoder()

# fit의 인수는 2차원 배열이어야 하므로 reshape(-1, 1) 사용
enc.fit(species_encoded.reshape(-1, 1))

# transform을 통해 원-핫 인코딩 수행 (결과는 희소 행렬)
iris_onehot = enc.transform(species_encoded.reshape(-1, 1))
print("원-핫 인코딩 결과 (희소 행렬):\n", iris_onehot[:10])

# toarray() 메서드로 일반적인 배열로 변환하여 확인
print("\n배열로 변환한 결과 (처음 5개):\n", iris_onehot.toarray()[:5, :])

원-핫 인코딩 결과 (희소 행렬):
 <Compressed Sparse Row sparse matrix of dtype 'float64'
	with 10 stored elements and shape (10, 3)>
  Coords	Values
  (0, 0)	1.0
  (1, 0)	1.0
  (2, 0)	1.0
  (3, 0)	1.0
  (4, 0)	1.0
  (5, 0)	1.0
  (6, 0)	1.0
  (7, 0)	1.0
  (8, 0)	1.0
  (9, 0)	1.0

배열로 변환한 결과 (처음 5개):
 [[1. 0. 0.]
 [1. 0. 0.]
 [1. 0. 0.]
 [1. 0. 0.]
 [1. 0. 0.]]


##### 코드 해설



##### 3) 평균값 인코딩 (Mean Encoding)

  - 범주형 변수의 각 클래스를 해당 클래스에 속하는 데이터들의 **타겟 변수 평균값**으로 변환하는 기법

In [None]:
import seaborn as sns
titanic = sns.load_dataset("titanic")

# 성별(sex)에 따른 생존(survived) 평균 계산
sex_mean = titanic.groupby("sex")["survived"].mean()
print(sex_mean)

# map 함수를 이용해 평균값으로 인코딩된 새 열 생성
titanic['sex_mean'] = titanic['sex'].map(sex_mean)
titanic[['sex', 'sex_mean']].head()

sex
female    0.742038
male      0.188908
Name: survived, dtype: float64


Unnamed: 0,sex,sex_mean
0,male,0.188908
1,female,0.742038
2,female,0.742038
3,female,0.742038
4,male,0.188908


##### 코드 해설

In [None]:
# 스무딩을 위한 준비: 각 성별의 데이터 수 계산
titanic['sex_n_rows'] = titanic['sex'].map(titanic.groupby('sex').size())
# 전체 생존율 평균
global_mean = titanic["survived"].mean()
# 스무딩 강도를 조절하는 하이퍼파라미터 alpha
alpha = 8.7

# 스무딩 함수 정의
def smoothing(n_rows, target_mean):
    return (target_mean * n_rows + global_mean * alpha) / (n_rows + alpha)

# apply 함수를 이용해 스무딩 적용
titanic['sex_mean_smoothing'] = titanic.apply(
    lambda x: smoothing(x['sex_n_rows'], x['sex_mean']), axis=1)

titanic[['sex_mean', 'sex_mean_smoothing']].head()

Unnamed: 0,sex_mean,sex_mean_smoothing
0,0.188908,0.191804
1,0.742038,0.732381
2,0.742038,0.732381
3,0.742038,0.732381
4,0.188908,0.191804


#### 3.3 결측값 처리


  - `SimpleImputer`를 사용하여 누락된 정보(결측값)를 특정 값으로 채움

In [None]:
from sklearn.impute import SimpleImputer
import random
import numpy as np

# 결측값 처리를 위한 데이터 준비 (임의로 NaN 생성)
iris_X_missing = iris.iloc[:, :-1].copy()
random.seed(7902)
for col in range(4):
    iris_X_missing.iloc[random.sample(range(len(iris)), 20), col] = np.nan

iris_X_missing.head()

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width
0,,3.5,,0.2
1,4.9,,1.4,0.2
2,4.7,3.2,,
3,4.6,3.1,1.5,0.2
4,5.0,3.6,1.4,0.2




##### 1) 평균으로 채우기



In [None]:
# strategy='mean'으로 평균값 대치 Imputer 생성
imp_mean = SimpleImputer(strategy='mean')
# fit으로 각 열의 평균을 학습하고 transform으로 적용
iris_mean_imputed = imp_mean.fit_transform(iris_X_missing)
iris_mean_imputed[:5, :]

array([[5.79      , 3.5       , 3.74923077, 0.2       ],
       [4.9       , 3.07384615, 1.4       , 0.2       ],
       [4.7       , 3.2       , 3.74923077, 1.22615385],
       [4.6       , 3.1       , 1.5       , 0.2       ],
       [5.        , 3.6       , 1.4       , 0.2       ]])



##### 2) 중앙값으로 채우기



In [None]:
# strategy='median'으로 중앙값 대치 Imputer 생성
imp_median = SimpleImputer(strategy='median')
iris_median_imputed = imp_median.fit_transform(iris_X_missing)
iris_median_imputed[:5, :]

array([[5.7, 3.5, 4.4, 0.2],
       [4.9, 3. , 1.4, 0.2],
       [4.7, 3.2, 4.4, 1.3],
       [4.6, 3.1, 1.5, 0.2],
       [5. , 3.6, 1.4, 0.2]])


##### 3) 최빈값으로 채우기



In [None]:
# strategy='most_frequent'로 최빈값 대치 Imputer 생성
imp_mostfreq = SimpleImputer(strategy='most_frequent')
iris_mostfreq_imputed = imp_mostfreq.fit_transform(iris_X_missing)
iris_mostfreq_imputed[:5, :]

array([[5. , 3.5, 1.4, 0.2],
       [4.9, 3. , 1.4, 0.2],
       [4.7, 3.2, 1.4, 0.2],
       [4.6, 3.1, 1.5, 0.2],
       [5. , 3.6, 1.4, 0.2]])

#### 3.4 판다스를 이용한 결측치 처리

  - `pandas`의 **`groupby`**, **`apply`** 등을 활용하면 더 정교한 결측치 처리가 가능함.
  - 예를 들어, 전체 평균이 아닌 **각 품종(`species`)별 평균**으로 결측치를 채워 데이터 특성을 더 잘 보존할 수 있음.

In [None]:
import pandas as pd
import math

In [None]:
# 결측치가 있는 데이터와 종(species) 데이터를 다시 합침
iris_n = pd.concat([iris_X_missing, iris.iloc[:, -1]], axis=1)

# 종별로 각 열의 평균을 계산
iris_mean_by_species = iris_n.groupby("species").mean()
print("종별 평균:\n", iris_mean_by_species)

종별 평균:
             sepal_length  sepal_width  petal_length  petal_width
species                                                         
setosa          5.006667     3.454762      1.470455     0.246341
versicolor      5.863415     2.800000      4.280952     1.322727
virginica       6.522727     2.972340      5.520455     2.024444


In [None]:
# 결측치를 해당 행의 종(species)별 평균으로 대체하는 함수 정의
def na2mean(row):
    for i in range(4): # 4개 수치형 열 순회
        # 현재 값이 NaN인지 확인
        if pd.isna(row.iloc[i]):
            # NaN이라면, 현재 행의 species에 해당하는 평균값으로 대치
            # row.index[i] → 해당 열 이름 (예: "sepal_length")
            row.iloc[i] = iris_mean_by_species.loc[row["species"], row.index[i]]
    return row

In [None]:
# apply 함수로 모든 행에 함수 적용
iris_new = iris_n.apply(na2mean, axis=1)
iris_new.head()

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,5.006667,3.5,1.470455,0.2,setosa
1,4.9,3.454762,1.4,0.2,setosa
2,4.7,3.2,1.470455,0.246341,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa


##### 코드 해설

## 5. 핵심 요약 (Key Takeaways)


  - **EDA 자동화**: \*\*`dataprep`\*\*을 사용하면 데이터 분포, 상관관계, 결측값 패턴을 빠르게 파악하여 분석 시간 단축 가능함.
  - **데이터 표준화(스케일링)는 선택이 아닌 필수**: **거리 기반 모델**이나 **선형 모델**의 성능 보장을 위해 **`StandardScaler`** 등으로 변수 단위를 반드시 조정해야 함. (단, **트리 기반 모델**은 영향이 적음)
  - **인코딩은 정보의 예술**: 데이터 특성과 모델에 맞춰 **`LabelEncoder`**, **`OneHotEncoder`**, **`MeanEncoder`** 등 최적의 인코딩 전략 선택이 중요함.
  - **결측치 처리는 신중하게**: 전체 평균보다 **`pandas`의 `groupby`** 등을 활용한 **정교한 대치 방법**이 정보 손실을 최소화하고 성능을 높일 수 있음.