# **📊 데이터 스케일링: 실습(Scaling: Practice)**

**🌺 Iris Dataset**
- 데이터 출처 [Scikit learn-The Iris Dataset](https://scikit-learn.org/1.5/auto_examples/datasets/plot_iris_dataset.html)
- 붓꽃의 꽃받침과 꽃잎의 넓이, 길이를 측정하여 붓꽃 3종(setosa, veriscolor, virginica)를 예측하는데 쓰이는 데이터셋
- 데이터프레임 주요 변수 정보
    - sepal length: 꽃받침의 길이
    - sepal width: 꽃받침의 너비
    - petal length: 꽃잎의 길이
    - petal width: 꽃잎의 너비

- Standard scaler, minmax scaler, robust scaler 중 적절한 변


## **1. 데이터 불러오기 및 변환**

### **1-1 모듈 불러오기**

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
%matplotlib inline


# 데이터 불러오기
data = pd.read_csv("./data/iris.csv")

### **1-2 데이터 확인**

In [None]:
# 앞에서 5개의 행에 해당하는 데이터를 확인하는 코드를 작성하세요


In [None]:
# 데이터프레임의 row, column 사이즈를 확인하세요


In [None]:
# 데이터의 결측치에 대해서 확인하고, 결측치가 존재하는 경우 평균값으로 대체하세요


### **1-3 원본 데이터 분포 확인**

In [None]:
# 데이터 프레임의 'sepal length(cm)' 열의 히스토그램을 확인하세요


### **1-4 시각화를 위한 함수 선언**
아래 cell을 실행하세요

In [None]:
def visualize_scaling(ori, sca, column):
    fig = plt.figure()
    ax = fig.add_subplot(111)
    ori[column].plot(kind='kde', ax =ax, label="original")
    sca[column].plot(kind='kde', ax=ax, label="scaled", color='red')
    ax.legend(loc='best')
    plt.show()

## **2. 정규화(Normalization)**

### **2-1 Standard scaler**

standard scaler를 이용해 scaling하고 'sepal length (cm)'의 분포 확인하기

In [None]:
# Standard scaling을 수행하기 위한 모듈을 불러오세요
from sklearn.preprocessing import StandardScaler

# scaling을 위한 인스턴스를 생성하세요
standard = {}

# Standard scaling을 수행한 데이터를 추출하세요
scaled = standard.fit_transform(data.iloc[:, :-1])
scaled_df = pd.DataFrame(scaled, columns=data.columns[:-1])
scaled_df['species'] = data['species']
std_df = scaled_df

In [None]:
# Standard scaling을 수행한 데이터의 히스토그램 확인


In [None]:
# 원본 데이터와 스케일링 이후 데이터의 kde 확인
visualize_scaling(data, std_df, 'sepal length (cm)')

### **2-2 Min-Max scaler**

min-max scaler를 이용해 scaling을 하고 'sepal width (cm)'열의 분포 확인하기

In [None]:
# Min-Max scaling을 수행하기 위한 모듈 불러오기
from sklearn.preprocessing import MinMaxScaler

# 인스턴스 생성
minmax = {}

# Min-Max scaling을 수행한 데이터를 추출하세요
scaled = {}
scaled_df = pd.DataFrame(scaled, columns=data.columns[:-1])
scaled_df['species'] = data['species']
minmax_df = scaled_df

In [None]:
# Min-Max scaling을 수행한 데이터 'sepal width (cm)'열의 히스토그램 확인하세요


In [None]:
# 원본 데이터와 Min-Max scaling 데이터의 분포 차이를 확인하세요
visualize_scaling(data, minmax_df, 'sepal width (cm)')

### **2-3 Robust scaler**

robust scaler를 이용해 scaling을 하고 'petal length (cm)'열의 분포 확인하기

In [None]:
# Robust scaling을 수행하기 위한 모듈 불러오기
from sklearn.preprocessing import RobustScaler

# 인스턴스 생성
robust = {}

# Robust scaling을 수행한 데이터를 추출하세요
scaled = {}
scaled_df = pd.DataFrame(scaled, columns=data.columns[:-1])
scaled_df['species'] = data['species']
robust_df = scaled_df

In [None]:
# Robst scaling을 수행한 데이터 'petal length (cm)'열의 히스토그램 확인하세요


In [None]:
# 원본 데이터와 Min-Max scaling 데이터의 분포 차이를 확인하세요
visualize_scaling(data, robust_df, 'petal length (cm)')

### **2-4 MaxAbs scaler**

maxabs scaler를 이용해 scaling을 하고 'petal width (cm)'열의 분포 확인하기

In [None]:
# MaxAbs scaling을 수행하기 위한 모듈 불러오기


# 인스턴스 생성


# Robust scaling을 수행한 데이터 추출






In [None]:
# Robust scaling을 수행한 데이터 'petal width (cm)' 열의 히스토그램을 확인하세요


In [None]:
# 원본 데이터와 Robust scaling 데이터의 분포 차이를 확인하세요
visualize_scaling(data, maxabs_df, 'petal width (cm)')

## **3. 간단한 모델을 이용한 분류 성능 비교**
- SVM 을 이용한 분류 성능 비교
- 데이터의 특징과 task에 적합한 scaling 기법을 적용하는 것이 중요

In [None]:
# 분류 성능 확인을 위한 모듈 불러오기
from sklearn.model_selection import train_test_split
from sklearn.svm import SVC
from sklearn.tree import DecisionTreeClassifier as dtc
from sklearn.metrics import accuracy_score

In [None]:
scaled_data = {
    'original': data,
    'standard': std_df, 
    'minmax': minmax_df, 
    'robust': robust_df } 
results = {}
for name, df in scaled_data.items():
    # Feature와 Target 분리
    X = df.iloc[:, :-1]  # Features (species 제외)
    y = df['species']    # Target (species)
    
    # Train/Test Split
    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
    
    # Decision Tree 모델 학습
    model = SVC(kernel="linear", random_state=42)
    model.fit(X_train, y_train)
    
    # 예측 및 정확도 계산
    y_pred = model.predict(X_test)
    accuracy = accuracy_score(y_test, y_pred)
    results[name] = accuracy

In [None]:
plt.figure(figsize=(8, 6))
plt.bar(results.keys(), results.values(), color=['gray', 'blue', 'green', 'orange'])
plt.title("Prediction Accuracy for Each Scaling Method (SVM)")
plt.ylabel("Accuracy")
plt.xlabel("Scaling Method")
plt.ylim(0, 1)  # 정확도 범위는 0~1
plt.show()

🤖 정확한 예측을 하기 위해 적용해야 하는 scaling 기법은 어떤 것일까요? 