# 머신러닝 연습문제: 붓꽃 데이터셋

## 1. 데이터 로드 및 라이브러리 Import

- sklearn에서 필요한 라이브러리를 import합니다.


    ```python
    from sklearn.datasets import load_iris
    ```

<br>

- Iris 데이터를 로드합니다.

    ```python
    iris = load_iris()
    ```


아래 Python 코드 상자에 위의 내용을 직접 입력하여 실행해봅니다.

In [3]:
# - sklearn에서 필요한 라이브러리를 import합니다.

from sklearn.datasets import load_iris

# - Iris 데이터를 로드합니다.

iris = load_iris()

## 2. 데이터 탐색

- pandas 라이브러리를 pd라는 이름으로 import 합니다.

    ```python
    import pandas as pd
    ```

<br>

- 붓꽃 데이터를 pandas 데이터 프레임으로 생성 합니다.

    iris.data : 붓꽃 데이터 셋의 특성 데이터
    
    iris.feature_names : 특성 이름 리스트, 각 열이 어떤 특성을 나타내는 지 쉽게 해줌

    ```python
    data = pd.DataFrame(iris.data, columns=iris.feature_names)
    ```

<br>

- 데이터의 첫 5개 행을 출력하여 데이터 구조를 파악합니다. 

    ```python
    data.head()
    ```

<br>

- 데이터의 통계적 요약을 출력하여 특성을 이해합니다.

    ```python
    data.describe()
    ```

아래 Python 코드 상자에 위의 내용을 직접 입력하여 실행해봅니다.

In [4]:
# - pandas 라이브러리를 pd라는 이름으로 import 합니다.
import pandas as pd

# - 붓꽃 데이터를 pandas 데이터 프레임으로 생성 합니다.
data = pd.DataFrame(iris.data, columns=iris.feature_names)

# - 데이터의 첫 5개 행을 출력하여 데이터 구조를 파악합니다. 
data.head()

# - 데이터의 통계적 요약을 출력하여 특성을 이해합니다.
data.describe()


Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
count,150.0,150.0,150.0,150.0
mean,5.843333,3.057333,3.758,1.199333
std,0.828066,0.435866,1.765298,0.762238
min,4.3,2.0,1.0,0.1
25%,5.1,2.8,1.6,0.3
50%,5.8,3.0,4.35,1.3
75%,6.4,3.3,5.1,1.8
max,7.9,4.4,6.9,2.5


## 3. 데이터 전처리

- 불필요한 컬럼이 있다면 제거합니다. (여기서는 붓꽃 데이터셋에 불필요한 컬럼이 없으므로 변화가 없습니다.)

    ```python
    data.drop(columns=['컬럼명'], inplace=True)
    ```

<br>

- 결측치 처리 방법을 결정하고 적용합니다. (붓꽃 데이터셋에는 결측치가 없으므로 변화가 없습니다.) <br>   아래 예시는 평균값으로 적용

    ```python
    df.fillna(df.mean(), inplace=True)
    ```

<br>

- 데이터를 특성(`X`)과 타겟(`y`)으로 분리합니다.

    ```python
    X = data.iloc[:, :4]
    y = iris.target
    ```

    - `X`: 데이터 프레임의 처음 4개 컬럼 (꽃받침 길이, 꽃받침 너비, 꽃잎 길이, 꽃잎 너비)
    - `y`: 붓꽃 데이터셋의 타겟 값 (품종)

아래 Python 코드 상자에 위의 내용을 직접 입력하여 실행해봅니다.

In [5]:
# 불필요한 컬럼이 있다면 제거합니다.
#data.drop(columns=['컬럼명'], inplace=True)

# 결측치 처리 방법을 결정하고 적용합니다
data.fillna(data.mean(), inplace=True)

# 데이터를 특성(`X`)과 타겟(`y`)으로 분리합니다.
X = data.iloc[:, :4]
y = iris.target

## 4. 데이터 분할

- 데이터를 훈련 세트와 테스트 세트로 분할합니다. 비율은 80% 훈련, 20% 테스트로 설정합니다.

    ```python
    from sklearn.model_selection import train_test_split
    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
    ```

    - `train_test_split`: 데이터를 훈련 세트와 테스트 세트로 나누는 함수
    - `test_size=0.2`: 테스트 세트의 비율을 20%로 설정
    - `random_state=42`: 랜덤 시드를 설정하여 결과를 재현 가능하게 함


아래 Python 코드 상자에 위의 내용을 직접 입력하여 실행해봅니다.

In [7]:
# 데이터를 훈련 세트와 테스트 세트로 분할합니다. 비율은 80% 훈련, 20% 테스트로 설정합니다.
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

## 5. 모델 선택 및 훈련

### 서포트 벡터 머신(SVM) 모델 훈련

- 서포트 벡터 머신(SVM) 모델을 선택하여 훈련합니다.

    - `SVC`: SVM 모델을 초기화하는 클래스입니다.

        ```python
        from sklearn.svm import SVC
        ```

    <br>

    - SVM 모델의 인스턴스를 생성하고, 기본 매개변수를 사용합니다.

        ```python
        model = SVC()
        ```

        - `model`: SVM 모델의 인스턴스를 생성합니다.

    <br>

    - `model.fit(X_train, y_train)`: 훈련 세트(`X_train`, `y_train`)를 사용하여 모델을 학습시킵니다.

        ```python
        model.fit(X_train, y_train)
        ```

<br>

- 훈련된 모델을 사용하여 훈련 세트에서 성능을 평가합니다.

    - `model.score(X_train, y_train)`: 훈련 세트에 대한 모델의 정확도를 계산합니다.

        ```python
        train_score = model.score(X_train, y_train)
        ```

    <br>

    - `train_score`: 훈련 세트의 정확도 점수를 출력합니다.

        ```python
        train_score
        ```


아래 Python 코드 상자에 위의 내용을 직접 입력하여 실행해봅니다.

In [8]:
# 서포트 벡터 머신(SVM) 모델을 초기화하는 클래스 import
from sklearn.svm import SVC
# SVM 모델의 인스턴스를 생성
model = SVC()
# 훈련 세트(X_train, y_train)를 사용하여 모델을 학습
model.fit(X_train,y_train)
# 훈련 세트에 대한 모델의 정확도를 계산
train_score = model.score(X_train,y_train)
# 훈련 세트의 정확도 점수를 출력
train_score

0.975

## 6-1. 모델 평가

- 테스트 세트를 사용하여 모델의 성능을 평가합니다.

    ```python
    test_score = model.score(X_test, y_test)
    test_score
    ```

    - `model.score(X_test, y_test)`: 테스트 세트에 대한 모델의 정확도를 계산합니다.
    - `test_score`: 테스트 세트의 정확도 점수를 출력합니다.

<br>

- 성능 지표로는 정확도, 혼동 행렬, 정밀도, 재현율, F1 점수 등을 사용할 수 있습니다.

    - `confusion_matrix(y_test, y_pred)`: 실제 값(`y_test`)과 예측 값(`y_pred`)을 비교하여 혼동 행렬을 생성합니다.
    
        ```python
        from sklearn.metrics import confusion_matrix, classification_report
        ```

    <br>

    - 테스트 세트에 대한 예측 수행

        ```python
        y_pred = model.predict(X_test)
        ```

    <br>

    - 혼동 행렬 생성

        ```python
        conf_matrix = confusion_matrix(y_test, y_pred)
        ```

    <br>

    - 분류 보고서 생성 (정밀도, 재현율, F1 점수 등 포함)

        ```python
        class_report = classification_report(y_test, y_pred)
        ```

    <br>

    - 혼동 행렬 출력

        ```python
        conf_matrix
        ```

    <br>

    - 분류 보고서 출력

        ```python
        class_report
        ```


아래 Python 코드 상자에 위의 내용을 직접 입력하여 실행해봅니다.

In [9]:
# 테스트 세트에 대한 모델의 정확도를 계산
test_score = model.score(X_test,y_test)

# 테스트 세트의 정확도 점수를 출력
test_score

# 성능 지표 계산을 위한 메트릭 함수들 import
from sklearn.metrics import confusion_matrix, classification_report

# 테스트 세트에 대한 예측 수행
y_pred = model.predict(X_test)

# 혼동 행렬 생성
conf_matrix = confusion_matrix(y_test,y_pred)

# 분류 보고서 생성 (정밀도, 재현율, F1 점수 등 포함)
class_report = classification_report(y_test,y_pred)

# 혼동 행렬 출력
print(conf_matrix)

# 분류 보고서 출력
print(class_report)


[[10  0  0]
 [ 0  9  0]
 [ 0  0 11]]
              precision    recall  f1-score   support

           0       1.00      1.00      1.00        10
           1       1.00      1.00      1.00         9
           2       1.00      1.00      1.00        11

    accuracy                           1.00        30
   macro avg       1.00      1.00      1.00        30
weighted avg       1.00      1.00      1.00        30

