
# 🧠 첫 번째 머신러닝 실습: 붓꽃 품종 예측하기

이 노트북은 머신러닝을 처음 배우는 학습자들이 전반적인 **머신러닝 학습 프로세스**를 익히기 위한 실습입니다.

이 실습에서는 다음과 같은 머신러닝의 핵심 단계를 차례대로 따라가며 경험할 수 있습니다:

1. 데이터 불러오기 및 탐색  
2. 데이터 전처리  
3. 데이터 분할 (train/test split)  
4. 모델 선택 및 학습  
5. 모델 예측 및 평가

각 단계에 상세한 설명이 추가되어 있으니, 순서대로 따라오며 머신러닝의 전체 흐름을 익혀봅시다!





---


## 📌 머신러닝 기본 프로세스 개요

머신러닝 모델을 만드는 과정은 크게 아래와 같은 단계로 구성됩니다:

### 1. 데이터 수집 (Data Collection)
- 모델을 훈련시키기 위한 데이터를 준비합니다.
- 이 실습에서는 사이킷런에서 제공하는 붓꽃(iris) 데이터를 사용합니다.

### 2. 데이터 탐색 및 전처리 (EDA & Preprocessing)
- 데이터의 특징을 파악하고, 결측치나 이상치를 확인합니다.
- 범주형 데이터를 숫자로 바꾸거나, 스케일 조정이 필요한 경우 전처리합니다.

### 3. 데이터 분할 (Train/Test Split)
- 데이터를 학습용(train)과 평가용(test)으로 나눕니다.
- 보통 7:3 또는 8:2 비율로 나눕니다.

### 4. 모델 선택 및 학습 (Model Training)
- 사용할 알고리즘(예: 의사결정나무, KNN 등)을 선택하고 학습시킵니다.

### 5. 예측 및 평가 (Prediction & Evaluation)
- 학습된 모델로 테스트 데이터를 예측하고, 정확도 등의 지표로 성능을 평가합니다.




---

<br/><br/><br/><br/>

# 사이킷런을 이용하여 붓꽃(Iris) 데이터 품종 예측하기

## 0. 라이브러리 불러오기

In [None]:
# 필요한 라이브러리를 불러옵니다.
# 여기에 코드를 작성하세요 !

In [None]:


from sklearn.datasets import load_iris
import pandas as pd
import numpy as np


## 1. 데이터 불러오기
- 모델을 훈련시키기 위한 데이터를 준비합니다.
- 이 실습에서는 사이킷런에서 제공하는 붓꽃(iris) 데이터를 사용합니다.

-> 데이터 불러오기  : sklearn.datasets.load_iris

In [None]:
import pandas as pd

# 붓꽃 데이터 세트를 로딩합니다.
iris = load_iris()

# iris.data는 Iris 데이터 세트에서 피처(feature)만으로 된 데이터를 numpy로 가지고 있습니다.
iris_data = iris.data

# iris.target은 붓꽃 데이터 세트에서 레이블(결정 값) 데이터를 numpy로 가지고 있습니다.
iris_label = iris.target
print('iris target값:', iris_label)
print('iris target명:', iris.target_names)

# 붓꽃 데이터 세트를 자세히 보기 위해 DataFrame으로 변환합니다.
iris_df = pd.DataFrame(data=iris_data, columns=iris.feature_names)
iris_df['label'] = iris.target
iris_df.head(3)

iris target값: [0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2
 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2
 2 2]
iris target명: ['setosa' 'versicolor' 'virginica']


Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),label
0,5.1,3.5,1.4,0.2,0
1,4.9,3.0,1.4,0.2,0
2,4.7,3.2,1.3,0.2,0


## 2. 데이터 탐색 및 전처리 (EDA & Preprocessing)
- 데이터의 특징을 파악하고, 결측치나 이상치를 확인합니다.
- 범주형 데이터를 숫자로 바꾸거나, 스케일 조정이 필요한 경우 전처리합니다.
-> 붓꽃 데이터는 데이터에 결측치가 없고 모든 변수가 수치형입니다.







In [None]:
# 여기에 코드를 작성하세요 !

In [None]:
## 모범답안

iris_df.isnull().sum()

Unnamed: 0,0
sepal length (cm),0
sepal width (cm),0
petal length (cm),0
petal width (cm),0
label,0


In [None]:
## 모범답안

iris_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 150 entries, 0 to 149
Data columns (total 5 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   sepal length (cm)  150 non-null    float64
 1   sepal width (cm)   150 non-null    float64
 2   petal length (cm)  150 non-null    float64
 3   petal width (cm)   150 non-null    float64
 4   label              150 non-null    int64  
dtypes: float64(4), int64(1)
memory usage: 6.0 KB


## 3. 데이터 분할 (Train/Test Split)
- 필요한 라이브러리를 import  하세요
- 데이터를 학습용(train)과 평가용(test)으로 나눕니다.
- 보통 7:3 또는 8:2 비율로 나눕니다.
- random state는 자유롭게 설정하세요

In [None]:
# 여기에 코드를 작성하세요 !

In [None]:
## 모범답안

from sklearn.model_selection import train_test_split


X_train, X_test, y_train, y_test = train_test_split(iris_data, iris_label,
                                                    test_size=0.2, random_state=11)

## 4. 모델 선택 및 학습 (Model Training)
- 사용할 알고리즘(예: 의사결정나무, KNN 등)을 선택하고 학습시킵니다.
- 붓꽃 데이터는 꽃잎의 길이 / 너비 , 꽃받침의 길이 / 너비 에 따라 품종(species)을 나눈는 '분류' 문제입니다
-> 의사결정나무(DecisionTree) 모델 적용 예정



In [None]:
# 여기에 코드를 작성하세요 !

# 0. 모델 라이브러리를 불러오세요


# 1. 모델을 객체화 하세요


# 2. 학습을 수행하세요



In [None]:
## 모범답안

# 라이브러리 불러오기
from sklearn.tree import DecisionTreeClassifier

# DecisionTreeClassifier 객체 생성
dt_clf = DecisionTreeClassifier(random_state=11)

# 학습 수행
dt_clf.fit(X_train, y_train)

## 5. 예측 및 평가 (Prediction & Evaluation)
- 학습된 모델로 테스트 데이터를 예측하고, 정확도 등의 지표로 성능을 평가합니다.
- 분류 문제의 성능 측정 중에서 정확도를 기준으로 모델 평가 해봅니다
-> sklearn.metrics.accuracy_score


In [None]:
# 학습이 완료된 DecisionTreeClassifier 객체에서 테스트 데이터 세트로 예측 수행.
# 여기에 코드를 작성하세요 !



In [None]:
# 정확도로 성능 측정을 위한 라이브러리 import 후, 성능을 출력하세요
# 여기에 코드를 작성하세요 !

In [None]:
## 모범답안


pred = dt_clf.predict(X_test)


from sklearn.metrics import accuracy_score

print('예측 정확도: {0:.4f}'.format(accuracy_score(y_test,pred)))

예측 정확도: 0.9333
