### 붓꽃분류
- 데이터 셋 : iris.csv
- 피쳐/특성 : petal.length, petal.width
- 타겟/라벨 : variety
- 학습방법 : 지도학습 => 분류
- 학습 알고리즘 : KNN(최근접이웃 알고리즘)

[1] 데이터 준비

In [1]:
import pandas as pd

In [2]:
data = '../data/iris.csv'

In [6]:
# 행 : Setosa, Versicolor / 컬럼 : petal.length, petal.width => 2,3,4
flowerDF = pd.read_csv(data, usecols=[2,3,4])
flowerDF.head(3)

Unnamed: 0,petal.length,petal.width,variety
0,1.4,0.2,Setosa
1,1.4,0.2,Setosa
2,1.3,0.2,Setosa


In [7]:
mask = (flowerDF['variety']=='Setosa') | (flowerDF['variety']=='Versicolor')
flowerDF = flowerDF[mask]

In [9]:
# 품종 컬럼을 수치화 => Setosa 0 , Versicolor 1 
flowerDF['Code'] = flowerDF['variety'].replace({'Setosa' : 0 ,'Versicolor' : 1 })
flowerDF

Unnamed: 0,petal.length,petal.width,variety,Code
0,1.4,0.2,Setosa,0
1,1.4,0.2,Setosa,0
2,1.3,0.2,Setosa,0
3,1.5,0.2,Setosa,0
4,1.4,0.2,Setosa,0
...,...,...,...,...
95,4.2,1.2,Versicolor,1
96,4.2,1.3,Versicolor,1
97,4.3,1.3,Versicolor,1
98,3.0,1.1,Versicolor,1


[2] 피쳐와 타켓 분리

In [10]:
features = flowerDF[['petal.length', 'petal.width']]
target = flowerDF['Code']

print(f'features => {features.shape}, {features.ndim}D')
print(f'target => {target.shape}, {target.ndim}D')

features => (100, 2), 2D
target => (100,), 1D


[3] 데이터셋 준비 => 학습용, 테스트용

In [11]:
from sklearn.model_selection import train_test_split

In [12]:
# train:test = 80:20 ===> test_size = 0.2 또는 train_size = 0.8
# stratify 매개변수 : 분류일 경우 사용, 분류 타켓의 종류에 대한 비율을 고려
X_train, X_test, Y_train, Y_test = train_test_split(features, target, test_size=0.2, stratify=target, random_state=10)

In [13]:
print(f'X_train : {X_train.shape}, {X_train.ndim}D')
print(f'Y_train : {Y_train.shape}, {Y_train.ndim}D')

print(f'X_test : {X_test.shape}, {X_test.ndim}D')
print(f'Y_test : {Y_test.shape}, {Y_test.ndim}D')

X_train : (80, 2), 2D
Y_train : (80,), 1D
X_test : (20, 2), 2D
Y_test : (20,), 1D


In [14]:
# target 0(Setosa), 1(Versicolor)의 비율
Y_train.value_counts()[0]/Y_train.shape[0], Y_train.value_counts()[1]/Y_train.shape[0]

(0.5, 0.5)

In [15]:
Y_test.value_counts()[0]/Y_test.shape[0],Y_test.value_counts()[1]/Y_test.shape[0]

(0.5, 0.5)

[4] 훈련/학슥 진행
- 학습 알고리즘 인스턴스 생성
- 학습 진행 fit()

In [16]:
from sklearn.neighbors import KNeighborsClassifier

In [17]:
# 인스턴스 생성
model = KNeighborsClassifier()

In [18]:
# 학습 진행 ==> 학습용 데이터셋
model.fit(X_train, Y_train)

In [19]:
# 학습 후 모델 파라미터 
model.classes_, model.feature_names_in_, model.n_samples_fit_

(array([0, 1], dtype=int64),
 array(['petal.length', 'petal.width'], dtype=object),
 80)

[5] 모델 성능평가 ==> score() 메서드+테스트 데이터셋

In [20]:
model.score(X_test,Y_test)

1.0

[6] 예측하기 ==> 학습/훈련과 테스트에 사용되지 않은 데이터 사용
- 주의사항 : 입력데이터 ==> 2D

In [24]:
new_data = pd.DataFrame([[4.2,1.5]], columns=model.feature_names_in_)
new_data

Unnamed: 0,petal.length,petal.width
0,4.2,1.5


In [25]:
model.predict(new_data)

array([1], dtype=int64)