---
# 머신러닝 분류(Classification)
분류는 데이터에 대해서 범주를 예측
<br>

- 의사결정나무 ( DecisionTreeClassifier )<br>
      - 지니계수를 낮추는 작업을 계속적으로 진행<br>
      - 지니계수 => 불순도를 나타내는 수치<br>
      - 불순도 => 서로 다른 종류(클래스)들이 섞여있는 정도<br>
- 랜덤포레스트 ( RandomForestClassifier )<br>
      - 의사결정나무를 앙상블한 알고리즘<br>
      - 앙상블 => 여러 알고리즘에 각 복원추출한 데이터를 가지고 모델을 만들어 결과값이 가장 좋은 알고리즘을 채택하는 방법<br>

- 서포트 벡터 머신 ( SVC )<br>
      - 서로 다른 데이터 분류 중 가장 가까운 두 데이터의 사이에 기준선을 만들어 분류
      - 기준선에서 떨어진 정도를 마진이라고 부름
      - 마진이 넓을수록 분류 성능이 좋음

- 로지스틱 회귀 ( LogisticRegression )<br>
      - 특정 확률 이상이면 분류
      - Sigmoid 함수를 사용하여 0에서 1까지 값 범위를 가짐
  
- K-인접 이웃 ( KNN )<br>
      - K개만큼 인접한 데이터를 비교하여 더 많은 범주에 속하는 알고리즘<br>
      - K 값을 적절히 정하는 것이 중요

<br><br>
평가에는 Accuracy를 사용

---
# 데이터 불러오기

In [52]:
import pandas as pd

file_path = "C:/Users/admin/Desktop/Homework/AI/AI_Class/Data/iris.csv"

# csv 파일인 경우
df = pd.read_csv(file_path)

# excel 파일인 경우
# df = pd.read_excel(file_path)

df

Unnamed: 0,SepalLength,SepalWidth,PetalLength,PetalWidth,Name
0,5.1,3.5,1.4,0.2,Iris-setosa
1,4.9,3.0,1.4,0.2,Iris-setosa
2,4.7,3.2,1.3,0.2,Iris-setosa
3,4.6,3.1,1.5,0.2,Iris-setosa
4,5.0,3.6,1.4,0.2,Iris-setosa
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,Iris-virginica
146,6.3,2.5,5.0,1.9,Iris-virginica
147,6.5,3.0,5.2,2.0,Iris-virginica
148,6.2,3.4,5.4,2.3,Iris-virginica


---
# 데이터 전처리

- 결측치 확인
- 결측치 제거 ( 제거, 평균값 이용 )
- 스케일링
- 레이블인코딩
- 필요없는 컬럼 삭제 ( drop )

In [55]:
df.isnull().sum()

SepalLength    0
SepalWidth     0
PetalLength    0
PetalWidth     0
Name           0
dtype: int64

In [57]:
# 제거
# df = df.dropna()

# 평균으로 대체
# mid = df['Column Name'].mean()
# df['Column Name'] = df['Column Name'].fillna(mid)

In [59]:
df["Name"].value_counts()

Name
Iris-setosa        50
Iris-versicolor    50
Iris-virginica     50
Name: count, dtype: int64

In [61]:
# # Label을 숫자로 변환
# from sklearn.preprocessing import LabelEncoder
# label_encoder = LabelEncoder()

# for col in df.columns :
#     df[col] = label_encoder.fit_transform(df[col])

# df.head()

In [63]:
X = df.drop("Name", axis=1)
Y = df["Name"]

X, Y

(     SepalLength  SepalWidth  PetalLength  PetalWidth
 0            5.1         3.5          1.4         0.2
 1            4.9         3.0          1.4         0.2
 2            4.7         3.2          1.3         0.2
 3            4.6         3.1          1.5         0.2
 4            5.0         3.6          1.4         0.2
 ..           ...         ...          ...         ...
 145          6.7         3.0          5.2         2.3
 146          6.3         2.5          5.0         1.9
 147          6.5         3.0          5.2         2.0
 148          6.2         3.4          5.4         2.3
 149          5.9         3.0          5.1         1.8
 
 [150 rows x 4 columns],
 0         Iris-setosa
 1         Iris-setosa
 2         Iris-setosa
 3         Iris-setosa
 4         Iris-setosa
             ...      
 145    Iris-virginica
 146    Iris-virginica
 147    Iris-virginica
 148    Iris-virginica
 149    Iris-virginica
 Name: Name, Length: 150, dtype: object)

In [65]:
Y.value_counts()

Name
Iris-setosa        50
Iris-versicolor    50
Iris-virginica     50
Name: count, dtype: int64

In [67]:
# from sklearn.preprocessing import StandardScaler
# # Standardize the data
# scaler = StandardScaler()
# X = scaler.fit_transform(X)

In [69]:
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X, Y, random_state=42, test_size=0.3)
X_train.shape, X_test.shape, y_train.shape, y_test.shape

((105, 4), (45, 4), (105,), (45,))

In [71]:
y_test.value_counts()

Name
Iris-setosa        19
Iris-versicolor    13
Iris-virginica     13
Name: count, dtype: int64

---
# 모델 학습 및 평가

In [74]:
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.svm import SVC
from sklearn.neighbors import KNeighborsClassifier

from sklearn.metrics import accuracy_score
from sklearn.metrics import confusion_matrix

In [76]:
model = DecisionTreeClassifier(random_state=42)
model.fit(X_train, y_train)
pred = model.predict(X_test)
print("DecisionTreeClassifier Accuracy  :  ", accuracy_score(y_test, pred))
print(confusion_matrix(y_test, pred))

DecisionTreeClassifier Accuracy  :   1.0
[[19  0  0]
 [ 0 13  0]
 [ 0  0 13]]


In [78]:
model = RandomForestClassifier(random_state=42)
model.fit(X_train, y_train)
pred = model.predict(X_test)
print("RandomForestClassifier Accuracy  :  ", accuracy_score(y_test, pred))
print(confusion_matrix(y_test, pred))

RandomForestClassifier Accuracy  :   1.0
[[19  0  0]
 [ 0 13  0]
 [ 0  0 13]]


In [80]:
model = LogisticRegression(random_state=42, max_iter=200)
model.fit(X_train, y_train)
pred = model.predict(X_test)
print("LogisticRegression Accuracy  :  ", accuracy_score(y_test, pred))
print(confusion_matrix(y_test, pred))

LogisticRegression Accuracy  :   1.0
[[19  0  0]
 [ 0 13  0]
 [ 0  0 13]]


In [82]:
model = SVC(random_state=42)
model.fit(X_train, y_train)
pred = model.predict(X_test)
print("SVC Accuracy  :  ", accuracy_score(y_test, pred))
print(confusion_matrix(y_test, pred))

SVC Accuracy  :   1.0
[[19  0  0]
 [ 0 13  0]
 [ 0  0 13]]


In [86]:
model = KNeighborsClassifier(n_neighbors=3)
model.fit(X_train, y_train)
pred = model.predict(X_test)
print("KNeighborsClassifier Accuracy  :  ", accuracy_score(y_test, pred))
print(confusion_matrix(y_test, pred))

KNeighborsClassifier Accuracy  :   1.0
[[19  0  0]
 [ 0 13  0]
 [ 0  0 13]]
