# **Scikit-Learn 기반 분류**

In [None]:
# 사용할 라이브러리 불러오기
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd

## **Scikit-Learn 라이브러리 불러오기**


In [None]:
import sklearn

## **이진 분류 (Binary Classification)**

### **이진 분류 Dataset 불러오기**


In [None]:
from sklearn import datasets

In [None]:
data = datasets.load_breast_cancer(as_frame=True)

In [None]:
type(data)

### 독립변수 및 종속변수 할당

In [None]:
x, y = data.data, data.target

#### 독립변수 Column 확인

In [None]:
inputFeatures = x.columns
print(inputFeatures)

In [None]:
print(f"Number of Input Features : {len(inputFeatures)}")

In [None]:
x.describe()

#### 종속변수 데이터 확인

In [None]:
print(y)

##### 종속 변수 (Target Data) (True / False) 비율 확인

In [None]:
y.plot.hist()
plt.show()

## **데이터 전처리 진행**

### Min-Max Normalization 진행

In [None]:
from sklearn.preprocessing import MinMaxScaler

In [None]:
x, y = np.array(x), np.array(y) # Numpy Array 자료 구조로 변환

#### 독립변수 전처리 진행

In [None]:
mmScaler = MinMaxScaler()
mmScaler.fit(x)
x = mmScaler.transform(x) # MIn-Max Normalization 적용

## **Dataset 샘플링 진행**

### Scikit-Learn의 **train_test_split** 활용

In [None]:
from sklearn.model_selection import train_test_split

#### Dataset을 나누는 비율과 Shuffling후 일정한 결과를 얻기 위한 Seed 입력

In [None]:
xTrain, xTest, yTrain, yTest = train_test_split(x, y, test_size=0.3, random_state=42)

In [None]:
print(xTrain.shape, yTrain.shape)
print(xTest.shape, yTest.shape)

## **로지스틱 회귀 기반 이진 분류**

### Scikit-Learn의 **LogisticRegression** 활용

In [None]:
from sklearn.linear_model import LogisticRegression



1.   Class Instance 생성
2.   fit() Method 실행
3.   predict() Method 실행



In [None]:
lgReg = LogisticRegression(max_iter=10000, random_state=42)
lgReg.fit(xTrain, yTrain)
yTestHat = lgReg.predict(xTest)

### **Logistic Regression의 정량적 평가 진행**

#### Scikit-Learn의 **metrics** 활용

In [None]:
from sklearn.metrics import accuracy_score, confusion_matrix, classification_report

##### **정확도 계산**

In [None]:
accScore = accuracy_score(yTest, yTestHat)
print(f"Logistic Reg. Acc. : {accScore*100:.4f}%")

##### **혼돈 행렬 계산**

In [None]:
cm = confusion_matrix(yTest, yTestHat)
print(cm)

##### **전반적인 평가 지표 계산**

In [None]:
clsRp = classification_report(yTest, yTestHat)
print(clsRp)

## **의사 결정 트리 기반 이진 분류**

### Scikit-Learn의 **DecisionTreeClassifier** 활용

In [None]:
from sklearn.tree import DecisionTreeClassifier



1.   Class Instance 생성
2.   fit() Method 실행
3.   predict() Method 실행



In [None]:
dtCls = DecisionTreeClassifier(random_state=42)
dtCls.fit(xTrain, yTrain)
yTestHat = dtCls.predict(xTest)

### **입력 피처 (독립변수) 중요도 확인**

#### Seaborn 라이브러리 활용

In [None]:
import seaborn as sns

In [None]:
def visualizeImportances(data:pd.Series) :
  plt.figure(figsize=(8,6))
  plt.title("Feature Importances")
  plt.xlabel("Importance")
  plt.ylabel("Feature")
  sns.barplot(x=data, y=data.index)
  plt.show()

In [None]:
visualizeImportances(pd.Series(dtCls.feature_importances_, index=inputFeatures).sort_values(ascending=False))

#### **Decision Tree의 Component 시각화**

In [None]:
from sklearn.tree import plot_tree

In [None]:
plt.figure(figsize=(24,18))
plot_tree(dtCls)
plt.show()

### **Decision Tree Classifier의 정량적 평가 진행**

##### **정확도 계산**

In [None]:
accScore = accuracy_score(yTest, yTestHat)
print(f"Decision Tree Cls. Acc. : {accScore*100:.4f}%")

##### **혼돈 행렬 계산**

In [None]:
cm = confusion_matrix(yTest, yTestHat)
print(cm)

##### **전반적인 평가 지표 계산**

In [None]:
clsRp = classification_report(yTest, yTestHat)
print(clsRp)

## **Random Forest 기반 이진 분류**

### Scikit-Learn의 **RandomForestClassifier** 활용

In [None]:
from sklearn.ensemble import RandomForestClassifier



1.   Class Instance 생성
2.   fit() Method 실행
3.   predict() Method 실행



In [None]:
rfCls = RandomForestClassifier(random_state=42)
rfCls.fit(xTrain, yTrain)
yTestHat = rfCls.predict(xTest)

### **입력 피처 (독립변수) 중요도 확인**

In [None]:
visualizeImportances(pd.Series(rfCls.feature_importances_, index=inputFeatures).sort_values(ascending=False))

### **Random Forest Classifier의 정량적 평가 진행**

##### **정확도 계산**

In [None]:
accScore = accuracy_score(yTest, yTestHat)
print(f"Random Forest Cls. Acc. : {accScore*100:.4f}%")

##### **혼돈 행렬 계산**

In [None]:
cm = confusion_matrix(yTest, yTestHat)
print(cm)

##### **전반적인 평가 지표 계산**

In [None]:
clsRp = classification_report(yTest, yTestHat)
print(clsRp)

## **다중 클래스 분류 (Multi Class Classification)**

### **다중 클래스 분류 Dataset 불러오기**


#### **Label Encoding 용 데이터**


In [None]:
df = pd.read_csv("/content/Dry_Bean_Dataset.csv")

In [None]:
df.shape

In [None]:
df

## **데이터 전처리 진행**

### Target Data 추출 과정 진행

In [None]:
x = df.drop(columns = "Class", axis = 1)
y = df["Class"]

In [None]:
print(y)

#### 독립변수 Column 확인

In [None]:
inputFeatures = x.columns
print(inputFeatures)

In [None]:
print(f"Number of Input Features : {len(inputFeatures)}")

#### 독립변수 전처리 진행

In [None]:
mmScaler = MinMaxScaler()
mmScaler.fit(x)
x = mmScaler.transform(x)

#### 종속변수 (Target) 전처리 진행

##### Scikit-Learn의 **LabelEncoder** 활용

In [None]:
from sklearn.preprocessing import LabelEncoder

In [None]:
y

In [None]:
lbEnc = LabelEncoder()
lbEnc.fit(y)
y = lbEnc.transform(y)

In [None]:
y

## **Dataset 샘플링 진행**

In [None]:
xTrain, xTest, yTrain, yTest = train_test_split(x, y, test_size=0.3, random_state=42)

In [None]:
print(xTrain.shape, yTrain.shape)
print(xTest.shape, yTest.shape)

## **Random Forest 기반 다중 클래스 분류**

In [None]:
rfCls = RandomForestClassifier(random_state=42)
rfCls.fit(xTrain, yTrain)
yTestHat = rfCls.predict(xTest)

### **입력 피처 (독립변수) 중요도 확인**

In [None]:
visualizeImportances(pd.Series(rfCls.feature_importances_, index = inputFeatures).sort_values(ascending=False))

### **Random Forest Classifier의 정량적 평가 진행**

In [None]:
accScore = accuracy_score(yTest, yTestHat)
print(accScore)

In [None]:
cm = confusion_matrix(yTest, yTestHat)
print(cm)

In [None]:
clsRp = classification_report(yTest, yTestHat)
print(clsRp)

### **다중 클래스 분류 Dataset 불러오기**


#### **Label Encoding 및 One-Hot Encoding 용 데이터**


In [None]:
df = pd.read_csv("/content/drug200.csv")

In [None]:
df.shape

In [None]:
df

## **데이터 전처리 진행**

### Target Data 추출 과정 진행

In [None]:
x = df.drop(columns="Drug", axis=1)
y = df["Drug"]

In [None]:
print(y)

#### 독립변수 Column 확인

In [None]:
inputFeatures = x.columns
print(inputFeatures)

In [None]:
print(f"Number of Input Features : {len(inputFeatures)}")

#### 독립변수 전처리 진행 (One-Hot Encode)

In [None]:
x

In [None]:
oneHotSex = pd.get_dummies(x["Sex"])
oneHotBP = pd.get_dummies(x["BP"])
oneHotCls = pd.get_dummies(x["Cholesterol"])

In [None]:
x.drop(columns = ["Sex", "BP", "Cholesterol"], axis=1, inplace=True)

In [None]:
x = pd.concat([x, oneHotSex, oneHotBP, oneHotCls], axis=1)

In [None]:
x

#### 종속변수 (Target) 전처리 진행

In [None]:
y

In [None]:
y

In [None]:
lbEnc = LabelEncoder()
lbEnc.fit(y)
y = lbEnc.transform(y)

## **Dataset 샘플링 진행**

In [None]:
xTrain, xTest, yTrain, yTest = train_test_split(x, y, test_size=0.3, random_state=42)

In [None]:
print(xTrain.shape, yTrain.shape)
print(xTest.shape, yTest.shape)

## **Random Forest 기반 다중 클래스 분류**

In [None]:
rfCls = RandomForestClassifier(random_state=42)
rfCls.fit(xTrain, yTrain)
yTestHat = rfCls.predict(xTest)

### **Random Forest Classifier의 정량적 평가 진행**

In [None]:
accScore = accuracy_score(yTest, yTestHat)
print(accScore)

In [None]:
cm = confusion_matrix(yTest, yTestHat)
print(cm)

In [None]:
clsRp = classification_report(yTest, yTestHat)
print(clsRp)

## **교차 검증 (Cross Validation)**

### Scikit-Learn의 **cross_val_score** 활용

In [None]:
from sklearn.model_selection import cross_val_score

### **5-Fold** Cross Validation 진행

In [None]:
accScore = cross_val_score(rfCls, x, y, cv = 5)

#### 5번의 결과를 표시

In [None]:
for i, subScore in enumerate(accScore) :
  print(f"Part{i+1} Accuracy : {subScore:.4f}")

In [None]:
print(f"Average Score : {np.mean(accScore):.4f}")

# **[ Scikit-Learn 기반 다중 클래스 분류 개인 실습 ]**

## Scikit-Learn의 Digits Dataset을 기반으로 Multi Class Classification을 진행하세요. (10분 소요)



1.   Dataset를 불러온 후 Min-Max Scailing을 진행하세요.
2.   분류 모델로는 Decision Tree와 Random Forest를 사용한 후 성능을 비교하세요. (전체 데이터셋 사용 → 훈련 및 시험 데이터셋 분할 X)
3.   Random Forest 모델을 기반으로 4-Fold Cross Validation을 진행하세요.


In [None]:
data = datasets.load_digits(as_frame=True)

In [None]:
# 코드를 작성해주세요