<a href="https://colab.research.google.com/github/OGhub/AIFFEL_quest_cr/blob/master/Python/Py05/PythonQuest05.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [24]:
import sklearn
from sklearn.datasets import load_digits
from sklearn.datasets import load_wine
from sklearn.datasets import load_breast_cancer
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.svm import SVC
from sklearn.linear_model import SGDClassifier, LogisticRegression

### __프로젝트 1번. 손글씨를 분류하는 모델을 만들어보자.__

#### __손글씨 데이터셋__  
각 이미지는 8x8 픽셀로 표현된 흑백 이미지입니다.  
Feature는 각 픽셀의 값으로 총 64개의 feature가 있고 label은 0~9 사이의 숫자입니다.  
데이터셋의 목적은 손글씨 이미지가 어떤 숫자인지 분류하는 것입니다.

#### __데이터셋 평가__  
손글씨는 여러 숫자 클래스 간 분류이므로,  
잘못된 숫자를 얼마나 잘 분류했는지를 평가하기 위해 f1-score를 중점적으로 평가했습니다.  
f1-score는 precision과 recall의 조화 평균으로, 다중 클래스 문제에 적합합니다.

#### __최종 결과 요약__
f1-score을 중점적으로 봤을 때, SVM모델이 0.99로 가장 높았습니다.  
<br>
***
<br>
Decision Tree

                 precision  recall   f1-score
    accuracy                           0.86
         avg       0.86      0.86      0.86

Random Forest

                 precision  recall   f1-score
    accuracy                           0.97  
         avg       0.97      0.98      0.97   

SVM

                 precision  recall   f1-score
    accuracy                           0.99     
         avg       0.99      0.99      0.99     

SGD Classifier

                 precision  recall   f1-score   
    accuracy                           0.95      
         avg       0.95      0.95      0.95      

Logistic Regression

                 precision  recall   f1-score   
    accuracy                           0.97     
         avg       0.97      0.97      0.97     


In [2]:
# sklearn 버전 확인
print(sklearn.__version__)

# 데이터 로드
digits = load_digits()

# Feature Data와 Label Data 지정
X = digits.data
y = digits.target

# Target Names 출력
print("Target names:", digits.target_names)

# 데이터 설명
print("Dataset description:", digits.DESCR)

# train, test 데이터 분리
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# 다양한 모델로 학습해 보기
models = {
    'Decision Tree': DecisionTreeClassifier(),
    'Random Forest': RandomForestClassifier(),
    'SVM': SVC(),
    'SGD Classifier': SGDClassifier(),
    'Logistic Regression': LogisticRegression(max_iter=1000, solver='saga')
}

# 모델 학습 및 평가
for name, model in models.items():
    model.fit(X_train, y_train)
    y_pred = model.predict(X_test)
    print(f"Model: {name}")
    print(classification_report(y_test, y_pred))

# 평가 지표
# classification_report는 precision, recall, f1-score와 같은 성능 지표를 제공합니다.

1.3.2
Target names: [0 1 2 3 4 5 6 7 8 9]
Dataset description: .. _digits_dataset:

Optical recognition of handwritten digits dataset
--------------------------------------------------

**Data Set Characteristics:**

    :Number of Instances: 1797
    :Number of Attributes: 64
    :Attribute Information: 8x8 image of integer pixels in the range 0..16.
    :Missing Attribute Values: None
    :Creator: E. Alpaydin (alpaydin '@' boun.edu.tr)
    :Date: July; 1998

This is a copy of the test set of the UCI ML hand-written digits datasets
https://archive.ics.uci.edu/ml/datasets/Optical+Recognition+of+Handwritten+Digits

The data set contains images of hand-written digits: 10 classes where
each class refers to a digit.

Preprocessing programs made available by NIST were used to extract
normalized bitmaps of handwritten digits from a preprinted form. From a
total of 43 people, 30 contributed to the training set and different 13
to the test set. 32x32 bitmaps are divided into nonoverlapping bl

### __프로젝트 2번. 와인을 분류하는 모델을 만들어보자.__

#### __와인 데이터셋__
와인 데이터는 다양한 화학 성분이 feature로 포함되어 있으며, 와인의 종류가 label로 지정됩니다.  
feature에는 13개의 화학 성분이 있고 label에는 3개의 와인 종류가 있습니다.  
데이터의 목적은 와인의 종류를 성분 데이터를 기반으로 분류하는 것입니다.

#### __데이터셋 평가__
와인 데이터는 비교적 데이터가 균형 잡혀 있지만, 와인의 잘못된 분류가 실험의 정확성에 영향을 미칠 수 있기 때문에   
precision과 f1-score 모두를 고려했습니다. 특히, 모델이 특정 와인 종류를 얼마나 정확하게 예측했는지 확인하는 것이 중요했습니다.

#### __최종 결과 요약__  
precision과 f1-score을 중점적으로 봤을 때,  
Randomforest와 Logistic Regression이 1.00으로 가장 적합한 모델이었습니다.  
<br>
***
<br>
Decision Tree

                 precision  recall   f1-score  
    accuracy                           0.94      
         avg       0.95      0.94      0.95    

Random Forest

                 precision  recall   f1-score  
    accuracy                           1.00      
         avg       1.00      1.00      1.00    

SVM

                 precision  recall   f1-score  
    accuracy                           0.76       
         avg       0.74      0.71      0.69       

SGD Classifier

                 precision  recall   f1-score   
    accuracy                           0.67       
         avg       0.79      0.70      0.64      

Logistic Regression

                 precision  recall   f1-score
    accuracy                           1.00       
         avg       1.00      1.00      1.00     


In [19]:
# 데이터 로드
wine = load_wine()

# Feature Data와 Label Data 지정
X = wine.data
y = wine.target

# Target Names 출력
print("Target names:", wine.target_names)

# 데이터 설명
print("Dataset description:", wine.DESCR)

# train, test 데이터 분리
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# 다양한 모델로 학습해 보기
models = {
    'Decision Tree': DecisionTreeClassifier(),
    'Random Forest': RandomForestClassifier(),
    'SVM': SVC(),
    'SGD Classifier': SGDClassifier(class_weight='balanced'),
    'Logistic Regression': LogisticRegression(max_iter=5000, solver='lbfgs')
}

# 모델 학습 및 평가
for name, model in models.items():
    model.fit(X_train, y_train)
    y_pred = model.predict(X_test)
    print(f"Model: {name}")
    print(classification_report(y_test, y_pred, zero_division=1))

# 평가 지표
# classification_report는 precision, recall, f1-score와 같은 성능 지표를 제공합니다.

Target names: ['class_0' 'class_1' 'class_2']
Dataset description: .. _wine_dataset:

Wine recognition dataset
------------------------

**Data Set Characteristics:**

    :Number of Instances: 178
    :Number of Attributes: 13 numeric, predictive attributes and the class
    :Attribute Information:
 		- Alcohol
 		- Malic acid
 		- Ash
		- Alcalinity of ash  
 		- Magnesium
		- Total phenols
 		- Flavanoids
 		- Nonflavanoid phenols
 		- Proanthocyanins
		- Color intensity
 		- Hue
 		- OD280/OD315 of diluted wines
 		- Proline

    - class:
            - class_0
            - class_1
            - class_2
		
    :Summary Statistics:
    
                                   Min   Max   Mean     SD
    Alcohol:                      11.0  14.8    13.0   0.8
    Malic Acid:                   0.74  5.80    2.34  1.12
    Ash:                          1.36  3.23    2.36  0.27
    Alcalinity of Ash:            10.6  30.0    19.5   3.3
    Magnesium:                    70.0 162.0    99.7  14.

### __프로젝트 3번. 유방암을 진단하는 모델을 만들어보자.__

##### __유방암 데이터셋__
해당 데이터셋은 유방암 진단을 위한 다양한 feature를 포함하고 있으며, label은 악성/양성(1/0)으로 구분됩니다.   
 30개의 의료 측정치가 feature로 사용되며, 데이터의 목적은 환자가 악성 암인지 여부를 분류하는 것입니다.

#### __데이터셋 평가__
유방암 진단은 잘못된 예측이 심각한 영향을 미칠 수 있는 중요한 문제이므로 recall(재현율)이 매우 중요한 지표입니다.   
암이 있는 경우를 놓치지 않고 검출하는 것이 필수적이므로, f1-score와 함께 recall을 주요 성능 지표로 고려했습니다.

#### __최종 결과 요약__
recall과 f1-score을 중점적으로 봤을 때,  
Logistic Regression이 0.97으로 가장 적합한 모델이었습니다.  
<br>
***
<br>
Decision Tree

                 precision  recall   f1-score  
    accuracy                           0.94
         avg       0.93      0.94      0.94

Random Forest

                 precision  recall   f1-score  
    accuracy                           0.97   
         avg       0.97      0.96      0.97   

SVM

                 precision  recall   f1-score  
    accuracy                           0.94    
         avg       0.95      0.91      0.93    

SGD Classifier

                 precision  recall   f1-score   
    accuracy                           0.89   
         avg       0.93      0.85      0.87  

Logistic Regression

                 precision  recall   f1-score
    accuracy                           0.98  
         avg       0.97      0.97      0.97   


In [29]:
# 데이터 로드
cancer = load_breast_cancer()

# Feature Data와 Label Data 지정
X = cancer.data
y = cancer.target

# Target Names 출력
print("Target names:", cancer.target_names)

# 데이터 설명
print("Dataset description:", cancer.DESCR)

# train, test 데이터 분리
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# 다양한 모델로 학습해 보기
models = {
    'Decision Tree': DecisionTreeClassifier(),
    'Random Forest': RandomForestClassifier(),
    'SVM': SVC(),
    'SGD Classifier': SGDClassifier(),
    'Logistic Regression': LogisticRegression(max_iter=5000, solver='lbfgs')
}

# 모델 학습 및 평가
for name, model in models.items():
    model.fit(X_train, y_train)
    y_pred = model.predict(X_test)
    print(f"Model: {name}")
    print(classification_report(y_test, y_pred))

# 평가 지표
# classification_report는 precision, recall, f1-score와 같은 성능 지표를 제공합니다.

Target names: ['malignant' 'benign']
Dataset description: .. _breast_cancer_dataset:

Breast cancer wisconsin (diagnostic) dataset
--------------------------------------------

**Data Set Characteristics:**

    :Number of Instances: 569

    :Number of Attributes: 30 numeric, predictive attributes and the class

    :Attribute Information:
        - radius (mean of distances from center to points on the perimeter)
        - texture (standard deviation of gray-scale values)
        - perimeter
        - area
        - smoothness (local variation in radius lengths)
        - compactness (perimeter^2 / area - 1.0)
        - concavity (severity of concave portions of the contour)
        - concave points (number of concave portions of the contour)
        - symmetry
        - fractal dimension ("coastline approximation" - 1)

        The mean, standard error, and "worst" or largest (mean of the three
        worst/largest values) of these features were computed for each image,
        res