FIAP - Tecnólogo em Inteligência Artificial

# Checkpoint 04

Faça o exercício abaixo <font color="red">individualmente</font>, para praticar o uso do `sklearn` em Machine Learning. Utilize os conceitos vistos em aula, e consulte [documentações](https://scikit-learn.org/stable/) na internet. Em caso de dúvidas, contate o Prof. Michel.

**Entrega**: 31/agosto/2023, via Teams.


## Apresentação do trabalho

Neste checkpoint vamos trabalhar com modelagem de dados em bases de dimensionalidade reduzida em relação à base original.

Para isso, você deve:

- Utilizar a base de câncer de mama que vimos na aula de PCA
- Ler/carregar/montar o dataset original
- Dividir DADOS  e LABELS
- Dividir TREINO e TESTE
- Padronizar os dados
- Reduzir a dimensionalidade com PCA
- Sobre o dataset reduzido (componentes principais), aplicar o modelo de *Regressão Logística* para consturir o classificador
- Escolha outros **2 modelos** de classificação para avaliar a performance no mesmo conjunto de dados
- Calcular os resultados e comentar brevemente seus achados


*Desafio!*: faça o código modularizado para avaliar os efeitos da redução de dimensionalidade para N componentes diferentes, avaliando o efeito da classificação com números distintos de componentes principais



**Critérios de avaliação**: A correção do checkpoint será feita mediante os seguintes critérios:
- qualidade da compreensão e exploração da base
- formas de padronizar os dados selecionados
- completute de atendimento ao pipeline de machine learning
- emprego correto dos conceitos vistos em sala de aula (uso do dataset, métricas, etc)
- análise/justificativas dos resultados


# Imports e pegando o dataset

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.decomposition import PCA
from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import RandomForestClassifier
from sklearn.datasets import load_breast_cancer
from sklearn import svm
from sklearn import metrics

In [None]:
# Montando o dataset
breast = load_breast_cancer()

df = pd.DataFrame(breast.data,
                  columns=breast.feature_names)

df["label"] = breast.target

df.sample(10)

Unnamed: 0,mean radius,mean texture,mean perimeter,mean area,mean smoothness,mean compactness,mean concavity,mean concave points,mean symmetry,mean fractal dimension,...,worst texture,worst perimeter,worst area,worst smoothness,worst compactness,worst concavity,worst concave points,worst symmetry,worst fractal dimension,label
500,15.04,16.74,98.73,689.4,0.09883,0.1364,0.07721,0.06142,0.1668,0.06869,...,20.43,109.7,856.9,0.1135,0.2176,0.1856,0.1018,0.2177,0.08549,1
206,9.876,17.27,62.92,295.4,0.1089,0.07232,0.01756,0.01952,0.1934,0.06285,...,23.22,67.08,331.6,0.1415,0.1247,0.06213,0.05588,0.2989,0.0738,1
103,9.876,19.4,63.95,298.3,0.1005,0.09697,0.06154,0.03029,0.1945,0.06322,...,26.83,72.22,361.2,0.1559,0.2302,0.2644,0.09749,0.2622,0.0849,1
483,13.7,17.64,87.76,571.1,0.0995,0.07957,0.04548,0.0316,0.1732,0.06088,...,23.53,95.78,686.5,0.1199,0.1346,0.1742,0.09077,0.2518,0.0696,1
347,14.76,14.74,94.87,668.7,0.08875,0.0778,0.04608,0.03528,0.1521,0.05912,...,17.93,114.2,880.8,0.122,0.2009,0.2151,0.1251,0.3109,0.08187,1
303,10.49,18.61,66.86,334.3,0.1068,0.06678,0.02297,0.0178,0.1482,0.066,...,24.54,70.76,375.4,0.1413,0.1044,0.08423,0.06528,0.2213,0.07842,1
332,11.22,19.86,71.94,387.3,0.1054,0.06779,0.005006,0.007583,0.194,0.06028,...,25.78,76.91,436.1,0.1424,0.09669,0.01335,0.02022,0.3292,0.06522,1
104,10.49,19.29,67.41,336.1,0.09989,0.08578,0.02995,0.01201,0.2217,0.06481,...,23.31,74.22,402.8,0.1219,0.1486,0.07987,0.03203,0.2826,0.07552,1
334,12.3,19.02,77.88,464.4,0.08313,0.04202,0.007756,0.008535,0.1539,0.05945,...,28.46,84.53,544.3,0.1222,0.09052,0.03619,0.03983,0.2554,0.07207,1
532,13.68,16.33,87.76,575.5,0.09277,0.07255,0.01752,0.0188,0.1631,0.06155,...,20.2,101.6,773.4,0.1264,0.1564,0.1206,0.08704,0.2806,0.07782,1


# Avaliando label e as features

In [None]:
# Avaliando dataset
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 569 entries, 0 to 568
Data columns (total 31 columns):
 #   Column                   Non-Null Count  Dtype  
---  ------                   --------------  -----  
 0   mean radius              569 non-null    float64
 1   mean texture             569 non-null    float64
 2   mean perimeter           569 non-null    float64
 3   mean area                569 non-null    float64
 4   mean smoothness          569 non-null    float64
 5   mean compactness         569 non-null    float64
 6   mean concavity           569 non-null    float64
 7   mean concave points      569 non-null    float64
 8   mean symmetry            569 non-null    float64
 9   mean fractal dimension   569 non-null    float64
 10  radius error             569 non-null    float64
 11  texture error            569 non-null    float64
 12  perimeter error          569 non-null    float64
 13  area error               569 non-null    float64
 14  smoothness error         5

In [None]:
df["label"].value_counts()

1    357
0    212
Name: label, dtype: int64

# Separando Dados e label

In [None]:
X = df.drop(columns=["label"])
y = df["label"]

X.head(5)

Unnamed: 0,mean radius,mean texture,mean perimeter,mean area,mean smoothness,mean compactness,mean concavity,mean concave points,mean symmetry,mean fractal dimension,...,worst radius,worst texture,worst perimeter,worst area,worst smoothness,worst compactness,worst concavity,worst concave points,worst symmetry,worst fractal dimension
0,17.99,10.38,122.8,1001.0,0.1184,0.2776,0.3001,0.1471,0.2419,0.07871,...,25.38,17.33,184.6,2019.0,0.1622,0.6656,0.7119,0.2654,0.4601,0.1189
1,20.57,17.77,132.9,1326.0,0.08474,0.07864,0.0869,0.07017,0.1812,0.05667,...,24.99,23.41,158.8,1956.0,0.1238,0.1866,0.2416,0.186,0.275,0.08902
2,19.69,21.25,130.0,1203.0,0.1096,0.1599,0.1974,0.1279,0.2069,0.05999,...,23.57,25.53,152.5,1709.0,0.1444,0.4245,0.4504,0.243,0.3613,0.08758
3,11.42,20.38,77.58,386.1,0.1425,0.2839,0.2414,0.1052,0.2597,0.09744,...,14.91,26.5,98.87,567.7,0.2098,0.8663,0.6869,0.2575,0.6638,0.173
4,20.29,14.34,135.1,1297.0,0.1003,0.1328,0.198,0.1043,0.1809,0.05883,...,22.54,16.67,152.2,1575.0,0.1374,0.205,0.4,0.1625,0.2364,0.07678


# Dividindo em treino e teste

In [None]:
# Separando em treino 70% e teste 30$
X_train, X_test, y_train, y_test = train_test_split(
    X,
    y,
    test_size=0.3,
    random_state=42)

# Padronizando os dados

In [None]:
# Padronizar os dados
scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)

# PCA

In [None]:
# Aplicando o PCA no treino
n_componentes = 2
pca = PCA(n_components=n_componentes)
pca_treino = pca.fit_transform(X_train)

df_pca_treino = pd.DataFrame(pca_treino,
                      columns=[ str(i+1)+"ª CP" for i in range(n_componentes) ])

df_pca_treino

Unnamed: 0,1ª CP,2ª CP
0,-3.084842,-2.158704
1,-2.182647,-0.617571
2,2.049959,2.328953
3,-2.809267,-0.950791
4,-1.913537,-1.072582
...,...,...
393,-0.307514,7.375943
394,-0.686019,1.889553
395,-4.553716,-3.144000
396,0.720424,0.547831


In [None]:
# Aplicando o PCA no teste
pca_teste = pca.transform(X_test)
df_pca_teste = pd.DataFrame(pca_teste,
                      columns=[ str(i+1)+"ª CP" for i in range(n_componentes) ])

df_pca_teste

Unnamed: 0,1ª CP,2ª CP
0,-0.750231,0.700519
1,2.668833,-4.373020
2,1.473907,-0.992619
3,-0.857202,2.532869
4,-1.610946,2.433481
...,...,...
166,-3.261528,-0.943891
167,-1.262180,-1.729447
168,1.277060,7.088883
169,2.900284,3.467480


In [None]:
# Explicabilidade de cada componente principal
pca.explained_variance_ratio_

array([0.4316748 , 0.19845652])

In [None]:
sum( pca.explained_variance_ratio_ )

0.6301313149439913

# Aplicando regressão Logistica

In [None]:
# Criação, treinamento e avaliação do modelo
lr_pca = LogisticRegression(max_iter=200)
lr_pca.fit(df_pca_treino, y_train)

y_pred_pca = lr_pca.predict(df_pca_teste)

In [None]:
print("Acuracia é de", metrics.accuracy_score(y_test, y_pred_pca))

Acuracia é de 0.9766081871345029


In [None]:
print(metrics.classification_report(y_test, y_pred_pca))

              precision    recall  f1-score   support

           0       0.97      0.97      0.97        63
           1       0.98      0.98      0.98       108

    accuracy                           0.98       171
   macro avg       0.97      0.97      0.97       171
weighted avg       0.98      0.98      0.98       171



# Outros modelos

## Random Forrest

In [None]:
# Criação do modelo de Random FOrrest
rf_model_pca = RandomForestClassifier(random_state=42)
rf_model_pca.fit(df_pca_treino, y_train)

y_pred_rf_pca = rf_model_pca.predict(df_pca_teste)

In [None]:
# Avaliação do modelo RF
print("Acuracia é de:", metrics.accuracy_score(y_test, y_pred_rf_pca))

Acuracia é de: 0.9532163742690059


In [None]:
print(metrics.classification_report(y_test, y_pred_rf_pca))

              precision    recall  f1-score   support

           0       0.95      0.92      0.94        63
           1       0.95      0.97      0.96       108

    accuracy                           0.95       171
   macro avg       0.95      0.95      0.95       171
weighted avg       0.95      0.95      0.95       171



## SVM

In [None]:
# Criação do modelo
model = svm.SVC()
model.fit(df_pca_treino, y_train)

y_pred_svm_pca = model.predict(df_pca_teste)

In [None]:
# Avaliando o modelo SVM
print("Acuracia é de:", metrics.accuracy_score(y_test, y_pred_svm_pca))

Acuracia é de: 0.9415204678362573


In [None]:
print(metrics.classification_report(y_test, y_pred_svm_pca))

              precision    recall  f1-score   support

           0       0.95      0.89      0.92        63
           1       0.94      0.97      0.95       108

    accuracy                           0.94       171
   macro avg       0.94      0.93      0.94       171
weighted avg       0.94      0.94      0.94       171



## Comentarios

Os resultados obtidos foram:
*   Regressão Logística com PCA:
  *    o	Acurácia: 0.976
  *    o	Precision, Recall e F1-Score para as classes variam entre 0.97 e 0.98, indicando um bom equilíbrio entre precisão e recall.
  *    Os resultados mostram um desempenho muito bom do modelo de Regressão Logística após a redução de dimensionalidade com PCA.

*   Random Forest com PCA:
  *    o	Acurácia: 0.953
  *    o	Precision, Recall e F1-Score para ambas as classes também são altos, com valores próximos de 0.95 e 0.97.
  *    O modelo de Random Forest apresentou uma ligeira queda na acurácia em comparação com a Regressão Logística.

*   SVM com PCA:
  *    o	Acurácia: 0.941
  *    O SVM também apresentou resultados positivos, com valores de Precision, Recall e F1-Score com valores que variam entre 0.89 e 0.97 para as classes.
  *    O SVM também apresenta um desempenho muito bom, mas inferior aos outros dois modelos.

**Comentários finais:**
Todos os modelos obtiveram resultados positivos e muito bons para a classificação desse dataset (câncer de mama) após o uso do PCA. Dentre os 3 modelos aquele com melhor acurácia e valores mais positivos nas métricas foi o de Regressão logística, seguido do Random Forrest e por fim o SVM, mas a variação da acurácia foi baixa (no Max 4%, 0.97 – 0,94).
Essa baixa variação e boa performance, deixa aberta a possibilidade de escolher qual modelo pode ser implementado, a “gosto do cliente”, com base nas interpretações desejadas por ele, ou adicionar mais variáveis e normalizações, e ver qual modelo se porta melhor diante de tais mudanças.

## Desafio

### 3 componentes

In [None]:
# PCA
n_componentes = 3
pca = PCA(n_components=n_componentes)
pca_treino3 = pca.fit_transform(X_train)

df_pca_treino3 = pd.DataFrame(pca_treino3,
                      columns=[ str(i+1)+"ª CP" for i in range(n_componentes) ])

pca_teste3 = pca.transform(X_test)
df_pca_teste3 = pd.DataFrame(pca_teste3,
                      columns=[ str(i+1)+"ª CP" for i in range(n_componentes) ])

In [None]:
# Aplicando regressão Logistica
lr_pca3 = LogisticRegression(max_iter=200)
lr_pca3.fit(df_pca_treino3, y_train)

y_pred_pca3 = lr_pca3.predict(df_pca_teste3)

In [None]:
# Random Forrest
rf_model_pca3 = RandomForestClassifier(random_state=42)
rf_model_pca3.fit(df_pca_treino3, y_train)

y_pred_rf_pca3 = rf_model_pca3.predict(df_pca_teste3)

In [None]:
# SVM
model = svm.SVC()
model.fit(df_pca_treino3, y_train)

y_pred_svm_pca3 = model.predict(df_pca_teste3)

### 5 Componentes

In [None]:
# PCA
n_componentes = 5
pca = PCA(n_components=n_componentes)
pca_treino5 = pca.fit_transform(X_train)

df_pca_treino5 = pd.DataFrame(pca_treino5,
                      columns=[ str(i+1)+"ª CP" for i in range(n_componentes) ])

pca_teste5 = pca.transform(X_test)
df_pca_teste5 = pd.DataFrame(pca_teste5,
                      columns=[ str(i+1)+"ª CP" for i in range(n_componentes) ])

In [None]:
# Aplicando regressão Logistica
lr_pca5 = LogisticRegression(max_iter=200)
lr_pca5.fit(df_pca_treino5, y_train)

y_pred_pca5 = lr_pca5.predict(df_pca_teste5)

In [None]:
# Random Forrest
rf_model_pca5 = RandomForestClassifier(random_state=42)
rf_model_pca5.fit(df_pca_treino5, y_train)

y_pred_rf_pca5 = rf_model_pca5.predict(df_pca_teste5)

In [None]:
# SVM
model = svm.SVC()
model.fit(df_pca_treino5, y_train)

y_pred_svm_pca5 = model.predict(df_pca_teste5)

### 10 componentes

In [None]:
# PCA
n_componentes = 10
pca = PCA(n_components=n_componentes)
pca_treino10 = pca.fit_transform(X_train)

df_pca_treino10 = pd.DataFrame(pca_treino10,
                      columns=[ str(i+1)+"ª CP" for i in range(n_componentes) ])

pca_teste10 = pca.transform(X_test)
df_pca_teste10 = pd.DataFrame(pca_teste10,
                      columns=[ str(i+1)+"ª CP" for i in range(n_componentes) ])

In [None]:
# Aplicando regressão Logistica
lr_pca10 = LogisticRegression(max_iter=200)
lr_pca10.fit(df_pca_treino10, y_train)

y_pred_pca10 = lr_pca10.predict(df_pca_teste10)

In [None]:
# Random Forrest
rf_model_pca10 = RandomForestClassifier(random_state=42)
rf_model_pca10.fit(df_pca_treino10, y_train)

y_pred_rf_pca10 = rf_model_pca10.predict(df_pca_teste10)

In [None]:
# SVM
model = svm.SVC()
model.fit(df_pca_treino10, y_train)

y_pred_svm_pca10 = model.predict(df_pca_teste10)

### 20 componentes

In [None]:
# PCA
n_componentes = 20
pca = PCA(n_components=n_componentes)
pca_treino20 = pca.fit_transform(X_train)

df_pca_treino20 = pd.DataFrame(pca_treino20,
                      columns=[ str(i+1)+"ª CP" for i in range(n_componentes) ])

pca_teste20 = pca.transform(X_test)
df_pca_teste20 = pd.DataFrame(pca_teste20,
                      columns=[ str(i+1)+"ª CP" for i in range(n_componentes) ])

In [None]:
# Aplicando regressão Logistica
lr_pca20 = LogisticRegression(max_iter=200)
lr_pca20.fit(df_pca_treino20, y_train)

y_pred_pca20 = lr_pca20.predict(df_pca_teste20)

In [None]:
# Random Forrest
rf_model_pca20 = RandomForestClassifier(random_state=42)
rf_model_pca20.fit(df_pca_treino20, y_train)

y_pred_rf_pca20 = rf_model_pca20.predict(df_pca_teste20)

In [None]:
# SVM
model = svm.SVC()
model.fit(df_pca_treino20, y_train)

y_pred_svm_pca20 = model.predict(df_pca_teste20)

### Avaliações:

#### Regressão logistica

In [None]:
print("Acuracia de 2 componentes é", metrics.accuracy_score(y_test, y_pred_pca))
print("Acuracia de 3 componentes é", metrics.accuracy_score(y_test, y_pred_pca3))
print("Acuracia de 5 componentes é", metrics.accuracy_score(y_test, y_pred_pca5))
print("Acuracia de 10 componentes é", metrics.accuracy_score(y_test, y_pred_pca10))
print("Acuracia de 20 componentes é", metrics.accuracy_score(y_test, y_pred_pca20))


print("________________________________________________________________________________")

print("2 componentes")
print(metrics.classification_report(y_test, y_pred_pca))

print("3 componentes")
print(metrics.classification_report(y_test, y_pred_pca3))

print("5 componentes")
print(metrics.classification_report(y_test, y_pred_pca5))

print("10 componentes")
print(metrics.classification_report(y_test, y_pred_pca10))

print("20 componentes")
print(metrics.classification_report(y_test, y_pred_pca20))

Acuracia de 2 componentes é 0.9766081871345029
Acuracia de 3 componentes é 0.9707602339181286
Acuracia de 5 componentes é 0.9883040935672515
Acuracia de 10 componentes é 0.9941520467836257
Acuracia de 20 componentes é 0.9883040935672515
________________________________________________________________________________
2 componentes
              precision    recall  f1-score   support

           0       0.97      0.97      0.97        63
           1       0.98      0.98      0.98       108

    accuracy                           0.98       171
   macro avg       0.97      0.97      0.97       171
weighted avg       0.98      0.98      0.98       171

3 componentes
              precision    recall  f1-score   support

           0       0.97      0.95      0.96        63
           1       0.97      0.98      0.98       108

    accuracy                           0.97       171
   macro avg       0.97      0.97      0.97       171
weighted avg       0.97      0.97      0.97       171



#### Random Forrest

In [None]:
print("Acuracia de 2 componentes é", metrics.accuracy_score(y_test, y_pred_rf_pca))
print("Acuracia de 3 componentes é", metrics.accuracy_score(y_test, y_pred_rf_pca3))
print("Acuracia de 5 componentes é", metrics.accuracy_score(y_test, y_pred_rf_pca5))
print("Acuracia de 10 componentes é", metrics.accuracy_score(y_test, y_pred_rf_pca10))
print("Acuracia de 20 componentes é", metrics.accuracy_score(y_test, y_pred_rf_pca20))

print("________________________________________________________________________________")

print("2 componentes")
print(metrics.classification_report(y_test, y_pred_rf_pca))

print("3 componentes")
print(metrics.classification_report(y_test, y_pred_rf_pca3))

print("5 componentes")
print(metrics.classification_report(y_test, y_pred_rf_pca5))

print("10 componentes")
print(metrics.classification_report(y_test, y_pred_rf_pca10))

print("20 componentes")
print(metrics.classification_report(y_test, y_pred_rf_pca20))

Acuracia de 2 componentes é 0.9532163742690059
Acuracia de 3 componentes é 0.9532163742690059
Acuracia de 5 componentes é 0.9649122807017544
Acuracia de 10 componentes é 0.9532163742690059
Acuracia de 20 componentes é 0.9415204678362573
________________________________________________________________________________
2 componentes
              precision    recall  f1-score   support

           0       0.95      0.92      0.94        63
           1       0.95      0.97      0.96       108

    accuracy                           0.95       171
   macro avg       0.95      0.95      0.95       171
weighted avg       0.95      0.95      0.95       171

3 componentes
              precision    recall  f1-score   support

           0       0.94      0.94      0.94        63
           1       0.96      0.96      0.96       108

    accuracy                           0.95       171
   macro avg       0.95      0.95      0.95       171
weighted avg       0.95      0.95      0.95       171



#### SVM

In [None]:
print("Acuracia de 2 componentes é", metrics.accuracy_score(y_test, y_pred_svm_pca))
print("Acuracia de 3 componentes é", metrics.accuracy_score(y_test, y_pred_svm_pca3))
print("Acuracia de 5 componentes é", metrics.accuracy_score(y_test, y_pred_svm_pca5))
print("Acuracia de 10 componentes é", metrics.accuracy_score(y_test, y_pred_svm_pca10))
print("Acuracia de 20 componentes é", metrics.accuracy_score(y_test, y_pred_svm_pca20))

print("________________________________________________________________________________")

print("2 componentes")
print(metrics.classification_report(y_test, y_pred_svm_pca))

print("3 componentes")
print(metrics.classification_report(y_test, y_pred_svm_pca3))

print("5 componentes")
print(metrics.classification_report(y_test, y_pred_svm_pca5))

print("10 componentes")
print(metrics.classification_report(y_test, y_pred_svm_pca10))

print("20 componentes")
print(metrics.classification_report(y_test, y_pred_svm_pca20))

Acuracia de 2 componentes é 0.9415204678362573
Acuracia de 3 componentes é 0.9298245614035088
Acuracia de 5 componentes é 0.9707602339181286
Acuracia de 10 componentes é 0.9766081871345029
Acuracia de 20 componentes é 0.9766081871345029
________________________________________________________________________________
2 componentes
              precision    recall  f1-score   support

           0       0.95      0.89      0.92        63
           1       0.94      0.97      0.95       108

    accuracy                           0.94       171
   macro avg       0.94      0.93      0.94       171
weighted avg       0.94      0.94      0.94       171

3 componentes
              precision    recall  f1-score   support

           0       0.90      0.90      0.90        63
           1       0.94      0.94      0.94       108

    accuracy                           0.93       171
   macro avg       0.92      0.92      0.92       171
weighted avg       0.93      0.93      0.93       171



Observações do modelo:
*   **Regressão Logística:**

  A regressão logística parece ter um desempenho constante quando o número de componentes do PCA aumenta. Uma acurácia alta em todos os casos, variando de 97% a 99%. Isso indica que a regressão logística se comporta bem com o uso do PCA com poucos componentes ou com muitos.


*  **Random Forest:**

  O modelo de Random Forest possui uma acurácia menor em relação ao modelo anterior, mas ainda é elevada, variando de 94% a 96% para os diferentes números de componentes. A precisão, recall e f1-score também são bastante consistentes, indicando que o Random Forest também é capaz de lidar com variação dos números de componentes do PCA, consequentemente com a redução de dimensionalidade também.
*   **SVM:**
  
  Por fim o SVM mostra também resultados bons à medida que o número de componentes aumenta. Sua acurácia varia de 93% a 98%, sugerindo que o SVM trabalha bem mesmo quando a dimensionalidade é reduzida. As métricas de precisão, recall e f1-score também são sólidas em todos os casos de variação.


Em resumo, todos os três algoritmos (Regressão Logística, Random Forest e SVM) mostraram uma capacidade de lidar com a redução de dimensionalidade usando PCA, sendo a regressão logística a melhor dos 3, mantendo um bom desempenho em termos de acurácia, precisão, recall e f1-score. E nos mostram que, um numero maior de componentes não é um resultado melhor.
