FIAP - Tecnólogo em Inteligência Artificial

# Checkpoint 04

Utilizando o `sklearn` em Machine Learning. 


## Apresentação do trabalho

Neste checkpoint vamos trabalhar com modelagem de dados em bases de dimensionalidade reduzida em relação à base original.

Para isso, você deve:

- Utilizar a base de câncer de mama de PCA - ok
- Ler/carregar/montar o dataset original - ok
- Dividir DADOS  e LABELS - ok
- Dividir TREINO e TESTE - ok
- Padronizar os dados - ok
- Reduzir a dimensionalidade com PCA - ok
- Sobre o dataset reduzido (componentes principais), aplicar o modelo de *Regressão Logística* para consturir o classificador - ok
- Escolha outros **2 modelos** de classificação para avaliar a performance no mesmo conjunto de dados - ok
- Calcular os resultados e comentar brevemente seus achados - ok


*Desafio!*: faça o código modularizado para avaliar os efeitos da redução de dimensionalidade para N componentes diferentes, avaliando o efeito da classificação com números distintos de componentes principais - ok



**Critérios de avaliação**: A correção do checkpoint será feita mediante os seguintes critérios:
- qualidade da compreensão e exploração da base
- formas de padronizar os dados selecionados
- completute de atendimento ao pipeline de machine learning
- emprego correto dos conceitos vistos em sala de aula (uso do dataset, métricas, etc)
- análise/justificativas dos resultados


CP 01 do Segundo Semestre - IA

Vylle Menezes 

In [1]:
# Imports
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from sklearn.svm import SVC
from sklearn.tree import DecisionTreeClassifier
from sklearn.decomposition import PCA
from sklearn.metrics import accuracy_score
from sklearn.linear_model import LogisticRegression
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import train_test_split

from sklearn.datasets import load_breast_cancer

In [2]:
# Montar o dataframe
breast = load_breast_cancer()

df = pd.DataFrame(breast.data,
                  columns=breast.feature_names)

df["label"] = breast.target

df.head(10)

Unnamed: 0,mean radius,mean texture,mean perimeter,mean area,mean smoothness,mean compactness,mean concavity,mean concave points,mean symmetry,mean fractal dimension,...,worst texture,worst perimeter,worst area,worst smoothness,worst compactness,worst concavity,worst concave points,worst symmetry,worst fractal dimension,label
0,17.99,10.38,122.8,1001.0,0.1184,0.2776,0.3001,0.1471,0.2419,0.07871,...,17.33,184.6,2019.0,0.1622,0.6656,0.7119,0.2654,0.4601,0.1189,0
1,20.57,17.77,132.9,1326.0,0.08474,0.07864,0.0869,0.07017,0.1812,0.05667,...,23.41,158.8,1956.0,0.1238,0.1866,0.2416,0.186,0.275,0.08902,0
2,19.69,21.25,130.0,1203.0,0.1096,0.1599,0.1974,0.1279,0.2069,0.05999,...,25.53,152.5,1709.0,0.1444,0.4245,0.4504,0.243,0.3613,0.08758,0
3,11.42,20.38,77.58,386.1,0.1425,0.2839,0.2414,0.1052,0.2597,0.09744,...,26.5,98.87,567.7,0.2098,0.8663,0.6869,0.2575,0.6638,0.173,0
4,20.29,14.34,135.1,1297.0,0.1003,0.1328,0.198,0.1043,0.1809,0.05883,...,16.67,152.2,1575.0,0.1374,0.205,0.4,0.1625,0.2364,0.07678,0
5,12.45,15.7,82.57,477.1,0.1278,0.17,0.1578,0.08089,0.2087,0.07613,...,23.75,103.4,741.6,0.1791,0.5249,0.5355,0.1741,0.3985,0.1244,0
6,18.25,19.98,119.6,1040.0,0.09463,0.109,0.1127,0.074,0.1794,0.05742,...,27.66,153.2,1606.0,0.1442,0.2576,0.3784,0.1932,0.3063,0.08368,0
7,13.71,20.83,90.2,577.9,0.1189,0.1645,0.09366,0.05985,0.2196,0.07451,...,28.14,110.6,897.0,0.1654,0.3682,0.2678,0.1556,0.3196,0.1151,0
8,13.0,21.82,87.5,519.8,0.1273,0.1932,0.1859,0.09353,0.235,0.07389,...,30.73,106.2,739.3,0.1703,0.5401,0.539,0.206,0.4378,0.1072,0
9,12.46,24.04,83.97,475.9,0.1186,0.2396,0.2273,0.08543,0.203,0.08243,...,40.68,97.65,711.4,0.1853,1.058,1.105,0.221,0.4366,0.2075,0


In [3]:
# Verificando a quantidade de colunas para o PCA
len(df.columns)

31

In [4]:
# Infos gerais
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 569 entries, 0 to 568
Data columns (total 31 columns):
 #   Column                   Non-Null Count  Dtype  
---  ------                   --------------  -----  
 0   mean radius              569 non-null    float64
 1   mean texture             569 non-null    float64
 2   mean perimeter           569 non-null    float64
 3   mean area                569 non-null    float64
 4   mean smoothness          569 non-null    float64
 5   mean compactness         569 non-null    float64
 6   mean concavity           569 non-null    float64
 7   mean concave points      569 non-null    float64
 8   mean symmetry            569 non-null    float64
 9   mean fractal dimension   569 non-null    float64
 10  radius error             569 non-null    float64
 11  texture error            569 non-null    float64
 12  perimeter error          569 non-null    float64
 13  area error               569 non-null    float64
 14  smoothness error         5

In [5]:
# Verificando se a base de dados não está muito desbalanceada
df["label"].value_counts()

1    357
0    212
Name: label, dtype: int64

In [6]:
# Separando os dados e do target
X = df.drop(columns=["label"])
y = df['label']

In [7]:
# Separando os dados para treino e teste

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.3, random_state = 10)

In [8]:
# Padronizar os dados

scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)

In [14]:
# Aplicando o PCA

for n_componentes in range(1, 30, +3):
    pca = PCA(n_components=n_componentes)
    X_train_pca = pca.fit_transform(X_train)
    X_test_pca = pca.transform(X_test)

    # Regressão Logistica
    modelo_regressao_logistica = LogisticRegression()

    modelo_regressao_logistica.fit(X_train_pca, y_train)
    y_pred = modelo_regressao_logistica.predict(X_test_pca)

    acuracia = accuracy_score(y_test, y_pred)

    # Arvore de decisão
    modelo_arvore = DecisionTreeClassifier()
    modelo_arvore.fit(X_train_pca, y_train)
    y_pred_ar = modelo_arvore.predict(X_test_pca)

    acuracia_ar = accuracy_score(y_test, y_pred_ar)

    # Support Vector Machine

    modelo_svm = SVC()
    modelo_svm.fit(X_train_pca, y_train)
    y_pred_svm = modelo_svm.predict(X_test_pca)

    acuracia_svm = accuracy_score(y_test, y_pred_svm)

    print(f"Avaliando com {n_componentes} componentes principais:")
    print(f"Acurácia Regressão Logistica com PCA: {acuracia}")
    print(f"Acurácia Arvore de decisão com PCA: {acuracia_ar}")
    print(f"Acurácia Support Vector Machine com PCA: {acuracia_svm}\n\n")



Avaliando com 1 componentes principais:
Acurácia Regressão Logistica com PCA: 0.935672514619883
Acurácia Arvore de decisão com PCA: 0.8830409356725146
Acurácia Support Vector Machine com PCA: 0.935672514619883


Avaliando com 4 componentes principais:
Acurácia Regressão Logistica com PCA: 0.9707602339181286
Acurácia Arvore de decisão com PCA: 0.935672514619883
Acurácia Support Vector Machine com PCA: 0.9532163742690059


Avaliando com 7 componentes principais:
Acurácia Regressão Logistica com PCA: 0.9707602339181286
Acurácia Arvore de decisão com PCA: 0.9707602339181286
Acurácia Support Vector Machine com PCA: 0.9707602339181286


Avaliando com 10 componentes principais:
Acurácia Regressão Logistica com PCA: 0.9766081871345029
Acurácia Arvore de decisão com PCA: 0.9707602339181286
Acurácia Support Vector Machine com PCA: 0.9824561403508771


Avaliando com 13 componentes principais:
Acurácia Regressão Logistica com PCA: 0.9707602339181286
Acurácia Arvore de decisão com PCA: 0.9532163742

A primeira coisa que eu fiz para o código rodar foi um import de tudo o que vou precisar, inclusive os datasets chamados "load_breast_cancer" e "Câncer de mama".

Após isso, foi a hora de montar o dataframe, separando as colunas e definindo o target/label.

Para o PCA, é importante saber a quantidade de colunas, visto que o PCA opera melhor com bases de dados com mais colunas. Além disso, verifiquei as informações dos meus dados, para verificar se havia algum dado nulo, faltante, tipo de dado, etc.

Também verifiquei os valores únicos da minha coluna chamada "label" para verificar se não havia discrepâncias entre os dados. Caso houvesse um número muito maior de uma das classificações, não seria bom.

Logo em seguida, separei meus dados entre os dados sem o meu target e o meu target sozinho, ou seja, aquele que eu quero descobrir.

Separei meus dados de treino e teste, utilizando 30% dos meus dados. Após isso, padronizei meus dados para que não houvesse diferenças gritantes entre eles.

Por último, apliquei o PCA em uma função for com o range de 1 a 30 e com o intervalo de 3. Para cada número de componentes, apliquei os modelos de classificação. Procurei pesquisar os melhores modelos de classificação com o PCA e selecionei o modelo Support Vector Machine e o de Árvore de Decisão. Finalizei verificando a acurácia de cada um dos modelos.

Achados: Constatei que o PCA com 10 números de componentes foi o que conseguiu os melhores resultados de acurácia para os três métodos de classificação.

Acurácia Regressão Logística com PCA: 0.9766081871345029<br>
Acurácia Árvore de Decisão com PCA: 0.9707602339181286<br>
Acurácia Support Vector Machine com PCA: 0.9824561403508771

Os valores acabam se repetindo em números parecidos de componentes, mas considerei 10 números o melhor.