In [257]:
import pandas as pd
from sklearn.preprocessing import MinMaxScaler
from sklearn.utils import resample
from sklearn.model_selection import train_test_split
import tensorflow as tf
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score
import numpy as np

# Coleta de Dados
* **Escolha da Base de Dados:** Selecione uma base de dados adequada para problemas de classificação. A base deve conter pelo menos uma variável alvo categórica e múltiplas variáveis independentes.
* ESCOLHA UMA BASE DE DADOS QUE NÃO TENHA SIDO USADA ANTES!

In [258]:
df = pd.read_csv('breast-cancer.csv')
df = df.drop("id", axis=1) 
df

Unnamed: 0,diagnosis,radius_mean,texture_mean,perimeter_mean,area_mean,smoothness_mean,compactness_mean,concavity_mean,concave points_mean,symmetry_mean,...,radius_worst,texture_worst,perimeter_worst,area_worst,smoothness_worst,compactness_worst,concavity_worst,concave points_worst,symmetry_worst,fractal_dimension_worst
0,M,17.99,10.38,122.80,1001.0,0.11840,0.27760,0.30010,0.14710,0.2419,...,25.380,17.33,184.60,2019.0,0.16220,0.66560,0.7119,0.2654,0.4601,0.11890
1,M,20.57,17.77,132.90,1326.0,0.08474,0.07864,0.08690,0.07017,0.1812,...,24.990,23.41,158.80,1956.0,0.12380,0.18660,0.2416,0.1860,0.2750,0.08902
2,M,19.69,21.25,130.00,1203.0,0.10960,0.15990,0.19740,0.12790,0.2069,...,23.570,25.53,152.50,1709.0,0.14440,0.42450,0.4504,0.2430,0.3613,0.08758
3,M,11.42,20.38,77.58,386.1,0.14250,0.28390,0.24140,0.10520,0.2597,...,14.910,26.50,98.87,567.7,0.20980,0.86630,0.6869,0.2575,0.6638,0.17300
4,M,20.29,14.34,135.10,1297.0,0.10030,0.13280,0.19800,0.10430,0.1809,...,22.540,16.67,152.20,1575.0,0.13740,0.20500,0.4000,0.1625,0.2364,0.07678
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
564,M,21.56,22.39,142.00,1479.0,0.11100,0.11590,0.24390,0.13890,0.1726,...,25.450,26.40,166.10,2027.0,0.14100,0.21130,0.4107,0.2216,0.2060,0.07115
565,M,20.13,28.25,131.20,1261.0,0.09780,0.10340,0.14400,0.09791,0.1752,...,23.690,38.25,155.00,1731.0,0.11660,0.19220,0.3215,0.1628,0.2572,0.06637
566,M,16.60,28.08,108.30,858.1,0.08455,0.10230,0.09251,0.05302,0.1590,...,18.980,34.12,126.70,1124.0,0.11390,0.30940,0.3403,0.1418,0.2218,0.07820
567,M,20.60,29.33,140.10,1265.0,0.11780,0.27700,0.35140,0.15200,0.2397,...,25.740,39.42,184.60,1821.0,0.16500,0.86810,0.9387,0.2650,0.4087,0.12400


# Pré-processamento de Dados
* Elementos Faltantes: Trate os elementos faltantes na base de dados, se houver.
* Variáveis Categóricas: Converta variáveis categóricas em numéricas, utilizando técnicas como One-Hot Encoding, se necessário.
* Normalização: Normalize as variáveis, especialmente se você for usar algoritmos sensíveis à escala.
* Separação de Dados: Divida a base em conjuntos de treino e teste.

In [259]:
print(f"Elementos faltantes:\n{df.isna().sum()}\n") #Nenhum dado faltante

df['diagnosis'] = df['diagnosis'].map({'M': 1, 'B': 0})

#Normalização
colunasIndependentes = ["radius_mean", "texture_mean", "perimeter_mean", "area_mean", "smoothness_mean", "compactness_mean", "concavity_mean", "concave points_mean", "symmetry_mean", "fractal_dimension_mean", "radius_se", "texture_se", "perimeter_se", "area_se", "smoothness_se", "compactness_se", "concavity_se", "concave points_se", "symmetry_se", "fractal_dimension_se", "radius_worst", "texture_worst", "perimeter_worst", "area_worst", "smoothness_worst", "compactness_worst", "concavity_worst", "concave points_worst", "symmetry_worst", "fractal_dimension_worst"]
scaler = MinMaxScaler()
df[colunasIndependentes] = scaler.fit_transform(df[colunasIndependentes])

#Balanceamento
classeMaioria = df[df["diagnosis"] == 0]
classeMinoria = df[df["diagnosis"] == 1] 
classeMaioria = resample(classeMaioria, n_samples=len(classeMinoria))
df = pd.concat([classeMaioria, classeMinoria])
df = df.sample(frac=1)

XTrain, XTest, yTrain, yTest = train_test_split(df[colunasIndependentes], df["diagnosis"], test_size = 0.2)

Elementos faltantes:
diagnosis                  0
radius_mean                0
texture_mean               0
perimeter_mean             0
area_mean                  0
smoothness_mean            0
compactness_mean           0
concavity_mean             0
concave points_mean        0
symmetry_mean              0
fractal_dimension_mean     0
radius_se                  0
texture_se                 0
perimeter_se               0
area_se                    0
smoothness_se              0
compactness_se             0
concavity_se               0
concave points_se          0
symmetry_se                0
fractal_dimension_se       0
radius_worst               0
texture_worst              0
perimeter_worst            0
area_worst                 0
smoothness_worst           0
compactness_worst          0
concavity_worst            0
concave points_worst       0
symmetry_worst             0
fractal_dimension_worst    0
dtype: int64



# Implementação e Treino
* Perceptron Simples: Implemente e treine um perceptron simples.
* MLP (Multilayer Perceptron): Implemente e treine um MLP.
* Algoritmo Clássico: Escolha e implemente um algoritmo clássico de Machine Learning que você acha que dará bons resultados (por exemplo, k-NN, Árvores de Decisão, SVM, etc.).

In [260]:
modeloP = tf.keras.Sequential([
    tf.keras.layers.Input(shape=(XTrain.shape[1],)), #Camada de entrada com o número de características
    tf.keras.layers.Dense(1, activation='sigmoid') #Camada de saída com 1 neurônio(classificação binária), função de ativação sigmoid é semelhante a uma regressão logística
])
modeloP.compile(optimizer='adam', loss='binary_crossentropy', metrics=['accuracy']) 
#Adapta a taxa de aprendizado para cada peso da rede neural. Isso significa que ele ajusta automaticamente o tamanho dos passos usados para atualizar os pesos. Isso pode ajudar a prevenir overfitting
#A função de perda mede o quão longe as previsões do modelo estão dos valores reais. 'binary_crossentropy' é a função de perda apropriada para problemas de classificação binária, onde você tem duas classes (como 0 e 1) e deseja calcular o erro entre as previsões e os rótulos reais.
modeloP.fit(XTrain, yTrain, batch_size=32, epochs=100)
#batch_size: O tamanho do lote (batch size) determina quantas amostras de treinamento são usadas em cada atualização dos pesos do modelo. Valores menores exigem menos do computador mas o processo total é mais lento.(Padrão é 32, 64 ou 128)
#epoch: Uma passagem completa por todo o conjunto de treinamento durante o treinamento do modelo.


Epoch 1/100


Epoch 2/100
Epoch 3/100
Epoch 4/100
Epoch 5/100
Epoch 6/100
Epoch 7/100
Epoch 8/100
Epoch 9/100
Epoch 10/100
Epoch 11/100
Epoch 12/100
Epoch 13/100
Epoch 14/100
Epoch 15/100
Epoch 16/100
Epoch 17/100
Epoch 18/100
Epoch 19/100
Epoch 20/100
Epoch 21/100
Epoch 22/100
Epoch 23/100
Epoch 24/100
Epoch 25/100
Epoch 26/100
Epoch 27/100
Epoch 28/100
Epoch 29/100
Epoch 30/100
Epoch 31/100
Epoch 32/100
Epoch 33/100
Epoch 34/100
Epoch 35/100
Epoch 36/100
Epoch 37/100
Epoch 38/100
Epoch 39/100
Epoch 40/100
Epoch 41/100
Epoch 42/100
Epoch 43/100
Epoch 44/100
Epoch 45/100
Epoch 46/100
Epoch 47/100
Epoch 48/100
Epoch 49/100
Epoch 50/100
Epoch 51/100
Epoch 52/100
Epoch 53/100
Epoch 54/100
Epoch 55/100
Epoch 56/100
Epoch 57/100
Epoch 58/100
Epoch 59/100
Epoch 60/100
Epoch 61/100
Epoch 62/100
Epoch 63/100
Epoch 64/100
Epoch 65/100
Epoch 66/100
Epoch 67/100
Epoch 68/100
Epoch 69/100
Epoch 70/100
Epoch 71/100
Epoch 72/100
Epoch 73/100
Epoch 74/100
Epoch 75/100
Epoch 76/100
Epoch 77/100
Epoch 78/100
Epoch 7

<keras.callbacks.History at 0x7f7a93fa9908>

In [261]:
modeloMLP = tf.keras.Sequential([
    tf.keras.layers.Input(shape=(XTrain.shape[1],)), 
    tf.keras.layers.Dense(6, activation='relu'),
    #Para qualquer valor de entrada x, a função ReLU retorna x se x for positivo ou zero, e retorna 0 se x for negativo. Em outras palavras, se o valor de entrada for maior que zero, ele passa sem alterações; caso contrário, é definido como zero.
    tf.keras.layers.Dense(6, activation='relu'),  
    tf.keras.layers.Dense(1, activation='sigmoid') 
])
modeloMLP.compile(optimizer='adam', loss='binary_crossentropy', metrics=['accuracy']) 
modeloMLP.fit(XTrain, yTrain, batch_size=32, epochs=100)

Epoch 1/100
Epoch 2/100
Epoch 3/100
Epoch 4/100
Epoch 5/100
Epoch 6/100
Epoch 7/100
Epoch 8/100
Epoch 9/100
Epoch 10/100
Epoch 11/100
Epoch 12/100
Epoch 13/100
Epoch 14/100
Epoch 15/100
Epoch 16/100
Epoch 17/100
Epoch 18/100
Epoch 19/100
Epoch 20/100
Epoch 21/100
Epoch 22/100
Epoch 23/100
Epoch 24/100
Epoch 25/100
Epoch 26/100
Epoch 27/100
Epoch 28/100
Epoch 29/100
Epoch 30/100
Epoch 31/100
Epoch 32/100
Epoch 33/100
Epoch 34/100
Epoch 35/100
Epoch 36/100
Epoch 37/100
Epoch 38/100
Epoch 39/100
Epoch 40/100
Epoch 41/100
Epoch 42/100
Epoch 43/100
Epoch 44/100
Epoch 45/100
Epoch 46/100
Epoch 47/100
Epoch 48/100
Epoch 49/100
Epoch 50/100
Epoch 51/100
Epoch 52/100
Epoch 53/100
Epoch 54/100
Epoch 55/100
Epoch 56/100
Epoch 57/100
Epoch 58/100
Epoch 59/100
Epoch 60/100
Epoch 61/100
Epoch 62/100
Epoch 63/100
Epoch 64/100
Epoch 65/100
Epoch 66/100
Epoch 67/100
Epoch 68/100
Epoch 69/100
Epoch 70/100
Epoch 71/100
Epoch 72/100
Epoch 73/100
Epoch 74/100
Epoch 75/100
Epoch 76/100
Epoch 77/100
Epoch 78

<keras.callbacks.History at 0x7f7a93e96518>

In [262]:
modeloDT = DecisionTreeClassifier()
modeloDT.fit(XTrain, yTrain)

DecisionTreeClassifier()

# Avaliação de Modelos
* Use o conjunto de teste para fazer previsões com cada um dos modelos treinados.
* Calcule métricas de avaliação como precisão, recall e F1-score para cada modelo.

# Comparação de Desempenho
* Compare as métricas de avaliação entre os três modelos.
* Identifique qual algoritmo teve o melhor desempenho e justifique sua escolha.

In [263]:
yPredP = modeloP.predict(XTest)
yPredP = np.where(yPredP >= 0.5, 1, 0)
dfComparacaoP = pd.DataFrame(yTest)
dfComparacaoP["Predição"] = yPredP
print("=====Comparação - Perceptron Simples=====")
print(dfComparacaoP)
accuracyP = accuracy_score(yTest, yPredP) 
precisionP = precision_score(yTest, yPredP) 
recallP = recall_score(yTest, yPredP) 
f1P = f1_score(yTest, yPredP) 

yPredMLP = modeloMLP.predict(XTest)
yPredMLP = np.where(yPredMLP >= 0.5, 1, 0)
dfComparacaoMLP = pd.DataFrame(yTest)
dfComparacaoMLP["Predição"] = yPredMLP
print("=====Comparação - Perceptron Multi Camadas=====")
print(dfComparacaoMLP)
accuracyMLP = accuracy_score(yTest, yPredMLP) 
precisionMLP = precision_score(yTest, yPredMLP) 
recallMLP = recall_score(yTest, yPredMLP) 
f1MLP = f1_score(yTest, yPredMLP) 

yPredDT = modeloDT.predict(XTest)
dfComparacaoDT = pd.DataFrame(yTest)
dfComparacaoDT["Predição"] = yPredDT
print("=====Comparação - Árvore de Decisão=====")
print(dfComparacaoDT)
accuracyDT = accuracy_score(yTest, yPredDT) 
precisionDT = precision_score(yTest, yPredDT) 
recallDT = recall_score(yTest, yPredDT) 
f1DT = f1_score(yTest, yPredDT) 

print(f"=====Perceptron Simples=====\nAcurácia: {accuracyP}\nPrecisão: {precisionP}\nRecall: {recallP}\nF1-score: {f1P}\n")
print(f"=====Perceptron Multicamadas=====\nAcurácia: {accuracyMLP}\nPrecisão: {precisionMLP}\nRecall: {recallMLP}\nF1-score: {f1MLP}\n")
print(f"=====Árvore de Decisão=====\nAcurácia: {accuracyDT}\nPrecisão: {precisionDT}\nRecall: {recallDT}\nF1-score: {f1DT}")



=====Comparação - Perceptron Simples=====
     diagnosis  Predição
528          0         0
6            1         1
263          1         1
330          1         1
432          1         1
..         ...       ...
129          1         1
164          1         1
221          0         1
533          1         1
253          1         1

[85 rows x 2 columns]
=====Comparação - Perceptron Multi Camadas=====
     diagnosis  Predição
528          0         0
6            1         1
263          1         0
330          1         1
432          1         1
..         ...       ...
129          1         1
164          1         1
221          0         0
533          1         1
253          1         1

[85 rows x 2 columns]
=====Comparação - Árvore de Decisão=====
     diagnosis  Predição
528          0         0
6            1         1
263          1         1
330          1         1
432          1         1
..         ...       ...
129          1         1
164          1         

# Relatório

## Coleta de Dados

Essa base de dados possui dados acerca de células do tumor em pacientes. Bem como se o tumor é benigno ou maligno.
A base de dados foi retirada do Kaggle(https://www.kaggle.com/datasets/yasserh/breast-cancer-dataset)

### Variável Dependente
**Diagnosis:** Esta coluna indica o diagnóstico do câncer para cada paciente. Pode ter dois valores: M(maligno) ou B(benigno).

### Variáveis Independetes
* **radius_mean:** O raio médio das células no tumor.
* **texture_mean:** A textura média das células no tumor.
* **perimeter_mean:** O perímetro médio das células no tumor.
* **area_mean:** A área média das células no tumor.
* **smoothness_mean:** A suavidade média das células no tumor.
* **compactness_mean:** A compacidade média das células no tumor.
* **concavity_mean:** A concavidade média das células no tumor.
* **concave points_mean:** O número médio de pontos côncavos nas células no tumor.
* **symmetry_mean:** A simetria média das células no tumor.
* **fractal_dimension_mean:** A dimensão fractal média das células no tumor.
* As colunas com o sufixo "_se" representam características das células que se referem ao erro-padrão (standard error) das medidas anteriores.
* As colunas com o sufixo "_worst" representam as piores (ou maiores) características encontradas nas células do tumor.

## Pré-processamento de Dados
Os dados foram preparados da seguinte forma:
* Todas as variáveis independentes foram normalizadas, com valor de 0 a 1.
* A única variável categórica era a independente. Substitui os valores M por 1 e os valores B por 0.
* A base de dados foi balanceada, foram tirados registro da classe sobressainte para que ambas as classes tivessem o mesmo número de registros.
* A base foi separada em conjunto de treino(80%) e teste(20%).

## Implementação e Treino
### Perceptron Simples
Possui uma camada de entrada e uma de saída. A função de ativação é a sigmoid, que funciona de forma semelhante a uma regressão logística.     
O modelo foi compilado com o otimizador adam, que vai ajustando automaticamente os pesos e pode ajudar a previnir overfitting.    
A função de perda é a binary_crossentrophy, que é recomendada para problemas de classificação binária.    
Foram definidos batchs de 32 registros.     
Epoch foi definido como 100, que é aproximadamente o número em que a acurácia começa a se estabilizar.

### Perceptron Multicamadas
Além da camada de entrada e de saída, foram definidas duas camadas ocultas, com 6 neurônios cada, com a função de ativação relu(Para qualquer valor de entrada x, a função ReLU retorna x se x for positivo ou zero, e retorna 0 se x for negativo.)
O Epoch foi definido com o mesmo valor do perceptron simples, com o intuito de comparação.

### Árvore de Decisão
Um algoritmo mais simples, que determina pontos de separação em que os registros ficarão em grupos o mais homogêneos o possível. Esses grupos podem ser então posteriormente subdividos para que eles fiquem ainda bem mais divididos até que todos os grupos existentes sejam homogêneos o suficiente ou até que o número desejado de classes diferentes seja alcançado.      

## Avaliação de Modelos
As métricas utilizadas foram as seguintes:
* A acurácia mede a proporção de previsões corretas de todas as previsões.
* A precisão mede a proporção de previsões positivas corretas em relação a todas as previsões positivas. (Pune falsos positivos)
* O recall mede a proporção de instâncias positivas reais corretamente identificadas em relação a todas as instâncias positivas reais. (Pune falsos negativos)
* O F1-Score é uma métrica de equilíbrio que combina precisão e recall em um único valor.

No geral, perceptron multicamadas trouxe os melhores resultados, enquanto perceptron simples na maioria das iterações se mostra inferior a árvore de decisão.