# Pacotes

**Pacotes**

Você começa importando as bibliotecas necessárias:

**pandas**: Para manipulação e análise de dados.

**train_test_split** (de sklearn.model_selection): Para dividir o dataset em conjuntos de treino e teste.

**StandardScaler** (de sklearn.preprocessing): Normaliza os dados para melhorar o desempenho do modelo.

**LogisticRegression** (de sklearn.linear_model): Para a aplicação de Regressão Logística.

**MLPClassifier** (de sklearn.neural_network): Para criar e treinar um modelo de Rede Neural.


In [None]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import mean_squared_error


# Carrega Dataset

**Carregar Dataset**

Carrega os dados de câncer de mama a partir de um arquivo CSV:

**pd.read_csv**('BreastCancer.csv', sep=";"): Lê o arquivo BreastCancer.csv com delimitador de ponto e vírgula. Esse dataset inclui informações sobre tumores, como características das células e a classificação do tumor (malignant ou benign).

In [None]:
# Carregar os dados
data = pd.read_csv('BreastCancer.csv',sep=";")

In [None]:
data

Unnamed: 0,Id,Cl.thickness,Cell.size,Cell.shape,Marg.adhesion,Epith.c.size,Bare.nuclei,Bl.cromatin,Normal.nucleoli,Mitoses,Class
0,1000025,5,1,1,1,2,1.0,3,1,1,benign
1,1002945,5,4,4,5,7,10.0,3,2,1,benign
2,1015425,3,1,1,1,2,2.0,3,1,1,benign
3,1016277,6,8,8,1,3,4.0,3,7,1,benign
4,1017023,4,1,1,3,2,1.0,3,1,1,benign
...,...,...,...,...,...,...,...,...,...,...,...
694,776715,3,1,1,1,3,2.0,1,1,1,benign
695,841769,2,1,1,1,2,1.0,1,1,1,benign
696,888820,5,10,10,3,7,3.0,8,10,2,malignant
697,897471,4,8,6,4,3,4.0,10,6,1,malignant


# Pré-processamento

**Pré-processamento**

Esta etapa prepara os dados para análise e modelagem:

Remover dados ausentes: data.dropna() remove linhas com valores nulos.
Mapeamento de Classes: Converte a coluna Class para valores binários. Define a classe malignant como 1 e benign como 0, facilitando a interpretação e o treinamento dos modelos.

In [None]:
data = data.dropna()

In [None]:
categoria_alvo = 'malignant'  # Categoria que desejamos transformar em 1
data['Class'] = data['Class'].replace({categoria_alvo: 1, 'benign': 0})

  data['Class'] = data['Class'].replace({categoria_alvo: 1, 'benign': 0})
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  data['Class'] = data['Class'].replace({categoria_alvo: 1, 'benign': 0})


# Train Test Split

**Separação de Features e Variável Alvo (Train Test Split)**

Separação das variáveis independentes e da variável alvo Class:

Definição de X e y: X contém as features, e y contém a variável alvo Class.
Divisão do dataset: **train_test_split**(X, y, test_size=0.3, random_state=42) divide os dados em 70% para treino e 30% para teste, mantendo os resultados consistentes com random_state=42.

In [None]:
# Separar features e variável alvo
X = data.drop(['Class'], axis=1)
y = data['Class']

In [None]:
# Dividir em conjunto de treino e teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)


# Normaliza

In [None]:
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

# Regressão Logística

**Regressão Logística**

Treina um modelo de Regressão Logística para prever a classe do tumor:

**LogisticRegression**(): Instancia o modelo de Regressão Logística.
Treinamento: log_reg.fit(X_train_scaled, y_train) ajusta o modelo aos dados de treino.

**Predições e Avaliação**: O modelo prevê as classes no conjunto de teste com log_reg.predict(X_test_scaled)

In [None]:
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score

# Criando e treinando o modelo de Regressão Logística
log_reg = LogisticRegression()
log_reg.fit(X_train_scaled, y_train)

# Fazendo previsões
log_reg_predictions = log_reg.predict(X_test_scaled)

# Avaliando o modelo com acurácia (para problemas de classificação)
log_reg_accuracy = accuracy_score(y_test, log_reg_predictions)


In [None]:
log_reg_accuracy

0.9560975609756097

# Rede Neural

**Rede Neural**

Treina um modelo de Rede Neural para prever a classe do tumor:

**MLPClassifier**(hidden_layer_sizes=(5, 4, 2), random_state=42, max_iter=1000): Cria uma rede neural com três camadas escondidas de tamanhos 5, 4 e 2 neurônios. random_state=42 assegura que os resultados sejam reprodutíveis, e max_iter=1000 define o número máximo de iterações de treinamento.
Treinamento: nn_classifier.fit(X_train_scaled, y_train) ajusta a rede neural aos dados de treino.

Predições e Avaliação: O modelo gera predições para o conjunto de teste com nn_classifier.predict(X_test_scaled), e a acurácia é calculada para avaliar o desempenho.

In [None]:
from sklearn.neural_network import MLPClassifier
from sklearn.metrics import accuracy_score

# Criando e treinando o modelo de Rede Neural para classificação
nn_classifier = MLPClassifier(hidden_layer_sizes=(5, 4, 2), random_state=42, max_iter=1000)
nn_classifier.fit(X_train_scaled, y_train)

# Fazendo previsões
nn_predictions = nn_classifier.predict(X_test_scaled)

# Avaliando o modelo (usando acurácia para classificação)
nn_accuracy = accuracy_score(y_test, nn_predictions)

print(f"Acurácia: {nn_accuracy:.4f}")


Acurácia: 0.9561


**Resultados**

Imprime a acurácia para ambos os modelos:


In [None]:
print("Regressão Linear - Acurácia:", log_reg_accuracy)
print("Rede Neural - Acurácia:", nn_accuracy)

Regressão Linear - Acurácia: 0.9560975609756097
Rede Neural - Acurácia: 0.9560975609756097
