<a href="https://colab.research.google.com/github/RaonyGauto/Breast-Cancer-Wisconsin-Diagnostic/blob/main/Breast_Cancer_Wisconsin_(Diagnostic).ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Projeto de Previsão de Câncer de Mama**

>**Contexto:**

 O câncer de mama é uma doença que se origina nas células da mama, mais frequentemente nas glândulas mamárias que produzem leite (lobos) ou nos ductos que transportam o leite dos lobos para o mamilo. É uma das formas mais comuns de câncer entre as mulheres, embora homens também possam desenvolvê-lo. A detecção precoce é fundamental para o tratamento bem-sucedido, e o exame de biópsia é uma das maneiras de diagnosticar o câncer de mama. E a partir de características das células pode ser determinado se esse tumor é benigno ou maligno.

 As características são calculadas a partir de uma imagem digitalizada de um aspirado com agulha fina (PAAF) de uma massa mamária. Eles descrevem características dos núcleos celulares presentes na imagem.

---

>**Desafio:**

Após biopsia o desafio é analisar as variáveis para achar padrôes e fatores que indiquem a classificação do tumor, alem de treinar um modelo de machine learning capaz de identificar a partir de características do tumor se ele é benigno ou maligno.


---

>**Objetivo:**

O objetivo do projeto é desenvolver um modelo de classificação que tenha uma alta precisão acertiva para servir como uma ferramenta de apoio para profissionais da saúde tomarem as decisões mais corretas possíveis após coletar e analisar o material utilizado no exame de biópsa.















































































































###Dataset:

O projeto foi desenvolvido a partir do conjunto de dados Breast Cancer Wisconsin (Diagnostic) Data Set que está no site Kaggle. Para mais informações sobre o conjunto de dados e ou arquivo do banco de dados link abaixo.

Link: https://www.kaggle.com/datasets/uciml/breast-cancer-wisconsin-data



---
## Variáveis do dataset:

---
id: O identificador único da biópsia.

diagnosis: O diagnóstico da biópsia, um valor binário que indica se o tumor é maligno (M) ou benigno (B).

radius_mean: A média do raio das células cancerosas, em mícrons.

texture_mean: A média da textura das células cancerosas.

perimeter_mean: A média do perímetro das células cancerosas, em mícrons.

area_mean: A média da área das células cancerosas, em mícrons quadrados.

smoothness_mean: A média da suavidade das células cancerosas.

compactness_mean: A média da compactação das células cancerosas.

concavity_mean: A média da concavidade das células cancerosas.

concave points_mean: A média do número de pontos côncavos nas células
cancerosas.

symmetry_mean: A média da simetria das células cancerosas.

fractal_dimension_mean: A média da dimensão fractal das células cancerosas.

radius_se: O erro padrão do raio das células cancerosas, em mícrons.

texture_se: O erro padrão da textura das células cancerosas.

perimeter_se: O erro padrão do perímetro das células cancerosas, em mícrons.

area_se: O erro padrão da área das células cancerosas, em mícrons quadrados.

smoothness_se: O erro padrão da suavidade das células cancerosas.

compactness_se: O erro padrão da compactação das células cancerosas.

concavity_se: O erro padrão da concavidade das células cancerosas.

concave points_se: O erro padrão do número de pontos côncavos nas células cancerosas.

symmetry_se: O erro padrão da simetria das células cancerosas.

fractal_dimension_se: O erro padrão da dimensão fractal das células cancerosas.

radius_worst: O pior raio das células cancerosas, em mícrons.

texture_worst: O pior valor de textura das células cancerosas.

perimeter_worst: O pior valor de perímetro das células cancerosas, em mícrons.

area_worst: O pior valor de área das células cancerosas, em mícrons quadrados.

smoothness_worst: O pior valor de suavidade das células cancerosas.

compactness_worst: O pior valor de compactação das células cancerosas.

concavity_worst: O pior valor de concavidade das células cancerosas.

concave points_worst: O pior valor do número de pontos côncavos nas células cancerosas.

symmetry_worst: O pior valor de simetria das células cancerosas.

fractal_dimension_worst: O pior valor da dimensão fractal das células cancerosas.

---

# Importando bibliotecas

In [None]:
import pandas            as pd  # Importa a biblioteca pandas e a apelida como 'pd' para trabalhar com estruturas de dados tabulares.
import numpy             as np  # Importa a biblioteca numpy e a apelida como 'np' para cálculos numéricos.
import matplotlib.pyplot as plt # Importa a biblioteca matplotlib para criar gráficos e a apelida como 'plt'.
import seaborn           as sns # Importa a biblioteca seaborn para melhorar a visualização de dados e a apelida como 'sns'.


In [None]:
# Lê os dados do arquivo CSV localizado em '/content/data.csv' e armazena-os no DataFrame 'breast_cancer'.
breast_cancer = pd.read_csv('/content/data.csv')

# Análise Exploratória dos Dados

In [None]:
# Exibe as 5 primeiras linhas do DataFrame 'breast_cancer' para vizualizar o conjunto de dados.

breast_cancer.head()

In [None]:
# Retorna a forma (número de linhas e colunas) do DataFrame 'breast_cancer'.

breast_cancer.shape

In [None]:
# O método info() fornece informações resumidas sobre o DataFrame 'breast_cancer'.

breast_cancer.info()

In [None]:
# Remove a coluna chamada 'Unnamed: 32' do DataFrame 'breast_cancer'.

breast_cancer = breast_cancer.drop(columns=['Unnamed: 32'])

In [None]:
# Cria um novo DataFrame chamado 'breast_cancerM' que contém as amostras de tumores malignos (diagnosis == 'M') do DataFrame original 'breast_cancer'.

breast_cancerM = breast_cancer[breast_cancer['diagnosis'] == 'M']

# Cria um novo DataFrame chamado 'breast_cancerB' que contém as amostras de tumores benignos (diagnosis == 'B') do DataFrame original 'breast_cancer'.

breast_cancerB = breast_cancer[breast_cancer['diagnosis'] == 'B']

In [None]:
# Gera estatísticas descritivas para o DataFrame 'breast_cancerM', que contém amostras de tumores malignos.

breast_cancerM.describe()

In [None]:
# Gera estatísticas descritivas para o DataFrame 'breast_cancerB', que contém amostras de tumores benignos.

breast_cancerB.describe()

In [None]:
# Atribui valores numéricos às amostras da coluna 'diagnosis' no DataFrame 'breast_cancer', onde 'M' é mapeado para 1 e 'B' é mapeado para 0.

breast_cancer['diagnosis'] = breast_cancer['diagnosis'].apply(lambda x: 1 if x == 'M' else 0)

# Visualização dos Dados

In [None]:
# Cria uma figura com as dimensões de 12 de largura por 8 de altura para acomodar o gráfico.

plt.figure(figsize=(12,8))

# Cria um gráfico de densidade (kernel density plot) para a média do raio das células de tumores malignos variável 'radius_mean'.
# O parâmetro 'label' fornece uma legenda para o gráfico.
# O parâmetro 'shade=True' preenche a área sob a curva do gráfico com uma cor.
# O parâmetro 'color' define a cor da curva do gráfico vermelho - 'r'.

sns.kdeplot(breast_cancerM['radius_mean'], label= 'A média do raio das células do tumor maligno ', shade=True, color='r')

# Cria um gráfico de densidade semelhante para a média do raio das células de tumores benignos, com parâmetros semelhantes.
# O parâmetro 'color' define a cor da curva do gráfico de tumores benignos em azul - 'b'.

sns.kdeplot(breast_cancerB['radius_mean'], label= 'A média do raio das células do tumor benigno', shade=True, color='b')

# Define o título do gráfico com estilo e tamanho de fonte personalizados.

plt.title('A Média do Raio das Células de Tumor Maligno X Benigno', fontweight='black', size=12, pad=12)

In [None]:
# Cria uma figura com as dimensões de 12 de largura por 8 de altura para acomodar o gráfico.

plt.figure(figsize=(12,8))

# Cria um gráfico de densidade (kernel density plot) para a média do raio das células de tumores malignos variável 'texture_mean'.
# O parâmetro 'label' fornece uma legenda para o gráfico.
# O parâmetro 'shade=True' preenche a área sob a curva do gráfico com uma cor.
# O parâmetro 'color' define a cor da curva do gráfico de tumores malignos em vermelho - 'r'.

sns.kdeplot(breast_cancerM['texture_mean'], label= 'A média da textura do tumor maligno ', shade=True, color='r')

# Cria um gráfico de densidade semelhante para a média do raio das células de tumores benignos, com parâmetros semelhantes.
# O parâmetro 'color' define a cor da curva do gráfico de tumores benignos em azul - 'b'.

sns.kdeplot(breast_cancerB['texture_mean'], label= 'A média da textura do tumor benigno', shade=True, color='b')

# Define o título do gráfico com estilo e tamanho de fonte personalizados.

plt.title('A Média da Textura das Células de Tumor Maligno X Benigno', fontweight='black', size=12, pad=12)

In [None]:
# Cria uma figura com as dimensões de 12 de largura por 8 de altura para acomodar o gráfico.

plt.figure(figsize=(12,8))

# Cria um gráfico de densidade (kernel density plot) para a média do raio das células de tumores malignos variável 'perimeter_mean'.
# O parâmetro 'label' fornece uma legenda para o gráfico.
# O parâmetro 'shade=True' preenche a área sob a curva do gráfico com uma cor.
# O parâmetro 'color' define a cor da curva do gráfico de tumores malignos em vermelho - 'r'.

sns.kdeplot(breast_cancerM['perimeter_mean'], label= 'A média do perímetro do tumor maligno ', shade=True, color='r')

# Cria um gráfico de densidade semelhante para a média do raio das células de tumores benignos, com parâmetros semelhantes.
# O parâmetro 'color' define a cor da curva do gráfico de tumores benignos em azul - 'b'.

sns.kdeplot(breast_cancerB['perimeter_mean'], label= 'A média do perímetro do tumor benigno', shade=True, color='b')

# Define o título do gráfico com estilo e tamanho de fonte personalizados.

plt.title('A Média do Perímetro das Células de Tumor Maligno X Benigno', fontweight='black', size=12, pad=12)

In [None]:
# Cria uma figura com as dimensões de 12 de largura por 8 de altura para acomodar o gráfico.

plt.figure(figsize=(12,8))

# Cria um gráfico de densidade (kernel density plot) para a média do raio das células de tumores malignos variável 'area_mean'.
# O parâmetro 'label' fornece uma legenda para o gráfico.
# O parâmetro 'shade=True' preenche a área sob a curva do gráfico com uma cor.
# O parâmetro 'color' define a cor da curva do gráfico de tumores malignos em vermelho - 'r'.

sns.kdeplot(breast_cancerM['area_mean'], label= 'A média da área do tumor maligno ', shade=True, color='r')

# Cria um gráfico de densidade semelhante para a média do raio das células de tumores benignos, com parâmetros semelhantes.
# O parâmetro 'color' define a cor da curva do gráfico de tumores benignos em azul - 'b'.

sns.kdeplot(breast_cancerB['area_mean'], label= 'A média da área do tumor benigno', shade=True, color='b')

# Define o título do gráfico com estilo e tamanho de fonte personalizados.

plt.title('A Média da Área das Células de Tumor Maligno X Benigno', fontweight='black', size=12, pad=12)

In [None]:
# Cria uma figura com as dimensões de 12 de largura por 8 de altura para acomodar o gráfico.

plt.figure(figsize=(12,8))

# Cria um gráfico de densidade (kernel density plot) para a média do raio das células de tumores malignos variável 'smoothness_mean'.
# O parâmetro 'label' fornece uma legenda para o gráfico.
# O parâmetro 'shade=True' preenche a área sob a curva do gráfico com uma cor.
# O parâmetro 'color' define a cor da curva do gráfico de tumores malignos em vermelho - 'r'.

sns.kdeplot(breast_cancerM['smoothness_mean'], label= 'A suavidade média do tumor maligno ', shade=True, color='r')

# Cria um gráfico de densidade semelhante para a média do raio das células de tumores benignos, com parâmetros semelhantes.
# O parâmetro 'color' define a cor da curva do gráfico de tumores benignos em azul - 'b'.

sns.kdeplot(breast_cancerB['smoothness_mean'], label= 'A suavidade média do tumor benigno', shade=True, color='b')

# Define o título do gráfico com estilo e tamanho de fonte personalizados.

plt.title('A Suavidade Média das Células de Tumor Maligno X Benigno', fontweight='black', size=12, pad=12);

In [None]:
# Cria uma figura com as dimensões de 12 de largura por 8 de altura para acomodar o gráfico.

plt.figure(figsize=(12,8))

# Cria um gráfico de densidade (kernel density plot) para a média do raio das células de tumores malignos variável 'compactness_mean'.
# O parâmetro 'label' fornece uma legenda para o gráfico.
# O parâmetro 'shade=True' preenche a área sob a curva do gráfico com uma cor.
# O parâmetro 'color' define a cor da curva do gráfico de tumores malignos em vermelho - 'r'.

sns.kdeplot(breast_cancerM['compactness_mean'], label= 'A compactação média do tumor maligno ', shade=True, color='r')

# Cria um gráfico de densidade semelhante para a média do raio das células de tumores benignos, com parâmetros semelhantes.
# O parâmetro 'color' define a cor da curva do gráfico de tumores benignos em azul - 'b'.

sns.kdeplot(breast_cancerB['compactness_mean'], label= 'A compactação média do tumor benigno', shade=True, color='b')

# Define o título do gráfico com estilo e tamanho de fonte personalizados.

plt.title('A Compactação Média das Células de Tumor Maligno X Benigno', fontweight='black', size=12, pad=12)

In [None]:
# Cria uma figura com as dimensões de 12 de largura por 8 de altura para acomodar o gráfico.

plt.figure(figsize=(12,8))

# Cria um gráfico de densidade (kernel density plot) para a média do raio das células de tumores malignos variável 'concavity_mean'.
# O parâmetro 'label' fornece uma legenda para o gráfico.
# O parâmetro 'shade=True' preenche a área sob a curva do gráfico com uma cor.
# O parâmetro 'color' define a cor da curva do gráfico de tumores malignos em vermelho - 'r'.

sns.kdeplot(breast_cancerM['concavity_mean'], label= 'A média da concavidade do tumor maligno ', shade=True, color='r')

# Cria um gráfico de densidade semelhante para a média do raio das células de tumores benignos, com parâmetros semelhantes.
# O parâmetro 'color' define a cor da curva do gráfico de tumores benignos em azul - 'b'.

sns.kdeplot(breast_cancerB['concavity_mean'], label= 'A média da concavidade do tumor benigno', shade=True, color='b')

# Define o título do gráfico com estilo e tamanho de fonte personalizados.

plt.title('A Média da Concavidade das Células de Tumor Maligno X Benigno', fontweight='black', size=12, pad=12)

In [None]:
# Cria uma figura com as dimensões de 12 de largura por 8 de altura para acomodar o gráfico.

plt.figure(figsize=(12,8))

# Cria um gráfico de densidade (kernel density plot) para a média do raio das células de tumores malignos variável 'fractal_dimension_mean'.
# O parâmetro 'label' fornece uma legenda para o gráfico.
# O parâmetro 'shade=True' preenche a área sob a curva do gráfico com uma cor.
# O parâmetro 'color' define a cor da curva do gráfico de tumores malignos em vermelho - 'r'.

sns.kdeplot(breast_cancerM['fractal_dimension_mean'], label= 'A média da dimensão fractal do tumor maligno ', shade=True, color='r')

# Cria um gráfico de densidade semelhante para a média do raio das células de tumores benignos, com parâmetros semelhantes.
# O parâmetro 'color' define a cor da curva do gráfico de tumores benignos em azul - 'b'.

sns.kdeplot(breast_cancerB['fractal_dimension_mean'], label= 'A média da dimensão fractal do tumor benigno', shade=True, color='b')

# Define o título do gráfico com estilo e tamanho de fonte personalizados.

plt.title('A Média da Dimensão Fractal das Células de Tumor Maligno X Benigno', fontweight='black', size=12, pad=12)


### **Comparando Tumores Benignos x Malignos:**

Os tumores benignos e malignos são dois tipos de crescimentos celulares anormais. Os tumores benignos são crescimentos que não se espalham para outras partes do corpo, enquanto os tumores malignos são crescimentos que podem se espalhar para outras partes do corpo.

**Aqui está uma comparação das características de tumores benignos e malignos:**

Característica	       |Tumor benigno |	Tumor maligno
:-------------:        | :----------: |:--------------:
Radius mean	           |  Menor	      |    Maior
Texture mean	         |  Mais suave	|    Mais rugosa
Perimeter mean	       |  Menor	      |    Maior
Area mean	             |  Menor	      |    Maior
Smoothness mean	       |  Maior	      |    Menor
Compactness mean       |	Maior	      |    Menor
Concavity mean	       |  Menor	      |    Maior
Concave points mean	   |  Menor	      |    Maior
Symmetry mean	         |  Maior	      |    Menor
Fractal dimension mean | 	Menor	      |    Maior

### **Explicação:**

Em geral, os tumores malignos têm características mais extremas do que os tumores benignos. Isso significa que os tumores malignos têm um raio, perímetro, área, concavidade e número de pontos côncavos maiores. Eles também têm uma textura mais rugosa, compactação menor e simetria menor.

**Aqui está uma explicação mais detalhada de cada característica:**

**Radius mean:** O raio é a distância do centro de uma célula ao seu ponto mais distante. Tumores malignos tendem a ter um raio maior do que tumores benignos.

**Texture mean:** A textura é uma medida da variação da cor e do brilho de uma célula. Tumores malignos tendem a ter uma textura mais rugosa do que tumores benignos.

**Perimeter mean:** O perímetro é a distância ao redor de uma célula. Tumores malignos tendem a ter um perímetro maior do que tumores benignos.

**Area mean:** A área é a medida da superfície de uma célula. Tumores malignos tendem a ter uma área maior do que tumores benignos.

**Smoothness mean:** A suavidade é uma medida da uniformidade da superfície de uma célula. Tumores malignos tendem a ter uma suavidade menor do que tumores benignos.

**Compactness mean:** A compactação é uma medida da densidade de uma célula. Tumores malignos tendem a ter uma compactação menor do que tumores benignos.

**Concavity mean:** A concavidade é uma medida da quantidade de curvas em uma célula. Tumores malignos tendem a ter uma concavidade maior do que tumores benignos.

**Concave points mean:** O número de pontos côncavos é uma medida da quantidade de pontos em uma célula que são mais profundos do que os pontos ao seu redor. Tumores malignos tendem a ter um número de pontos côncavos maior do que tumores benignos.

**Symmetry mean:** A simetria é uma medida de quão simétrica é uma célula. Tumores malignos tendem a ter uma simetria menor do que tumores benignos.

**Fractal dimension mean:** O diâmetro fractal é uma medida de quão complexa é uma célula. Tumores malignos tendem a ter um diâmetro fractal maior do que tumores benignos.

### Implicações clínicas:

As características de tumores benignos e malignos podem ser usadas para ajudar os médicos a diagnosticar câncer. Por exemplo, se um tumor tiver um raio, perímetro, área, concavidade ou número de pontos côncavos maior do que o esperado, o médico pode suspeitar de câncer.

Além disso, as características de tumores benignos e malignos podem ser usadas para monitorar o tratamento do câncer. Por exemplo, se um tumor maligno começar a se tornar mais benigno, isso pode ser um sinal de que o tratamento está funcionando.

### Conclusão:

As características de tumores benignos e malignos podem fornecer informações importantes sobre o tipo de tumor. Essa informação pode ser usada para diagnosticar, tratar e monitorar o câncer.

## Pré - Processamento

In [None]:
# Importa a classe MinMaxScaler do módulo de pré-processamento da biblioteca sklearn.

from sklearn.preprocessing import MinMaxScaler

In [None]:
# Cria uma instância do MinMaxScaler, que será usada para redimensionar as características para o intervalo [0, 1].

scaler = MinMaxScaler()

# Aplica o MinMaxScaler às características X do DataFrame 'breast_cancer', removendo a coluna 'diagnosis'.
# Isso redimensiona as características para o intervalo [0, 1] e armazena o resultado em 'X_scaled'.

X_scaled = scaler.fit_transform(breast_cancer.drop(columns=['diagnosis']))

# A variável y é atribuída à coluna 'diagnosis' no DataFrame 'breast_cancer'.

y = breast_cancer['diagnosis']

In [None]:
# X_scaled é uma variável que contém as características após a aplicação do MinMaxScaler.

X_scaled

In [None]:
# Importa a função train_test_split do módulo model_selection da biblioteca sklearn.

from sklearn.model_selection import train_test_split

In [None]:
# Divide o conjunto de dados em treinamento (X_train, y_train) e validação (X_validad, y_validad).
# Usando 25% dos dados para validação e definindo uma semente (random_state=42) para reprodutibilidade.

X_train, X_validad, y_train, y_validad = train_test_split(X_scaled, y, test_size=0.25, random_state=42)

## Regressão Logística

In [None]:
# Importa a classe LogisticRegression do módulo de modelos lineares (linear_model) da biblioteca sklearn.

from sklearn.linear_model import LogisticRegression

In [None]:
# Cria uma instância do modelo de regressão logística da classe LogisticRegression.

logistic = LogisticRegression()

# Treina o modelo de regressão logística usando o conjunto de características de treinamento (X_train) e as variáveis alvo de treinamento (y_train).

logistic.fit(X_train, y_train)

# Realiza previsões usando o modelo treinado nos dados de validação (X_validad) e armazena as previsões em 'y_pred'.

y_pred = logistic.predict(X_validad)

In [None]:
# Importa diversas métricas de avaliação de desempenho de modelos de machine learning do módulo 'metrics' da biblioteca sklearn.

from sklearn.metrics import accuracy_score, recall_score, classification_report, f1_score, confusion_matrix

In [None]:
# Calcula a acurácia das previsões do modelo 'y_validad' são os rótulos reais e 'y_pred' são as previsões feitas pelo modelo no conjunto de validação.

accuracy_score(y_validad, y_pred)

In [None]:
# Calcula o recall (taxa de verdadeiros positivos) das previsões do modelo.

recall_score(y_validad, y_pred)

In [None]:
# Calcula o valor F1 com média macro (macro-average F1 score) das previsões do modelo.

f1_score(y_validad, y_pred, average='macro')

In [None]:
# Gera e imprime um relatório de classificação detalhado, incluindo várias métricas de desempenho do modelo.

print(classification_report(y_validad, y_pred))

In [None]:
# Calcula a matriz de confusão (confusion matrix) que mostra o número de verdadeiros positivos, verdadeiros negativos, falsos positivos e falsos negativos.

cm0 = confusion_matrix(y_validad, y_pred)

In [None]:
# Gera um mapa de calor (heatmap) da matriz de confusão 'cm0' com anotações (valores) exibidos nas células.

sns.heatmap(cm0, annot=True, fmt='d')

## Decision Tree Classifier

In [None]:
# Importa a classe DecisionTreeClassifier do módulo de árvores de decisão (tree) da biblioteca sklearn.

from sklearn.tree import DecisionTreeClassifier

In [None]:
# Cria uma instância do modelo de árvore de decisão da classe DecisionTreeClassifier.

tree = DecisionTreeClassifier()

# Treina o modelo de árvore de decisão usando o conjunto de características de treinamento X_train e as variáveis alvo de treinamento y_train.

tree.fit(X_train, y_train)

# Realiza previsões usando o modelo de árvore de decisão treinado nos dados de validação X_validad e armazena as previsões em 'y_predDTC'.

y_predDTC = tree.predict(X_validad)

In [None]:
# Calcula a acurácia das previsões do modelo 'y_validad' são os rótulos reais e 'y_pred' são as previsões feitas pelo modelo no conjunto de validação.

accuracy_score(y_validad, y_predDTC)

In [None]:
# Calcula o recall (taxa de verdadeiros positivos) das previsões do modelo.

recall_score(y_validad, y_predDTC)

In [None]:
# Calcula o valor F1 com média macro (macro-average F1 score) das previsões do modelo.

f1_score(y_validad, y_predDTC, average='macro')

In [None]:
# Gera e imprime um relatório de classificação detalhado, incluindo várias métricas de desempenho do modelo.

print(classification_report(y_validad, y_predDTC))

In [None]:
# Calcula a matriz de confusão (confusion matrix) que mostra o número de verdadeiros positivos, verdadeiros negativos, falsos positivos e falsos negativos.

cm1 = confusion_matrix(y_validad, y_predDTC)

In [None]:
# Gera um mapa de calor (heatmap) da matriz de confusão 'cm1' com anotações (valores) exibidos nas células.

sns.heatmap(cm1, annot=True, fmt='d')

## Random Forest Classifier

In [None]:
# Importa a classe RandomForestClassifier do módulo de ensemble da biblioteca sklearn.

from sklearn.ensemble import RandomForestClassifier

In [None]:
# Cria uma instância do modelo de Random Forest da classe RandomForestClassifier.

Random = RandomForestClassifier()

# Treina o modelo de Random Forest usando o conjunto de características de treinamento X_train e as variáveis alvo de treinamento y_train.

Random.fit(X_train, y_train)

# Realiza previsões usando o modelo de Random Forest treinado nos dados de validação (X_validad) e armazena as previsões em 'y_predRF'.

y_predRF = Random.predict(X_validad)

In [None]:
# Calcula a acurácia das previsões do modelo 'y_validad' são os rótulos reais e 'y_pred' são as previsões feitas pelo modelo no conjunto de validação.

accuracy_score(y_validad, y_predRF)

In [None]:
# Calcula o recall (taxa de verdadeiros positivos) das previsões do modelo.

recall_score(y_validad, y_predRF)

In [None]:
# Calcula o valor F1 com média macro (macro-average F1 score) das previsões do modelo.

f1_score(y_validad, y_pred, average='macro')

In [None]:
# Gera e imprime um relatório de classificação detalhado, incluindo várias métricas de desempenho do modelo.

print(classification_report(y_validad, y_predRF))

In [None]:
# Calcula a matriz de confusão (confusion matrix) que mostra o número de verdadeiros positivos, verdadeiros negativos, falsos positivos e falsos negativos.

cm2 = confusion_matrix(y_validad, y_predRF)

In [None]:
# Gera um mapa de calor (heatmap) da matriz de confusão 'cm2' com anotações (valores) exibidos nas células.

sns.heatmap(cm2, annot=True, fmt='d')

# Utilização do Modelo

### Após treinar os modelos e escolher o que tem as melhores métricas, iremos salva-lo para utilização em novos casos para diagnosticar os tumores.

## Salvando o modelo

In [None]:
# Importa o módulo 'pickle' uma biblioteca que fornece funcionalidades para serialização e desserialização de objetos.
# Ele é frequentemente usado para salvar objetos em arquivos ou para transferir objetos entre processos Python.

import pickle

In [None]:
# Abre um arquivo chamado 'variaveis_modelo.pkl' no modo de gravação binária 'wb'.
# Em seguida, usa o 'pickle' para serializar (salvar) a lista [scaler, logistic] no arquivo 'f'.

with open('variaveis_modelo.pkl', 'wb') as f:
  pickle.dump([scaler, logistic], f)

## Importando o modelo

In [None]:
# Abre o arquivo 'variaveis_modelo.pkl' no modo de leitura binária ('rb').
# usa o 'pickle' para desserializar (carregar) os objetos armazenados no arquivo 'f' nas variáveis 'min_max' e 'model'.

with open('variaveis_modelo.pkl', 'rb') as f:
  min_max, model = pickle.load(f)

In [None]:
# Exibe os valores das variáveis 'min_max' e 'model'.

min_max, model

In [None]:
# Cria um novo DataFrame 'X_breast_cancer' selecionando as linhas de índice 222 até 223 do DataFrame 'breast_cancer'.

X_breast_cancer = breast_cancer.iloc[222:224]

# Exibe a variável 'X_breast_cancer'.
X_breast_cancer

In [None]:
# Aplica a transformação de escalonamento (MinMaxScaler) do objeto 'scaler' nas características do DataFrame 'X_breast_cancer'.
# as colunas 'diagnosis' são removidas do DataFrame resultante.

X_novo = scaler.transform(X_breast_cancer.drop(columns=['diagnosis']))

# Exibe a variável X_novo.
X_novo

In [None]:
# Usa o modelo 'model' para fazer previsões com base nas características contidas no DataFrame 'X_novo'.

model.predict(X_novo)

In [None]:
# Calcula as probabilidades das classes de saída (ou valores previstos) usando o modelo 'model' nas características contidas no DataFrame 'X_novo'.
# Exibe a probabilidade do indivíduo ser classificado na classe 0 (benigno) e na classe 1 (maligno).

model.predict_proba(X_novo)