Base de dados usada: https://archive.ics.uci.edu/dataset/17/breast+cancer+wisconsin+diagnostic


In [None]:
# Instalando as Bibliotecas
!pip install pandas scikit-learn



In [None]:
# Importando as bibliotecas necessárias
import pandas as pd

# URL do conjunto de dados
url = "https://archive.ics.uci.edu/ml/machine-learning-databases/breast-cancer-wisconsin/wdbc.data"

# Definir as colunas do dataset traduzidas para português
colunas = [
    "ID", "Diagnostico", "Raio_Medio", "Textura_Media", "Perimetro_Medio", "Area_Media", "Suavidade_Media",
    "Compacidade_Media", "Concavidade_Media", "Pontos_Concavos_Medios", "Simetria_Media", "Dimensao_Fractal_Media",
    "Raio_Desvio", "Textura_Desvio", "Perimetro_Desvio", "Area_Desvio", "Suavidade_Desvio", "Compacidade_Desvio",
    "Concavidade_Desvio", "Pontos_Concavos_Desvio", "Simetria_Desvio", "Dimensao_Fractal_Desvio",
    "Raio_Pior", "Textura_Pior", "Perimetro_Pior", "Area_Pior", "Suavidade_Pior", "Compacidade_Pior",
    "Concavidade_Pior", "Pontos_Concavos_Piores", "Simetria_Pior", "Dimensao_Fractal_Pior"
]

# Carregar os dados
dados = pd.read_csv(url, header=None, names=colunas)

# Ver as primeiras linhas do conjunto de dados
print(dados.head())

         ID Diagnostico  Raio_Medio  Textura_Media  Perimetro_Medio  \
0    842302           M       17.99          10.38           122.80   
1    842517           M       20.57          17.77           132.90   
2  84300903           M       19.69          21.25           130.00   
3  84348301           M       11.42          20.38            77.58   
4  84358402           M       20.29          14.34           135.10   

   Area_Media  Suavidade_Media  Compacidade_Media  Concavidade_Media  \
0      1001.0          0.11840            0.27760             0.3001   
1      1326.0          0.08474            0.07864             0.0869   
2      1203.0          0.10960            0.15990             0.1974   
3       386.1          0.14250            0.28390             0.2414   
4      1297.0          0.10030            0.13280             0.1980   

   Pontos_Concavos_Medios  ...  Raio_Pior  Textura_Pior  Perimetro_Pior  \
0                 0.14710  ...      25.38         17.33          

O que esse bloco de código acima faz:

Importa o Pandas, biblioteca usada para manipular e organizar os dados em forma de tabelas, define o endereço URL onde o conjunto de dados está hospedado.

O método pd.read_csv lê os dados diretamente da URL e associa os nomes das colunas.
O comando print(dados.head()) mostra as 5 primeiras linhas da tabela.

In [None]:
# Removendo a coluna ID (não é relevante para a classificação)
dados = dados.drop("ID", axis=1)

# Convertendo a coluna Diagnostico para valores binários (M = 1, B = 0)
dados["Diagnostico"] = dados["Diagnostico"].map({"M": 1, "B": 0})

# Separando as variáveis independentes (features) e dependente (alvo)
X = dados.drop("Diagnostico", axis=1)  # Features
y = dados["Diagnostico"]  # Alvo (target)

# Verificando as dimensões
print(f"Dimensões das features: {X.shape}, Dimensão do alvo: {y.shape}")

Dimensões das features: (569, 30), Dimensão do alvo: (569,)


O que esse bloco de código acima faz:

Removi a coluna ID pq é um identificador único que não contribui para a tarefa de classificação, o comando dados.drop("ID", axis=1).

A coluna "Diagnóstico" contem letras M e B para identificar câncer benígno (B) e malígno (M), o comando map converte ela para binário onde M é 1 e B é 0.

A variável x é independente e representa os atributos usados para prever o diagnóstico, e a variável y é dependente e é o alvo que queremos prever.

Os comandos x.shape e y.shape ajudam a garantir que os dados estejam organizador corretamente, mostrando o número de linhas e colunas.

In [None]:
from sklearn.model_selection import train_test_split

# Dividir os dados em treino (80%) e teste (20%), com estratificação para balancear classes
X_treino, X_teste, y_treino, y_teste = train_test_split(X, y, test_size=0.2, random_state=42, stratify=y)

O que esse bloco de código acima faz:

Ele importa o train_test_split, uma função do Scikit-Learn que serve para dividir os dados. A divisão é feita em 20/80, sendo 80% dos dados usados para ajustar o modelo e os 20% restante usados para avaliar o desempenho do modelo.

O método stratify=y garante que a proporção de classes (Malígno e Benígno) no treino e no teste será semelhante a proporção original do conjunto de dados.

o método random_state=42 vai garantir que a reprodtibilidade, ou seja, a mesma divisão vai ser feita toda vez que o código for executado (Semente Aleatória).

In [None]:
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import GridSearchCV, StratifiedKFold

# Definindo o modelo de Random Forest
modelo = RandomForestClassifier(random_state=42)

# Definindo os hiperparâmetros para o GridSearch
parametros = {
    'n_estimators': [10, 50, 100, 200],
    'max_depth': [None, 10, 20, 30],
    'min_samples_split': [2, 5, 10]
}

# Configurando o GridSearchCV com validação cruzada estratificada
grid = GridSearchCV(estimator=modelo, param_grid=parametros, scoring='accuracy',
                    cv=StratifiedKFold(n_splits=5), n_jobs=-1)

# Treinando o modelo usando o conjunto de treino
grid.fit(X_treino, y_treino)

O que esse bloco de código acima faz:

Ele importa o modelo RandomForestClassifier que é um modelo robusto baseado em árvores de decisão.

Hiperparâmetros:
- n_estimators: Número de árvores na floresta.
- max_depth: Profundidade máxima das árvores.
- min_samples_split: Número mínimo de amostras para dividir um nó.

O GridSearchCV realiza uma busca sistemática pelos melhores hiperparâmetros fazendo uma validação cruzada estratificada com 5 divisões (StratifiedKFold).
n_jobs=-1 paraleliza o processo para acelerar a execução.


In [None]:
# Obtém os melhores hiperparâmetros encontrados
print("Melhores parâmetros encontrados:", grid.best_params_)

# Obtém a melhor acurácia durante a validação cruzada
print("Melhor acurácia na validação cruzada:", grid.best_score_)

# Avalia o modelo no conjunto de teste
from sklearn.metrics import accuracy_score

# Faz previsões no conjunto de teste
y_pred = grid.best_estimator_.predict(X_teste)

# Calcular e exibi a acurácia no conjunto de teste
print("Acurácia no conjunto de teste:", accuracy_score(y_teste, y_pred))

Melhores parâmetros encontrados: {'max_depth': None, 'min_samples_split': 2, 'n_estimators': 50}
Melhor acurácia na validação cruzada: 0.9670329670329672
Acurácia no conjunto de teste: 0.9736842105263158


O que esse bloco de código acima faz:

Melhores Hiperparâmetros, o grid.best_params_ retorna a combinação de hiperparâmetros que produziu o melhor desempenho.

Melhor Acurácia na Validação Cruzada o grid.best_score_ mostra o desempenho médio durante a validação cruzada.

Por fim, a avaliação no conjunto de teste vai fazer previsões usando o melhor modelo ajustado, calculando a acurácia no conjunto de teste e verificando o desempenho do modelo com dados que ele nunca viu.