In [1]:
from google.colab import drive
drive.mount('/content/drive')

import warnings
warnings.filterwarnings("ignore")

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


In [2]:
import pandas as pd

df = pd.read_csv('/content/drive/MyDrive/Estudos /Machine Learning/Breast_cancer_data.csv')
df

Unnamed: 0,mean_radius,mean_texture,mean_perimeter,mean_area,mean_smoothness,diagnosis
0,17.99,10.38,122.80,1001.0,0.11840,0
1,20.57,17.77,132.90,1326.0,0.08474,0
2,19.69,21.25,130.00,1203.0,0.10960,0
3,11.42,20.38,77.58,386.1,0.14250,0
4,20.29,14.34,135.10,1297.0,0.10030,0
...,...,...,...,...,...,...
564,21.56,22.39,142.00,1479.0,0.11100,0
565,20.13,28.25,131.20,1261.0,0.09780,0
566,16.60,28.08,108.30,858.1,0.08455,0
567,20.60,29.33,140.10,1265.0,0.11780,0


Neste trabalho, explorarei o uso de uma árvore de decisão para classificar dados relacionados ao câncer de mama. Focarei em características como mean_radius, mean_texture, mean_perimeter, mean_area e mean_smoothness para prever a diagnosis (diagnóstico) da doença.

*
A árvore de decisão é uma ferramenta poderosa em machine learning que permite interpretar e visualizar as decisões tomadas com base nos atributos dos dados. Com este modelo, espero identificar padrões que ajudem na detecção precoce e no diagnóstico eficaz do câncer de mama.

In [3]:
#Separando as colunas
X = df.drop('diagnosis', axis=1)
y = df.diagnosis

A **ÁRVORE DE DECISÃO** é um modelo de aprendizado de máquina utilizado para tarefas de classificação e regressão. Ela se baseia em uma estrutura em forma de árvore, onde cada nó interno representa uma "decisão" ou um teste em um atributo, cada ramo representa o resultado do teste e cada nó folha representa uma classe ou valor predito.

Estrutura da Árvore de Decisão
* Nó Raiz:

 * É o ponto de partida da árvore, onde toda a decisão começa. Este nó contém a primeira divisão dos dados com base em um atributo.
Nódulos Internos:

Cada nó interno representa um teste em um atributo. Por exemplo, em um problema de classificação de plantas, um teste pode ser "A planta tem folhas largas?".
* Ramos:

  * Representam os resultados do teste e conduzem a outros nós ou a nós folhas.
* Nó Folha:

 * Representa a classe final ou a previsão. Por exemplo, após várias decisões, um nó folha pode indicar "Planta A" ou um valor numérico em problemas de regressão.

É Bom ter boas práticas de **NORMALIZAÇÃO** dos valores númericos com o **MinMaxScaler**

In [4]:
# Importando as bibliotecas
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import MinMaxScaler
from sklearn.tree import DecisionTreeClassifier  # Classificador de Árvores de Decisão
from sklearn.metrics import accuracy_score

# Treinando
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=1/3, random_state=2)

# Normalizando os números entre 0 e 1
minmax = MinMaxScaler()
X_train_norm = minmax.fit_transform(X_train)  # Ajusta e transforma o conjunto de treinamento
X_test_norm = minmax.transform(X_test)        # Apenas transforma o conjunto de teste

# Usando o Classificador Tree
tree = DecisionTreeClassifier(max_depth=3, max_leaf_nodes=21, random_state = 1 )# Esse ajuste é primordial para que acuracia não fique RANDOMICA
tree.fit(X_train_norm, y_train)  # Ajusta o modelo com os dados normalizados

# Acurácia
acuracia = accuracy_score(y_test, tree.predict(X_test_norm))*100
print(f'Acurácia: {acuracia:.2f}%')
print(f'Número de folhas: {tree.get_depth()}')
print(f'Profundidade da árvore: {tree.get_n_leaves()}')


Acurácia: 90.00%
Número de folhas: 3
Profundidade da árvore: 7


Neste trabalho, vou investigar o uso da técnica de floresta aleatória para classificar dados relacionados ao câncer de mama.

Utilizarei características como mean_radius, mean_texture, mean_perimeter, mean_area e mean_smoothness para prever a diagnosis (diagnóstico) da doença.

A floresta aleatória combina múltiplas árvores de decisão, proporcionando maior precisão e robustez nas previsões, além de ajudar a minimizar o risco de overfitting.

Com este modelo, espero identificar padrões significativos que contribuam para a detecção precoce e o diagnóstico eficiente do câncer de mama.

In [5]:
# Classificador de Floresta Aleatória
from sklearn.ensemble import RandomForestClassifier

floresta = RandomForestClassifier(n_estimators=100,
                                  max_depth = None,
                                  max_features = 2,
                                  max_samples = 0.5,
                                  random_state = 1)

floresta.fit(X_train, y_train)
acuracia2 = accuracy_score(y_test, floresta.predict(X_test))*100
print(f'Acurácia: {acuracia2:.2f}%')

Acurácia: 94.21%


In [6]:
#Nova Entrada de Dados
nova_paci =[[2.57,	10.77,	82.90,	826.0,	0.08424]]

X_nova= minmax.transform(nova_paci)
X_resultado = tree.predict(X_nova)

#Tendo o resultado 1 significa que o diagnostico é maligno 0 é benigno
print('[0]=Benigno [1]=maligno')
print(f'O Resultado do examo foi {X_resultado[0]}')




[0]=Benigno [1]=maligno
O Resultado do examo foi 1


In [8]:
#importando
from google.colab import files

# Exportando para um csv
df.to_csv('Machine Learning - Parte_4.csv', index=False)
files.download('Machine Learning - Parte_4.csv')

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>