# **Detecção do Câncer de Mama**

**Objetivo**
* Criar um algoritmo de machine learning capaz de identificar se um paciente está com câncer de mama.

### **1. Introdução**

<p align="justify">
A detecção precoce do câncer de mama é fundamental para aumentar as chances de tratamento bem-sucedido e melhorar significativamente a qualidade de vida das pacientes. Neste projeto, empregaremos técnicas de Machine Learning, utilizando algoritmos específicos para classificação, a fim de analisar e interpretar as características intricadas presentes nos dados, tais como texturas, dimensões e medidas derivadas de imagens digitalizadas de biópsias de tecido mamário.

<p align="justify">
Ao se debruçar sobre o desafio da classificação binária – se a paciente está ou não com câncer de mama –, nosso objetivo é oferecer uma ferramenta clínica que possa servir como um suporte adicional aos profissionais de saúde no processo de tomada de decisão. Este trabalho não apenas visa a eficácia na identificação de casos positivos, mas também a minimização de falsos positivos, uma vez que a precisão é crucial em contextos médicos.

In [None]:
# Carregando bibliotecas

import pandas as pd

from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score, classification_report

In [None]:
# Carregando base de dados

dados = pd.read_csv('/content/drive/MyDrive/Ciência de Dados com Python/Projetos/Dados/Breast Cancer Wisconsin (Diagnostic) Data Set.csv',
                    sep = ',')

In [None]:
# visualizando base de dados

dados.head()

Unnamed: 0,Id number,Diagnosis,radius_mean,texture_mean,perimeter_mean,area_mean,smoothness_mean,compactness_mean,concavity_mean,concave_points_mean,...,radius_worst,texture_worst,perimeter_worst,area_worst,smoothness_worst,compactness_worst,concavity_worst,concave_points_worst,symmetry_worst,fractal_dimension_worst
0,842302,M,17.99,10.38,122.8,1001.0,0.1184,0.2776,0.3001,0.1471,...,25.38,17.33,184.6,2019.0,0.1622,0.6656,0.7119,0.2654,0.4601,0.1189
1,842517,M,20.57,17.77,132.9,1326.0,0.08474,0.07864,0.0869,0.07017,...,24.99,23.41,158.8,1956.0,0.1238,0.1866,0.2416,0.186,0.275,0.08902
2,84300903,M,19.69,21.25,130.0,1203.0,0.1096,0.1599,0.1974,0.1279,...,23.57,25.53,152.5,1709.0,0.1444,0.4245,0.4504,0.243,0.3613,0.08758
3,84348301,M,11.42,20.38,77.58,386.1,0.1425,0.2839,0.2414,0.1052,...,14.91,26.5,98.87,567.7,0.2098,0.8663,0.6869,0.2575,0.6638,0.173
4,84358402,M,20.29,14.34,135.1,1297.0,0.1003,0.1328,0.198,0.1043,...,22.54,16.67,152.2,1575.0,0.1374,0.205,0.4,0.1625,0.2364,0.07678


### **2. Análise Exploratória de Dados**

In [None]:
# Verificando a informações dos dados

dados.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 569 entries, 0 to 568
Data columns (total 32 columns):
 #   Column                   Non-Null Count  Dtype  
---  ------                   --------------  -----  
 0   Id number                569 non-null    int64  
 1   Diagnosis                569 non-null    object 
 2   radius_mean              569 non-null    float64
 3   texture_mean             569 non-null    float64
 4   perimeter_mean           569 non-null    float64
 5   area_mean                569 non-null    float64
 6   smoothness_mean          569 non-null    float64
 7   compactness_mean         569 non-null    float64
 8   concavity_mean           569 non-null    float64
 9   concave_points_mean      569 non-null    float64
 10  symmetry_mean            569 non-null    float64
 11  fractal_dimension_mean   569 non-null    float64
 12  radius_se                569 non-null    float64
 13  texture_se               569 non-null    float64
 14  perimeter_se             5

In [None]:
# Verificando a existência de valores faltantes

dados.isnull().sum()

Id number                  0
Diagnosis                  0
radius_mean                0
texture_mean               0
perimeter_mean             0
area_mean                  0
smoothness_mean            0
compactness_mean           0
concavity_mean             0
concave_points_mean        0
symmetry_mean              0
fractal_dimension_mean     0
radius_se                  0
texture_se                 0
perimeter_se               0
area_se                    0
smoothness_se              0
compactness_se             0
concavity_se               0
concave_points_se          0
symmetry_se                0
fractal_dimension_se       0
radius_worst               0
texture_worst              0
perimeter_worst            0
area_worst                 0
smoothness_worst           0
compactness_worst          0
concavity_worst            0
concave_points_worst       0
symmetry_worst             0
fractal_dimension_worst    0
dtype: int64

In [None]:
# Verificando valores únicos

dados['Diagnosis'].unique()

array(['M', 'B'], dtype=object)

### **3.Pré-Processamento de Dados**

In [None]:
# Alterando valores categóricos para numéricos

dados["Diagnosis"] = dados["Diagnosis"].map({"M": 0, "B": 1})

In [None]:
# Verificando resultado da transformação e contagem de elementos

dados['Diagnosis'].value_counts()

1    357
0    212
Name: Diagnosis, dtype: int64

In [None]:
# Separando dados em previsores e classes

previsores = dados.drop('Diagnosis', axis = 1)
classes = dados['Diagnosis']

In [None]:
# Dividindo os dados em treino e teste

X_treino, X_teste, y_treino, y_teste = train_test_split(previsores,
                                                        classes,
                                                        test_size = 0.3,
                                                        random_state = 0)

In [None]:
# Distribuição dos dados

print(X_treino.shape)
print(y_treino.shape)
print(X_teste.shape)
print(y_teste.shape)

(398, 31)
(398,)
(171, 31)
(171,)


### **4. Construindo Modelo**

**OBS:** utilizaremos o PyCaret para escolha do modelo mais adequado para o conjunto de dados;

In [None]:
# Instalando biblioteca

# !pip install pycaret

In [None]:
# Carregando biblioteca

from pycaret.classification import *

In [None]:
# Escolhendo o algoritmo mais adequado para o estudo

clf = setup(dados, target = "Diagnosis", session_id = 0)
compare_models()

Unnamed: 0,Description,Value
0,Session id,0
1,Target,Diagnosis
2,Target type,Binary
3,Original data shape,"(569, 32)"
4,Transformed data shape,"(569, 32)"
5,Transformed train set shape,"(398, 32)"
6,Transformed test set shape,"(171, 32)"
7,Numeric features,31
8,Preprocess,True
9,Imputation type,simple


Unnamed: 0,Model,Accuracy,AUC,Recall,Prec.,F1,Kappa,MCC,TT (Sec)
et,Extra Trees Classifier,0.9749,0.9956,0.984,0.9765,0.9801,0.9463,0.9469,0.33
lightgbm,Light Gradient Boosting Machine,0.9674,0.9917,0.976,0.9732,0.9741,0.9302,0.9319,0.835
rf,Random Forest Classifier,0.9624,0.9942,0.972,0.9689,0.9701,0.9195,0.9207,0.677
lda,Linear Discriminant Analysis,0.9624,0.9933,0.996,0.9474,0.9709,0.9181,0.9212,0.04
ridge,Ridge Classifier,0.9599,0.0,0.992,0.9477,0.969,0.9125,0.9157,0.061
xgboost,Extreme Gradient Boosting,0.9549,0.9908,0.96,0.9686,0.9638,0.9038,0.9054,0.176
qda,Quadratic Discriminant Analysis,0.9523,0.9898,0.952,0.9722,0.9616,0.8986,0.9002,0.125
ada,Ada Boost Classifier,0.9497,0.9858,0.948,0.9713,0.9591,0.894,0.8956,0.639
gbc,Gradient Boosting Classifier,0.9473,0.9904,0.952,0.965,0.9577,0.8879,0.8904,0.553
dt,Decision Tree Classifier,0.94,0.9387,0.944,0.9601,0.9514,0.8729,0.8748,0.069


Processing:   0%|          | 0/65 [00:00<?, ?it/s]

**OBS 2:** utilizaremos o Extra Trees Classifier para construção do modelo.

In [None]:
# Carregando biblioteca

from sklearn.ensemble import ExtraTreesClassifier

In [None]:
# Instânciando o modelo

modelo = ExtraTreesClassifier(n_estimators = 100, random_state = 0)

In [None]:
# Treinando o modelo

modelo.fit(X_treino, y_treino)

In [None]:
# Aplicando aos dados de teste

y_predito = modelo.predict(X_teste)

### **5. Avaliando Modelo**

In [None]:
# Métricas do modelo

print(classification_report(y_teste, y_predito))

              precision    recall  f1-score   support

           0       0.95      0.92      0.94        63
           1       0.95      0.97      0.96       108

    accuracy                           0.95       171
   macro avg       0.95      0.95      0.95       171
weighted avg       0.95      0.95      0.95       171



### **6. Considerações Finais**

<p align="justify">
Os resultados apresentados no classification report refletem um desempenho notável do modelo no contexto da identificação de pacientes com câncer de mama. As métricas de precision, recall e f1-score fornecem uma visão abrangente do desempenho do modelo em ambas as classes.

<p align="justify">
Observamos uma precisão notável para ambas as classes, atingindo 95% para casos negativos (sem câncer) e 95% para casos positivos (com câncer). Isso indica a capacidade do modelo de minimizar falsos positivos e falsos negativos, sendo crucial em contextos clínicos.

<p align="justify">
O recall alcançou 92% para casos negativos e 97% para casos positivos, demonstrando uma habilidade equilibrada do modelo em identificar corretamente pacientes tanto com quanto sem câncer de mama. Este equilíbrio é essencial, garantindo que o modelo não negligencie a detecção de casos positivos, enquanto mantém a precisão em um nível elevado.

<p align="justify">
A acurácia global do modelo atingiu 95%, indicando uma eficácia consistente na classificação de ambas as classes. Essa métrica é especialmente relevante considerando o desequilíbrio natural entre casos positivos e negativos.

<p align="justify">
A média ponderada das métricas (weighted avg) confirma a solidez geral do modelo, com um f1-score de 95%. Esta métrica considera tanto a precisão quanto o recall, proporcionando uma visão equilibrada do desempenho do modelo em ambas as classes.

<p align="justify">
Em conclusão, os resultados indicam que o modelo é eficaz na identificação de casos de câncer de mama, oferecendo uma ferramenta promissora para auxiliar os profissionais de saúde no diagnóstico precoce. Contudo, é sempre crucial validar e aprimorar continuamente o modelo com base em novos dados e avanços tecnológicos, garantindo sua relevância e confiabilidade no cenário clínico em constante evolução.