# Detecção automática de câncer

## Contextualização

O câncer de mama é o de maior incidência em mulheres do Brasil. De acordo com o INCA (Instituto Nacional de Câncer) em 2017 de todas as neoplasias que levaram a óbito em mulheres, 16,1%  foram com localização primária na mama. Em 2018 esse número subiu para 29,5%, mostrando como esse é um problema que possui uma curva ascendente. Para diagnósticos precoces a chance de cura é alta chegando até 95%.

Para a investigação, além do exame clínico das mamas, exames de imagem podem ser recomendados, como mamografia, ultrassonografia ou ressonância magnética. A confirmação diagnóstica só é feita, porém, por meio da biópsia, sendo necessária a retirada de um fragmento do nódulo em uma pequena cirurgia. 

Como qualquer cirurgia, existem o risco da operação. Dessa forma, um meio de diagnosticar de forma menos agressiva se o nódulo é maligno ou benigno seria analisando suas características, verificando os valores encontrados nos exames prévios. Além disso, o processo de diagnóstico seria muito mais rápido.

## Modelagem

A base de dados utilizada nesse trabalho foi obtida no [Kaggle](https://www.kaggle.com/uciml/breast-cancer-wisconsin-data). Essa base é consiste em um conjunto de instâncias compostas por atributos númericos e classe alvo. A partir dessas instâncias serão criados e avaliados modelos para detecção automática de câncer, ou seja, prever se um nódulo é maligno ou benigno. Os atributos e a classe alvo são:

### Atributos: 
* id: identificador
* radius_mean: distância média do ponto central até o perimetro
* texture_mean: desvio padrão dos valores da escala de cinza
* perimeter_mean: tamanho médio do tumor central
* area_mean: área média do tumor
* smoothness_mean: média da varição dos comprimentos de raio
* compactness_mean: perimeter_mean^2 / area_mean - 1.0
* concavity_mean: média de gravidade de porções côncavas do contorno
* concave points_mean: média do número de gravidade de porções côncavas do contorno
* symmetry_mean: média de simetria
* fractal_dimension_mean: média para "aproximação do contorno" - 1
* radius_se: erro para radius_mean
* texture_ses: erro para texture_mean
* perimeter_se: perimetro
* area_se: erro área
* smoothness_se: error para smoothness_mean
* compactness_se: error para compactness_mean
* concavity_se: erro para concavity_mean
* concave points_se: erro para concave points_mean
* symmetry_se:  erra para simetria
* fractal_dimension_se: erro para fractal_dimension_mean
* radius_worst: média dos três maiores valores do raio
* texture_worst: média dos três maiores valores de texture_mean
* area_worst: média dos três maiores valores de área
* smoothness_worst: média dos três maiores valores de smoothness_mean
* compactness_worst: média dos três maiores valores de compactness_mean
* concavity_worst: média dos três maiores valores de concave points_mean
* concave points_worst: média dos três maiores valores de concavity_mean
* fractal_dimension_worst: média dos três maiores valores de fractal_dimension_mean

### Classe
* diagnosis: O diagnóstico dos tecidos mamários(M = maligno, B = benigno)

## Trabalhos Relacionados

### Applications of Machine Learning in Cancer Prediction and Prognosis

Em 2006, Joseph A. Cruz escreveu um artigo com um estudo sobre as aplicações de aprendizado de máquina na previsão e prognóstico do câncer. Foi realizada uma ampla pesquisa sobre os diferentes tipos de métodos de aprendizado de máquina que estão sendo usados, os tipos de dados que estão sendo integrados e o desempenho desses métodos na previsão e prognóstico do câncer.

Foram comparados árvore de decisão, naive bayes, KNN, redes neurais, SVM e algoritmos genéticos, considerando vários estudos de caso. 

Um dos problemas mais comuns observados entre os estudos pesquisados foram a falta de atenção ao tamanho dos dados e validação. Isso mostra como é importante ter um conjunto de dados suficientemente grande que possa ser particionado em conjuntos de treinamento e teste disjuntos ou submetido a alguma forma razoável de n-fold cross-validation para conjuntos de dados menores.

Foi mostrado uma tabela com os métodos de aprendizado de máquina usados na previsão de câncer, mostrando os tipos de câncer, parâmetros clínicos, escolha do algoritmo, desempenho e tipo de dados de treinamento.

O artigo conclui dizendo como as redes neurais ainda são predominantes mas uma variedade crescente de estratégias alternativas de aprendizado de máquina estão sendo utilizadas e sendo aplicadas a muitos tipos de câncer.

### An expert system for detection of breast cancer based on association rules and neural network

Murat Karabatak escreveu um artigo em 2009 apresentando um sistema especialista para detecção de câncer de mama com base em regras de associação (AR) e rede neural (NN). Nesse estudo as AR são utilizadas para reduzir a dimensão da base de dados enquanto a rede neural é utilizada na classificação. 

São utilizados duas técnicas diferentes de AR para eliminar entradas desnecessárias. A técnica AR1 usa todos os parâmetros de entrada e todos os seus registros para encontrar relações entre eles. Se forem encontradas regras que tenham valor de suporte suficiente e alto valor de confiança, é possível eliminar algumas entradas. Já o AR2 usa todos os parâmetros de entrada, mas nem todos os seus registros.

Para a rede neural é utilizado um multi-layer perceptron, sendo sua entrada as features obtidas pela AR.

Foram realizados testes com NN, NN + AR1 e NN + AR2, e os resultados obtidos foram:

| Classificador | Épocas | Classificações Corretas | Classificações erradas | Taxa de classificação correta |
|---------------|--------|-------------------------|------------------------|-------------------------------|
|      NN       |   61   |           216           |           11           |              95,2             |
|    AR1 + NN   |   44   |           221           |            6           |              97,4             |
|    AR2 + NN   |   33   |           217           |           10           |              95,6             |

Os melhores resultados foram obtidos com AR1 + NN.

In [1]:
from funcoes import readDataset
from constantes import *
from experiments import Experiments
from sklearn import datasets
import pandas as pd
import warnings
warnings.filterwarnings('ignore')

### Dataset description

In [2]:
data = datasets.load_breast_cancer()
print(data.DESCR)

.. _breast_cancer_dataset:

Breast cancer wisconsin (diagnostic) dataset
--------------------------------------------

**Data Set Characteristics:**

    :Number of Instances: 569

    :Number of Attributes: 30 numeric, predictive attributes and the class

    :Attribute Information:
        - radius (mean of distances from center to points on the perimeter)
        - texture (standard deviation of gray-scale values)
        - perimeter
        - area
        - smoothness (local variation in radius lengths)
        - compactness (perimeter^2 / area - 1.0)
        - concavity (severity of concave portions of the contour)
        - concave points (number of concave portions of the contour)
        - symmetry 
        - fractal dimension ("coastline approximation" - 1)

        The mean, standard error, and "worst" or largest (mean of the three
        largest values) of these features were computed for each image,
        resulting in 30 features.  For instance, field 3 is Mean Radius, f

In [3]:
cancerDeMamaDF = pd.DataFrame(data.data, columns=data.feature_names)
cancerDeMamaDF[CLASSE] = data.target
cancerDeMamaDF.head()

Unnamed: 0,mean radius,mean texture,mean perimeter,mean area,mean smoothness,mean compactness,mean concavity,mean concave points,mean symmetry,mean fractal dimension,...,worst texture,worst perimeter,worst area,worst smoothness,worst compactness,worst concavity,worst concave points,worst symmetry,worst fractal dimension,diagnosis
0,17.99,10.38,122.8,1001.0,0.1184,0.2776,0.3001,0.1471,0.2419,0.07871,...,17.33,184.6,2019.0,0.1622,0.6656,0.7119,0.2654,0.4601,0.1189,0
1,20.57,17.77,132.9,1326.0,0.08474,0.07864,0.0869,0.07017,0.1812,0.05667,...,23.41,158.8,1956.0,0.1238,0.1866,0.2416,0.186,0.275,0.08902,0
2,19.69,21.25,130.0,1203.0,0.1096,0.1599,0.1974,0.1279,0.2069,0.05999,...,25.53,152.5,1709.0,0.1444,0.4245,0.4504,0.243,0.3613,0.08758,0
3,11.42,20.38,77.58,386.1,0.1425,0.2839,0.2414,0.1052,0.2597,0.09744,...,26.5,98.87,567.7,0.2098,0.8663,0.6869,0.2575,0.6638,0.173,0
4,20.29,14.34,135.1,1297.0,0.1003,0.1328,0.198,0.1043,0.1809,0.05883,...,16.67,152.2,1575.0,0.1374,0.205,0.4,0.1625,0.2364,0.07678,0


Esse dataset não apresenta valores faltantes ou inválidos

In [4]:
cancerDeMamaDF.groupby(CLASSE).describe()

Unnamed: 0_level_0,mean radius,mean radius,mean radius,mean radius,mean radius,mean radius,mean radius,mean radius,mean texture,mean texture,...,worst symmetry,worst symmetry,worst fractal dimension,worst fractal dimension,worst fractal dimension,worst fractal dimension,worst fractal dimension,worst fractal dimension,worst fractal dimension,worst fractal dimension
Unnamed: 0_level_1,count,mean,std,min,25%,50%,75%,max,count,mean,...,75%,max,count,mean,std,min,25%,50%,75%,max
diagnosis,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2,Unnamed: 14_level_2,Unnamed: 15_level_2,Unnamed: 16_level_2,Unnamed: 17_level_2,Unnamed: 18_level_2,Unnamed: 19_level_2,Unnamed: 20_level_2,Unnamed: 21_level_2
0,212.0,17.46283,3.203971,10.95,15.075,17.325,19.59,28.11,212.0,21.604906,...,0.359225,0.6638,212.0,0.09153,0.021553,0.05504,0.076302,0.0876,0.102625,0.2075
1,357.0,12.146524,1.780512,6.981,11.08,12.2,13.37,17.85,357.0,17.914762,...,0.2983,0.4228,357.0,0.079442,0.013804,0.05521,0.07009,0.07712,0.08541,0.1486


In [5]:
experimento = Experiments(cancerDeMamaDF)

## Cálculo da informação mútua de cada atributo em relação à classe alvo

Para verificar quais atributos mais influenciam a classe alvo realizamos o cálculo de entropia para cada atributo.  A entropia é uma métrica de mede a desorganização dos dados. A informação mútua, por sua vez, mede a correlação entre os dados, e utiliza da entropia em seu cálculo. Quanto maior o valor da entropia, maior a desorganização dos dados dos conjuntos comparados, e portanto, menor a correlação entre eles.

Aplicado ao problema deste trabalho verificaremos a informação mútua para determinar quais atributos são mais correlatos a classe alvo. Como explicado anteriormente, a informação mútua é inversamente proporcional à correlação, ou seja, os atributos mais relacionados à classe alvo são aqueles com informação mútua mais baixa.

A tabela abaixo mostra o resultado do experimento, em ordem crescente, sendo que as informações mútuas dos atributos variam entre 0 e 0.402583. Os cinco atributos mais influentes segundo essa métrica são texture_se,	fractal_dimension_mean, smoothness_se, symmetry_se e fractal_dimension_se.

In [6]:
experimento.mutual_entopy()

Unnamed: 0,texture error,mean fractal dimension,symmetry error,smoothness error,fractal dimension error,worst fractal dimension,mean symmetry,compactness error,mean smoothness,worst symmetry,...,area error,mean area,mean radius,mean concavity,mean perimeter,worst concave points,mean concave points,worst radius,worst area,worst perimeter
0,0.000787,0.005781,0.012196,0.014226,0.038027,0.06547,0.070875,0.074715,0.079877,0.093198,...,0.338584,0.360532,0.366147,0.374871,0.404641,0.437821,0.441677,0.452804,0.463288,0.473034


## Avaliando o impacto da remoção de atributos

Cada cédula mostra as imagem que foram geradas e comparadas em conjuto. A cédula abaixo contém a árvore de decisão sem remoção de atributos, ela foi mantida nas comparações

Foi utilizada a árvore de decisão com o parametro min_samples_split = 0.0002, porque a mesma apresentou o melhor resultado com relação min_samples_split = 0.25 e min_samples_split = 0.5.

#### Conclusões

Não houve diferenças nas árvores de decisões ao remover:
- concavity_mean e concave points_mean
- area_mean e perimeter_mean
- perimeter_se e perimeter_se


## Experimento de comparação entre duas representações da base pelo melhor método de árvore de decisão identificado via gridsearch

Foram definidas duas representações: a primeira com todos os atributos e a segunda excluídos alguns atributos. O objetivo deste experimento é verificar se a remoção desses atributos impacta o resultado, e caso não haja impacto, pode-se reduzir a dimensão da base para criação de modelos futuros.

Os atributos removidos foram concavity_mean, concave points_mean, area_mean, perimeter_mean, perimeter_se, perimeter_se. Eles foram selecionados por serem correlationados com outros atributos do dataset.

Para a representação de todos os atributos obtivemos como min_sample_split = 0.25, e para a representação excluídos alguns atributos min_sample_split = 0.0002.

 Com todos os atributos
best parameters: 
{'min_samples_split': 0.25, 'random_state': 1}

classification_report:

|              |   precision |   recall |   f1-score |   support |
|:-------------|------------:|---------:|-----------:|----------:|
| B            |        0.96 |     0.99 |       0.97 |        67 |
| M            |        0.98 |     0.94 |       0.96 |        47 |
| accuracy     |        0.96 |     0.96 |       0.96 |       114 |
| macro avg    |        0.97 |     0.96 |       0.96 |       114 |
| weighted avg |        0.97 |     0.96 |       0.96 |       114 |

confusion matrix:

|        |   B_pred |   M_pred |
|:-------|---------:|---------:|
| B_true |       66 |        1 |
| M_true |        3 |       44 |

Sem alguns atributos
best parameters: 
{'min_samples_split': 0.0002, 'random_state': 1}

classification_report:

|              |   precision |   recall |   f1-score |   support |
|:-------------|------------:|---------:|-----------:|----------:|
| B            |        0.97 |     0.93 |       0.95 |        67 |
| M            |        0.9  |     0.96 |       0.93 |        47 |
| accuracy     |        0.94 |     0.94 |       0.94 |       114 |
| macro avg    |        0.93 |     0.94 |       0.94 |       114 |
| weighted avg |        0.94 |     0.94 |       0.94 |       114 |

confusion matrix:

|        |   B_pred |   M_pred |
|:-------|---------:|---------:|
| B_true |       62 |        5 |
| M_true |        2 |       45 |


## Encontrando os melhores parâmetros para SVM via grid search
O dataset foi dividido em 80% treino e 20% teste, sendo o dataset de treino utilizado para encontrar os melhores parâmetros e o dataset de testes para validar o modelo considerado o melhor <img src="img/cv-gridsearch.jpeg" alt="Esquema de divisão do dataset para encontrar os melhores parâmetros e testar o melhor método encontrado">

Para encontrar os melhores parâmetros do método SVM para o dataset foi feita uma _grid search_ utilizando _cross validation_ do tipo K-fold para k = 5. As configurações testadas foram combinações dos parâmetros kernel = {linear, rbf} e C = {1, 10, 100, 1000}. O melhor resultado foi o classificador SVM de C = 1 e kernel linear.

Encontrado o melhor modelo foi feito o teste com dados não vistos anteriormente.

## Avaliação do método

Para o melhor modelo encontrado obtivemos os seguintes resultados:


|              |   precision |   recall |   f1-score |   support |
|:-------------|------------:|---------:|-----------:|----------:|
| B            |        0.98 |     0.94 |       0.96 |        67 |
| M            |        0.92 |     0.98 |       0.95 |        47 |
| accuracy     |        0.96 |     0.96 |       0.96 |       114 |
| macro avg    |        0.95 |     0.96 |       0.96 |       114 |
| weighted avg |        0.96 |     0.96 |       0.96 |       114 |

<p style="text-align: center;"> Precision, Recall, F1-score e Support por classe </p>

|        |   B_pred |   M_pred |
|:-------|---------:|---------:|
| B_true |       63 |        4 |
| M_true |        1 |       46 |

<p style="text-align: center;"> Matrix de confusão </p>

Os resultados acima mostram que a métrica precisão é mais alta para predizer os tumores do tipo benigno enquanto a métrica revocação é mais alta para os tumores malignos. Estes resultados são satisfatórios, pois indicam que dos tumores malignos, 98% foram preditos corretamente, sendo que do que foi predito como maligno 92% era de fato maligno. É um modelo que erra mais indicando que um tumor benigno é maligno do que ao contrário, o que cumpre o papel mais importante de detectar corretamente os tumores malignos. Abaixo a matriz de confusão que confirma as conclusões.

# Comparação de métodos via gridsearch
Foram comparados 4 modelos com variação de parâmetros:
- **SVM Linear**: Variação do custo: $2^{-1}, 2^1,2^3,2^5$
- **SVM RBF**: Variação do custo: $2^{-1}, 2^1,2^3$ e, para cada variação do custo, você deverá variar o Gama: $2^{-1}, 2^1,2^3$
- **KNN**: Variação do k: $2^2,2^4,2^6,2^8$

In [10]:
experimento.gridsearch_svm_tree_knn().sort_values('estimator')

Running GridSearchCV for LinearSVC.
Running GridSearchCV for DecisionTreeClassifier.
Running GridSearchCV for KNeighborsClassifier.
Done.


Unnamed: 0,estimator,mean_fit_time,std_fit_time,mean_score_time,std_score_time,params,split0_test_score,split1_test_score,split2_test_score,split3_test_score,split4_test_score,split5_test_score,split6_test_score,split7_test_score,split8_test_score,split9_test_score,mean_test_score,std_test_score
0,DecisionTreeClassifier,0.00732,0.000483,0.001272,7.5e-05,"{'min_samples_split': 0.0002, 'random_state': 1}",0.88,0.929577,0.931507,0.918033,0.949153,0.989011,0.936709,0.988506,0.964706,0.91358,0.940125,0.032291
4,DecisionTreeClassifier,0.00719,0.000542,0.001282,0.000113,"{'min_samples_split': 0.25, 'random_state': 1}",0.733333,0.916667,0.931507,0.918033,0.965517,0.989011,0.925,0.977273,0.886076,0.953488,0.919531,0.068895
5,DecisionTreeClassifier,0.007197,0.000886,0.001599,0.000329,"{'min_samples_split': 0.5, 'random_state': 1}",0.758621,0.916667,0.914286,0.945455,0.965517,0.966292,0.923077,0.952381,0.886076,0.926829,0.9155,0.057498
1,KNeighborsClassifier,0.00164,4.4e-05,0.003278,0.000181,{'n_neighbors': 16},0.628571,0.944444,0.944444,0.918033,0.983051,0.989011,0.95122,0.977273,0.939759,0.976744,0.925165,0.101287
3,KNeighborsClassifier,0.001802,0.00012,0.00335,0.000152,{'n_neighbors': 4},0.6875,0.944444,0.944444,0.915254,0.982456,0.977778,0.95122,0.954545,0.91358,0.939759,0.921065,0.080752
6,KNeighborsClassifier,0.001699,0.000106,0.003771,0.000195,{'n_neighbors': 64},0.564103,0.909091,0.931507,0.888889,0.95082,0.989011,0.95122,0.966292,0.942529,0.988506,0.908055,0.118597
8,KNeighborsClassifier,0.00189,0.000413,0.006008,0.001126,{'n_neighbors': 256},0.488889,0.864198,0.923077,0.794521,0.90625,0.967742,0.953488,0.967033,0.945055,0.966292,0.877499,0.139847
2,LinearSVC,0.037412,0.004608,0.001593,0.000225,{'C': 0.5},0.666667,0.971429,0.958904,0.852941,0.935484,0.978261,0.964706,0.965517,0.946237,0.988506,0.92275,0.092689
7,LinearSVC,0.032821,0.001327,0.001398,0.000108,{'C': 2},0.647059,0.971429,0.944444,0.892308,0.878788,0.967742,0.95122,0.988764,0.902439,0.926829,0.907067,0.093287
9,LinearSVC,0.033194,0.002773,0.001413,0.000137,{'C': 32},0.814815,0.931507,0.878788,0.903226,0.964286,0.902439,0.561404,0.857143,0.945055,0.988506,0.874517,0.115243
