# To do
- [X] Contextualizar o problema e sua relevancia
- [X] Modelagem do problema: (a) qual tarefa/problema a ser resolvido?; (b) o que é a instância (exemplo) deste problema e como ela é representada: Quais são os atributos e o que significa a classe alvo?
- [X] Análise de trabalhos relacionados: Apresente trabalhos similares ao seu. Sobre esses trabalhos, descreva qual é o preprocessamento que é usualmente feito, qual abordagem escolhida e também quais são os resultados obtidos.
- [X] Análise dos dados: Quais tipos de dados que serão os atributos? Existem ruídos, valores inválidos ou inexistentes para algum atributo? Qual preprocessamento é necessário para os tipos de atributos e métodos que serão utilizados?
- [X] Explicação qual tipo de preprocessamento foi efetivamente usado, apresente a abordagem proposta e qual método usado, justifique. <font color='green'> [não se aplica, os dados já estavam processados] </font>
- [X] Resutados geral e por classe. Além disso, escolha a métrica de avaliação e justifique. #Para facilitar, use funções prontas (ou implementadas por nós na prática ou do scikit learn). Por exemplo, use o GridSearchCV. Use o pipeline para preprocessar os dados (por exemplo, usando StandardScaler com o SVM). # No seu método faça uma análise da matriz de confusão (e precisão e revocação por classe). # Existe overfitting/underfitting na sua abrdagem?

A base de dados utilizada nesse trabalho foi obtida a apartir deste [link](https://www.kaggle.com/uciml/breast-cancer-wisconsin-data)


## Contextualização

O câncer de mama é o de maior incidência em mulheres do Brasil. De acordo com o INCA (Instituto Nacional de Câncer) em 2017 de todas as neoplasias que levaram a óbito em mulheres, 16,1%  foram com localização primária na mama. Em 2018 esse número subiu para 29,5%, mostrando como esse é um problema que possui uma curva ascendente. Para diagnósticos precoces a chance de cura é alta chegando até 95%.

Para a investigação, além do exame clínico das mamas, exames de imagem podem ser recomendados, como mamografia, ultrassonografia ou ressonância magnética. A confirmação diagnóstica só é feita, porém, por meio da biópsia, sendo necessária a retirada de um fragmento do nódulo em uma pequena cirurgia. 

Como qualquer cirurgia, existem o risco da operação. Dessa forma, um meio de diagnosticar de forma menos agressiva se o nódulo é maligno ou benigno seria analisando suas características, verificando os valores encontrados nos exames prévios. Além disso, o processo de diagnóstico seria muito mais rápido.

## Modelagem

A partir dos dados obtidos em exames, a tarefa é classificar se o nódulo encontrado é maligno ou benigno. A classe alvo indica se o nódulo é maligno ou benigno e os atributos a serem analisados são:

#### Atributos: 
* id: identificador
* radius_mean: distância média do ponto central até o perimetro
* texture_mean: desvio padrão dos valores da escala de cinza
* perimeter_mean: tamanho médio do tumor central
* area_mean: área média do tumor
* smoothness_mean: média da varição dos comprimentos de raio
* compactness_mean: perimeter_mean^2 / area_mean - 1.0
* concavity_mean: média de gravidade de porções côncavas do contorno
* concave points_mean: média do número de gravidade de porções côncavas do contorno
* symmetry_mean: média de simetria
* fractal_dimension_mean: média para "aproximação do contorno" - 1
* radius_se: erro para radius_mean
* texture_ses: erro para texture_mean
* perimeter_se: perimetro
* area_se: erro área
* smoothness_se: error para smoothness_mean
* compactness_se: error para compactness_mean
* concavity_se: erro para concavity_mean
* concave points_se: erro para concave points_mean
* symmetry_se:  erra para simetria
* fractal_dimension_se: erro para fractal_dimension_mean
* radius_worst: média dos três maiores valores do raio
* texture_worst: média dos três maiores valores de texture_mean
* area_worst: média dos três maiores valores de área
* smoothness_worst: média dos três maiores valores de smoothness_mean
* compactness_worst: média dos três maiores valores de compactness_mean
* concavity_worst: média dos três maiores valores de concave points_mean
* concave points_worst: média dos três maiores valores de concavity_mean
* fractal_dimension_worst: média dos três maiores valores de fractal_dimension_mean

#### Classe
* diagnosis: O diagnóstico dos tecidos mamários(M = maligno, B = benigno)

## Trabalhos Relacionados

#### Applications of Machine Learning in Cancer Prediction and Prognosis

Em 2006, Joseph A. Cruz escreveu um artigo com um estudo sobre as aplicações de aprendizado de máquina na previsão e prognóstico do câncer. Foi realizada uma ampla pesquisa sobre os diferentes tipos de métodos de aprendizado de máquina que estão sendo usados, os tipos de dados que estão sendo integrados e o desempenho desses métodos na previsão e prognóstico do câncer.

Foram comparados árvore de decisão, naive bayes, KNN, redes neurais, SVM e algoritmos genéticos, considerando vários estudos de caso. 

Um dos problemas mais comuns observados entre os estudos pesquisados foram a falta de atenção ao tamanho dos dados e validação. Isso mostra como é importante ter um conjunto de dados suficientemente grande que possa ser particionado em conjuntos de treinamento e teste disjuntos ou submetido a alguma forma razoável de n-fold cross-validation para conjuntos de dados menores.

Foi mostrado uma tabela com os métodos de aprendizado de máquina usados na previsão de câncer, mostrando os tipos de câncer, parâmetros clínicos, escolha do algoritmo, desempenho e tipo de dados de treinamento.

O artigo conclui dizendo como as redes neurais ainda são predominantes mas uma variedade crescente de estratégias alternativas de aprendizado de máquina estão sendo utilizadas e sendo aplicadas a muitos tipos de câncer.

#### An expert system for detection of breast cancer based on association rules and neural network

Murat Karabatak escreveu um artigo em 2009 apresentando um sistema especialista para detecção de câncer de mama com base em regras de associação (AR) e rede neural (NN). Nesse estudo as AR são utilizadas para reduzir a dimensão da base de dados enquanto a rede neural é utilizada na classificação. 

São utilizados duas técnicas diferentes de AR para eliminar entradas desnecessárias. A técnica AR1 usa todos os parâmetros de entrada e todos os seus registros para encontrar relações entre eles. Se forem encontradas regras que tenham valor de suporte suficiente e alto valor de confiança, é possível eliminar algumas entradas. Já o AR2 usa todos os parâmetros de entrada, mas nem todos os seus registros.

Para a rede neural é utilizado um multi-layer perceptron, sendo sua entrada as features obtidas pela AR.

Foram realizados testes com NN, NN + AR1 e NN + AR2, e os resultados obtidos foram:

| Classificador | Épocas | Classificações Corretas | Classificações erradas | Taxa de classificação correta |
|---------------|--------|-------------------------|------------------------|-------------------------------|
|      NN       |   61   |           216           |           11           |              95,2             |
|    AR1 + NN   |   44   |           221           |            6           |              97,4             |
|    AR2 + NN   |   33   |           217           |           10           |              95,6             |

Os melhores resultados foram obtidos com AR1 + NN.

In [2]:
from funcoes import *
from constantes import *
from resultado import *
from avaliacao import *



In [3]:
import pandas as pd
from sklearn.svm import SVC
from sklearn.neighbors import KNeighborsClassifier
from sklearn.tree import DecisionTreeClassifier

In [4]:
cancerDeMamaDF = readDataset('id')

In [5]:
cancerDeMamaDF.head()

Unnamed: 0_level_0,diagnosis,radius_mean,texture_mean,perimeter_mean,area_mean,smoothness_mean,compactness_mean,concavity_mean,concave points_mean,symmetry_mean,...,radius_worst,texture_worst,perimeter_worst,area_worst,smoothness_worst,compactness_worst,concavity_worst,concave points_worst,symmetry_worst,fractal_dimension_worst
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
842302,M,17.99,10.38,122.8,1001.0,0.1184,0.2776,0.3001,0.1471,0.2419,...,25.38,17.33,184.6,2019.0,0.1622,0.6656,0.7119,0.2654,0.4601,0.1189
842517,M,20.57,17.77,132.9,1326.0,0.08474,0.07864,0.0869,0.07017,0.1812,...,24.99,23.41,158.8,1956.0,0.1238,0.1866,0.2416,0.186,0.275,0.08902
84300903,M,19.69,21.25,130.0,1203.0,0.1096,0.1599,0.1974,0.1279,0.2069,...,23.57,25.53,152.5,1709.0,0.1444,0.4245,0.4504,0.243,0.3613,0.08758
84348301,M,11.42,20.38,77.58,386.1,0.1425,0.2839,0.2414,0.1052,0.2597,...,14.91,26.5,98.87,567.7,0.2098,0.8663,0.6869,0.2575,0.6638,0.173
84358402,M,20.29,14.34,135.1,1297.0,0.1003,0.1328,0.198,0.1043,0.1809,...,22.54,16.67,152.2,1575.0,0.1374,0.205,0.4,0.1625,0.2364,0.07678


Esse dataset não apresenta valores faltantes ou inválidos

In [6]:
cancerDeMamaDF.groupby(CLASSE).describe()

Unnamed: 0_level_0,radius_mean,radius_mean,radius_mean,radius_mean,radius_mean,radius_mean,radius_mean,radius_mean,texture_mean,texture_mean,...,symmetry_worst,symmetry_worst,fractal_dimension_worst,fractal_dimension_worst,fractal_dimension_worst,fractal_dimension_worst,fractal_dimension_worst,fractal_dimension_worst,fractal_dimension_worst,fractal_dimension_worst
Unnamed: 0_level_1,count,mean,std,min,25%,50%,75%,max,count,mean,...,75%,max,count,mean,std,min,25%,50%,75%,max
diagnosis,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2,Unnamed: 14_level_2,Unnamed: 15_level_2,Unnamed: 16_level_2,Unnamed: 17_level_2,Unnamed: 18_level_2,Unnamed: 19_level_2,Unnamed: 20_level_2,Unnamed: 21_level_2
B,357.0,12.146524,1.780512,6.981,11.08,12.2,13.37,17.85,357.0,17.914762,...,0.2983,0.4228,357.0,0.079442,0.013804,0.05521,0.07009,0.07712,0.08541,0.1486
M,212.0,17.46283,3.203971,10.95,15.075,17.325,19.59,28.11,212.0,21.604906,...,0.359225,0.6638,212.0,0.09153,0.021553,0.05504,0.076302,0.0876,0.102625,0.2075


## Avaliando o impacto da remoção de atributos

Cada cédula mostra as imagem que foram geradas e comparadas em conjuto. A cédula abaixo contém a árvore de decisão sem remoção de atributos, ela foi mantida nas comparações

Foi utilizada a árvore de decisão com o parametro min_samples_split = 0.0002, porque a mesma apresentou o melhor resultado com relação min_samples_split = 0.25 e min_samples_split = 0.5.

In [None]:
createImageToDecisionTree(cancerDeMamaDF, CLASSE) #sem remoção de atributos

In [None]:
createImageToDecisionTree(cancerDeMamaDF, CLASSE, 'concavity_mean')
createImageToDecisionTree(cancerDeMamaDF, CLASSE, 'concave points_mean')
createImageToDecisionTree(cancerDeMamaDF, CLASSE, 'concavity_worst')

In [None]:
#todas apresentaram diferenças
createImageToDecisionTree(cancerDeMamaDF, CLASSE, 'concavity_worst')
createImageToDecisionTree(cancerDeMamaDF, CLASSE, 'concavity_mean')
createImageToDecisionTree(cancerDeMamaDF, CLASSE, 'compactness_worst')
createImageToDecisionTree(cancerDeMamaDF, CLASSE, 'concave points_worst')

In [None]:
createImageToDecisionTree(cancerDeMamaDF, CLASSE, 'area_worst')
createImageToDecisionTree(cancerDeMamaDF, CLASSE, 'radius_mean')
createImageToDecisionTree(cancerDeMamaDF, CLASSE, 'perimeter_mean')
createImageToDecisionTree(cancerDeMamaDF, CLASSE, 'area_mean')
createImageToDecisionTree(cancerDeMamaDF, CLASSE, 'radius_worst')
createImageToDecisionTree(cancerDeMamaDF, CLASSE, 'perimeter_worst')

In [None]:
createImageToDecisionTree(cancerDeMamaDF, CLASSE, 'perimeter_worst')
createImageToDecisionTree(cancerDeMamaDF, CLASSE, 'radius_mean')
createImageToDecisionTree(cancerDeMamaDF, CLASSE, 'perimeter_mean')
createImageToDecisionTree(cancerDeMamaDF, CLASSE, 'area_mean')
createImageToDecisionTree(cancerDeMamaDF, CLASSE, 'radius_worst')
createImageToDecisionTree(cancerDeMamaDF, CLASSE, 'area_worst')

In [None]:
createImageToDecisionTree(cancerDeMamaDF, CLASSE, 'area_se')
createImageToDecisionTree(cancerDeMamaDF, CLASSE, 'radius_se')
createImageToDecisionTree(cancerDeMamaDF, CLASSE, 'perimeter_se')

#### Conclusões

Não houve diferenças nas árvores de decisões ao remover:
    * concavity_mean e concave points_mean
    * area_mean e perimeter_mean
    * perimeter_se e perimeter_se


In [8]:
datasetDF = cancerDeMamaDF
datasetDF.replace('M', 1, inplace=True)
datasetDF.replace('B', 0, inplace=True)

ml_methods_params = [DecisionTreeClassifier(min_samples_split=0.0002,random_state=1),
                     DecisionTreeClassifier(min_samples_split=0.25,random_state=1),
                     DecisionTreeClassifier(min_samples_split=0.5,random_state=1)]

print(" ** Sem remover atributos **")
print(f'min_samples_split=0.002 macro={Experimento(Fold.gerar_k_folds(datasetDF,5,CLASSE), [DecisionTreeClassifier(min_samples_split=0.002,random_state=1)]).macro_f1_avg}')
print(f'min_samples_split=0.25 macro={Experimento(Fold.gerar_k_folds(datasetDF,5,CLASSE), [DecisionTreeClassifier(min_samples_split=0.25,random_state=1)]).macro_f1_avg}')
print(f'min_samples_split=0.5 macro={Experimento(Fold.gerar_k_folds(datasetDF,5,CLASSE), [DecisionTreeClassifier(min_samples_split=0.5,random_state=1)]).macro_f1_avg}')

print("\n** Removendo atributos **")
dataDF = datasetDF.drop(axis=1, labels=['concavity_mean','concave points_mean','area_mean','perimeter_mean','perimeter_se','perimeter_se'])
print(f'min_samples_split=0.002 macro={Experimento(Fold.gerar_k_folds(dataDF,5,CLASSE), [DecisionTreeClassifier(min_samples_split=0.002,random_state=1)]).macro_f1_avg}')
print(f'min_samples_split=0.25 macro={Experimento(Fold.gerar_k_folds(dataDF,5,CLASSE), [DecisionTreeClassifier(min_samples_split=0.25,random_state=1)]).macro_f1_avg}')
print(f'min_samples_split=0.5 macro={Experimento(Fold.gerar_k_folds(dataDF,5,CLASSE), [DecisionTreeClassifier(min_samples_split=0.5,random_state=1)]).macro_f1_avg}')

 ** Sem remover atributos **
min_samples_split=0.002 macro=0.9244193366281316
min_samples_split=0.25 macro=0.9068522823030298
min_samples_split=0.5 macro=0.9039828187638494

** Removendo atributos **
min_samples_split=0.002 macro=0.927229558120579
min_samples_split=0.25 macro=0.8902038820761318
min_samples_split=0.5 macro=0.9022287395097702


Como é possível perceber, os atributos removidos não mudaram o resultado significativamente

In [37]:
from sklearn import svm, datasets
from sklearn.model_selection import GridSearchCV
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report, confusion_matrix
X, y = datasetDF.drop(CLASSE,axis=1), datasetDF[CLASSE]
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=0)

parameters = {'kernel':['linear', 'rbf'], 'C':[1, 10, 100, 1000]}
svc = svm.SVC(gamma="scale")
clf = GridSearchCV(svc, parameters, cv=5)

gridsearch = clf.fit(X_train, y_train)

In [38]:
clf.best_params_

{'C': 1, 'kernel': 'linear'}

## Encontrando os melhores parâmetros via grid search
O dataset foi dividido em 80% treino e 20% teste, sendo o dataset de treino utilizado para encontrar os melhores parâmetros e o dataset de testes para validar o modelo considerado o melhor <img src="img/cv-gridsearch.jpeg" alt="Esquema de divisão do dataset para encontrar os melhores parâmetros e testar o melhor método encontrado">

Para encontrar os melhores parâmetros do método SVM para o dataset foi feita uma _grid search_ utilizando _cross validation_ do tipo K-fold para k = 5. As configurações testadas foram combinações dos parâmetros kernel = {linear, rbf} e C = {1, 10, 100, 1000}. O melhor resultado foi o classificador SVM de C = 1 e kernel linear.

Encontrado o melhor modelo foi feito o teste deste com dados não vistos anteriormente. 

## Avaliação do método

Para esta configuração, obtivemos os seguintes resultados:

In [44]:
print(classification_report(y_test, clf.best_estimator_.predict(X_test), target_names = ["B", "M"]))

              precision    recall  f1-score   support

           B       0.98      0.94      0.96        67
           M       0.92      0.98      0.95        47

    accuracy                           0.96       114
   macro avg       0.95      0.96      0.96       114
weighted avg       0.96      0.96      0.96       114



Os resultados acima mostram que a métrica precisão é mais alta para predizer os tumores do tipo benigno enquanto a métrica revocação é mais alta para os tumores malignos. Estes resultados são satisfatórios, pois indicam que dos tumores malignos, 98% foram preditos corretamente, sendo que do que foi predito como maligno 92% era de fato maligno. É um modelo que erra mais indicando que um tumor benigno é maligno do que ao contrário, o que cumpre o papel mais importante de detectar corretamente os tumores malignos. Abaixo a matriz de confusão que confirma as conclusões.

In [58]:
pd.DataFrame(confusion_matrix(y_test, clf.best_estimator_.predict(X_test)), columns=["B_predicted", "M_predicted"], index=["B_true", "M_true"])

Unnamed: 0,B_predicted,M_predicted
B_true,63,4
M_true,1,46
