<a href="https://colab.research.google.com/github/LuisSilvaS/Data-science/blob/main/predi_o_de_c_ncer_de_mama_com_knn.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Introdução

Recentemente, a quantidade de dados produzidos dentro de empresas, universidades, comércio e no mercado tem ganhado grande relevância, tanto pela quantidade de dados produzidos devido ao fácil compartilhamento, envio e recebimento, quanto pela necessidade de entender esses dados e transformá-los em informação útil para apoio na tomada de decisão dentro dessas entidades. Nesse processo de compreensão dos dados, existem téncias denonminadas mineração de dados, que visam explorar grandes quantidades de dados com o intuito de encontrar padrões relevantes e consistentes no relacionamento entre os atributos (basicamente, colunas de tabelas) dessas bases de dados. 

Uma das primeiras técnicas desenvolvidas nesse sentido foi o  KDD (em inglês, *Knowledge Discovery in Database*), desenvolvido durante o final da década de 1980. A extração de conhecimento a partir de uma base de dados é dividida em fases: coleta de dados -> tratamento dos dados -> resultado final (transformação dos dados em informações e posteriormente em conhecimento).

O processo KDD foi constituído visando automatizar o processo de extração de conhecimento a partir de uma grande base de dados. É um processo iterativo, isto é, cada etapa pode ser repetida até que se tenham os resultados satisfatórios. 

As etapas do KDD, segundo Fayyad et al (1996) são as seguintes:

- Seleção: é a etapa de agrupamento dos dados de modo organizado. É uma etapa muito importante, pois é nela que serão decididos quais os conjuntos de dados que serão relevantes para que sejam obtidos resultados com informações uteis.
- 	Pré-processamento: neste momento os dados passam por uma adequação. Ao final do processo, devem possuir o formato correto e não apresentar duplicidade, entre outras características. Consiste numa a limpeza dos dados e seleção de atributos. Nesta etapa, informações ausentes, errôneas ou inconsistentes nas bases de dados devem ser corrigidas de forma a não comprometer a qualidade dos modelos de conhecimento a serem extraídos ao final do processo de KDD.
-	Transformação: é a etapa de armazenamento dos dados de forma a facilitar o uso das técnicas de Data Mining. Esta etapa analisa os dados obtidos na etapa anterior e os reorganiza de uma forma especifica para que possam ser interpretados na etapa seguinte.
-	Mineração de Dados: é a principal atividade do processo de descoberta do conhecimento. Nesta fase  são aplicados algoritmos de descoberta de padrões. A mineração faz com que meros dados sejam transformados em informações.
-	Interpretação e avaliação: esta fase consiste em interpretar os dados gerados e verificar se possuem alguma validade para o problema proposto. Esta é a fase na qual as regras indicadas pelo processo anterior serão interpretadas e avaliadas. Após a interpretação poderão surgir padrões, relacionamentos e descoberta de novos fatos, que podem ser utilizados para pesquisas, otimização e outros.

Neste trabalho, pode-se entender as fases do KDD para uma base de dados na qual existe uma série de atributos de análise de imagens de células na região do câncer feitos com ultrassonografia para prever se um câncer de mama é benigno ou malígno. Basicamente, os tumores benignos são constituídos por células bem semelhantes às que os originaram e não possuem a capacidade de provocar metástases. Já os malignos são agressivos e possuem a capacidade de infiltrar outros órgãos.
Fonte: https://www.einstein.br/noticias/noticia/cancer-benigno-maligno

Após a extração dos dados da plataforma Kaggle (www.kaggle.com) foi realizado um pré-processamento para garantir que os dados lidos e interpretados sejam relevantes para o processo de extração de conhecimento. Após isso, foi implementada a transformação dos dados em si, através do algoritmo KNN. Por fim, foram feitas as previsões a partir de novos dados, isto é, após o aprendizado realizado pelo algoritmo KNN sobre a base de dados, novas entradas de dados buscaram classificar se uma nova entrada de fotos de células seria um câncer beingno ou maligno, baseado no aprendizado anterior. Foi traçada uma avaliação para essas previsões, de modo a se obter uma acurácia e concluir se o modelo contruído é bom ou ruim nas suas previsões.


Cada classificação foi calculada a partir de uma imagens digitalizadas de uma região de células afetadas nas glândulas mamárias. Essas imagens descrevem características dos núcleos celulares presentes e das células.

As seguintes seções desse trabalho se referem às etapas do KDD e a conclusão do trabalho:
- Seleção dos dados, 
- Pré-processamento , 
- Transformação, 
- Mineração de Dados, 
- Avaliação (do modelo),
- Conclusão


# Seleção dos Dados

A fase de seleção dos dados é a primeira no processo de descoberta do conhecimento nas atividades de *machine learning* e ciências dos dados.
Nesta fase é escolhido o conjunto de dados contendo todas as possíveis variáveis, também chamadas de características ou atributos, que farão parte da análise.
A etapa de seleção possui impacto significante sobre a qualidade do resultado do processo.

Os dados que iremos utilizar pertencem a uma base de dados sobre diagnóstico de câncer de mama disponível na plataforma Kaggle . (https://www.kaggle.com/uciml/breast-cancer-wisconsin-data)

In [None]:
# Carregar as bibliotecas necessárias: 

import seaborn as sns
import matplotlib.pyplot as plt
import pandas as pd
import numpy as np
from sklearn.neighbors import KNeighborsClassifier
from sklearn.model_selection import train_test_split
from sklearn.model_selection import cross_val_score 
import sklearn.metrics


# Carregar a base de dados:
rout_path = "../input/data.csv"
dados = pd.read_csv(rout_path)

# Pré-processamento 

A etapa de pre-processamento é crucial no processo, pois a qualidade dos dados vai determinar a eficiência dos algoritmos de mineração.
Nesta etapa são realizadas tarefas que eliminam dados redundantes e inconsistentes, recuperem dados incompletos e avaliam possíveis dados discrepantes ao conjunto (*outliers*). 
Nesta etapa também são utilizados métodos de redução ou transformação para diminuir o número
de variáveis envolvidas no processo, visando com isto melhorar o desempenho do algoritmo que será usado na análise dos dados.



In [None]:
# Mostrar detalhes dos 5 primeiros registros da base:

dados.head() 

A seguir, a classe objetivo, no caso a coluna "diagnosis", é separada dos demais atributos, que são efetivamente os dados que serão analisados

Também são removidas as colunas com informações que não são relevantes: 'id' (número de identificação do registro) e 'Unnamed: 32' (coluna com valor faltante para todos os registros).

Nos parâmetros exibidos a seguir, é notória a diferença entre os valores absolutos de alguns atributos, como por exemplo o valor da área e o valor da concavidade. Desse modo, para algumas exibições gráficas nas seções adiante, será necessária a normalização dos dados.

In [None]:
# Colocar no vetor Y os valores da classe objetivo

Y = dados.diagnosis                         


# Fazer a remoção das colunas desnecessárias

list = ['Unnamed: 32','id','diagnosis']        # lista com as colunas a serem removidas
X = dados.drop(list,axis = 1 )          
X.head()


## Visualização


Para visualizar os dados será utilizada a biblioteca seaborn para plotar graficos úteis para compreensão das informações a respeito dos atributos da base de dados.


### Número total de registros para cada classe 




In [None]:
ax = sns.countplot(Y,label="Quantidade")       # M = 212, B = 357
B, M = Y.value_counts()
print('Quantidade de Benignos: ',B)
print('Quantidade de Malignos: ',M)

### Ver como os dados se comportam

Para uma melhor compreensão dos dados podemos observar como eles se comportam. 
Após a execução a primeira tabela a seguir mostrará os seguintes dados estatísticos sobre os dados:
soma, média, desvio padrão, valor 25% 50%(mediana) e 75% , máximo e mínimo .

In [None]:
# mostra soma, média , desvio padrão, min, max, valor dos 25%, 50%(mediana) e 75%

X.describe() 

### Explicação dos atributos

Os atributos são divididos em três grupos: Mean, SE e Worst.

> Mean: média de todas as células;

> SE: *Standard Error* (erro padrão de todas as células);

> Worst: média dos três piores valores medidos das células. Na verdade, é considerado "pior" porque são medidas indicativas de células não saudáveis; na realidade o "pior" significa os maiores valores medidos para raio, perímetro, textura etc.

Cada grupo tem 10 atributos: 
- radius (raio da célula)
- texture (textura da célula - medida pelo desvio padrão de escalas de cinza, que ajudam a indicar se a célula é saudável ou não)
-	perimeter (perímetro)
-	area (área)
-	smoothness (variação local em comprimentos de raio)
- compactness (campactude = perimetro²/area - 1)
- concavity (gravidade das porções côncavas das células)
- concave points (número de porções côncavas no contorno da célula),
- symmetry (simetria) 
- fractal_dimension (dimensão fractal). 






## **Mapa de calor para os dados limpos**

No mapa de calor é feita uma regressão linear de todos os atributos combinados 2 a 2, e o valor que aparece nas células do mapa de calor são os coeficientes angulares de um atributo em relação ao outro, resultante da regressão linear. 
Para exemplificar, o valor que aparece nas células da diagonal principal, é o coeficiente angular de um atributo em relação a ele mesmo, logo o valor é 1. Se o coefiente angular é positivo, significa que quando o atributo do eixo horizontal cresce, o atributo do eixo vertical também cresce com taxa de variação igual ao valor do coeficiente angular. Se o coeficiente angular é negativo,  significa que quando o atributo do eixo horizontal cresce, o do eixo vertical  decresce com taxa de variação igual ao módulo do coeficiente angular. Por fim, caso o coeficiente seja zero, significa que as duas variáveis não dependem linearmente uma da outra. Nesses casos pode existir uma dependência não-linear, que seria necessário investigá-la por outros meios. 





In [None]:
# Mostrar mapa de calor 

f,ax = plt.subplots(figsize=(18, 18))
sns.heatmap(X.corr(), annot=True, fmt= '.1f', cmap ='RdYlGn')

Para melhor visualizar o mapa de calor, foram separados os grupos Mean, SE e Worst.

A ideia do heatmap aqui é entender como os atributos se relacionam. Caso tenham grande correlação, é um indicativo de multicolinearidade, que pode levar a resultados distorcidos. Existem várias maneiras de lidar com esse problema, como por exemplo o uso de PCA (*Principal Component Analysis*). Contudo, a abordagem utilizada será mais simples, que é a de simplesmente escolher um dos atributos para manter na base e eliminar os outros que tenham alta correlação com ele. 

PS: algoritmos que usam ávores de decisão evitam problemas de multicolinearidade naturalmente em sua implementação.

A decisão de implementação foi de deletar os atributos com correlação maior ou igual a 0.9.

In [None]:
droplist_se_worst = ['radius_se', 	'texture_se',	'perimeter_se',	'area_se',	'smoothness_se',	'compactness_se',	'concavity_se',	'concave points_se',	'symmetry_se',	'fractal_dimension_se', 'radius_worst',	'texture_worst',	'perimeter_worst',	'area_worst',	'smoothness_worst',	'compactness_worst',	'concavity_worst',	'concave points_worst',	'symmetry_worst',	'fractal_dimension_worst']

somente_mean = X.drop(droplist_se_worst, axis = 1)
f,ax = plt.subplots(figsize=(10, 10))
sns.heatmap(somente_mean.corr(), annot=True, linewidths=.5, fmt= '.3f', cmap ='RdYlGn')

- Os atributos radius_mean, perimeter_mean e	area_mean possuem correlação acima de 0.9, então iremos remover os atributos radius_mean e perimeter_mean (escolha arbitrária)
- Os atributos concavity_mean e concave points_mean possuem correlação acima de 0.9, então iremos remover o atributo concavity_mean (escolha arbitrária)

Portanto, nesse primeiro grupo, os atributos que continuarão serão: area_mean, texture_mean, smoothness_mean, compactness_mean, concave points_mean, symmetry_mean e fractal_dimension_mean



In [None]:
droplist_mean_worst = ['radius_mean', 'texture_mean',	'perimeter_mean',	'area_mean', 	'smoothness_mean', 'compactness_mean', 'concavity_mean', 'concave points_mean',	'symmetry_mean',	'fractal_dimension_mean', 'radius_worst',	'texture_worst',	'perimeter_worst',	'area_worst',	'smoothness_worst',	'compactness_worst',	'concavity_worst',	'concave points_worst',	'symmetry_worst',	'fractal_dimension_worst']

somente_se = X.drop(droplist_mean_worst, axis = 1)
f,ax = plt.subplots(figsize=(10, 10))
sns.heatmap(somente_se.corr(), annot=True, linewidths=.5, fmt= '.3f', cmap ='RdYlGn')

- Os atributos radius_se, perimeter_se e  area_se possuem correlação acima de 0.9, então iremos remover os atributos perímetro e raio (escolha arbitrária)

Portanto, nesse segundo grupo, os atributos que continuarão serão: area_se, texture_se, smoothness_se, compactness_se, concavity_se, concave points_se, symmetry_se e fractal_dimension_se

In [None]:
droplist_mean_se = ['radius_mean', 'texture_mean',	'perimeter_mean',	'area_mean', 	'smoothness_mean', 'compactness_mean', 'concavity_mean', 'concave points_mean',	'symmetry_mean',	'fractal_dimension_mean', 'radius_se', 	'texture_se',	'perimeter_se',	'area_se',	'smoothness_se',	'compactness_se',	'concavity_se',	'concave points_se',	'symmetry_se',	'fractal_dimension_se']

somente_worst = X.drop(droplist_mean_se, axis = 1)
f,ax = plt.subplots(figsize=(10, 10))


sns.heatmap(somente_worst.corr(), annot=True, linewidths=.5, fmt= '.3f', cmap ='RdYlGn')

- Os atributos radius_worst, perimeter_worst e  area_worst possuem correlação acima de 0.9, então iremos remover os atributos perímetro e raio (escolha arbitrária)

Portanto, nesse primeiro terceiro, os atributos que continuarão serão: area_worst, texture_worst, smoothness_worst, compactness_worst, concavity_worst, concave points_worst, symmetry_worst e fractal_dimension_worst

## **Plotagem de Violino**

A plotagem de violino nos mostra a distribuição dos dados de acordo com cada classe e cada atributo. Para cada atributo à esquerda do eixo é apresentada a distribuição dos dados para a classe Maligno,  e à direita a distribuição para a classe Benigno.

Através da observação da plotagem de violino podemos inferir que os atributos area_mean , concave points_mean, area_se, area_worst, concavity_worst e concave points_worst são bons atributos para a separação das classes, visto que a distribuição dos dados das classes é bem distinto. 

In [None]:
droplist_final = ['radius_mean', 	'perimeter_mean',	'concavity_mean',	'radius_se', 	'perimeter_se',	'radius_worst',	'perimeter_worst']


data_dia = Y
data = X.drop(droplist_final, axis = 1)                     #retirada de atributos 
data_n_2 = (data - data.mean()) / (data.std())              # normalização
data = pd.concat([Y,data_n_2],axis=1)
data = pd.melt(data,id_vars="diagnosis",
                    var_name="Atributos",
                    value_name='Valores')
plt.figure(figsize=(15,15))
sns.violinplot(x="Atributos", y="Valores", hue="diagnosis", data=data,split=True, inner="quart")
plt.xticks(rotation=90)

## **Gráfico de pares de atributos**

Os gráficos abaixo mostram as correlações entre os atributos (*mean, se* e *worst*) e as classes. 

Observando os gráficos da diagonal principal (histogramas referente à distribuição dos dados de acordo com o atributo em si) podemos inferir que os atributos area_mean ,  concave points_mean , area_se , concave points_worst e area_worst são bons atributos para a separação das classes, visto que a distribuição dos dados das classes é bem distinto.


In [None]:
# Mostrar correlação entre classes e atributos 'mean'
sns.pairplot(dados, kind="scatter", diag_kind="hist", hue="diagnosis" ,  markers=["o", "D"], vars=["area_mean", "texture_mean", "smoothness_mean", "compactness_mean", "concave points_mean", "symmetry_mean", "fractal_dimension_mean"] ) 
plt.show()

In [None]:
# Mostrar correlação entre classes e atributos 'se'
sns.pairplot(dados, kind="scatter", diag_kind="hist", hue="diagnosis" ,  markers=["o", "D"], vars=["area_se", "texture_se", "smoothness_se", "compactness_se", "concavity_se", "concave points_se", "symmetry_se", "fractal_dimension_se"] ) 
plt.show()


In [None]:
# Mostrar correlação entre classes e atributos 'worst'
sns.pairplot(dados, kind="scatter", diag_kind="hist", hue="diagnosis" ,  markers=["o", "D"], vars=["area_worst", "texture_worst", "smoothness_worst", "compactness_worst", "concavity_worst", "concave points_worst", "symmetry_worst" , "fractal_dimension_worst"] ) 
plt.show()


# Transformação

Transformação é a etapa de armazenamento dos dados de forma a facilitar o uso das técnicas de Data Mining. 

Nessa etapa nos separamos a base de dados em duas partes: 
- Treino : dados que serão usados para treinar o modelo.
- Teste : dados que serão usados para calcular a qualidade do modelo gerado.

In [None]:
# Remoção dos atributos que tinham alta correlação

droplist_final = ['radius_mean', 	'perimeter_mean',	'concavity_mean',	'radius_se', 	'perimeter_se',	'radius_worst',	'perimeter_worst']

data = X.drop(droplist_final, axis = 1)                     #retirada de atributos 


# Separar dados em Treino e Teste 

x_train, x_test, y_train, y_test = train_test_split(X, Y, test_size=0.25, random_state=10) # random_state=10 foi mantido para questão de REPRODUCIBILIDADE. (Separar os dados da mesma forma independente da execução). 

print('Quantidade de registros para treino: ', x_train.shape[0]) 
print('Quantidade de registros para teste: ',x_test.shape[0]) #qtd de registros para teste


# Mineração de Dados

*Data mining* é a principal atividade do conhecimento, aplicando, para este fim, algoritmos de descoberta de padrões.
Iremos fazer uso do algoritmo KNN (do inglês,  *K-nearest neighbor*),  que determina a classe(o rótulo de classificação)  de uma amostra baseado nas k amostras vizinhas mais próximas advindas de um conjunto de treinamento.

Para fazer a escolha do K ideal calculamos a acurácia para k de 1 até 15 com *cross validation*.
> ***Cross Validation*** (validação cruzada) é o particionamento do conjunto de dados em subconjuntos mutualmente exclusivos, e posteriormente, utiliza-se alguns destes subconjuntos para a estimação dos parâmetros do modelo (dados de treinamento) e o restante dos subconjuntos (dados de validação ou de teste) são empregados na validação do modelo.

In [None]:
# Calcular a acurácia para K de 1 a 15 utilizando Cross Validation
tr_acc = []
k_set = range(1,15)

for n_neighbors in k_set:
  knn = KNeighborsClassifier(n_neighbors=n_neighbors)
  scores = cross_val_score(knn, x_train, y_train, cv=10) #testa eficacia com cross validation na base de treinamento
  tr_acc.append(scores.mean())
  
best_k = np.argmax(tr_acc) #retorna o indice do maior
print('Melhor k no treinamento com Cross Validation: ', k_set[best_k]) #mostra melhor k do treinamento com cross validation

 Depois calculamos a acurácia para  cada k de 1 até 15 aplicando o modelo nos dados de treinamento e fazendo o teste com os dados de teste. 


In [None]:
te_acc = []
k_set = range(1,15)

for n_neighbors in k_set:
  knn = KNeighborsClassifier(n_neighbors=n_neighbors)
  knn.fit(x_train, y_train)
  y_pred = knn.predict(x_test) #aplica x_test no modelo
  te_acc.append(sklearn.metrics.accuracy_score(y_test, y_pred)) #compara y_test com y_pred
    
melhor_k =np.argmax(te_acc)
print('Melhor k nos testes: ', k_set[melhor_k]) #melhor k do treinamento normal + teste


A seguir é mostrado um gráfico para comparar a acurácia de cada valor de K no treino e no teste.

In [None]:
import matplotlib.pyplot as plt

plt.plot(k_set,tr_acc, label='Treino')
plt.plot(k_set,te_acc, label='Teste')
plt.ylabel('Acurácia')
plt.xlabel('k')
plt.legend()

plt.show()

Assim assumiremos que o melhor K para esse modelo é 7, pois o treino apresenta sua maior acurácia. 

# Avaliação

Como o próprio nome diz, esta fase consiste em interpretar os dados gerados e verificar se possuem alguma validade para o problema proposto.

Iremos apresentar o Score , Acurácia e Tabela de Confusão  do modelo quando aplicado para K = 7. As observações que podemos tirar acerca desses cálculos é:

- Score: podemos perceber que na maioria dos casos o algoritmo possui muita 'certeza' da classificação efetuada.
- Acurácia: o modelo apresenta  cerca de 93% de acurácia.
- Matriz de confusão: no teste do modelo existem 4  casos de falso positivo, ou seja, que foram preditos como benignos quando na verdade eram malignos. E 5 casos de falso positivo , ou seja, que foram preditos como benignos quando na verdade eram malignos. Além dos restantes 134 casos que foram corretamente preditos.


## Cálculo de score

In [None]:
# Reaplicar o modelo com k=7 , que é o melhor k
clf = KNeighborsClassifier(n_neighbors = 11)
clf.fit(x_train, y_train)


# Mostrar Score
pred_scores = clf.predict_proba(x_test)
print(pred_scores)

## Cálculo da acurácia

In [None]:
# Calcular a acurácia do modelo aplicado nos dados de teste
y_pred = clf.predict(x_test)
te_acc= (sklearn.metrics.accuracy_score(y_test, y_pred)) 
print ('Acurácia obtida: ', te_acc)

## Matriz de confusão 


In [None]:
conf_mat = sklearn.metrics.confusion_matrix(y_test, y_pred)

df_cm = pd.DataFrame(conf_mat, index = [i for i in ['maligno', 'benigno']],
                  columns = [i for i in ['maligno', 'benigno']])

cmap = sns.light_palette("navy", as_cmap=True)
plt.figure()
sns.heatmap(df_cm, annot=True, cmap=cmap)

# Conclusão

Realizamos todas as etapas do KDD  (Seleção dos dados, Pré-processamento, Transformação, Mineração de Dados, Avaliação) na abordagem do algoritmo de aprendizado de máquina KNN aplicado na base de dados referente ao diagnóstico de câncer de mama. 

É possível concluir que a acurácia de 93% obtida pelo modelo  é satisfatória. 

Numa próxima abordagem poderiam ser definidos quais são os atributos mais relevantes para a separação das classes a fim de atribuir um peso maior a esses atributos no momento da classificação de um novo dado. Atributos que seriam candidatos a um peso maior são os que foram comentados na seção da Plotagem de violino (area_mean ,  concave points_mean , area_se , concave points_worst e area_worst )  e na seção de Gráfico de pares de atributos (area_mean ,  concave points_mean , area_se , concave points_worst e area_worst ).
