# Data Science Methodology for Breast Cancer Diagnosis (DSM-BCD)

**Problema.** Colombia presenta limitaciones con respecto al acceso de la detección y el diagnóstico temprano del cáncer, provocado en la mayoría de los casos por factores como el estrato socio-económico, la cobertura del seguro de salud, el origen y la accesibilidad. En promedio, el tiempo de espera de un paciente es de 90 días desde la aparición de los síntomas hasta el diagnóstico de dicho cáncer. La primera acción para reducir la tasa de mortalidad por cáncer de mama debe estar enfocada en la agilidad del diagnóstico y el acceso oportuno a la atención.  Así, el objetivo de esta investigación es aplicar las etapas de la metodología KDD\footnote{Knowledge Discovery in Databases} al conjunto de datos de morbilidad por cáncer entre los años 2019 y 2020 en el municipio de Pereira-Risaralda. Esto con la finalidad de pronosticar y caracterizar el tipo de población mas susceptible de padecer esta enfermedad según su edad, genero, zona y régimen de salud.

**Conjunto de datos.** Un total de 817 muestras de tumores de mama se perfilaron con cinco plataformas diferentes como se ha descrito previamente (Cancer Genome Atlas Research Network, 2014) y también se perfilaron 633 casos mediante matriz de proteínas en fase inversa (RPPA)

## Aprendizaje No supervisado

En el aprendizaje No supervisado, se trabaja con datos sin etiquetar cuya estructura es desconocida. El objetivo será la extracción de información significativa, sin la referencia de variables de salida conocidas, y mediante la exploración de la estructura de dichos datos sin etiquetar. En este caso de estudio se utilizará la siguiente técnica:

### Agrupamiento (Clustering)
El agrupamiento es una técnica exploratoria de análisis de datos, que se usa para organizar información en grupos sin tener conocimiento previo de su estructura. Cada grupo es un conjunto de objetos similares que se diferencia de los objetos de otros grupos. El objetivo es obtener un número de grupos de características similares. Los modelos de Clustering más conocidos son los siguientes:

#### K-means: 
Es un algoritmo diseñado para dividir datos no etiquetados en un cierto número (k) de agrupaciones distintas. En otras palabras, k-means encuentra observaciones que comparten características importantes, las une y las clasifica en grupos.

#### K-modes: 
El algoritmo de agrupación de k-modes es una extensión del
algoritmo k-means. Este algoritmo fue diseñado para agrupar grandes conjuntos de datos categóricos, y tiene como objetivo obtener las k modas que
representan a un conjunto de datos determinado.


## Desarrollo Clustering

In [None]:
import pandas as pd
import numpy as np
import seaborn as sns

In [None]:
with open('Breast_Clean_Data.csv') as f:
    dataset=pd.read_csv(f, delimiter=',')

In [None]:
dataset.head(10)

In [None]:
dataset.shape

In [None]:
#data = dataset.sample(frac=0.95, random_state=42)
data = dataset.sample(frac=0.95, random_state=42)
data_unseen = dataset.drop(data.index)

data.reset_index(drop=True, inplace=True)
data_unseen.reset_index(drop=True, inplace=True)

print('Data for Modeling: ' + str(data.shape))
print('Unseen Data For Predictions: ' + str(data_unseen.shape))

In [None]:
from pycaret.clustering import *

exp_clu101 = setup(dataset, normalize = True, 
session_id = 123)

In [None]:
models()

### K-Means Clustering

In [None]:
kmeans = create_model('kmeans')

In [None]:
plot_model(kmeans,plot='cluster')

In [None]:
plot_model(kmeans, plot = 'elbow')

In [None]:
plot_model(kmeans, plot = 'silhouette')

In [None]:
plot_model(kmeans, plot = 'tsne')

In [None]:
plot_model(kmeans, plot = 'distance')

In [None]:
plot_model(kmeans, plot = 'distribution')

In [None]:
plot_model(kmeans, plot = 'distribution', feature = 'oncotree_code')

In [None]:
plot_model(kmeans, plot = 'distribution', feature = 'cancer_type_detailed')

In [None]:
kmean_results = assign_model(kmeans)
kmean_results.groupby("Cluster").describe()

In [None]:
#kmean_results.to_csv('kmean_results.csv',index=False)

In [None]:
for i in range(4):
    cluster = 'Cluster '+ str(i)
    a=kmean_results[kmean_results['Cluster']==cluster]
    a.to_csv('kmean ' + cluster + '.csv',index=False)

### K-Modes Clustering	

In [None]:
kmodes = create_model('kmodes')

In [None]:
plot_model(kmodes,plot='cluster')

In [None]:
plot_model(kmodes, plot = 'elbow')

In [None]:
plot_model(kmodes, plot = 'silhouette')

In [None]:
plot_model(kmodes, plot = 'tsne')

In [None]:
plot_model(kmodes, plot = 'distribution')

In [None]:
plot_model(kmeans, plot = 'distribution', feature = 'year_initial_diagnosis')

In [None]:
kmodes_results = assign_model(kmodes)
kmodes_results
kmodes_results.groupby("Cluster").describe()

In [None]:
for i in range(3):
    cluster = 'Cluster '+ str(i)
    a=kmodes_results[kmodes_results['Cluster']==cluster]
    a.to_csv('kmode ' + cluster + '.csv',index=False)

### Birch Clustering	

In [None]:
birch = create_model('birch')

In [None]:
plot_model(birch,plot='cluster')

In [None]:
plot_model(birch, plot = 'elbow')

In [None]:
plot_model(birch, plot = 'silhouette')

In [None]:
plot_model(birch, plot = 'tsne')

In [None]:
plot_model(birch, plot = 'distribution')

In [None]:
plot_model(birch, plot = 'distribution', feature = 'year_initial_diagnosis')

In [None]:
birch_results = assign_model(birch)
birch_results
birch_results.groupby("Cluster").describe()

In [None]:
for i in range(4):
    cluster = 'Cluster '+ str(i)
    a=birch_results[birch_results['Cluster']==cluster]
    a.to_csv('birch ' + cluster + '.csv',index=False)