# **Implementación de Modelos de Machine Learning para Análisis de Datos en Pacientes con Cáncer de Mama**

## **Introducción**
En la actualidad, el Machine Learning (ML) juega un papel fundamental en la medicina, permitiendo el análisis de grandes volúmenes de datos clínicos y biomédicos para mejorar el diagnóstico, la predicción y el tratamiento de diversas enfermedades. Este proyecto tiene como objetivo desarrollar e implementar modelos de aprendizaje automático para extraer conocimiento relevante a partir de datos biomédicos, garantizando un enfoque riguroso en la selección de variables, la interpretación de resultados y la aplicabilidad clínica.

A lo largo de este estudio, se explorarán diferentes técnicas de ML. Además, se analizará la importancia de la explicabilidad de los modelos y su impacto en la toma de decisiones clínicas.

Este proyecto busca proporcionar una guía detallada sobre el desarrollo de modelos de ML en el ámbito de la salud, abordando desde la exploración de datos hasta la evaluación de desempeño con métricas relevantes en la práctica clínica. A través de este enfoque, se pretende contribuir a la integración efectiva de la inteligencia artificial en la medicina personalizada y la oncología de precisión.


# **1. Exploración y Preprocesamiento de Datos (EDA)**
---

El dataset **METABRIC** (Molecular Taxonomy of Breast Cancer International Consortium) es una de las bases de datos más relevantes en la investigación del cáncer de mama. Contiene información clínica y genómica de más de 2500 pacientes, proporcionando un recurso valioso para el desarrollo de modelos de predicción y clasificación de subtipos tumorales. Sin embargo, como en cualquier conjunto de datos biomédicos, es esencial realizar un análisis exploratorio y un preprocesamiento adecuado antes de aplicar técnicas de Machine Learning.

En esta sección, se llevará a cabo una evaluación detallada del dataset METABRIC con el fin de:
- Identificar valores faltantes y definir estrategias para su manejo.
- Analizar la distribución de variables clínicas.
- Detectar posibles sesgos en la información y evaluar la necesidad de balancear las clases.
- Aplicar técnicas de preprocesamiento como normalización, estandarización y reducción de dimensionalidad.

El objetivo final de esta etapa es garantizar que los datos sean de alta calidad y adecuados para la construcción de modelos predictivos en el contexto del cáncer de mama, permitiendo mejorar la precisión y la interpretabilidad de los resultados en oncología de precisión.


 ## **1.1. Primer Vistazo a los Datos**.
 - **Creación del DataFrame**
- **Exploración de las primeras filas**
- **Revisión de la información general del dataset** (breve descripción)
- **Obtener estadística descriptiva** (breve descripción)


In [435]:
import matplotlib.pyplot as plt
import pandas as pd
import seaborn as sns
from sklearn.neighbors import KNeighborsClassifier

In [436]:
df = pd.read_csv("../Data/raw/Breast_Cancer_METABRIC_.csv")

In [437]:
df.head(3);

In [438]:
df.columns;

In [439]:
df.info();

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2509 entries, 0 to 2508
Data columns (total 34 columns):
 #   Column                          Non-Null Count  Dtype  
---  ------                          --------------  -----  
 0   Patient ID                      2509 non-null   object 
 1   Age at Diagnosis                2498 non-null   float64
 2   Type of Breast Surgery          1955 non-null   object 
 3   Cancer Type                     2509 non-null   object 
 4   Cancer Type Detailed            2509 non-null   object 
 5   Cellularity                     1917 non-null   object 
 6   Chemotherapy                    1980 non-null   object 
 7   Pam50 + Claudin-low subtype     1980 non-null   object 
 8   Cohort                          2498 non-null   float64
 9   ER status measured by IHC       2426 non-null   object 
 10  ER Status                       2469 non-null   object 
 11  Neoplasm Histologic Grade       2388 non-null   float64
 12  HER2 status measured by SNP6    19

**Observaciones Iniciales**
1. **Datos Faltantes**: Varias columnas tienen una cantidad significativa de valores nulos, lo que requerirá estrategias de imputación o eliminación.
2. **Variables Mixtas**: Combinación de datos numéricos (ej.: edad, tamaño del tumor) y categóricos (ej.: tipo de cáncer, estado hormonal).
3. **Potencial para Análisis**: Las columnas relacionadas con supervivencia y tratamiento permitirán análisis predictivos o de correlación.

In [440]:
df.describe()

Unnamed: 0,Age at Diagnosis,Cohort,Neoplasm Histologic Grade,Lymph nodes examined positive,Mutation Count,Nottingham prognostic index,Overall Survival (Months),Relapse Free Status (Months),Tumor Size,Tumor Stage
count,2498.0,2498.0,2388.0,2243.0,2357.0,2287.0,1981.0,2388.0,2360.0,1788.0
mean,60.4203,2.90032,2.41206,1.950513,5.578702,4.028787,125.244271,108.842487,26.220093,1.713647
std,13.032997,1.962216,0.649363,4.017774,3.967967,1.189092,76.111772,76.519494,15.370883,0.655307
min,21.93,1.0,1.0,0.0,1.0,1.0,0.0,0.0,1.0,0.0
25%,50.92,1.0,2.0,0.0,3.0,3.048,60.866667,40.56,17.0,1.0
50%,61.11,3.0,3.0,0.0,5.0,4.044,116.466667,99.095,22.41,2.0
75%,70.0,4.0,3.0,2.0,7.0,5.04,185.133333,167.64,30.0,2.0
max,96.29,9.0,3.0,45.0,80.0,7.2,355.2,384.21,182.0,4.0


**Observaciones Estadísticos Iniciales**
- Distribución de la edad al diagnóstico: La mediana es 61.1 años, lo que indica una distribución relativamente simétrica.
- Valores extremos en los ganglios ya que la mediana es 0 pero los el valor max es 45.
- La mediana de Nothingame index indica 4 que son cancer de riesgo intermedio o de alto riesgo y los maximos están en 7.
- En cuanto al overall survival en meses, la media está en torno a los 10 años y el maximo 29 años, el mínimo debe ser un error o que el paciente dejó muy rápido el estudio.
- Etapas tumorales parecen concetrarse entre 1 y 2.