# Proyecto: Análisis de Mamografías y Predicción de Cáncer de Mama


## 1. Introducción
El cáncer de mama es una de las principales causas de muerte entre mujeres en todo el mundo. La detección temprana y el diagnóstico preciso son cruciales para mejorar las tasas de supervivencia.
Este proyecto se centra en el análisis de mamografías para identificar patrones que puedan ayudar a distinguir entre tumores benignos y malignos. Utilizaremos técnicas de análisis estadístico, modelos predictivos y reducción de dimensionalidad para lograr este objetivo.


## 2. Objetivo
Analizar parámetros derivados de mamografías para distinguir entre tumores benignos y malignos.

### Metodología

1. **Análisis Exploratorio de Datos (EDA)**: Visualización y análisis de la distribución de características, correlaciones y patrones en los datos.
2. **Preprocesamiento de Datos**: Limpieza y transformación de los datos para prepararlos para el modelado, incluyendo la normalización y la reducción de dimensionalidad.
3. **Modelado Predictivo**: Implementación de modelos de machine learning para clasificar tumores como benignos o malignos.
4. **Evaluación de Modelos**: Uso de métricas de rendimiento para evaluar la efectividad de los modelos y realizar ajustes según sea necesario.


## 3. Dataset y Carga

El dataset puede ser descargado mediante la siguiente celda de código:

In [None]:
!wget https://raw.githubusercontent.com/iHealthInstitute/Talleres_Diplomado_iHealth/refs/heads/main/data/Mamography_data.csv

## 4. Enunciado

Se busca predecir si un tumor es benigno o maligno a partir de los parámetros derivados de mamografías. El dataset contiene varias características numéricas que describen las propiedades de los tumores, así como una etiqueta que indica si el tumor es benigno o maligno.

En particular, hay 6 variables de interés y una variable objetivo:
- `label`: Variable objetivo (Benign o Malignant).
- Variables predictoras a analizar:
  - `mean texture`
  - `mean radius`
  - `mean fractal dimension`
  - `mean smoothness`
  - `mean compactness`
  - `mean concavity`

---
### Parte 1: Análisis Exploratorio y Estadística Inferencial

1. Carga el dataset y revisa sus dimensiones y tipos de variables. Asegurate de solo trabajar con las 6 variables mencionadas y la variable `diagnosis`.
2. Genera un `pairplot` (o matriz de gráficos) de las variables seleccionadas usando la librería `seaborn`. Usa `diagnosis` como variable de color (`hue`).
3. Verifica la distribución de cada una de las 6 variables por separado (en cada grupo):
   - Aplica el test de normalidad de Shapiro-Wilk por separado en los grupos Benigno y Maligno.
   - ¿Distribuyen normalmente? ¿En qué grupo? ¿En qué variables?
4. Aplica pruebas estadísticas para comparar los grupos:
   - Si se cumple normalidad: Aplica un t-test independiente.
   - Si **no** se cumple normalidad: Aplica una prueba de Mann-Whitney U.
5. Para cada variable, responde:
   - ¿Cuál grupo tiene mayor valor promedio?
   - ¿Es significativa la diferencia?




In [None]:
# <CODE> Librerías


In [None]:
# <CODE> Parte 1


---

### Parte 2: Modelamiento Predictivo

1. Codifica la variable `diagnosis` como 0 = Benigno y 1 = Maligno.
2. Usa las siguientes variables como predictores:
   - `mean texture`
   - `mean radius`
   - `mean fractal dimension`
   - `mean smoothness`
   - `mean compactness`
   - `mean concavity`
3. Normaliza las variables predictoras usando `StandardScaler`.
4. Ajusta un modelo de regresión logística con `statsmodels` y analiza el resumen.
5. Interpreta:
   - ¿Cuáles variables tienen mayor efecto sobre la probabilidad de malignidad?
   - Calcula e interpreta los **odds ratios** (`np.exp()`).
6. Usa el modelo para predecir la probabilidad de malignidad de tres nuevos pacientes:

| Paciente | mean texture | mean radius | mean fractal dimension | mean smoothness | mean compactness | mean concavity |
|----------|--------------|-------------|------------------------|------------------|------------------|----------------|
| A        | 17.0         | 14.0        | 0.055                  | 0.095            | 0.120            | 0.300          |
| B        | 23.0         | 18.0        | 0.285                  | 0.110            | 0.180            | 0.410          |
| C        | 12.0         | 10.0        | 0.040                  | 0.080            | 0.070            | 0.100          |

7. Preguntas:
   - ¿Qué paciente tiene mayor probabilidad de tener un tumor maligno?
   - ¿Cuál clasificarías como benigno con mayor seguridad?
   - ¿Cuál caso parece ambiguo?

> **Nota**: Para clasificar, puedes aplicar un umbral simple: si la probabilidad es mayor a 0.5, se predice como maligno; si es menor o igual a 0.5, se predice como benigno.


In [None]:
# <CODE> Librerías


In [None]:
# <CODE> Parte 2.


---

### 🧮 Parte 3: Análisis de Componentes Principales (PCA)

1. Aplica PCA y normalize utilizando todas las variables predictoras del dataset (no solo las 6 seleccionadas).
2. Reduce la dimensionalidad a 5 y grafica los dos primeros componentes principales.
   - Usa la variable `diagnosis` para colorear los puntos.
   - Grafica la varianza explicada por cada componente.
3. Observa:
   - ¿Los grupos se separan en el espacio de componentes principales?
   - ¿Cuánta varianza explican los primeros 2 componentes?
   - ¿Qué variables tienen mayor peso en cada componente?
4. ¿Podrías usar PCA como paso previo a la regresión? ¿Por qué sí o no?

In [None]:
# <CODE> Librerías


In [None]:
# <CODE> Parte 3
