# Proyecto: An√°lisis de Mamograf√≠as y Predicci√≥n de C√°ncer de Mama


## 1. Introducci√≥n
El c√°ncer de mama es una de las principales causas de muerte entre mujeres en todo el mundo. La detecci√≥n temprana y el diagn√≥stico preciso son cruciales para mejorar las tasas de supervivencia.
Este proyecto se centra en el an√°lisis de mamograf√≠as para identificar patrones que puedan ayudar a distinguir entre tumores benignos y malignos. Utilizaremos t√©cnicas de an√°lisis estad√≠stico, modelos predictivos y reducci√≥n de dimensionalidad para lograr este objetivo.


## 2. Objetivo
Analizar par√°metros derivados de mamograf√≠as para distinguir entre tumores benignos y malignos.

### Metodolog√≠a

1. **An√°lisis Exploratorio de Datos (EDA)**: Visualizaci√≥n y an√°lisis de la distribuci√≥n de caracter√≠sticas, correlaciones y patrones en los datos.
2. **Preprocesamiento de Datos**: Limpieza y transformaci√≥n de los datos para prepararlos para el modelado, incluyendo la normalizaci√≥n y la reducci√≥n de dimensionalidad.
3. **Modelado Predictivo**: Implementaci√≥n de modelos de machine learning para clasificar tumores como benignos o malignos.
4. **Evaluaci√≥n de Modelos**: Uso de m√©tricas de rendimiento para evaluar la efectividad de los modelos y realizar ajustes seg√∫n sea necesario.


## 3. Dataset y Carga

El dataset puede ser descargado mediante la siguiente celda de c√≥digo:

In [None]:
!wget https://raw.githubusercontent.com/iHealthInstitute/Talleres_Diplomado_iHealth/refs/heads/main/data/Mamography_data.csv

## 4. Enunciado

Se busca predecir si un tumor es benigno o maligno a partir de los par√°metros derivados de mamograf√≠as. El dataset contiene varias caracter√≠sticas num√©ricas que describen las propiedades de los tumores, as√≠ como una etiqueta que indica si el tumor es benigno o maligno.

En particular, hay 6 variables de inter√©s y una variable objetivo:
- `label`: Variable objetivo (Benign o Malignant).
- Variables predictoras a analizar:
  - `mean texture`
  - `mean radius`
  - `mean fractal dimension`
  - `mean smoothness`
  - `mean compactness`
  - `mean concavity`

---
### Parte 1: An√°lisis Exploratorio y Estad√≠stica Inferencial

1. Carga el dataset y revisa sus dimensiones y tipos de variables. Asegurate de solo trabajar con las 6 variables mencionadas y la variable `diagnosis`.
2. Genera un `pairplot` (o matriz de gr√°ficos) de las variables seleccionadas usando la librer√≠a `seaborn`. Usa `diagnosis` como variable de color (`hue`).
3. Verifica la distribuci√≥n de cada una de las 6 variables por separado (en cada grupo):
   - Aplica el test de normalidad de Shapiro-Wilk por separado en los grupos Benigno y Maligno.
   - ¬øDistribuyen normalmente? ¬øEn qu√© grupo? ¬øEn qu√© variables?
4. Aplica pruebas estad√≠sticas para comparar los grupos:
   - Si se cumple normalidad: Aplica un t-test independiente.
   - Si **no** se cumple normalidad: Aplica una prueba de Mann-Whitney U.
5. Para cada variable, responde:
   - ¬øCu√°l grupo tiene mayor valor promedio?
   - ¬øEs significativa la diferencia?




In [None]:
# <CODE> Librer√≠as


In [None]:
# <CODE> Parte 1


---

### Parte 2: Modelamiento Predictivo

1. Codifica la variable `diagnosis` como 0 = Benigno y 1 = Maligno.
2. Usa las siguientes variables como predictores:
   - `mean texture`
   - `mean radius`
   - `mean fractal dimension`
   - `mean smoothness`
   - `mean compactness`
   - `mean concavity`
3. Normaliza las variables predictoras usando `StandardScaler`.
4. Ajusta un modelo de regresi√≥n log√≠stica con `statsmodels` y analiza el resumen.
5. Interpreta:
   - ¬øCu√°les variables tienen mayor efecto sobre la probabilidad de malignidad?
   - Calcula e interpreta los **odds ratios** (`np.exp()`).
6. Usa el modelo para predecir la probabilidad de malignidad de tres nuevos pacientes:

| Paciente | mean texture | mean radius | mean fractal dimension | mean smoothness | mean compactness | mean concavity |
|----------|--------------|-------------|------------------------|------------------|------------------|----------------|
| A        | 17.0         | 14.0        | 0.055                  | 0.095            | 0.120            | 0.300          |
| B        | 23.0         | 18.0        | 0.285                  | 0.110            | 0.180            | 0.410          |
| C        | 12.0         | 10.0        | 0.040                  | 0.080            | 0.070            | 0.100          |

7. Preguntas:
   - ¬øQu√© paciente tiene mayor probabilidad de tener un tumor maligno?
   - ¬øCu√°l clasificar√≠as como benigno con mayor seguridad?
   - ¬øCu√°l caso parece ambiguo?

> **Nota**: Para clasificar, puedes aplicar un umbral simple: si la probabilidad es mayor a 0.5, se predice como maligno; si es menor o igual a 0.5, se predice como benigno.


In [None]:
# <CODE> Librer√≠as


In [None]:
# <CODE> Parte 2.


---

### üßÆ Parte 3: An√°lisis de Componentes Principales (PCA)

1. Aplica PCA y normalize utilizando todas las variables predictoras del dataset (no solo las 6 seleccionadas).
2. Reduce la dimensionalidad a 5 y grafica los dos primeros componentes principales.
   - Usa la variable `diagnosis` para colorear los puntos.
   - Grafica la varianza explicada por cada componente.
3. Observa:
   - ¬øLos grupos se separan en el espacio de componentes principales?
   - ¬øCu√°nta varianza explican los primeros 2 componentes?
   - ¬øQu√© variables tienen mayor peso en cada componente?
4. ¬øPodr√≠as usar PCA como paso previo a la regresi√≥n? ¬øPor qu√© s√≠ o no?

In [None]:
# <CODE> Librer√≠as


In [None]:
# <CODE> Parte 3
