<a href="https://colab.research.google.com/github/financieras/big_data/blob/main/retos/reto_013.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Reto 13. Correlaciones en datos m√©dicos**
- Carga el dataset "Breast Cancer" desde scikit-learn
- Calcula matriz de correlaci√≥n de las primeras 10 caracter√≠sticas
- Encuentra qu√© caracter√≠sticas est√°n m√°s correlacionadas con 'worst radius'
- Visualiza con heatmap las primeras 10 caracter√≠sticas

# **Reto 13. Correlaciones en datos m√©dicos**

## **Resoluci√≥n del Reto 13**
El dataset **Breast Cancer** contiene caracter√≠sticas computadas a partir de im√°genes digitalizadas de biopsias de masas mamarias, describiendo caracter√≠sticas de los n√∫cleos celulares presentes en las im√°genes. Es un dataset cl√°sico para problemas de clasificaci√≥n binaria (tumor maligno vs benigno).

### **Paso 1: Cargar dataset "Breast Cancer" desde scikit-learn**
Importamos el dataset directamente desde la librer√≠a scikit-learn.

```python
# EJECUTA ESTE C√ìDIGO PARA CARGAR EL DATASET
from sklearn.datasets import load_breast_cancer
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

print("üîÑ Paso 1: Cargando dataset Breast Cancer...")
cancer = load_breast_cancer()
df = pd.DataFrame(cancer.data, columns=cancer.feature_names)
df['target'] = cancer.target

print(f"‚úÖ Dataset cargado - Dimensiones: {df.shape}")
print(f"üìä Caracter√≠sticas: {len(cancer.feature_names)}")
print(f"üéØ Variable objetivo: {cancer.target_names}")
print(f"üî¢ Distribuci√≥n de clases: {np.bincount(cancer.target)}")
```

### **Paso 2: Calcular matriz de correlaci√≥n de las primeras 10 caracter√≠sticas**
Seleccionamos las primeras 10 caracter√≠sticas para calcular sus correlaciones.

```python
# EJECUTA ESTE C√ìDIGO PARA CALCULAR CORRELACIONES
print("üìà Paso 2: Calculando matriz de correlaci√≥n...")

# Seleccionar primeras 10 caracter√≠sticas
primeras_10 = df.iloc[:, :10]
matriz_correlacion = primeras_10.corr()

print("‚úÖ Matriz de correlaci√≥n calculada")
print(f"üìê Dimensiones de la matriz: {matriz_correlacion.shape}")
print("\nüîç Primeras 5 filas de la matriz:")
print(matriz_correlacion.head().round(3))
```

### **Paso 3: Encontrar qu√© caracter√≠sticas est√°n m√°s correlacionadas con 'worst radius'**
Analizamos las correlaciones con la caracter√≠stica 'worst radius' para identificar relaciones importantes.

```python
# EJECUTA ESTE C√ìDIGO PARA ANALIZAR CORRELACIONES CON 'WORST RADIUS'
print("üéØ Paso 3: Analizando correlaciones con 'worst radius'...")

# Buscar la columna que contiene 'worst radius' en el dataset completo
worst_radius_col = [col for col in df.columns if 'worst radius' in col][0]
print(f"üîé Caracter√≠stica analizada: {worst_radius_col}")

# Calcular correlaciones con todas las caracter√≠sticas
correlaciones_worst_radius = df.corr()[worst_radius_col].sort_values(ascending=False)

print(f"\nüìä Top 10 caracter√≠sticas m√°s correlacionadas con {worst_radius_col}:")
for i, (caracteristica, correlacion) in enumerate(correlaciones_worst_radius.head(10).items()):
    print(f"  {i+1:2d}. {caracteristica:<25} : {correlacion:.3f}")

print(f"\nüìâ Top 10 caracter√≠sticas menos correlacionadas con {worst_radius_col}:")
for i, (caracteristica, correlacion) in enumerate(correlaciones_worst_radius.tail(10).items()):
    print(f"  {i+1:2d}. {caracteristica:<25} : {correlacion:.3f}")
```

### **Paso 4: Visualizar con heatmap las primeras 10 caracter√≠sticas**
Creamos una visualizaci√≥n clara de las correlaciones entre las primeras 10 caracter√≠sticas.

```python
# EJECUTA ESTE C√ìDIGO PARA CREAR EL HEATMAP
print("üé® Paso 4: Creando heatmap de correlaciones...")

plt.figure(figsize=(12, 10))

# Crear m√°scara para el tri√°ngulo superior
mask = np.triu(np.ones_like(matriz_correlacion, dtype=bool))

# Crear heatmap
heatmap = sns.heatmap(matriz_correlacion,
                      mask=mask,
                      annot=True,
                      fmt='.2f',
                      cmap='RdBu_r',
                      center=0,
                      square=True,
                      cbar_kws={'shrink': 0.8})

plt.title('üî• Heatmap de Correlaci√≥n - Primeras 10 Caracter√≠sticas\\n(Dataset Breast Cancer)',
          fontsize=16, fontweight='bold', pad=20)
plt.xticks(rotation=45, ha='right')
plt.yticks(rotation=0)
plt.tight_layout()
plt.show()

print("‚úÖ Heatmap generado correctamente")
```

### **Paso 5: An√°lisis adicional - Correlaciones con la variable objetivo**
Exploramos qu√© caracter√≠sticas est√°n m√°s relacionadas con el diagn√≥stico (variable objetivo).

```python
# EJECUTA ESTE C√ìDIGO PARA AN√ÅLISIS ADICIONAL
print("üî¨ Paso 5: Analizando correlaciones con la variable objetivo...")

correlaciones_target = df.corr()['target'].sort_values(ascending=False)

print("üìä Caracter√≠sticas m√°s correlacionadas con el diagn√≥stico (target):")
print("=" * 60)
for i, (caracteristica, correlacion) in enumerate(correlaciones_target.items()):
    if caracteristica != 'target':
        simbolo = "üü¢" if correlacion > 0.5 else "üü°" if correlacion > 0.3 else "üî¥" if correlacion > 0.1 else "‚ö´"
        print(f"{simbolo} {caracteristica:<30} : {correlacion:7.3f}")

# Identificar caracter√≠sticas m√°s relevantes
caracteristicas_fuertes = correlaciones_target[(correlaciones_target.abs() > 0.5) & (correlaciones_target.index != 'target')]
print(f"\nüí™ Caracter√≠sticas con correlaci√≥n fuerte (|r| > 0.5): {len(caracteristicas_fuertes)}")
```

## **üéØ Puntos clave del Reto 13**

### **Hallazgos principales:**
1. **Alta correlaci√≥n entre caracter√≠sticas**: Las medidas de radio, per√≠metro y √°rea suelen estar altamente correlacionadas
2. **'Worst radius'**: Est√° fuertemente correlacionado con otras medidas de tama√±o tumoral
3. **Patrones esperados**: Caracter√≠sticas de textura y suavidad muestran diferentes patrones de correlaci√≥n

### **Competencias t√©cnicas adquiridas:**
1. **Carga de datasets desde scikit-learn**: Uso de `load_breast_cancer()`
2. **C√°lculo de matrices de correlaci√≥n**: Uso de `.corr()` en DataFrames de pandas
3. **An√°lisis de correlaciones espec√≠ficas**: Identificaci√≥n de relaciones entre variables
4. **Visualizaci√≥n con heatmaps**: Creaci√≥n de mapas de calor con seaborn para an√°lisis exploratorio
5. **Interpretaci√≥n de correlaciones**: Comprensi√≥n de relaciones lineales entre variables m√©dicas

### **Aplicaci√≥n pr√°ctica:**
Este an√°lisis ayuda a identificar qu√© caracter√≠sticas podr√≠an ser m√°s relevantes para modelos predictivos de diagn√≥stico de c√°ncer de mama, permitiendo una selecci√≥n m√°s inteligente de variables para algoritmos de machine learning.

---

**üéâ ¬°Reto 13 completado! Dominamos el an√°lisis de correlaciones en datos m√©dicos**