<a href="https://colab.research.google.com/github/financieras/big_data/blob/main/retos/reto_013.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Reto 13. Correlaciones en datos médicos**
- Carga el dataset "Breast Cancer" desde scikit-learn
- Calcula matriz de correlación de las primeras 10 características
- Encuentra qué características están más correlacionadas con 'worst radius'
- Visualiza con heatmap las primeras 10 características

# **Reto 13. Correlaciones en datos médicos**

## **Resolución del Reto 13**
El dataset **Breast Cancer** contiene características computadas a partir de imágenes digitalizadas de biopsias de masas mamarias, describiendo características de los núcleos celulares presentes en las imágenes. Es un dataset clásico para problemas de clasificación binaria (tumor maligno vs benigno).

### **Paso 1: Cargar dataset "Breast Cancer" desde scikit-learn**
Importamos el dataset directamente desde la librería scikit-learn.

```python
# EJECUTA ESTE CÓDIGO PARA CARGAR EL DATASET
from sklearn.datasets import load_breast_cancer
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

print("🔄 Paso 1: Cargando dataset Breast Cancer...")
cancer = load_breast_cancer()
df = pd.DataFrame(cancer.data, columns=cancer.feature_names)
df['target'] = cancer.target

print(f"✅ Dataset cargado - Dimensiones: {df.shape}")
print(f"📊 Características: {len(cancer.feature_names)}")
print(f"🎯 Variable objetivo: {cancer.target_names}")
print(f"🔢 Distribución de clases: {np.bincount(cancer.target)}")
```

### **Paso 2: Calcular matriz de correlación de las primeras 10 características**
Seleccionamos las primeras 10 características para calcular sus correlaciones.

```python
# EJECUTA ESTE CÓDIGO PARA CALCULAR CORRELACIONES
print("📈 Paso 2: Calculando matriz de correlación...")

# Seleccionar primeras 10 características
primeras_10 = df.iloc[:, :10]
matriz_correlacion = primeras_10.corr()

print("✅ Matriz de correlación calculada")
print(f"📐 Dimensiones de la matriz: {matriz_correlacion.shape}")
print("\n🔍 Primeras 5 filas de la matriz:")
print(matriz_correlacion.head().round(3))
```

### **Paso 3: Encontrar qué características están más correlacionadas con 'worst radius'**
Analizamos las correlaciones con la característica 'worst radius' para identificar relaciones importantes.

```python
# EJECUTA ESTE CÓDIGO PARA ANALIZAR CORRELACIONES CON 'WORST RADIUS'
print("🎯 Paso 3: Analizando correlaciones con 'worst radius'...")

# Buscar la columna que contiene 'worst radius' en el dataset completo
worst_radius_col = [col for col in df.columns if 'worst radius' in col][0]
print(f"🔎 Característica analizada: {worst_radius_col}")

# Calcular correlaciones con todas las características
correlaciones_worst_radius = df.corr()[worst_radius_col].sort_values(ascending=False)

print(f"\n📊 Top 10 características más correlacionadas con {worst_radius_col}:")
for i, (caracteristica, correlacion) in enumerate(correlaciones_worst_radius.head(10).items()):
    print(f"  {i+1:2d}. {caracteristica:<25} : {correlacion:.3f}")

print(f"\n📉 Top 10 características menos correlacionadas con {worst_radius_col}:")
for i, (caracteristica, correlacion) in enumerate(correlaciones_worst_radius.tail(10).items()):
    print(f"  {i+1:2d}. {caracteristica:<25} : {correlacion:.3f}")
```

### **Paso 4: Visualizar con heatmap las primeras 10 características**
Creamos una visualización clara de las correlaciones entre las primeras 10 características.

```python
# EJECUTA ESTE CÓDIGO PARA CREAR EL HEATMAP
print("🎨 Paso 4: Creando heatmap de correlaciones...")

plt.figure(figsize=(12, 10))

# Crear máscara para el triángulo superior
mask = np.triu(np.ones_like(matriz_correlacion, dtype=bool))

# Crear heatmap
heatmap = sns.heatmap(matriz_correlacion,
                      mask=mask,
                      annot=True,
                      fmt='.2f',
                      cmap='RdBu_r',
                      center=0,
                      square=True,
                      cbar_kws={'shrink': 0.8})

plt.title('🔥 Heatmap de Correlación - Primeras 10 Características\\n(Dataset Breast Cancer)',
          fontsize=16, fontweight='bold', pad=20)
plt.xticks(rotation=45, ha='right')
plt.yticks(rotation=0)
plt.tight_layout()
plt.show()

print("✅ Heatmap generado correctamente")
```

### **Paso 5: Análisis adicional - Correlaciones con la variable objetivo**
Exploramos qué características están más relacionadas con el diagnóstico (variable objetivo).

```python
# EJECUTA ESTE CÓDIGO PARA ANÁLISIS ADICIONAL
print("🔬 Paso 5: Analizando correlaciones con la variable objetivo...")

correlaciones_target = df.corr()['target'].sort_values(ascending=False)

print("📊 Características más correlacionadas con el diagnóstico (target):")
print("=" * 60)
for i, (caracteristica, correlacion) in enumerate(correlaciones_target.items()):
    if caracteristica != 'target':
        simbolo = "🟢" if correlacion > 0.5 else "🟡" if correlacion > 0.3 else "🔴" if correlacion > 0.1 else "⚫"
        print(f"{simbolo} {caracteristica:<30} : {correlacion:7.3f}")

# Identificar características más relevantes
caracteristicas_fuertes = correlaciones_target[(correlaciones_target.abs() > 0.5) & (correlaciones_target.index != 'target')]
print(f"\n💪 Características con correlación fuerte (|r| > 0.5): {len(caracteristicas_fuertes)}")
```

## **🎯 Puntos clave del Reto 13**

### **Hallazgos principales:**
1. **Alta correlación entre características**: Las medidas de radio, perímetro y área suelen estar altamente correlacionadas
2. **'Worst radius'**: Está fuertemente correlacionado con otras medidas de tamaño tumoral
3. **Patrones esperados**: Características de textura y suavidad muestran diferentes patrones de correlación

### **Competencias técnicas adquiridas:**
1. **Carga de datasets desde scikit-learn**: Uso de `load_breast_cancer()`
2. **Cálculo de matrices de correlación**: Uso de `.corr()` en DataFrames de pandas
3. **Análisis de correlaciones específicas**: Identificación de relaciones entre variables
4. **Visualización con heatmaps**: Creación de mapas de calor con seaborn para análisis exploratorio
5. **Interpretación de correlaciones**: Comprensión de relaciones lineales entre variables médicas

### **Aplicación práctica:**
Este análisis ayuda a identificar qué características podrían ser más relevantes para modelos predictivos de diagnóstico de cáncer de mama, permitiendo una selección más inteligente de variables para algoritmos de machine learning.

---

**🎉 ¡Reto 13 completado! Dominamos el análisis de correlaciones en datos médicos**