<a href="https://colab.research.google.com/github/financieras/big_data/blob/main/retos/reto_011.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

### **Reto 11. Dataset "Breast Cancer" desde scikit-learn**
```python
from sklearn.datasets import load_breast_cancer
import pandas as pd

data = load_breast_cancer()
df = pd.DataFrame(data.data, columns=data.feature_names)
df['target'] = data.target
df['diagnosis'] = df['target'].map({0: 'malignant', 1: 'benign'})
```
- Explora dimensiones con `.shape`
- Verifica balance entre clases con `.value_counts()`
- Calcula porcentaje de cada diagnóstico

# **Resolución del Reto 11**

- El dataset **Breast Cancer Wisconsin** es uno de los conjuntos de datos más utilizados en problemas de clasificación binaria en machine learning.
- Contiene características computadas a partir de imágenes digitalizadas de masas mamarias, donde el objetivo es clasificar tumores como malignos (0) o benignos (1).

## **Paso 1: Importar librerías y cargar dataset**

Cargamos el dataset directamente desde scikit-learn, que nos proporciona un conjunto de datos limpio y bien estructurado para análisis.

In [1]:
# EJECUTA ESTE CÓDIGO PARA CARGAR EL DATASET
print("🔄 Paso 1: Cargando dataset Breast Cancer desde scikit-learn...")
from sklearn.datasets import load_breast_cancer
import pandas as pd

data = load_breast_cancer()
df = pd.DataFrame(data.data, columns=data.feature_names)
df['target'] = data.target
df['diagnosis'] = df['target'].map({0: 'malignant', 1: 'benign'})
print("✅ Dataset cargado correctamente")

🔄 Paso 1: Cargando dataset Breast Cancer desde scikit-learn...
✅ Dataset cargado correctamente


## **Paso 2: Explorar dimensiones con `.shape`**

Verificamos el tamaño del dataset para entender su escala.

In [None]:
# EJECUTA ESTE CÓDIGO PARA VER DIMENSIONES
print("📐 Paso 2: Explorando dimensiones del dataset...")
print(f"Dimensiones del dataset: {df.shape}")
print(f"- Número de registros: {df.shape[0]} pacientes")
print(f"- Número de características: {df.shape[1]} columnas")

## **Paso 3: Verificar balance entre clases con `.value_counts()`**

Analizamos la distribución de las clases objetivo para entender si el dataset está balanceado.

In [None]:
# EJECUTA ESTE CÓDIGO PARA VER DISTRIBUCIÓN DE CLASES
print("⚖️ Paso 3: Verificando balance entre clases...")
distribucion = df['diagnosis'].value_counts()
print("Distribución de diagnósticos:")
print(distribucion)

## **Paso 4: Calcular porcentaje de cada diagnóstico**

Convertimos la distribución absoluta a porcentajes para una mejor interpretación.

In [None]:
# EJECUTA ESTE CÓDIGO PARA CALCULAR PORCENTAJES
print("📊 Paso 4: Calculando porcentajes de cada diagnóstico...")
porcentajes = df['diagnosis'].value_counts(normalize=True) * 100
print("Porcentaje de cada diagnóstico:")
print(porcentajes.round(2))

## **Paso 5: Análisis completo del dataset**

Realizamos un análisis más detallado que integra todos los aspectos anteriores.

In [None]:
# EJECUTA ESTE CÓDIGO PARA ANÁLISIS COMPLETO
print("🔍 Paso 5: Análisis completo del dataset Breast Cancer...")

# Dimensiones
print(f"📐 Dimensiones: {df.shape[0]} pacientes × {df.shape[1]} características")

# Distribución de clases
dist_target = df['target'].value_counts().sort_index()
dist_diagnosis = df['diagnosis'].value_counts()

print(f"🎯 Distribución por target (numérico):")
print(f"   - 0 (malignant): {dist_target[0]} casos")
print(f"   - 1 (benign): {dist_target[1]} casos")

print(f"🏥 Distribución por diagnóstico:")
for diagnosis, count in dist_diagnosis.items():
    percentage = (count / len(df)) * 100
    print(f"   - {diagnosis}: {count} casos ({percentage:.1f}%)")

# Información sobre balance
total_casos = len(df)
diferencia = abs(dist_target[0] - dist_target[1])
print(f"⚖️ Balance del dataset: {diferencia} casos de diferencia")
print(f"📈 El dataset está {'balanceado' if diferencia/total_casos < 0.1 else 'desbalanceado'}")

## **Paso 6: Información adicional del dataset**

Obtenemos metadatos importantes proporcionados por scikit-learn.

In [None]:
# EJECUTA ESTE CÓDIGO PARA INFORMACIÓN ADICIONAL
print("📋 Paso 6: Información adicional del dataset...")
print(f"Nombre del dataset: {data.DESCR.splitlines()[0]}")
print(f"Características disponibles: {len(data.feature_names)}")
print(f"Clases: {data.target_names}")
print(f"Descripción breve: {data.DESCR.split('Usage')[0][:200]}...")

## **🎯 Puntos clave del Reto 11**

Hemos explorado exitosamente el dataset Breast Cancer de Wisconsin, comprendiendo su estructura y distribución fundamental para problemas de clasificación médica.

### **Hallazgos principales:**
- **Dataset balanceado**: Aproximadamente 63% benigno vs 37% maligno
- **Características robustas**: 30 características numéricas derivadas de imágenes
- **Contexto médico**: Clasificación binaria crítica para diagnóstico temprano de cáncer

### **Competencias técnicas adquiridas:**
1. **Carga desde scikit-learn**: Uso de `load_breast_cancer()` para datasets preprocesados
2. **Manipulación de DataFrames**: Conversión de arrays numpy a pandas DataFrame
3. **Análisis de distribución**: Uso de `.value_counts()` y normalización para porcentajes
4. **Evaluación de balance**: Determinación del equilibrio entre clases
5. **Interpretación médica**: Contextualización de resultados en dominio específico

### **Próximos pasos:**
Este dataset es ideal para practicar técnicas de clasificación, feature engineering y evaluación de modelos en el contexto de diagnóstico médico asistido por machine learning.