<a href="https://colab.research.google.com/github/financieras/big_data/blob/main/retos/reto_011.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

### **Reto 11. Dataset "Breast Cancer" desde scikit-learn**
```python
from sklearn.datasets import load_breast_cancer
import pandas as pd

data = load_breast_cancer()
df = pd.DataFrame(data.data, columns=data.feature_names)
df['target'] = data.target
df['diagnosis'] = df['target'].map({0: 'malignant', 1: 'benign'})
```
- Explora dimensiones con `.shape`
- Verifica balance entre clases con `.value_counts()`
- Calcula porcentaje de cada diagn√≥stico

# **Resoluci√≥n del Reto 11**

- El dataset **Breast Cancer Wisconsin** es uno de los conjuntos de datos m√°s utilizados en problemas de clasificaci√≥n binaria en machine learning.
- Contiene caracter√≠sticas computadas a partir de im√°genes digitalizadas de masas mamarias, donde el objetivo es clasificar tumores como malignos (0) o benignos (1).

## **Paso 1: Importar librer√≠as y cargar dataset**

Cargamos el dataset directamente desde scikit-learn, que nos proporciona un conjunto de datos limpio y bien estructurado para an√°lisis.

In [1]:
# EJECUTA ESTE C√ìDIGO PARA CARGAR EL DATASET
print("üîÑ Paso 1: Cargando dataset Breast Cancer desde scikit-learn...")
from sklearn.datasets import load_breast_cancer
import pandas as pd

data = load_breast_cancer()
df = pd.DataFrame(data.data, columns=data.feature_names)
df['target'] = data.target
df['diagnosis'] = df['target'].map({0: 'malignant', 1: 'benign'})
print("‚úÖ Dataset cargado correctamente")

üîÑ Paso 1: Cargando dataset Breast Cancer desde scikit-learn...
‚úÖ Dataset cargado correctamente


## **Paso 2: Explorar dimensiones con `.shape`**

Verificamos el tama√±o del dataset para entender su escala.

In [None]:
# EJECUTA ESTE C√ìDIGO PARA VER DIMENSIONES
print("üìê Paso 2: Explorando dimensiones del dataset...")
print(f"Dimensiones del dataset: {df.shape}")
print(f"- N√∫mero de registros: {df.shape[0]} pacientes")
print(f"- N√∫mero de caracter√≠sticas: {df.shape[1]} columnas")

## **Paso 3: Verificar balance entre clases con `.value_counts()`**

Analizamos la distribuci√≥n de las clases objetivo para entender si el dataset est√° balanceado.

In [None]:
# EJECUTA ESTE C√ìDIGO PARA VER DISTRIBUCI√ìN DE CLASES
print("‚öñÔ∏è Paso 3: Verificando balance entre clases...")
distribucion = df['diagnosis'].value_counts()
print("Distribuci√≥n de diagn√≥sticos:")
print(distribucion)

## **Paso 4: Calcular porcentaje de cada diagn√≥stico**

Convertimos la distribuci√≥n absoluta a porcentajes para una mejor interpretaci√≥n.

In [None]:
# EJECUTA ESTE C√ìDIGO PARA CALCULAR PORCENTAJES
print("üìä Paso 4: Calculando porcentajes de cada diagn√≥stico...")
porcentajes = df['diagnosis'].value_counts(normalize=True) * 100
print("Porcentaje de cada diagn√≥stico:")
print(porcentajes.round(2))

## **Paso 5: An√°lisis completo del dataset**

Realizamos un an√°lisis m√°s detallado que integra todos los aspectos anteriores.

In [None]:
# EJECUTA ESTE C√ìDIGO PARA AN√ÅLISIS COMPLETO
print("üîç Paso 5: An√°lisis completo del dataset Breast Cancer...")

# Dimensiones
print(f"üìê Dimensiones: {df.shape[0]} pacientes √ó {df.shape[1]} caracter√≠sticas")

# Distribuci√≥n de clases
dist_target = df['target'].value_counts().sort_index()
dist_diagnosis = df['diagnosis'].value_counts()

print(f"üéØ Distribuci√≥n por target (num√©rico):")
print(f"   - 0 (malignant): {dist_target[0]} casos")
print(f"   - 1 (benign): {dist_target[1]} casos")

print(f"üè• Distribuci√≥n por diagn√≥stico:")
for diagnosis, count in dist_diagnosis.items():
    percentage = (count / len(df)) * 100
    print(f"   - {diagnosis}: {count} casos ({percentage:.1f}%)")

# Informaci√≥n sobre balance
total_casos = len(df)
diferencia = abs(dist_target[0] - dist_target[1])
print(f"‚öñÔ∏è Balance del dataset: {diferencia} casos de diferencia")
print(f"üìà El dataset est√° {'balanceado' if diferencia/total_casos < 0.1 else 'desbalanceado'}")

## **Paso 6: Informaci√≥n adicional del dataset**

Obtenemos metadatos importantes proporcionados por scikit-learn.

In [None]:
# EJECUTA ESTE C√ìDIGO PARA INFORMACI√ìN ADICIONAL
print("üìã Paso 6: Informaci√≥n adicional del dataset...")
print(f"Nombre del dataset: {data.DESCR.splitlines()[0]}")
print(f"Caracter√≠sticas disponibles: {len(data.feature_names)}")
print(f"Clases: {data.target_names}")
print(f"Descripci√≥n breve: {data.DESCR.split('Usage')[0][:200]}...")

## **üéØ Puntos clave del Reto 11**

Hemos explorado exitosamente el dataset Breast Cancer de Wisconsin, comprendiendo su estructura y distribuci√≥n fundamental para problemas de clasificaci√≥n m√©dica.

### **Hallazgos principales:**
- **Dataset balanceado**: Aproximadamente 63% benigno vs 37% maligno
- **Caracter√≠sticas robustas**: 30 caracter√≠sticas num√©ricas derivadas de im√°genes
- **Contexto m√©dico**: Clasificaci√≥n binaria cr√≠tica para diagn√≥stico temprano de c√°ncer

### **Competencias t√©cnicas adquiridas:**
1. **Carga desde scikit-learn**: Uso de `load_breast_cancer()` para datasets preprocesados
2. **Manipulaci√≥n de DataFrames**: Conversi√≥n de arrays numpy a pandas DataFrame
3. **An√°lisis de distribuci√≥n**: Uso de `.value_counts()` y normalizaci√≥n para porcentajes
4. **Evaluaci√≥n de balance**: Determinaci√≥n del equilibrio entre clases
5. **Interpretaci√≥n m√©dica**: Contextualizaci√≥n de resultados en dominio espec√≠fico

### **Pr√≥ximos pasos:**
Este dataset es ideal para practicar t√©cnicas de clasificaci√≥n, feature engineering y evaluaci√≥n de modelos en el contexto de diagn√≥stico m√©dico asistido por machine learning.