## Tarea: Implementaci√≥n de un Perceptr√≥n para Clasificaci√≥n Binaria

### Objetivo
Desarrollar un perceptr√≥n multicapa con una capa oculta para resolver un problema de clasificaci√≥n binaria. Este ejercicio tiene como finalidad aplicar los conceptos clave de redes neuronales: funciones de activaci√≥n, propagaci√≥n hacia adelante, c√°lculo de error y ajuste de pesos mediante retropropagaci√≥n, utilizando la biblioteca `scikit-learn`.

### Instrucciones
- Utiliza el conjunto de datos **Breast Cancer Wisconsin** disponible en el siguiente enlace: https://raw.githubusercontent.com/marsgr6/rna-online/refs/heads/main/data/breast_cancer.csv
- Implementa un modelo de perceptr√≥n con al menos una capa oculta.
- Entrena el modelo con un conjunto de entrenamiento y eval√∫alo en un conjunto de prueba.
- Visualiza la matriz de confusi√≥n y reporta las m√©tricas de desempe√±o (precisi√≥n, recall, F1-score).
- Comenta brevemente los resultados obtenidos.

**Tiempo estimado:** 2 horas

### Dataset

El dataset **Breast Cancer Wisconsin**, disponible en `sklearn.datasets`, contiene datos cl√≠nicos utilizados para diagnosticar tumores mamarios como **malignos** o **benignos**, a partir de caracter√≠sticas extra√≠das de im√°genes digitales de c√©lulas obtenidas por aspiraci√≥n con aguja fina (FNA).

### üîç Descripci√≥n de las variables

El dataset tiene **30 variables num√©ricas** (todas ya preprocesadas), agrupadas en **10 atributos b√°sicos** calculados para **tres estad√≠sticos**: *media*, *desviaci√≥n est√°ndar* y *valor peor* ("worst" o m√°ximo).

Aqu√≠ est√°n los atributos y su agrupaci√≥n:

| Categor√≠a             | Variable base       | Estad√≠sticos disponibles |
| --------------------- | ------------------- | ------------------------ |
| 1. Tama√±o del n√∫cleo  | `radius`            | mean, se, worst          |
| 2. Textura            | `texture`           | mean, se, worst          |
| 3. Per√≠metro          | `perimeter`         | mean, se, worst          |
| 4. √Årea               | `area`              | mean, se, worst          |
| 5. Suavidad           | `smoothness`        | mean, se, worst          |
| 6. Compacidad         | `compactness`       | mean, se, worst          |
| 7. Concavidad         | `concavity`         | mean, se, worst          |
| 8. Puntos c√≥ncavos    | `concave points`    | mean, se, worst          |
| 9. Simetr√≠a           | `symmetry`          | mean, se, worst          |
| 10. Dimensi√≥n fractal | `fractal dimension` | mean, se, worst          |

Estas variables permiten evaluar la forma, tama√±o y consistencia del n√∫cleo celular para predecir si un tumor es cancer√≠geno.

### üß™ Variable objetivo

* `target`:

  * 0 ‚Üí **maligno** (malignant)
  * 1 ‚Üí **benigno** (benign)

## üß† **Opci√≥n 1 - Low Code:** Clasificaci√≥n binaria con MLPClassifier

En esta tarea trabajar√°s con un conjunto de datos de c√°ncer de mama y aplicar√°s una red neuronal multicapa (MLP) para clasificar los diagn√≥sticos como **benignos o malignos**. Solo necesitar√°s modificar algunas partes espec√≠ficas del c√≥digo indicadas con `# üëà CAMBIA AQU√ç`.


#### üìå 1. Cargar los datos y explorar la variable objetivo

```python
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

# Leer el archivo CSV desde GitHub
df = pd.read_csv("https://raw.githubusercontent.com/marsgr6/rna-online/refs/heads/main/data/breast_cancer.csv")

# Visualizar frecuencias de la variable objetivo
plt.figure(figsize=(8, 6))
ax = sns.countplot(
    data=df,
    x="columna_a_modelar",   # üëà CAMBIA AQU√ç, columna_a_modelar por el nombre de la columna a modelar
    hue="columna_a_modelar", # üëà CAMBIA AQU√ç, columna_a_modelar por el nombre de la columna a modelar
    palette={'maligno': 'tomato', 'benigno': 'steelblue'}
)
for container in ax.containers:
    ax.bar_label(container, label_type='edge', padding=2)
plt.title("Distribuci√≥n de la variable objetivo")
plt.xlabel("Clase")
plt.ylabel("Frecuencia")
plt.tight_layout()
````


#### üîç 2. Visualizaci√≥n por pares de algunas variables num√©ricas

```python
# Seleccionar algunas variables num√©ricas (puedes cambiar)
features = ['mean radius', 'mean texture', 'mean perimeter', 'mean area', 'mean smoothness']  # üëà CAMBIA AQU√ç si deseas otras variables

# Pairplot para explorar relaciones entre variables
sns.pairplot(data=df[features + ['target']], hue='target', palette={'maligno': 'tomato', 'benigno': 'steelblue'})
plt.suptitle("Visualizaci√≥n por pares de variables", y=1.02)
```


#### üß™ 3. Separar conjunto de entrenamiento y prueba

```python
from sklearn.model_selection import train_test_split

# Definir variables X e y
X = df.drop(columns=['target'])  
y = df['target'] 

# Separar datos (ej. 70% entrenamiento, 30% prueba)
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.3, stratify=y, random_state=42  # üëà CAMBIA AQU√ç el porcentaje si deseas
)
```


#### ‚öôÔ∏è 4. Escalar los datos

```python
from sklearn.preprocessing import StandardScaler

# Normalizar caracter√≠sticas num√©ricas
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(datos_de_entrenamiento)  # üëà CAMBIA AQU√ç datos_de_entrenamiento, usa X_train
X_test_scaled = scaler.transform(datos_de_prueba)  # üëà CAMBIA AQU√ç datos_de_prueba, usa X_test
```


#### ü§ñ 5. Entrenar el modelo MLP

```python
from sklearn.neural_network import MLPClassifier

# Crear y entrenar el modelo
mlp = MLPClassifier(hidden_layer_sizes=(numero_de_nueronas,), max_iter=1000, random_state=42)  # üëà CAMBIA AQU√ç numero_de_nueronas por un valor num√©rico entero 
mlp.fit(X_train_scaled, y_train)
```

#### üìä 6. Evaluaci√≥n del modelo

```python
from sklearn.metrics import classification_report, ConfusionMatrixDisplay

# Realizar predicciones
y_pred = mlp.predict(test_data)  # üëà CAMBIA AQU√ç test_data, usa X_test_scaled

# Reporte de clasificaci√≥n
print("\nReporte de clasificaci√≥n:\n", classification_report(y_test, y_pred))

# Matriz de confusi√≥n
ConfusionMatrixDisplay.from_predictions(
    y_test,
    y_pred,
    display_labels=['Benigno', 'Maligno'], 
    cmap='Blues',
    colorbar=False
)
plt.title("Matriz de confusi√≥n")
plt.grid(False)
plt.tight_layout()
```

#### ‚úÖ Recomendaciones finales

* Comenta cada bloque que modifiques.
* Puedes probar con diferentes:

  * Variables predictoras
  * Porcentajes de partici√≥n
  * Neuronas ocultas
  * Funciones de activaci√≥n (`MLPClassifier(..., activation='relu')`)
 
#### Reflexi√≥n

Comente brevemente los resultados obtenidos: ¬øel modelo clasific√≥ correctamente la mayor√≠a de los casos? ¬øQu√© m√©tricas destacan? ¬øQu√© podr√≠a mejorar en una siguiente iteraci√≥n?
 
## üìù **Opci√≥n 2 - Informe Ejecutivo:** Clasificaci√≥n de Diagn√≥stico de C√°ncer de Mama con MLPClassifier

Elabore un informe, de m√°ximo 3 p√°ginas, describiendo el proceso seguido para entrenar un modelo de red neuronal multicapa (MLP) utilizando datos cl√≠nicos de diagn√≥stico de c√°ncer de mama. El objetivo fue clasificar los tumores como **benignos** o **malignos**, a partir de medidas obtenidas de im√°genes m√©dicas. A continuaci√≥n se detalla el proceso seguido, dividido en seis etapas clave. **Analice cada secci√≥n utilizando las figuras y resultados proporcionados.**


#### 1. Frecuencia de la Variable Objetivo

Describa la distribuci√≥n de las clases `maligno` y `benigno` en el conjunto de datos. Analice si existe desbalance y qu√© implicaciones podr√≠a tener.

<img src="https://raw.githubusercontent.com/marsgr6/r-scripts/refs/heads/master/imgs/ts1_bc_f.png" alt="drawing" width="500"/>

#### 2. Visualizaci√≥n de Variables Num√©ricas

Comente las relaciones visuales entre las variables num√©ricas seleccionadas. ¬øQu√© patrones o separaciones observas entre las clases?

<img src="https://raw.githubusercontent.com/marsgr6/r-scripts/refs/heads/master/imgs/ts1_bc_p.png" alt="drawing" width="900"/>


#### 3. Divisi√≥n de Datos: Entrenamiento y Prueba

Explique c√≥mo se dividi√≥ el conjunto de datos (porcentaje, estratificaci√≥n) y justifique si es adecuado para este tipo de problema.


#### 4. Escalamiento de Variables

Justifique el uso de `StandardScaler`. ¬øQu√© importancia tiene el escalamiento previo al entrenamiento de una red neuronal?


#### 5. Modelado con MLPClassifier

Describa brevemente la arquitectura utilizada (n√∫mero de capas, neuronas, iteraciones) y la funci√≥n del modelo `MLPClassifier`.


#### 6. Evaluaci√≥n del Modelo

**a) Matriz de Confusi√≥n**

Analice el desempe√±o del modelo con base en los valores observados en la matriz de confusi√≥n.

<img src="https://raw.githubusercontent.com/marsgr6/r-scripts/refs/heads/master/imgs/ts1_bc_cm.png" alt="drawing" width="500"/>

**b) Reporte de Clasificaci√≥n**

Comente los valores de precisi√≥n, recall y F1-score. ¬øEl modelo clasifica bien ambas clases?

```
Reporte de clasificaci√≥n:
               precision    recall  f1-score   support

     benigno       0.98      0.99      0.99       107
     maligno       0.98      0.97      0.98        64

    accuracy                           0.98       171
   macro avg       0.98      0.98      0.98       171
weighted avg       0.98      0.98      0.98       171
```

#### ‚úÖ Conclusi√≥n

Redacte una conclusi√≥n ejecutiva sobre el desempe√±o general del modelo, su aplicabilidad al problema de diagn√≥stico m√©dico, y posibles mejoras futuras.