# üß† Tarea Semana 2: Regresi√≥n con Redes Neuronales (Low Code)

Este notebook est√° dise√±ado para resolver un problema supervisado (regresi√≥n) utilizando un modelo de red neuronal `MLPRegressor`, y aplicar optimizaci√≥n de hiperpar√°metros (grid search) con validaci√≥n cruzada (10 folds).

Claro, aqu√≠ tienes una **versi√≥n adaptada de las instrucciones** para que est√©n alineadas con los objetivos del deber, de forma clara y estructurada:


## üìù Instrucciones 

1. **Carga del conjunto de datos**
   Utiliza el conjunto de datos **Breast Cancer Wisconsin** disponible en el siguiente enlace:
   [https://raw.githubusercontent.com/marsgr6/rna-online/refs/heads/main/data/breast\_cancer.csv](https://raw.githubusercontent.com/marsgr6/rna-online/refs/heads/main/data/breast_cancer.csv)

2. **Preprocesamiento b√°sico**

   * Verifica los tipos de datos.
   * Est√°ndariza las variables num√©ricas si es necesario.
   * Divide el conjunto en entrenamiento y prueba (por ejemplo, 80%/20%).

3. **Dise√±a un modelo de red neuronal (MLPClassifier)** y **Optimiza los hiperpar√°metros**

   * Utiliza `scikit-learn` y usa `GridSearchCV` con validaci√≥n cruzada de **10 folds** para encontrar la mejor combinaci√≥n de hiperpar√°metros (`activation`, `hidden_layer_sizes`, etc.).

4. **Entrenamiento y evaluaci√≥n del modelo**

   * Entrena el modelo √≥ptimo con el conjunto de hiperpar√°metros del mejor modelo.
   * Eval√∫alo para los 10 folds.

5. **M√©tricas de desempe√±o en un conjunto de prueba**

   * Calcula y visualiza la **matriz de confusi√≥n**.
   * Reporta las m√©tricas: **precisi√≥n (accuracy)**, **recall**, **F1-score**.
   * Utiliza `classification_report` y `confusion_matrix` de `sklearn`.

6. **An√°lisis de resultados**

   * Comenta brevemente los resultados obtenidos.
   * ¬øQu√© observas sobre el desempe√±o del modelo? ¬øQu√© m√©tricas destacan?


### ‚è∞ Tiempo estimado para completar la actividad: 2 horas

## üß† **Opci√≥n Low Code ‚Äî Clasificaci√≥n con MLPClassifier y Optimizaci√≥n**

En esta tarea trabajar√°s con un conjunto de datos de c√°ncer de mama y aplicar√°s una red neuronal multicapa (**MLPClassifier**) usando un **pipeline**, con b√∫squeda de los mejores hiperpar√°metros mediante validaci√≥n cruzada.

Solo necesitar√°s modificar algunas partes espec√≠ficas del c√≥digo indicadas con `# üëà CAMBIA AQU√ç`.

### üìå 1. Cargar los datos y explorar la variable objetivo

```python
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

# Cargar los datos desde GitHub
df = pd.read_csv("https://raw.githubusercontent.com/marsgr6/rna-online/refs/heads/main/data/breast_cancer.csv")

# Visualizar la variable objetivo
plt.figure(figsize=(8, 6))
ax = sns.countplot(
    data=df,
    x="target",   # üëà CAMBIA AQU√ç si tu variable objetivo tiene otro nombre
    hue="target",
    palette={'maligno': 'tomato', 'benigno': 'steelblue'}
)
for container in ax.containers:
    ax.bar_label(container, label_type='edge', padding=2)
plt.title("Distribuci√≥n de la variable objetivo")
plt.xlabel("Clase")
plt.ylabel("Frecuencia")
plt.tight_layout()
```

### üß™ 2. Separar conjunto de entrenamiento y prueba

```python
from sklearn.model_selection import train_test_split

# Separar variables predictoras y objetivo
X = df.drop(columns='target')  # üëà CAMBIA AQU√ç si tu variable objetivo tiene otro nombre
y = df['target']

# Partici√≥n del dataset
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.3, stratify=y, random_state=42
)
```

### ‚öôÔ∏è 3. Pipeline y optimizaci√≥n con validaci√≥n cruzada

```python
from sklearn.pipeline import make_pipeline
from sklearn.preprocessing import StandardScaler
from sklearn.neural_network import MLPClassifier
from sklearn.model_selection import GridSearchCV, StratifiedKFold

# Crear pipeline: escalador + red neuronal
pipe = make_pipeline(
    StandardScaler(),
    MLPClassifier(max_iter=1000, random_state=42)
)

# Definir hiperpar√°metros a probar
param_grid = {
    'mlpclassifier__hidden_layer_sizes': [(neuornas1,), (neuronas2,), (neuronas3,)],  # üëà CAMBIA AQU√ç las neuronas en la capa oculta, 50,100,200
    'mlpclassifier__activation': [fx1, fx2],  # üëà CAMBIA AQU√ç la activation function, puedes probar 'relu', 'tanh'
    'mlpclassifier__alpha': [0.0001, 0.001, 0.01]  # üëà Regularizaci√≥n L2
}

# Validaci√≥n cruzada estratificada
cv = StratifiedKFold(n_splits=10, shuffle=True, random_state=42)

# Buscar los mejores par√°metros
grid = GridSearchCV(pipe, param_grid=param_grid, cv=cv, scoring='f1_macro', n_jobs=-1)
grid.fit(X_de_entrenamiento, y_entrenamiento)  # üëà CAMBIA AQU√ç X_train, y_train

# Mostrar el mejor modelo
print("Mejores hiperpar√°metros encontrados:")
print(grid.best_params_)
```

Claro, aqu√≠ tienes una versi√≥n mejorada del bloque de evaluaci√≥n, que incluye:

1. **Validaci√≥n cruzada de 10 folds** usando `cross_val_score` sobre el **mejor modelo encontrado**.
2. **Visualizaci√≥n con boxplot** de las m√©tricas.
3. **Tabla de m√©tricas promedio y desviaci√≥n est√°ndar**.


### üìä 4. Evaluaci√≥n con validaci√≥n cruzada y visualizaci√≥n de m√©tricas

```python
from sklearn.model_selection import cross_val_score
from sklearn.metrics import classification_report, ConfusionMatrixDisplay
import seaborn as sns
import matplotlib.pyplot as plt
import pandas as pd
import numpy as np

# Extraer el mejor modelo del GridSearchCV
best_model = grid.best_estimator_

# Validaci√≥n cruzada con 10 folds para distintas m√©tricas
scoring = ['accuracy', 'precision_macro', 'recall_macro', 'f1_macro']
cv_scores = {}

for metric in scoring:
    scores = cross_val_score(best_model, X_de_entrenamiento, y_entrenamiento  # üëà CAMBIA AQU√ç X_train, y_train
                             cv=10, scoring=metric, n_jobs=-1)
    cv_scores[metric] = scores

# Convertir a DataFrame
cv_df = pd.DataFrame(cv_scores)

# Mostrar resumen
summary = cv_df.agg(['mean', 'std']).T
print("\nResumen de m√©tricas con validaci√≥n cruzada (10 folds):")
print(summary)

# Convertir a formato largo para graficar
df_long = cv_df.melt(var_name="M√©trica", value_name="Puntaje")

# Crear la figura
plt.figure(figsize=(10, 6))

# Boxplot + stripplot + l√≠nea de la media
sns.violinplot(data=df_long, x="M√©trica", y="Puntaje", hue="M√©trica", alpha=.3, cut=0, inner='quartil')
sns.stripplot(data=df_long, x="M√©trica", y="Puntaje", hue="M√©trica", size=6, alpha=0.6)
# Agregar l√≠neas de medias y barras de error
sns.lineplot(data=df_long, x="M√©trica", y="Puntaje", err_style='bars')

# Etiquetas y estilo
plt.title("Distribuci√≥n de m√©tricas (10-fold CV)")
plt.ylabel("Puntaje")
plt.xlabel("M√©trica")
#plt.ylim(0.6, 1.05)
#plt.grid(True)
plt.tight_layout()
```


### üß™ 5. Evaluaci√≥n final en conjunto de prueba

```python
# Predecir sobre el conjunto de prueba
y_pred = best_model.predict(X_test)

# Reporte de clasificaci√≥n
print("\nReporte de clasificaci√≥n (conjunto de prueba):\n")
print(classification_report(y_prueba, y_pred))  # üëà CAMBIA AQU√ç y_test, y_pred

# Matriz de confusi√≥n
ConfusionMatrixDisplay.from_predictions(
    y_test, y_pred,
    display_labels=['Benigno', 'Maligno'],
    cmap='Blues',
    colorbar=False
)
plt.title("Matriz de confusi√≥n (conjunto de prueba)")
plt.grid(False)
plt.tight_layout()
```

### ‚úÖ Recomendaciones finales

* Comenta cada bloque que modifiques.
* Puedes probar con diferentes:

  * Variables predictoras
  * Porcentajes de partici√≥n
  * Configuraciones de capas ocultas
  * Funciones de activaci√≥n

### üí¨ Reflexi√≥n

Comenta brevemente los resultados obtenidos:

* ¬øEl modelo clasific√≥ correctamente la mayor√≠a de los casos?
* ¬øQu√© m√©tricas destacan?
* ¬øQu√© podr√≠as mejorar en una siguiente iteraci√≥n?

# üß† Tarea Semana 2: Clasificaci√≥n con Redes Neuronales (Informe Ejecutivo)

Esta actividad tiene como objetivo aplicar un modelo de red neuronal multicapa para resolver un problema de clasificaci√≥n binaria (detecci√≥n de tumores benignos o malignos). El an√°lisis se realiza sobre el conjunto de datos **Breast Cancer Wisconsin**.

## üìù Instrucciones

### 1. **Exploraci√≥n inicial del conjunto de datos**

Revisa la distribuci√≥n de la variable objetivo. Analiza el gr√°fico adjunto que muestra la cantidad de casos **malignos** y **benignos**.

üß© **Actividad**:

* ¬øEst√° balanceado el conjunto de datos?
* ¬øPor qu√© puede ser importante considerar el balance de clases en un modelo de clasificaci√≥n?

<img src="https://raw.githubusercontent.com/marsgr6/r-scripts/refs/heads/master/imgs/ts1_bc_f.png" alt="drawing" width="500"/>

### 2. **Proceso de entrenamiento y validaci√≥n**

Explica con tus palabras en qu√© consiste el proceso de dividir el conjunto de datos en **entrenamiento** y **prueba**. Describe tambi√©n qu√© significa realizar una **validaci√≥n cruzada de 10 folds**.

üß© **Actividad**:

* ¬øPor qu√© es √∫til separar los datos en entrenamiento y prueba?
* ¬øQu√© ventajas ofrece la validaci√≥n cruzada?


### 3. **Optimizaci√≥n del modelo: selecci√≥n de hiperpar√°metros**

Se entren√≥ un modelo de red neuronal (`MLPClassifier`) aplicando una **b√∫squeda en malla (Grid Search)** con validaci√≥n cruzada estratificada de 10 folds. Esta t√©cnica permite probar distintas combinaciones de par√°metros del modelo para encontrar la que maximiza el rendimiento.

Los **hiperpar√°metros explorados** fueron:

| Hiperpar√°metro       | Valores considerados  | Descripci√≥n breve                                    |
| -------------------- | --------------------- | ---------------------------------------------------- |
| `hidden_layer_sizes` | (50,), (100,), (200,) | Cantidad de neuronas en la capa oculta               |
| `activation`         | `'relu'`, `'tanh'`    | Funci√≥n de activaci√≥n utilizada en las neuronas      |
| `alpha`              | 0.0001, 0.001, 0.01   | Coeficiente de regularizaci√≥n L2 (evita sobreajuste) |

üß† **Mejor configuraci√≥n encontrada**:

```python
{'mlpclassifier__activation': 'relu', 'mlpclassifier__alpha': 0.0001, 'mlpclassifier__hidden_layer_sizes': (200,)}
```

üß© **Actividad**:

* Explica qu√© rol juega cada uno de estos hiperpar√°metros en el entrenamiento de una red neuronal.
* ¬øQu√© podr√≠a indicar que la mejor configuraci√≥n tenga 200 neuronas y use `relu`?
* ¬øQu√© importancia tiene el valor bajo de `alpha` en este caso?


### 4. **Evaluaci√≥n con validaci√≥n cruzada (10 folds)**

Se calcularon m√©tricas de desempe√±o en validaci√≥n cruzada utilizando los siguientes indicadores:

| M√©trica              | Media  | Desviaci√≥n est√°ndar |
| -------------------- | ------ | ------------------- |
| **Accuracy**         | 0.9823 | 0.0172              |
| **Precision\_macro** | 0.9855 | 0.0138              |
| **Recall\_macro**    | 0.9773 | 0.0235              |
| **F1\_macro**        | 0.9807 | 0.0191              |

<img src="https://raw.githubusercontent.com/marsgr6/r-scripts/refs/heads/master/imgs/vprnats2.png" alt="drawing" width="900"/>

üß© **Actividad**:

* Interpreta los valores promedio y su dispersi√≥n.
* ¬øQu√© te indica el gr√°fico de violines sobre la estabilidad de cada m√©trica?


### 5. **Evaluaci√≥n en el conjunto de prueba**

Se evalu√≥ el desempe√±o del modelo entrenado sobre el 30% del conjunto de datos reservado para prueba. Aqu√≠ est√°n las m√©tricas:

üìÑ **Reporte de clasificaci√≥n (conjunto de prueba)**:

| Clase              | Precision | Recall | F1-score | Soporte |
| ------------------ | --------- | ------ | -------- | ------- |
| Benigno            | 0.96      | 1.00   | 0.98     | 107     |
| Maligno            | 1.00      | 0.92   | 0.96     | 64      |
| **Accuracy**: 0.97 |           |        |          |         |

<img src="https://raw.githubusercontent.com/marsgr6/r-scripts/refs/heads/master/imgs/cmrnats2.png" alt="drawing" width="500"/>

üß© **Actividad**:

* ¬øC√≥mo interpretar la matriz de confusi√≥n? ¬øQu√© tipos de error se observan?
* ¬øCu√°l es el desempe√±o del modelo para cada clase?
* ¬øCu√°l m√©trica destacar√≠as como m√°s relevante en un problema de salud como este?


### 6. **Reflexi√≥n final**

üß© **Actividad**:

* ¬øConsideras que el modelo es adecuado para este tipo de problema?
* ¬øQu√© mejorar√≠as o explorar√≠as en una siguiente iteraci√≥n? (por ejemplo, otros modelos, nuevas variables, balanceo de clases, m√°s datos, etc.)


‚è±Ô∏è **Tiempo estimado de desarrollo**: 2 horas
‚úçÔ∏è **Entrega**: Informe ejecutivo con respuestas a cada secci√≥n y discusi√≥n de los gr√°ficos presentados.