## Tarea: Implementación de un Perceptrón para Clasificación Binaria

### Objetivo
Desarrollar un perceptrón multicapa con una capa oculta para resolver un problema de clasificación binaria. Este ejercicio tiene como finalidad aplicar los conceptos clave de redes neuronales: funciones de activación, propagación hacia adelante, cálculo de error y ajuste de pesos mediante retropropagación, utilizando la biblioteca `scikit-learn`.

### Instrucciones
- Utiliza el conjunto de datos **Breast Cancer Wisconsin** disponible en el siguiente enlace: https://raw.githubusercontent.com/marsgr6/rna-online/refs/heads/main/data/breast_cancer.csv
- Implementa un modelo de perceptrón con al menos una capa oculta.
- Entrena el modelo con un conjunto de entrenamiento y evalúalo en un conjunto de prueba.
- Visualiza la matriz de confusión y reporta las métricas de desempeño (precisión, recall, F1-score).
- Comenta brevemente los resultados obtenidos.

**Tiempo estimado:** 2 horas

### Dataset

El dataset **Breast Cancer Wisconsin**, disponible en `sklearn.datasets`, contiene datos clínicos utilizados para diagnosticar tumores mamarios como **malignos** o **benignos**, a partir de características extraídas de imágenes digitales de células obtenidas por aspiración con aguja fina (FNA).

### 🔍 Descripción de las variables

El dataset tiene **30 variables numéricas** (todas ya preprocesadas), agrupadas en **10 atributos básicos** calculados para **tres estadísticos**: *media*, *desviación estándar* y *valor peor* ("worst" o máximo).

Aquí están los atributos y su agrupación:

| Categoría             | Variable base       | Estadísticos disponibles |
| --------------------- | ------------------- | ------------------------ |
| 1. Tamaño del núcleo  | `radius`            | mean, se, worst          |
| 2. Textura            | `texture`           | mean, se, worst          |
| 3. Perímetro          | `perimeter`         | mean, se, worst          |
| 4. Área               | `area`              | mean, se, worst          |
| 5. Suavidad           | `smoothness`        | mean, se, worst          |
| 6. Compacidad         | `compactness`       | mean, se, worst          |
| 7. Concavidad         | `concavity`         | mean, se, worst          |
| 8. Puntos cóncavos    | `concave points`    | mean, se, worst          |
| 9. Simetría           | `symmetry`          | mean, se, worst          |
| 10. Dimensión fractal | `fractal dimension` | mean, se, worst          |

Estas variables permiten evaluar la forma, tamaño y consistencia del núcleo celular para predecir si un tumor es cancerígeno.

### 🧪 Variable objetivo

* `target`:

  * 0 → **maligno** (malignant)
  * 1 → **benigno** (benign)

## 🧠 **Opción 1 - Low Code:** Clasificación binaria con MLPClassifier

En esta tarea trabajarás con un conjunto de datos de cáncer de mama y aplicarás una red neuronal multicapa (MLP) para clasificar los diagnósticos como **benignos o malignos**. Solo necesitarás modificar algunas partes específicas del código indicadas con `# 👈 CAMBIA AQUÍ`.


#### 📌 1. Cargar los datos y explorar la variable objetivo

```python
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

# Leer el archivo CSV desde GitHub
df = pd.read_csv("https://raw.githubusercontent.com/marsgr6/rna-online/refs/heads/main/data/breast_cancer.csv")

# Visualizar frecuencias de la variable objetivo
plt.figure(figsize=(8, 6))
ax = sns.countplot(
    data=df,
    x="columna_a_modelar",   # 👈 CAMBIA AQUÍ, columna_a_modelar por el nombre de la columna a modelar
    hue="columna_a_modelar", # 👈 CAMBIA AQUÍ, columna_a_modelar por el nombre de la columna a modelar
    palette={'maligno': 'tomato', 'benigno': 'steelblue'}
)
for container in ax.containers:
    ax.bar_label(container, label_type='edge', padding=2)
plt.title("Distribución de la variable objetivo")
plt.xlabel("Clase")
plt.ylabel("Frecuencia")
plt.tight_layout()
````


#### 🔍 2. Visualización por pares de algunas variables numéricas

```python
# Seleccionar algunas variables numéricas (puedes cambiar)
features = ['mean radius', 'mean texture', 'mean perimeter', 'mean area', 'mean smoothness']  # 👈 CAMBIA AQUÍ si deseas otras variables

# Pairplot para explorar relaciones entre variables
sns.pairplot(data=df[features + ['target']], hue='target', palette={'maligno': 'tomato', 'benigno': 'steelblue'})
plt.suptitle("Visualización por pares de variables", y=1.02)
```


#### 🧪 3. Separar conjunto de entrenamiento y prueba

```python
from sklearn.model_selection import train_test_split

# Definir variables X e y
X = df.drop(columns=['target'])  
y = df['target'] 

# Separar datos (ej. 70% entrenamiento, 30% prueba)
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.3, stratify=y, random_state=42  # 👈 CAMBIA AQUÍ el porcentaje si deseas
)
```


#### ⚙️ 4. Escalar los datos

```python
from sklearn.preprocessing import StandardScaler

# Normalizar características numéricas
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(datos_de_entrenamiento)  # 👈 CAMBIA AQUÍ datos_de_entrenamiento, usa X_train
X_test_scaled = scaler.transform(datos_de_prueba)  # 👈 CAMBIA AQUÍ datos_de_prueba, usa X_test
```


#### 🤖 5. Entrenar el modelo MLP

```python
from sklearn.neural_network import MLPClassifier

# Crear y entrenar el modelo
mlp = MLPClassifier(hidden_layer_sizes=(numero_de_nueronas,), max_iter=1000, random_state=42)  # 👈 CAMBIA AQUÍ numero_de_nueronas por un valor numérico entero 
mlp.fit(X_train_scaled, y_train)
```

#### 📊 6. Evaluación del modelo

```python
from sklearn.metrics import classification_report, ConfusionMatrixDisplay

# Realizar predicciones
y_pred = mlp.predict(test_data)  # 👈 CAMBIA AQUÍ test_data, usa X_test_scaled

# Reporte de clasificación
print("\nReporte de clasificación:\n", classification_report(y_test, y_pred))

# Matriz de confusión
ConfusionMatrixDisplay.from_predictions(
    y_test,
    y_pred,
    display_labels=['Benigno', 'Maligno'], 
    cmap='Blues',
    colorbar=False
)
plt.title("Matriz de confusión")
plt.grid(False)
plt.tight_layout()
```

#### ✅ Recomendaciones finales

* Comenta cada bloque que modifiques.
* Puedes probar con diferentes:

  * Variables predictoras
  * Porcentajes de partición
  * Neuronas ocultas
  * Funciones de activación (`MLPClassifier(..., activation='relu')`)
 
#### Reflexión

Comente brevemente los resultados obtenidos: ¿el modelo clasificó correctamente la mayoría de los casos? ¿Qué métricas destacan? ¿Qué podría mejorar en una siguiente iteración?
 
## 📝 **Opción 2 - Informe Ejecutivo:** Clasificación de Diagnóstico de Cáncer de Mama con MLPClassifier

Elabore un informe, de máximo 3 páginas, describiendo el proceso seguido para entrenar un modelo de red neuronal multicapa (MLP) utilizando datos clínicos de diagnóstico de cáncer de mama. El objetivo fue clasificar los tumores como **benignos** o **malignos**, a partir de medidas obtenidas de imágenes médicas. A continuación se detalla el proceso seguido, dividido en seis etapas clave. **Analice cada sección utilizando las figuras y resultados proporcionados.**


#### 1. Frecuencia de la Variable Objetivo

Describa la distribución de las clases `maligno` y `benigno` en el conjunto de datos. Analice si existe desbalance y qué implicaciones podría tener.

<img src="https://raw.githubusercontent.com/marsgr6/r-scripts/refs/heads/master/imgs/ts1_bc_f.png" alt="drawing" width="500"/>

#### 2. Visualización de Variables Numéricas

Comente las relaciones visuales entre las variables numéricas seleccionadas. ¿Qué patrones o separaciones observas entre las clases?

<img src="https://raw.githubusercontent.com/marsgr6/r-scripts/refs/heads/master/imgs/ts1_bc_p.png" alt="drawing" width="900"/>


#### 3. División de Datos: Entrenamiento y Prueba

Explique cómo se dividió el conjunto de datos (porcentaje, estratificación) y justifique si es adecuado para este tipo de problema.


#### 4. Escalamiento de Variables

Justifique el uso de `StandardScaler`. ¿Qué importancia tiene el escalamiento previo al entrenamiento de una red neuronal?


#### 5. Modelado con MLPClassifier

Describa brevemente la arquitectura utilizada (número de capas, neuronas, iteraciones) y la función del modelo `MLPClassifier`.


#### 6. Evaluación del Modelo

**a) Matriz de Confusión**

Analice el desempeño del modelo con base en los valores observados en la matriz de confusión.

<img src="https://raw.githubusercontent.com/marsgr6/r-scripts/refs/heads/master/imgs/ts1_bc_cm.png" alt="drawing" width="500"/>

**b) Reporte de Clasificación**

Comente los valores de precisión, recall y F1-score. ¿El modelo clasifica bien ambas clases?

```
Reporte de clasificación:
               precision    recall  f1-score   support

     benigno       0.98      0.99      0.99       107
     maligno       0.98      0.97      0.98        64

    accuracy                           0.98       171
   macro avg       0.98      0.98      0.98       171
weighted avg       0.98      0.98      0.98       171
```

#### ✅ Conclusión

Redacte una conclusión ejecutiva sobre el desempeño general del modelo, su aplicabilidad al problema de diagnóstico médico, y posibles mejoras futuras.