# Proyecto de Aprendizaje Automático
## Perceptrón Multicapa
Este proyecto es una introducción a las redes neuronales artificiales: con la implementación de perceptrones multicapa.  
Se utilizan los datos del Wisconsin Breast Cancer Dataset (WBCD).

## Estructura de ficheros

```bash
/perceptron
│
├── data/                              # Carpeta para datos crudos y preprocesados
│   ├── raw/                           # Datos originales
│   │   └── data.csv                   # Archivo de datos principal
│   └── processed/                     # Datos preprocesados y normalizados
│       ├─── log_normalized.csv        # Dataset normalizado con Log Transform
│       ├─── minmax_normalized.csv     # Dataset normalizado con Min-Max Scaling
│       ├─── robust_normalized.csv     # Dataset normalizado con Rotust Scaling
│       └─── zscore_normalized.csv     # Dataset normalizado con Z-score Normalization
├── notebooks/                         # Archivos Jupyter Notebook
│   ├── 0_main.ipynb                   # Orquestador principal
│   ├── 1_data_analysis.ipynb          # Análisis de datos
│   ├── 2_normalization.ipynb          # Normalización de datos
│   ├── 3_data_visualization.ipynb     # Visualización de datos
│   ├── 4_preprocessing_data.ipynb     # Preprocesamiento de datos (división datos entrenamiento / validación)
│   ├── 5_model_training.ipynb         # Entrenamiento del modelo
│   ├── model_training.ipynb           # Entrenamiento del modelo
│   ├── prediction.ipynb               # Predicción y evaluación
│   └── documentation.ipynb            # Documentación de funciones
├── output/                            # Resultados del proyecto
│   ├── figures/                       # Imágenes y gráficos
│   │   ├──── boxplot_features.png     # Gráfico de caja (boxplots)
│   │   ├──── correlation_heatmap.png  # Gráfico Heatmap: mapa de calor para correlaciones
│   │   ├──── feature_importance.png   # Gráfico de Barras de Importancia de Característic
│   │   ├──── pairplot_features.png    # Gráfico de Pares para las características más relevantes
│   │   ├──── pca_visualization.png    # Gráfico para ver la separación de clases
│   │   ├──── radar_plot.png           # Gráfico de radar
│   │   ├──── violin_plot_log.png      # Gráfico de violín con normalización log
│   │   ├──── violin_plot_minmax.png   # Gráfico de violín con normalización min-max
│   │   ├──── violin_plot_robust.png   # Gráfico de violín con normalización robusta
│   │   └──── violin_plot_zscore.png   # Gráfico de violín con normalización z-score
│   ├── models/                        # Resultados del modelo
│   └── features.json                  # JSON con las distribuciones de probabilidad
│   └── normalization_params.json      # Medias y desviacines de la normalización del conjunto de entrenamiento
├── utils/                             # Funciones reutilizables
│   ├── config.py                      # Hiperparámetros y configuraciones
│   ├── neural_network_functions.py    # Funciones para el modelo
│   ├── statistical_functions.py       # Funciones estadísticas
│   ├── preprocessing_functions.py     # Funciones de preprocesamiento
│   └── evaluation_functions.py        # Funciones de evaluación
├── requirements.txt                   # Librerías usadas con Pip
└── README.md                          # Instalación e Introducción al proyecto
```

## Estructura de los Notebooks

0. main.ipynb
    - Punto de entrada del proyecto y
    - el "orquestador" del proyecto
    - Definimos los hiperparámetros y configuraciones
    - Llamamos a funciones
      
2. **Análisis de datos**: 
   - [1 data_analysis.ipynb](1_data_analysis.ipynb)
   - Primer paso para entender los datos
   - Análisis estadístico inicial
   - Identificación de características

4. data_visualization.ipynb
   - Visualización de distribuciones
   - Gráficos exploratorios
   - Comprensión visual de los datos

5. data_preprocessing.ipynb
   - Limpieza de datos
   - Normalización
       - Parámetro: diferentes métodos de normalización 
   - Separación de datos en entrenamiento y validación
       - Parámetro: el porcentaje de división train/val
   - Preparación para modelado

6. model_training.ipynb
   - Construcción del modelo
   - Función flexible para construir el modelo que acepte parámetros como:
        - Parámetro: número de capas
        - Parámetro: neuronas por capa
        - Parámetro: funciones de activación
        - Parámetro: diferentes inicializadores de pesos
        - Parámetro: tasa de aprendizaje
        - Parámetro: algoritmo de optimización
        - Parámetro: number of Epochs
   - Entrenamiento de la red neuronal

7. prediction.ipynb
   - Evaluación final
   - Predicciones
   - Métricas de rendimiento
   - Funciones para visualizar y comparar resultados de diferentes configuraciones


* Archivo JSON con las diferentes configuraciones

## Estructura del proyecto

### data/
- data.csv


### notebooks/
0. main.ipynb
1. data_preprocessing.ipynb
2. graphical_analysis.ipynb
3. neural_network_functions.ipynb
4. forward_backward_propagation.ipynb
5. training_loop.ipynb

### src/
- ft_functions.py

### output/
- 

## Contenido de los Notebooks

https://medium.com/@tutorialcreation81/exploratory-data-analysis-of-breast-cancer-dataset-8c4cd7712f6f

https://medium.com/analytics-vidhya/explainable-ai-the-next-level-c6b4dadc240

https://www.kaggle.com/code/hanzlanawaz/99-breast-cancer-prediction-using-xgboost


'radius_mean', 'texture_mean', 'perimeter_mean',
       'area_mean', 'smoothness_mean', 'compactness_mean', 'concavity_mean',
       'concave points_mean', 'symmetry_mean', 'fractal_dimension_mean',
       'radius_se', 'texture_se', 'perimeter_se', 'area_se', 'smoothness_se',
       'compactness_se', 'concavity_se', 'concave points_se', 'symmetry_se',
       'fractal_dimension_se', 'radius_worst', 'texture_worst',
       'perimeter_worst', 'area_worst', 'smoothness_worst',
       'compactness_worst', 'concavity_worst', 'concave points_worst',
       'symmetry_worst', 'fractal_dimension_worst'

# To Do
1. Para el archivo normalization.ipynb: almacenamiento de los parámetros de normalización para su uso posterior en la fase de predicción
2. Para el archivo preprocesed_data.ipymb:
    - División del conjunto de datos en conjuntos de entrenamiento y prueba
3. Entrenar con las 30 características y luego probar a reducir la dimensionalidad. Por ejemplo, tomando las 12 principales características que proporciona RandomForestClassifier:  
   'feat24', 'feat28', 'feat08', 'feat21', 'feat23', 'feat03', 'feat07', 'feat04', 'feat27', 'feat01', 'feat14', 'feat26'
4. Posibles parámetros:
    - Porcentaje de división entre datos de entrenamiento y validación  
    - Número de capas ocultas
    - Número de células por cada capa oculta
    - Funciones de activación disponibles
    - Learning rate
    - Pesos iniciales
    - Función de pérdida
    - batch size
    - epochs
    - Métodos de entrenamiento:
        - gradient descent
        - Nesterov Momentum
        - RMSprop
        - Adam
5. Ejemplo para hacer el proyecto más modular:

   ```python
   network = model.createNetwork([
    layers.denseLayer(input_shape, activation="sigmoid"),
    layers.denseLayer(25, activation="sigmoid", weights_initializer="he_Uniform"),
    layers.denseLayer(25, activation="sigmoid", weights_initializer="he_uniform"),
    layers.denseLayer(25, activation="sigmoid", weights_initializer="he_uniform"),
    layers.denseLayer(output_shape, activation="softmax", weights_initializer="he_uniform")
    ])

    model.fit(network, dt_train, dt_valid, loss="binary_crossentropy", learning_rate=0.0165, batch_size=8, epochs=85)
    
    ```
   
6. Evaluar usando la función de error de **entropía cruzada binaria**
7. Posibles métricas de evaluación de rendimiento del modelo: precisión, recall, F1-score, AUC, etc.
8. Ordenar y documentar los gráficos del archivo de visualización.
9. Bonus: Múltiples curvas de aprendizaje en el mismo gráfico
10. Bonus: histórico de las métricas obtenidas durante el entrenamiento
11. Bonus: implementación de early stopping.
12. Bonus: Evaluar la fase de aprendizaje con múltiples métricas.

Para el `preporcessing_data.ipynb`:
1. Ingeniería de características:
    - Selección de características importantes
    - Reducción de dimensionalidad si es necesario (PCA, t-SNE, etc.)
2. Manejo de desequilibrio de clases:
   - Técnicas de sobremuestreo (SMOTE, ADASYN)
   - Técnicas de submuestreo
   - Ajuste de pesos de clase
3. Transformación de datos:
   - Aplicación de transformaciones logarítmicas o de potencia
   - Manejo de asimetrías en las distribuciones
4. Validación cruzada:
   - Configuración de la estrategia de validación cruzada
   - Preparación de los folds para el entrenamiento
5. Guardado de datos procesados:
   - Exportación de los conjuntos de entrenamiento y validación
   - Guardado de parámetros de preprocesamiento para su uso en datos futuros
6. Documentación del proceso:
    - Registro de todas las transformaciones aplicadas
    - Explicación de las decisiones tomadas en el preprocesamiento

## Implementación del Perceptrón Multicapa (MLP)
### Contenido de los archivos:

1. **5_model_training.ipynb**: Este es el notebook principal para entrenar el modelo. Incluye:
   - Carga de datos normalizados
   - Implementación completa del MLP con clases modulares
   - Funciones de activación (sigmoid, tanh, ReLU, etc.)
   - Funciones de pérdida (MSE, binary_crossentropy)
   - Métodos de inicialización de pesos (random, xavier, he)
   - Optimizadores (SGD, Momentum, Nesterov, RMSprop, Adam)
   - Gestión de capas densas y propagación
   - Funciones para experimentar con diferentes hiperparámetros

2. **utils/neural_network_functions.py**: Archivo con todas las clases y funciones necesarias para el Perceptrón Multicapa:
   - Clase `Activation` con diferentes funciones de activación y sus derivadas
   - Clase `Loss` con funciones de pérdida y sus derivadas
   - Clase `WeightInitializer` para diferentes métodos de inicialización de pesos
   - Clase `DenseLayer` para implementar capas densas 
   - Clase `MultilayerPerceptron` para la red neuronal completa
   - Funciones de ayuda para crear y experimentar con diferentes modelos

3. **utils/config.py**: Contiene parámetros de configuración para todo el proyecto:
   - Rutas de directorios
   - Parámetros de normalización
   - Parámetros por defecto para el MLP
   - Opciones de hiperparámetros para experimentación
   - Parámetros de evaluación
   - Configuración para visualizaciones

4. **utils/evaluation_functions.py**: Funciones para evaluar el rendimiento del modelo:
   - Métricas (accuracy, precision, recall, f1-score)
   - Matriz de confusión
   - Curva ROC y AUC
   - Visualizaciones de resultados
   - Análisis de experimentos de hiperparámetros

### Diseño modular y parametrizable
- Estos archivos permiten:

1. **Ajustar la arquitectura del modelo**:
   - Cambiar el número de capas ocultas (de 1 a 4 o más)
   - Ajustar el número de neuronas por capa
   - Seleccionar diferentes funciones de activación

2. **Modificar el proceso de entrenamiento**:
   - Probar diferentes optimizadores
   - Ajustar la tasa de aprendizaje
   - Cambiar el tamaño del lote
   - Configurar early stopping y otros parámetros

3. **Evaluar y comparar modelos**:
   - Calcular múltiples métricas
   - Visualizar curvas de aprendizaje
   - Generar informes detallados
   - Comparar diferentes configuraciones
4. **Flexibilidad en la arquitectura de la red**:
   - Número configurable de capas ocultas (de 1 a 4 o más)
   - Número personalizable de neuronas por capa
   - Múltiples opciones de funciones de activación (sigmoid, ReLU, tanh, etc.)
   - Diferentes inicializaciones de pesos (He, Xavier, aleatorio, etc.)

5. **Diversas opciones de entrenamiento**:
   - Múltiples optimizadores (SGD, Momentum, Nesterov, RMSprop, Adam)
   - Parámetros ajustables (learning rate, batch size, epochs)
   - Early stopping para evitar sobreajuste
   - Mini-batch gradient descent para mayor eficiencia

6. **Evaluación exhaustiva**:
   - Múltiples métricas de rendimiento generales y específicas para problemas médicos
   - Herramientas para encontrar umbrales de decisión óptimos
   - Visualizaciones avanzadas (curvas ROC, matrices de confusión con interpretación clínica)
   - Generación de informes detallados

7. **Documentación completa**:
   - Explicaciones detalladas de los conceptos matemáticos y algoritmos
   - Visualizaciones para entender las funciones de activación y otros componentes
   - Guías de uso y ejemplos prácticos

Para usar el código, se pueden importar los módulos en los notebooks y utilizarlos. Por ejemplo:

```python
# En el notebook de entrenamiento
from utils.neural_network_functions import create_mlp, MultilayerPerceptron
from utils.config import DEFAULT_MLP_PARAMS
from utils.evaluation_functions import calculate_metrics, plot_confusion_matrix

# Crear y entrenar modelo
model = create_mlp(
    input_size=30,  # 30 características
    output_size=1,  # Clasificación binaria
    hidden_layers=DEFAULT_MLP_PARAMS["hidden_layers"],
    neurons_per_layer=DEFAULT_MLP_PARAMS["neurons_per_layer"],
    activation=DEFAULT_MLP_PARAMS["activation"],
    output_activation="sigmoid",
    weights_initializer="he_uniform",
    loss="binary_crossentropy"
)

# Entrenar modelo
history = model.fit(X_train, y_train, X_val=X_test, y_val=y_test, 
                   learning_rate=0.01, optimizer="adam", epochs=100)

# Evaluar modelo
metrics = calculate_metrics(y_test, model.predict_classes(X_test))
```

Continuando con el análisis de los archivos del proyecto.

1. **Notebooks principales**:
   - `5_model_training.ipynb`: Implementa el entrenamiento del modelo con un MLP completamente parametrizable
   - `6_documentation.ipynb`: Documenta en detalle los conceptos teóricos y la implementación
   - `7_prediction.ipynb`: Demuestra cómo usar el modelo para hacer predicciones y genera informes clínicos

2. **Módulos de utilidades**:
   - `utils/neural_network_functions.py`: Implementa todas las clases y funciones del Perceptrón Multicapa
   - `utils/config.py`: Contiene configuraciones generales del proyecto
   - `utils/evaluation_functions.py`: Funciones generales para evaluar modelos de clasificación
   - `utils/cancer_evaluation.py`: Funciones específicas para la evaluación en contexto médico
   - `utils/cancer_config.py`: Configuraciones específicas para el conjunto de datos de cáncer


### Próximos pasos

Si deseamoa seguir desarrollando este proyecto, aquí hay algunas sugerencias:

1. **Optimización de hiperparámetros**: Implementar una búsqueda sistemática para encontrar la mejor configuración
2. **Regularización avanzada**: Añadir dropout y regularización L2 para mejorar la generalización
3. **Validación cruzada**: Implementar k-fold cross-validation para una evaluación más robusta
4. **Comparación con otros modelos**: Comparar el rendimiento con otros algoritmos como Random Forest o SVM
5. **Análisis de características**: Profundizar en cuáles características son más importantes para el diagnóstico