# Proyecto de Aprendizaje Automático
## Perceptrón Multicapa
- Este proyecto es una introducción a las redes neuronales artificiales con la implementación de perceptrones multicapa.  
- Se utiliza el famoso dataset de 1995 con los datos del Wisconsin Breast Cancer Dataset (WBCD).
- El proyecto realiza una clasificación binaria para determinar si las célucas de un paciente son 'M' malignas o 'B' benignas.
- No utilizaremos la librería 'sklearn' u otras similares que automaticen el proceso de entrenamiento y predicción.

## Notebooks
- 0_main.ipynb
- [1_data_analysis.ipynb](1_data_analysis.ipynb)
- [2_normalization.ipynb](2_normalization.ipynb)
- [3_data_visualization.ipynb](3_data_visualization.ipynb)
- [4_preprocessing_data.ipynb](4_preprocessing_data.ipynb)
- [5_model_training.ipynb](5_model_training.ipynb)
- [6_prediction.ipynb](6_prediction.ipynb)
- [7_documentation.ipynb](7_documentation.ipynb)

## Estructura del proyecto

```bash
/multilayer_perceptron
│
├── data/                                             # Carpeta para datos crudos y preprocesados
│   ├── raw/                                          # Datos originales
│   │   └── data.csv                                  # Archivo de datos principal
│   └── processed/                                    # Datos preprocesados y normalizados
│       ├─── cleaned_data.csv                         # Dataset limpio y con 'diagnosis' como 0 y 
│       ├─── test_set_normalized.csv                  # Conjunto de datos de prueba normalizados
│       ├─── train_set_normalized.csv                 # Conjunto de datos de entrenamiento normalizados
│       └─── zscore_normalized.csv                    # Dataset normalizado con Z-score Normalization
├── notebooks/                                        # Archivos Jupyter Notebook
│   ├── 0_main.ipynb                                  # Orquestador principal
│   ├── 1_data_analysis.ipynb                         # Análisis de datos
│   ├── 2_normalization.ipynb                         # Normalización de datos
│   ├── 3_data_visualization.ipynb                    # Visualización de datos
│   ├── 4_preprocessing_data.ipynb                    # Preprocesamiento de datos (división datos entrenamiento/test)
│   ├── 5_model_training.ipynb                        # Entrenamiento del modelo
│   ├── 6_prediction.ipynb                            # Predicción y evaluación
│   └── 7_documentation.ipynb                         # Documentación de funciones
├── output/                                           # Resultados del proyecto
│   ├── figures/                                      # Imágenes y gráficos
│   │   ├── boxplot_all_features.png                  # Diagrama de caja para todas las características
│   │   ├── class_distribution_by_set.png             # Distribución de clases por conjunto
│   │   ├── correlation_heatmap.png                   # Mapa de calor de correlación
│   │   ├── feature_distribution_comparison.png       # Comparación de distribución de características
│   │   ├── feature_importance.png                    # Importancia de las características
│   │   ├── histograms_all_features.png               # Histogramas de todas las características
│   │   ├── histograms_all_features_by_diagnosis.png  # Histogramas de todas las características por diagnóstico
│   │   ├── pairplot_features.png                     # Gráfico de pares de características
│   │   ├── pca_biplot.png                            # Biplot de PCA
│   │   ├── pca_contribution_pc1.png                  # Contribución de PCA al primer componente principal
│   │   ├── pca_contribution_pc2.png                  # Contribución de PCA al segundo componente principal
│   │   ├── pca_loadings_heatmap.png                  # Mapa de calor de cargas de PCA
│   │   ├── pca_visualization.png                     # Visualización de PCA
│   │   ├── radar_plot.png                            # Gráfico de radar
│   │   ├── strip_plot.png                            # Gráfico de dispersión
│   │   └── violin_plot.png                           # Gráfico de violín
│   ├── models/                                       # Resultados del modelo
│   ├── features.json                                 # JSON con las distribuciones de probabilidad
│   ├── normalization_params.json                     # Medias y desviacines de la normalización del conjunto de entrenamiento
│   └── split_params.json                             # Parámetros de división
├── utils/                                            # Funciones reutilizables
│   ├── config.py                                     # Hiperparámetros y configuraciones
│   ├── neural_network_functions.py                   # Funciones para el modelo
│   ├── statistical_functions.py                      # Funciones estadísticas
│   ├── preprocessing_functions.py                    # Funciones de preprocesamiento
│   └── evaluation_functions.py                       # Funciones de evaluación
├── requirements.txt                                  # Librerías usadas con Pip
└── README.md                                         # Instalación e Introducción al proyecto
```

## To Do
1. Los archivo JSON generados en 4_preprocessing_data.ipynb parece que luego no se usan nunca.
    - 'output/normalization_params.json'	⟶	Parámetros de normalización
    - 'outpyt/split_params.json'			⟶	Parámetros de división  
3. f