# Logistic Regression
Proyecto de regresión logística multinomial para clasificar estudiantes en las casas de Hogwarts.

## Estructura del proyecto

### datasets/
- [dataset_test.csv](../datasets/dataset_test.csv)
- [dataset_train.csv](../datasets/dataset_train.csv)
- normal_test.csv
- normal_test_pre_imputation.csv
- normal_train.csv



### notebooks/
0. main.ipynb
1. [exploratory.ipynb](exploratory.ipynb)
2. [describe.ipynb](describe.ipynb)
3. [histogram.ipynb](histogram.ipynb)
4. [scatter_plot.ipynb](scatter_plot.ipynb)
5. [pair_plot.ipynb](pair_plot.ipynb)
6. [normalize.ipynb](normalize.ipynb)
7. [imputation.ipynb](imputation.ipynb)
8. [logreg_train.ipynb](logreg_train.ipynb)
9. [logreg_sgd_train.ipynb](logreg_sgd_train.ipynb)
10. [logreg_minibatch_train.ipynb](logreg_minibatch_train.ipynb)
11. [logreg_predict.ipynb](logreg_predict.ipynb)
12. [functions_documentation.ipynb](functions_documentation.ipynb)

### src/
- [ft_functions.py](../src/ft_functions.py)

### output/
- colum_to_drop.json
- correlation_heatmap.png
- histogram.png
- houses2.csv
- houses3.csv
- houses.csv
- model_weights2.json
- model_weights3.json
- model_weights.json
- pair_plot.png
- perfect_correlation_plot.png
- second_strongest_correlation_plot.png


## Contenido de los Notebooks

### 1. exploratory.ipynb
1. Análisis exploratorio inicial:
   * Carga de datasets de entrenamiento (1600 registros) y test (400 registros).
   * Identificación de la variable objetivo 'Hogwarts House'.
   * Comparación de estructuras entre ambos datasets.
2. Exploración de calidad de datos:
   * Análisis de valores nulos por columna.
   * Distribución de variables categóricas.
   * Identificación de desbalances en clases.
3. Análisis de correlaciones:
   * Generación de matriz de correlaciones.
   * Visualización mediante mapa de calor.
   * Guardado de visualización en `correlation_heatmap.png`.
4. Identificación de redundancias:
   * Detección de correlación perfecta entre 'Astronomy' y 'Defense Against the Dark Arts'.
   * Análisis de impacto de eliminación de variables.
   * Guardado de decisión en `column_to_drop.json`.

### 2. describe.ipynb
1. Análisis estadístico descriptivo:
   * Verificación de directorio de trabajo.
   * Importación de funciones estadísticas personalizadas.
2. Implementación de funciones clave:
   * `calculate_metrics()`: Cálculo de estadísticas por columna.
   * `print_metrics_table()`: Visualización formateada.
   * `analyze_dataset()`: Coordinación del análisis.
3. Cálculo de métricas estadísticas:
   * Medidas de tendencia central (media, mediana).
   * Medidas de dispersión (desviación estándar, IQR).
   * Medidas de forma (asimetría, curtosis).
   * Coeficiente de variación (CV).
4. Presentación de resultados:
   * Tabla formateada usando `tabulate`.
   * Una fila por métrica, una columna por asignatura.

### 3. histogram.ipynb
1. Visualización de distribuciones de puntuaciones:
   * Lectura del dataset de entrenamiento.
   * Identificación de columnas de cursos.
   * Exclusión de 'Astronomy'.
2. Generación de histogramas:
   * Creación de matriz 4x3 de subgráficos.
   * Un histograma por curso.
   * Diferenciación por casas usando colores.
   * Superposición de distribuciones para comparación.
3. Análisis de homogeneidad:
   * Identificación de cursos con distribución homogénea.
   * Evaluación detallada de tres candidatos:
     - Arithmancy
     - Potions
     - Care of Magical Creatures
4. Conclusiones:
   * 'Care of Magical Creatures' identificado como el curso más homogéneo.
5. Generación de visualización:
   * Guardado del histograma completo en `output/histogram.png`.

### 4. scatter_plot.ipynb
1. Análisis de correlaciones entre asignaturas:
   * Lectura del dataset de entrenamiento.
   * Limpieza de datos eliminando filas incompletas.
   * Selección de asignaturas a analizar.
2. Visualización de la correlación perfecta:
   * Scatter plot entre 'Astronomy' y 'Defense Against the Dark Arts'.
   * Línea de tendencia.
   * Coeficiente de correlación (r=-1.000).
3. Búsqueda de correlaciones fuertes:
   * Cálculo de matriz de correlación.
   * Identificación de la segunda correlación más fuerte.
4. Visualización de resultados:
   * Scatter plot de la segunda correlación más fuerte.
   * Generación de gráficos en la carpeta `output/`.
   * Líneas de tendencia y coeficientes de correlación.
5. Identificación de características similares:
   * Primera pareja: 'Astronomy' y 'Defense Against the Dark Arts'.
   * Segunda pareja: 'History of Magic' y 'Flying'.

### 5. pair_plot.ipynb
1. Visualización de relaciones entre asignaturas:
   * Lectura del dataset de entrenamiento.
   * Eliminación de filas incompletas.
   * Exclusión de 'Astronomy' (límite de 12 características).
2. Generación de pair plot:
   * Histogramas de distribución en la diagonal.
   * Scatter plots entre pares de variables.
   * Diferenciación por casas usando colores.
3. Análisis de características:
   * Identificación de las 5 mejores asignaturas para la clasificación:
     - 'Defense Against the Dark Arts'
     - 'Herbology'
     - 'Potions'
     - 'Charms'
     - 'Flying'
   * Identificación de asignaturas menos útiles por su alta superposición.
4. Generación de visualización:
   * Guardado del pair plot en `output/pair_plot.png`.
5. Selección final de características para el modelo de regresión logística.

### 6. normalize.ipynb
1. Limpieza y normalización inicial de los dos DataFrames.
2. Imputación de datos faltantes en 'Defense Against the Dark Arts' usando la correlación perfecta con 'Astronomy', en train y test.
3. Eliminación de columnas innecesarias, incluyendo 'Astronomy'.
4. Cálculo de la edad a partir de fechas.
5. Conversión de datos categóricos a numéricos ('Best Hand' a float).
6. One-hot encoding de 'Hogwarts House' para el dataset de entrenamiento.
7. Normalización de variables numéricas.
    - Normalización con media y desviación estándar de los datos de entrenamiento.
    - Se procesa el conjunto de test de manera idéntica, usando los mismos parámetros de normalización.
8. Guardado de datasets: normal_train.csv (completo) y normal_test_pre_imputation.csv (con valores faltantes).

### 7. imputation.ipynb
1. Carga del dataset de test normalizado (normal_test_pre_imputation.csv).
2. Implementación del algoritmo de k-vecinos más próximos (KNN) para imputación:
    - Cálculo de distancias euclidianas.
    - Identificación de k vecinos más cercanos.
    - Imputación basada en la media de los vecinos.
3. Aplicación de la imputación KNN a los registros incompletos.
4. erificación y validación de la imputación.
5. Guardado del dataset final completo (normal_test.csv)..ipynb:

### 8. logreg_train.ipynb
1. Entrenamiento del modelo de regresión logística multinomial.
2. Implementación de funciones clave:
    - Softmax para clasificación multinomial.
    - Función de pérdida logarítmica (cross-entropy).
    - Descenso del gradiente adaptado para el caso multinomial.
    - Función de predicción.
3. Proceso de entrenamiento:
    - Inicialización de pesos aleatorios.
    - Optimización mediante descenso del gradiente.
    - Validación con datos de entrenamiento.
4. Visualización de resultados:
    - Gráfica de evolución del coste.
    - Mapa de calor de importancia de características por casa.
5. Guardado de los pesos óptimos del modelo en formato JSON.
    - Los pesos se almacenan en `output/model_weights.json`.

### 9. logreg_sgd_train.ipynb
1. Implementación de Descenso del Gradiente Estocástico (SGD):
   * Procesamiento de una muestra a la vez.
   * Actualización de pesos después de cada muestra.
   * Aleatorización del orden de las muestras.
2. Estructura del entrenamiento:
   * Carga de datos normalizados.
   * Preparación de matrices X e y.
   * Implementación de funciones softmax y cálculo de coste.
3. Proceso de entrenamiento SGD:
   * Entrenamiento por épocas.
   * Learning rate de 0.1.
   * 200 épocas de entrenamiento.
   * Early stopping con epsilon.
4. Visualización y resultados:
   * Gráfica de evolución del coste.
   * Mapa de calor de importancia de características.
   * Cálculo de precisión del modelo.
5. Guardado del modelo:
   * Almacenamiento de pesos en `model_weights.json`.

### 10. logreg_minibatch_train.ipynb
1. Implementación de Descenso del Gradiente Mini-Batch:
   * Procesamiento de subconjuntos de datos (batch_size=32).
   * Balance entre GD por lotes y SGD.
   * Actualización de pesos después de cada mini-batch.
2. Estructura del entrenamiento:
   * Carga de datos normalizados.
   * Preparación de matrices X e y.
   * Implementación de funciones softmax y cálculo de coste.
3. Proceso de entrenamiento Mini-Batch:
   * Entrenamiento por épocas con aleatorización.
   * Learning rate de 0.1.
   * 100 épocas de entrenamiento.
   * Early stopping con epsilon.
4. Visualización y resultados:
   * Gráfica de evolución del coste.
   * Mapa de calor de importancia de características.
   * Cálculo de precisión del modelo.
5. Guardado del modelo:
   * Almacenamiento de pesos en `model_weights.json`.

### 11. logreg_predict.md
1. Carga y preparación de datos:
   * Lectura del dataset de test normalizado.
   * Preparación de los datos de test con la función `prepare_test_data`.
2. Gestión de múltiples modelos:
   * Definición de pares modelo-output para tres versiones diferentes.
   * Procesamiento de cada par `model_weights{n}.json` y `houses{n}.csv`.
3. Predicción de casas:
   * Carga de pesos óptimos para cada modelo.
   * Cálculo de probabilidades y predicciones usando `make_house_predictions`.
   * Generación de predicciones para los tres modelos en paralelo.
4. Análisis comparativo:
   * Creación de una tabla comparativa para los primeros 5 estudiantes.
   * Visualización de probabilidades detalladas para cada casa y modelo.
   * Comparación de predicciones entre los diferentes modelos.
5. Generación y verificación de resultados:
   * Almacenamiento de predicciones en múltiples archivos de salida.
   * Verificación del formato del archivo `houses.csv`.
   * Comparación de las predicciones entre los diferentes modelos generados.

### 12. functions_documentation.md
1. Función Softmax:
   * Implementación de softmax para clasificación multinomial.
   * Explicación de la estabilidad numérica mediante desplazamiento.
   * Demostración con casos de prueba.
2. Función de Pérdida (Cross-entropy):
   * Adaptación para clasificación multinomial.
   * Cálculo de pérdida logarítmica con protección contra log(0).
   * Comparación con la versión binaria.
3. Función de Predicción:
   * Implementación simple usando softmax.
   * Generación de probabilidades para cada clase.
4. Gestión de Pesos:
   * Función para guardar pesos en formato JSON.
   * Conversión de matrices numpy a formato serializable.
5. Documentación General:
   * Explicaciones detalladas de cada función.
   * Ejemplos de uso y consideraciones prácticas.
   * Referencias al código funcional en `src/ft_functions.py`.

## Entrenamiento con las tres variantes de Descenso del Gradiente
- Tenemos implementadas las tres variantes del algoritmo de descenso de gradiente:
1. ✅ GD (`logreg_train.ipynb`)
2. ✅ SGD (`logreg_sgd_train.ipynb`)
3. ✅ Mini-Batch GD (`logreg_minibatch_train.ipynb`)