# Logistic Regression
Proyecto de regresión logística multinomial para clasificar estudiantes en las casas de Hogwarts.

## Estructura del proyecto

### datasets/
- dataset_train.csv
- dataset_test.csv

### notebooks/
0. main.ipynb
1. exploratory.ipynb
2. describe.ipynb
3. histogram.ipynb
4. scatter_plot.ipynb
5. pair_plot.ipynb
6. normalize.ipynb
7. logreg_train.ipynb
8. logreg_predict.ipynb

### src/
- ft_functions.py

### output/
- correlation_heatmap.png
- houses.csv

## Contenido de los Notebooks

### 1. exploratory.ipynb
1. Introducción: Explica que el proyecto es de Regresión Logística para clasificación multinomial.
2. Datos de entrada: Se mencionan dos conjuntos de datos (dataset_train.csv y dataset_test.csv).
3. Carga de datos: Se usa pandas para leer los archivos y convertirlos en DataFrame.
4. Estructura de los datos: Se analizan los datasets con df_train.info() y df_test.info().
5. Exploración inicial: Se revisan valores nulos y categorías únicas en variables nominales.
6. Análisis de correlaciones: Se genera un mapa de calor en 'output/correlation_heatmap.png'
7. Detecta correlaciones perfectas: Sugiere eliminar 'Astronomy'
8. Columna a eliminar: La columna a eliminar se guarda en 'output/column_to_drop.json'

### 2. describe.ipynb
1. Introducción: Explica que el Notebook realiza análisis estadístico descriptivo sobre los datos de entrenamiento.
2. Verificación del directorio: Se usa `os` para mostrar la ubicación actual del script.
3. Configuración del entorno: Se modifica el `sys.path` para importar funciones desde `src.ft_functions`.
4. Cálculo de métricas: Se define `calculate_metrics(df)` para obtener estadísticas de columnas numéricas.
5. Impresión de métricas: Se implementa `print_metrics_table(metrics)` para mostrar resultados en una tabla.
6. Análisis del dataset: `analyze_dataset()` carga los datos y ejecuta los cálculos estadísticos.

### 3. histogram.ipynb
1. Introducción: Genera y guarda un histograma comparando las distribuciones de puntuaciones entre las casas de Hogwarts para cada curso.
2. Carga de datos: Se lee el archivo `dataset_train.csv` y se convierte en un DataFrame de Pandas.
3. Selección de cursos: Se identifican las columnas correspondientes a los cursos dentro del DataFrame y se excluye 'Astronomy'
4. Creación de gráficos: Se genera una figura con subgráficos para cada curso, mostrando la distribución de puntuaciones por casa.
5. Grabación del png: Se graba el histograma en 'output/histogram.png'
6. Análisis de homogeneidad: Se responde a la pregunta sobre qué curso tiene una distribución homogénea entre todas las casas.

### 4. scatter_plot.ipynb
1. Propósito: Identificar las dos materias con mayor correlación en el conjunto de datos y visualizarlas mediante un diagrama de dispersión.
2. Procesamiento: Lee `dataset_train.csv`, elimina 'Astronomy' y calcula la matriz de correlación entre materias.
3. Análisis: Encuentra automáticamente las materias más correlacionadas ('History of Magic' y 'Flying') con un coeficiente de -0.896.
4. Limpieza: Elimina los registros con valores nulos en ambas características.
5. Visualización: Crea un gráfico de dispersión (scatter plot) de las dos materias con la correlación más alta. Incluye la línea de tendencia y el coeficiente de correlación.
6. Resultado: Guarda el gráfico en `output/scatter_plot.png`.

### 5. pair_plot.ipynb
1. Objetivo: Crear un pair plot para identificar las características más útiles para la regresión logística.
2. Carga de datos: Lee `dataset_train.csv` y extrae las columnas de cursos, excluyendo 'Astronomy'.
3. Limpieza: Elimina filas con datos faltantes en el DataFrame.
4. Visualización: Crea un 'pair plot' utilizando `seaborn`, que muestra la distribución de cada variable y las relaciones entre pares de variables.
5. Gráfico: Guardado en `output/pair_plot.png`.
6. Análisis de las visualizaciones: Cursos que muestran mejor separación entre las casas y por lo tanto son más útiles para la regresión logística:
    1. Defense Against the Dark Arts'
    2. 'Herbology'
    3. 'Potions'
    4. 'Charms'
    5. 'Flying' 
8. Identificación: Identifica los cursos que muestran mayor superposición y serían menos útiles para el modelo:  y cuáles serían más útiles para el modelo de regresión logística.
    - 'History of Magic'
    - 'Muggle Studies'
    - 'Ancient Runes'
    - 'Arithmancy'

### 6. normalize.ipynb
1. Limpieza y normalización de los dos DataFrames.
2. Imputación de datos faltantes en 'Defense Against the Dark Arts' usando la correlación perfecta con 'Astronomy', en train y test.
3. Eliminación de columnas innecesarias, incluyendo 'Astronomy'
4. Cálculo de la edad a partir de fechas
5. Conversión de datos categóricos a numéricos ('Best Hand' a `float`)
6. Normalización de variables numéricas.
    - Normalización con media ('mean') y desviación estandar ('standard deviation') de los datos de entrenamiento
    - Se procesa el conjunto de test de manera idéntica al de entrenamiento, usando los mismos parámetros de normalización.

### 7. logreg_train.ipynb
Se implementa un modelo de regresión logística multinomial con:
   - Función softmax para probabilidades multiclase
   - Función de pérdida cross-entropy
   - Descenso del gradiente para optimización

### 8. logreg_predict.ipynb
- Se genera un archivo de predicciones con la casa asignada a cada estudiante con los datos de test.
- Salida `houses.csv`: archivo con dos columnas (Index, Hogwarts House) que contiene las predicciones de casa para cada estudiante del conjunto de test