# Logistic Regression

## Estructura del proyecto

### datasets/
- dataset_train.csv
- dataset_test.csv

### notebooks/
0. main.ipynb
1. exploratory.ipynb
2. describe.ipynb
3. histogram.ipynb
4. scatter_plot.ipynb
5. pair_plot.ipynb
6. complete_data.ipynb
7. normalize.ipynb
8. logreg_train.ipynb
9. logreg_predict.ipynb

### src/
- ft_functions.py

### output/
- correlation_heatmap.png
- houses.csv

## Contenido de los Notebooks

### 1. exploratory.ipynb
1. Introducción: Explica que el proyecto es de Regresión Logística para clasificación multinomial.
2. Datos de entrada: Se mencionan dos conjuntos de datos (dataset_train.csv y dataset_test.csv).
3. Carga de datos: Se usa pandas para leer los archivos y convertirlos en DataFrame.
4. Estructura de los datos: Se analizan los datasets con df_train.info() y df_test.info().
5. Exploración inicial: Se revisan valores nulos y categorías únicas en variables nominales.
6. Análisis de correlaciones: Se genera un mapa de calor para visualizar la relación entre variables numéricas.

### 2. describe.ipynb
1. Introducción: Explica que el Notebook realiza análisis estadístico descriptivo sobre los datos de entrenamiento.
2. Verificación del directorio: Se usa `os` para mostrar la ubicación actual del script.
3. Configuración del entorno: Se modifica el `sys.path` para importar funciones desde `src.ft_functions`.
4. Cálculo de métricas: Se define `calculate_metrics(df)` para obtener estadísticas de columnas numéricas.
5. Impresión de métricas: Se implementa `print_metrics_table(metrics)` para mostrar resultados en una tabla.
6. Análisis del dataset: `analyze_dataset()` carga los datos y ejecuta los cálculos estadísticos.

### 3. histogram.ipynb
1. Introducción: Genera y guarda un histograma comparando las distribuciones de puntuaciones entre las casas de Hogwarts para cada curso.
2. Carga de datos: Se lee el archivo `dataset_train.csv` y se convierte en un DataFrame de Pandas.
3. Selección de cursos: Se identifican las columnas correspondientes a los cursos dentro del DataFrame.
4. Configuración del entorno: Se importa `sys` y se ajusta `sys.path` para incluir directorios superiores.
5. Creación de gráficos: Se genera una figura con subgráficos para cada curso, mostrando la distribución de puntuaciones por casa.
6. Análisis de homogeneidad: Se responde a la pregunta sobre qué curso tiene una distribución homogénea entre todas las casas.

### 4. scatter_plot.ipynb
1. Lee el archivo `dataset_train.csv` y se convierte en DataFrame de Pandas.
2. Se seleccionan las columnas que representan las materias (cursos)
3. Se elimina una columna específica del dataset basándose en un archivo JSON (`colum_to_drop.json`)
4. Calcular la matriz de correlación entre todas las materias, encontrando las dos materias con la correlación más alta en valor absoluto
5. Se eliminan las filas que contienen valores nulos en el dataframe.
6. Se crea un gráfico de dispersión (scatter plot) de las dos materias con la correlación más alta. Se añade una línea de tendencia y el coeficiente de correlación.
7. Muestra y guarda el gráfico en el archivo 'scatter_plot.png'.

### 5. pair_plot.ipynb
1. Lee el archivo 'dataset_train.csv' y lo convierte en un DataFrame de pandas.
3. Selecciona las columnas que representan los cursos (materias) del DataFrame.
4. Elimina una columna específica basándose en un archivo JSON ('colum_to_drop.json').
5. Elimina las filas con datos incompletos del DataFrame.
6. Crea un 'pair plot' utilizando `seaborn`, que muestra la distribución de cada variable y las relaciones entre pares de variables.
7. Incluye un análisis de las visualizaciones, destacando qué cursos muestran mejor separación entre las casas y cuáles serían más útiles para el modelo de regresión logística.
8. Menciona específicamente que cursos como 'Defense Against the Dark Arts', 'Herbology', 'Potions', 'Charms' y 'Flying' muestran buena separación entre casas.
9. Identifica los cursos que muestran mayor superposición y serían menos útiles para el modelo, como 'History of Magic', 'Muggle Studies','Ancient Runes', 'Arithmancy'.

### 6. complete_data.ipynb

### 7. normalize.ipynb

### 8. logreg_train.ipynb

### 9. logreg_predict.ipynb