# Caso práctico 3 [COLABORATIVO]: [OULAD Dataset](https://analyse.kmi.open.ac.uk/open-dataset)

## Librerías y variables reusables

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import pathlib
import seaborn as sns

# Ruta a los archivos (más ordenado y reutilizable)
processed_path = pathlib.Path("../data/processed").resolve()

## Exploración de datos de estudiante

In [None]:
# Cargar datos con columnas ordinales
df = pd.read_csv(processed_path/"studentInfo_ordinal.csv")

# Exploracion de datos
# Mostrar forma del dataset
print("Filas y columnas:", df.shape)

# Primeras filas
print("\nPrimeras filas:")
print(df.head())

# Valores nulos
print("\nValores nulos por columna:")
print(df.isnull().sum())

# Estadísticas básicas
print("\nEstadísticas básicas:")
print(df.describe(include='all'))


# Tablas pivote
pivot_table = df.pivot_table(index="gender", columns="code_module", values="final_result", aggfunc="count", fill_value=0)
print(pivot_table)

## Full Domain para Assessment y VLE

In [None]:
# Full Domain son todos los valores distintos de una columna

# Cargar datos
df_assess = pd.read_csv(processed_path/"assessments.csv")
df_vle = pd.read_csv(processed_path/"vle.csv")

# Mostrar dominio completo de 'assessment_type'
print("Tipos de assessment:")
print(df_assess["assessment_type"].value_counts())

# Mostrar dominio completo de 'activity_type'
print("\nTipos de actividad VLE:")
print(df_vle["activity_type"].value_counts())

# Visualización del dominio de tipos de assessment
plt.figure(figsize=(6, 4))
df_assess["assessment_type"].value_counts().plot(kind="bar", title="Tipos de Assessment", color="skyblue")
plt.xlabel("Tipo de assessment")
plt.ylabel("Cantidad")
plt.xticks(rotation=45)
plt.tight_layout()
plt.show()

# Visualización del dominio de tipos de actividad VLE
plt.figure(figsize=(8, 5))
df_vle["activity_type"].value_counts().plot(kind="bar", title="Tipos de Actividad VLE", color="orange")
plt.xlabel("Tipo de actividad VLE")
plt.ylabel("Cantidad")
plt.xticks(rotation=45)
plt.tight_layout()
plt.show()

## Matriz de Correlación entre Variables Ordinales

In [None]:
df = pd.read_csv(processed_path/"studentInfo_ordinal.csv")

# Seleccionar solo las columnas ordinales
ordinal_cols = ["highest_education_ord", "age_band_ord", "imd_band_ord", "final_result_ord"]

# Calcular la matriz de correlación
correlation_matrix = df[ordinal_cols].corr()

# Visualizar con un heatmap
plt.figure(figsize=(8, 6))
sns.heatmap(correlation_matrix, annot=True, cmap="coolwarm", fmt=".2f")
plt.title("Matriz de Correlación entre Variables Ordinales")
plt.tight_layout()
plt.show()