# SISTEMA DE RECOMENDACIÓN DE EJERCICIOS DE PROGRAMACIÓN

## 1. COMPRENCIÓN DEL PROBLEMA

Dentro de la Universidad Andrés Bello, los estudiantes de carreras de ingeniería deben cursar la asignatura de "Introducción a la Programación", ya que necesitan tener conocimientos básicos, medios o avanzados de programación, dependiendo de la carrera que estén cursando y en qué año van.

La problemática surge cuando ciertos estudiantes reprueban o sacan notas mínimas en las pruebas y trabajos de la asignatura. Siendo esta la primera asignatura de programación de ciertas carreras, puede marcar seriamente el desempeño del estudiante en el futuro, llegando a provocar que algunos tengan deficiencias en conocimientos esenciales para sus carreras.

Además, los estudiantes a menudo carecen de orientación personalizada para su aprendizaje, lo que puede resultar en un bajo rendimiento en los métodos de estudio, ocasionando un bajo conocimiento o baja nota en la asignatura.

Por tanto, este proyecto busca desarrollar e implementar un sistema de recomendación de ejercicios de programación para estudiantes universitarios de ingeniería de la Universidad Andrés Bello. Este sistema personalizará las sugerencias de ejercicios según el nivel de habilidad, preferencias individuales y objetivos de aprendizaje de cada estudiante.

## 2. COMPRENCIÓN DE LOS DATOS

### MÓDULOS


In [None]:
import numpy as np 
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

In [None]:
## directorio donde estan los datos originales entregados por la universidad. 
VAR_DIR_DATA_ORIGINAL = './data/original'

## df_catalogo es un dataset que contiene los ejercicios de programación que estaban disponibles para ser realizados dentro de la pagina web.
df_catalogo = pd.read_csv(f"{VAR_DIR_DATA_ORIGINAL}/catalogo.csv", sep=";", encoding="latin1")

## el dataset 'ejercicios_edx.xlsx' es una extension del dataset catalogo, ya que contiene un descripcion más amplia en cuestion de puntaje y descripcion del ejercicio. 
hito1 = pd.read_excel(f"{VAR_DIR_DATA_ORIGINAL}/ejercicios_edx.xlsx", sheet_name='Hito1')
hito2 = pd.read_excel(f"{VAR_DIR_DATA_ORIGINAL}/ejercicios_edx.xlsx", sheet_name='Hito2')
hito3 = pd.read_excel(f"{VAR_DIR_DATA_ORIGINAL}/ejercicios_edx.xlsx", sheet_name='Hito3')
hito4 = pd.read_excel(f"{VAR_DIR_DATA_ORIGINAL}/ejercicios_edx.xlsx", sheet_name='Hito4')
# clasificaciones = pd.read_excel(f"{VAR_DIR_DATA_ORIGINAL}/ejercicios_edx.xlsx", sheet_name='clasificacion')
df_unido = pd.concat([hito1, hito2, hito3, hito4], ignore_index=True)
df_unido.columns = ['codigo', 'puntos','nombre', 'enunciado', 'Abstracción', 'Descomposición', 'Patrones', 'Algoritmo']

## dataset final para el conjuntos de ejercicios en el catalogo
df_catalogo = pd.merge(df_catalogo, df_unido, on='nombre', how='inner')


## df_data_a es un dataset almacena rgistros generales de los estudiantes durante un cierto periodo de tiempo, supuestamente con este dataset durante un semestre en la universidad, con datos del curso en general. 
df_data_a = pd.read_csv(f"{VAR_DIR_DATA_ORIGINAL}/dataset_a.csv", sep=";", encoding="latin1")

## df_data_ax es el mismo dataset almacena los registros generales como el df_data_a pero en formato de libro de excel. 
df_data_ax = pd.read_excel(f"{VAR_DIR_DATA_ORIGINAL}/dataset_a.xlsx")

## df_data_a_2021 es un dataset que almacena algunos registros globales de los estudiantes durante cierto periodo de tiempo, un semestre natural de la universidad, con los cuales realizaron en la pagina web en 2021 como su nombre lo indica. 
df_data_a_2021 = pd.read_csv(f"{VAR_DIR_DATA_ORIGINAL}/dataset_a_2021.csv", sep=";", encoding="latin1")

### DIMENSIONES DE LOS DATASETS

In [None]:
from models.utils.analisis import dimensiones_dataframe

In [None]:
# CATALOGO
print(dimensiones_dataframe(df_catalogo))

# DATA_A
print(dimensiones_dataframe(df_data_a))

# DATA_A (EXCEL)
print(dimensiones_dataframe(df_data_ax))

# DATA_A_2021
print(dimensiones_dataframe(df_data_a_2021))

### INFORMACIÓN DE LOS DATASETS

In [None]:
# VISUALIZACION: CATALOGO
df_catalogo.head()

In [None]:
# VISUALIZACION: DATA_A
df_data_a.head()

In [None]:
# VISUALIZACION: DATA_AX
df_data_ax.head()

In [None]:
# VISUALIZACION: DATA_A_2021
df_data_a_2021.head()

#### NOTA
Utilizando la función head() que muestra las primeras 5 filas de cada dataset, se observó lo siguiente:
+ Tanto para el dataset 'data_a' como el dataset 'data_ax' existen datos ocultos por protección a la privacidad de los alumnos y profesores, por tanto, estas columnas no van a resultar de gran importancia para este proyecto. 
+ Tambien se confirma que tanto el dataset 'data_a' como el dataset 'data_ax'tienen las mismas columnas, por lo tanto, se revisara si contienen los mismos datos. 
+ Por otro lado,  en el dataset 'data_a_2021' existen filas faltantes las cuales no llegan a concordar con la semejanza de datos del dataset 'data_a', por lo que, se puede decir que no se pudo recopilar bien la información de los alumnos. Tambien, se destaca que el este dataset tiene muchos datos faltantes. 

In [None]:
# INFORMACIÓN DE LAS VARIABLES DEL DATASET: CATALOGO
df_catalogo.info()

In [None]:
# INFORMACIÓN DE LAS VARIABLES DEL DATASET: DATA_A
df_data_a.info()

In [None]:
# INFORMACIÓN DE LAS VARIABLES DEL DATASET: DATA_AX
df_data_ax.info()

In [None]:
# INFORMACIÓN DE LAS VARIABLES DEL DATASET: DATA_A_2021
df_data_a_2021.info()

### DATOS FALTANTES

In [None]:
from models.utils.analisis import datos_faltantes_dataframe

In [None]:
# DATOS FALTANTES: CATALOGO
datos_faltantes_dataframe(df_catalogo)

In [None]:
# DATOS FALTANTES: DATA_A
datos_faltantes_dataframe(df_data_a)

In [None]:
# DATOS FALTANTES: DATA_AX
datos_faltantes_dataframe(df_data_ax)

In [None]:
# DATOS FALTANTES: DATA_A_2021
datos_faltantes_dataframe(df_data_a_2021)

#### NOTA

+ Al unir el dataset de ejercicios, df_catalogo, con la información adicional extraída del dataset ejercicios_edx.xlsx, se observó que existen cuatro columnas que no aportan información relevante, ya que no contienen datos. Estas columnas son: 'Abstracción', 'Descomposición', 'Patrones' y 'Algoritmo'.

+ Tanto el dataset 'data_a' y 'data_ax' tiene multiples columnas con datos faltantes, la mayoria tienen que ver con los ejercicios que realizaron los estudiantes. Por tanto, se puede suponer que los estudiantes hacen mas ejercicios de los Hito 1 y 2, siendo que la mayoria de columnas del hito 3 y 4 tienen un 100% de datos faltantes. 

+ El dataset 'data_a_2021.csv' tienen el mismo problema que el anterior, se nota que existen semejanzas de atributos con mayores porcentajes de datos faltantes. 

+ Las columnas que se repiten como Seq1, Seq2, Seq3 y Seq4, representan la secuencia de ejercicios realizados en cada hito por los estudiantes, es decir, al tener Seq3 y Seq4 todas sus datos vacios en esas columnas, se puede afirmar que los estudiantes solo realizaron ejercicos del Hito 1, en su mayoria, y algunos del Hito 2.

### MÉTRICAS DE LOS DATASETS

In [None]:
# DATOS ESTADISTICOS: CATALOGO
df_catalogo.describe().T

In [None]:
# DATOS ESTADISTICOS: DATA_A
df_data_a.describe().T

In [None]:
# DATOS ESTADISTICOS: DATA_AX
df_data_ax.describe().T

In [None]:
# DATOS ESTADISTICOS: DATA_A_2021
df_data_a_2021.describe().T

### CORRELACIÓN DE DATOS (OPCIONAL)

In [None]:
from models.utils.analisis import correlacion_variables_dataframe

In [None]:
# CORRELACIÓN DE VARIABLES: CATALOGO
correlacion_variables_dataframe(df_catalogo, 'complexity')

In [None]:
# CORRELACIÓN DE VARIABLES: DATA_A
correlacion_variables_dataframe(df_data_a, 'final')

In [None]:
# CORRELACIÓN DE VARIABLES: DATA_AX
correlacion_variables_dataframe(df_data_ax, 'final')

In [None]:
# CORRELACIÓN DE VARIABLES: DATA_A_2021
correlacion_variables_dataframe(df_data_a_2021, 'sol1')

#### NOTA
+  En los ejercios se puede notas que la correlación, si es que se quiere realizar con la variable 'complexity' se nota que esta influenciada directamente con la variable 'skill' e 'hito', una en mayor medida que la otra. Tomando en cuenta que las variables 'Skill' y 'Knowledge' vienen de las variables one-hot-encoded en binario de 4 bits las cuales al unirse en un numero binario de 8 bits crean el valor de la variable 'complexity'.

+ Con respecto a los dataset 'data_a' y 'data_ax' al correlacionarlos con alguna variable, en este caso, con la variable 'final' que representa la nota final del semestre que recibe el estudiante al final del semestre; se puede observar como las solemnes 4 y 3 estan igualmente correlacionadas con la nota final del estudiante. Sin embargo, no se puede apreciar muy bien, ya que en los registros de los dataset no se encuentran algun intereses de los estudiantes en la realizacion de los ejercicios de los hitos 3 y 4. 

+ Esto pasa en mayor medida con el dataset 'data_a_2021' ya que solo se puede correlacionar la variable 'sol1' que representa el puntaje de la solemne 1 que saco el estudiante. 


### GRÁFICOS

In [None]:
# PALETA DE COLORES PARA LOS GRÁFICOS
colores = sns.color_palette("muted")

#### GRÁFICOS 'df_catalogo'

In [None]:
# DISTRIBUCIÓN DE LOS DATOS: CATALOGO  
df_catalogo.hist(figsize=(22, 20), color=colores[0])
plt.show()

In [None]:
fig, axs = plt.subplots(2, 2, figsize=(12, 10))
fig.tight_layout(pad=5.0)
palette = "muted"

# GRAFICO DE CLASIFICAÓN DE LOS EJERCICIOS => CONOCIMIENTOS VS HABILIDADES SEGÚN HITOS 
sns.stripplot(data=df_catalogo, x='knowledge', y='skill', hue='hito', palette=palette, dodge=True, ax=axs[0, 0])
axs[0, 0].set_title('Distribución de ejercicios: Knowledge vs Skill según Hito')

# GRAFICO DE CLASIFICAÓN DE LOS EJERCICIOS => COMPLEJIDAD VS PUNTOS SEGÚN HITOS 
sns.stripplot(data=df_catalogo, x="complexity", y="puntos", hue="hito", palette=palette, dodge=True, ax=axs[0, 1])
axs[0, 1].set_title('Distribución de ejercicios: Complexity vs Puntos según Hito')

# HISTOGRAMA DE LA HABILIDAD DE LOS EJERCICIOS
sns.histplot(data=df_catalogo, x='skill', kde=True, color=sns.color_palette(palette)[0], ax=axs[1, 0])
axs[1, 0].set_title('Histograma de los ejercios según su habilidad (Skill)')

# HISTOGRAMA DEL CONOCIMIENTO DE LOS EJERCICIOS
sns.histplot(data=df_catalogo, x='knowledge', kde=True, color=sns.color_palette(palette)[1], ax=axs[1, 1])
axs[1, 1].set_title('Histograma de los ejercios según su Conocimiento (Knowledge)')

plt.show()


#### GRÁFICOS 'df_data_a'

In [None]:
# DISTRIBUCIÓN DE LOS DATOS: DATA_A
df_data_a.hist(figsize=(30,30), color=colores[1])
plt.show()

In [None]:
plt.figure(figsize=(12, 6))

# GRÁFICO: ¿CUANTOS ESTUDIANTES SEGUN SU ESTADO (A) O (R) ESTAN REGISTRADOS EN EL DATASET?
plot = sns.catplot(data=df_data_a, x="estado", kind="count", height=6, aspect=1.5, palette="muted", hue="estado", legend=False)
plot.set_axis_labels("ESTADO DE APROBACIÓN DE LA ASIGNATURA", "CANTIDAD DE ESTUDIANTES")
total = len(df_data_a)

for ax in plot.axes.flat:
    for p in ax.patches:
        count = int(p.get_height())
        pct = 100 * count / total
        ax.annotate(f'{count} ({pct:.1f}%)', 
                    (p.get_x() + p.get_width() / 2, p.get_height()), 
                    ha='center', va='bottom', fontsize=10, color='black', fontweight='bold')

plt.title("CLASIFICACIÓN DE ESTUDIANTES SEGÚN SU ESTADO")
plt.show()

In [None]:
# CLASIFICACION DE ESTUDIANTES SEGUN SU NOTA DE PRESENTACION 
notas_presentacion = df_data_a['np'].apply(lambda x: 'Nota Inferior a 4.0' if x <= 4 else 'Nota Superior a 4.0').value_counts()

colors = sns.color_palette("muted", len(notas_presentacion))

def autopct_format(pct, values):
    total = sum(values)
    val = int(round(pct * total / 100.0))
    return f'{pct:.1f}% ({val})'

# Crear la gráfica de pastel
plt.figure(figsize=(8, 8))
plt.title("CLASIFICACÍON DE ESTUDAINTES SEGÚN SU NOTA DE PRESENTACIÓN", size=14)
plt.pie(
    notas_presentacion, 
    colors=colors, 
    labels=notas_presentacion.index, 
    textprops={'fontsize': 12}, 
    autopct=lambda pct: autopct_format(pct, notas_presentacion),
    shadow=True
)
plt.legend(labels=notas_presentacion.index, prop={'size': 12}, loc='lower center', ncols=2)

plt.show()

In [None]:
# DISTRIBUCION DE NOTAS DE SOLEMNES DE ESTUDIANTES SEGUN SU ESTADO DE APROVACION DE LA ASIGNATURA
aux_data = df_data_a[['estado', 'sol1', 'sol2', 'sol3', 'sol4']]

# SE AGRUPA LOS ESTUDIANTES SEGUN SU ESTADO Y LUEGO SE SACA EL PROMEDIO DE NOTAS OBTENIDAS DE LA POBLACION DE ESTUDIANTES REGISTRADOS
aux_data_grouped = aux_data.groupby('estado').mean()

width = 0.1
multiplier = 0
x = np.arange(len(aux_data_grouped.index))
colors = sns.color_palette("muted", len(aux_data_grouped.columns))

fig, ax = plt.subplots(layout='constrained')
fig.set_size_inches((10, 6))

for i, (attribute, measurement) in enumerate(aux_data_grouped.items()):
    offset = width * multiplier
    rects = ax.bar(x + offset, measurement, width, label=attribute, color=colors[i])
    ax.bar_label(rects, padding=2)
    multiplier += 1.1

ax.set_title('DISTRIBUCIÓN DE PROMEDIO DE NOTAS DE SOLEMNES DE ESTUDIANTES SEGÚN SU ESTADO DE APROVACIÍON')
ax.set_ylabel('PROMEDIO DE NOTA DE LAS SOLEMNES')
ax.set_xlabel('ESTADO DE APROVACIÓN DE LA ASIGNATURA')
ax.set_xticks(x + width * 1.5, aux_data_grouped.index)
ax.set_ylim(0, aux_data_grouped.to_numpy().max() * 1.1)
ax.legend(loc='upper center', ncols=4)
plt.show()

In [None]:
# AGRUPAR A ESTUDIANTES POR PROGRAMA (CARRERA)
programas = df_data_a.groupby(df_data_a['programa']).size()

def autopct_format(values):
    def my_format(pct):
        total = sum(values)
        val = int(round(pct * total / 100.0))
        return f'{pct:.1f}% ({val})'
    return my_format

plt.figure(figsize=(10, 10))
plt.title("CLASIFICACIÓN DE ESTUDIANTES SEGÚN SU PROGRAMA", size=16)
plt.pie(
    programas, 
    colors=colores, 
    labels=programas.index, 
    labeldistance=1.1, 
    textprops={'fontsize': 12}, 
    autopct=autopct_format(programas),
    shadow=True
)
plt.legend(labels=programas.index, prop={'size': 10}, loc='upper left', bbox_to_anchor=(-0.3, 0.95))
plt.show()

#### GRÁFICOS 'df_data_a_2021'

In [None]:
# DISTRIBUCIÓN DE LOS DATOS: DATA_A_2021
df_data_a_2021.hist(figsize=(30, 25), color=colores[2])
plt.show()

In [None]:
# FUENTE: https://programacionacademica.unab.cl/

df_data_a_2021['programa'] = df_data_a_2021['programa'].replace({
    'UNAB12100':'INGENIERIA CIVIL INDUSTRIAL',
    'UNAB22115':'INGENIERIA CIVIL INDUSTRIAL',
    'UNAB22100':'INGENIERIA CIVIL INDUSTRIAL',
    'UNAB22510':'INGENIERIA INDUSTRIAL',
    'UNAB12510':'INGENIERIA INDUSTRIAL',
    'UNAB22505':'INGENIERIA INDUSTRIAL',
    'UNAB21503':'INGENIERIA EN COMPUTACION E INFORMATICA',
    'UNAB11500':'INGENIERIA EN COMPUTACION E INFORMATICA',
    'UNAB21500':'INGENIERIA EN COMPUTACION E INFORMATICA',
    'UNAB12210':'INGENIERIA CIVIL INFORMATICA',
    'UNAB18000':'BACHILLERATO EN CIENCIAS',
    'UNAB16507':'ED. CONTINUA - ECONOMIA Y NEG',
    'UNAB35636':'MAG. EN INGENIERIA INDUSTRIAL',
    'UNAB10100':'PROG. DE INTERCAMBIO',
})

In [None]:
programas = df_data_a_2021['programa'].value_counts()

fig, ax = plt.subplots(figsize=(25, 10))  
sns.barplot(x=programas.values, y=programas.index, orient='h', hue=programas.index, palette='muted', dodge=False, ax=ax)
total_estudiantes = sum(programas.values)

for container in ax.containers:
    for bar in container:
        porcentaje = (bar.get_width() / total_estudiantes) * 100
        ax.bar_label(container, labels=[f'{int(bar.get_width())} ({porcentaje:.1f}%)' for bar in container], fontsize=9)

plt.title('DISTRIBUCIÓN DE ESTUDIANTES SEGÚN SU PROGRAMA DE ESTUDIO (CARRERA)', fontsize=20)
plt.xlabel('CANTIDAD DE ESTUDIANTES')
plt.ylabel('PROGRAMAS DE ESTUDIO DE LOS ESTUDIANTES')
plt.show()


In [None]:
rangos = [(1.0, 2.0), (2.0, 3.0), (3.0, 4.0), (4.0, 5.0), (5.0, 6.0), (6.0, 7.0), (7.0, 7.1)]

def contar_personas_en_rango(df, rango):
    rango_inferior, rango_superior = rango
    return df[(df['sol1'] >= rango_inferior) & (df['sol1'] < rango_superior)].shape[0]

conteo_por_rango = []
for rango in rangos:
    conteo = contar_personas_en_rango(df_data_a_2021, rango)
    conteo_por_rango.append((rango, conteo))

rangos_str = [f"{rango[0]:.1f}-{rango[1]:.1f}" for rango in rangos]
conteos = [conteo for rango, conteo in conteo_por_rango]
total_personas = sum(conteos)

plt.figure(figsize=(15, 10))
bars = plt.bar(rangos_str, conteos, color=colores)

for bar in bars:
    yval = bar.get_height()
    porcentaje = (yval / total_personas) * 100
    plt.text(bar.get_x() + bar.get_width()/2, yval, f'{int(yval)}\n({porcentaje:.1f}%)', ha='center', va='bottom')

plt.title('CLASIFICACIÓN DE ESTUDIANTES SEGÚN RANGOS DE NOTAS DE LA SOLEMNE 1', size=16)
plt.xlabel('RANGOS DE NOTAS')
plt.ylabel('CANTIDAD DE ESTUDIANTES DENTRO DEL RANGO')
plt.show()


In [None]:
estados = pd.DataFrame({
    'Aprobados': df_data_a_2021[df_data_a_2021['sol1'] >= 4.0].groupby('programa').size(),
    'Reprobados': df_data_a_2021[df_data_a_2021['sol1'] < 4.0].groupby('programa').size()
}).fillna(0).astype(int)

height = 0.35
y = np.arange(len(estados))
colors = sns.color_palette("muted", n_colors=len(estados.columns))

fig, ax = plt.subplots(figsize=(14, 6))

for idx, (attribute, measurement) in enumerate(estados.items()):
    offset = height * idx
    rects = ax.barh(y + offset, measurement, height, label=attribute, color=colors[idx])
    ax.bar_label(rects, padding=3)


ax.set_title('DISTRIBUCIÓN DE ESTUDIANTES SEGÚN SU PROGRAMA CLASIFICADOS EN BASE A SU ESTADO')
ax.set_xlabel('CANTIDAD DE ESTUDIANTES')
ax.set_yticks(y + height / 2)
ax.set_yticklabels(estados.index)
ax.legend(title='Estado', loc='lower right')
ax.set_xlim(0, estados.max().max() + 10)
plt.show()

## 3. PREPARACIÓN DE LOS DATOS

In [1]:
import numpy as np 
import pandas as pd
import warnings as war

war.filterwarnings('ignore')

VAR_DIR_DATA_ORIGINAL = './data/original'
VAR_DIR_DATA_CLEANING = './data/cleaning'

### EJERCICIOS (df_catalogo)

In [2]:
# CARGAR DATASETS DE CATALOGO DE EJERCICIOS
df_catalogo = pd.read_csv(f"{VAR_DIR_DATA_ORIGINAL}/catalogo.csv", sep=";", encoding="latin1")

# Convertir la columna 'hito' a una representación binaria de 4 bits.
# La función apply aplica la conversión solo a valores entre 1 y 4, retornando None para otros valores.
hitos = df_catalogo['hito'].apply(lambda x: format(x, '04b') if 1 <= x <= 4 else None)

# Crear columnas h1, h2, h3, h4 a partir de la representación binaria obtenida.
# Cada columna h1 a h4 representa un bit de la conversión binaria de 'hito'.
df_catalogo['h1'] = hitos.apply(lambda x: x[0] if x else None)  # Primer bit (más significativo)
df_catalogo['h2'] = hitos.apply(lambda x: x[1] if x else None)  # Segundo bit
df_catalogo['h3'] = hitos.apply(lambda x: x[2] if x else None)  # Tercer bit
df_catalogo['h4'] = hitos.apply(lambda x: x[3] if x else None)  # Cuarto bit (menos significativo)

# Crear una nueva columna 'id_ejercicio' que asigna un identificador único a cada ejercicio.
# Esto se realiza utilizando un rango basado en el número de filas en el DataFrame.
df_catalogo['id_ejercicio'] = range(len(df_catalogo))

# Reorganizar las columnas del DataFrame, manteniendo solo las columnas relevantes para el análisis.
df_catalogo = df_catalogo[['id_ejercicio', 'nombre', 'h1', 'h2', 'h3', 'h4', 's1', 's2', 's3', 's4', 'k1', 'k2', 'k3', 'k4', 'hito', 'skill', 'knowledge', 'complexity']]

In [3]:
df_catalogo.head(1)

Unnamed: 0,id_ejercicio,nombre,h1,h2,h3,h4,s1,s2,s3,s4,k1,k2,k3,k4,hito,skill,knowledge,complexity
0,0,Cálculo del dígito verificador del rut,0,0,0,1,0,0,0,1,0,1,1,1,1,1,7,23


In [4]:
# Crear una nueva columna 'complexity12' que representa la complejidad de cada ejercicio como un número entero.
# Se concatena la representación en string de las columnas relevantes, se rellena con ceros a la izquierda
# hasta alcanzar 12 bits, y se convierte la cadena binaria resultante a un entero.
df_catalogo['complexity12'] = (
    df_catalogo[['h1', 'h2', 'h3', 'h4', 's1', 's2', 's3', 's4', 'k1', 'k2', 'k3', 'k4']]
    .astype(str)                            # Convertir a string para concatenar
    .agg(''.join, axis=1)                   # Concatenar las columnas en una sola cadena
    .apply(lambda x: int(x.zfill(12), 2))   # Convertir la cadena binaria a entero
)

In [5]:
df_catalogo.head(1)

Unnamed: 0,id_ejercicio,nombre,h1,h2,h3,h4,s1,s2,s3,s4,k1,k2,k3,k4,hito,skill,knowledge,complexity,complexity12
0,0,Cálculo del dígito verificador del rut,0,0,0,1,0,0,0,1,0,1,1,1,1,1,7,23,279


In [6]:
# CARGAR DATOS EXTRAS DEL ARCHIVO EJERCICIO_EDX.XLSX PARA OBTENER MAS INFORMACION DE LOS EJERCICIOS
hito1 = pd.read_excel(f"{VAR_DIR_DATA_ORIGINAL}/ejercicios_edx.xlsx", sheet_name='Hito1')
hito2 = pd.read_excel(f"{VAR_DIR_DATA_ORIGINAL}/ejercicios_edx.xlsx", sheet_name='Hito2')
hito3 = pd.read_excel(f"{VAR_DIR_DATA_ORIGINAL}/ejercicios_edx.xlsx", sheet_name='Hito3')
hito4 = pd.read_excel(f"{VAR_DIR_DATA_ORIGINAL}/ejercicios_edx.xlsx", sheet_name='Hito4')
df_catalogo_extra = pd.concat([hito1, hito2, hito3, hito4], ignore_index=True)
df_catalogo_extra.columns = ['codigo', 'puntos','nombre', 'enunciado', 'abstracción', 'descomposición', 'patrones', 'algoritmo']
df_catalogo_extra = df_catalogo_extra.drop_duplicates(subset=['nombre'], keep='first')

In [7]:
import re

def formatear_texto(texto):
    if isinstance(texto, str):
        texto = texto.strip().lower()  # Eliminar espacios y convertir a minúsculas
        texto = re.sub(r'[^\w\s]', '', texto)  # Eliminar caracteres especiales
        texto = ' '.join(texto.split())  # Eliminar múltiplos espacios
    return texto

df_catalogo_extra['enunciado'] = df_catalogo_extra['enunciado'].apply(formatear_texto)

In [8]:
df_catalogo_extra.head()

Unnamed: 0,codigo,puntos,nombre,enunciado,abstracción,descomposición,patrones,algoritmo
0,hito1_ej6,1,Ordenar tres números,escribe un programa que reciba tres números en...,,,,
1,tema1_ej1,1,Suma de los N primeros números naturales,la suma de los primeros n numeros naturales es...,,,,
2,hito1_ej1,1,Nota Final,realiza un programa para preguntar al usuario ...,,,,
3,hito1_ej2,2,Contestador Automático,escribe un programa para contestar automáticam...,,,,
4,hito1_ej3,2,Aprobación de Créditos,un banco desea implementar una política de ate...,,,,


In [9]:
from models.utils.analisis import datos_faltantes_dataframe

datos_faltantes_dataframe(df_catalogo_extra)

Unnamed: 0,Columna,Valores Faltantes,Porcentaje
0,abstracción,50.0,100.0
1,descomposición,50.0,100.0
2,patrones,50.0,100.0
3,algoritmo,50.0,100.0


In [10]:
df_catalogo_extra.drop(labels=['codigo', 'abstracción', 'descomposición', 'patrones', 'algoritmo'], axis=1, inplace=True)
df_catalogo_extra.head()

Unnamed: 0,puntos,nombre,enunciado
0,1,Ordenar tres números,escribe un programa que reciba tres números en...
1,1,Suma de los N primeros números naturales,la suma de los primeros n numeros naturales es...
2,1,Nota Final,realiza un programa para preguntar al usuario ...
3,2,Contestador Automático,escribe un programa para contestar automáticam...
4,2,Aprobación de Créditos,un banco desea implementar una política de ate...


In [11]:
df_catalogo = pd.merge(df_catalogo, df_catalogo_extra, on='nombre', how='left')

In [12]:
datos_faltantes_dataframe(df_catalogo)

Unnamed: 0,Columna,Valores Faltantes,Porcentaje
0,puntos,2.0,3.773585
1,enunciado,2.0,3.773585


In [13]:
df_catalogo[df_catalogo['puntos'].isna()]

Unnamed: 0,id_ejercicio,nombre,h1,h2,h3,h4,s1,s2,s3,s4,...,k2,k3,k4,hito,skill,knowledge,complexity,complexity12,puntos,enunciado
20,20,Multiplicación de Matrices,0,0,1,1,0,1,0,0,...,1,1,1,3,4,7,71,839,,
46,46,Pokemon,0,0,1,1,0,0,1,1,...,1,1,1,3,3,15,63,831,,


In [14]:
df_catalogo['enunciado'] = df_catalogo['enunciado'].fillna(df_catalogo['nombre'])

In [15]:
df_catalogo[df_catalogo['puntos'].isna()]

Unnamed: 0,id_ejercicio,nombre,h1,h2,h3,h4,s1,s2,s3,s4,...,k2,k3,k4,hito,skill,knowledge,complexity,complexity12,puntos,enunciado
20,20,Multiplicación de Matrices,0,0,1,1,0,1,0,0,...,1,1,1,3,4,7,71,839,,Multiplicación de Matrices
46,46,Pokemon,0,0,1,1,0,0,1,1,...,1,1,1,3,3,15,63,831,,Pokemon


In [16]:
# Calcular el promedio de la columna 'puntos' y redondearlo
promedio_puntos = df_catalogo['puntos'].mean()
df_catalogo['puntos'] = df_catalogo['puntos'].fillna(int(promedio_puntos))

In [17]:
df_catalogo[df_catalogo['puntos'].isna()]

Unnamed: 0,id_ejercicio,nombre,h1,h2,h3,h4,s1,s2,s3,s4,...,k2,k3,k4,hito,skill,knowledge,complexity,complexity12,puntos,enunciado


In [18]:
df_catalogo.head(10)

Unnamed: 0,id_ejercicio,nombre,h1,h2,h3,h4,s1,s2,s3,s4,...,k2,k3,k4,hito,skill,knowledge,complexity,complexity12,puntos,enunciado
0,0,Cálculo del dígito verificador del rut,0,0,0,1,0,0,0,1,...,1,1,1,1,1,7,23,279,2.0,escribe un programa que reciba como dato un nú...
1,1,Calculadora Geométrica,0,0,1,0,0,0,0,1,...,0,0,1,2,1,1,17,529,2.0,construye un programa que permita calcular el ...
2,2,Subsecuencias de ADN,0,0,1,0,0,0,1,1,...,1,1,1,2,3,7,55,567,5.0,escribe un programa que reciba como entrada un...
3,3,Números Primos,0,0,0,1,0,0,0,0,...,0,1,1,1,0,3,3,259,2.0,escribe una función llamada es_primo que retor...
4,4,Nota Final,0,0,0,1,0,0,0,0,...,0,0,1,1,0,1,1,257,1.0,realiza un programa para preguntar al usuario ...
5,5,Validador de Expresiones Matemáticas,0,1,0,0,1,0,0,0,...,1,1,1,4,8,7,135,1159,3.0,escribe la función recursiva validar_expresion...
6,6,Suma de los divisores de un número,0,0,1,0,0,0,0,1,...,0,1,1,2,1,3,19,531,2.0,crea una función que calcule la suma de los di...
7,7,Resolver un sistema de ecuaciones,0,0,0,1,0,0,0,0,...,0,0,1,1,0,1,1,257,1.0,escribe un programa que resuelva un sistema de...
8,8,Distancia Levenshtein,0,0,1,0,0,0,1,1,...,1,1,1,2,3,7,55,567,7.0,la distancia levenshtein corresponde al menor ...
9,9,Validar Secuencias de ADN,0,0,1,0,0,0,1,0,...,1,1,1,2,2,7,39,551,3.0,escribe un programa que reciba como entrada un...


In [19]:
df_evaluacion = pd.read_csv(f"{VAR_DIR_DATA_ORIGINAL}/evaluacion.csv", sep=";", encoding="latin1")

In [20]:
def calcular_puntaje_personalizado(row, cols: list[str]) -> int:
    grupo = row[cols]
    puntaje = 15 * (sum(grupo)/len(cols))
    return int(puntaje)

In [21]:
df_evaluacion.columns = ['codigo', 'puntos', 'id', 'nombre', 'dificultad', 'score_a1','score_a2', 'score_a3', 'score_a4', 'score_d1', 'score_d2', 'score_d3', 'score_d4', 'score_p1', 'score_p2', 'score_p3', 'score_p4', 'score_s1', 'score_s2', 'score_s3', 'score_s4']
df_evaluacion['score_a'] = df_evaluacion.apply(lambda row: calcular_puntaje_personalizado(row, ['score_a1','score_a2', 'score_a3', 'score_a4']), axis=1)
df_evaluacion['score_d'] = df_evaluacion.apply(lambda row: calcular_puntaje_personalizado(row, ['score_d1', 'score_d2', 'score_d3', 'score_d4']), axis=1)
df_evaluacion['score_p'] = df_evaluacion.apply(lambda row: calcular_puntaje_personalizado(row, ['score_p1', 'score_p2', 'score_p3', 'score_p4']), axis=1)
df_evaluacion['score_s'] = df_evaluacion.apply(lambda row: calcular_puntaje_personalizado(row, ['score_s1', 'score_s2', 'score_s3', 'score_s4']), axis=1)

In [22]:
df_evaluacion.head()

Unnamed: 0,codigo,puntos,id,nombre,dificultad,score_a1,score_a2,score_a3,score_a4,score_d1,...,score_p3,score_p4,score_s1,score_s2,score_s3,score_s4,score_a,score_d,score_p,score_s
0,hito1_ej6,1,25,Ordenar tres nÃºmeros,1.25,1.0,0.0,0.25,1.0,1.0,...,0.0,1.0,0.25,0.0,0.0,0.0,8,8,4,0
1,tema1_ej1,1,17,Suma de los N primeros nÃºmeros naturales,1.25,1.0,0.0,0.25,1.0,0.0,...,0.0,1.0,0.25,0.0,0.0,0.0,8,0,3,0
2,hito1_ej1,1,4,Nota Final,1.25,1.0,0.0,0.25,1.0,0.25,...,0.0,0.75,0.25,0.0,0.0,0.0,8,1,2,0
3,hito1_ej2,2,26,Contestador AutomÃ¡tico,3.0,1.0,0.25,0.25,1.0,0.25,...,0.25,0.25,0.0,0.25,0.0,0.0,9,4,2,0
4,hito1_ej3,2,29,AprobaciÃ³n de CrÃ©ditos,3.0,1.0,0.5,0.5,1.0,0.25,...,0.0,0.5,0.0,0.25,0.0,0.0,11,3,3,0


In [23]:
df_evaluacion = df_evaluacion[['id','dificultad', 'score_a', 'score_d', 'score_p', 'score_s']]
df_evaluacion.columns = ['id_ejercicio','dificultad', 'score_a', 'score_d', 'score_p', 'score_s']
df_evaluacion = df_evaluacion.drop_duplicates(subset=['id_ejercicio'], keep='first')
df_catalogo = pd.merge(df_catalogo, df_evaluacion, on='id_ejercicio', how='left')

In [24]:
df_catalogo.head()

Unnamed: 0,id_ejercicio,nombre,h1,h2,h3,h4,s1,s2,s3,s4,...,knowledge,complexity,complexity12,puntos,enunciado,dificultad,score_a,score_d,score_p,score_s
0,0,Cálculo del dígito verificador del rut,0,0,0,1,0,0,0,1,...,7,23,279,2.0,escribe un programa que reciba como dato un nú...,2.25,10.0,0.0,4.0,2.0
1,1,Calculadora Geométrica,0,0,1,0,0,0,0,1,...,1,17,529,2.0,construye un programa que permita calcular el ...,2.5,8.0,7.0,2.0,0.0
2,2,Subsecuencias de ADN,0,0,1,0,0,0,1,1,...,7,55,567,5.0,escribe un programa que reciba como entrada un...,5.0,12.0,7.0,8.0,3.0
3,3,Números Primos,0,0,0,1,0,0,0,0,...,3,3,259,2.0,escribe una función llamada es_primo que retor...,1.5,7.0,2.0,2.0,0.0
4,4,Nota Final,0,0,0,1,0,0,0,0,...,1,1,257,1.0,realiza un programa para preguntar al usuario ...,1.25,8.0,1.0,2.0,0.0


In [25]:
df_catalogo['dificultad'] = df_catalogo['dificultad'].fillna(0.0)
df_catalogo['score_a'] = df_catalogo['score_a'].fillna(0.0)
df_catalogo['score_d'] = df_catalogo['score_d'].fillna(0.0)
df_catalogo['score_p'] = df_catalogo['score_p'].fillna(0.0)
df_catalogo['score_s'] = df_catalogo['score_s'].fillna(0.0)

In [26]:
df_catalogo

Unnamed: 0,id_ejercicio,nombre,h1,h2,h3,h4,s1,s2,s3,s4,...,knowledge,complexity,complexity12,puntos,enunciado,dificultad,score_a,score_d,score_p,score_s
0,0,Cálculo del dígito verificador del rut,0,0,0,1,0,0,0,1,...,7,23,279,2.0,escribe un programa que reciba como dato un nú...,2.25,10.0,0.0,4.0,2.0
1,1,Calculadora Geométrica,0,0,1,0,0,0,0,1,...,1,17,529,2.0,construye un programa que permita calcular el ...,2.5,8.0,7.0,2.0,0.0
2,2,Subsecuencias de ADN,0,0,1,0,0,0,1,1,...,7,55,567,5.0,escribe un programa que reciba como entrada un...,5.0,12.0,7.0,8.0,3.0
3,3,Números Primos,0,0,0,1,0,0,0,0,...,3,3,259,2.0,escribe una función llamada es_primo que retor...,1.5,7.0,2.0,2.0,0.0
4,4,Nota Final,0,0,0,1,0,0,0,0,...,1,1,257,1.0,realiza un programa para preguntar al usuario ...,1.25,8.0,1.0,2.0,0.0
5,5,Validador de Expresiones Matemáticas,0,1,0,0,1,0,0,0,...,7,135,1159,3.0,escribe la función recursiva validar_expresion...,0.0,0.0,0.0,0.0,0.0
6,6,Suma de los divisores de un número,0,0,1,0,0,0,0,1,...,3,19,531,2.0,crea una función que calcule la suma de los di...,3.5,9.0,9.0,7.0,2.0
7,7,Resolver un sistema de ecuaciones,0,0,0,1,0,0,0,0,...,1,1,257,1.0,escribe un programa que resuelva un sistema de...,3.25,8.0,4.0,2.0,2.0
8,8,Distancia Levenshtein,0,0,1,0,0,0,1,1,...,7,55,567,7.0,la distancia levenshtein corresponde al menor ...,4.25,13.0,9.0,8.0,4.0
9,9,Validar Secuencias de ADN,0,0,1,0,0,0,1,0,...,7,39,551,3.0,escribe un programa que reciba como entrada un...,4.5,10.0,7.0,6.0,4.0


### DATA_A & DATA_A_2021

In [27]:
# Se importa el archivo CSV que contiene datos de un conjunto de ejercicios (dataset_a).
df_data_a = pd.read_csv(f"{VAR_DIR_DATA_ORIGINAL}/dataset_a.csv", sep=";", encoding="latin1")
df_data_a.head(1)

Unnamed: 0,rut,usuario,correo,nombre,nrc,profesor,i1,f1,t1,r1,...,sol2,sol3,sol4,tarea1,tarea2,controles,np,examen,final,estado
0,5,*,*,*,17346,*,275.250242,447.08369,171.833448,3,...,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,R


In [28]:
# Se importa un segundo archivo CSV que contiene datos del año 2021 (dataset_a_2021).
df_data_a_2021 = pd.read_csv(f"{VAR_DIR_DATA_ORIGINAL}/dataset_a_2021.csv", sep=";", encoding="latin1")
df_data_a_2021.head(1)

Unnamed: 0,hito1,hito2,hito3,hito4,seq1,seq2,seq3,seq4,c1,c2,...,e46,e47,e48,e49,e50,e51,e52,programa,sol1,id
0,17.0,0.0,0,0,abacabadadacbhbbadad,,,,:1:2:1:3:3:2:23:17:3:3,,...,0,0,0,0,0,0,0,UNAB22115,1.0,1


In [29]:
# Se ordena el DataFrame df_data_a por la columna 'rut' en orden ascendente.
df_data_a = df_data_a.sort_values(by='rut', ascending=True)

# Se ordena el DataFrame df_data_a_2021 por la columna 'id' en orden ascendente.
# Luego, se elimina la columna 'id' del DataFrame.
df_data_a_2021 = df_data_a_2021.sort_values(by='id', ascending=True).drop(labels=['id'], axis=1)

# Se corrige el rango de 'rut' en df_data_a_2021 para que no se repitan.
# Los nuevos 'rut' se asignan en un rango basado en el número de filas en df_data_a.
df_data_a_2021['rut'] = list(range(df_data_a.shape[0], df_data_a.shape[0] + df_data_a_2021.shape[0]))  # Rango ajustado

In [30]:
# Se seleccionan columnas relevantes del DataFrame df_data_a y se renombrarán algunas de ellas para una mejor claridad.
df_data1 = df_data_a[['rut','programa', 'exitosos', 'fallidos', 'e1', 'e2', 'e3', 'e4', 'sol1', 'sol2', 'sol3', 'sol4']]
df_data1.columns = ['id_estudiante','programa','exitosos', 'fallidos', 'ejercicios_hito1', 'ejercicios_hito2', 'ejercicios_hito3', 'ejercicios_hito4', 'solemne_1', 'solemne_2', 'solemne_3', 'solemne_4']
df_data1.head(1)

Unnamed: 0,id_estudiante,programa,exitosos,fallidos,ejercicios_hito1,ejercicios_hito2,ejercicios_hito3,ejercicios_hito4,solemne_1,solemne_2,solemne_3,solemne_4
283,0,INGENIERIA INDUSTRIAL,15,24,:25:17:4:26:29:23:0:22:10:3:42:18,:6:1:44,,,6.2,6.8,5.1,6.0


In [31]:
# Se seleccionan columnas relevantes del DataFrame df_data_a_2021 y se renombrarán algunas de ellas para mantener la coherencia.
df_data2 = df_data_a_2021[['rut', 'programa', 'exitosos', 'fallidos', 'p1', 'p2', 'p3', 'p4', 'sol1']]
df_data2.columns = ['id_estudiante', 'programa', 'exitosos', 'fallidos', 'ejercicios_hito1', 'ejercicios_hito2', 'ejercicios_hito3', 'ejercicios_hito4', 'solemne_1']

# Se reemplazan los códigos de programa por nombres descriptivos en df_data2.
df_data2['programa'] = df_data2['programa'].replace({
    'UNAB12100':'INGENIERIA CIVIL INDUSTRIAL',
    'UNAB22115':'INGENIERIA CIVIL INDUSTRIAL',
    'UNAB22100':'INGENIERIA CIVIL INDUSTRIAL',
    'UNAB22510':'INGENIERIA INDUSTRIAL',
    'UNAB12510':'INGENIERIA INDUSTRIAL',
    'UNAB22505':'INGENIERIA INDUSTRIAL',
    'UNAB21503':'INGENIERIA EN COMPUTACION E INFORMATICA',
    'UNAB11500':'INGENIERIA EN COMPUTACION E INFORMATICA',
    'UNAB21500':'INGENIERIA EN COMPUTACION E INFORMATICA',
    'UNAB12210':'INGENIERIA CIVIL INFORMATICA',
    'UNAB18000':'BACHILLERATO EN CIENCIAS',
})

df_data2.head(1)

Unnamed: 0,id_estudiante,programa,exitosos,fallidos,ejercicios_hito1,ejercicios_hito2,ejercicios_hito3,ejercicios_hito4,solemne_1
0,467,INGENIERIA CIVIL INDUSTRIAL,10,21,:25:17:4:26:29:23:0:22:10:3,,,,1.0


In [32]:
dataset = pd.concat([df_data1, df_data2])

In [33]:
dataset

Unnamed: 0,id_estudiante,programa,exitosos,fallidos,ejercicios_hito1,ejercicios_hito2,ejercicios_hito3,ejercicios_hito4,solemne_1,solemne_2,solemne_3,solemne_4
283,0,INGENIERIA INDUSTRIAL,15,24,:25:17:4:26:29:23:0:22:10:3:42:18,:6:1:44,,,6.2,6.8,5.1,6.0
393,1,INGENIERIA CIVIL INDUSTRIAL,10,6,:25:17:4:26:29:23:0:22:10:3,,,,7.0,6.9,7.0,7.0
99,2,INGENIERIA CIVIL INDUSTRIAL,11,20,:25:17:4:26:29:23:3:42:32:18:35,,,,5.6,6.0,4.5,5.4
59,3,INGENIERIA CIVIL INDUSTRIAL,7,17,:25,,,,3.9,4.7,3.7,4.1
284,4,INGENIERIA EN COMPUTACION E INFORMATICA,13,18,:25:17:4:29:23:0:22:3:42:32:13,:1:44,,,4.6,6.6,4.7,5.3
...,...,...,...,...,...,...,...,...,...,...,...,...
834,1301,INGENIERIA CIVIL INFORMATICA,11,5,:25:17:4:26:29:23:0:22:10:3:42,,,,7.0,,,
835,1302,INGENIERIA EN COMPUTACION E INFORMATICA,9,7,:25:17:4:26:29:0:22:10:18,,,,7.0,,,
836,1303,INGENIERIA CIVIL INDUSTRIAL,11,20,:25:17:4:26:29:23:0:22:10:3:35,,,,7.0,,,
837,1304,INGENIERIA CIVIL INFORMATICA,16,15,:25:17:4:26:29:23:0:22:10:3:42:7:32:13:18:35,,,,7.0,,,


In [34]:
datos_faltantes_dataframe(dataset)

Unnamed: 0,Columna,Valores Faltantes,Porcentaje
0,ejercicios_hito1,215.0,16.462481
4,solemne_2,839.0,64.24196
5,solemne_3,839.0,64.24196
6,solemne_4,839.0,64.24196
1,ejercicios_hito2,940.0,71.975498
2,ejercicios_hito3,1306.0,100.0
3,ejercicios_hito4,1306.0,100.0


In [35]:
# Función para convertir el formato de texto en lista de números
def convertir_a_lista(texto):
    if isinstance(texto, str):  # Verificar si es una cadena
        return list(map(int, texto.strip(':').split(':')))
    else:
        return -1  # En caso de que no sea una cadena (como NaN o float), devolver una lista vacía

# Aplicar la función a la columna del dataframe
dataset['ejercicios_hito1'] = dataset['ejercicios_hito1'].apply(convertir_a_lista)
dataset['ejercicios_hito2'] = dataset['ejercicios_hito2'].apply(convertir_a_lista)
dataset['ejercicios_hito3'] = dataset['ejercicios_hito3'].apply(convertir_a_lista)
dataset['ejercicios_hito4'] = dataset['ejercicios_hito4'].apply(convertir_a_lista)

In [36]:
dataset.head(10)

Unnamed: 0,id_estudiante,programa,exitosos,fallidos,ejercicios_hito1,ejercicios_hito2,ejercicios_hito3,ejercicios_hito4,solemne_1,solemne_2,solemne_3,solemne_4
283,0,INGENIERIA INDUSTRIAL,15,24,"[25, 17, 4, 26, 29, 23, 0, 22, 10, 3, 42, 18]","[6, 1, 44]",-1,-1,6.2,6.8,5.1,6.0
393,1,INGENIERIA CIVIL INDUSTRIAL,10,6,"[25, 17, 4, 26, 29, 23, 0, 22, 10, 3]",-1,-1,-1,7.0,6.9,7.0,7.0
99,2,INGENIERIA CIVIL INDUSTRIAL,11,20,"[25, 17, 4, 26, 29, 23, 3, 42, 32, 18, 35]",-1,-1,-1,5.6,6.0,4.5,5.4
59,3,INGENIERIA CIVIL INDUSTRIAL,7,17,[25],-1,-1,-1,3.9,4.7,3.7,4.1
284,4,INGENIERIA EN COMPUTACION E INFORMATICA,13,18,"[25, 17, 4, 29, 23, 0, 22, 3, 42, 32, 13]","[1, 44]",-1,-1,4.6,6.6,4.7,5.3
0,5,INGENIERIA EN COMPUTACION E INFORMATICA,0,0,-1,-1,-1,-1,1.0,1.0,1.0,1.0
181,6,INGENIERIA EN COMPUTACION E INFORMATICA,10,21,"[25, 17, 4, 26, 29, 0, 22, 10, 32, 13]",-1,-1,-1,6.6,5.0,5.6,5.7
1,7,INGENIERIA CIVIL INDUSTRIAL,0,0,-1,-1,-1,-1,1.0,1.0,1.0,1.0
260,8,INGENIERIA EN COMPUTACION E INFORMATICA,15,24,"[25, 17, 4, 26, 23, 0, 22, 10, 3, 42, 32, 13, 18]","[44, 28]",-1,-1,4.6,4.8,6.4,5.6
158,9,INGENIERIA CIVIL INDUSTRIAL,18,6,"[25, 17, 4, 26, 29, 23, 0, 22, 10, 3]",-1,-1,-1,5.3,6.1,6.0,5.8


In [37]:
datos_faltantes_dataframe(dataset)

Unnamed: 0,Columna,Valores Faltantes,Porcentaje
0,solemne_2,839.0,64.24196
1,solemne_3,839.0,64.24196
2,solemne_4,839.0,64.24196


In [38]:
dataset.tail(10)

Unnamed: 0,id_estudiante,programa,exitosos,fallidos,ejercicios_hito1,ejercicios_hito2,ejercicios_hito3,ejercicios_hito4,solemne_1,solemne_2,solemne_3,solemne_4
829,1296,INGENIERIA CIVIL INDUSTRIAL,5,42,"[25, 17, 4, 26, 0]",-1,-1,-1,7.0,,,
830,1297,INGENIERIA CIVIL INFORMATICA,10,21,"[25, 17, 4, 26, 29, 23, 0, 22, 10, 7]",-1,-1,-1,7.0,,,
831,1298,INGENIERIA CIVIL INFORMATICA,10,6,"[25, 17, 4, 26, 29, 23, 0, 22, 10, 3]",-1,-1,-1,7.0,,,
832,1299,INGENIERIA CIVIL INDUSTRIAL,10,6,"[25, 17, 4, 26, 29, 23, 0, 22, 10, 3]",-1,-1,-1,7.0,,,
833,1300,INGENIERIA INDUSTRIAL,12,19,"[25, 17, 4, 26, 23, 0, 22, 3, 32, 13, 18, 35]",-1,-1,-1,7.0,,,
834,1301,INGENIERIA CIVIL INFORMATICA,11,5,"[25, 17, 4, 26, 29, 23, 0, 22, 10, 3, 42]",-1,-1,-1,7.0,,,
835,1302,INGENIERIA EN COMPUTACION E INFORMATICA,9,7,"[25, 17, 4, 26, 29, 0, 22, 10, 18]",-1,-1,-1,7.0,,,
836,1303,INGENIERIA CIVIL INDUSTRIAL,11,20,"[25, 17, 4, 26, 29, 23, 0, 22, 10, 3, 35]",-1,-1,-1,7.0,,,
837,1304,INGENIERIA CIVIL INFORMATICA,16,15,"[25, 17, 4, 26, 29, 23, 0, 22, 10, 3, 42, 7, 3...",-1,-1,-1,7.0,,,
838,1305,INGENIERIA EN COMPUTACION E INFORMATICA,2,29,"[25, 23]",-1,-1,-1,7.0,,,


In [39]:
# Optimización usando operaciones vectorizadas
dataset['solemne_2'] = dataset.apply(lambda row: 1.0 if pd.isna(row['solemne_2']) and row['ejercicios_hito2'] == -1 else 0.0 if pd.isna(row['solemne_2']) else row['solemne_2'], axis=1)
dataset['solemne_3'] = dataset.apply(lambda row: 1.0 if pd.isna(row['solemne_3']) and row['ejercicios_hito3'] == -1 else 0.0 if pd.isna(row['solemne_3']) else row['solemne_3'], axis=1)
dataset['solemne_4'] = dataset.apply(lambda row: 1.0 if pd.isna(row['solemne_4']) and row['ejercicios_hito4'] == -1 else 0.0 if pd.isna(row['solemne_4']) else row['solemne_4'], axis=1)


In [40]:
dataset.tail(10)

Unnamed: 0,id_estudiante,programa,exitosos,fallidos,ejercicios_hito1,ejercicios_hito2,ejercicios_hito3,ejercicios_hito4,solemne_1,solemne_2,solemne_3,solemne_4
829,1296,INGENIERIA CIVIL INDUSTRIAL,5,42,"[25, 17, 4, 26, 0]",-1,-1,-1,7.0,1.0,1.0,1.0
830,1297,INGENIERIA CIVIL INFORMATICA,10,21,"[25, 17, 4, 26, 29, 23, 0, 22, 10, 7]",-1,-1,-1,7.0,1.0,1.0,1.0
831,1298,INGENIERIA CIVIL INFORMATICA,10,6,"[25, 17, 4, 26, 29, 23, 0, 22, 10, 3]",-1,-1,-1,7.0,1.0,1.0,1.0
832,1299,INGENIERIA CIVIL INDUSTRIAL,10,6,"[25, 17, 4, 26, 29, 23, 0, 22, 10, 3]",-1,-1,-1,7.0,1.0,1.0,1.0
833,1300,INGENIERIA INDUSTRIAL,12,19,"[25, 17, 4, 26, 23, 0, 22, 3, 32, 13, 18, 35]",-1,-1,-1,7.0,1.0,1.0,1.0
834,1301,INGENIERIA CIVIL INFORMATICA,11,5,"[25, 17, 4, 26, 29, 23, 0, 22, 10, 3, 42]",-1,-1,-1,7.0,1.0,1.0,1.0
835,1302,INGENIERIA EN COMPUTACION E INFORMATICA,9,7,"[25, 17, 4, 26, 29, 0, 22, 10, 18]",-1,-1,-1,7.0,1.0,1.0,1.0
836,1303,INGENIERIA CIVIL INDUSTRIAL,11,20,"[25, 17, 4, 26, 29, 23, 0, 22, 10, 3, 35]",-1,-1,-1,7.0,1.0,1.0,1.0
837,1304,INGENIERIA CIVIL INFORMATICA,16,15,"[25, 17, 4, 26, 29, 23, 0, 22, 10, 3, 42, 7, 3...",-1,-1,-1,7.0,1.0,1.0,1.0
838,1305,INGENIERIA EN COMPUTACION E INFORMATICA,2,29,"[25, 23]",-1,-1,-1,7.0,1.0,1.0,1.0


### PRUEBA DIAGNOSTICO (DATA_A)

In [41]:
# 't1', 't2', 't3', 't4', 't5', 't6'
# 'r1', 'r2', 'r3', 'r4', 'r5', 'r6'
# 'p1', 'p2', 'p3', 'p4', 'p5', 'p6'
# 'sv1', 'sv2', 'sv3', 'sv4', 'sv5', 'sv6'
# 'op1', 'op2', 'op3', 'op4', 'op5', 'op6'
# 'score', 'score_a', 'score_p', 'score_d', 'score_s'


# Filtrar y crear un nuevo DataFrame con columnas específicas del DataFrame original 'df_data_a'
df_prueba_diagnostico = df_data_a[['t1', 't2', 't3', 't4', 't5', 't6', 'r1', 'r2', 'r3', 'r4', 'r5', 'r6', 'p1', 'p2', 'p3', 'p4', 'p5', 'p6', 'op1', 'op2', 'op3', 'op4', 'op5', 'op6', 'score_a', 'score_p', 'score_d', 'score_s']]

# Agregar una nueva columna 'id_estudiante' al DataFrame 'df_prueba_diagnostico' utilizando el identificador 'rut' del DataFrame original
df_prueba_diagnostico['id_estudiante'] = df_data_a['rut']

df_prueba_diagnostico = df_prueba_diagnostico[['id_estudiante', 't1', 't2', 't3', 't4', 't5', 't6', 'r1', 'r2', 'r3', 'r4', 'r5', 'r6', 'p1', 'p2', 'p3', 'p4', 'p5', 'p6', 'op1', 'op2', 'op3', 'op4', 'op5', 'op6', 'score_a', 'score_p', 'score_d', 'score_s']]

# Mostrar las primeras cinco filas del DataFrame 'df_prueba_diagnostico' para verificar su contenido
df_prueba_diagnostico.head()


Unnamed: 0,id_estudiante,t1,t2,t3,t4,t5,t6,r1,r2,r3,...,op1,op2,op3,op4,op5,op6,score_a,score_p,score_d,score_s
283,0,64.30131,251.056409,224.745993,59.952302,180.223456,105.741338,1,3,1,...,1,1,0,1,1,0,5,4,2,3
393,1,97.1709,93.27364,108.99154,38.273033,62.548947,47.40264,2,2,1,...,0,0,0,1,0,1,4,4,2,3
99,2,85.596734,217.07118,150.40652,96.7101,59.137248,102.937465,1,7,1,...,1,1,0,0,0,1,5,4,3,2
59,3,57.776163,97.665937,187.063634,69.778186,44.290579,78.262694,1,1,2,...,0,0,0,0,1,0,3,3,1,2
284,4,32.519816,57.514397,75.568439,54.644516,91.402663,148.266473,1,2,1,...,1,1,1,0,1,1,6,4,3,3


In [42]:
df_prueba_diagnostico.info()

<class 'pandas.core.frame.DataFrame'>
Index: 467 entries, 283 to 466
Data columns (total 29 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   id_estudiante  467 non-null    int64  
 1   t1             467 non-null    float64
 2   t2             467 non-null    float64
 3   t3             467 non-null    float64
 4   t4             467 non-null    float64
 5   t5             467 non-null    float64
 6   t6             467 non-null    float64
 7   r1             467 non-null    int64  
 8   r2             467 non-null    int64  
 9   r3             467 non-null    int64  
 10  r4             467 non-null    int64  
 11  r5             467 non-null    int64  
 12  r6             467 non-null    int64  
 13  p1             467 non-null    int64  
 14  p2             467 non-null    int64  
 15  p3             467 non-null    int64  
 16  p4             467 non-null    int64  
 17  p5             467 non-null    int64  
 18  p6           

In [43]:
df_prueba_diagnostico.describe().T

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
id_estudiante,467.0,233.0,134.955548,0.0,116.5,233.0,349.5,466.0
t1,467.0,101.104817,110.090207,14.947463,41.700748,65.350279,116.476445,962.077675
t2,467.0,90.699059,92.952985,17.71478,46.058281,67.50687,104.718704,1092.3325
t3,467.0,169.27035,117.380853,27.226233,88.981408,131.983587,214.802128,1080.815802
t4,467.0,83.612827,82.956609,18.537399,45.03499,64.044106,98.520291,1317.984673
t5,467.0,63.107647,43.064858,15.39942,38.392791,52.555673,73.212156,527.017865
t6,467.0,73.065997,77.560509,16.305861,41.732285,56.591122,83.588994,1448.764917
r1,467.0,2.179872,2.675148,0.0,1.0,1.0,2.0,26.0
r2,467.0,1.897216,1.899326,1.0,1.0,1.0,2.0,24.0
r3,467.0,2.199143,1.826415,1.0,1.0,1.0,3.0,14.0


In [44]:
print(dataset.shape)
dataset.head()

(1306, 12)


Unnamed: 0,id_estudiante,programa,exitosos,fallidos,ejercicios_hito1,ejercicios_hito2,ejercicios_hito3,ejercicios_hito4,solemne_1,solemne_2,solemne_3,solemne_4
283,0,INGENIERIA INDUSTRIAL,15,24,"[25, 17, 4, 26, 29, 23, 0, 22, 10, 3, 42, 18]","[6, 1, 44]",-1,-1,6.2,6.8,5.1,6.0
393,1,INGENIERIA CIVIL INDUSTRIAL,10,6,"[25, 17, 4, 26, 29, 23, 0, 22, 10, 3]",-1,-1,-1,7.0,6.9,7.0,7.0
99,2,INGENIERIA CIVIL INDUSTRIAL,11,20,"[25, 17, 4, 26, 29, 23, 3, 42, 32, 18, 35]",-1,-1,-1,5.6,6.0,4.5,5.4
59,3,INGENIERIA CIVIL INDUSTRIAL,7,17,[25],-1,-1,-1,3.9,4.7,3.7,4.1
284,4,INGENIERIA EN COMPUTACION E INFORMATICA,13,18,"[25, 17, 4, 29, 23, 0, 22, 3, 42, 32, 13]","[1, 44]",-1,-1,4.6,6.6,4.7,5.3


In [45]:
programas = dataset.query(" `programa`=='UNAB16507' or `programa`=='UNAB35636' or `programa`=='UNAB10100' ")
programas

Unnamed: 0,id_estudiante,programa,exitosos,fallidos,ejercicios_hito1,ejercicios_hito2,ejercicios_hito3,ejercicios_hito4,solemne_1,solemne_2,solemne_3,solemne_4
134,601,UNAB16507,7,24,"[25, 17, 4, 26, 29, 23, 0]",-1,-1,-1,1.0,1.0,1.0,1.0
770,1237,UNAB35636,0,16,-1,-1,-1,-1,6.4,1.0,1.0,1.0
803,1270,UNAB10100,16,15,"[25, 17, 4, 26, 29, 23, 0, 22, 10, 3, 42, 7, 3...",-1,-1,-1,6.6,1.0,1.0,1.0


In [46]:
dataset.drop(programas.index, inplace=True)
print(dataset.shape)

(1302, 12)


In [47]:
dataset.info()

<class 'pandas.core.frame.DataFrame'>
Index: 1302 entries, 283 to 838
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   id_estudiante     1302 non-null   int64  
 1   programa          1302 non-null   object 
 2   exitosos          1302 non-null   int64  
 3   fallidos          1302 non-null   int64  
 4   ejercicios_hito1  1302 non-null   object 
 5   ejercicios_hito2  1302 non-null   object 
 6   ejercicios_hito3  1302 non-null   int64  
 7   ejercicios_hito4  1302 non-null   int64  
 8   solemne_1         1302 non-null   float64
 9   solemne_2         1302 non-null   float64
 10  solemne_3         1302 non-null   float64
 11  solemne_4         1302 non-null   float64
dtypes: float64(4), int64(5), object(3)
memory usage: 132.2+ KB


#### NOTA:

> Los datos que se utlizaran para los experimentos y creacion del sistema de recomendacion seran los mostrados en el 'dataset'. Sin embargo, no todos los datos seran utiles para entrenar un recomendador de ejecicios, ya que existen algunas anomalias en los registros de los estudiantes que puede que afecte a las recomendaciones del modelo. Por ejemplo: estudiantes que no realizaron nada durante la asignatura y reprobaron; estudiantes que no realizaron nada durante la asignatura y aprobaron; estudiantes que hicieron pocos o varios ejercicios y reprobaron la asignatura. 

> Por tanto, se agrupara los registros de estudiantes con un minimo de exito para usarlo y medir como reacciona con aquellos que tuvieron poco exito durante la asignatura. 

### MATRICES DE FACTORIZACION

In [48]:
from models.utils.transformacion import crear_matriz_factorizacion, calcular_ratio_interacciones

In [49]:
matrix_factorization = crear_matriz_factorizacion(dataset, df_catalogo, columna_usuario='id_estudiante')
matrix_factorization

Unnamed: 0,id_estudiante,e0,e1,e2,e3,e4,e5,e6,e7,e8,...,e43,e44,e45,e46,e47,e48,e49,e50,e51,e52
0,0,1,1,0,1,1,0,1,0,0,...,0,1,0,0,0,0,0,0,0,0
1,1,1,0,0,1,1,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
2,2,0,0,0,1,1,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
3,3,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
4,4,1,1,0,1,1,0,0,0,0,...,0,1,0,0,0,0,0,0,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1297,1301,1,0,0,1,1,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
1298,1302,1,0,0,0,1,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
1299,1303,1,0,0,1,1,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
1300,1304,1,0,0,1,1,0,0,1,0,...,0,0,0,0,0,0,0,0,0,0


In [50]:
df_catalogo = calcular_ratio_interacciones(matrix_factorization, df_catalogo)
df_catalogo.head(10)

Unnamed: 0,id_ejercicio,nombre,h1,h2,h3,h4,s1,s2,s3,s4,...,complexity,complexity12,puntos,enunciado,dificultad,score_a,score_d,score_p,score_s,ratio_interaccion
0,0,Cálculo del dígito verificador del rut,0,0,0,1,0,0,0,1,...,23,279,2.0,escribe un programa que reciba como dato un nú...,2.25,10.0,0.0,4.0,2.0,0.589094
1,1,Calculadora Geométrica,0,0,1,0,0,0,0,1,...,17,529,2.0,construye un programa que permita calcular el ...,2.5,8.0,7.0,2.0,0.0,0.213518
2,2,Subsecuencias de ADN,0,0,1,0,0,0,1,1,...,55,567,5.0,escribe un programa que reciba como entrada un...,5.0,12.0,7.0,8.0,3.0,0.013057
3,3,Números Primos,0,0,0,1,0,0,0,0,...,3,259,2.0,escribe una función llamada es_primo que retor...,1.5,7.0,2.0,2.0,0.0,0.49232
4,4,Nota Final,0,0,0,1,0,0,0,0,...,1,257,1.0,realiza un programa para preguntar al usuario ...,1.25,8.0,1.0,2.0,0.0,0.781874
5,5,Validador de Expresiones Matemáticas,0,1,0,0,1,0,0,0,...,135,1159,3.0,escribe la función recursiva validar_expresion...,0.0,0.0,0.0,0.0,0.0,0.0
6,6,Suma de los divisores de un número,0,0,1,0,0,0,0,1,...,19,531,2.0,crea una función que calcule la suma de los di...,3.5,9.0,9.0,7.0,2.0,0.217358
7,7,Resolver un sistema de ecuaciones,0,0,0,1,0,0,0,0,...,1,257,1.0,escribe un programa que resuelva un sistema de...,3.25,8.0,4.0,2.0,2.0,0.19278
8,8,Distancia Levenshtein,0,0,1,0,0,0,1,1,...,55,567,7.0,la distancia levenshtein corresponde al menor ...,4.25,13.0,9.0,8.0,4.0,0.016129
9,9,Validar Secuencias de ADN,0,0,1,0,0,0,1,0,...,39,551,3.0,escribe un programa que reciba como entrada un...,4.5,10.0,7.0,6.0,4.0,0.033026


In [51]:
df_catalogo.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 53 entries, 0 to 52
Data columns (total 27 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   id_ejercicio       53 non-null     int64  
 1   nombre             53 non-null     object 
 2   h1                 53 non-null     object 
 3   h2                 53 non-null     object 
 4   h3                 53 non-null     object 
 5   h4                 53 non-null     object 
 6   s1                 53 non-null     int64  
 7   s2                 53 non-null     int64  
 8   s3                 53 non-null     int64  
 9   s4                 53 non-null     int64  
 10  k1                 53 non-null     int64  
 11  k2                 53 non-null     int64  
 12  k3                 53 non-null     int64  
 13  k4                 53 non-null     int64  
 14  hito               53 non-null     int64  
 15  skill              53 non-null     int64  
 16  knowledge          53 non-nu

In [52]:
df_catalogo

Unnamed: 0,id_ejercicio,nombre,h1,h2,h3,h4,s1,s2,s3,s4,...,complexity,complexity12,puntos,enunciado,dificultad,score_a,score_d,score_p,score_s,ratio_interaccion
0,0,Cálculo del dígito verificador del rut,0,0,0,1,0,0,0,1,...,23,279,2.0,escribe un programa que reciba como dato un nú...,2.25,10.0,0.0,4.0,2.0,0.589094
1,1,Calculadora Geométrica,0,0,1,0,0,0,0,1,...,17,529,2.0,construye un programa que permita calcular el ...,2.5,8.0,7.0,2.0,0.0,0.213518
2,2,Subsecuencias de ADN,0,0,1,0,0,0,1,1,...,55,567,5.0,escribe un programa que reciba como entrada un...,5.0,12.0,7.0,8.0,3.0,0.013057
3,3,Números Primos,0,0,0,1,0,0,0,0,...,3,259,2.0,escribe una función llamada es_primo que retor...,1.5,7.0,2.0,2.0,0.0,0.49232
4,4,Nota Final,0,0,0,1,0,0,0,0,...,1,257,1.0,realiza un programa para preguntar al usuario ...,1.25,8.0,1.0,2.0,0.0,0.781874
5,5,Validador de Expresiones Matemáticas,0,1,0,0,1,0,0,0,...,135,1159,3.0,escribe la función recursiva validar_expresion...,0.0,0.0,0.0,0.0,0.0,0.0
6,6,Suma de los divisores de un número,0,0,1,0,0,0,0,1,...,19,531,2.0,crea una función que calcule la suma de los di...,3.5,9.0,9.0,7.0,2.0,0.217358
7,7,Resolver un sistema de ecuaciones,0,0,0,1,0,0,0,0,...,1,257,1.0,escribe un programa que resuelva un sistema de...,3.25,8.0,4.0,2.0,2.0,0.19278
8,8,Distancia Levenshtein,0,0,1,0,0,0,1,1,...,55,567,7.0,la distancia levenshtein corresponde al menor ...,4.25,13.0,9.0,8.0,4.0,0.016129
9,9,Validar Secuencias de ADN,0,0,1,0,0,0,1,0,...,39,551,3.0,escribe un programa que reciba como entrada un...,4.5,10.0,7.0,6.0,4.0,0.033026


In [53]:
df_prueba_diagnostico

Unnamed: 0,id_estudiante,t1,t2,t3,t4,t5,t6,r1,r2,r3,...,op1,op2,op3,op4,op5,op6,score_a,score_p,score_d,score_s
283,0,64.301310,251.056409,224.745993,59.952302,180.223456,105.741338,1,3,1,...,1,1,0,1,1,0,5,4,2,3
393,1,97.170900,93.273640,108.991540,38.273033,62.548947,47.402640,2,2,1,...,0,0,0,1,0,1,4,4,2,3
99,2,85.596734,217.071180,150.406520,96.710100,59.137248,102.937465,1,7,1,...,1,1,0,0,0,1,5,4,3,2
59,3,57.776163,97.665937,187.063634,69.778186,44.290579,78.262694,1,1,2,...,0,0,0,0,1,0,3,3,1,2
284,4,32.519816,57.514397,75.568439,54.644516,91.402663,148.266473,1,2,1,...,1,1,1,0,1,1,6,4,3,3
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
259,462,55.026277,70.528988,118.709649,113.642156,54.543056,92.982764,1,1,1,...,0,0,1,0,1,1,7,4,3,3
374,463,469.275075,620.907184,262.061457,115.860821,168.909438,90.102920,3,7,2,...,0,0,0,1,0,0,4,2,1,2
437,464,53.547541,30.581918,335.801524,50.297729,46.614550,68.763629,3,1,10,...,1,1,1,1,1,1,3,3,2,3
239,465,56.614112,54.114042,226.322565,80.196325,57.980290,160.959098,2,2,6,...,1,1,1,0,1,1,3,2,2,0


In [54]:
dataset

Unnamed: 0,id_estudiante,programa,exitosos,fallidos,ejercicios_hito1,ejercicios_hito2,ejercicios_hito3,ejercicios_hito4,solemne_1,solemne_2,solemne_3,solemne_4
283,0,INGENIERIA INDUSTRIAL,15,24,"[25, 17, 4, 26, 29, 23, 0, 22, 10, 3, 42, 18]","[6, 1, 44]",-1,-1,6.2,6.8,5.1,6.0
393,1,INGENIERIA CIVIL INDUSTRIAL,10,6,"[25, 17, 4, 26, 29, 23, 0, 22, 10, 3]",-1,-1,-1,7.0,6.9,7.0,7.0
99,2,INGENIERIA CIVIL INDUSTRIAL,11,20,"[25, 17, 4, 26, 29, 23, 3, 42, 32, 18, 35]",-1,-1,-1,5.6,6.0,4.5,5.4
59,3,INGENIERIA CIVIL INDUSTRIAL,7,17,[25],-1,-1,-1,3.9,4.7,3.7,4.1
284,4,INGENIERIA EN COMPUTACION E INFORMATICA,13,18,"[25, 17, 4, 29, 23, 0, 22, 3, 42, 32, 13]","[1, 44]",-1,-1,4.6,6.6,4.7,5.3
...,...,...,...,...,...,...,...,...,...,...,...,...
834,1301,INGENIERIA CIVIL INFORMATICA,11,5,"[25, 17, 4, 26, 29, 23, 0, 22, 10, 3, 42]",-1,-1,-1,7.0,1.0,1.0,1.0
835,1302,INGENIERIA EN COMPUTACION E INFORMATICA,9,7,"[25, 17, 4, 26, 29, 0, 22, 10, 18]",-1,-1,-1,7.0,1.0,1.0,1.0
836,1303,INGENIERIA CIVIL INDUSTRIAL,11,20,"[25, 17, 4, 26, 29, 23, 0, 22, 10, 3, 35]",-1,-1,-1,7.0,1.0,1.0,1.0
837,1304,INGENIERIA CIVIL INFORMATICA,16,15,"[25, 17, 4, 26, 29, 23, 0, 22, 10, 3, 42, 7, 3...",-1,-1,-1,7.0,1.0,1.0,1.0


In [55]:
matrix_factorization

Unnamed: 0,id_estudiante,e0,e1,e2,e3,e4,e5,e6,e7,e8,...,e43,e44,e45,e46,e47,e48,e49,e50,e51,e52
0,0,1,1,0,1,1,0,1,0,0,...,0,1,0,0,0,0,0,0,0,0
1,1,1,0,0,1,1,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
2,2,0,0,0,1,1,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
3,3,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
4,4,1,1,0,1,1,0,0,0,0,...,0,1,0,0,0,0,0,0,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1297,1301,1,0,0,1,1,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
1298,1302,1,0,0,0,1,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
1299,1303,1,0,0,1,1,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
1300,1304,1,0,0,1,1,0,0,1,0,...,0,0,0,0,0,0,0,0,0,0


### GUARDAR DATA DE USO

In [56]:
# DATASET DONDE SE ENCUENTRAN EL CONJUNTO DE EJERCICIOS (ITEMS) LOS CUALES SE VAN A RECOMENDAR
df_catalogo.to_csv(f'{VAR_DIR_DATA_CLEANING}/catalogo.csv', index=False)

# DATASET DONDE SE ALMACENAN EL CONJUNTO DE DATOS RESPONDIENTE A LAS CARACTERISTICAS ESENCIALES DEL ESTUDIANTE
dataset.to_csv(f'{VAR_DIR_DATA_CLEANING}/dataset.csv', index=False)

# CONJUNTO DE DATOS DONDE SE MUESTRA UNA MATRIX BINARIA DONDE SE REPRESENTA LA INTERACCION DEL ESTUDIANTE CON QUE EJECICIOS
matrix_factorization.to_csv(f'{VAR_DIR_DATA_CLEANING}/matrix_factorization.csv', index=False)

# CONJUNTO DE DATOS (EXTRAS) DE LAS CARACTERISTICAS DE LOS ESTUDIANTES DONDE SE GUARDAN DATOS DE SU PRUEBA DE DIAGNOSTICO AL INICIO DE LA ASIGNATURA
df_prueba_diagnostico.to_csv(f'{VAR_DIR_DATA_CLEANING}/prueba_diagnostico.csv', index=False)


## 4. MODELAMIENTO

## 5. EVALUCIÓN

## 6. IMPLEMENTACIÓN