# SISTEMA DE RECOMENDACIÓN DE EJERCICIOS DE PROGRAMACIÓN

## 1. COMPRENCIÓN DEL PROBLEMA
Dentro de la Universidad Andrés Bello, los estudiantes de carreras de ingeniería deben cursar la asignatura de "Introducción a la Programación", ya que necesitan tener conocimientos básicos, medios o avanzados de programación, dependiendo de la carrera que estén cursando y en qué año van.

La problemática surge cuando ciertos estudiantes reprueban o sacan notas mínimas en las pruebas y trabajos de la asignatura. Siendo esta la primera asignatura de programación de ciertas carreras, puede marcar seriamente el desempeño del estudiante en el futuro, llegando a provocar que algunos tengan deficiencias en conocimientos esenciales para sus carreras.

Además, los estudiantes a menudo carecen de orientación personalizada para su aprendizaje, lo que puede resultar en un bajo rendimiento en los métodos de estudio, ocasionando un bajo conocimiento o baja nota en la asignatura.

Por tanto, este proyecto busca desarrollar e implementar un sistema de recomendación de ejercicios de programación para estudiantes universitarios de ingeniería de la Universidad Andrés Bello. Este sistema personalizará las sugerencias de ejercicios según el nivel de habilidad, preferencias individuales y objetivos de aprendizaje de cada estudiante.

## 2. COMPRENCIÓN DE LOS DATOS

In [68]:
# MODULOS
import numpy as np 
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

In [69]:
# DATASETS
DIR_DATA_ORIGINAL = '../datos/data-original'
DIR_DATA_LIMPIA = '../datos/data-limpia'

# El catalogo se conforma por aquellos ejercicios de programacion que estaban disponibles en la pagina web.
df_catalogo = pd.read_csv(f"{DIR_DATA_ORIGINAL}/catalogo.csv", sep=";", encoding="latin1")

# La data_a son resgistros generales de los estudiantes durantes el semestre, es deicr, datos del curso en general.
df_data_a = pd.read_csv(f"{DIR_DATA_ORIGINAL}/dataset_a.csv", sep=";", encoding="latin1")

# La data_a_2021 son resgitros globales de los estudiantes al tratar de realizar los ejercicios de la pagina web.
df_data_2021 = pd.read_csv(f"{DIR_DATA_ORIGINAL}/dataset_a_2021.csv", sep=";", encoding="latin1")

### a) DIMENSIONES DE LOS DATASETS

In [70]:
# CATALOGO
print(f"Dataset 'Catalogo.csv' cuenta con: \n[+] {df_catalogo.shape[0]} Registros\n[+] {df_catalogo.shape[1]} Atributos")
print(f"\nLos atributos del 'Catalogo.csv' son: {list(df_catalogo.columns)}")

# DATA_A
print(f"Dataset 'Data_a.csv' cuenta con: \n[+] {df_data_a.shape[0]} Registros\n[+] {df_data_a.shape[1]} Atributos")
print(f"\nLos atributos del 'Data_a.csv' son: {list(df_data_a.columns)}")

# DATA_A_2021
print(f"Dataset 'Data_a_2021.csv' cuenta con: \n[+] {df_data_2021.shape[0]} Registros\n[+] {df_data_2021.shape[1]} Atributos")
print(f"\nLos atributos del 'Data_a_2021.csv' son: {list(df_data_2021.columns)}")

Dataset 'Catalogo.csv' cuenta con: 
[+] 53 Registros
[+] 15 Atributos

Los atributos del 'Catalogo.csv' son: ['hito', 'oid', 'nombre', 's1', 's2', 's3', 's4', 'k1', 'k2', 'k3', 'k4', 'skill', 'knowledge', 'complexity', 'item']
Dataset 'Data_a.csv' cuenta con: 
[+] 467 Registros
[+] 110 Atributos

Los atributos del 'Data_a.csv' son: ['rut', 'usuario', 'correo', 'nombre', 'nrc', 'profesor', 'i1', 'f1', 't1', 'r1', 'p1', 's1', 'l1', 'i2', 'f2', 't2', 'r2', 'p2', 's2', 'l2', 'i3', 'f3', 't3', 'r3', 'p3', 's3', 'l3', 'i4', 'f4', 't4', 'r4', 'p4', 's4', 'l4', 'i5', 'f5', 't5', 'r5', 'p5', 's5', 'l5', 'i6', 'f6', 't6', 'r6', 'p6', 's6', 'l6', 'op1', 'op2', 'op3', 'op4', 'op5', 'op6', 'sv1', 'sv2', 'sv3', 'sv4', 'sv5', 'sv6', 'lt', 'tt', 'pt', 'game_score', 'score', 'score_a', 'score_p', 'score_d', 'score_s', 'tema2', 'tema3', 'tema4', 'tema5', 'tema6', 'tema7', 'tema8', 'tema9', 'hito1', 'hito2', 'hito3', 'hito4', 'seq1', 'seq2', 'seq3', 'seq4', 'c1', 'c2', 'c3', 'c4', 'e1', 'e2', 'e3', 'e4',

### b) DESCRIPCIÓN DE VARIABLES

#### CATALOGO
+ **hito**:     Conjunto de ejercicios
+ **oid**:      Identificador del ejercicio
+ **nombre**:   Nombre del ejercicio
+ **s1**: -> El estudiante haga un *algoritmo recursivo* 
+ **s2**: -> El estudiante haga un *algoritmo para combinar datos de varias estructuras de datos* 
+ **s3**: -> El estudiante represente *información utilizando una estructura de datos* 
+ **s4**: -> El estudiante diseñe *un algoritmo que no requiera una estructura de datos pero que no pueda deducirse directamente del enunciado del problema* 
+ **k1**: -> El estudiante sepa definir una clase con atributos y métodos.
+ **k2**: -> El estudiante sepa agregar, quitar y buscar elementos dentro de una estructura de datos (cadenas o listas).
+ **k3**: -> El estudiante sepa definir un bucle y determinar sus características en función del problema.
+ **k4**: -> El estudiante sepa definir variables, combinarlas usando operadores de comparación y utilizarlas para construir expresiones condicionales, así como en instrucciones de entrada/salida.
+ **skill**:        un escalar que indica la habilidad del estudiante (entero) => se define al transformar el binario componente de s1,s2,s3,s4 a entero
+ **knowledge**:    un escalar que indica el conocimiento del estudiante (entero) => se define al transformar el binario componente de k1,k2,k3,k4 a entero
+ **complexity**:   un escalar que indica la complejidad (entero) => en un numbero binario de 8bits resultante de unir  s1,s2,s3,s4,k1,k2,k3,k4 y transformarlo a entero
+ **item**:         Código alfabético asociado a la complejidad, combina habilidad (4 bits en ASCII) con conocimiento (4 bits en ASCII): 0->a,1->b,2->c, etc.

#### DATA_A
+ **rut**       => numero ficticio del estudiante
+ **usuario**   => anonimo
+ **correo**    => anonimo
+ **nombre**    => anonimo
+ **nrc**       => nrc del curso en donde vio la asignatura
+ **profesor**  => anonimo
+ 'i1', 
+ 'f1', 
+ 't1', 
+ 'r1', 
+ 'p1', 
+ 's1', 
+ 'l1',
+ 'op1', 
+ 'sv1',
+ 'lt', 
+ 'tt', 
+ 'pt', 
+ 'game_score', 
+ 'score', 
+ 'score_a', 
+ 'score_p', 
+ 'score_d', 
+ 'score_s', 
+ 'tema2', 'tema3', 'tema4', 'tema5', 'tema6', 'tema7', 'tema8', 'tema9',
+ hito
+ 'seq
+ 'c-n
+ 'e-n
+ 'clase', 
+ 'exitosos', 
+ 'fallidos', 
+ 'envios', 
+ 'videos', 
+ 'programa', 
+ 'sol1', 'sol2', 'sol3', 'sol4', 
+ 'tarea1', 'tarea2', 'controles', 
+ 'np', 'examen', 'final', 'estado'

#### DATA_A_2021
+ **hito-n**:   Son los puntajes obtenidos al realizar los ejercicios referentes de ese hito
+ **seq-n**:    Secuencia de Complejidad de Ejercicios (alfabética) del Hito-n
+ **c-n**:      Complejidad Numérica Total del Hito-n
+ **nrc**:      NRC del curso
+ **exitosos**: numero de envios exitosos
+ **fallidos**: numero de envios fallidos
+ **envidos**:  numero total de envios
+ **e-n**:      ejercicio que realizo la persona dentro de la plataforma
+ **programa**: id de la carrera que esta cursando el estudiante en la UNAB
+ **sol1**:     nota del estudiante al finalizar el semestre
+ **id**:       id del registro enviado


### c) VISUALIZACION DE LOS DATASETS

In [71]:
# CATALOGO
df_catalogo.head()

Unnamed: 0,hito,oid,nombre,s1,s2,s3,s4,k1,k2,k3,k4,skill,knowledge,complexity,item
0,1,0973dae0e1b74ab8baa8d94339ee3ae6,Cálculo del dígito verificador del rut,0,0,0,1,0,1,1,1,1,7,23,bh
1,2,16f619db31204ded9418136c4587ddd8,Calculadora Geométrica,0,0,0,1,0,0,0,1,1,1,17,bb
2,2,17022c9ceac94ec5b2e7bc934c7b2d6f,Subsecuencias de ADN,0,0,1,1,0,1,1,1,3,7,55,dh
3,1,171b5e86d4fb47268f2692587fbec073,Números Primos,0,0,0,0,0,0,1,1,0,3,3,ad
4,1,2437df93d3f44a87b00834072aeb1ab0,Nota Final,0,0,0,0,0,0,0,1,0,1,1,ab


In [72]:
# DATA_A
df_data_a.head()

Unnamed: 0,rut,usuario,correo,nombre,nrc,profesor,i1,f1,t1,r1,...,sol2,sol3,sol4,tarea1,tarea2,controles,np,examen,final,estado
0,5,*,*,*,17346,*,275.250242,447.08369,171.833448,3,...,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,R
1,7,*,*,*,17350,*,41.373362,103.25825,61.884888,1,...,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,R
2,16,*,*,*,17345,*,570.704977,707.02637,136.321393,1,...,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,R
3,44,*,*,*,17250,*,25.28067,50.940106,25.659436,1,...,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,R
4,103,*,*,*,18556,*,85.444223,223.148435,137.704212,1,...,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,R


In [73]:
# DATA_A_2021
df_data_2021.head()

Unnamed: 0,hito1,hito2,hito3,hito4,seq1,seq2,seq3,seq4,c1,c2,...,e46,e47,e48,e49,e50,e51,e52,programa,sol1,id
0,17.0,0.0,0,0,abacabadadacbhbbadad,,,,:1:2:1:3:3:2:23:17:3:3,,...,0,0,0,0,0,0,0,UNAB22115,1.0,1
1,12.0,0.0,0,0,abacabadadacbh,,,,:1:2:1:3:3:2:23,,...,0,0,0,0,0,0,0,UNAB22115,1.0,2
2,11.0,0.0,0,0,abacadadacbh,,,,:1:2:3:3:2:23,,...,0,0,0,0,0,0,0,UNAB22115,1.0,3
3,0.0,0.0,0,0,,,,,,,...,0,0,0,0,0,0,0,UNAB22115,1.0,4
4,0.0,0.0,0,0,,,,,,,...,0,0,0,0,0,0,0,UNAB22510,1.0,5


### d) INFORMACIÓN DE LAS VARIABLES DE LOS DATASETS

In [74]:
# Tanto las columnas oid, nombre y item no debierian ser consideradas ya que este sera un sistema de recomendacion 
# basado en un modelo matematico, por lo cual, no necesario tener una entrada en cadena de texto. En el caso del 
# nombre, es irrelevante para el sistema, ya que el oid cubre esa funcion de diferenciarlo de los demas. 
# Sin embargo, apesar que pandas tiene una funcion interna para indexar los datos, no se eliminara de primera 
# mano para ser identificado a posteriori. 

# CATALOGO
df_catalogo.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 53 entries, 0 to 52
Data columns (total 15 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   hito        53 non-null     int64 
 1   oid         53 non-null     object
 2   nombre      53 non-null     object
 3   s1          53 non-null     int64 
 4   s2          53 non-null     int64 
 5   s3          53 non-null     int64 
 6   s4          53 non-null     int64 
 7   k1          53 non-null     int64 
 8   k2          53 non-null     int64 
 9   k3          53 non-null     int64 
 10  k4          53 non-null     int64 
 11  skill       53 non-null     int64 
 12  knowledge   53 non-null     int64 
 13  complexity  53 non-null     int64 
 14  item        53 non-null     object
dtypes: int64(12), object(3)
memory usage: 6.3+ KB


In [75]:
# DATA_A
df_data_a.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 467 entries, 0 to 466
Columns: 110 entries, rut to estado
dtypes: float64(37), int64(55), object(18)
memory usage: 401.5+ KB


In [76]:
# DATA_A_2021
df_data_2021.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 839 entries, 0 to 838
Data columns (total 76 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   hito1     839 non-null    float64
 1   hito2     839 non-null    float64
 2   hito3     839 non-null    int64  
 3   hito4     839 non-null    int64  
 4   seq1      667 non-null    object 
 5   seq2      11 non-null     object 
 6   seq3      0 non-null      float64
 7   seq4      0 non-null      float64
 8   c1        667 non-null    object 
 9   c2        11 non-null     object 
 10  c3        0 non-null      float64
 11  c4        0 non-null      float64
 12  p1        667 non-null    object 
 13  p2        11 non-null     object 
 14  p3        0 non-null      float64
 15  p4        0 non-null      float64
 16  nrc       839 non-null    int64  
 17  exitosos  839 non-null    int64  
 18  fallidos  839 non-null    int64  
 19  envios    839 non-null    int64  
 20  e0        839 non-null    int64 

### e) DATOS FALTANTES

In [77]:
# CATALOGO
data_faltante = df_catalogo.isna().sum().where(lambda x: x > 0).dropna().reset_index()
data_faltante.columns = ['columna', 'datos_faltantes']
data_faltante['porcentaje'] = (data_faltante['datos_faltantes'] / df_catalogo.shape[0]) * 100
data_faltante = data_faltante.sort_values(by='porcentaje')
data_faltante

Unnamed: 0,columna,datos_faltantes,porcentaje


In [78]:
# DATA_A
data_faltante = df_data_a.isna().sum().where(lambda x: x > 0).dropna().reset_index()
data_faltante.columns = ['columna', 'datos_faltantes']
data_faltante['porcentaje'] = (data_faltante['datos_faltantes'] / df_data_a.shape[0]) * 100
data_faltante = data_faltante.sort_values(by='porcentaje')
data_faltante

Unnamed: 0,columna,datos_faltantes,porcentaje
0,seq1,43.0,9.207709
4,c1,43.0,9.207709
8,e1,43.0,9.207709
1,seq2,112.0,23.982869
5,c2,112.0,23.982869
9,e2,112.0,23.982869
2,seq3,467.0,100.0
3,seq4,467.0,100.0
6,c3,467.0,100.0
7,c4,467.0,100.0


In [79]:
# DATA_A_2021
data_faltante = df_data_2021.isna().sum().where(lambda x: x > 0).dropna().reset_index()
data_faltante.columns = ['columna', 'datos_faltantes']
data_faltante['porcentaje'] = (data_faltante['datos_faltantes'] / df_data_2021.shape[0]) * 100
data_faltante = data_faltante.sort_values(by='porcentaje')
data_faltante

Unnamed: 0,columna,datos_faltantes,porcentaje
0,seq1,172.0,20.500596
4,c1,172.0,20.500596
8,p1,172.0,20.500596
1,seq2,828.0,98.688915
5,c2,828.0,98.688915
9,p2,828.0,98.688915
2,seq3,839.0,100.0
3,seq4,839.0,100.0
6,c3,839.0,100.0
7,c4,839.0,100.0


### f) DATOS ESTADISTICOS

In [80]:
# CATALOGO
df_catalogo.describe().T

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
hito,53.0,2.226415,1.012262,1.0,1.0,2.0,3.0,4.0
s1,53.0,0.09434,0.295098,0.0,0.0,0.0,0.0,1.0
s2,53.0,0.150943,0.36142,0.0,0.0,0.0,0.0,1.0
s3,53.0,0.339623,0.478113,0.0,0.0,0.0,1.0,1.0
s4,53.0,0.320755,0.471233,0.0,0.0,0.0,1.0,1.0
k1,53.0,0.245283,0.434372,0.0,0.0,0.0,0.0,1.0
k2,53.0,0.566038,0.500363,0.0,0.0,1.0,1.0,1.0
k3,53.0,0.849057,0.36142,0.0,1.0,1.0,1.0,1.0
k4,53.0,0.90566,0.295098,0.0,1.0,1.0,1.0,1.0
skill,53.0,2.358491,3.01977,0.0,0.0,2.0,3.0,12.0


In [81]:
# DATA_A
df_data_a.describe().T

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
rut,467.0,233.000000,134.955548,0.000000,116.500000,233.000000,349.500000,466.000000
nrc,467.0,17445.920771,298.806158,17250.000000,17330.000000,17336.000000,17341.000000,18556.000000
i1,467.0,60.730283,57.366270,0.000000,25.166123,47.284874,76.842282,570.704977
f1,467.0,161.835100,131.935606,20.879236,83.286465,128.636988,202.043098,1220.145490
t1,467.0,101.104817,110.090207,14.947463,41.700748,65.350279,116.476445,962.077675
...,...,...,...,...,...,...,...,...
tarea2,467.0,4.605782,2.338002,1.000000,2.500000,5.400000,6.900000,7.000000
controles,467.0,5.989293,1.844250,1.000000,5.900000,7.000000,7.000000,7.000000
np,467.0,5.297088,1.280340,1.000000,4.730000,5.610000,6.215000,7.000000
examen,467.0,5.394861,1.454686,1.000000,5.100000,5.700000,6.300000,7.000000


In [82]:
# DATA_A_2021
df_data_2021.describe().T

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
hito1,839.0,13.353993,10.370917,0.0,3.0,13.0,20.0,42.0
hito2,839.0,0.168057,1.929950,0.0,0.0,0.0,0.0,32.0
hito3,839.0,0.000000,0.000000,0.0,0.0,0.0,0.0,0.0
hito4,839.0,0.000000,0.000000,0.0,0.0,0.0,0.0,0.0
seq3,0.0,,,,,,,
...,...,...,...,...,...,...,...,...
e50,839.0,0.000000,0.000000,0.0,0.0,0.0,0.0,0.0
e51,839.0,0.000000,0.000000,0.0,0.0,0.0,0.0,0.0
e52,839.0,0.000000,0.000000,0.0,0.0,0.0,0.0,0.0
sol1,839.0,3.642789,1.832625,1.0,2.2,3.7,5.1,7.0


### g) CORRELACIÓN DE VARIABLES

In [83]:
# CATALOGO
corr_matrix = df_catalogo.select_dtypes(include=['int', 'float']).corr()
corr_matrix["complexity"].sort_values(ascending=False)

complexity    1.000000
skill         0.996307
s1            0.848052
hito          0.716234
s2            0.700280
k2            0.594761
k3            0.313370
knowledge     0.312030
k4            0.251229
s3            0.009597
s4           -0.031842
k1           -0.036991
Name: complexity, dtype: float64

In [84]:
# DATA_A
corr_matrix = df_data_a.select_dtypes(include=['int', 'float']).corr()
corr_matrix["np"].sort_values(ascending=False)[:20]

np           1.000000
final        0.982339
examen       0.839062
sol4         0.820808
tarea2       0.797906
sol3         0.781713
sol2         0.692202
sol1         0.665178
controles    0.663883
tarea1       0.654484
hito1        0.602758
exitosos     0.599409
envios       0.532283
hito2        0.412238
score        0.149311
score_a      0.141596
score_p      0.138842
tema2        0.138748
videos       0.123948
r5           0.085213
Name: np, dtype: float64

In [85]:
# DATA_A_2021
corr_matrix = df_data_2021.select_dtypes(include=['int', 'float']).corr()
corr_matrix["sol1"].sort_values(ascending=False)[:20]

sol1        1.000000
id          0.995458
hito1       0.386839
exitosos    0.383443
e0          0.334326
e29         0.331309
e10         0.328143
e3          0.318727
e42         0.316038
e4          0.299403
e26         0.298051
e23         0.293238
e22         0.289299
e25         0.282818
envios      0.271860
e17         0.271349
e7          0.236058
e35         0.226412
e18         0.213371
e13         0.203075
Name: sol1, dtype: float64

## 3. PREPARACIÓN DE LOS DATOS

#### EJERCICIOS

In [86]:
# CARGAR DATASETS DE CATALOGO DE EJERCICIOS
df_catalogo = pd.read_csv(f"{DIR_DATA_ORIGINAL}/catalogo.csv", sep=";", encoding="latin1")

# EJERCICOS ORGANIZADOS HITOS Y POR COMPLEJIDAD DENTRO DEL HITO
df_ejercicios = df_catalogo.copy()
df_ejercicios = pd.get_dummies(df_ejercicios, columns=['hito'], prefix='h', prefix_sep='', dtype=int)
df_ejercicios['hito'] = df_catalogo['hito']
df_ejercicios = df_ejercicios.sort_values(by=["hito", "complexity"], ascending=True).reset_index()

# # ORGANIZACION DE LAS VARIABLES BINARIAS EN BASE A SU NIVEL, ES DECIR, 
# # S1, S2, S3, S4 EQUIVALEN A LOS NIVELES DE 1, 2, 3 Y 4 CORRESPONDIENTEMENTE.
# # DE IGUAL MANERA, SE CAMBIO EL ORDEN DE LOS KNOWLEDGE QUE CAMBIA EL ORDEN DEJANDO
# # SIMPLE FLOW -> K1, ADVANCED FLOW -> 2, COLLECTIONS -> 3, CLASSES -> 4.
df_ejercicios = df_ejercicios[['index', 'oid', 'nombre', 'h4', 'h3', 'h2', 'h1', 's1','s2','s3', 's4', 'k1', 'k2', 'k3', 'k4', 'hito', 'skill', 'knowledge', 'item']].copy()
df_ejercicios.columns = ['idx', 'oid', 'nombre', 'h4', 'h3', 'h2', 'h1', 's4', 's3', 's2', 's1', 'k4', 'k3', 'k2', 'k1', 'hito', 'skill', 'knowledge', 'item']


df_ejercicios_categorical = df_ejercicios[['idx', 'oid', 'nombre', 'hito', 'skill', 'knowledge']].copy()
df_ejercicios_one_hot_encoded = df_ejercicios[['idx', 'oid', 'nombre', 'h4', 'h3', 'h2', 'h1', 's4', 's3', 's2', 's1', 'k4', 'k3', 'k2', 'k1']].copy()


# # CONFIGURAR LA VARIABLE SCORE QUE CALCULA EL PUNTAJE DEL EJERCICIO EN BASE DE UN NUMERO BINAIRIO DE 12 BITS DE LOS DEMAS VARIBALES
# df_ejercicios['score'] = df_ejercicios.iloc[:, 3:15].apply(lambda x: int(''.join(map(str, x)), 2), axis=1)


# # LA VARAIBLE IDX CORRESPONDE AL ORDEN ANTES DEL ORDENAMIENTO, ESTO ES PARA LA REFERENCIA DEL DATAFRAME DE REGISTROS DE LOS ALUMNOS (DATA_A_2021.CSV)

df_ejercicios_categorical.to_csv(f'{DIR_DATA_LIMPIA}/catalogo-de-ejercicios-categorical.csv', index=False)
df_ejercicios_one_hot_encoded.to_csv(f'{DIR_DATA_LIMPIA}/catalogo-de-ejercicios-onehotencoded.csv', index=False)

In [87]:
# df_ejercicios_categorical.head()

In [88]:
# df_ejercicios_one_hot_encoded.head()

In [89]:
## IMPORTAR DATA
df_data_a = pd.read_csv(f"{DIR_DATA_ORIGINAL}/dataset_a.csv", sep=";", encoding="latin1")
df_data_a = df_data_a.sort_values(by='rut', ascending=True)


#### REGISTRO DEL CURSO
df_registro_curso = df_data_a[['rut','programa','nrc', 'sol1', 'sol2', 'sol3', 'sol4', 'tarea1', 'tarea2', 'controles', 'np', 'examen', 'final', 'estado']]
df_registro_curso.to_csv(f'{DIR_DATA_LIMPIA}/registro-curso-1.csv', index=False)

## PRUEBA DIAGNOSTICO
df_registro_prueba_diagnostico = df_data_a[[
    'rut',
    't1', 'r1', 'p1',
    't2', 'r2', 'p2',
    't3', 'r3', 'p3',
    't4', 'r4', 'p4',
    't5', 'r5', 'p5',
    't6', 'r6', 'p6',
    'op1', 'op2', 'op3', 'op4', 'op5', 'op6',
    'pt', 'game_score', 'score', 'score_a', 'score_p', 'score_d', 'score_s'
]].copy()
df_registro_prueba_diagnostico.to_csv(f'{DIR_DATA_LIMPIA}/registro-prueba-diagnostico.csv', index=False)

## PLATAFORMA
df_registro_plataforma = df_data_a[[
    'rut', 
    'tema2', 'tema3', 'tema4', 'tema5', 'tema6', 'tema7', 'tema8',
    'hito1', 'hito2', 'hito3', 'hito4',
    'seq1', 'seq2', 'seq3', 'seq4',
    'c1', 'c2', 'c3', 'c4',
    'e1', 'e2', 'e3', 'e4',
    'exitosos', 'fallidos', 'envios', 'videos'
    ]].copy()
df_registro_plataforma.to_csv(f'{DIR_DATA_LIMPIA}/registro-plataforma.csv', index=False)


In [90]:
## MATRIZ DE EJERCICIOS (DATA_A)
df_matrix_user_exercs_binary = pd.DataFrame(columns=['e' + str(i) for i in range(len(df_catalogo))])

def crear_lista(n, listas):
    lista_resultado = [0] * n  # Crear una lista de n ceros
    for lista in listas:
        if not lista:  # Si la lista está vacía, pasar a la siguiente lista
            continue
        for num in lista:
            if num < n:  # Solo actualizar si el número es menor que n
                lista_resultado[num] += 1
    return lista_resultado

df_secuencia = df_data_a[['e1', 'e2', 'e3', 'e4']].copy()

for index in range(len(df_secuencia)):
    ejercicios = df_secuencia.iloc[index]
    ejes1 = [int(elemento) for elemento in str(ejercicios.e1).split(':')[1:] if elemento.isdigit()]
    ejes2 = [int(elemento) for elemento in str(ejercicios.e2).split(':')[1:] if elemento.isdigit()]
    ejes3 = [int(elemento) for elemento in str(ejercicios.e3).split(':')[1:] if elemento.isdigit()]
    ejes4 = [int(elemento) for elemento in str(ejercicios.e4).split(':')[1:] if elemento.isdigit()]
    listas = [ejes1, ejes2, ejes3, ejes4]
    lista_resultado = crear_lista(len(df_catalogo), listas)
    df_matrix_user_exercs_binary.loc[len(df_matrix_user_exercs_binary)] = lista_resultado

df_matrix_user_exercs_binary['rut'] = df_data_a['rut']
df_matrix_user_exercs_binary = df_matrix_user_exercs_binary[['rut'] + ['e' + str(i) for i in range(len(df_catalogo))] ].copy()
df_matrix_user_exercs_binary = df_matrix_user_exercs_binary.sort_values(by='rut', ascending=True)


# ORDENAR EL ORDEN DE LOS EJERCICIOS EN BASE DEL ORDENAMIENTO HECHO ANTERIORMENTE A LOS DATOS DE LOS EJERCICIOS 
df_registros1 = pd.DataFrame()
df_registros1 = df_matrix_user_exercs_binary.copy()

for index in range(len(df_ejercicios)):
    ejercicio = df_ejercicios.iloc[index]['idx']
    df_registros1[f'e{index}'] = df_matrix_user_exercs_binary[f'e{ejercicio}']

df_registros1.to_csv(f'{DIR_DATA_LIMPIA}/matriz-ejercicios-1.csv', index=False)

In [96]:
## DATA_A_2021

# 'seq1' , 'seq2', 'seq3', 'seq4',
# 'c1', 'c2', 'c3', 'c4',
# 'p1', 'p2', 'p3', 'p4',

df_2021 = df_data_2021[['id', 'programa', 'nrc', 'exitosos', 'fallidos', 'hito1', 'hito2', 'hito3', 'hito4', 'p1', 'p2', 'p3', 'p4', 'sol1']].copy()
df_2021.columns = ['rut', 'programa', 'nrc', 'exitosos', 'fallidos', 'hito1', 'hito2', 'hito3', 'hito4', 'p1', 'p2', 'p3', 'p4', 'sol1']

df_2021['hito1'] = df_2021['hito1'].astype(int)
df_2021['hito2'] = df_2021['hito2'].astype(int)


df_2021.to_csv(f'{DIR_DATA_LIMPIA}/registro-curso-2021.csv', index=False)
# df_2021

In [92]:
## MATRIZ DE EJERCICIOS (DATA_A_2021)
df_registros2 = pd.DataFrame()
df_registros2['rut'] = df_data_2021['id']

for index in range(len(df_ejercicios)):
    ejercicio = df_ejercicios.iloc[index]['idx']
    df_registros2[f'e{index}'] = df_data_2021[f'e{ejercicio}']

df_registros2.to_csv(f'{DIR_DATA_LIMPIA}/matriz-ejercicios-2021.csv', index=False)
df_registros2

Unnamed: 0,rut,e0,e1,e2,e3,e4,e5,e6,e7,e8,...,e43,e44,e45,e46,e47,e48,e49,e50,e51,e52
0,1,1,0,1,1,1,1,1,0,1,...,0,0,0,0,0,0,0,0,0,0
1,2,1,0,1,1,1,0,0,0,1,...,0,0,0,0,0,0,0,0,0,0
2,3,0,0,1,1,1,0,0,0,1,...,0,0,0,0,0,0,0,0,0,0
3,4,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
4,5,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
834,835,1,0,1,1,1,1,1,0,1,...,0,0,0,0,0,0,0,0,0,0
835,836,1,0,1,1,0,0,1,1,1,...,0,0,0,0,0,0,0,0,0,0
836,837,1,0,1,1,1,1,1,0,1,...,0,0,0,0,0,0,0,0,0,0
837,838,1,1,1,1,1,1,1,1,1,...,0,0,0,0,0,0,0,0,0,0


### c) REVISIÓN DE LOS DATOS PARA EL PREPROCESAMIENTO

In [93]:
df_ejercicios.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 53 entries, 0 to 52
Data columns (total 19 columns):
 #   Column     Non-Null Count  Dtype 
---  ------     --------------  ----- 
 0   idx        53 non-null     int64 
 1   oid        53 non-null     object
 2   nombre     53 non-null     object
 3   h4         53 non-null     int64 
 4   h3         53 non-null     int64 
 5   h2         53 non-null     int64 
 6   h1         53 non-null     int64 
 7   s4         53 non-null     int64 
 8   s3         53 non-null     int64 
 9   s2         53 non-null     int64 
 10  s1         53 non-null     int64 
 11  k4         53 non-null     int64 
 12  k3         53 non-null     int64 
 13  k2         53 non-null     int64 
 14  k1         53 non-null     int64 
 15  hito       53 non-null     int64 
 16  skill      53 non-null     int64 
 17  knowledge  53 non-null     int64 
 18  item       53 non-null     object
dtypes: int64(16), object(3)
memory usage: 8.0+ KB


In [94]:
df_registros2.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 839 entries, 0 to 838
Data columns (total 54 columns):
 #   Column  Non-Null Count  Dtype
---  ------  --------------  -----
 0   rut     839 non-null    int64
 1   e0      839 non-null    int64
 2   e1      839 non-null    int64
 3   e2      839 non-null    int64
 4   e3      839 non-null    int64
 5   e4      839 non-null    int64
 6   e5      839 non-null    int64
 7   e6      839 non-null    int64
 8   e7      839 non-null    int64
 9   e8      839 non-null    int64
 10  e9      839 non-null    int64
 11  e10     839 non-null    int64
 12  e11     839 non-null    int64
 13  e12     839 non-null    int64
 14  e13     839 non-null    int64
 15  e14     839 non-null    int64
 16  e15     839 non-null    int64
 17  e16     839 non-null    int64
 18  e17     839 non-null    int64
 19  e18     839 non-null    int64
 20  e19     839 non-null    int64
 21  e20     839 non-null    int64
 22  e21     839 non-null    int64
 23  e22     839 non

### d) VARIABLES CATEGORICAS DE LOS DATASETS

In [None]:
# EJERCICIOS
vars_num = df_ejercicios.select_dtypes(include=['int', 'float']).columns
vars_cat = df_ejercicios.select_dtypes(include=['object']).columns
print(f"\nCategoricas: {list(vars_cat)}\nNumericas: {list(vars_num)}")

In [None]:
# REGISTROS
vars_num = df_registros2.select_dtypes(include=['int', 'float']).columns
vars_cat = df_registros2.select_dtypes(include=['object']).columns
print(f"\nCategoricas: {list(vars_cat)}\nNumericas: {list(vars_num)}")

## 4. MODELAMIENTO

## 5. EVALUCIÓN

## 6. IMPLEMENTACIÓN