# Diseño del dataset para futuras predicciones
En este cuaderno se va a mostrar como se realizo un dataset a partir de los datos obtenidos en el analisis de datos de las olimpiadas matemáticas realizadas en el colegio, es así que puedo partir de los siguientes archivos *.csv* para su posterior tratamiento:

In [1]:
import pandas as pd
import numpy as np

In [3]:
resultados_estudiantes_ = pd.read_csv('Resultados_Estudiantes_.csv')
resultados_preguntas_ = pd.read_csv('Resultados_Preguntas_.csv')
dificultad_preguntas_ = pd.read_csv('Dificultad.csv')

Uno de los primeros pasos que se debe realizar es cambiar el nombre de la columna *index*, por uno que sea mas relevante para este caso, corresponde a Nombres, en el csv de resultados preguntas, luego de esto se diseña un id, para evitar duplicaciones innecesarias en la información y finalmente una vista para identificar si los estudiantes tuvieron bien la respuesta:

* 1 para: 'sí la tuvieron bien'
* 0 para: 'No la tuvieron bien':

In [4]:
resultados_preguntas_=resultados_preguntas_.rename(columns={'index':'Nombres'})
resultados_preguntas_.head()

Unnamed: 0,Nombres,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,Curso
0,Estudiante 1,0,0,0,0,1,0,1,1,1,1,0,1,0,1,1,0,Sexto
1,Estudiante 2,0,0,1,0,1,0,1,1,1,1,1,1,1,1,1,0,Sexto
2,Estudiante 3,0,0,0,0,1,0,1,0,1,1,0,1,0,1,1,0,Sexto
3,Estudiante 4,0,0,0,0,1,0,1,1,1,1,1,1,1,1,1,0,Sexto
4,Estudiante 5,0,0,0,1,1,0,1,1,1,1,0,0,0,0,0,0,Sexto


In [5]:
resultados_preguntas_['id']=resultados_preguntas_['Nombres']+'_'+resultados_preguntas_['Curso']
resultados_preguntas_.head()

Unnamed: 0,Nombres,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,Curso,id
0,Estudiante 1,0,0,0,0,1,0,1,1,1,1,0,1,0,1,1,0,Sexto,Estudiante 1_Sexto
1,Estudiante 2,0,0,1,0,1,0,1,1,1,1,1,1,1,1,1,0,Sexto,Estudiante 2_Sexto
2,Estudiante 3,0,0,0,0,1,0,1,0,1,1,0,1,0,1,1,0,Sexto,Estudiante 3_Sexto
3,Estudiante 4,0,0,0,0,1,0,1,1,1,1,1,1,1,1,1,0,Sexto,Estudiante 4_Sexto
4,Estudiante 5,0,0,0,1,1,0,1,1,1,1,0,0,0,0,0,0,Sexto,Estudiante 5_Sexto


In [6]:
resultados_preguntas_ancho_ = resultados_preguntas_.drop(columns=['Curso','Nombres']).melt(id_vars='id',
                                      var_name='pregunta',
                                      value_name='es_correcta')
resultados_preguntas_ancho_.head()

Unnamed: 0,id,pregunta,es_correcta
0,Estudiante 1_Sexto,1,0
1,Estudiante 2_Sexto,1,0
2,Estudiante 3_Sexto,1,0
3,Estudiante 4_Sexto,1,0
4,Estudiante 5_Sexto,1,0


Ahora se cambia el nombre del csv asociado a resultados estudiantes, especificamente a la columna *index* y luego de esto se genera un id unico para evitar duplicaciones en la información.

In [7]:
resultados_estudiantes_=resultados_estudiantes_.rename(columns={'index':'Nombres'})
resultados_estudiantes_.head()

Unnamed: 0,Nombres,0,1,2,Sexo,Edad,Curso,Total,% Analítica,% Espacial,% Lógica,% Total
0,Estudiante 5,5,2,5,Masculino,14,Noveno,12,83.333333,40.0,100.0,75.0
1,Estudiante 2,2,5,4,Femenino,11,Sexto,11,33.333333,100.0,80.0,68.75
2,Estudiante 7,2,4,4,Femenino,16,Undécimo,10,33.333333,80.0,80.0,62.5
3,Estudiante 4,1,5,4,Femenino,12,Sexto,10,16.666667,100.0,80.0,62.5
4,Estudiante 7,2,4,4,Masculino,14,Octavo,10,33.333333,80.0,80.0,62.5


In [8]:
resultados_estudiantes_['id']=resultados_estudiantes_['Nombres']+'_'+resultados_estudiantes_['Curso']
resultados_preguntas_.head()

Unnamed: 0,Nombres,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,Curso,id
0,Estudiante 1,0,0,0,0,1,0,1,1,1,1,0,1,0,1,1,0,Sexto,Estudiante 1_Sexto
1,Estudiante 2,0,0,1,0,1,0,1,1,1,1,1,1,1,1,1,0,Sexto,Estudiante 2_Sexto
2,Estudiante 3,0,0,0,0,1,0,1,0,1,1,0,1,0,1,1,0,Sexto,Estudiante 3_Sexto
3,Estudiante 4,0,0,0,0,1,0,1,1,1,1,1,1,1,1,1,0,Sexto,Estudiante 4_Sexto
4,Estudiante 5,0,0,0,1,1,0,1,1,1,1,0,0,0,0,0,0,Sexto,Estudiante 5_Sexto


El siguiente paso corresponde en unificar estos dos dataframes, para tener un dataset casi completo, utilizando el **id** que es unico para cada estudiante:

In [9]:
df_modelo = resultados_preguntas_ancho_.merge(resultados_estudiantes_, left_on='id', right_on='id')
df_modelo.head()

Unnamed: 0,id,pregunta,es_correcta,Nombres,0,1,2,Sexo,Edad,Curso,Total,% Analítica,% Espacial,% Lógica,% Total
0,Estudiante 1_Sexto,1,0,Estudiante 1,1,4,3,Femenino,11,Sexto,8,16.666667,80.0,60.0,50.0
1,Estudiante 2_Sexto,1,0,Estudiante 2,2,5,4,Femenino,11,Sexto,11,33.333333,100.0,80.0,68.75
2,Estudiante 3_Sexto,1,0,Estudiante 3,1,3,3,Femenino,11,Sexto,7,16.666667,60.0,60.0,43.75
3,Estudiante 4_Sexto,1,0,Estudiante 4,1,5,4,Femenino,12,Sexto,10,16.666667,100.0,80.0,62.5
4,Estudiante 5_Sexto,1,0,Estudiante 5,2,4,0,Masculino,11,Sexto,6,33.333333,80.0,0.0,37.5


Procedo a calcular el csv asociado a dificultad, este me permite asociar un grado de dificultad a cada una de las preguntas, de acuerdo a la dificultad que represento estadísticamente para los estudiantes, y así obtener mas columnas necesarias para poder aplicar un modelo de ML:

In [10]:
dificultad = pd.read_csv('Dificultad.csv')
dificultad.head()

Unnamed: 0,Pregunta,Total,dificultad,categoria
0,1,6,4,Analítica
1,8,12,4,Espacial
2,6,13,4,Analítica
3,3,18,4,Analítica
4,16,20,3,Lógica


Cambio el nombre de la columna pregunta, y elimino la columna Total, para que tenga correspondencia con el dataframe generado anteriormente

In [11]:
dificultad = dificultad.rename(columns={'Pregunta':'pregunta'})
dificultad.head()

Unnamed: 0,pregunta,Total,dificultad,categoria
0,1,6,4,Analítica
1,8,12,4,Espacial
2,6,13,4,Analítica
3,3,18,4,Analítica
4,16,20,3,Lógica


In [12]:
columna = ['Total']
dificultad = dificultad.drop(columna, axis=1)
dificultad.head()

Unnamed: 0,pregunta,dificultad,categoria
0,1,4,Analítica
1,8,4,Espacial
2,6,4,Analítica
3,3,4,Analítica
4,16,3,Lógica


Unifico el dataframe df_modelo que contenía la información de los dos primeros archivos csv, con el reciente dataframe, generando uno nuevo que me proporciona mas información relevante:

In [13]:
df_modelo['pregunta'] = df_modelo['pregunta'].astype(int)
df_modelo = df_modelo.merge(dificultad, left_on='pregunta', right_on='pregunta')
df_modelo.head()

Unnamed: 0,id,pregunta,es_correcta,Nombres,0,1,2,Sexo,Edad,Curso,Total,% Analítica,% Espacial,% Lógica,% Total,dificultad,categoria
0,Estudiante 1_Sexto,1,0,Estudiante 1,1,4,3,Femenino,11,Sexto,8,16.666667,80.0,60.0,50.0,4,Analítica
1,Estudiante 2_Sexto,1,0,Estudiante 2,2,5,4,Femenino,11,Sexto,11,33.333333,100.0,80.0,68.75,4,Analítica
2,Estudiante 3_Sexto,1,0,Estudiante 3,1,3,3,Femenino,11,Sexto,7,16.666667,60.0,60.0,43.75,4,Analítica
3,Estudiante 4_Sexto,1,0,Estudiante 4,1,5,4,Femenino,12,Sexto,10,16.666667,100.0,80.0,62.5,4,Analítica
4,Estudiante 5_Sexto,1,0,Estudiante 5,2,4,0,Masculino,11,Sexto,6,33.333333,80.0,0.0,37.5,4,Analítica


Si quisiera hacer una predicción para un o una estudiante ausente en base a la anterior información, hay columnas que no necesito debido a que es imposible obtener el valor correspondiente, debido a que son propias de la prueba aplicada, por lo tanto las elimino:

In [14]:
columnas = ['0','1','2','Total','% Analítica','% Espacial','% Lógica','% Total','Nombres']
df_modelo_1 = df_modelo.drop(columnas, axis=1)
df_modelo_1.head()

Unnamed: 0,id,pregunta,es_correcta,Sexo,Edad,Curso,dificultad,categoria
0,Estudiante 1_Sexto,1,0,Femenino,11,Sexto,4,Analítica
1,Estudiante 2_Sexto,1,0,Femenino,11,Sexto,4,Analítica
2,Estudiante 3_Sexto,1,0,Femenino,11,Sexto,4,Analítica
3,Estudiante 4_Sexto,1,0,Femenino,12,Sexto,4,Analítica
4,Estudiante 5_Sexto,1,0,Masculino,11,Sexto,4,Analítica


Puedo obtener la información de mi dataframe definitivo:

In [15]:
df_modelo_1.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1056 entries, 0 to 1055
Data columns (total 8 columns):
 #   Column       Non-Null Count  Dtype 
---  ------       --------------  ----- 
 0   id           1056 non-null   object
 1   pregunta     1056 non-null   int64 
 2   es_correcta  1056 non-null   int64 
 3   Sexo         1056 non-null   object
 4   Edad         1056 non-null   int64 
 5   Curso        1056 non-null   object
 6   dificultad   1056 non-null   int64 
 7   categoria    1056 non-null   object
dtypes: int64(4), object(4)
memory usage: 66.1+ KB


Y puedo proceder a generar un archivo csv que me servira como punto de partida para generar las respectivas predicciones:

In [16]:
df_modelo_1.to_csv('train_olimpiadas_.csv', index=False)

La siguiente parte corresponde a generar un nuevo dataframe que contenga la información que si puedo obtener de la estudiante ausente, o del estudiante ausente:

In [17]:
# Nombre de la estudiante
nombre_estudiante = 'Estudiante ausente'

# Preguntas numeradas del 1 al 16
preguntas = list(range(1, 17))
# Sexo

sexo = ['Femenino'] * 16

# Edad

edad = [16] * 16

# Curso
curso = ['Undécimo'] * 16

# Dificultad por bloques de 4
dificultad = [4] * 4 + [3] * 4 + [2] * 4 + [1] * 4

# Categoría por bloques: 6 analítica, 5 espacial, 5 lógica
categoria = ['Analítica'] * 6 + ['Espacial'] * 5 + ['Lógica'] * 5

# Crear el DataFrame
df_estudiante = pd.DataFrame({
    'nombre': [nombre_estudiante] * 16,
    'pregunta': preguntas,
    'Sexo': sexo,
    'Edad': edad,
    'Curso': curso,
    'dificultad': dificultad,
    'categoria': categoria
})

# Mostrar el resultado
df_estudiante.head(16)

Unnamed: 0,nombre,pregunta,Sexo,Edad,Curso,dificultad,categoria
0,Estudiante ausente,1,Femenino,16,Undécimo,4,Analítica
1,Estudiante ausente,2,Femenino,16,Undécimo,4,Analítica
2,Estudiante ausente,3,Femenino,16,Undécimo,4,Analítica
3,Estudiante ausente,4,Femenino,16,Undécimo,4,Analítica
4,Estudiante ausente,5,Femenino,16,Undécimo,3,Analítica
5,Estudiante ausente,6,Femenino,16,Undécimo,3,Analítica
6,Estudiante ausente,7,Femenino,16,Undécimo,3,Espacial
7,Estudiante ausente,8,Femenino,16,Undécimo,3,Espacial
8,Estudiante ausente,9,Femenino,16,Undécimo,2,Espacial
9,Estudiante ausente,10,Femenino,16,Undécimo,2,Espacial


In [19]:
df_modelo_1.to_csv('test_olimpiadas_.csv', index=False)