# 0. Introducción al proyecto

La idea principal de este NoteBook es comparar el desempeño de un modelo clásico de ML frente a una red neuronal diseñada completamente por mi.

Para ello abordaré un problema relativamente sencillo con un dataset extraido de Kaggle al que podéis acceder desde aquí:

 https://www.kaggle.com/datasets/therohithanand/student-academic-performance-dataset/data

Para abordar problemas del mundo real es importante responder una serie de preguntas:

- ¿Cuál es la finalidad del proyecto?

- ¿?

- ¿Qué significado tienen los resultados obtenidos?

- ¿Cuáles son las métricas con mayor impacto?

Una vez planteadas y respondidas estas preguntas, es interesante ...

# 1. Importación de librerias y carga de datos




In [13]:
import pandas as pd 
import numpy as np 
import seaborn as sns
import matplotlib as plt
import tensorflow as tf 


ruta = "./data/student_info.csv"

data_raw = pd.read_csv(ruta, sep=",")

# 2. Preprocesado del dataset

In [None]:
# Visualizamos la información de las variables
data_raw.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 15 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   student_id        1000 non-null   object 
 1   name              1000 non-null   object 
 2   gender            1000 non-null   object 
 3   age               1000 non-null   int64  
 4   grade_level       1000 non-null   int64  
 5   math_score        1000 non-null   int64  
 6   reading_score     1000 non-null   int64  
 7   writing_score     1000 non-null   int64  
 8   attendance_rate   1000 non-null   float64
 9   parent_education  1000 non-null   object 
 10  study_hours       1000 non-null   float64
 11  internet_access   1000 non-null   object 
 12  lunch_type        1000 non-null   object 
 13  extra_activities  1000 non-null   object 
 14  final_result      1000 non-null   object 
dtypes: float64(2), int64(5), object(8)
memory usage: 117.3+ KB


Estamos trabajando con un dataset de Kaggle que por lo general ya vienen limpiados/tratados.

La parte negativa de esto es que nos alejamos de un proyecto real. 

Ya que por lo general, en un proyecto real, falta información (a causa de problemas en su recopilación o errores humanos) y estamos omitiendo la fase de transformar esa información faltante o eliminarla.

#### Describción de las variables

- student_id -> Identificador del estudiante

- name -> Nombre del estudiante (Confidencial)

- gender -> Genero del estudiante (Male, Female, Other)

- age -> Edad del estudiante

- grade_level -> Curso en el que se encuentra el estudiante

- math_score -> Puntuación en matemáticas

- reading_score -> Puntuación en lectura

- writing_score -> Puntuación en escritura

- attendance_rate -> Tasa de asistancia

- parent_education -> Nivel educativo de sus progenitores (Bachelor´s, PhD, High School, Master´s)

- study_hours -> Horas de estudio

- internet_access -> Acceso a internet (Yes, No)

- lunch_type -> Tipo de almuerzo (Standard, Free or Reduced)

- extra_activities -> Actividades extracurriculares (Yes, No)

- final_result -> Resultado final (Pass, Fail)



Habiendo identificado todas las variables y sus tipos, podemos determinar que cambios son necesarios para realizar la fase de modelado.

In [17]:
# Pequeño análisis estadistico de las variables numéricas
data_raw.describe().transpose()

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
age,1000.0,15.999,0.817109,15.0,15.0,16.0,17.0,17.0
grade_level,1000.0,10.473,1.136029,9.0,9.0,10.0,12.0,12.0
math_score,1000.0,75.165,14.304349,50.0,63.0,75.0,88.0,99.0
reading_score,1000.0,74.293,14.312652,50.0,62.0,74.0,86.0,99.0
writing_score,1000.0,75.15,14.395094,50.0,63.0,75.0,88.0,99.0
attendance_rate,1000.0,89.879179,5.725007,80.000614,84.971772,89.980889,94.629778,99.954988
study_hours,1000.0,2.97838,1.16778,1.015673,1.955287,2.962665,3.99436,4.997843
