In [61]:
##Importar las librerías requeridas para el análisis
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

%matplotlib inline

In [2]:
##Definir tamaño máximo de filas a mostrar
pd.set_option('display.max_rows', 100)

In [5]:
##Importar el dataset del CSV
estudiantes_df = pd.read_csv('./data/estudiantes.csv', low_memory = False)

In [38]:
estudiantes_df

Unnamed: 0,gender,race/ethnicity,parental level of education,lunch,test preparation course,math score,reading score,writing score
0,non-binary,group B,bachelor's degree,standard,none,72.0,72.0,
1,female,group C,some college,standard,completed,69.0,90.0,88.0
2,female,group B,master's degree,standard,none,90.0,95.0,93.0
3,male,group A,associate's degree,free/reduced,none,,57.0,44.0
4,male,group C,some college,standard,none,76.0,78.0,75.0
...,...,...,...,...,...,...,...,...
995,female,group E,master's degree,standard,completed,88.0,69.0,95.0
996,male,group C,high school,free/reduced,none,62.0,55.0,55.0
997,female,group C,high school,free/reduced,completed,59.0,69.0,65.0
998,no reporta,group D,some college,standard,completed,68.0,78.0,77.0


##### 1. ¿Qué tipo de variables tiene el dataset? Detalle el tipo de variable de cada columna.  
##### R:// Se puede observar que el conjunto de datos cuenta con 8 variables las cuales 5 de ellas son categoricas y 3 restantes son de tipo cualitativa discretas de tipo decimal.

In [10]:
#Verificamos el tipo de variable de cada columna
estudiantes_df.dtypes

gender                          object
race/ethnicity                  object
parental level of education     object
lunch                           object
test preparation course         object
math score                     float64
reading score                  float64
writing score                  float64
dtype: object

##### 2. ¿Qué tipo de problemas de calidad de datos logra identificar? Defina e implemente las estrategias de limpieza de datos que correspondan. 
##### R:// Todos los atributos presentan campos nulos por lo que procedemos a sacar la media en las columnas cuantitativas (math score - reading score - writing score) de cada columna y remplazarlos. Para las variables cualitativas creamos una nueva categoría denominada "no reporta" a excepción del test de preparación ya que cuenta con una feature none la cual puede ser remplazada en los campos nulos.

In [14]:
#Verificamos si existen registros duplicados para borrarlos
estudiantes_df[estudiantes_df.duplicated(keep=False)]

Unnamed: 0,gender,race/ethnicity,parental level of education,lunch,test preparation course,math score,reading score,writing score


In [13]:
#Verificamos la cantidad de campos nulos
estudiantes_df.isnull().sum()

gender                         47
race/ethnicity                 45
parental level of education    60
lunch                          54
test preparation course        41
math score                     51
reading score                  48
writing score                  49
dtype: int64

In [27]:
#Se remplaza en el campo de preparación la feature nan por none
estudiantes_df['test preparation course'].fillna("none", inplace = True)

In [28]:
#Verificamos si se remplazo correctamente la feature
estudiantes_df['test preparation course'].unique()

array(['none', 'completed'], dtype=object)

In [29]:
#Remplazamos los valores nulos agregando una nueva categoria a los siguientes campos
estudiantes_df['gender'].fillna("no reporta", inplace = True)
estudiantes_df['race/ethnicity'].fillna("no reporta", inplace = True)
estudiantes_df['parental level of education'].fillna("no reporta", inplace = True)
estudiantes_df['lunch'].fillna("no reporta", inplace = True)

In [37]:
#Remplazamos los valores nulos con la media de dicha columna
estudiantes_df['reading score'].fillna(round(estudiantes_df['reading score'].mean()), inplace = True)

In [40]:
#Validamos que ya no existan campos nulos dentro de esa columna
estudiantes_df['reading score'].isnull().sum()

0

In [43]:
#Remplazamos los valores nulos con la media de las calificaciones de matemáticas a la misma columna
estudiantes_df['math score'].fillna(round(estudiantes_df['math score'].mean()), inplace = True)

In [44]:
#Validamos que ya no existan campos nulos dentro de la materia de matemáticas
estudiantes_df['math score'].isnull().sum()

0

In [46]:
#Remplazamos los valores nulos de la columna de escritura con la media de la misma
estudiantes_df['writing score'].fillna(round(estudiantes_df['writing score'].mean()), inplace = True)

In [47]:
#Validamos que ya no existan campos nulos dentro de la materia de escritura
estudiantes_df['writing score'].isnull().sum()

0

##### 3. ¿En qué asignatura en promedio los estudiantes obtuvieron un mejor puntaje? ¿Hay evidencia de algún sesgo en la distribución de dichos puntajes?  
##### R://  Se observa que en promedio, los estudiantes obtuvieron un mejor puntaje en la asignatura de escritura con una media de  69,245 y a su vez se evidencia que puede tener una media alta debido a que es la asignatura que presenta el mejor puntaje mínimo entre las otras 2 asignaturas. Por ello la materia de matemáticas presenta una media inferior por lo que algún estudiante presento una puntuación de 0.

In [49]:
estudiantes_df.describe()

Unnamed: 0,math score,reading score,writing score
count,1000.0,1000.0,1000.0
mean,66.114,69.245,68.173
std,14.808927,14.197343,14.765131
min,0.0,17.0,10.0
25%,58.0,60.0,58.0
50%,66.0,69.0,68.0
75%,76.0,79.0,78.0
max,100.0,100.0,100.0


##### 4. ¿Existe alguna correlación entre los puntajes obtenidos en las tres asignaturas?
##### R://  Verificando la correlación entre las 3 asignaturas, se puede observar que existe una alta correlación entre ellas, donde las asignaturas de escritura y lectura obtienen un resultado de más del 90% mientras que lectura con matemáticas obtienen un 78% y matemáticas con escritura un 75% son un poco más bajas pero aún así su correlación es bastante buena.

In [72]:
#Validamos la correlación entre las 3 asignaturas
estudiantes_df[['math score', 'reading score', 'writing score']].corr()

Unnamed: 0,math score,reading score,writing score
math score,1.0,0.780753,0.752383
reading score,0.780753,1.0,0.909499
writing score,0.752383,0.909499,1.0


##### 5. ¿Hay alguna diferencia observable en los puntajes de la asignatura de matemáticas entre géneros? ¿Qué género obtuvo en promedio los mejores puntajes?
##### R: // Se evidencia que los hombres presentan una mejor calificación para la asignatura de matemáticas con un puntaje de 68,51 pero la diferencia entre cada uno de ellos es mínima.

In [54]:
#Agrupamos los géneros y visualizamos la media para la asignatura de matemáticas
estudiantes_df.groupby(['gender']).agg('mean')['math score']

gender
female        63.577830
male          68.515544
no reporta    64.446809
non-binary    67.699301
Name: math score, dtype: float64

##### 7. ¿Qué porcentaje de los estudiantes obtuvieron puntajes iguales o superiores a 90 en las tres asignaturas? De estos estudiantes¿que porcentaje estudió para los exámenes?
##### R:// 