In [33]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import plotly.express as px
from plotly.offline import init_notebook_mode
init_notebook_mode(connected=True)
import plotly.figure_factory as ff
import plotly.graph_objects as go
from scipy.stats import chi2_contingency

### Carga del DataSet

In [2]:
df = pd.read_csv('StudentsPerformance.csv')

In [3]:
df

Unnamed: 0,gender,race/ethnicity,parental level of education,lunch,test preparation course,math score,reading score,writing score
0,female,group B,bachelor's degree,standard,none,72,72,74
1,female,group C,some college,standard,completed,69,90,88
2,female,group B,master's degree,standard,none,90,95,93
3,male,group A,associate's degree,free/reduced,none,47,57,44
4,male,group C,some college,standard,none,76,78,75
...,...,...,...,...,...,...,...,...
995,female,group E,master's degree,standard,completed,88,99,95
996,male,group C,high school,free/reduced,none,62,55,55
997,female,group C,high school,free/reduced,completed,59,71,65
998,female,group D,some college,standard,completed,68,78,77


### EDA

In [4]:
duplicados = df[df.duplicated()]
print("Filas duplicadas excluyendo la primera aparición")
print(duplicados)

Filas duplicadas excluyendo la primera aparición
Empty DataFrame
Columns: [gender, race/ethnicity, parental level of education, lunch, test preparation course, math score, reading score, writing score]
Index: []


### Buscamos Valores nulos

In [5]:
df.isnull().sum()

gender                         0
race/ethnicity                 0
parental level of education    0
lunch                          0
test preparation course        0
math score                     0
reading score                  0
writing score                  0
dtype: int64

### Descripcion de Dataset

In [7]:
df.describe

<bound method NDFrame.describe of      gender race/ethnicity parental level of education         lunch  \
0    female        group B           bachelor's degree      standard   
1    female        group C                some college      standard   
2    female        group B             master's degree      standard   
3      male        group A          associate's degree  free/reduced   
4      male        group C                some college      standard   
..      ...            ...                         ...           ...   
995  female        group E             master's degree      standard   
996    male        group C                 high school  free/reduced   
997  female        group C                 high school  free/reduced   
998  female        group D                some college      standard   
999  female        group D                some college  free/reduced   

    test preparation course  math score  reading score  writing score  
0                      none  

In [9]:
df.size

8000

In [10]:
df.dtypes

gender                         object
race/ethnicity                 object
parental level of education    object
lunch                          object
test preparation course        object
math score                      int64
reading score                   int64
writing score                   int64
dtype: object

In [11]:
df.shape

(1000, 8)

In [12]:
df.describe()

Unnamed: 0,math score,reading score,writing score
count,1000.0,1000.0,1000.0
mean,66.089,69.169,68.054
std,15.16308,14.600192,15.195657
min,0.0,17.0,10.0
25%,57.0,59.0,57.75
50%,66.0,70.0,69.0
75%,77.0,79.0,79.0
max,100.0,100.0,100.0


### Siguiendo un ejemplo de Kaggle se me hizo interesante ya que muestra la relación entre el nivel educativo de los padres y el rendimiento estudiantil en términos de género. En general, observamos que a medida que aumenta el nivel educativo de los padres, los puntajes de los estudiantes en matemáticas, lectura y escritura tienden a aumentar.

### Tree Map 🌳

In [20]:
df_melted = df.melt(
    id_vars =['parental level of education','gender'],  # En id_vars paso una lista segun lo que quiero agrupar, por eso se van a repetir estas variables
    value_vars=['math score', 'reading score', 'writing score'], #estas etiquetas de serie se "derriten" pasan a ser parte de la fila
    var_name = 'materia',
    value_name = 'Nota'
)

In [27]:
grafico = px.treemap(
    df_melted,
    path=['parental level of education','gender','materia'],
    values = 'Nota',
    color = 'Nota',
    color_continuous_scale ='Blues',
    title = 'Puntuación en base Educación de padres y género'
)

#grafico.show(renderer='iframe_connected')

grafico.update_layout(
    margin=dict(t=70, l=25, r=25, b=25),# acá controlo el margen t=70 pixels para el titulo, left =25 px... y asi para q no queden pegados los cuadros
    coloraxis_colorbar=dict(title='Nota')
)

grafico.update_traces(
    texttemplate="<b>%{label}</b><br>%{value:.1f}", #
    hovertemplate="<b>%{label}</b><br>Puntaje: %{value:.1f}<br>Nodo Padre: %{parent}"
)

grafico.show(renderer='iframe_connected')

### Distribución de Notas por generos y materias 🎻

### Se utiliza un diagrama de violin, q es uno de caja modificado para observar mejor la distribucion de los datos

In [30]:
df_melted = df.melt(
    id_vars=['gender'], 
    value_vars=['math score', 'reading score', 'writing score'],
    var_name='Materia',
    value_name='Nota'
)

#df_melted.head()

fig = px.violin(
    df_melted,
    y='Nota', 
    x='Materia', 
    color='gender', #Esto separa los datos por color según el género.
    box=True,        # para ver el gráfico de caja dentro del violin
    points="all",
    color_discrete_sequence=['#8B0000', '#0000FF'],
    title="Distribución de Notas por género y curso"
)
fig.show(renderer='iframe_connected')

### Estos gráficos de violín muestran la distribución de las notas en diferentes materias (matemáticas, lectura, escritura) por género. Hasta donde podemos observar, la distribución de los estudiantes varones (Azul) en las puntuaciones de matemáticas parece ser ligeramente más amplia y el promedio es más alto que el de las estudiantes mujeres (Rojo). En las puntuaciones de lectura y escritura, se puede decir que las puntuaciones de las estudiantes mujeres generalmente se concentran más alto y tienen una distribución más estrecha.
### Tambien observamos la posible presencia de puntos o valores atípicos en las nostas de las mujeres, tal vez estos puntos "tiren para abajo" las notas de las mujeres. Habría q estudiarlos mas al detalle y ver si estan fuera del 1.5x(rango intercuartilico).

### Voy a realizar un test de independencia de chi-cuadrado para ver si hay relación entre el tipo de almuerzo y las notas

### Para eso tengo que asignarle categorias a las notas ya que estas son una variable Cuantitava

### Convertimos las notas numéricas en categorías:

In [31]:
#Para simplificar sacamos el promedio de las notas sin importar q materia es.
df['nota_promedio'] = df[['math score', 'reading score', 'writing score']].mean(axis=1)

#Dividimos las notas en 3 categorias: "Baja, Media, Alta"
df['nota_categoria'] = pd.cut(df['nota_promedio'], 
                              bins=[0, 60, 80, 100], 
                              labels=['Baja', 'Media', 'Alta'])

df.head()

Unnamed: 0,gender,race/ethnicity,parental level of education,lunch,test preparation course,math score,reading score,writing score,nota_promedio,nota_categoria
0,female,group B,bachelor's degree,standard,none,72,72,74,72.666667,Media
1,female,group C,some college,standard,completed,69,90,88,82.333333,Alta
2,female,group B,master's degree,standard,none,90,95,93,92.666667,Alta
3,male,group A,associate's degree,free/reduced,none,47,57,44,49.333333,Baja
4,male,group C,some college,standard,none,76,78,75,76.333333,Media


### Creamos una tabla de contingencia donde se muestra la frecuencia, es decir cuantas veces ocurre que tenga un promedio malo y una alimentacion mala.

In [32]:
tabla = pd.crosstab(df['nota_categoria'], df['lunch'])
print(tabla)

lunch           free/reduced  standard
nota_categoria                        
Baja                     158       135
Media                    160       353
Alta                      37       157


### Test chi-cuadrado χ2

In [35]:
chi2, p, dof, expected = chi2_contingency(tabla)

print(f"Chi2 = {chi2:.2f}")
print(f"Valor p = {p:.4f}")
print(f"Grados de libertad = {dof}")

Chi2 = 70.47
Valor p = 0.0000
Grados de libertad = 2


### Mientras más grande sea χ2, más evidencia hay de que las variables están relacionadas.
### Hipótesis nula (H₀): No hay relación entre las variables (son independientes).
### Hipótesis alternativa (H₁): Sí hay relación.

### En este caso la significancia p dió 0, entonces se descarta la hipotesis nula..Por lo tanto Tenemos muchas posibilidades de que las variables esten relacionadas ya que "p" indica la probabilidad de obtener resultados tan extremos como los observados si la hipótesis nula fuera cierta.

In [36]:
if p < 0.05:
    print("→ Hay una relación significativa.")
else:
    print("→ No hay relación significativa.")

→ Hay una relación significativa.


### Tabla esperada y diferencias

In [39]:
esperado_df = pd.DataFrame(expected, index=tabla.index, columns=tabla.columns)

print("\nFrecuencias esperadas:")
print(esperado_df.round(1))

# Diferencia absoluta
print("\n Diferencia Observado - Esperado:")
print((tabla - esperado_df).round(1))

# Diferencia relativa (%)
print("\n Diferencia relativa (%):")
print(((tabla - esperado_df) / expected_df * 100).round(1))


Frecuencias esperadas:
lunch           free/reduced  standard
nota_categoria                        
Baja                   104.0     189.0
Media                  182.1     330.9
Alta                    68.9     125.1

 Diferencia Observado - Esperado:
lunch           free/reduced  standard
nota_categoria                        
Baja                    54.0     -54.0
Media                  -22.1      22.1
Alta                   -31.9      31.9

 Diferencia relativa (%):
lunch           free/reduced  standard
nota_categoria                        
Baja                    51.9     -28.6
Media                  -12.1       6.7
Alta                   -46.3      25.5


### Frecuencias esperadas:

### Nos dice cuántos estudiantes esperarías tener en cada combinación de nota y tipo de almuerzo si no hubiera relación entre ambas variables. En este caso por ejemplo, se esperarían 104 estudiantes con nota baja y con almuerzo reducido

### Diferencia Observado - Esperado
### Esto muestra qué tanto se alejan Nuestrod datos reales de lo esperado

### Diferencia relativa (%)
### Nos dice en porcentaje, que tan lejos está de lo esperado

### Debido a esto y que la significancia P nos dió practicamente 0 podemos afirmar que los estudiantes que tienen almuerzo standard tienden a sacar mejores notas que los que tienen almuerzo reducido.

### Grafico Diferencias

In [40]:
### reseteamos la tabla para que las categoria de notas no sean indices porque ploty express va mejor con formato melt ###
tabla_reset = tabla.reset_index().melt(id_vars='nota_categoria', var_name='Tipo de Almuerzo', value_name='Cantidad')

fig = px.bar(
    tabla_reset,
    x='nota_categoria',
    y='Cantidad',
    color='Tipo de Almuerzo',
    barmode='group',
    text='Cantidad',
    color_discrete_sequence=['#6A5ACD', '#FF7F50'],
    title='Relación entre Categoría de Notas y Tipo de Almuerzo'
)

fig.update_layout(
    xaxis_title='Categoría de Nota',
    yaxis_title='Cantidad de Estudiantes',
    legend_title='Tipo de Almuerzo',
    bargap=0.2
)

fig.update_traces(textposition='outside')

fig.show(renderer='iframe_connected')