In [None]:
import pandas as pd
import matplotlib.pyplot as plt
%matplotlib inline
import seaborn as sns

In [None]:
archivo = "./StudentPerformanceFactors.csv"
student_performance = pd.read_csv(archivo)
student_performance.shape

In [None]:
student_performance.head()

In [None]:
student_performance.info()

In [None]:
student_performance.describe()

## 🔍 Variables con Datos Faltantes

Las siguientes variables contienen datos faltantes:
- **Distance_from_Home**
- **Parental_Education_Level**
- **Teacher_Quality**

> También se observa que la variable **Exam_Score** tiene un valor inusual de 101. Se procederá a realizar una limpieza de estos datos.

In [None]:
print(student_performance["Distance_from_Home"].value_counts(dropna=False),"\n")
print(student_performance["Parental_Education_Level"].value_counts(dropna=False),"\n")
print(student_performance["Teacher_Quality"].value_counts(dropna=False))

In [None]:
student_performance["Teacher_Quality"] = student_performance["Teacher_Quality"].fillna("Medium")
student_performance["Parental_Education_Level"] = student_performance["Parental_Education_Level"].fillna("High School")
student_performance["Distance_from_Home"] = student_performance["Distance_from_Home"].fillna("Moderate")
student_performance["Exam_Score"] = student_performance["Exam_Score"].replace(101,100)

In [None]:
student_performance.head()

## 📊 Hipótesis #1

**Si la calidad del profesor es alta, la nota promedio de los alumnos aumentará.**

In [None]:
plt.figure(figsize=(8,6))
ax = sns.barplot(data=student_performance, x="Teacher_Quality", y="Exam_Score",estimator="mean", errorbar=None ,color="green",edgecolor="black")
for bar in ax.patches:
    ax.annotate(text=int(bar.get_height()),xy=(bar.get_x() + bar.get_width()/2, bar.get_height()),ha="center",va="bottom",fontsize=10,color="black")
plt.title("Promedio de notas segun la calidad del profesor")
plt.ylabel("Nota promedio")
plt.grid(linestyle="--",alpha=0.30)

plt.show()

### 📌 Conclusión

Se concluye que la nota no se ve influenciada por la calidad del profesor.

## 📊 Hipótesis #2

**A mayor cantidad de horas de estudio semanales, mayor será la nota promedio en los exámenes.**

In [None]:
correlacion = student_performance["Exam_Score"].corr(student_performance["Hours_Studied"])
print(f"Correlacion entre la nota del examen y horas de estudio semanal: {correlacion:.2f}")
sns.scatterplot(data=student_performance,x="Hours_Studied",y="Exam_Score",alpha=0.7, color="green")
sns.regplot(data=student_performance,x="Hours_Studied",y="Exam_Score",scatter=False, color="red" )
plt.xlabel("Horas de estudio por semana")
plt.ylabel("Notas de examen")
plt.show()

### 📌 Conclusión

Existe una correlación moderada positiva entre las horas de estudio semanales y la nota del examen. Por lo tanto, se puede concluir que las horas de estudio semanales influyen moderadamente en la nota.

## 📊 Hipótesis #3

**Los alumnos que asisten más a clases tienen mejores notas.**

In [None]:
correlacion = student_performance["Exam_Score"].corr(student_performance["Attendance"])
print(f"Correlacion entre la nota de examen y el porcentaje de asistencia: {correlacion:.2f}")
sns.scatterplot(data=student_performance,x="Attendance",y="Exam_Score",alpha=0.7, color="green")
sns.regplot(data=student_performance,x="Attendance",y="Exam_Score",scatter=False, color="red" )
plt.xlabel("Porcentaje de asistencia")
plt.ylabel("Notas de examen")
plt.show() 

### 📌 Conclusión

Existe una correlación moderada positiva entre el porcentaje de asistencia y la nota. Por lo tanto, se puede concluir que la asistencia a clases influye moderadamente en la nota.

## 📊 Hipótesis #4

**Los estudiantes con acceso a recursos educativos tienen mejores notas promedio.**

In [None]:
plt.figure(figsize=(8,6))
ax = sns.barplot(data=student_performance, x="Access_to_Resources", y="Exam_Score", estimator="mean", errorbar=None, color="green", edgecolor="black")
for bar in ax.patches:
    ax.annotate(text=int(bar.get_height()), xy=(bar.get_x() + bar.get_width()/2, bar.get_height()), ha="center", va="bottom", fontsize=10, color="black")
plt.title("Promedio de notas según el acceso a recursos educativos")
plt.ylabel("Nota promedio")
plt.xlabel("Acceso a recursos educativos")
plt.grid(linestyle="--", alpha=0.30)
plt.show()

### 📌 Conclusión

Se llega a la conclusión de que el acceso a recursos educativos no parece tener un impacto significativo en el promedio de las notas de los estudiantes.

## 📊 Hipótesis #5

**Los alumnos en escuelas privadas tienen notas promedio más altas que los alumnos de escuelas públicas.**

In [1]:
plt.figure(figsize=(8,6))
ax = sns.barplot(data=student_performance, x="School_Type", y="Exam_Score",estimator="mean", errorbar=None ,color="green",edgecolor="black")
for bar in ax.patches:
    ax.annotate(text=int(bar.get_height()),xy=(bar.get_x() + bar.get_width()/2, bar.get_height()),ha="center",va="bottom",fontsize=10,color="black")
plt.title("Promedio de notas segun el tipo de escuela")
plt.ylabel("Nota promedio")
plt.grid(linestyle="--",alpha=0.30)
plt.show()

NameError: name 'plt' is not defined

In [None]:
plt.figure(figsize=(8,6))
sns.boxplot(data=student_performance, x="Exam_Score", y="School_Type",color="green",linewidth=1.2)
plt.xlabel("Notas de examen")
plt.ylabel("Tipo de escuela")
plt.show()

In [None]:
print("Estadisticas de las notas de las escuelas publicas")
print(student_performance.loc[student_performance["School_Type"] == "Public"]["Exam_Score"].describe())
print("Estadisticas de las notas de las escuelas privadas")
print(student_performance.loc[student_performance["School_Type"] == "Private"]["Exam_Score"].describe())

### 📌 Conclusión

Se observa que:

1. La nota promedio de los estudiantes de escuelas privadas y públicas es prácticamente la misma.
2. Las notas de las escuelas privadas están levemente más dispersas que las de las escuelas públicas.
3. Tanto las escuelas públicas como privadas tienen valores atípicos.

Por lo tanto, según lo analizado, el tipo de escuela no influye significativamente en la nota obtenida.

In [None]:
from scipy import stats
iqr = stats.iqr(student_performance["Exam_Score"])

In [None]:
plt.figure(figsize=(8,6))
sns.boxplot(data=student_performance, x="Exam_Score",color="green",linewidth=1.2)
plt.xlabel("Notas de examen")
plt.ylabel("Tipo de escuela")
plt.show()

In [None]:
student_performance["Exam_Score"].describe()

In [None]:
limite_inferior = 65 - 1.5*iqr
limite_superior = 69 + 1.5*iqr


In [None]:
# Voy a analizar los outliers
print(f"Limite inferior: {limite_inferior}")
student_performance.loc[student_performance["Exam_Score"] < limite_inferior].describe()

In [None]:
print(f"Limite inferior: {limite_superior}")
student_performance.loc[student_performance["Exam_Score"] < limite_superior].describe()