In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import altair as alt
import plotly.express as px

In [None]:
#Cargamos el dataset en un dataframe y miramos sus primeras lineas
df = pd.read_csv('StudentPerformanceFactors.csv')
df.head()

Unnamed: 0,Hours_Studied,Attendance,Parental_Involvement,Access_to_Resources,Extracurricular_Activities,Sleep_Hours,Previous_Scores,Motivation_Level,Internet_Access,Tutoring_Sessions,Family_Income,Teacher_Quality,School_Type,Peer_Influence,Physical_Activity,Learning_Disabilities,Parental_Education_Level,Distance_from_Home,Gender,Exam_Score
0,23,84,Low,High,No,7,73,Low,Yes,0,Low,Medium,Public,Positive,3,No,High School,Near,Male,67
1,19,64,Low,Medium,No,8,59,Low,Yes,2,Medium,Medium,Public,Negative,4,No,College,Moderate,Female,61
2,24,98,Medium,Medium,Yes,7,91,Medium,Yes,2,Medium,Medium,Public,Neutral,4,No,Postgraduate,Near,Male,74
3,29,89,Low,Medium,Yes,8,98,Medium,Yes,1,Medium,Medium,Public,Negative,4,No,High School,Moderate,Male,71
4,19,92,Medium,Medium,Yes,6,65,Medium,Yes,3,Medium,High,Public,Neutral,4,No,College,Near,Female,70


In [None]:
#usamos info para buscar informacion sobre el dataset y garantizar que cumple con los requisitos iniciales para el pre proyecto (más de 5 columnas y más de 1000 records)
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6607 entries, 0 to 6606
Data columns (total 20 columns):
 #   Column                      Non-Null Count  Dtype 
---  ------                      --------------  ----- 
 0   Hours_Studied               6607 non-null   int64 
 1   Attendance                  6607 non-null   int64 
 2   Parental_Involvement        6607 non-null   object
 3   Access_to_Resources         6607 non-null   object
 4   Extracurricular_Activities  6607 non-null   object
 5   Sleep_Hours                 6607 non-null   int64 
 6   Previous_Scores             6607 non-null   int64 
 7   Motivation_Level            6607 non-null   object
 8   Internet_Access             6607 non-null   object
 9   Tutoring_Sessions           6607 non-null   int64 
 10  Family_Income               6607 non-null   object
 11  Teacher_Quality             6529 non-null   object
 12  School_Type                 6607 non-null   object
 13  Peer_Influence              6607 non-null   obje

In [None]:
print ("Este dataset contiene", df.shape[0], "filas y", df.shape[1], "columnas.")

Este dataset contiene 6607 filas y 20 columnas.


In [None]:
#Vamos a usar duplicated, sum and drop_duplicates para buscar duplicados y borrarlos
duplicates = df.duplicated().sum()
df = df.drop_duplicates()
print(f'El número de duplicados encontrados fue: {duplicates}')

El número de duplicados encontrados fue: 0


In [None]:
#Usaremos isnull junto a sum para buscar por nulos en cada columna
null_counts = df.isnull().sum()
print(null_counts)

Hours_Studied                  0
Attendance                     0
Parental_Involvement           0
Access_to_Resources            0
Extracurricular_Activities     0
Sleep_Hours                    0
Previous_Scores                0
Motivation_Level               0
Internet_Access                0
Tutoring_Sessions              0
Family_Income                  0
Teacher_Quality               78
School_Type                    0
Peer_Influence                 0
Physical_Activity              0
Learning_Disabilities          0
Parental_Education_Level      90
Distance_from_Home            67
Gender                         0
Exam_Score                     0
dtype: int64


In [None]:
#HIPOTESIS 1: Más horas de estudio significan mejores resultados en los examenes?
correlation_study = df['Hours_Studied'].corr(df['Exam_Score'])
print(f'Correlación entre horas de estudio y el resultado en el examen es: {correlation_study}')

# Gráfico interactivo de scatter plot entre Horas de Estudio y Calificación
fig = px.scatter(df,
                 x='Hours_Studied',
                 y='Exam_Score',
                 trendline='ols',
                 title='Horas de Estudio vs Calificación',
                 labels={'Hours_Studied': 'Horas de Estudio', 'Exam_Score': 'Calificación'},
                 color='Attendance',
                 color_continuous_scale='Viridis')

fig.update_traces(marker=dict(size=5, opacity=0.7))
fig.update_layout(showlegend=True)
fig.show()

# Conclusion
if correlation_study > 0:
    print('Conclusion: Más horas de estudio en general resultan en mejores calificaciones.')
else:
    print('Conclusion: No existe relación positiva entre horas de estudio y calificación.')

Correlación entre horas de estudio y el resultado en el examen es: 0.44545495407528235


Conclusion: Más horas de estudio en general resultan en mejores calificaciones.


In [None]:
## HIPOTESIS 2: ¿Existe una correlación entre la asistencia a clases y la calificación de los examenes?
correlation_att_exam = df['Attendance'].corr(df['Exam_Score'])
print(f'Correlación entre la asistencia a clases y el resultado final en el examen: {correlation_att_exam}')

Correlación entre la asistencia a clases y el resultado final en el examen: 0.5810718633120645


In [None]:
# Conclusion
if correlation_att_exam > 0:
    print('Conclusión: Mayor cantidad de asistencia a clases lleva a mejores calificaciones en los examenes.')
else:
    print('Conclusión: No hay relación positiva entre la asistencia a clases y las calificaciones.')

Conclusión: Mayor cantidad de asistencia a clases lleva a mejores calificaciones en los examenes.


In [None]:
# Gráfico con scatter plot la relacion entre la asistencia y las calificaciones
fig_att = px.scatter(df,
                 x='Attendance',
                 y='Exam_Score',
                 trendline='ols',
                 title='Asistencia y Calificación',
                 labels={'Attendance': 'Asistencia', 'Exam_Score': 'Calificación'},
                 color='Attendance',
                 color_continuous_scale='Viridis')

fig_att.update_traces(marker=dict(size=5, opacity=0.7))
fig_att.update_layout(showlegend=True)
fig_att.show()
