# Recepción de la Base de Datos


In [8]:
#Importo la base de datos
import pandas as pd
import streamlit as st
import matplotlib.pyplot as plt
import numpy as np 
import seaborn as sns
import plotly.express as px
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestRegressor
from sklearn.tree import plot_tree
from sklearn.metrics import mean_squared_error, r2_score
url = 'df_sucio.csv'
df=pd.read_csv(url)
df.head(5)

Unnamed: 0,Hours_Studied,Attendance,Parental_Involvement,Access_to_Resources,Extracurricular_Activities,Sleep_Hours,Previous_Scores,Motivation_Level,Internet_Access,Tutoring_Sessions,Family_Income,Teacher_Quality,School_Type,Peer_Influence,Physical_Activity,Learning_Disabilities,Parental_Education_Level,Distance_from_Home,Gender,Exam_Score
0,23.0,84.0,Low,High,No,7.0,73.0,,Yes,0.0,Low,Medium,Public,Positive,3.0,No,High School,Near,Male,67.0
1,19.0,64.0,Low,Medium,No,8.0,59.0,,Yes,2.0,Medium,Medium,Public,Negative,4.0,No,College,Moderate,Female,61.0
2,24.0,98.0,Medium,Medium,Yes,7.0,91.0,,Yes,2.0,Medium,Medium,Public,Neutral,4.0,No,Postgraduate,Near,Male,74.0
3,29.0,89.0,Low,Medium,,8.0,98.0,,Yes,1.0,Medium,Medium,Public,Negative,4.0,No,High School,Moderate,Male,71.0
4,19.0,,Medium,Medium,Yes,6.0,65.0,,Yes,3.0,Medium,High,Public,Neutral,4.0,No,College,Near,Female,70.0


# Analisis de Base de datos
- Reviso la cantidad de filas y columnas
- Reviso el tipo de variable y cuantos valores validos tienen
- Reviso la cantidad de valores nulos
- Reviso columna por columna para ver que datos contienen
- Reviso cuantas filas duplicadas existen
- Reviso los datos estadisticos

In [9]:
#Cantidad de filas y columnas
df.shape

(6753, 20)

In [10]:
#Tipos de datos
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6753 entries, 0 to 6752
Data columns (total 20 columns):
 #   Column                      Non-Null Count  Dtype  
---  ------                      --------------  -----  
 0   Hours_Studied               6687 non-null   object 
 1   Attendance                  6703 non-null   object 
 2   Parental_Involvement        6695 non-null   object 
 3   Access_to_Resources         6696 non-null   object 
 4   Extracurricular_Activities  6680 non-null   object 
 5   Sleep_Hours                 6696 non-null   object 
 6   Previous_Scores             6687 non-null   object 
 7   Motivation_Level            0 non-null      float64
 8   Internet_Access             6700 non-null   object 
 9   Tutoring_Sessions           6686 non-null   object 
 10  Family_Income               6691 non-null   object 
 11  Teacher_Quality             6611 non-null   object 
 12  School_Type                 6696 non-null   object 
 13  Peer_Influence              6687 

In [11]:
#Cantidad de valores nulos
df.isnull().sum()

Hours_Studied                   66
Attendance                      50
Parental_Involvement            58
Access_to_Resources             57
Extracurricular_Activities      73
Sleep_Hours                     57
Previous_Scores                 66
Motivation_Level              6753
Internet_Access                 53
Tutoring_Sessions               67
Family_Income                   62
Teacher_Quality                142
School_Type                     57
Peer_Influence                  66
Physical_Activity               68
Learning_Disabilities           69
Parental_Education_Level       149
Distance_from_Home             119
Gender                          67
Exam_Score                      78
dtype: int64

In [12]:
df['Hours_Studied'].unique()

array(['23.0', '19.0', '24.0', '29.0', '25.0', '17.0', '21.0', '9.0',
       '10.0', '14.0', '22.0', '15.0', '12.0', nan, '11.0', '13.0',
       '16.0', '18.0', '31.0', '20.0', '8.0', '26.0', '28.0', '4.0',
       'aaaaa', '35.0', '27.0', '33.0', '36.0', '43.0', '34.0', '1.0',
       '30.0', '7.0', '32.0', '6.0', '38.0', '5.0', '3.0', '2.0', '39.0',
       '37.0', '44.0'], dtype=object)

In [13]:
df['Attendance'].unique()

array(['84.0', '64.0', '98.0', '89.0', nan, '88.0', '78.0', '94.0',
       '80.0', '97.0', '83.0', '82.0', '68.0', '60.0', '70.0', '75.0',
       '99.0', '74.0', '65.0', '91.0', '90.0', '66.0', '69.0', '72.0',
       '63.0', '61.0', '86.0', '77.0', '71.0', 'aaaaa', '67.0', '87.0',
       '73.0', '96.0', '92.0', '100.0', '81.0', '95.0', '79.0', '76.0',
       '93.0', '62.0', '85.0'], dtype=object)

In [14]:
# Contar la cantidad de involucramiento parenta
Parental_Involvement_counts = df["Parental_Involvement"].value_counts()

#Graficos de pastel
plt.figure(figsize=(6,6))
plt.pie(Parental_Involvement_counts, labels=Parental_Involvement_counts.index, autopct= "%1.1f%%", startangle=90, colors=["orange", "green","red","silver"])
plt.title("Distribucion por Involucramiento Parental")
plt.show()

  plt.show()


In [15]:
# Contar la cantidad de acceso a recursos
Access_to_Resources_counts = df["Access_to_Resources"].value_counts()

#Graficos de pastel
plt.figure(figsize=(6,6))
plt.pie(Access_to_Resources_counts, labels=Access_to_Resources_counts.index, autopct= "%1.1f%%", startangle=90, colors=["orange", "green","red","silver"])
plt.title("Distribucion por Acceso a Recursos")
plt.show()

  plt.show()


In [16]:
df['Extracurricular_Activities'].unique()

array(['No', 'Yes', nan, 'aaaaa'], dtype=object)

In [17]:
# Contar la cantidad de gente que participa en actividades extracurriculares
Extracurricular_Activities_counts = df["Extracurricular_Activities"].value_counts()

#Graficos de pastel
plt.figure(figsize=(6,6))
plt.pie(Extracurricular_Activities_counts, labels=Extracurricular_Activities_counts.index, autopct= "%1.1f%%", startangle=90, colors=["green", "red","silver"])
plt.title("Distribucion por Actividades Extracurriculares")
plt.show()

  plt.show()


In [18]:
df['Sleep_Hours'].unique()

array(['7.0', '8.0', '6.0', '10.0', nan, '9.0', '5.0', 'aaaaa', '4.0'],
      dtype=object)

In [19]:
df['Previous_Scores'].unique()

array(['73.0', '59.0', '91.0', '98.0', '65.0', '89.0', '68.0', '50.0',
       '80.0', '71.0', '88.0', '87.0', '97.0', '72.0', '74.0', nan,
       '82.0', '58.0', '99.0', '84.0', '100.0', '75.0', '54.0', '90.0',
       '94.0', '51.0', '57.0', '66.0', '96.0', '93.0', '56.0', '52.0',
       '70.0', '63.0', '79.0', '81.0', '69.0', '95.0', '60.0', 'aaaaa',
       '77.0', '92.0', '62.0', '85.0', '78.0', '64.0', '76.0', '55.0',
       '86.0', '61.0', '53.0', '83.0', '67.0'], dtype=object)

In [20]:
df['Motivation_Level'].unique()

array([nan])

In [21]:
# Contar la cantidad de gente que tiene acceso a internet
Internet_Access_counts = df["Extracurricular_Activities"].value_counts()

#Graficos de pastel
plt.figure(figsize=(6,6))
plt.pie(Internet_Access_counts, labels=Internet_Access_counts.index, autopct= "%1.1f%%", startangle=90, colors=["green", "red","silver"])
plt.title("Distribucion por Acceso a Internet")
plt.show()

  plt.show()


In [22]:
df['Tutoring_Sessions'].unique()

array(['0.0', '2.0', '1.0', '3.0', 'aaaaa', '4.0', nan, '5.0', '6.0',
       '7.0', '8.0'], dtype=object)

In [23]:
# Contar la cantidad de gente que tiene cierto ingreso
Family_Income_counts = df["Family_Income"].value_counts()

#Graficos de pastel
plt.figure(figsize=(6,6))
plt.pie(Family_Income_counts, labels=Family_Income_counts.index, autopct= "%1.1f%%", startangle=90, colors=["red", "yellow","green","silver"])
plt.title("Distribucion por Ingreso")
plt.show()

  plt.show()


In [24]:
# Contar la cantidad de gente por la calidad de su maestro
Teacher_Quality_counts = df["Teacher_Quality"].value_counts()

#Graficos de pastel
plt.figure(figsize=(6,6))
plt.pie(Teacher_Quality_counts, labels=Teacher_Quality_counts.index, autopct= "%1.1f%%", startangle=90, colors=["yellow", "green","red","silver"])
plt.title("Distribucion por Calidad de Maestro")
plt.show()

  plt.show()


In [25]:
# Contar la cantidad de gente por tipo de escuela
School_Type_counts = df["School_Type"].value_counts()

#Graficos de pastel
plt.figure(figsize=(6,6))
plt.pie(School_Type_counts, labels=School_Type_counts.index, autopct= "%1.1f%%", startangle=90, colors=["red", "darkblue","silver"])
plt.title("Distribucion por Tipo de Escuela")
plt.show()

  plt.show()


In [26]:
# Contar la cantidad de gente por influencia de compañeros
Peer_Influence_counts = df["Peer_Influence"].value_counts()

#Graficos de pastel
plt.figure(figsize=(6,6))
plt.pie(Peer_Influence_counts, labels=Peer_Influence_counts.index, autopct= "%1.1f%%", startangle=90, colors=["green", "yellow","red","silver"])
plt.title("Distribucion por Influencia de Compañeros")
plt.show()

  plt.show()


In [27]:
df['Physical_Activity'].unique()

array(['3.0', '4.0', '2.0', '1.0', '5.0', nan, 'aaaaa', '0.0', '6.0'],
      dtype=object)

In [28]:
# Contar la cantidad de gente por discapacidad
Learning_Disabilities_counts = df["Learning_Disabilities"].value_counts()

#Graficos de pastel
plt.figure(figsize=(6,6))
plt.pie(Learning_Disabilities_counts, labels=Learning_Disabilities_counts.index, autopct= "%1.1f%%", startangle=90, colors=["red","green","silver"])
plt.title("Distribucion por Discapacidad")
plt.show()

  plt.show()


In [29]:
# Contar la cantidad de gente por nivel de educacion de los padres
Parental_Education_Level_counts = df["Parental_Education_Level"].value_counts()

#Graficos de pastel
plt.figure(figsize=(6,6))
plt.pie(Parental_Education_Level_counts, labels=Parental_Education_Level_counts.index, autopct= "%1.1f%%", startangle=90, colors=["red","yellow","blue","silver"])
plt.title("Distribucion por Nivel Educativo de los Padres")
plt.show()

  plt.show()


In [30]:
# Contar la cantidad de gente por distancia a casa
Distance_from_Home_counts = df["Distance_from_Home"].value_counts()

#Graficos de pastel
plt.figure(figsize=(6,6))
plt.pie(Distance_from_Home_counts, labels=Distance_from_Home_counts.index, autopct= "%1.1f%%", startangle=90, colors=["green","yellow","blue","silver"])
plt.title("Distribucion por Distancia a Casa")
plt.show()

  plt.show()


In [31]:
# Contar la cantidad de gente por distancia a casa
Gender_counts = df["Gender"].value_counts()

#Graficos de pastel
plt.figure(figsize=(6,6))
plt.pie(Gender_counts, labels=Gender_counts.index, autopct= "%1.1f%%", startangle=90, colors=["lightblue","pink","silver"])
plt.title("Distribucion por Genero")
plt.show()

  plt.show()


In [32]:
df['Exam_Score'].unique()

array(['67.0', '61.0', '74.0', '71.0', '70.0', '66.0', '69.0', nan,
       '68.0', '65.0', '64.0', '60.0', '72.0', '63.0', '62.0', 'aaaaa',
       '100.0', '76.0', '73.0', '78.0', '89.0', '75.0', '59.0', '86.0',
       '97.0', '83.0', '84.0', '80.0', '58.0', '94.0', '55.0', '92.0',
       '77.0', '101.0', '88.0', '79.0', '91.0', '99.0', '87.0', '57.0',
       '82.0', '96.0', '98.0', '95.0', '85.0', '93.0', '56.0'],
      dtype=object)

In [33]:
#Cantidad de duplicados
df.duplicated().sum()

np.int64(54)

In [34]:
df.describe()

Unnamed: 0,Motivation_Level
count,0.0
mean,
std,
min,
25%,
50%,
75%,
max,


# Limpieza de Datos
- Elimino los duplicados
- Traduzco las nombres de las columnas
- Elimino la columna Motivation_Level
- Traduzco las categorias
- Convierto las columnas correspondiente a float
- Reviso si contiene datos atipicos

In [35]:
#Elimina los duplicados
df2 = df.drop_duplicates()

df2.duplicated().sum()

np.int64(0)

In [36]:
#Renombrar columnas
df2 = df2.rename(columns={'Hours_Studied': 'HorasEstudio',
                          'Attendance':'Asistencia',
                          'Parental_Involvement':'InvolucramientoParental',
                          'Access_to_Resources':'AccesoRecursos',
                          'Extracurricular_Activities':'ActividadesExtracurriculares',
                          'Sleep_Hours':'Horas de sueño',
                          'Previous_Scores':'ResultadosPrevios',
                          'Internet_Access':'AccesoInternet',
                          'Tutoring_Sessions':'SesionesTutoria',
                          'Family_Income':'IngresoFamiliar',
                          'Teacher_Quality':'CalidadMaestro',
                          'School_Type':'TipoEscuela',
                          'Peer_Influence':'InfluenciaCompañeros',
                          'Learning_Disabilities':'ProblemasAprendizaje',
                          'Parental_Education_Level':'NivelEducacionParental',
                          'Distance_from_Home':'DistanciaACasa',
                          'Gender':'Genero',
                          'Exam_Score':'PuntajeExamen',
                          'Physical_Activity':'ActividadFisica'
                          })
df2.info()

<class 'pandas.core.frame.DataFrame'>
Index: 6699 entries, 0 to 6752
Data columns (total 20 columns):
 #   Column                        Non-Null Count  Dtype  
---  ------                        --------------  -----  
 0   HorasEstudio                  6633 non-null   object 
 1   Asistencia                    6649 non-null   object 
 2   InvolucramientoParental       6641 non-null   object 
 3   AccesoRecursos                6642 non-null   object 
 4   ActividadesExtracurriculares  6626 non-null   object 
 5   Horas de sueño                6642 non-null   object 
 6   ResultadosPrevios             6633 non-null   object 
 7   Motivation_Level              0 non-null      float64
 8   AccesoInternet                6646 non-null   object 
 9   SesionesTutoria               6632 non-null   object 
 10  IngresoFamiliar               6637 non-null   object 
 11  CalidadMaestro                6557 non-null   object 
 12  TipoEscuela                   6642 non-null   object 
 13  Influenc

In [37]:
#Eliminar columna en especifico
df2 = df2.drop(columns=['Motivation_Level'])
df2.info()

<class 'pandas.core.frame.DataFrame'>
Index: 6699 entries, 0 to 6752
Data columns (total 19 columns):
 #   Column                        Non-Null Count  Dtype 
---  ------                        --------------  ----- 
 0   HorasEstudio                  6633 non-null   object
 1   Asistencia                    6649 non-null   object
 2   InvolucramientoParental       6641 non-null   object
 3   AccesoRecursos                6642 non-null   object
 4   ActividadesExtracurriculares  6626 non-null   object
 5   Horas de sueño                6642 non-null   object
 6   ResultadosPrevios             6633 non-null   object
 7   AccesoInternet                6646 non-null   object
 8   SesionesTutoria               6632 non-null   object
 9   IngresoFamiliar               6637 non-null   object
 10  CalidadMaestro                6557 non-null   object
 11  TipoEscuela                   6642 non-null   object
 12  InfluenciaCompañeros          6633 non-null   object
 13  ActividadFisica        

In [38]:
#Defino la traduccion
TradNivel = {
    'Low':'Bajo',
    'Medium':'Medio',
    'High':'Alto'
}
TradGenero = {
    'Male':'Hombre',
    'Female':'Mujer',
}
TradEscuela = {
    'Public':'Publica',
    'Private':'Privada'
}
TradEducacion = {
    'High School':'Bajo',
    'College':'Medio',
    'Postgraduate':'Alto'
}
TradDistancia = {
    'Near':'Cerca',
    'Moderate':'Medio',
    'Far':'Lejos'
}

TradSiNo ={
    'Yes':'Si',
}
TradInfluencia ={
    'Positive':'Positiva',
    'Negative':'Negativa'
}

In [39]:
#Reemplazar la traduccion en la columna 'InvolucramientoParental'
df2['InvolucramientoParental'] = df2['InvolucramientoParental'].replace(TradNivel)

#Reemplazar la traduccion en la columna 'AccesoRecursos'
df2['AccesoRecursos'] = df2['AccesoRecursos'].replace(TradNivel)

#Reemplazar la traduccion en la columna 'Actividades extracurriculares'
df2['ActividadesExtracurriculares'] = df2['ActividadesExtracurriculares'].replace(TradSiNo)

#Reemplazar la traduccion en la columna 'AccesoInternet'
df2['AccesoInternet'] = df2['AccesoInternet'].replace(TradSiNo)

#Reemplazar la traduccion en la columna 'IngresoFamiliar'
df2['IngresoFamiliar'] = df2['IngresoFamiliar'].replace(TradNivel)

#Reemplazar la traduccion en la columna 'CalidadMaestro'
df2['CalidadMaestro'] = df2['CalidadMaestro'].replace(TradNivel)

#Reemplazar la traduccion en la columna 'TipoEscuela'
df2['TipoEscuela'] = df2['TipoEscuela'].replace(TradEscuela)

#Reemplazar la traduccion en la columna 'InfluenciaCompañeros'
df2['InfluenciaCompañeros'] = df2['InfluenciaCompañeros'].replace(TradInfluencia)

#Reemplazar la traduccion en la columna 'ProblemasAprendizaje'
df2['ProblemasAprendizaje'] = df2['ProblemasAprendizaje'].replace(TradSiNo)


#Reemplazar la traduccion en la columna 'NivelEducacionParental'
df2['NivelEducacionParental'] = df2['NivelEducacionParental'].replace(TradEducacion)

#Reemplazar la traduccion en la columna 'DistanciaACasa'
df2['DistanciaACasa'] = df2['DistanciaACasa'].replace(TradDistancia)

#Reemplazar la traduccion en la columna 'Genero'
df2['Genero'] = df2['Genero'].replace(TradGenero)

df2


Unnamed: 0,HorasEstudio,Asistencia,InvolucramientoParental,AccesoRecursos,ActividadesExtracurriculares,Horas de sueño,ResultadosPrevios,AccesoInternet,SesionesTutoria,IngresoFamiliar,CalidadMaestro,TipoEscuela,InfluenciaCompañeros,ActividadFisica,ProblemasAprendizaje,NivelEducacionParental,DistanciaACasa,Genero,PuntajeExamen
0,23.0,84.0,Bajo,Alto,No,7.0,73.0,Si,0.0,Bajo,Medio,Publica,Positiva,3.0,No,Bajo,Cerca,Hombre,67.0
1,19.0,64.0,Bajo,Medio,No,8.0,59.0,Si,2.0,Medio,Medio,Publica,Negativa,4.0,No,Medio,Medio,Mujer,61.0
2,24.0,98.0,Medio,Medio,Si,7.0,91.0,Si,2.0,Medio,Medio,Publica,Neutral,4.0,No,Alto,Cerca,Hombre,74.0
3,29.0,89.0,Bajo,Medio,,8.0,98.0,Si,1.0,Medio,Medio,Publica,Negativa,4.0,No,Bajo,Medio,Hombre,71.0
4,19.0,,Medio,Medio,Si,6.0,65.0,Si,3.0,Medio,Alto,Publica,Neutral,4.0,No,Medio,Cerca,Mujer,70.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
6747,24.0,90.0,Alto,Alto,No,8.0,99.0,Si,0.0,Bajo,Medio,Publica,Neutral,3.0,No,Medio,Medio,Mujer,72.0
6748,9.0,77.0,Bajo,Alto,Si,7.0,83.0,Si,1.0,Bajo,Alto,Privada,Neutral,4.0,Si,Bajo,Lejos,Hombre,62.0
6750,16.0,72.0,Medio,aaaaa,No,6.0,87.0,No,2.0,Medio,Bajo,Privada,Positiva,4.0,No,Bajo,aaaaa,Mujer,63.0
6751,26.0,100.0,Alto,Alto,No,7.0,74.0,Si,1.0,Medio,Medio,Publica,Neutral,2.0,No,aaaaa,Lejos,Mujer,72.0


In [40]:
#Transformo las columnas que tienen datos numericos a variables numericas
df2['HorasEstudio'] = pd.to_numeric(df2['HorasEstudio'], errors='coerce')
df2['Asistencia'] = pd.to_numeric(df2['Asistencia'], errors='coerce')
df2['Horas de sueño'] = pd.to_numeric(df2['Horas de sueño'], errors='coerce')
df2['SesionesTutoria'] = pd.to_numeric(df2['SesionesTutoria'], errors='coerce')
df2['ActividadFisica'] = pd.to_numeric(df2['ActividadFisica'], errors='coerce')
df2['PuntajeExamen'] = pd.to_numeric(df2['PuntajeExamen'], errors='coerce')
df2['ResultadosPrevios'] = pd.to_numeric(df2['PuntajeExamen'], errors='coerce')

df2

Unnamed: 0,HorasEstudio,Asistencia,InvolucramientoParental,AccesoRecursos,ActividadesExtracurriculares,Horas de sueño,ResultadosPrevios,AccesoInternet,SesionesTutoria,IngresoFamiliar,CalidadMaestro,TipoEscuela,InfluenciaCompañeros,ActividadFisica,ProblemasAprendizaje,NivelEducacionParental,DistanciaACasa,Genero,PuntajeExamen
0,23.0,84.0,Bajo,Alto,No,7.0,67.0,Si,0.0,Bajo,Medio,Publica,Positiva,3.0,No,Bajo,Cerca,Hombre,67.0
1,19.0,64.0,Bajo,Medio,No,8.0,61.0,Si,2.0,Medio,Medio,Publica,Negativa,4.0,No,Medio,Medio,Mujer,61.0
2,24.0,98.0,Medio,Medio,Si,7.0,74.0,Si,2.0,Medio,Medio,Publica,Neutral,4.0,No,Alto,Cerca,Hombre,74.0
3,29.0,89.0,Bajo,Medio,,8.0,71.0,Si,1.0,Medio,Medio,Publica,Negativa,4.0,No,Bajo,Medio,Hombre,71.0
4,19.0,,Medio,Medio,Si,6.0,70.0,Si,3.0,Medio,Alto,Publica,Neutral,4.0,No,Medio,Cerca,Mujer,70.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
6747,24.0,90.0,Alto,Alto,No,8.0,72.0,Si,0.0,Bajo,Medio,Publica,Neutral,3.0,No,Medio,Medio,Mujer,72.0
6748,9.0,77.0,Bajo,Alto,Si,7.0,62.0,Si,1.0,Bajo,Alto,Privada,Neutral,4.0,Si,Bajo,Lejos,Hombre,62.0
6750,16.0,72.0,Medio,aaaaa,No,6.0,63.0,No,2.0,Medio,Bajo,Privada,Positiva,4.0,No,Bajo,aaaaa,Mujer,63.0
6751,26.0,100.0,Alto,Alto,No,7.0,72.0,Si,1.0,Medio,Medio,Publica,Neutral,2.0,No,aaaaa,Lejos,Mujer,72.0


In [41]:
df2.info()


<class 'pandas.core.frame.DataFrame'>
Index: 6699 entries, 0 to 6752
Data columns (total 19 columns):
 #   Column                        Non-Null Count  Dtype  
---  ------                        --------------  -----  
 0   HorasEstudio                  6504 non-null   float64
 1   Asistencia                    6530 non-null   float64
 2   InvolucramientoParental       6641 non-null   object 
 3   AccesoRecursos                6642 non-null   object 
 4   ActividadesExtracurriculares  6626 non-null   object 
 5   Horas de sueño                6527 non-null   float64
 6   ResultadosPrevios             6483 non-null   float64
 7   AccesoInternet                6646 non-null   object 
 8   SesionesTutoria               6514 non-null   float64
 9   IngresoFamiliar               6637 non-null   object 
 10  CalidadMaestro                6557 non-null   object 
 11  TipoEscuela                   6642 non-null   object 
 12  InfluenciaCompañeros          6633 non-null   object 
 13  Activida

In [42]:
df2['PuntajeExamen'].unique()

array([ 67.,  61.,  74.,  71.,  70.,  66.,  69.,  nan,  68.,  65.,  64.,
        60.,  72.,  63.,  62., 100.,  76.,  73.,  78.,  89.,  75.,  59.,
        86.,  97.,  83.,  84.,  80.,  58.,  94.,  55.,  92.,  77., 101.,
        88.,  79.,  91.,  99.,  87.,  57.,  82.,  96.,  98.,  95.,  85.,
        93.,  56.])

## Eliminacion de datos atipicos y reemplaza valores nulos

In [43]:
df2['HorasEstudio'].fillna( round(df2['HorasEstudio'].mean()), inplace=True)
df2['Asistencia'].fillna( round(df2['Asistencia'].mean()), inplace=True)
df2['Horas de sueño'].fillna( round(df2['Horas de sueño'].mean()), inplace=True)
df2['SesionesTutoria'].fillna( round(df2['SesionesTutoria'].mean()), inplace=True)
df2['ActividadFisica'].fillna( round(df2['ActividadFisica'].mean()), inplace=True)
df2['PuntajeExamen'].fillna( round(df2['PuntajeExamen'].mean()), inplace=True)
df2['ResultadosPrevios'].fillna( round(df2['ResultadosPrevios'].mean()), inplace=True)

The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df2['HorasEstudio'].fillna( round(df2['HorasEstudio'].mean()), inplace=True)
The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df2['Asistencia'].fillna( round(df2['Asistencia'].mean()), inplace=True)
The behavior will change in pandas 3.0. This inplace method will never work becaus

In [44]:
#Graficando el boxplot
fig = px.box(df2, y='Asistencia', title='Datos atípicos Asistencia')
fig.update_layout(width=500,height=500) 
fig.show()


In [45]:
#Graficando el boxplot
fig = px.box(df2, y='HorasEstudio', title='Datos atípicos Horas Estudio')
fig.update_layout(width=500,height=500) 
fig.show()

In [46]:
 #Se define el cuartil 75 y se le resta el cuartil 25
iqr = df2['HorasEstudio'].quantile(0.75) - df2['HorasEstudio'].quantile(0.25)
#Desarrollamos filtros superior o inferior por lo general es el iqr por 1.5 pero se puede manejar el número
filtro_inferior = df2['HorasEstudio'] > df2['HorasEstudio'].quantile(0.25) - (iqr * 1.6)
filtro_superior = df2['HorasEstudio'] < df2['HorasEstudio'].quantile(0.75) + (iqr * 1.6)

df3= df2[filtro_inferior & filtro_superior]

#Graficando el boxplot
fig = px.box(df3, y='HorasEstudio', title='Datos atípicos Horas Estudio')
fig.update_layout(width=500,height=500) 
fig.show() 

In [47]:
#Graficando el boxplot
fig = px.box(df3, y='Horas de sueño', title='Datos atípicos Horas Sueño')
fig.update_layout(width=500,height=500) 
fig.show()

In [48]:
#Graficando el boxplot
fig = px.box(df3, y='SesionesTutoria', title='Datos atípicos Sesiones Tutoria')
fig.update_layout(width=500,height=500) 
fig.show()

In [49]:
 #Se define el cuartil 75 y se le resta el cuartil 25
iqr = df3['SesionesTutoria'].quantile(0.75) - df3['SesionesTutoria'].quantile(0.25)
#Desarrollamos filtros superior o inferior por lo general es el iqr por 1.5 pero se puede manejar el número
filtro_inferior = df3['SesionesTutoria'] > df3['SesionesTutoria'].quantile(0.25) - (iqr * 1.5)
filtro_superior = df3['SesionesTutoria'] < df3['SesionesTutoria'].quantile(0.75) + (iqr * 1.3)

df4 = df3[filtro_inferior & filtro_superior]

#Graficando el boxplot
fig = px.box(df4, y='SesionesTutoria', title='Datos atípicos Tutoria')
fig.update_layout(width=500,height=500) 
fig.show()

In [50]:
#Graficando el boxplot
fig = px.box(df4, y='ActividadFisica', title='Datos atípicos Actividad Fisica')
fig.update_layout(width=500,height=500) 
fig.show() 

In [51]:
#Graficando el boxplot
fig = px.box(
    df4, 
    y='PuntajeExamen', 
    title='Datos atípicos Puntaje Examen',
    color_discrete_sequence=['#006d77']
)
fig.update_layout(width=500,height=500) 
fig.show() 

In [52]:
 #Se define el cuartil 75 y se le resta el cuartil 25
iqr = df4['PuntajeExamen'].quantile(0.75) - df4['PuntajeExamen'].quantile(0.25)
#Desarrollamos filtros superior o inferior por lo general es el iqr por 1.5 pero se puede manejar el número
filtro_inferior = df4['PuntajeExamen'] > df4['PuntajeExamen'].quantile(0.25) - (iqr * 1.6)
filtro_superior = df4['PuntajeExamen'] < df4['PuntajeExamen'].quantile(0.75) + (iqr * 1.6)

df5 = df4[filtro_inferior & filtro_superior]

#Graficando el boxplot
fig = px.box(df5, y='PuntajeExamen', title='Datos atípicos eliminados Puntaje Examen')
fig.update_layout(width=500,height=500) 
fig.show()

In [53]:
#Graficando el boxplot
fig = px.box(df5, y='ResultadosPrevios', title='Datos atípicos Actividad Fisica')
fig.update_layout(width=500,height=500) 
fig.show() 

In [54]:
 #Se define el cuartil 75 y se le resta el cuartil 25
iqr = df5['ResultadosPrevios'].quantile(0.75) - df5['ResultadosPrevios'].quantile(0.25)
#Desarrollamos filtros superior o inferior por lo general es el iqr por 1.5 pero se puede manejar el número
filtro_inferior = df5['ResultadosPrevios'] > df5['ResultadosPrevios'].quantile(0.25) - (iqr * 1.6)
filtro_superior = df5['ResultadosPrevios'] < df5['ResultadosPrevios'].quantile(0.75) + (iqr * 1.6)

df6 = df5[filtro_inferior & filtro_superior]

#Graficando el boxplot
fig = px.box(df6, y='ResultadosPrevios', title='Datos atípicos eliminados Puntaje Examen')
fig.update_layout(width=500,height=500) 
fig.show()

In [55]:
df6

Unnamed: 0,HorasEstudio,Asistencia,InvolucramientoParental,AccesoRecursos,ActividadesExtracurriculares,Horas de sueño,ResultadosPrevios,AccesoInternet,SesionesTutoria,IngresoFamiliar,CalidadMaestro,TipoEscuela,InfluenciaCompañeros,ActividadFisica,ProblemasAprendizaje,NivelEducacionParental,DistanciaACasa,Genero,PuntajeExamen
0,23.0,84.0,Bajo,Alto,No,7.0,67.0,Si,0.0,Bajo,Medio,Publica,Positiva,3.0,No,Bajo,Cerca,Hombre,67.0
1,19.0,64.0,Bajo,Medio,No,8.0,61.0,Si,2.0,Medio,Medio,Publica,Negativa,4.0,No,Medio,Medio,Mujer,61.0
2,24.0,98.0,Medio,Medio,Si,7.0,74.0,Si,2.0,Medio,Medio,Publica,Neutral,4.0,No,Alto,Cerca,Hombre,74.0
3,29.0,89.0,Bajo,Medio,,8.0,71.0,Si,1.0,Medio,Medio,Publica,Negativa,4.0,No,Bajo,Medio,Hombre,71.0
4,19.0,80.0,Medio,Medio,Si,6.0,70.0,Si,3.0,Medio,Alto,Publica,Neutral,4.0,No,Medio,Cerca,Mujer,70.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
6747,24.0,90.0,Alto,Alto,No,8.0,72.0,Si,0.0,Bajo,Medio,Publica,Neutral,3.0,No,Medio,Medio,Mujer,72.0
6748,9.0,77.0,Bajo,Alto,Si,7.0,62.0,Si,1.0,Bajo,Alto,Privada,Neutral,4.0,Si,Bajo,Lejos,Hombre,62.0
6750,16.0,72.0,Medio,aaaaa,No,6.0,63.0,No,2.0,Medio,Bajo,Privada,Positiva,4.0,No,Bajo,aaaaa,Mujer,63.0
6751,26.0,100.0,Alto,Alto,No,7.0,72.0,Si,1.0,Medio,Medio,Publica,Neutral,2.0,No,aaaaa,Lejos,Mujer,72.0


In [56]:
df6.info()

<class 'pandas.core.frame.DataFrame'>
Index: 6166 entries, 0 to 6752
Data columns (total 19 columns):
 #   Column                        Non-Null Count  Dtype  
---  ------                        --------------  -----  
 0   HorasEstudio                  6166 non-null   float64
 1   Asistencia                    6166 non-null   float64
 2   InvolucramientoParental       6111 non-null   object 
 3   AccesoRecursos                6114 non-null   object 
 4   ActividadesExtracurriculares  6099 non-null   object 
 5   Horas de sueño                6166 non-null   float64
 6   ResultadosPrevios             6166 non-null   float64
 7   AccesoInternet                6115 non-null   object 
 8   SesionesTutoria               6166 non-null   float64
 9   IngresoFamiliar               6114 non-null   object 
 10  CalidadMaestro                6034 non-null   object 
 11  TipoEscuela                   6109 non-null   object 
 12  InfluenciaCompañeros          6106 non-null   object 
 13  Activida

In [57]:
df6['InvolucramientoParental'].replace("aaaaa",np.nan , inplace=True)
df6['AccesoRecursos'].replace("aaaaa",np.nan , inplace=True)
df6['ActividadesExtracurriculares'].replace("aaaaa",np.nan , inplace=True)
df6['AccesoInternet'].replace("aaaaa",np.nan , inplace=True)
df6['IngresoFamiliar'].replace("aaaaa",np.nan , inplace=True)
df6['CalidadMaestro'].replace("aaaaa",np.nan , inplace=True)
df6['TipoEscuela'].replace("aaaaa",np.nan , inplace=True)
df6['InfluenciaCompañeros'].replace("aaaaa",np.nan , inplace=True)
df6['ProblemasAprendizaje'].replace("aaaaa",np.nan , inplace=True)
df6['NivelEducacionParental'].replace("aaaaa",np.nan , inplace=True)
df6['DistanciaACasa'].replace("aaaaa",np.nan , inplace=True)
df6['Genero'].replace("aaaaa",np.nan , inplace=True)




A value is trying to be set on a copy of a DataFrame or Series through chained assignment using an inplace method.
The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.




A value is trying to be set on a copy of a DataFrame or Series through chained assignment using an inplace method.
The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.




A

In [58]:
df6.info()

<class 'pandas.core.frame.DataFrame'>
Index: 6166 entries, 0 to 6752
Data columns (total 19 columns):
 #   Column                        Non-Null Count  Dtype  
---  ------                        --------------  -----  
 0   HorasEstudio                  6166 non-null   float64
 1   Asistencia                    6166 non-null   float64
 2   InvolucramientoParental       5998 non-null   object 
 3   AccesoRecursos                6002 non-null   object 
 4   ActividadesExtracurriculares  5974 non-null   object 
 5   Horas de sueño                6166 non-null   float64
 6   ResultadosPrevios             6166 non-null   float64
 7   AccesoInternet                6017 non-null   object 
 8   SesionesTutoria               6166 non-null   float64
 9   IngresoFamiliar               6007 non-null   object 
 10  CalidadMaestro                5932 non-null   object 
 11  TipoEscuela                   6014 non-null   object 
 12  InfluenciaCompañeros          5988 non-null   object 
 13  Activida

In [59]:
df6 = df6.dropna()
df6


Unnamed: 0,HorasEstudio,Asistencia,InvolucramientoParental,AccesoRecursos,ActividadesExtracurriculares,Horas de sueño,ResultadosPrevios,AccesoInternet,SesionesTutoria,IngresoFamiliar,CalidadMaestro,TipoEscuela,InfluenciaCompañeros,ActividadFisica,ProblemasAprendizaje,NivelEducacionParental,DistanciaACasa,Genero,PuntajeExamen
0,23.0,84.0,Bajo,Alto,No,7.0,67.0,Si,0.0,Bajo,Medio,Publica,Positiva,3.0,No,Bajo,Cerca,Hombre,67.0
1,19.0,64.0,Bajo,Medio,No,8.0,61.0,Si,2.0,Medio,Medio,Publica,Negativa,4.0,No,Medio,Medio,Mujer,61.0
2,24.0,98.0,Medio,Medio,Si,7.0,74.0,Si,2.0,Medio,Medio,Publica,Neutral,4.0,No,Alto,Cerca,Hombre,74.0
4,19.0,80.0,Medio,Medio,Si,6.0,70.0,Si,3.0,Medio,Alto,Publica,Neutral,4.0,No,Medio,Cerca,Mujer,70.0
5,19.0,88.0,Medio,Medio,Si,8.0,71.0,Si,1.0,Medio,Medio,Publica,Positiva,3.0,No,Alto,Cerca,Hombre,71.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
6737,19.0,80.0,Bajo,Bajo,No,8.0,67.0,Si,1.0,Bajo,Medio,Publica,Positiva,3.0,No,Alto,Cerca,Hombre,67.0
6741,13.0,85.0,Alto,Alto,Si,7.0,69.0,Si,3.0,Medio,Alto,Publica,Positiva,2.0,No,Bajo,Medio,Mujer,69.0
6747,24.0,90.0,Alto,Alto,No,8.0,72.0,Si,0.0,Bajo,Medio,Publica,Neutral,3.0,No,Medio,Medio,Mujer,72.0
6748,9.0,77.0,Bajo,Alto,Si,7.0,62.0,Si,1.0,Bajo,Alto,Privada,Neutral,4.0,Si,Bajo,Lejos,Hombre,62.0


In [60]:
df6.isna().sum()

HorasEstudio                    0
Asistencia                      0
InvolucramientoParental         0
AccesoRecursos                  0
ActividadesExtracurriculares    0
Horas de sueño                  0
ResultadosPrevios               0
AccesoInternet                  0
SesionesTutoria                 0
IngresoFamiliar                 0
CalidadMaestro                  0
TipoEscuela                     0
InfluenciaCompañeros            0
ActividadFisica                 0
ProblemasAprendizaje            0
NivelEducacionParental          0
DistanciaACasa                  0
Genero                          0
PuntajeExamen                   0
dtype: int64

In [61]:
#Elimina los duplicados
df6 = df6.drop_duplicates()

In [62]:
df6.duplicated().sum()

np.int64(0)

In [63]:
#Guardar los resultados en un csv
df6.to_csv("BaseFinal.csv", index=False)

# Exploracion de Datos
- Vision General
- Distrubucion de Variables
- Correlacion entre Variables

## Vision General

In [64]:
df6.info()

<class 'pandas.core.frame.DataFrame'>
Index: 4295 entries, 0 to 6752
Data columns (total 19 columns):
 #   Column                        Non-Null Count  Dtype  
---  ------                        --------------  -----  
 0   HorasEstudio                  4295 non-null   float64
 1   Asistencia                    4295 non-null   float64
 2   InvolucramientoParental       4295 non-null   object 
 3   AccesoRecursos                4295 non-null   object 
 4   ActividadesExtracurriculares  4295 non-null   object 
 5   Horas de sueño                4295 non-null   float64
 6   ResultadosPrevios             4295 non-null   float64
 7   AccesoInternet                4295 non-null   object 
 8   SesionesTutoria               4295 non-null   float64
 9   IngresoFamiliar               4295 non-null   object 
 10  CalidadMaestro                4295 non-null   object 
 11  TipoEscuela                   4295 non-null   object 
 12  InfluenciaCompañeros          4295 non-null   object 
 13  Activida

In [65]:
df6.describe()

Unnamed: 0,HorasEstudio,Asistencia,Horas de sueño,ResultadosPrevios,SesionesTutoria,ActividadFisica,PuntajeExamen
count,4295.0,4295.0,4295.0,4295.0,4295.0,4295.0,4295.0
mean,20.061001,79.988824,7.044703,67.023749,1.279162,2.964843,67.023749
std,5.71807,11.364883,1.441889,3.161231,0.958171,1.018196,3.161231
min,4.0,60.0,4.0,59.0,0.0,0.0,59.0
25%,16.0,70.0,6.0,65.0,1.0,2.0,65.0
50%,20.0,80.0,7.0,67.0,1.0,3.0,67.0
75%,24.0,90.0,8.0,69.0,2.0,4.0,69.0
max,36.0,100.0,10.0,75.0,3.0,6.0,75.0


## Distribucion de Variables

In [66]:
# Crear el histograma
plt.figure(figsize=(5, 3))  # Define el tamaño del gráfico
plt.hist(df6['InvolucramientoParental'], bins=5, color='blue', edgecolor='black');  # Datos y configuración del histograma
#Personalizar
plt.title('Histograma de involucramiento parental', fontsize=16)  # Título del gráfico
plt.xlabel('Nivel', fontsize=12)  # Etiqueta del eje x
plt.ylabel('Frecuencia', fontsize=12)  # Etiqueta del eje y

plt.show()


FigureCanvasAgg is non-interactive, and thus cannot be shown



In [67]:
# Crear el histograma
plt.figure(figsize=(5, 3))  # Define el tamaño del gráfico
plt.hist(df6['AccesoRecursos'], bins=5, color='blue', edgecolor='black');  # Datos y configuración del histograma
#Personalizar
plt.title('Histograma de acceso a recursos', fontsize=16)  # Título del gráfico
plt.xlabel('Nivel', fontsize=12)  # Etiqueta del eje x
plt.ylabel('Frecuencia', fontsize=12)  # Etiqueta del eje y

plt.show()


FigureCanvasAgg is non-interactive, and thus cannot be shown



In [68]:
# Crear el histograma
plt.figure(figsize=(5, 3))  # Define el tamaño del gráfico
plt.hist(df6['ActividadesExtracurriculares'], bins=5, color='blue', edgecolor='black');  # Datos y configuración del histograma
#Personalizar
plt.title('Histograma de ActividadesExtracurriculares ', fontsize=16)  # Título del gráfico
plt.xlabel('Nivel', fontsize=12)  # Etiqueta del eje x
plt.ylabel('Frecuencia', fontsize=12)  # Etiqueta del eje y

plt.show()


FigureCanvasAgg is non-interactive, and thus cannot be shown



In [69]:
plt.figure(figsize=(8, 6)) 
df6['AccesoInternet'].value_counts().plot(kind='bar', color='#9467bd')
plt.title('Gráfico de Acceso a Internet')
plt.xlabel('Nivel')
plt.ylabel('Frecuencia')

# Rotar las etiquetas del eje X si es necesario
plt.xticks(rotation=45, ha='right')
# Mostrar el gráfico
plt.show()


FigureCanvasAgg is non-interactive, and thus cannot be shown



In [70]:
# Crear el histograma
plt.figure(figsize=(5, 3))  # Define el tamaño del gráfico
plt.hist(df6['IngresoFamiliar'], bins=5, color='blue', edgecolor='black');  # Datos y configuración del histograma
#Personalizar
plt.title('Histograma de IngresoFamiliar', fontsize=16)  # Título del gráfico
plt.xlabel('Nivel', fontsize=12)  # Etiqueta del eje x
plt.ylabel('Frecuencia', fontsize=12)  # Etiqueta del eje y

plt.show()


FigureCanvasAgg is non-interactive, and thus cannot be shown



In [71]:
# Crear el histograma
plt.figure(figsize=(5, 3))  # Define el tamaño del gráfico
plt.hist(df6['CalidadMaestro'], bins=5, color='blue', edgecolor='black');  # Datos y configuración del histograma
#Personalizar
plt.title('Histograma de CalidadMaestro', fontsize=16)  # Título del gráfico
plt.xlabel('Nivel', fontsize=12)  # Etiqueta del eje x
plt.ylabel('Frecuencia', fontsize=12)  # Etiqueta del eje y

plt.show()


FigureCanvasAgg is non-interactive, and thus cannot be shown



In [72]:
plt.figure(figsize=(8, 6)) 
df6['TipoEscuela'].value_counts().plot(kind='bar', color='#2ca02c')
plt.title('Gráfico de Tipo de Escuela')
plt.xlabel('Tipo')
plt.ylabel('Frecuencia')

# Rotar las etiquetas del eje X si es necesario
plt.xticks(rotation=45, ha='right')
# Mostrar el gráfico
plt.show()


FigureCanvasAgg is non-interactive, and thus cannot be shown



In [73]:
# Crear el histograma
plt.figure(figsize=(5, 3))  # Define el tamaño del gráfico
plt.hist(df6['InfluenciaCompañeros'], bins=5, color='blue', edgecolor='black');  # Datos y configuración del histograma
#Personalizar
plt.title('Histograma de InfluenciaCompañeros', fontsize=16)  # Título del gráfico
plt.xlabel('Nivel', fontsize=12)  # Etiqueta del eje x
plt.ylabel('Frecuencia', fontsize=12)  # Etiqueta del eje y

plt.show()


FigureCanvasAgg is non-interactive, and thus cannot be shown



In [74]:
plt.figure(figsize=(8, 6)) 
df6['ProblemasAprendizaje'].value_counts().plot(kind='bar', color='#ff7f0e')
plt.title('Gráfico de Problemas de Aprendizaje')
plt.xlabel('Nivel')
plt.ylabel('Frecuencia')

# Rotar las etiquetas del eje X si es necesario
plt.xticks(rotation=45, ha='right')
# Mostrar el gráfico
plt.show()




FigureCanvasAgg is non-interactive, and thus cannot be shown



In [75]:
# Crear el histograma
plt.figure(figsize=(5, 3))  # Define el tamaño del gráfico
plt.hist(df6['NivelEducacionParental'], bins=5, color='blue', edgecolor='black');  # Datos y configuración del histograma
#Personalizar
plt.title('Histograma de NivelEducacionParental', fontsize=16)  # Título del gráfico
plt.xlabel('Nivel', fontsize=12)  # Etiqueta del eje x
plt.ylabel('Frecuencia', fontsize=12)  # Etiqueta del eje y

plt.show()


FigureCanvasAgg is non-interactive, and thus cannot be shown



In [76]:
# Crear el histograma
plt.figure(figsize=(5, 3))  # Define el tamaño del gráfico
plt.hist(df6['Genero'], bins=5, color='blue', edgecolor='black');  # Datos y configuración del histograma
#Personalizar
plt.title('Histograma de Genero', fontsize=16)  # Título del gráfico
plt.xlabel('Nivel', fontsize=12)  # Etiqueta del eje x
plt.ylabel('Frecuencia', fontsize=12)  # Etiqueta del eje y

plt.show() 



FigureCanvasAgg is non-interactive, and thus cannot be shown



In [77]:
plt.figure(figsize=(8, 6)) 
df6['DistanciaACasa'].value_counts().plot(kind='bar', color='#1f77b4')
plt.title('Gráfico de Distancia a Casa')
plt.xlabel('Distancia')
plt.ylabel('Frecuencia')

# Rotar las etiquetas del eje X si es necesario
plt.xticks(rotation=45, ha='right')

# Mostrar el gráfico
plt.show()


FigureCanvasAgg is non-interactive, and thus cannot be shown



In [78]:
plt.figure(figsize=(8, 6))

# Ordenar las edades antes de crear el gráfico de barras
df6['HorasEstudio'].value_counts().sort_index().plot(kind='bar', color='#e76f51')

# Personalización del gráfico
plt.title('Histograma')
plt.xlabel('HorasEstudio')
plt.ylabel('Frecuencia')

# Rotar las etiquetas del eje X
plt.xticks(rotation=45, ha='right')

# Mostrar el gráfico
plt.show()


FigureCanvasAgg is non-interactive, and thus cannot be shown



In [79]:
plt.figure(figsize=(8, 6))

# Ordenar las edades antes de crear el gráfico de barras
df6['Asistencia'].value_counts().sort_index().plot(kind='bar', color='#2a9d8f')

# Personalización del gráfico
plt.title('Histograma')
plt.xlabel('Asistencia')
plt.ylabel('Frecuencia')

# Rotar las etiquetas del eje X
plt.xticks(rotation=45, ha='right')

# Mostrar el gráfico
plt.show()


FigureCanvasAgg is non-interactive, and thus cannot be shown



In [80]:
plt.figure(figsize=(8, 6))

# Ordenar las edades antes de crear el gráfico de barras
df6['Horas de sueño'].value_counts().sort_index().plot(kind='bar', color='#e76f51')

# Personalización del gráfico
plt.title('Histograma')
plt.xlabel('Horas de sueño')
plt.ylabel('Frecuencia')

# Rotar las etiquetas del eje X
plt.xticks(rotation=45, ha='right')

# Mostrar el gráfico
plt.show()


FigureCanvasAgg is non-interactive, and thus cannot be shown



In [81]:
plt.figure(figsize=(8, 6))

# Ordenar las edades antes de crear el gráfico de barras
df6['ResultadosPrevios'].value_counts().sort_index().plot(kind='bar', color='#e76f51')

# Personalización del gráfico
plt.title('Histograma')
plt.xlabel('ResultadosPrevios')
plt.ylabel('Frecuencia')

# Rotar las etiquetas del eje X
plt.xticks(rotation=45, ha='right')

# Mostrar el gráfico
plt.show()


FigureCanvasAgg is non-interactive, and thus cannot be shown



In [82]:
plt.figure(figsize=(8, 6))

# Ordenar las edades antes de crear el gráfico de barras
df6['SesionesTutoria'].value_counts().sort_index().plot(kind='bar', color='#e76f51')

# Personalización del gráfico
plt.title('Histograma')
plt.xlabel('SesionesTutoria')
plt.ylabel('Frecuencia')

# Rotar las etiquetas del eje X
plt.xticks(rotation=45, ha='right')

# Mostrar el gráfico
plt.show()


FigureCanvasAgg is non-interactive, and thus cannot be shown



In [83]:
plt.figure(figsize=(8, 6))

# Ordenar las edades antes de crear el gráfico de barras
df6['ActividadFisica'].value_counts().sort_index().plot(kind='bar', color='#e76f51')

# Personalización del gráfico
plt.title('Histograma')
plt.xlabel('ActividadFisica')
plt.ylabel('Frecuencia')

# Rotar las etiquetas del eje X
plt.xticks(rotation=45, ha='right')

# Mostrar el gráfico
plt.show()


FigureCanvasAgg is non-interactive, and thus cannot be shown



In [84]:
plt.figure(figsize=(8, 6))

# Ordenar las edades antes de crear el gráfico de barras
df6['PuntajeExamen'].value_counts().sort_index().plot(kind='bar', color='#e76f51')

# Personalización del gráfico
plt.title('Histograma')
plt.xlabel('Puntaje Examen')
plt.ylabel('Frecuencia')

# Rotar las etiquetas del eje X
plt.xticks(rotation=45, ha='right')

# Mostrar el gráfico
plt.show()


FigureCanvasAgg is non-interactive, and thus cannot be shown



## Correlacion entre Variables

In [85]:
#Mapeo de categorias a numeros
df6['InvolucramientoParental'] = df6['InvolucramientoParental'].map({'Bajo': 1, 'Medio': 2, 'Alto': 3})
df6['AccesoRecursos'] = df6['AccesoRecursos'].map({'Bajo': 1, 'Medio': 2, 'Alto': 3})
df6['ActividadesExtracurriculares'] = df6['ActividadesExtracurriculares'].map({'No': 0, 'Si': 1})
df6['AccesoInternet'] = df6['AccesoInternet'].map({'No': 0, 'Si': 1,})
df6['IngresoFamiliar'] = df6['IngresoFamiliar'].map({'Bajo': 1, 'Medio': 2, 'Alto': 3})
df6['CalidadMaestro'] = df6['CalidadMaestro'].map({'Bajo': 1, 'Medio': 2, 'Alto': 3})
df6['TipoEscuela'] = df6['TipoEscuela'].map({'Publica': 0, 'Privada': 1})
df6['InfluenciaCompañeros'] = df6['InfluenciaCompañeros'].map({'Negativa': 0, 'Neutral': 1, 'Positiva': 2})
df6['ProblemasAprendizaje'] = df6['ProblemasAprendizaje'].map({'No': 0, 'Si': 1,})
df6['NivelEducacionParental'] = df6['NivelEducacionParental'].map({'Bajo': 1, 'Medio': 2, 'Alto': 3})
df6['DistanciaACasa'] = df6['DistanciaACasa'].map({'Cerca': 1, 'Medio': 2, 'Lejos': 3})
df6['Genero'] = df6['Genero'].map({'Mujer': 0, 'Hombre': 1,})



A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy



A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy



A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy



A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/

In [86]:
# Seleccionar solo las columnas numéricas
df_numeric = df6[['HorasEstudio', 'Asistencia', 'InvolucramientoParental', 'AccesoRecursos', 'ActividadesExtracurriculares', 'Horas de sueño', 
                  'SesionesTutoria', 'IngresoFamiliar', 'CalidadMaestro', 'TipoEscuela', 'InfluenciaCompañeros','ActividadFisica',
                 'ProblemasAprendizaje','NivelEducacionParental','DistanciaACasa','Genero','PuntajeExamen']]
# Calcular la matriz de correlación
correlation_matrix = df_numeric.corr()
correlation_matrix

Unnamed: 0,HorasEstudio,Asistencia,InvolucramientoParental,AccesoRecursos,ActividadesExtracurriculares,Horas de sueño,SesionesTutoria,IngresoFamiliar,CalidadMaestro,TipoEscuela,InfluenciaCompañeros,ActividadFisica,ProblemasAprendizaje,NivelEducacionParental,DistanciaACasa,Genero,PuntajeExamen
HorasEstudio,1.0,-0.037234,-0.029506,-0.02239,-0.001854,0.004697,-0.017221,-0.01378,0.000288,0.018112,0.008885,-0.010671,-0.007769,-0.013134,0.014483,0.006201,0.470539
Asistencia,-0.037234,1.0,-0.014522,-0.006352,0.018503,-0.013812,0.004756,-0.021937,-0.019564,0.007057,-0.012095,-0.016315,0.00067,0.040924,-0.024792,-0.003125,0.660587
InvolucramientoParental,-0.029506,-0.014522,1.0,-0.010207,-0.022729,-0.005106,-0.000331,0.00514,0.006547,0.017791,0.018944,-0.009201,0.007219,-0.009631,-0.009456,-0.003195,0.168723
AccesoRecursos,-0.02239,-0.006352,-0.010207,1.0,-0.013228,-0.002725,-0.023074,-0.014958,0.004348,0.026513,0.014987,-0.017776,0.00831,-0.010997,-0.003298,0.015099,0.190241
ActividadesExtracurriculares,-0.001854,0.018503,-0.022729,-0.013228,1.0,-0.00333,0.022447,-0.008956,0.018728,-0.010003,0.001815,-0.012559,-0.013438,-0.012194,0.003878,0.008488,0.083382
Horas de sueño,0.004697,-0.013812,-0.005106,-0.002725,-0.00333,1.0,-0.014092,-0.011434,0.014375,0.005365,-0.001094,-0.013999,0.01122,0.006259,0.005015,-0.01518,-0.010094
SesionesTutoria,-0.017221,0.004756,-0.000331,-0.023074,0.022447,-0.014092,1.0,-0.001437,0.010514,-0.000285,-0.023131,-0.009273,-0.007142,0.028198,-0.006781,-0.022522,0.136587
IngresoFamiliar,-0.01378,-0.021937,0.00514,-0.014958,-0.008956,-0.011434,-0.001437,1.0,0.002776,-0.035556,0.018469,-0.015091,0.00349,-0.006225,-0.019008,-0.006077,0.086952
CalidadMaestro,0.000288,-0.019564,0.006547,0.004348,0.018728,0.014375,0.010514,0.002776,1.0,-0.00279,-0.000129,-0.011021,0.012602,0.006317,0.022859,0.007932,0.073505
TipoEscuela,0.018112,0.007057,0.017791,0.026513,-0.010003,0.005365,-0.000285,-0.035556,-0.00279,1.0,-0.015922,0.018943,0.003764,0.002982,0.01577,0.004708,0.012922


In [87]:
plt.figure(figsize=(20,14))
# Gráfico de calor
sns.heatmap(correlation_matrix, annot=True, cmap='inferno')

# Mostrar gráfico
plt.show()


FigureCanvasAgg is non-interactive, and thus cannot be shown



In [88]:
sns.scatterplot(x='PuntajeExamen',y='HorasEstudio',data=df6)
plt.show()


FigureCanvasAgg is non-interactive, and thus cannot be shown



In [89]:
sns.scatterplot(x='PuntajeExamen',y='Asistencia',data=df6)
plt.show()


FigureCanvasAgg is non-interactive, and thus cannot be shown



In [90]:
sns.scatterplot(x='PuntajeExamen',y='ResultadosPrevios',data=df6)
plt.show()


FigureCanvasAgg is non-interactive, and thus cannot be shown



## Modelo de Machine Learning

In [91]:
# Separar características (X) y variable objetivo (y)
X = df6.drop(columns=['PuntajeExamen','ResultadosPrevios'])
y = df6['PuntajeExamen']

# Dividir los datos en conjuntos de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.4, random_state=42)

# Crear el modelo de Random Forest y ajustarlo a los datos de entrenamiento
rf_model = RandomForestRegressor(random_state=42)
rf_model.fit(X_train, y_train)

# Evaluar el modelo con el conjunto de prueba
y_pred = rf_model.predict(X_test)
mse = mean_squared_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)
print(f"Mean Squared Error: {mse}")
print(f"R^2 Score: {r2}")

# Visualizar un árbol individual del bosque (por ejemplo, el primero)
estimator = rf_model.estimators_[0]  # Selecciona el primer árbol del bosque

plt.figure(figsize=(20, 10))
plot_tree(estimator, filled=True, feature_names=X.columns, rounded=True, fontsize=10)
plt.title("Visualización de un Árbol Individual en el Bosque Aleatorio")
plt.show()

# Graficar la importancia de características en el modelo
importances = rf_model.feature_importances_
features = X.columns

plt.figure(figsize=(10, 6))
plt.barh(features, importances, color="skyblue")
plt.xlabel("Importancia de la Característica")
plt.title("Importancia de Características en el Bosque Aleatorio")
plt.show()


Mean Squared Error: 2.1783926234478073
R^2 Score: 0.7788786005636124



FigureCanvasAgg is non-interactive, and thus cannot be shown


FigureCanvasAgg is non-interactive, and thus cannot be shown



In [92]:
from sklearn.model_selection import GridSearchCV

# Definir el rango de valores para los hiperparámetros
param_grid = {
    'n_estimators': [100, 200, 300],  # Número de árboles
    'max_depth': [None, 10, 20, 30],   # Profundidad máxima del árbol
    'min_samples_split': [2, 5, 10],   # Mínimo de muestras para dividir un nodo
    'min_samples_leaf': [1, 2, 4],     # Mínimo de muestras por hoja
    'bootstrap': [True, False]         # Uso de muestreo bootstrap
}

# Crear el modelo de Random Forest
rf_model = RandomForestRegressor(random_state=42)

# Usar GridSearchCV para buscar los mejores hiperparámetros
grid_search = GridSearchCV(estimator=rf_model, param_grid=param_grid, cv=5, n_jobs=-1, verbose=2)

# Ajustar el modelo con los mejores parámetros
grid_search.fit(X_train, y_train)

# Imprimir los mejores parámetros encontrados
print(f"Mejores parámetros: {grid_search.best_params_}")

# Evaluar el modelo ajustado
best_rf_model = grid_search.best_estimator_
y_pred = best_rf_model.predict(X_test)

# Calcular las métricas de rendimiento
mse = mean_squared_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)
print(f"Mean Squared Error: {mse}")
print(f"R^2 Score: {r2}")


Fitting 5 folds for each of 216 candidates, totalling 1080 fits
Mejores parámetros: {'bootstrap': True, 'max_depth': 20, 'min_samples_leaf': 1, 'min_samples_split': 2, 'n_estimators': 300}
Mean Squared Error: 2.1623519848139146
R^2 Score: 0.7805068325105998


In [93]:
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_squared_error, r2_score
from sklearn.model_selection import train_test_split, GridSearchCV

# Separar características (X) y variable objetivo (y)
X = df6.drop(columns=['PuntajeExamen', 'ResultadosPrevios'])
y = df6['PuntajeExamen']

# Dividir los datos en conjuntos de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Parámetros obtenidos de GridSearchCV
best_params = {
    'bootstrap': True,
    'max_depth': 20,
    'min_samples_leaf': 1,
    'min_samples_split': 2,
    'n_estimators': 300
}

# Crear el modelo de RandomForest con los mejores parámetros
rf_model = RandomForestRegressor(
    bootstrap=best_params['bootstrap'],
    max_depth=best_params['max_depth'],
    min_samples_leaf=best_params['min_samples_leaf'],
    min_samples_split=best_params['min_samples_split'],
    n_estimators=best_params['n_estimators'],
    random_state=42
)

# Ajustar el modelo con los datos de entrenamiento
rf_model.fit(X_train, y_train)

# Evaluar el modelo con el conjunto de prueba
y_pred = rf_model.predict(X_test)
mse = mean_squared_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)

# Imprimir las métricas de evaluación
print(f"Mean Squared Error: {mse}")
print(f"R^2 Score: {r2}")

# Graficar la importancia de características en el modelo
importances = rf_model.feature_importances_
features = X.columns

plt.figure(figsize=(10, 6))
plt.barh(features, importances, color="skyblue")
plt.xlabel("Importancia de la Característica")
plt.title("Importancia de Características en el Bosque Aleatorio")
plt.show()

# Visualizar un árbol individual del bosque (por ejemplo, el primero)
estimator = rf_model.estimators_[0]  # Selecciona el primer árbol del bosque

plt.figure(figsize=(20, 10))
plot_tree(estimator, filled=True, feature_names=X.columns, rounded=True, fontsize=10)
plt.title("Visualización de un Árbol Individual en el Bosque Aleatorio")
plt.show()


Mean Squared Error: 1.9985740878503702
R^2 Score: 0.7995109761104493



FigureCanvasAgg is non-interactive, and thus cannot be shown


FigureCanvasAgg is non-interactive, and thus cannot be shown



In [94]:
from sklearn.model_selection import cross_val_score

# Evaluar con validación cruzada
cv_scores = cross_val_score(rf_model, X, y, cv=5)
print(f"Scores de validación cruzada: {cv_scores}")
print(f"Promedio de validación cruzada: {cv_scores.mean()}")


Scores de validación cruzada: [0.77917426 0.78558831 0.80150272 0.79475541 0.78817523]
Promedio de validación cruzada: 0.7898391877949631


In [95]:
# Características del alumno en un diccionario
alumno = {
    'HorasEstudio': 5,
    'Asistencia': 90,
    'InvolucramientoParental': 3,  # Alto
    'AccesoRecursos': 2,            # Medio
    'ActividadesExtracurriculares': 1,  # Si
    'Horas de sueño': 7,
    'AccesoInternet':1,
    'SesionesTutoria': 2,
    'IngresoFamiliar': 2,           # Medio
    'CalidadMaestro': 3,            # Alto
    'TipoEscuela': 0,               # Pública
    'InfluenciaCompañeros': 1,      # Neutral
    'ActividadFisica': 4,
    'ProblemasAprendizaje': 0,      # No
    'NivelEducacionParental': 2,    # Medio
    'DistanciaACasa': 1,            # Cerca
    'Genero': 0                      # Mujer
}

# Convertir el diccionario a un DataFrame
alumno_df = pd.DataFrame([alumno])

# Predecir la calificación final utilizando el modelo entrenado
prediccion_calificacion = rf_model.predict(alumno_df)

# Mostrar la predicción
print(f"La calificación final predicha para el alumno es: {prediccion_calificacion[0]:.2f}")

La calificación final predicha para el alumno es: 65.89
