Objetivo: Predecir la tasa de abandono escolar.

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

from sklearn.ensemble import RandomForestRegressor
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score, mean_squared_error, r2_score

In [None]:
data = pd.read_excel('/content/registro-administrativo-historico_2009-2022-fin.xlsx')

In [None]:
df = data.copy()

In [None]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 295152 entries, 0 to 295151
Data columns (total 23 columns):
 #   Column              Non-Null Count   Dtype 
---  ------              --------------   ----- 
 0   Anio_lectivo        295152 non-null  object
 1   Zona                295152 non-null  object
 2   Provincia           295152 non-null  object
 3   Cod_Provincia       295152 non-null  int64 
 4   Canton              295152 non-null  object
 5   Cod_Canton          295152 non-null  int64 
 6   Parroquia           295152 non-null  object
 7   Cod_Parroquia       295152 non-null  int64 
 8   Nombre_Institucion  295152 non-null  object
 9   AMIE                295152 non-null  object
 10  Escolarizacion      295152 non-null  object
 11  Tipo_Educacion      295152 non-null  object
 12  Sostenimiento       295152 non-null  object
 13  area                295152 non-null  object
 14  Regimen_Escolar     295152 non-null  object
 15  Jurisdiccion        295152 non-null  object
 16  Mo

In [None]:
df.shape

(295152, 23)

In [None]:
df.isnull().sum().sort_values(ascending=False)

Unnamed: 0,0
Anio_lectivo,0
Sostenimiento,0
No promovidos,0
Promovidos,0
Total_Estudiantes,0
Acceso_Edificio,0
Jornada,0
Modalidad,0
Jurisdiccion,0
Regimen_Escolar,0


In [None]:
provincias_unicas = df.Cod_Provincia.unique()
print(provincias_unicas)

[ 1  2  3  4  5  6  7  8 23  9 24 10 11 12 13 14 15 16 17 18 19 20 21 22
 90]


In [None]:
frecuencias_provincias = df.Cod_Provincia.value_counts().sort_values(ascending=False)
print(frecuencias_provincias)

Cod_Provincia
9     50469
13    41577
17    29636
11    17789
12    15280
8     15070
1     13523
6     12533
7      9875
14     9834
5      9158
2      8199
21     7488
23     6991
22     6262
10     5956
3      5913
18     5700
16     5499
19     5285
15     4837
24     3799
4      3434
90      699
20      346
Name: count, dtype: int64


In [None]:
cod_provincia = 1
df_azuay = df[df.Cod_Provincia == cod_provincia]
df_azuay.head()

Unnamed: 0,Anio_lectivo,Zona,Provincia,Cod_Provincia,Canton,Cod_Canton,Parroquia,Cod_Parroquia,Nombre_Institucion,AMIE,Escolarizacion,Tipo_Educacion,Sostenimiento,area,Regimen_Escolar,Jurisdiccion,Modalidad,Jornada,Acceso_Edificio,Total_Estudiantes,Promovidos,No promovidos,Abandono
0,2009-2010 Fin,Zona 6,AZUAY,1,CUENCA,101,BAÑOS,10151,CENTRO EDUCATIVO ROUSSEAU,01B00019,Escolarizada,Ordinario,Particular,Rural,Sierra,Intercultural Bilingüe,Presencial,Matutina,Terrestre,47,47,0,0
1,2009-2010 Fin,Zona 6,AZUAY,1,CUENCA,101,BAÑOS,10151,COLEGIO INTERCULTURAL BILINGUE DE NARANCAY,01B00020,Escolarizada,Ordinario,Fiscal,Rural,Sierra,Intercultural Bilingüe,Presencial y Semipresencial,Matutina,Terrestre,264,219,30,15
2,2009-2010 Fin,Zona 6,AZUAY,1,CUENCA,101,CHAUCHA,10153,SEIS DE JUNIO,01B00021,Escolarizada,Ordinario,Fiscal,Rural,Costa,Intercultural Bilingüe,Presencial,Matutina,Terrestre,24,17,5,2
3,2009-2010 Fin,Zona 6,AZUAY,1,CUENCA,101,GIL RAMIREZ DAVALOS,10106,UNIDAD EDUCATIVA INTERCULTURAL BILINGUE LA PAZ...,01B00022,Escolarizada,Ordinario,Fiscal,Urbana,Sierra,Intercultural Bilingüe,Semipresencial,Matutina,Terrestre,273,256,2,15
4,2009-2010 Fin,Zona 6,AZUAY,1,CUENCA,101,MOLLETURO,10157,LA PAZ,01B00023,Escolarizada,Ordinario,Fiscal,Rural,Sierra,Intercultural Bilingüe,Semipresencial,Matutina y Vespertina,Terrestre,0,0,0,0


In [None]:
numeric_cols = df_azuay.select_dtypes(include=['number']).columns
print(numeric_cols)

Index(['Cod_Provincia', 'Cod_Canton', 'Cod_Parroquia', 'Total_Estudiantes',
       'Promovidos', 'No promovidos', 'Abandono'],
      dtype='object')


In [None]:
df_numeric = df_azuay[numeric_cols]
df_numeric.head()

Unnamed: 0,Cod_Provincia,Cod_Canton,Cod_Parroquia,Total_Estudiantes,Promovidos,No promovidos,Abandono
0,1,101,10151,47,47,0,0
1,1,101,10151,264,219,30,15
2,1,101,10153,24,17,5,2
3,1,101,10106,273,256,2,15
4,1,101,10157,0,0,0,0


In [None]:
x = df_numeric.drop('Abandono', axis=1)
x.head()

Unnamed: 0,Cod_Provincia,Cod_Canton,Cod_Parroquia,Total_Estudiantes,Promovidos,No promovidos
0,1,101,10151,47,47,0
1,1,101,10151,264,219,30
2,1,101,10153,24,17,5
3,1,101,10106,273,256,2
4,1,101,10157,0,0,0


In [None]:
y = df_numeric['Abandono']
y.head()

Unnamed: 0,Abandono
0,0
1,15
2,2
3,15
4,0


In [None]:
# Dividir los datos en entrenamiento y prueba
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.2, random_state=42)

In [None]:
# Crear el modelo RandomForestRegressor
model = RandomForestRegressor(random_state=42)

#  Entrenar el modelo
model.fit(x_train, y_train)

In [None]:
# Realizar predicciones en el conjunto de prueba
y_pred = model.predict(x_test)


In [None]:
# Evaluar el rendimiento
mse = mean_squared_error(y_test, y_pred)  # Error cuadrático medio
r2 = r2_score(y_test, y_pred)  # Coeficiente de determinación R^2

print(f"Error cuadrático medio (MSE): {mse}")
print(f"R^2: {r2}")

Error cuadrático medio (MSE): 106.45240173752312
R^2: 0.729556906328298
