# Estudio sobre las escuelas cerradas al final del año escolar 2017-18 usando Machine Learning (ML)

Como había escrito anteriormente, estaba buscando algún documento oficial del Departamento de Educación (DE) o artículo periodístico que proveyera el criterio que sería utilizado para escoger las escuelas que se cerrarían al final de año escolar. Lamentablemente, no encontré lo que buscaba así que voy a usar algunas técnicas de Machine Learning (ML) para investigar si hay algún patrón discernible para seleccionar las escuelas que cerrarían.

## Logistic Regression

La primera técnica de ML que voy a usar es la regresión logística (o Logistic Regression en inglés). Es una herramienta que me permite calcular las probabilidades de que, en este caso, una escuela sea cerrada al final del año escolar.

### Datos a utilizarse

Los datos a utilizarse fueron obtenidos de los Dashboard del Departamento de Educación (https://schoolreportcardstorage.z13.web.core.windows.net/index.html) y (https://schoolreportcard.azurewebsites.net/reportes/perfilescolar)

### Conceptualización

Para lograr la idea del estudio, identifiqué las escuelas que cerraron al principio del año escolar 2018-19 y las apliqué para el año escolar anterior como si supiera de antemano cuales escuelas cerrarían. Ya con el set de datos listo, implemento el modelo de regresión logística.


In [2]:
# Importing necessary libraries
import pandas as pd
import numpy as np
import os

In [3]:
os.chdir('/Users/edwardriverarivera/Documents/educacion/educacion_python/2017-18')

In [5]:
# Importing data to be cleaned
df = pd.read_csv('escuelas_logit.csv')

In [7]:
# Isolating for school year 2017-18
df17 = df[df['ANO_ESCOLAR'] == '2017-18']

In [8]:
# Renaming column
df17 = df17.rename(columns={"nivel.1":"consolidada"})

In [9]:
# Setting school name as index
df17 = df17.set_index('escuela')

In [10]:
# Making 'consolidada' a binary variable; 1=school to be closed at the end of school year, 0=otherwise
df17['consolidada'] = np.where(df17['consolidada'] == 'consolidada', 1,0)

In [11]:
# Dropping unnecesary column
df17 = df17.drop(columns = 'Unnamed: 14')

In [None]:
df17.columns

In [12]:
# Defining exploratory variables
variables = ['consolidada','matricula','promedio_espanol','promedio_matematica','promedio_ingles','promedio_ciencias'] 

In [13]:
# Defining x
x = df17[variables]

In [14]:
x

Unnamed: 0_level_0,consolidada,matricula,promedio_espanol,promedio_matematica,promedio_ingles,promedio_ciencias
escuela,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Abelardo Martinez Otero,0,464.0,65.50,12.10,80.20,67.00
Agapito Rosario Rosario,0,473.0,57.80,65.30,67.30,77.10
Amalia Lopez de Avila (Nueva),0,332.0,70.40,76.70,76.10,90.40
Angel Sandin Martinez,0,473.0,57.80,65.30,67.30,77.10
Angelica Gomez de Betancourt,0,214.0,31.90,23.50,24.40,51.20
...,...,...,...,...,...,...
Jose F Diaz,0,229.0,24.00,43.80,17.90,40.00
Villa Capri,0,222.0,96.80,98.90,92.60,100.00
Villa Granada,0,387.0,29.70,10.80,14.70,32.60
William D Boyce,0,433.0,16.10,4.00,18.40,20.50


In [15]:
# Dropping missing values... from 1092 rows went down to 1068
x = x.dropna()

In [19]:
# Counting missing values
x.isnull().sum()

consolidada            0
matricula              0
promedio_espanol       0
promedio_matematica    0
promedio_ingles        0
promedio_ciencias      0
dtype: int64

In [17]:
# Changing type to float
x['consolidada'] = pd.to_numeric(x['consolidada'], errors = 'coerce')
x['promedio_espanol'] = pd.to_numeric(x['promedio_espanol'], errors = 'coerce')
x['promedio_matematica'] = pd.to_numeric(x['promedio_matematica'], errors = 'coerce')
x['promedio_ingles'] = pd.to_numeric(x['promedio_ingles'], errors = 'coerce')
x['promedio_ciencias'] = pd.to_numeric(x['promedio_ciencias'], errors = 'coerce')

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  x['consolidada'] = pd.to_numeric(x['consolidada'], errors = 'coerce')
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  x['promedio_espanol'] = pd.to_numeric(x['promedio_espanol'], errors = 'coerce')
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  x['promedio_matematica'] = pd.to_numeric(x['promedio_ma

In [18]:
x = x.dropna()

In [20]:
# Selecting X and y variables
X = x.drop(columns='consolidada')
y = x['consolidada']

In [22]:
X.shape, y.shape

((1067, 5), (1067,))

In [24]:
# Import the necessary modules
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import classification_report, confusion_matrix
from sklearn.model_selection import train_test_split

In [25]:
# Create training and test sets
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.3, random_state=42)

In [26]:
# Create the classifier: logreg
logreg = LogisticRegression()

# Fit the classifier to the training data
logreg.fit(X_train, y_train)

# Predict the labels of the test set: y_pred
y_pred = logreg.predict(X_test)

In [28]:
# Compute and print the confusion matrix and classification report
print(confusion_matrix(y_test, y_pred))
print(classification_report(y_test, y_pred))

[[231  24]
 [ 32  34]]
              precision    recall  f1-score   support

           0       0.88      0.91      0.89       255
           1       0.59      0.52      0.55        66

    accuracy                           0.83       321
   macro avg       0.73      0.71      0.72       321
weighted avg       0.82      0.83      0.82       321



A simple vista, podemos apreciar que el primer modelo obtiene un 59% de precisión en predecir correctamente las escuelas que cerraron. Aunque el modelo en general hace buen trabajo en predecir las escuelas que no cerraron, nuestro enfoque debe ser en mejorar el modelo para que pueda predecir mejor las escuelas que cerraron.