<a href="https://colab.research.google.com/github/gabrielawad/talleresGoogleColab/blob/main/Taller_18_Optimizacion_archivos_grandes.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## «*En todas las épocas hay personas que no piensan como los demás. Es decir, que no piensan como los que no piensan*».
### [Marguerite Yourcenar](https://es.wikipedia.org/wiki/Marguerite_Yourcenar)

# Taller 18 Optimización a partir de información contenida en archivos

En este taller aprenderá a resolver ejercicios de optimización a partir de información contenida en archivos.

Se utilizará el archivo "[saber11_20162.csv](https://drive.google.com/open?id=1zYtDTFEYHve8jVPU-JLL_PNBrNVkvkWOD9TYdv6JVPI)", de dimensión 12.212 filas x 20 columnas, que contiene la información relativa a los resultados obtenidos por los estudiantes que presentaron las pruebas Saber 11 en el período 2016-2, agrupados por instituciones.

## Especificación del tipo de variable

CVXPY permite establecer el tipo de variable así:

* Variables enteras:      x = cvx.Variable(integer=True)

* Variables binarias:     x = cvx.Variable(boolean =True)


## Algunas métodos especiales de CVXPY

CVXPY contiene algunos métodos especiales que facilitan el trabajo con matrices. 

El método **sum** permite sumar los elementos de filas, columnas y de toda la matriz.

El método **multiply** multiplica dos matrices, posición a posición

# Problema a resolver

El gobierno nacional desea invertir dos mil millones de pesos en instituciones de educación media oficiales, con jornada en la mañana, de las ciudades de Cali, Bogotá, Bucaramanga y Medellín.

Por razones de equidad regional en cada una de dichas ciudades se apoyará al menos tres y máximo ocho instituciones educativas, asignando a cada una un auxilio adicional de 100 millones de pesos.

El objetivo del gobierno es maximizar la cobertura (número de estudiantes beneficiados con la inversión).

Resuelva el problema a partir de la información que se encuentra en el archivo "[saber11_20162.csv"](https://drive.google.com/open?id=1zYtDTFEYHve8jVPU-JLL_PNBrNVkvkWOD9TYdv6JVPI). Indique el total de estudiantes y de instituciones beneficiados tanto a nivel global como en cada una de las ciudades. Además, muestre el listado de instituciones beneficiadas junto con su ubicación y su número de estudiantes.

## Paso 0: importar las librerías requeridas

In [None]:
# Importar las librerías requeridas
import numpy as np
import pandas as pd
import openpyxl
import cvxpy as cvx
from cvxopt import solvers

## Paso 1: obtener datos

Leer los datos del archivo y verificar que hayan sido adecuadamente guardados en un objeto de pandas.

**Recuerde subir el archivo "saber11_20162.csv" al espacio de trabajo de Colaboratory**

In [None]:
# Leer la información del archivo y cargarla en un DataFrame
datosSaber11 = pd.read_csv('saber11_20162.csv', sep=';', decimal=',')

# Las siguientes instrucciones permiten verificar que el archivo fue 
#adecuadamente leído y que los datos se encuentran disponibles
print ("Los tipos de datos contenidos en las columnas de datosSaber11 son:\n",
       datosSaber11.dtypes, "\n")
print ("Los índices de las filas de datosSaber11 son:\n", datosSaber11.index,
       "\n")
print ("Los índices de las columnas de datosSaber11 son:\n",
       datosSaber11.columns, "\n")
print ("Los estadísticos de las variables numéricas de datosSaber11 son:\n",
       datosSaber11.describe(), "\n")

## Paso 2:  depurar datos

Seleccionar los datos que se requieren para resolver el ejercicio.

Al terminar este paso, el archivo tendrá 541 filas y 11 columnas. Cinco de las columnas serán construidas y agregadas en este paso.

In [None]:
# Seleccionar los colegios oficiales
datosSaber11_v1 =datosSaber11[datosSaber11.NATURALEZA == 'OFICIAL']

# Seleccionar los colegios oficiales con jornada únicamente en la mañana
# observe que al subir el contenido del archivo a Jupyter "MAÑANA" 
#se convirtió en "MANANA"
datosSaber11_v2 =datosSaber11_v1[datosSaber11_v1.JORNADA == 'MANANA']

# Seleccionar las columnas requeridas para resolver el ejercicio
datosSaber11_v3 = datosSaber11_v2.loc[:,['NOMBREINSTITUCION','CODIGOMUNICIPIO',
                                         'NOMBREMUNICIPIO','NATURALEZA',
                                         'JORNADA','EVALUADOS',]]

# Convertir el código del municipio en una string
datosSaber11_v3['CODIGOMUNICIPIO'] = datosSaber11_v3['CODIGOMUNICIPIO'].astype(str)

# Crear etiquetas para las nuevas columnas requeridas
nombres = {"Medellín": "5001", "Bogotá":"11001" , "Cali": "76001",
           "Bucaramanga": "68001", "Activos":"0"}

# Agregar las columnas requeridas con todos sus valores iguales a cero
for i in nombres:
    datosSaber11_v3[i] = 0

# Modificar el contenido de las nuevas columnas según el municipio
# al que pertenezcan
datosSaber11_v3.loc[datosSaber11_v2.CODIGOMUNICIPIO == 5001,'Medellín'] = 1.0
datosSaber11_v3.loc[datosSaber11_v2.CODIGOMUNICIPIO == 76001,'Cali'] = 1.0
datosSaber11_v3.loc[datosSaber11_v2.CODIGOMUNICIPIO == 68001,'Bucaramanga'] = 1.0
datosSaber11_v3.loc[datosSaber11_v2.CODIGOMUNICIPIO == 11001,'Bogotá'] = 1.0

# Identificar los municipios que interesan para resolver el problema
datosSaber11_v3['Activos'] = (datosSaber11_v3['Medellín'] 
                              + datosSaber11_v3['Cali'] 
                              + datosSaber11_v3['Bucaramanga'] 
                              + datosSaber11_v3['Bogotá'])

# Dejar en el objeto únicamente los datos de los municipios de interés
datosSaber11_v4 = datosSaber11_v3[datosSaber11_v3.Activos ==1]

# Las siguientes instrucciones permiten verificar cómo quedó el archivo transformado 
print ("Los tipos de datos contenidos en las columnas de datosSaber11_v4 son:\n",
       datosSaber11_v4.dtypes, "\n")
print ("Los índices de las filas de datosSaber11_v4 son:\n",
       datosSaber11_v4.index, "\n")
print ("Los índices de las columnas de datosSaber11_v4 son:\n",
       datosSaber11_v4.columns, "\n")
print ("Los estadísticos de las variables numéricas de datosSaber11_v4 son:\n",
       datosSaber11_v4.describe(), "\n")

Después de las transformaciones realizadas, la información contenida en las columnas del objeto de NumPy 'datosSaber11_v4' es:


Columna
* 0: 'NOMBREINSTITUCION'
* 1: 'CODIGOMUNICIPIO'
* 2: 'NOMBREMUNICIPIO'
* 3: 'NATURALEZA'
* 4: 'JORNADA'
* 5: 'EVALUADOS'
* 6: 'Cali'
* 7: 'Bucaramanga'
* 8: 'Bogotá'
* 9: 'Medellín'
* 10: 'Activos'

## Paso 3: convertir los objetos de pandas en objetos de NumPy

En este paso se crean objetos de NumPy, a partir de objetos de pandas, para ser utilizados luego en CVXPY-

In [None]:
# Coeficiente de costos: estudiantes
est = np.array(datosSaber11_v4[ 'EVALUADOS'])
print ("El total de estudiantes es: ", np.sum(est), "\n")

# Coeficientes tecnológicos: instituciones por ciudad
cal = np.array(datosSaber11_v4['Cali'])
bog = np.array(datosSaber11_v4['Bogotá'])
buc = np.array(datosSaber11_v4['Bucaramanga'])
med = np.array(datosSaber11_v4['Medellín'])

# Verificar que los objetos de NumPy quedaron adecuadamente creados
TotCal=np.sum(cal) 
print ("El total de establecimientos de Cali es: ", TotCal, "\n")

TotBog = np.sum(bog) 
print ("El total de establecimientos de Bogotá es: ", TotBog, "\n")

TotBuc=np.sum(buc) 
print ("El total de establecimientos de Bucaramanga es: ", TotBuc, "\n")

TotMed=np.sum(med) 
print ("El total de establecimientos de Medellín es: ", TotMed, "\n")

Total = TotCal + TotBog + TotBuc + TotMed
print ("El total de establecimientos es: ", Total, "\n")

## Paso 4: resolver el ejercicio utilizando CVXPY

In [None]:
# Crear las variables a optimizar. Cada posición corresponde a un colegio
x = cvx.Variable((541), boolean =True)

# Definir el vector c e ingresar sus valores
c=cvx.Parameter((541))
c = est

# Definir la función objetivo utilizando sum y multiply
obj=cvx.Maximize(cvx.sum(cvx.multiply(c,x)))

# Establecer las restricciones
restricciones = [
    # Restricciones de recursos disponibles
    cvx.sum(cvx.multiply(100,x))<= 2000,
    
    # Máximo Cali
    cvx.sum(cvx.multiply(cal,x))<=8,

    # Mínimo Cali
    cvx.sum(cvx.multiply(cal,x))>=3,
    
    # Máximo Bog
    cvx.sum(cvx.multiply(bog,x))<=8,

    # Mínimo Bog
    cvx.sum(cvx.multiply(bog,x))>=3,
    
    # Máximo Buc
    cvx.sum(cvx.multiply(buc,x))<=8,

    # Mínimo Buc
    cvx.sum(cvx.multiply(buc,x))>=3,
    
    # Máximo Med
    cvx.sum(cvx.multiply(med,x))<=8,

    # Mínimo Med
    cvx.sum(cvx.multiply(med,x))>=3,  
] 

# Configurar el problema
probSaber = cvx.Problem(obj, restricciones)

# Resolver el ejercicio
probSaber.solve()

# Mostrar el estado de la solución y el valor óptimo de la función objetivo
print("Estado de la solución:", probSaber.status,"\n")

## Paso 5: Imprimir las respuestas

In [None]:
# Crear listas para facilitar la impresión de las respuestas
ciudades = ["Cali", "Bogotá", "Bucaramanga", "Medellín"]
inst = [cal, bog, buc, med]

# Copiar los valores óptimos de las variables de decisión en un arreglo de NumPy
newX = np.round(x.value)


# Obtener el valor óptimo
print("La cantidad de estudiantes beneficiados será:", "%.0f"% probSaber.value)
print("La cantidad de instituciones beneficiadas será:", "%.0f"% sum(newX), "\n")

# Imprimir las instituciones beneficiadas por ciudad
for i in range(4):
    print("La cantidad de estudiantes beneficiados en", ciudades[i],
          "será:", "%.0f"% sum(c*inst[i]*newX))
    print("la cantidad de instituciones beneficiadas en", ciudades[i],
          "será:", "%.0f"% sum(inst[i]*newX), "\n")

# Modificar el índice del objeto de pandas 'datosSaber11_v4' para que coincida
# con el índice del objeto de NumPy 'newX'
datosSaber11_v4.index = range(len(c))

# Imprimir los colegios, su ubicación y el número de estudiantes 
# beneficiado por institución
for i in range (len(c)):
    if newX[i]==1:
        print (datosSaber11_v4.at[i, 'NOMBREINSTITUCION'], "de ",
               datosSaber11_v4.at[i, 'NOMBREMUNICIPIO'], "con",
               datosSaber11_v4.at[i, 'EVALUADOS'] ,"estudiantes")

# Ejercicios

## Costa caribe

Resuelva el mismo ejercicio planteado en el taller considerando como población objetivo los estudiantes de Guajira, Magdalena, Cesar, Atlántico, Bolívar, Sucre y Córdoba. Suponga una inversión de tres mil millones.

## Estímulo a los mejores

Resuelva el mismo ejercicio planteado en el taller considerando como población objetivo los colegios públicos con jornada de la mañana, de las ciudades de Cali, Bogotá, Bucaramanga y Medellín cuyo resultado en la prueba de Lectura Crítica es superior al promedio nacional.