<p align="left">
  <img src="https://www.grupolarabida.org/wp-content/uploads/2020/11/Copia-de-Imagotipo-PUCP-alta_resolucion-1-1024x493.png" alt="PUCP Logo" width="300"/>
</p>

# Tarea: Introdución a la Optimización - Analítica Social e Inteligencia Estratégica

**Estudiante:** Nicolás Silva Andujar  
**Código:** 20200832  
**Carrera:** Ciencia Política y Gobierno  

En esta tarea, aplicamos métodos de **Optimización, Análisis de Jerarquía Analítica (AHP) y Benchmarking** para la toma de decisiones estratégicas en situaciones complejas.

**LinkedIn:** [Nicolás Silva Andujar](https://www.linkedin.com/in/nicolas-silva0522a/)

---



# Parte 1: *Optimización*

### **Ejercicio 1: Problema de dieta**

In [1]:
%%html
<iframe src="https://docs.google.com/presentation/d/e/2PACX-1vTSq9X74urGAB_5n_MIJ9ZGIboKSvBdokVTBXVLh_qqZnmLRTJioOF431Rzys3Qi9UaFwWXjeq6Wmd5/embed?start=false&loop=false&delayms=3000" frameborder="0" width="960" height="569" allowfullscreen="true" mozallowfullscreen="true" webkitallowfullscreen="true"></iframe>

**Iniciamos el modelo**

In [2]:
import pulp as pp

In [3]:
model2 = pp.LpProblem(name='diet-problem', 
                     sense=pp.LpMinimize) 

**Declaramos variables**

In [4]:
# VegaVita
Vega = pp.LpVariable(name="VegaVita",  
                    lowBound=0,  
                    cat='Integer') 

# HappyHealth
Happy = pp.LpVariable(name="HappyHealth",
                 lowBound=0,
                 cat='Integer')

**Creamos función para OPTIMIZAR**

In [5]:
VegaCoeff=0.2
HappyCoeff=0.3
obj_func_ = VegaCoeff*Vega + HappyCoeff*Happy

**Constrains**

In [6]:
# SUBJECT TO:
C1= pp.LpConstraint(name='VitaminC Constraint',   
                    e= 20*Vega + 30*Happy, rhs=60, 
                    sense=pp.LpConstraintGE) 
C2= pp.LpConstraint(name='Calcium Constraint',
                    e= 500*Vega + 250*Happy, rhs=1000,
                    sense=pp.LpConstraintGE) 
C3= pp.LpConstraint(name='Iron Constraint',
                    e= 9*Vega + 2*Happy, rhs=18,
                    sense=pp.LpConstraintGE, )
C4= pp.LpConstraint(name='Niacin Constraint',
                    e= 2*Vega + 10*Happy, rhs=20,
                    sense=pp.LpConstraintGE, )
C5= pp.LpConstraint(name='Magnesium Constraint',
                    e= 60*Vega + 90*Happy, rhs=360,
                    sense=pp.LpConstraintGE, )

**Construimos el modelo**

In [7]:
model2 += obj_func_
model2 += C1
model2 += C2
model2 += C3
model2 += C4
model2 += C5

**Resolvemos el modelo**

In [8]:
solver_list = pp.listSolvers()
print(solver_list)

['GLPK_CMD', 'PYGLPK', 'CPLEX_CMD', 'CPLEX_PY', 'GUROBI', 'GUROBI_CMD', 'MOSEK', 'XPRESS', 'XPRESS', 'XPRESS_PY', 'PULP_CBC_CMD', 'COIN_CMD', 'COINMP_DLL', 'CHOCO_CMD', 'MIPCL_CMD', 'SCIP_CMD', 'FSCIP_CMD', 'SCIP_PY', 'HiGHS', 'HiGHS_CMD', 'COPT', 'COPT_DLL', 'COPT_CMD']


In [9]:
model2.solve();

In [10]:
import pandas as pd

Results={"Model Status":pp.LpStatus[model2.status]}
Results.update({"Optimal Solution":pp.value(model2.objective)})
Results.update({v.name: v.varValue for v in model2.variables()})
Results

{'Model Status': 'Optimal',
 'Optimal Solution': 1.2000000000000002,
 'HappyHealth': 2.0,
 'VegaVita': 3.0}

In [11]:
pd.DataFrame.from_dict(Results,orient='index').T.set_index('Model Status').style.format('{:,}')

Unnamed: 0_level_0,Optimal Solution,HappyHealth,VegaVita
Model Status,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Optimal,1.2000000000000002,2.0,3.0


### **Ejercicio 2: Problemas de horario**

In [12]:
%%html
<iframe src="https://docs.google.com/presentation/d/e/2PACX-1vQtBRpIr6Hx1_T0zJ3_DRqsE82YUjx7ZkeEKLdA64fbjtjkmc6Ibf6ebzp6CY69D482IGpG2h9GcsC5/embed?start=false&loop=false&delayms=3000" frameborder="0" width="960" height="569" allowfullscreen="true" mozallowfullscreen="true" webkitallowfullscreen="true"></iframe>

**Iniciamos el modelo**

In [13]:
model3 = pp.LpProblem(name="scheduling-problem", sense=pp.LpMinimize)


**Establecemos las variables**

In [14]:
DR_0_8 = pp.LpVariable(name="DR_0_8", lowBound=0, cat='Integer')
DR_4_12 = pp.LpVariable(name="DR_4_12", lowBound=0, cat='Integer')
DR_8_16 = pp.LpVariable(name="DR_8_16", lowBound=0, cat='Integer')
DR_12_20 = pp.LpVariable(name="DR_12_20", lowBound=0, cat='Integer')
DR_16_0 = pp.LpVariable(name="DR_16_0", lowBound=0, cat='Integer')
DR_20_4 = pp.LpVariable(name="DR_20_4", lowBound=0, cat='Integer')

**Creamos la función para optimizar**

In [15]:
obj_func2 = DR_0_8 + DR_4_12 + DR_8_16 + DR_12_20 + DR_16_0 + DR_20_4


**Contrains**

In [16]:
L1 = pp.LpConstraint(e=DR_0_8 + DR_20_4, sense=pp.LpConstraintGE, rhs=4, name="Demand Midnight to 4 am")
L2 = pp.LpConstraint(e=DR_0_8 + DR_4_12, sense=pp.LpConstraintGE, rhs=8, name="Demand 4 am to 8 am")
L3 = pp.LpConstraint(e=DR_4_12 + DR_8_16, sense=pp.LpConstraintGE, rhs=10, name="Demand 8 am to 12 pm")
L4 = pp.LpConstraint(e=DR_8_16 + DR_12_20, sense=pp.LpConstraintGE, rhs=7, name="Demand 12 pm to 4 pm")
L5 = pp.LpConstraint(e=DR_12_20 + DR_16_0, sense=pp.LpConstraintGE, rhs=12, name="Demand 4 pm to 8 pm")
L6 = pp.LpConstraint(e=DR_16_0 + DR_20_4, sense=pp.LpConstraintGE, rhs=4, name="Demand 8 pm to midnight")

In [17]:
model3 += obj_func2
model3 += L1
model3 += L2
model3 += L3
model3 += L4
model3 += L5
model3 += L6

**Resolvemos el modelo**

In [18]:
model3.solve();


In [19]:
results={"Model Status":pp.LpStatus[model3.status]}
results.update({"Optimal Solution":pp.value(model3.objective)})
results.update({v.name: v.varValue for v in model3.variables()})
results

{'Model Status': 'Optimal',
 'Optimal Solution': 26.0,
 'DR_0_8': 0.0,
 'DR_12_20': 12.0,
 'DR_16_0': 0.0,
 'DR_20_4': 4.0,
 'DR_4_12': 10.0,
 'DR_8_16': 0.0}

In [20]:
pd.DataFrame.from_dict(results,orient='index').T.set_index('Model Status').style.format('{:,}')

Unnamed: 0_level_0,Optimal Solution,DR_0_8,DR_12_20,DR_16_0,DR_20_4,DR_4_12,DR_8_16
Model Status,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
Optimal,26.0,0.0,12.0,0.0,4.0,10.0,0.0


# Parte 2: *Multicriteria Decision-Making*

<div class="alert-success">

<strong>Ejercicio: Elegir un país para un programa de maestría</strong>

- Si tienes los criterios: costo de vida, dificultad del idioma, posibilidades de conseguir un trabajo en ese país después de finalizar los estudios.
- Si tienes las alternativas: Brasil, Canadá, EE.UU., Alemania.
- Crea un modelo AHP y obtén el ranking.


### Matriz de Comparación para Costo de Vida

| Comparación          | País 1  | Puntaje | País 2      | Puntaje | Justificación                                                                                                                               |
|----------------------|---------|---------|-------------|---------|---------------------------------------------------------------------------------------------------------------------------------------------|
| **Brasil vs. Canadá**      | Brasil  | 1       | Canadá      | 7       | Según el índice de precios, Brasil es significativamente más asequible que Canadá, especialmente en vivienda y servicios, justificando un valor alto de **7** a favor de Brasil. |
| **Brasil vs. Reino Unido** | Brasil  | 1       | Reino Unido | 9       | El costo de vida en el Reino Unido es considerablemente mayor que en Brasil, especialmente en ciudades grandes como Londres. Brasil, con su bajo costo de vida, obtiene un **9**. |
| **Brasil vs. EE.UU.**      | Brasil  | 1       | EE.UU.      | 9       | EE.UU. tiene un índice de precios más alto en promedio en comparación con Brasil, especialmente en vivienda y servicios. Esto justifica un valor de **9** para Brasil como una opción mucho más asequible. |
| **Canadá vs. Reino Unido** | Canadá  | 1       | Reino Unido | 3       | Aunque ambos tienen un costo de vida alto, Reino Unido es moderadamente más caro, especialmente en grandes ciudades, justificando una preferencia de **3** hacia Canadá. |
| **Canadá vs. EE.UU.**      | Canadá  | 1       | EE.UU.      | 3       | EE.UU. es moderadamente más caro que Canadá, especialmente en servicios y vivienda. Esto justifica un valor de **3** a favor de Canadá en términos de accesibilidad. |
| **Reino Unido vs. EE.UU.** | Reino Unido | 1    | EE.UU. | 2 | Reino Unido y EE.UU. tienen costos de vida similares, aunque ligeramente mayores en Reino Unido en ciertas áreas, justificando una leve preferencia hacia EE.UU. con un valor de **2**. |


### Matriz de Comparación para Dificultad del Lenguaje

| Comparación          | País 1  | Puntaje | País 2      | Puntaje | Justificación                                                                                                                                                             |
|----------------------|---------|---------|-------------|---------|---------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
| **Brasil vs. Canadá**      | Brasil  | 1       | Canadá      | 3       | Aunque el portugués es un idioma nuevo para hispanohablantes, su similitud con el español facilita el aprendizaje. Sin embargo, el inglés, que se habla en Canadá, es un idioma global y más accesible para estudios internacionales, justificando una preferencia moderada de **3** hacia Canadá. |
| **Brasil vs. Reino Unido** | Brasil  | 1       | Reino Unido | 5       | El inglés británico, como idioma principal en el Reino Unido, es ampliamente reconocido y facilita el acceso a materiales y redes internacionales. Aunque el portugués es cercano al español, el inglés ofrece mayores ventajas para la academia y los negocios, justificando una preferencia significativa de **5** hacia el Reino Unido. |
| **Brasil vs. EE.UU.**      | Brasil  | 1       | EE.UU.      | 6       | El inglés estadounidense es ampliamente utilizado en educación, tecnología y negocios internacionales, y es el estándar en muchas industrias globales. Esto justifica una preferencia alta de **6** hacia EE.UU., donde el inglés es el idioma principal. |
| **Canadá vs. Reino Unido** | Canadá  | 1       | Reino Unido | 3       | Aunque ambos países tienen el inglés como idioma principal, el Reino Unido utiliza variantes lingüísticas y culturales distintas. Aun así, ambas opciones son accesibles para angloparlantes, justificando una preferencia moderada de **3** hacia el Reino Unido. |
| **Canadá vs. EE.UU.**      | Canadá  | 1       | EE.UU.      | 5       | Aunque Canadá y EE.UU. comparten el inglés como idioma principal, el inglés estadounidense es el estándar en muchos sectores y ofrece mayor familiaridad en ámbitos internacionales, justificando una preferencia alta de **5** hacia EE.UU. |
| **Reino Unido vs. EE.UU.** | Reino Unido | 1    | EE.UU. | 3 | Ambos países son angloparlantes, pero el inglés estadounidense es más común en entornos académicos y profesionales globales. Esto justifica una preferencia moderada de **3** hacia EE.UU. |


### Matriz de Comparación para Oportunidades de Empleo Post-Maestría

| Comparación               | País 1  | Puntaje | País 2      | Puntaje | Justificación                                                                                                                                                                                                                                                                                                 |
|---------------------------|---------|---------|-------------|---------|-------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
| **Brasil vs. Canadá**     | Brasil  | 1       | Canadá      | 4       | Canadá ofrece el Post-Graduation Work Permit (PGWP), permitiendo a los graduados internacionales trabajar hasta tres años y facilitando el acceso a la residencia permanente. Aunque Brasil ofrece oportunidades en sectores como ingeniería y salud, su mercado laboral es más limitado para expatriados y requiere permisos adicionales. |
| **Brasil vs. Reino Unido** | Brasil  | 1       | Reino Unido | 3       | El Reino Unido permite a los graduados trabajar hasta dos años con la Graduate Route, mientras que Brasil requiere permisos de trabajo específicos y tiene menos opciones estructuradas para graduados internacionales. Aunque Brasil ofrece oportunidades en ingeniería y gestión, el Reino Unido proporciona mayor estabilidad laboral. |
| **Brasil vs. EE.UU.**     | Brasil  | 1       | EE.UU.      | 4       | EE.UU. ofrece el OPT de hasta un año (y una extensión de 24 meses para graduados en STEM), lo que brinda a los estudiantes internacionales una ventaja en campos como tecnología, ciencia de datos y gestión. Además, el salario promedio en EE.UU. ($74,990) es significativamente mayor que en Brasil ($21,000). |
| **Canadá vs. Reino Unido** | Canadá  | 4       | Reino Unido | 1       | Canadá tiene una ventaja con el PGWP, que permite hasta tres años de empleo y facilita la residencia permanente, mientras que el Reino Unido limita el empleo a dos años bajo la Graduate Route. La diferencia en la duración y las opciones de residencia favorece a Canadá. |
| **Canadá vs. EE.UU.**     | Canadá  | 5       | EE.UU.      | 1       | Aunque ambos países ofrecen amplias oportunidades para los graduados, EE.UU. tiene un mercado laboral más robusto, especialmente en tecnología y STEM. La extensión del OPT para graduados en STEM y el salario promedio más alto justifican una preferencia fuerte hacia EE.UU. |
| **Reino Unido vs. EE.UU.** | Reino Unido | 1       | EE.UU. | 6       | Aunque el Reino Unido ofrece dos años de empleo post-maestría con la Graduate Route, EE.UU. tiene una ventaja clara en empleabilidad, especialmente para graduados en STEM con la extensión de OPT, así como mayores salarios promedio y oportunidades en sectores tecnológicos. |


1. Descargamos la data

In [23]:
# the link to the data

linkGoogle='https://docs.google.com/spreadsheets/d/e/2PACX-1vRUt165g9_9geYIsZvC75FLg3G6a5rwpz8U4SrCyS0Nk_AOVNdRrC6V9gKk6oy0IQ/pub?output=xlsx'# the link to the data

2. Abrimos cada página

In [24]:

pairwise_living=pd.read_excel(linkGoogle,sheet_name='cost_living', index_col=0)
pairwise_language=pd.read_excel(linkGoogle,sheet_name='language', index_col=0)
pairwise_job=pd.read_excel(linkGoogle,sheet_name='job_finding', index_col=0)
pairwise_criteria=pd.read_excel(linkGoogle,sheet_name='criteria', index_col=0)

3. Convertimos las matrices en comparaciones (Pairwise)

In [25]:
import networkx as nx

G_living = nx.from_pandas_adjacency(pairwise_living,create_using=nx.MultiDiGraph())
living_comparisons ={(e[0],e[1]):e[2]['weight'] for e in G_living.edges(data=True) if e[0]!= e[1]}

G_language = nx.from_pandas_adjacency(pairwise_language,create_using=nx.MultiDiGraph())
language_comparisons={(e[0],e[1]):e[2]['weight'] for e in G_language.edges(data=True) if e[0]!= e[1]}

G_job = nx.from_pandas_adjacency(pairwise_job,create_using=nx.MultiDiGraph())
job_comparisons={(e[0],e[1]):e[2]['weight'] for e in G_job.edges(data=True) if e[0]!= e[1]}


In [26]:
#para criteria
G_CRIT = nx.from_pandas_adjacency(pairwise_criteria,create_using=nx.MultiDiGraph())
criteria_comparisons ={(e[0],e[1]):e[2]['weight'] for e in G_CRIT.edges(data=True) if e[0]!= e[1]}
criteria_comparisons

{('cost_living', 'language'): 8.0,
 ('cost_living', 'job_finding'): 6.0,
 ('language', 'cost_living'): 0.125,
 ('language', 'job_finding'): 0.111111111,
 ('job_finding', 'cost_living'): 5.0,
 ('job_finding', 'language'): 9.0}

4. Aplicamos el algoritmo

In [None]:
#!pip install ahpy
import ahpy

living = ahpy.Compare('living', living_comparisons, precision=3, random_index='saaty')
language = ahpy.Compare('language', language_comparisons, precision=3, random_index='saaty')
job = ahpy.Compare('job', job_comparisons, precision=3, random_index='saaty')
criteria = ahpy.Compare('criteria', criteria_comparisons, precision=3, random_index='saaty')


[notice] A new release of pip is available: 24.2 -> 24.3.1
[notice] To update, run: python.exe -m pip install --upgrade pip




5. Creamos la jerarquía

In [29]:
criteria.add_children([living, language, job])

6. Resultados

In [30]:
print(criteria.target_weights)

{'USA': np.float64(0.027), 'UK': np.float64(0.013), 'Canada': np.float64(0.006), 'Brazil': np.float64(0.003)}


7. Evaluamos consistencia

In [73]:
## We should review comparissons if greater than 0.1!
[(val.name,val.consistency_ratio) for val in [living, language, job, criteria]]

[('living', np.float64(0.057)),
 ('language', np.float64(0.056)),
 ('job', np.float64(0.219)),
 ('criteria', np.float64(0.243))]

# Parte 3: *Benchmarking*

<div class="alert-success">

<strong>Ejercicio: Eficiencia en el sector público (2023)</strong>

- Encontrar un conjunto de municipalidades (se requiere homogeneidad).
- Identificar un conjunto de variables comunes de entrada y salida para ellas.
- Calcular la eficiencia.


Para realizar el análisis se han seleccionado **2 inputs** y **3 outputs** para medir la eficiencia en la gestión municipal respecto a los insumos para garantizar la seguridad ciudadana.

Las variables de análisis son las siguientes:

**Inputs**

* Ingresos totales
* Sectores totales a los que se realiza seguimiento para garantizar seguridad

**Outputs**

* Gastos totales
* Porcentaje de victimización
* Infraestructura de seguridad total

De acuerdo con estas varaibles, y la población, se ha estimado un conjunto de distritos similares.

*Añadimos la data correspondiente para construir nuestros outputs* 

En esta ocasión, utilizaremos la información del [Registro Nacional de Municipalidades del 2023](https://www.datosabiertos.gob.pe/dataset/registro-nacional-de-municipalidades-renamu-2023-instituto-nacional-de-estad%C3%ADstica-e). 

In [405]:
import pyreadstat
df, meta = pyreadstat.read_sav("Base-Datos_2023_f.sav")

In [406]:
df = df[['Distrito',"C96", 'P72A_1_1',  'P70A_9_2',"C97"]].copy()
df.rename(columns={"C96": "Ingresos",'P72A_1_1': 'sectores_t',  "C97": "Gastos",'P70A_9_2':"infra"}, inplace=True)
df.reset_index(drop=True, inplace=True)
df.head()

Unnamed: 0,Distrito,Ingresos,sectores_t,infra,Gastos
0,CHACHAPOYAS,24416506.39,5.0,,42362843.29
1,ASUNCION,1084221.64,,,1043962.73
2,BALSAS,1465238.64,,,1705577.22
3,CHETO,1328705.55,,,1531739.79
4,CHILIQUIN,928065.81,,,5341670.14


Añadimos variables faltantes de otras fuentes de información. La **Población** proviene de [REUNIS del MINSA](https://www.minsa.gob.pe/reunis/data/poblacion_estimada.asp).

El porcentaje de victimización proviene del RENAMU.

In [407]:
df2 =pd.read_excel("porcentaje_victimizacion_por_distrito.xlsx")
poblacion =pd.read_excel("poblacion_2023.xlsx")

In [408]:
df_ = df.merge(df2[['Distrito', 'porcentaje_victimizacion']], on='Distrito', how='left')

In [409]:
df_ = df_.merge(poblacion[['Distrito', 'Total']], on='Distrito', how='left')

In [410]:
# Convertimos a numérico
df_['Ingresos'] = pd.to_numeric(df_['Ingresos'], errors='coerce')
df_['sectores_t'] = pd.to_numeric(df_['sectores_t'], errors='coerce')
df_['infra'] = pd.to_numeric(df_['infra'], errors='coerce')
df_['Gastos'] = pd.to_numeric(df_['Gastos'], errors='coerce')
df_['porcentaje_victimizacion'] = pd.to_numeric(df_['porcentaje_victimizacion'], errors='coerce')
df_['Total'] = pd.to_numeric(df_['Total'], errors='coerce')

# Valores de referencia de acuerdo con Chorrillos
referencia = df_[df_['Distrito'] == 'CHORRILLOS'][['Ingresos', 'sectores_t', 'infra', 'Gastos', 'porcentaje_victimizacion', 'Total']].values[0]

df_['diferencia_ingreso'] = abs(df_['Ingresos'] - referencia[0])
df_['diferencia_sectores'] = abs(df_['sectores_t'] - referencia[1])
df_['diferencia_infra'] = abs(df_['infra'] - referencia[2])
df_['diferencia_gastos'] = abs(df_['Gastos'] - referencia[3])
df_['diferencia_victimizacion'] = abs(df_['porcentaje_victimizacion'] - referencia[4])
df_['diferencia_poblacion'] = abs(df_['Total'] - referencia[5])

# Ordenar y obtener los 15 distritos más similares
df_similares = df_.sort_values(by=['diferencia_ingreso', 'diferencia_sectores', 'diferencia_infra', 'diferencia_gastos', 'diferencia_victimizacion', 'diferencia_poblacion']).head(40)
df_similares = df_similares.drop_duplicates(subset='Distrito')

#Numérico
df_similares['Ingresos'] = df_similares['Ingresos'].map('{:,.2f}'.format)
df_similares['Gastos'] = df_similares['Gastos'].map('{:,.2f}'.format)

df_similares.rename(columns={'Total': 'Poblacion'}, inplace=True)

df_similares = df_similares[['Distrito', 'Ingresos', 'sectores_t', 'infra', 'Gastos', 'porcentaje_victimizacion', 'Poblacion']]

print(df_similares)


                  Distrito        Ingresos  sectores_t  infra          Gastos  \
1665            CHORRILLOS  158,955,561.68        4.00  31.00  136,398,031.24   
1969           SAN ANTONIO  158,607,843.92        3.00    NaN   51,522,392.98   
2075               SULLANA  160,136,371.26        6.00   1.00  147,215,512.70   
1696             SAN BORJA  160,212,820.97        8.00  12.00  155,445,678.38   
997              QUELLOUNO  161,616,393.34        4.00   8.00  118,601,102.95   
1691         PUENTE PIEDRA  154,266,520.38       13.00  30.00  125,088,588.16   
452             PAUCARPATA  166,266,149.80        5.00    NaN  141,876,766.53   
1968                TORATA  150,530,385.41       45.00   0.00  113,920,401.53   
2377               LOCUMBA  167,912,507.18        4.00  10.00   95,667,616.36   
1349              HUANCAYO  149,930,722.83        4.00  10.00  119,763,095.16   
440                  CAYMA  149,830,383.08       11.00   2.00   85,561,574.87   
990              SANTA ANA  

In [411]:
df_similares = df_similares.dropna().reset_index(drop=True)
df_similares

Unnamed: 0,Distrito,Ingresos,sectores_t,infra,Gastos,porcentaje_victimizacion,Poblacion
0,CHORRILLOS,158955561.68,4.0,31.0,136398031.24,15.62,373.55
1,SULLANA,160136371.26,6.0,1.0,147215512.7,31.25,195.02
2,TORATA,150530385.41,45.0,0.0,113920401.53,12.5,7.89
3,HUANCAYO,149930722.83,4.0,10.0,119763095.16,12.5,125.65
4,CAYMA,149830383.08,11.0,2.0,85561574.87,15.62,110.22
5,SAN MARTIN DE PORRES,145409912.79,18.0,7.0,156226225.89,20.83,794.84
6,SAN SEBASTIAN,140761077.44,7.0,5.0,83604252.36,25.0,142.03
7,IQUITOS,129733420.6,4.0,12.0,130819688.05,12.5,155.68


In [412]:
#Aseguramos que nuestras variables estén en formato numérico
df_similares['Ingresos'] = df_similares['Ingresos'].str.replace(',', '').astype(float)
df_similares['Gastos'] = df_similares['Gastos'].str.replace(',', '').astype(float)
df_similares['Gastos'] = pd.to_numeric(df_similares['Gastos'], errors='coerce')
df_similares['Ingresos'] = pd.to_numeric(df_similares['Ingresos'], errors='coerce')
df_similares['porcentaje_victimizacion'] = pd.to_numeric(df_similares['porcentaje_victimizacion'], errors='coerce')
df_similares['sectores_t'] = pd.to_numeric(df_similares['sectores_t'], errors='coerce')

In [413]:
df_similares

Unnamed: 0,Distrito,Ingresos,sectores_t,infra,Gastos,porcentaje_victimizacion,Poblacion
0,CHORRILLOS,158955561.68,4.0,31.0,136398031.24,15.62,373.55
1,SULLANA,160136371.26,6.0,1.0,147215512.7,31.25,195.02
2,TORATA,150530385.41,45.0,0.0,113920401.53,12.5,7.89
3,HUANCAYO,149930722.83,4.0,10.0,119763095.16,12.5,125.65
4,CAYMA,149830383.08,11.0,2.0,85561574.87,15.62,110.22
5,SAN MARTIN DE PORRES,145409912.79,18.0,7.0,156226225.89,20.83,794.84
6,SAN SEBASTIAN,140761077.44,7.0,5.0,83604252.36,25.0,142.03
7,IQUITOS,129733420.6,4.0,12.0,130819688.05,12.5,155.68


In [414]:
pd.options.display.float_format = '{:,.2f}'.format


Construimos tasas entre nuestros inputs y outputs

In [415]:
# ratio passenger employee:
df_similares['rate_GastosByIngresos']=(df_similares.Gastos/df_similares.Ingresos)
df_similares['rate_victimizacionBySectores']=(df_similares.porcentaje_victimizacion/df_similares.sectores_t)


In [416]:
df_similares

Unnamed: 0,Distrito,Ingresos,sectores_t,infra,Gastos,porcentaje_victimizacion,Poblacion,rate_GastosByIngresos,rate_victimizacionBySectores
0,CHORRILLOS,158955561.68,4.0,31.0,136398031.24,15.62,373.55,0.86,3.91
1,SULLANA,160136371.26,6.0,1.0,147215512.7,31.25,195.02,0.92,5.21
2,TORATA,150530385.41,45.0,0.0,113920401.53,12.5,7.89,0.76,0.28
3,HUANCAYO,149930722.83,4.0,10.0,119763095.16,12.5,125.65,0.8,3.12
4,CAYMA,149830383.08,11.0,2.0,85561574.87,15.62,110.22,0.57,1.42
5,SAN MARTIN DE PORRES,145409912.79,18.0,7.0,156226225.89,20.83,794.84,1.07,1.16
6,SAN SEBASTIAN,140761077.44,7.0,5.0,83604252.36,25.0,142.03,0.59,3.57
7,IQUITOS,129733420.6,4.0,12.0,130819688.05,12.5,155.68,1.01,3.12


Ploteamos algunas tasas

In [417]:
import altair as alt

points = alt.Chart(df_similares).mark_point().encode(
    x='rate_GastosByIngresos:Q',
    y='rate_victimizacionBySectores:Q'
)

text = points.mark_text(
    align='right',
    baseline='middle',
    dx=-7
).encode(
    text='Distrito'
).interactive()

points + text

¿Cuál es más eficiente? 

In [420]:
df_similares[['Distrito','rate_GastosByIngresos','rate_victimizacionBySectores']].sort_values(by='rate_GastosByIngresos',ascending=False).head()

Unnamed: 0,Distrito,rate_GastosByIngresos,rate_victimizacionBySectores
5,SAN MARTIN DE PORRES,1.07,1.16
7,IQUITOS,1.01,3.12
1,SULLANA,0.92,5.21
0,CHORRILLOS,0.86,3.91
3,HUANCAYO,0.8,3.12


In [421]:
df_similares[['Distrito','rate_GastosByIngresos','rate_victimizacionBySectores']].sort_values(by='rate_victimizacionBySectores',ascending=False).head()

Unnamed: 0,Distrito,rate_GastosByIngresos,rate_victimizacionBySectores
1,SULLANA,0.92,5.21
0,CHORRILLOS,0.86,3.91
6,SAN SEBASTIAN,0.59,3.57
3,HUANCAYO,0.8,3.12
7,IQUITOS,1.01,3.12


**Envelope**

Como el envelope esta diseñado para utilizarse con dos columnas (X,y) vamos a descartar la variable de casestas por el presupuesto girado, ya que es muy reducida. En este caso, contar con cámaras parecería explicar más respecto al uso de este presupuesto.

In [423]:
Best_GastosByIngresos=df_similares.rate_GastosByIngresos.idxmax()
Best_victimizacion=df_similares.rate_victimizacionBySectores.idxmax()

frontier1=df_similares.loc[Best_GastosByIngresos,['rate_GastosByIngresos','rate_victimizacionBySectores']].to_list()
frontier2=df_similares.loc[Best_victimizacion,['rate_GastosByIngresos','rate_victimizacionBySectores']].to_list()

#parallels
frontier1v=[frontier1[0],0]
frontier2h=[0,frontier2[1]]

#then
envelope=pd.DataFrame([frontier2h,frontier2,frontier1,frontier1v],columns=['x','y'])
envelope

Unnamed: 0,x,y
0,0.0,5.21
1,0.92,5.21
2,1.07,1.16
3,1.07,0.0


Actualizamos el plot

In [424]:
points + text + alt.Chart(envelope).mark_line(color='red').encode(
    x='x',
    y='y',
)

Eficiencia:

In [None]:
## installation
#!pip install Pyfrontier

Collecting Pyfrontier
  Downloading Pyfrontier-1.0.2-py3-none-any.whl.metadata (2.7 kB)
Downloading Pyfrontier-1.0.2-py3-none-any.whl (15 kB)
Installing collected packages: Pyfrontier
Successfully installed Pyfrontier-1.0.2



[notice] A new release of pip is available: 24.2 -> 24.3.1
[notice] To update, run: python.exe -m pip install --upgrade pip


In [425]:
df_similares.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 8 entries, 0 to 7
Data columns (total 9 columns):
 #   Column                        Non-Null Count  Dtype  
---  ------                        --------------  -----  
 0   Distrito                      8 non-null      object 
 1   Ingresos                      8 non-null      float64
 2   sectores_t                    8 non-null      float64
 3   infra                         8 non-null      float64
 4   Gastos                        8 non-null      float64
 5   porcentaje_victimizacion      8 non-null      float64
 6   Poblacion                     8 non-null      float64
 7   rate_GastosByIngresos         8 non-null      float64
 8   rate_victimizacionBySectores  8 non-null      float64
dtypes: float64(8), object(1)
memory usage: 708.0+ bytes


Let's apply the function:

In [438]:
#definimos inputs y outputs
dfInput = df_similares[["Ingresos","sectores_t"]].columns.to_list()
dfOutput = df_similares[["Gastos","porcentaje_victimizacion","infra"]].columns.to_list()


In [439]:
from Pyfrontier.frontier_model import EnvelopDEA

dea_gest_vrs_in = EnvelopDEA("VRS", "in")
dea_gest_vrs_in.fit(
    inputs=df_similares[dfInput].to_numpy(),
    outputs=df_similares[dfOutput].to_numpy()
)

Here is the result:

In [440]:
df_similares['vrs_in']=[r.score for r in dea_gest_vrs_in.result]
df_similares.set_index(df_similares.Distrito,inplace=True)
df_similares['vrs_in']

Distrito
CHORRILLOS             1.00
SULLANA                1.00
TORATA                 0.86
HUANCAYO               1.00
CAYMA                  0.88
SAN MARTIN DE PORRES   1.00
SAN SEBASTIAN          1.00
IQUITOS                1.00
Name: vrs_in, dtype: float64

Hagamos uan regresión para probar

In [None]:
#!pip install py4etrics


Collecting py4etrics
  Downloading py4etrics-0.1.9-py2.py3-none-any.whl.metadata (1.8 kB)
Downloading py4etrics-0.1.9-py2.py3-none-any.whl (19 kB)
Installing collected packages: py4etrics
Successfully installed py4etrics-0.1.9



[notice] A new release of pip is available: 24.2 -> 24.3.1
[notice] To update, run: python.exe -m pip install --upgrade pip


In [None]:
import numpy as np  # 
from py4etrics import tobit
import statsmodels.api as sm

df_similares['censored'] = np.where(df_similares['vrs_in'] == 1, 1, 0)
cens = df_similares['censored']
endog = df_similares['vrs_in']
exog = df_similares[["Ingresos", "sectores_t", "Gastos", "porcentaje_victimizacion", "infra"]]
exog = sm.add_constant(exog)  
tobit_res = tobit.Tobit(endog, exog, cens, right=1).fit()

print(tobit_res.summary())

                              Tobit Regression Results                             
Dep. Variable:                      vrs_in   Pseudo R-squ:                   32.162
Method:                 Maximum Likelihood   Log-Likelihood:                   63.4
No. Observations:                        8   LL-Null:                          -2.0
No. Uncensored Obs:                      2   LL-Ratio:                        130.9
No. Left-censored Obs:                   0   LLR p-value:                     0.000
No. Right-censored Obs:                  6   AIC:                            -114.8
Df Residuals:                            2   BIC:                            -114.3
Df Model:                                5   Covariance Type:             nonrobust
                               coef    std err          z      P>|z|      [0.025      0.975]
--------------------------------------------------------------------------------------------
const                       11.1779        nan        nan 

  retvals = optimize.fmin(f, start_params, args=fargs, xtol=xtol,
