# Ajuste de base electoral

El fin de nuestro análisis es identificar las variables que explican o afectan la elección política en el Ecuador. <br>
Empezamos obteniendo datos de las personas y los hogares del Ecuador para el año 2020, y ahora vamos a obtener datos de la elección política. <br>
En apariencia, no es posible conocer al tipo de votante según su elección: es decir, si dado que voto por un cadidato, digamos Lasso, cuál es su estado social, económico y demográfico. Porque al ser el voto anónimo no hay forma de saber estos detalles. Y en realidad no podemos, pero sí es posible aproximarnos un poco. Y un poco es mejor que nada siempre cuando se trata de análisis estadístico, eso sí: si y solo sí ese poco es fiable, reproducible y verificable. <br>
Vamos a descrubir más adelante un método para determinar esas variables, a continuación vamos a determinar la elección general del votante por terriotorio. 

# Datos
Vamos a utilizar los datos del Consejo Nacional Electoral disponibles en: http://cne.gob.ec/es/estadisticas/bases-de-datos/category/1951-elecciones-generales-2021

In [51]:
# Cargamos las librerías

import pandas as pd
import numpy as np
import pyreadstat as pyd

In [52]:
# Cargamos los datos

df_elec2021, meta = pyd.read_sav('Data/Elecciones_General_2021/primera_vuelta.zsav', apply_value_formats=True)

**Nota**: No se leen los datos con pandas porque pyreadstat permite leer codificaciones de la base.

In [53]:
# Primero debemos transformar los códigos a enteros, porque originialmente estos códigos han sido identficados
# como float, y transformarlos directamente en caracteres incluiría puntos.
 
df_elec2021 = df_elec2021.astype({'DIGNIDAD_NOMBRE': str,
                                  'PROVINCIA_CODIGO': int,
                                  'PROVINCIA_NOMBRE': str,
                                  'CIRCUNSCRIPCION_CODIGO': int,
                                  'CIRCUNSCRIPCION_NOMBRE': str,
                                  'CANTON_CODIGO': int,
                                  'CANTON_NOMBRE': str, 
                                  'PARROQUIA_CODIGO': int,
                                  'PARROQUIA_NOMBRE': str,
                                  'JUNTA_SEXO': str,
                                  'CANDIDATO_CODIGO_RESULTADOS': int, 
                                  'OP_CODIGO': int, 
                                  'SUFRAGANTES': float, 
                                  'BLANCOS': float,
                                  'NULOS': float, 
                                  'VOTOS': float})


In [54]:
df_elec2021 = df_elec2021.astype({'PROVINCIA_CODIGO': str,
                                  'CIRCUNSCRIPCION_CODIGO': str,
                                  'CANTON_CODIGO': str,
                                  'PARROQUIA_CODIGO': str,
                                  'CANDIDATO_CODIGO_RESULTADOS': str,
                                  'OP_CODIGO': str})

In [55]:
# Mostramos los datos ordenaods por el código de parroquia

df_elec2021.sort_values(by=['PARROQUIA_CODIGO'])

# OP_CODIGO es el código de la organización política, ya que no hay una descripción en los metadatos. 

Unnamed: 0,DIGNIDAD_NOMBRE,PROVINCIA_CODIGO,PROVINCIA_NOMBRE,CIRCUNSCRIPCION_CODIGO,CIRCUNSCRIPCION_NOMBRE,CANTON_CODIGO,CANTON_NOMBRE,PARROQUIA_CODIGO,PARROQUIA_NOMBRE,JUNTA_SEXO,CANDIDATO_CODIGO_RESULTADOS,OP_CODIGO,SUFRAGANTES,BLANCOS,NULOS,VOTOS
66890,ASAMBLEÍSTAS PROVINCIALES Y DEL EXTERIOR,13,MANABI,2,CIRCUNSCRIPCIÓN 2 - SUR,440,PORTOVIEJO,10,ABDON CALDERON,F,71320018,18,5357.0000,775.0000,885.0000,188.0000
67011,ASAMBLEÍSTAS PROVINCIALES Y DEL EXTERIOR,13,MANABI,2,CIRCUNSCRIPCIÓN 2 - SUR,440,PORTOVIEJO,10,ABDON CALDERON,M,71320020,20,5645.0000,1153.0000,749.0000,16.0000
122292,ASAMBLEÍSTAS NACIONALES,13,MANABI,2,CIRCUNSCRIPCIÓN 2 - SUR,440,PORTOVIEJO,10,ABDON CALDERON,F,90000002,2,5359.0000,768.0000,970.0000,110.0000
122293,ASAMBLEÍSTAS NACIONALES,13,MANABI,2,CIRCUNSCRIPCIÓN 2 - SUR,440,PORTOVIEJO,10,ABDON CALDERON,M,90000002,2,5657.0000,1141.0000,749.0000,90.0000
19724,PRESIDENTA/E Y VICEPRESIDENTA/E,13,MANABI,2,CIRCUNSCRIPCIÓN 2 - SUR,440,PORTOVIEJO,10,ABDON CALDERON,F,10000048,48,5406.0000,281.0000,760.0000,8.0000
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
35043,PRESIDENTA/E Y VICEPRESIDENTA/E,11,LOJA,0,-,310,PALTAS,995,CASANGA,M,10001021,1021,355.0000,14.0000,39.0000,43.0000
35042,PRESIDENTA/E Y VICEPRESIDENTA/E,11,LOJA,0,-,310,PALTAS,995,CASANGA,F,10001021,1021,370.0000,22.0000,24.0000,34.0000
63545,ASAMBLEÍSTAS PROVINCIALES Y DEL EXTERIOR,11,LOJA,0,-,310,PALTAS,995,CASANGA,M,71101051,1051,356.0000,39.0000,53.0000,25.0000
9042,PRESIDENTA/E Y VICEPRESIDENTA/E,11,LOJA,0,-,310,PALTAS,995,CASANGA,F,10000018,18,370.0000,22.0000,24.0000,2.0000


## Organizaciones políticas de asambleístas provinciales
Como este estudio intenta recopilar información que pueda ser usada en las elecciones secciones del 2023, vamos a utilizar información de las elecciones generales filtrada para la elección de asambleístas provinciales. Hay una razón principal para la selección de esta dignidad como filtro de análisis: Tiene más sentido suponer que el comportamiento electoral concerniente al territorio está mejor explicado por la elección de una asambleísta  su provincia que de otras dignidades. Por ejemplo, un votante podría votar por un partido que ha tenido más influencia local como el PSC, por citar un ejemplo, y para candidato presidencial por Andrés Arauz de influencia nacional. Resumiendo: las necesidades locales distan de las agendas nacionales en cuanto a tratamientos. Todos podemos oír que hay que mejorar el empleo, pero cada ciudad deberá fomrular políticas públicas específicas como la construcción de ciertas arquitecturas para ese fin, y eso es competencia de la autoridad local, no de la nacional, como es el caso del presidente. Así que es la mejor forma de evaluar el voto territorial y aproximar esta elección a las elecciones seccionales del 2023.

In [56]:
# Nos contextualizamos obteniendo las codificaciones para las organizaciones políticas.

op = pd.read_spss('Data/Elecciones_General_2021/organizaciones polticas.sav', convert_categoricals=True)
op = op[['OP_CODIGO', 'OP_SIGLAS', 'OP_NOMBRE']]
op['OP_CODIGO'] = op['OP_CODIGO'].astype(int).astype(str)
op

Unnamed: 0,OP_CODIGO,OP_SIGLAS,OP_NOMBRE
0,2,MUPP,MOVIMIENTO DE UNIDAD PLURINACIONAL PACHAKUTIK
1,3,MPAIS,"MOVIMIENTO ALIANZA PAIS, PATRIA ALTIVA I SOBE..."
2,8,MC,MOVIMIENTO CONCERTACION
3,9,PSC,PARTIDO SOCIAL CRISTIANO
4,11,PSP,"PARTIDO SOCIEDAD PATRIOTICA ""21 DE ENERO"""
...,...,...,...
130,54,MRP,MOVIMIENTO POLÍTICA RENACER PENINSULAR
131,74,MPPP,MOVIMIENTO PROVINCIAL PENINSULAR POSITIVA
132,86,MPU,MOVIMIENTO PROVINCIAL ÚNETE
133,1034,MPU/MRP/PSC,ALIANZA ÚNETE


Notemos que hay el mismo número de juntas por sexo en cada parroquia en *df_elec2021*:

In [58]:
df_elec2021.groupby(['PARROQUIA_CODIGO', 'JUNTA_SEXO']).size().reset_index(name='Número de personas por junta')

Unnamed: 0,PARROQUIA_CODIGO,JUNTA_SEXO,Número de personas por junta
0,10,F,68
1,10,M,68
2,100,F,65
3,100,M,65
4,1000,F,65
...,...,...,...
2593,985,M,56
2594,990,F,63
2595,990,M,63
2596,995,F,65


# Aspectos metodológicos
Hay que tener en cuenta que la distribución demográfica del voto para ganar exhaustividad. La mayor desagregación que se puede obtener de los datos es el tipo de voto por parroquia y género (codificado como SEXO) en *df_elec2021*.

### Detalle de tipos de votantes
1. Los **electores** (E) son las personas habilitadas para votar.
2. Los **sufragantes** (S) son las personas que efectivamente asistieron a votar, y por defecto los *ausentes* (A) son lo que no asistieron a ejercer su derecho al voto. De modo tal que: El número de electores = Número de sufragantes + Número de ausentes. Para simplificar, vamos usar una función *n* que cuente el número de votantes de un tipo según nivel de desagregación especificado (como el nivel máximo antes mencionad). Así, n(A) es el número de votantes ausentes, por ejemplo. 
3. Los **votos válidos** (V) son los votos que se asignaron a uno de los candidatos o mavimientos o dignidades, es decir, los que se hicieron efectivos para una propuesta política.
4. Los **nulos** (N) son aquellos que decidieron rechazar las propuestas políticas y no optar por niguna. En un sentido literal de rayón de papeleta, no subrayaron con una sola línea clara alguna opción política.
5. Los **blancos** (B) son aquellos que no mostraron ni rechazo ni eligieron alguna propuesta política. En un sentido literal de rayón de papeleta, no hubo ningún tachón o raya, la papeleta quedó en blanco. <br>
Resumiendo: <br>
$ n(E) = n(S) + n(A) = n(V) + n(N) + n(B) + n(A) = \sum_{i=1}^{n} Ci + n(N) + n(B) + n(A) $; donde n(X = E, A, S, V, N o B) es el conteo de votos según el tipo de votante codificado como letra, y C indexado en i indica algún candidato. <br>
Es útil notrar que la función *n* cumple la propiedad distributiva, ya que n(E) = n(S) + n(A) y eso implica que n(S + A), por tanto, es n(S) + n(A), por ejemplo.



# Tratamiento de los datos para empate con muestra del ENEMDU

Vamos a tener que estudiar los datos a nivel de parroquia, porque es el nivel de desagregación coindidente con la muestra desagregación del ENEMDU 2020. <br>
Para empezar vamos a calcular el número de ausentes ausentes, variable que falta en *df_elec2021*, pero se puede obtener por la diferencia del número de electores y sufragantes. El número de electores por parroquia se puede obtener del  archivo *Regristo electoral a nivel parroquial.sav* proporcionado por el CNE.

Hay un **asunto importante** a tener en mente: las elecciones del 2021 fueron generales, por lo que el número de sufragantes en la base está replicado 4 (número de dignidades) *x* 2 juntas de sexo (esto se puede observar abajo) en la base. Esto sifnifica que si sumamos los V + B + N no obtendremos un número de sufrgantes lógico. Por eso, se realiza un ajuste en **In [10]**. <br>
Sin embargo, el número de sufragantes no varía según la dignidad, debido a que la misma persona se registra en mesa como asistente a la votación. Los votos válidos, nulos y blancos sí pueden variar, porque una misma persona que fue a votar (y se registra como sufragante por ende) puede haber elegido diferentes alternativas. Esto es, puede haber votado por el candidato de una organización política para presidente, pero por otro candidato para para asambleísta, por ejemplo, y otro candidato para parlamentario andino, etc., o votar en plancha, pero no podemos saberlo del todo, así que hay que recurrir a una revisión para asegurar la fiabilidad de nuestro análisis. 

In [59]:
df_elec2021.loc[( (df_elec2021['DIGNIDAD_NOMBRE'] == 'PRESIDENTA/E Y VICEPRESIDENTA/E') & (df_elec2021['PARROQUIA_NOMBRE'] == 'MINDO') ), ].head()

Unnamed: 0,DIGNIDAD_NOMBRE,PROVINCIA_CODIGO,PROVINCIA_NOMBRE,CIRCUNSCRIPCION_CODIGO,CIRCUNSCRIPCION_NOMBRE,CANTON_CODIGO,CANTON_NOMBRE,PARROQUIA_CODIGO,PARROQUIA_NOMBRE,JUNTA_SEXO,CANDIDATO_CODIGO_RESULTADOS,OP_CODIGO,SUFRAGANTES,BLANCOS,NULOS,VOTOS
2038,PRESIDENTA/E Y VICEPRESIDENTA/E,17,PICHINCHA,4,CIRCUNSCRIPCIÓN RESTO DE PICHINCHA,770,SAN MIGUEL DE LOS BANCOS,2410,MINDO,F,10000002,2,836.0,22.0,55.0,211.0
2039,PRESIDENTA/E Y VICEPRESIDENTA/E,17,PICHINCHA,4,CIRCUNSCRIPCIÓN RESTO DE PICHINCHA,770,SAN MIGUEL DE LOS BANCOS,2410,MINDO,M,10000002,2,862.0,27.0,47.0,230.0
4638,PRESIDENTA/E Y VICEPRESIDENTA/E,17,PICHINCHA,4,CIRCUNSCRIPCIÓN RESTO DE PICHINCHA,770,SAN MIGUEL DE LOS BANCOS,2410,MINDO,F,10000003,3,836.0,22.0,55.0,12.0
4639,PRESIDENTA/E Y VICEPRESIDENTA/E,17,PICHINCHA,4,CIRCUNSCRIPCIÓN RESTO DE PICHINCHA,770,SAN MIGUEL DE LOS BANCOS,2410,MINDO,M,10000003,3,862.0,27.0,47.0,9.0
7238,PRESIDENTA/E Y VICEPRESIDENTA/E,17,PICHINCHA,4,CIRCUNSCRIPCIÓN RESTO DE PICHINCHA,770,SAN MIGUEL DE LOS BANCOS,2410,MINDO,F,10000011,11,836.0,22.0,55.0,2.0


Vamos a crear un diccionario con el número de sufragantes por dinidad electa a nivel nacional.

In [60]:
### MAL, las juntas se repiten

dignidades = ['PRESIDENTA/E Y VICEPRESIDENTA/E', 
              'ASAMBLEÍSTAS PROVINCIALES Y DEL EXTERIOR', 
              'PARLAMENTARIOS ANDINOS',
              'ASAMBLEÍSTAS NACIONALES']


Sufragantes_per_dignidad = {}

for tipo in dignidades:
    n = df_elec2021[df_elec2021['DIGNIDAD_NOMBRE'] == tipo]
    r = n.groupby(['PARROQUIA_CODIGO', 'PARROQUIA_NOMBRE', 'JUNTA_SEXO'], 
                  as_index=False).agg(Sufragantes=('SUFRAGANTES', np.mean),
                                      Votos_válidos=('VOTOS', sum),
                                      Nulos=('NULOS', np.mean),
                                      Blancos=('BLANCOS', np.mean)
                                     )
    r = r.groupby(['PARROQUIA_CODIGO','PARROQUIA_NOMBRE'], 
                         as_index=False).agg(Sufragantes=('Sufragantes', sum),
                                             Votos_válidos=('Votos_válidos', sum),
                                             Nulos=('Nulos', sum),
                                             Blancos=('Blancos', sum)
                                            ) 
    Sufragantes_per_dignidad[tipo] = r['Sufragantes'].sum()
    
Sufragantes_per_dignidad


# Obtenemos una tabla con el número de sufragantes por parroquia


{'PRESIDENTA/E Y VICEPRESIDENTA/E': 10357625.0,
 'ASAMBLEÍSTAS PROVINCIALES Y DEL EXTERIOR': 10357348.0,
 'PARLAMENTARIOS ANDINOS': 10244485.0,
 'ASAMBLEÍSTAS NACIONALES': 10357644.0}

**Filtrar la base con la condición OP_CODIGO == 'ASAMBLEÍSTAS PROVINCIALES Y DEL EXTERIOR'**.

In [61]:
asam_prov = df_elec2021[df_elec2021['DIGNIDAD_NOMBRE'] == 'ASAMBLEÍSTAS PROVINCIALES Y DEL EXTERIOR']
asam_prov

Unnamed: 0,DIGNIDAD_NOMBRE,PROVINCIA_CODIGO,PROVINCIA_NOMBRE,CIRCUNSCRIPCION_CODIGO,CIRCUNSCRIPCION_NOMBRE,CANTON_CODIGO,CANTON_NOMBRE,PARROQUIA_CODIGO,PARROQUIA_NOMBRE,JUNTA_SEXO,CANDIDATO_CODIGO_RESULTADOS,OP_CODIGO,SUFRAGANTES,BLANCOS,NULOS,VOTOS
41600,ASAMBLEÍSTAS PROVINCIALES Y DEL EXTERIOR,1,AZUAY,0,-,260,CUENCA,285,BAÑOS,F,70100003,3,9476.0000,1008.0000,1243.0000,282.0000
41601,ASAMBLEÍSTAS PROVINCIALES Y DEL EXTERIOR,1,AZUAY,0,-,260,CUENCA,285,BAÑOS,M,70100003,3,8225.0000,626.0000,944.0000,223.0000
41602,ASAMBLEÍSTAS PROVINCIALES Y DEL EXTERIOR,1,AZUAY,0,-,260,CUENCA,730,CUMBE,F,70100003,3,2545.0000,364.0000,196.0000,57.0000
41603,ASAMBLEÍSTAS PROVINCIALES Y DEL EXTERIOR,1,AZUAY,0,-,260,CUENCA,730,CUMBE,M,70100003,3,1887.0000,199.0000,140.0000,44.0000
41604,ASAMBLEÍSTAS PROVINCIALES Y DEL EXTERIOR,1,AZUAY,0,-,260,CUENCA,845,CHAUCHA / ANGAS,F,70100003,3,477.0000,166.0000,62.0000,20.0000
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
81763,ASAMBLEÍSTAS PROVINCIALES Y DEL EXTERIOR,28,AMERICA LATINA Y EL CARIBE,0,-,391,URUGUAY,9061,C. E. EN MONTEVIDEO,M,72801031,1031,38.0000,3.0000,5.0000,0.0000
81764,ASAMBLEÍSTAS PROVINCIALES Y DEL EXTERIOR,28,AMERICA LATINA Y EL CARIBE,0,-,401,VENEZUELA,9062,C. E. EN CARACAS,F,72801031,1031,2018.0000,151.0000,250.0000,174.0000
81765,ASAMBLEÍSTAS PROVINCIALES Y DEL EXTERIOR,28,AMERICA LATINA Y EL CARIBE,0,-,401,VENEZUELA,9062,C. E. EN CARACAS,M,72801031,1031,1618.0000,87.0000,95.0000,175.0000
81766,ASAMBLEÍSTAS PROVINCIALES Y DEL EXTERIOR,28,AMERICA LATINA Y EL CARIBE,0,-,441,SUDAFRICA,9077,C. E. EN PRETORIA,F,72801031,1031,3.0000,0.0000,0.0000,0.0000


**Hay nombres de provincias que se repiten, por ejemplo**:

In [62]:
asam_prov[asam_prov['PARROQUIA_NOMBRE'] == 'BAÑOS']

Unnamed: 0,DIGNIDAD_NOMBRE,PROVINCIA_CODIGO,PROVINCIA_NOMBRE,CIRCUNSCRIPCION_CODIGO,CIRCUNSCRIPCION_NOMBRE,CANTON_CODIGO,CANTON_NOMBRE,PARROQUIA_CODIGO,PARROQUIA_NOMBRE,JUNTA_SEXO,CANDIDATO_CODIGO_RESULTADOS,OP_CODIGO,SUFRAGANTES,BLANCOS,NULOS,VOTOS
41600,ASAMBLEÍSTAS PROVINCIALES Y DEL EXTERIOR,1,AZUAY,0,-,260,CUENCA,285,BAÑOS,F,70100003,3,9476.0000,1008.0000,1243.0000,282.0000
41601,ASAMBLEÍSTAS PROVINCIALES Y DEL EXTERIOR,1,AZUAY,0,-,260,CUENCA,285,BAÑOS,M,70100003,3,8225.0000,626.0000,944.0000,223.0000
41780,ASAMBLEÍSTAS PROVINCIALES Y DEL EXTERIOR,1,AZUAY,0,-,260,CUENCA,285,BAÑOS,F,70100008,8,9476.0000,1008.0000,1243.0000,49.0000
41781,ASAMBLEÍSTAS PROVINCIALES Y DEL EXTERIOR,1,AZUAY,0,-,260,CUENCA,285,BAÑOS,M,70100008,8,8225.0000,626.0000,944.0000,57.0000
41960,ASAMBLEÍSTAS PROVINCIALES Y DEL EXTERIOR,1,AZUAY,0,-,260,CUENCA,285,BAÑOS,F,70100009,9,9476.0000,1008.0000,1243.0000,177.0000
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
76255,ASAMBLEÍSTAS PROVINCIALES Y DEL EXTERIOR,18,TUNGURAHUA,0,-,150,BAÑOS,5105,BAÑOS,M,71801035,1035,5983.0000,453.0000,995.0000,63.0000
76380,ASAMBLEÍSTAS PROVINCIALES Y DEL EXTERIOR,18,TUNGURAHUA,0,-,150,BAÑOS,5105,BAÑOS,F,71801036,1036,6346.0000,380.0000,1015.0000,250.0000
76381,ASAMBLEÍSTAS PROVINCIALES Y DEL EXTERIOR,18,TUNGURAHUA,0,-,150,BAÑOS,5105,BAÑOS,M,71801036,1036,5983.0000,453.0000,995.0000,209.0000
76506,ASAMBLEÍSTAS PROVINCIALES Y DEL EXTERIOR,18,TUNGURAHUA,0,-,150,BAÑOS,5105,BAÑOS,F,71801040,1040,6346.0000,380.0000,1015.0000,171.0000


Para eliminar el problema de valores repetidos:

In [63]:
# Obtenemos una tabla con el número de sufragantes por parroquia

# Promediamos los sufragantes, nulos y blancos y sumamos los votos válidos

resumen1 = asam_prov.groupby(['PARROQUIA_CODIGO', 'PARROQUIA_NOMBRE', 'JUNTA_SEXO'],
                             as_index=False).agg(Sufragantes=('SUFRAGANTES', np.mean),
                                                 Votos_válidos=('VOTOS', sum),
                                                 Nulos=('NULOS', np.mean),
                                                 Blancos=('BLANCOS', np.mean)
                                                )

resumen1 = resumen1.groupby(['PARROQUIA_CODIGO','PARROQUIA_NOMBRE'],
                             as_index=False).agg(Sufragantes=('Sufragantes', sum),
                                                 Votos_válidos=('Votos_válidos', sum),
                                                 Nulos=('Nulos', sum),
                                                 Blancos=('Blancos', sum)
                                                ) 

resumen1

Unnamed: 0,PARROQUIA_CODIGO,PARROQUIA_NOMBRE,Sufragantes,Votos_válidos,Nulos,Blancos
0,10,ABDON CALDERON,11002.0000,7440.0000,1634.0000,1928.0000
1,100,AMBUQUI/CHOTA,4220.0000,2906.0000,716.0000,596.0000
2,1000,YAMANA,657.0000,477.0000,53.0000,127.0000
3,1005,DANIEL CORDOVA TORAL,1109.0000,769.0000,148.0000,192.0000
4,1010,DAULE,1093.0000,913.0000,63.0000,118.0000
...,...,...,...,...,...,...
1294,975,CHUQUIRIBAMBA,1723.0000,1265.0000,203.0000,253.0000
1295,980,CHURA,1115.0000,720.0000,157.0000,238.0000
1296,985,CHICANA,1501.0000,1270.0000,91.0000,140.0000
1297,990,COCHAPAMBA,2740.0000,2306.0000,121.0000,312.0000


In [64]:
u = asam_prov.groupby(['CANTON_NOMBRE', 'PARROQUIA_CODIGO', 'PARROQUIA_NOMBRE']).size().reset_index(name='N')
u = u[['CANTON_NOMBRE', 'PARROQUIA_CODIGO']].sort_values('PARROQUIA_CODIGO')
u

Unnamed: 0,CANTON_NOMBRE,PARROQUIA_CODIGO
869,PORTOVIEJO,10
497,IBARRA,100
749,PALTAS,1000
423,GUALACEO,1005
689,MUISNE,1010
...,...,...
611,LOJA,975
941,QUININDE,980
1273,YANZATZA,985
1159,SAQUISILI,990


Hay más de 13 millones de electores, por lo que los sufragantes deberían ser iguales o menos a esta cifra necesariamente. 

In [65]:
resumen1['Sufragantes'].sum()

10357348.0

Esto se verifica así que continuamos.

In [66]:
# Leemos los datos que contienen la información de los electores.
# Y vamos a quedarnos con las variables útiles, pero primero configuremos el tipo de datos de la variable
# de forma adecuada.

electores = pd.read_spss('Data/Elecciones_General_2021/registro electoral a nivel parroquial.sav', convert_categoricals=True)
electores['PARROQUIA_CODIGO'] = electores['PARROQUIA_CODIGO'].astype(int).astype(str)
electores = electores[['PARROQUIA_CODIGO', 'JUNTA_SEXO', 'G_EDAD', 'ELECTORES']]
electores.sort_values(by='PARROQUIA_CODIGO').head(4)

Unnamed: 0,PARROQUIA_CODIGO,JUNTA_SEXO,G_EDAD,ELECTORES
4339,10,MASCULINO,MAYOR O IGUAL A 65 AÑOS,944.0
4337,10,MASCULINO,MENOR A 18 AÑOS,277.0
4336,10,FEMENINO,MAYOR O IGUAL A 65 AÑOS,927.0
4335,10,FEMENINO,MAYOR O IGUAL A 18 Y MENOR A 65 AÑOS,5157.0


In [67]:
# Obtenemos el número de electores y los juntamos al resumen1, para calcular el número de ausentes por diferencia
# como se comentó antes.

resumen2 = electores.groupby(by=['PARROQUIA_CODIGO']).agg(Electores=('ELECTORES', sum)).reset_index()
resumen2

Unnamed: 0,PARROQUIA_CODIGO,Electores
0,10,13027.0000
1,100,4943.0000
2,1000,809.0000
3,1005,1491.0000
4,1010,1306.0000
...,...,...
1294,975,2252.0000
1295,980,1339.0000
1296,985,1871.0000
1297,990,2868.0000


In [68]:
resumen2['Electores'].sum()

13099150.0

Juntamos resumen1 y resumen2.

In [69]:
resumen = resumen1.merge(resumen2, on=['PARROQUIA_CODIGO'])
resumen['Ausentes'] = resumen['Electores'] - resumen['Sufragantes'] 
resumen

Unnamed: 0,PARROQUIA_CODIGO,PARROQUIA_NOMBRE,Sufragantes,Votos_válidos,Nulos,Blancos,Electores,Ausentes
0,10,ABDON CALDERON,11002.0000,7440.0000,1634.0000,1928.0000,13027.0000,2025.0000
1,100,AMBUQUI/CHOTA,4220.0000,2906.0000,716.0000,596.0000,4943.0000,723.0000
2,1000,YAMANA,657.0000,477.0000,53.0000,127.0000,809.0000,152.0000
3,1005,DANIEL CORDOVA TORAL,1109.0000,769.0000,148.0000,192.0000,1491.0000,382.0000
4,1010,DAULE,1093.0000,913.0000,63.0000,118.0000,1306.0000,213.0000
...,...,...,...,...,...,...,...,...
1294,975,CHUQUIRIBAMBA,1723.0000,1265.0000,203.0000,253.0000,2252.0000,529.0000
1295,980,CHURA,1115.0000,720.0000,157.0000,238.0000,1339.0000,224.0000
1296,985,CHICANA,1501.0000,1270.0000,91.0000,140.0000,1871.0000,370.0000
1297,990,COCHAPAMBA,2740.0000,2306.0000,121.0000,312.0000,2868.0000,128.0000


#### Votos por organización política

In [70]:
vv = asam_prov.groupby(['PARROQUIA_CODIGO', 'OP_CODIGO'])['VOTOS'].sum().reset_index(name='Votos por organización política')
vv = vv.merge(op, on='OP_CODIGO')[['PARROQUIA_CODIGO', 'OP_CODIGO', 'Votos por organización política']]
vv = vv.pivot(index=['PARROQUIA_CODIGO'], columns='OP_CODIGO', values='Votos por organización política')
vv = vv.fillna(0)
vv

OP_CODIGO,10,1001,1003,1004,1005,1006,1009,1011,1014,1015,...,76,78,8,80,81,83,84,85,87,9
PARROQUIA_CODIGO,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
10,0.0000,0.0000,0.0000,0.0000,0.0000,0.0000,0.0000,0.0000,0.0000,0.0000,...,0.0000,114.0000,0.0000,0.0000,0.0000,0.0000,46.0000,33.0000,74.0000,0.0000
100,0.0000,0.0000,0.0000,0.0000,0.0000,0.0000,0.0000,0.0000,0.0000,0.0000,...,0.0000,46.0000,0.0000,0.0000,0.0000,0.0000,0.0000,0.0000,62.0000,53.0000
1000,8.0000,0.0000,0.0000,0.0000,0.0000,0.0000,0.0000,0.0000,0.0000,0.0000,...,0.0000,0.0000,0.0000,0.0000,0.0000,0.0000,3.0000,0.0000,0.0000,49.0000
1005,0.0000,0.0000,0.0000,0.0000,0.0000,0.0000,0.0000,0.0000,0.0000,0.0000,...,0.0000,0.0000,2.0000,0.0000,0.0000,0.0000,8.0000,0.0000,8.0000,14.0000
1010,0.0000,0.0000,0.0000,0.0000,0.0000,0.0000,0.0000,0.0000,0.0000,0.0000,...,0.0000,5.0000,0.0000,0.0000,0.0000,0.0000,5.0000,0.0000,7.0000,108.0000
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
975,20.0000,0.0000,0.0000,0.0000,0.0000,0.0000,0.0000,0.0000,0.0000,0.0000,...,0.0000,0.0000,0.0000,0.0000,0.0000,0.0000,6.0000,0.0000,0.0000,70.0000
980,0.0000,0.0000,0.0000,0.0000,0.0000,0.0000,0.0000,0.0000,0.0000,0.0000,...,0.0000,145.0000,0.0000,0.0000,0.0000,0.0000,6.0000,0.0000,4.0000,80.0000
985,0.0000,0.0000,0.0000,0.0000,160.0000,0.0000,0.0000,0.0000,591.0000,0.0000,...,0.0000,0.0000,0.0000,0.0000,0.0000,0.0000,0.0000,0.0000,0.0000,52.0000
990,0.0000,0.0000,0.0000,0.0000,0.0000,0.0000,0.0000,0.0000,0.0000,0.0000,...,0.0000,18.0000,0.0000,0.0000,0.0000,0.0000,0.0000,0.0000,83.0000,6.0000


In [71]:
resumen = resumen.merge(vv, on='PARROQUIA_CODIGO')
resumen

Unnamed: 0,PARROQUIA_CODIGO,PARROQUIA_NOMBRE,Sufragantes,Votos_válidos,Nulos,Blancos,Electores,Ausentes,10,1001,...,76,78,8,80,81,83,84,85,87,9
0,10,ABDON CALDERON,11002.0000,7440.0000,1634.0000,1928.0000,13027.0000,2025.0000,0.0000,0.0000,...,0.0000,114.0000,0.0000,0.0000,0.0000,0.0000,46.0000,33.0000,74.0000,0.0000
1,100,AMBUQUI/CHOTA,4220.0000,2906.0000,716.0000,596.0000,4943.0000,723.0000,0.0000,0.0000,...,0.0000,46.0000,0.0000,0.0000,0.0000,0.0000,0.0000,0.0000,62.0000,53.0000
2,1000,YAMANA,657.0000,477.0000,53.0000,127.0000,809.0000,152.0000,8.0000,0.0000,...,0.0000,0.0000,0.0000,0.0000,0.0000,0.0000,3.0000,0.0000,0.0000,49.0000
3,1005,DANIEL CORDOVA TORAL,1109.0000,769.0000,148.0000,192.0000,1491.0000,382.0000,0.0000,0.0000,...,0.0000,0.0000,2.0000,0.0000,0.0000,0.0000,8.0000,0.0000,8.0000,14.0000
4,1010,DAULE,1093.0000,913.0000,63.0000,118.0000,1306.0000,213.0000,0.0000,0.0000,...,0.0000,5.0000,0.0000,0.0000,0.0000,0.0000,5.0000,0.0000,7.0000,108.0000
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1294,975,CHUQUIRIBAMBA,1723.0000,1265.0000,203.0000,253.0000,2252.0000,529.0000,20.0000,0.0000,...,0.0000,0.0000,0.0000,0.0000,0.0000,0.0000,6.0000,0.0000,0.0000,70.0000
1295,980,CHURA,1115.0000,720.0000,157.0000,238.0000,1339.0000,224.0000,0.0000,0.0000,...,0.0000,145.0000,0.0000,0.0000,0.0000,0.0000,6.0000,0.0000,4.0000,80.0000
1296,985,CHICANA,1501.0000,1270.0000,91.0000,140.0000,1871.0000,370.0000,0.0000,0.0000,...,0.0000,0.0000,0.0000,0.0000,0.0000,0.0000,0.0000,0.0000,0.0000,52.0000
1297,990,COCHAPAMBA,2740.0000,2306.0000,121.0000,312.0000,2868.0000,128.0000,0.0000,0.0000,...,0.0000,18.0000,0.0000,0.0000,0.0000,0.0000,0.0000,0.0000,83.0000,6.0000


In [75]:
resumen.columns

Index(['PARROQUIA_CODIGO', 'PARROQUIA_NOMBRE', 'Nulos', 'Blancos', 'Ausentes',
       '10', '1001', '1003', '1004', '1005', '1006', '1009', '1011', '1014',
       '1015', '1016', '1018', '1019', '1020', '1023', '1024', '1027', '1028',
       '1030', '1031', '1034', '1035', '1036', '1037', '1039', '1040', '1042',
       '1043', '1045', '1046', '1048', '1049', '1050', '1051', '1053', '1054',
       '1055', '1056', '1057', '1058', '1060', '1061', '1062', '1063', '1064',
       '11', '12', '13', '15', '16', '17', '18', '2', '20', '24', '25', '27',
       '29', '3', '30', '32', '36', '41', '42', '44', '45', '46', '47', '48',
       '57', '60', '61', '62', '65', '66', '68', '7', '70', '71', '73', '75',
       '76', '78', '8', '80', '81', '83', '84', '85', '87', '9'],
      dtype='object')

In [73]:
resumen = resumen[['PARROQUIA_CODIGO', 'PARROQUIA_NOMBRE', 'Nulos', 'Blancos', 'Ausentes', '10', '1001', '1003', '1004', '1005', '1006',
       '1009', '1011', '1014', '1015', '1016', '1018', '1019', '1020', '1023',
       '1024', '1027', '1028', '1030', '1031', '1034', '1035', '1036', '1037',
       '1039', '1040', '1042', '1043', '1045', '1046', '1048', '1049', '1050',
       '1051', '1053', '1054', '1055', '1056', '1057', '1058', '1060', '1061',
       '1062', '1063', '1064', '11', '12', '13', '15', '16', '17', '18', '2',
       '20', '24', '25', '27', '29', '3', '30', '32', '36', '41', '42', '44',
       '45', '46', '47', '48', '57', '60', '61', '62', '65', '66', '68', '7',
       '70', '71', '73', '75', '76', '78', '8', '80', '81', '83', '84', '85',
       '87', '9']]
resumen

Unnamed: 0,PARROQUIA_CODIGO,PARROQUIA_NOMBRE,Nulos,Blancos,Ausentes,10,1001,1003,1004,1005,...,76,78,8,80,81,83,84,85,87,9
0,10,ABDON CALDERON,1634.0000,1928.0000,2025.0000,0.0000,0.0000,0.0000,0.0000,0.0000,...,0.0000,114.0000,0.0000,0.0000,0.0000,0.0000,46.0000,33.0000,74.0000,0.0000
1,100,AMBUQUI/CHOTA,716.0000,596.0000,723.0000,0.0000,0.0000,0.0000,0.0000,0.0000,...,0.0000,46.0000,0.0000,0.0000,0.0000,0.0000,0.0000,0.0000,62.0000,53.0000
2,1000,YAMANA,53.0000,127.0000,152.0000,8.0000,0.0000,0.0000,0.0000,0.0000,...,0.0000,0.0000,0.0000,0.0000,0.0000,0.0000,3.0000,0.0000,0.0000,49.0000
3,1005,DANIEL CORDOVA TORAL,148.0000,192.0000,382.0000,0.0000,0.0000,0.0000,0.0000,0.0000,...,0.0000,0.0000,2.0000,0.0000,0.0000,0.0000,8.0000,0.0000,8.0000,14.0000
4,1010,DAULE,63.0000,118.0000,213.0000,0.0000,0.0000,0.0000,0.0000,0.0000,...,0.0000,5.0000,0.0000,0.0000,0.0000,0.0000,5.0000,0.0000,7.0000,108.0000
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1294,975,CHUQUIRIBAMBA,203.0000,253.0000,529.0000,20.0000,0.0000,0.0000,0.0000,0.0000,...,0.0000,0.0000,0.0000,0.0000,0.0000,0.0000,6.0000,0.0000,0.0000,70.0000
1295,980,CHURA,157.0000,238.0000,224.0000,0.0000,0.0000,0.0000,0.0000,0.0000,...,0.0000,145.0000,0.0000,0.0000,0.0000,0.0000,6.0000,0.0000,4.0000,80.0000
1296,985,CHICANA,91.0000,140.0000,370.0000,0.0000,0.0000,0.0000,0.0000,160.0000,...,0.0000,0.0000,0.0000,0.0000,0.0000,0.0000,0.0000,0.0000,0.0000,52.0000
1297,990,COCHAPAMBA,121.0000,312.0000,128.0000,0.0000,0.0000,0.0000,0.0000,0.0000,...,0.0000,18.0000,0.0000,0.0000,0.0000,0.0000,0.0000,0.0000,83.0000,6.0000


In [23]:
logro = resumen.set_index(['PARROQUIA_CODIGO', 'PARROQUIA_NOMBRE']).stack().reset_index(name='Votos por elección política')
logro

Unnamed: 0,PARROQUIA_CODIGO,PARROQUIA_NOMBRE,level_2,Votos por elección política
0,10,ABDON CALDERON,Nulos,1634.0
1,10,ABDON CALDERON,Blancos,1928.0
2,10,ABDON CALDERON,Ausentes,2025.0
3,10,ABDON CALDERON,10,0.0
4,10,ABDON CALDERON,1001,0.0
...,...,...,...,...
122101,995,CASANGA,83,0.0
122102,995,CASANGA,84,8.0
122103,995,CASANGA,85,0.0
122104,995,CASANGA,87,0.0


In [24]:
# Creamos un cuadro con el porcentaje de electores por edad

pd.options.display.float_format = '{:,.4f}'.format

t = logro.groupby(by=['PARROQUIA_CODIGO', 'PARROQUIA_NOMBRE', 'level_2'])['Votos por elección política'].sum()
t = 100*t/t.groupby(level=0).sum()
t = t.reset_index(name='% de electores')
logro = logro.merge(t, on=['PARROQUIA_CODIGO', 'PARROQUIA_NOMBRE', 'level_2'])
logro = logro.rename(columns={'level_2': 'Elección política'})
logro

Unnamed: 0,PARROQUIA_CODIGO,PARROQUIA_NOMBRE,Elección política,Votos por elección política,% de electores
0,10,ABDON CALDERON,Nulos,1634.0000,12.5432
1,10,ABDON CALDERON,Blancos,1928.0000,14.8000
2,10,ABDON CALDERON,Ausentes,2025.0000,15.5446
3,10,ABDON CALDERON,10,0.0000,0.0000
4,10,ABDON CALDERON,1001,0.0000,0.0000
...,...,...,...,...,...
122101,995,CASANGA,83,0.0000,0.0000
122102,995,CASANGA,84,8.0000,0.8457
122103,995,CASANGA,85,0.0000,0.0000
122104,995,CASANGA,87,0.0000,0.0000


Observemos el caso de la Elección política Nulos:

In [25]:
logro[logro['Elección política'] == 'Nulos']

Unnamed: 0,PARROQUIA_CODIGO,PARROQUIA_NOMBRE,Elección política,Votos por elección política,% de electores
0,10,ABDON CALDERON,Nulos,1634.0000,12.5432
94,100,AMBUQUI/CHOTA,Nulos,716.0000,14.4910
188,1000,YAMANA,Nulos,53.0000,6.5513
282,1005,DANIEL CORDOVA TORAL,Nulos,148.0000,9.9262
376,1010,DAULE,Nulos,63.0000,4.8202
...,...,...,...,...,...
121636,975,CHUQUIRIBAMBA,Nulos,203.0000,9.0222
121730,980,CHURA,Nulos,157.0000,11.7252
121824,985,CHICANA,Nulos,91.0000,4.8637
121918,990,COCHAPAMBA,Nulos,121.0000,4.2204


In [26]:
logro = logro.merge(u, on=['PARROQUIA_CODIGO'])

In [27]:
logro[logro['PARROQUIA_CODIGO'] == '10']['% de electores'].sum()

99.99999999999999

# Votos a asiganr

Nuestra método *Asignación aleatoria proporcional* consiste en asignar votos de manera proporcional. Vamos a calcular el número de persona de la muestra del ENEMDU 2020 por parroquia para hacerlo. A continuación se detalla el procedimiento para lograrlo.

In [28]:
# Leer datos

votantes = pd.read_csv('Data/muestra.csv')
votantes.head(6)

Unnamed: 0,Identificador de persona,Identificador de hogar,Area,Sexo,Edad,Seguro Social - Alternativa 1,Seguro Social - Alternativa 2,Estado civil,Nivel de instrucción,Nivel de instrucción.1,...,Género del jefe/a de hogar,Cónyuge,Hijo o Hija,Parientes,No parientes,Empleado(a) doméstico(a),Tipology,Ciudad,Número de mujeres en el hogar,Número de personas del hogar
0,20025000002200502101,200250000022005021,Rural,Mujer,55.0,Ninguno,Ninguno,Separado(a),Secundaria,Educación Básica,...,Mujer,0,1,0,0,0,Hogar tipo 5,200250,1,2
1,20025000002200502102,200250000022005021,Rural,Hombre,39.0,Ninguno,Ninguno,Soltero(a),Secundaria,Educación Básica,...,Mujer,0,1,0,0,0,Hogar tipo 5,200250,1,2
2,20025000002200503101,200250000022005031,Rural,Mujer,30.0,"IESS, seguro general voluntario",Ninguno,Casado(a),Superior Universitario,Superior,...,Mujer,1,1,0,1,0,Hogar tipo 10,200250,2,3
3,20025000002200503102,200250000022005031,Rural,Hombre,33.0,Ninguno,Ninguno,Casado(a),Superior Universitario,Superior,...,Mujer,1,1,0,1,0,Hogar tipo 10,200250,2,3
4,20025000002200505101,200250000022005051,Rural,Mujer,58.0,Ninguno,Ninguno,Divorciado(a),Secundaria,Educación Media/Bachillerato,...,Mujer,0,1,1,0,0,Hogar tipo 9,200250,1,3
5,20025000002200505102,200250000022005051,Rural,Hombre,24.0,Ninguno,Ninguno,Soltero(a),Educación Media,Educación Media/Bachillerato,...,Mujer,0,1,1,0,0,Hogar tipo 9,200250,1,3


Ciudad en nuestra muestra viene a ser lo mismo que parroquia en las bases del CNE.

In [29]:
votantes

Unnamed: 0,Identificador de persona,Identificador de hogar,Area,Sexo,Edad,Seguro Social - Alternativa 1,Seguro Social - Alternativa 2,Estado civil,Nivel de instrucción,Nivel de instrucción.1,...,Género del jefe/a de hogar,Cónyuge,Hijo o Hija,Parientes,No parientes,Empleado(a) doméstico(a),Tipology,Ciudad,Número de mujeres en el hogar,Número de personas del hogar
0,20025000002200502101,200250000022005021,Rural,Mujer,55.0000,Ninguno,Ninguno,Separado(a),Secundaria,Educación Básica,...,Mujer,0,1,0,0,0,Hogar tipo 5,200250,1,2
1,20025000002200502102,200250000022005021,Rural,Hombre,39.0000,Ninguno,Ninguno,Soltero(a),Secundaria,Educación Básica,...,Mujer,0,1,0,0,0,Hogar tipo 5,200250,1,2
2,20025000002200503101,200250000022005031,Rural,Mujer,30.0000,"IESS, seguro general voluntario",Ninguno,Casado(a),Superior Universitario,Superior,...,Mujer,1,1,0,1,0,Hogar tipo 10,200250,2,3
3,20025000002200503102,200250000022005031,Rural,Hombre,33.0000,Ninguno,Ninguno,Casado(a),Superior Universitario,Superior,...,Mujer,1,1,0,1,0,Hogar tipo 10,200250,2,3
4,20025000002200505101,200250000022005051,Rural,Mujer,58.0000,Ninguno,Ninguno,Divorciado(a),Secundaria,Educación Media/Bachillerato,...,Mujer,0,1,1,0,0,Hogar tipo 9,200250,1,3
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
21828,05015091010200909101,50150910102009091,Rural,Hombre,48.0000,Ninguno,Ninguno,Casado(a),Primaria,Educación Básica,...,Hombre,1,4,1,1,0,Hogar tipo 16,50150,3,7
21829,05015091010200909102,50150910102009091,Rural,Mujer,45.0000,Ninguno,Ninguno,Casado(a),Primaria,Educación Básica,...,Hombre,1,4,1,1,0,Hogar tipo 16,50150,3,7
21830,05015091010200909103,50150910102009091,Rural,Hombre,21.0000,Ninguno,Ninguno,Soltero(a),Educación Media,Educación Media/Bachillerato,...,Hombre,1,4,1,1,0,Hogar tipo 16,50150,3,7
21831,05015091010200909104,50150910102009091,Rural,Hombre,17.0000,Ninguno,Ninguno,Unión libre,Educación Media,Educación Media/Bachillerato,...,Hombre,1,4,1,1,0,Hogar tipo 16,50150,3,7


In [30]:
muestra_electores = votantes.groupby('Ciudad').size().reset_index(name='Número de personas') # Conteo de personas por ciudad/parroquia
muestra_electores = muestra_electores.astype({'Ciudad': int}) # Codificación de la variable Ciudad a cadena
muestra_electores = muestra_electores.astype({'Ciudad': str}) # Codificación de la variable Ciudad a cadena
muestra_electores.rename(columns={'Ciudad': 'PARROQUIA_CODIGO'}, inplace=True)
muestra_electores

Unnamed: 0,PARROQUIA_CODIGO,Número de personas
0,10150,2100
1,10151,24
2,10152,19
3,10157,25
4,10160,67
...,...,...
361,240152,51
362,240155,11
363,240156,27
364,240250,61


Para poder crear una muestra que contenga información por persona del ENEMDU y votos asignados antes vamos a necesitar juntar las base, pero esto se dificulta porque los códigos de parroquia del CNE no corresponden de nignuna manera con los del ENEMDU, así que vamos a unir por nombres a las parroquias. <br>
En un primer intento no se utulizó un puente para este cruce, como en esta versión del código y se perdieron muchas paroquias en el cruce. Por eso, se decidió utilizar datos de otro archivo para solventar esa perdida. <br>
Aunque un lector pueda considerar innecesario utilizar el marco de datos mapa abajo creado, se dará cuenta si intenta hacer el cruce directo, como yo hice en una primera prueba, pero luego conseguí perder menos parroquias utilizando los datos del archivo *ecu_admbnda_adm3_inec_20190724*.

**logro mediado por dictionary unir con votos**.

In [31]:
# Leemos los diccionarios que serán útiles para lograr homogenizar las bases 

import geopandas as gpd

In [32]:
mapa = gpd.read_file('Data/mapa_ecuador/', layer='ecu_admbnda_adm3_inec_20190724')
mapa.head(6)

Unnamed: 0,ADM3_ES,ADM3_PCODE,ADM3_REF,ADM3ALT1ES,ADM3ALT2ES,ADM2_ES,ADM2_PCODE,ADM1_ES,ADM1_PCODE,ADM0_EN,ADM0_ES,ADM0_PCODE,date,validOn,validTo,Shape_Leng,Shape_Area,geometry
0,10 de Agosto,EC131752,,,,Pedernales,EC1317,Manabi,EC13,Ecuador,Ecuador (el),EC,2018-12-17,2019-07-24,,0.6519,0.019,"POLYGON ((-80.06370 -0.04398, -80.06400 -0.044..."
1,10 de Agosto,EC210160,,,,Lago Agrio,EC2101,Sucumbios,EC21,Ecuador,Ecuador (el),EC,2018-12-17,2019-07-24,,0.4188,0.0041,"POLYGON ((-76.89351 0.24284, -76.88845 0.22824..."
2,11 de Noviembre (Ilinchisi),EC050157,,,,Latacunga,EC0501,Cotopaxi,EC05,Ecuador,Ecuador (el),EC,2018-12-17,2019-07-24,,0.1192,0.0007,"POLYGON ((-78.65780 -0.89633, -78.65733 -0.897..."
3,12 de Diciembre (Cab. en Achiotes),EC111452,,,,Pindal,EC1114,Loja,EC11,Ecuador,Ecuador (el),EC,2018-12-17,2019-07-24,,0.4021,0.0035,"POLYGON ((-80.13218 -4.02787, -80.13193 -4.028..."
4,16 de Agosto,EC140455,,,,Palora,EC1404,Morona Santiago,EC14,Ecuador,Ecuador (el),EC,2018-12-17,2019-07-24,,0.5471,0.0076,"POLYGON ((-77.90145 -1.68901, -77.90020 -1.689..."
5,27 de Abril (Cab. en la Naranja),EC110654,,,,Espindola,EC1106,Loja,EC11,Ecuador,Ecuador (el),EC,2018-12-17,2019-07-24,,0.3137,0.0034,"POLYGON ((-79.45788 -4.41708, -79.45780 -4.417..."


Las provincias en una base están en mayúsucula y con tildes, y en otra en minúsculas y sin tildes. Para solucioanr eso vamos a recodificar las cadenas a mayúsculas sin tildes:

In [33]:
from unicodedata import normalize # Nos ayuda a recodificar valores unicode, utf-8 a latin

# Codificar/quitar tildes. Esttandarizar las columnas para unirlas

L = ['ADM1_ES', 'ADM2_ES', 'ADM3_ES']
for i in L:
    R = []
    for canton in mapa[i].str.upper():
        c = normalize('NFKD', canton).encode('latin', 'ignore').decode('latin')
        R.append(c)
    mapa[i] = R

In [34]:
mapa.columns

Index(['ADM3_ES', 'ADM3_PCODE', 'ADM3_REF', 'ADM3ALT1ES', 'ADM3ALT2ES',
       'ADM2_ES', 'ADM2_PCODE', 'ADM1_ES', 'ADM1_PCODE', 'ADM0_EN', 'ADM0_ES',
       'ADM0_PCODE', 'date', 'validOn', 'validTo', 'Shape_Leng', 'Shape_Area',
       'geometry'],
      dtype='object')

In [35]:
# Creamos un base con las variables que sí nos serán útiles

dictionary = mapa[['ADM3_PCODE', 'ADM2_PCODE', 'ADM3_ES', 'ADM2_ES', 'geometry']]

A pesar de que se recomiende usar una copia para el uso de replace, la alerta mencionada no es grave.

In [36]:
dictionary['ADM3_PCODE'] = dictionary['ADM3_PCODE'].str.slice(start=2)
dictionary['ADM2_PCODE'] = dictionary['ADM2_PCODE'].str.slice(start=2)
dictionary = dictionary.rename(columns={'ADM2_ES': 'CANTON_NOMBRE', 'ADM3_ES': 'PARROQUIA_NOMBRE', 
                                        'ADM3_PCODE': 'PARROQUIA_CODIGO'})

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  super().__setitem__(key, value)


In [37]:
dictionary

Unnamed: 0,PARROQUIA_CODIGO,ADM2_PCODE,PARROQUIA_NOMBRE,CANTON_NOMBRE,geometry
0,131752,1317,10 DE AGOSTO,PEDERNALES,"POLYGON ((-80.06370 -0.04398, -80.06400 -0.044..."
1,210160,2101,10 DE AGOSTO,LAGO AGRIO,"POLYGON ((-76.89351 0.24284, -76.88845 0.22824..."
2,050157,0501,11 DE NOVIEMBRE (ILINCHISI),LATACUNGA,"POLYGON ((-78.65780 -0.89633, -78.65733 -0.897..."
3,111452,1114,12 DE DICIEMBRE (CAB. EN ACHIOTES),PINDAL,"POLYGON ((-80.13218 -4.02787, -80.13193 -4.028..."
4,140455,1404,16 DE AGOSTO,PALORA,"POLYGON ((-77.90145 -1.68901, -77.90020 -1.689..."
...,...,...,...,...,...
1035,190250,1902,ZUMBA,CHINCHIPE,"POLYGON ((-79.09866 -4.74583, -79.09877 -4.746..."
1036,050458,0504,ZUMBAHUA,PUJILI,"POLYGON ((-78.81907 -1.01683, -78.81921 -1.016..."
1037,190750,1907,ZUMBI,CENTINELA DEL CONDOR,"POLYGON ((-78.75871 -3.86208, -78.75842 -3.862..."
1038,140160,1401,ZUNA (ZUNAC),MORONA,"POLYGON ((-78.43615 -2.03253, -78.43599 -2.032..."


In [38]:
dictionary.columns

Index(['PARROQUIA_CODIGO', 'ADM2_PCODE', 'PARROQUIA_NOMBRE', 'CANTON_NOMBRE',
       'geometry'],
      dtype='object')

In [39]:
proportion = dictionary.merge(logro, on=['CANTON_NOMBRE', 'PARROQUIA_NOMBRE'])
proportion.rename(columns={'PARROQUIA_CODIGO_x': 'PARROQUIA_CODIGO',
                           'PARROQUIA_CODIGO_y': 'CNE_CODIGO_PARROQUIA'}, inplace=True)
proportion

Unnamed: 0,PARROQUIA_CODIGO,ADM2_PCODE,PARROQUIA_NOMBRE,CANTON_NOMBRE,geometry,CNE_CODIGO_PARROQUIA,Elección política,Votos por elección política,% de electores
0,131752,1317,10 DE AGOSTO,PEDERNALES,"POLYGON ((-80.06370 -0.04398, -80.06400 -0.044...",1030,Nulos,366.0000,8.9465
1,131752,1317,10 DE AGOSTO,PEDERNALES,"POLYGON ((-80.06370 -0.04398, -80.06400 -0.044...",1030,Blancos,878.0000,21.4617
2,131752,1317,10 DE AGOSTO,PEDERNALES,"POLYGON ((-80.06370 -0.04398, -80.06400 -0.044...",1030,Ausentes,863.0000,21.0951
3,131752,1317,10 DE AGOSTO,PEDERNALES,"POLYGON ((-80.06370 -0.04398, -80.06400 -0.044...",1030,10,0.0000,0.0000
4,131752,1317,10 DE AGOSTO,PEDERNALES,"POLYGON ((-80.06370 -0.04398, -80.06400 -0.044...",1030,1001,0.0000,0.0000
...,...,...,...,...,...,...,...,...,...
65043,190351,1903,ZURMI,NANGARITZA,"POLYGON ((-78.57143 -4.11017, -78.57171 -4.111...",1675,83,0.0000,0.0000
65044,190351,1903,ZURMI,NANGARITZA,"POLYGON ((-78.57143 -4.11017, -78.57171 -4.111...",1675,84,0.0000,0.0000
65045,190351,1903,ZURMI,NANGARITZA,"POLYGON ((-78.57143 -4.11017, -78.57171 -4.111...",1675,85,0.0000,0.0000
65046,190351,1903,ZURMI,NANGARITZA,"POLYGON ((-78.57143 -4.11017, -78.57171 -4.111...",1675,87,0.0000,0.0000


In [40]:
votosend = proportion.merge(muestra_electores, on='PARROQUIA_CODIGO')
votosend.head()

Unnamed: 0,PARROQUIA_CODIGO,ADM2_PCODE,PARROQUIA_NOMBRE,CANTON_NOMBRE,geometry,CNE_CODIGO_PARROQUIA,Elección política,Votos por elección política,% de electores,Número de personas
0,210752,2107,AGUAS NEGRAS,CUYABENO,"POLYGON ((-76.14897 -0.08768, -76.14906 -0.087...",1555,Nulos,91.0,7.6406,17
1,210752,2107,AGUAS NEGRAS,CUYABENO,"POLYGON ((-76.14897 -0.08768, -76.14906 -0.087...",1555,Blancos,122.0,10.2435,17
2,210752,2107,AGUAS NEGRAS,CUYABENO,"POLYGON ((-76.14897 -0.08768, -76.14906 -0.087...",1555,Ausentes,140.0,11.7548,17
3,210752,2107,AGUAS NEGRAS,CUYABENO,"POLYGON ((-76.14897 -0.08768, -76.14906 -0.087...",1555,10,0.0,0.0,17
4,210752,2107,AGUAS NEGRAS,CUYABENO,"POLYGON ((-76.14897 -0.08768, -76.14906 -0.087...",1555,1001,0.0,0.0,17


In [41]:
votosend[votosend['PARROQUIA_CODIGO'] == '100152'].shape

(94, 10)

In [42]:
votosend.shape

(13912, 10)

In [43]:
13912/94

148.0

Cada parroquia tiene 94 opciones electorales. Eso quiere decir que en nuestra base de datos existen 91 parroquias. Debido a que en nuestra segunda base *votos_a_asignar* hay 148 parroquias, deberíamos obtener una base final de 14006 = 149x94 filas.

# Una verificación más
Ya que hay 94 opciones electorales, al agrupar los votos para cada parroquia/ciudad, no debería existir ningún conteo que sea superior a 94, pues eso indicaría algún error en el merge.

In [44]:
n = votosend.groupby(by=['PARROQUIA_CODIGO', 'PARROQUIA_NOMBRE'], as_index=False).count()
n

Unnamed: 0,PARROQUIA_CODIGO,PARROQUIA_NOMBRE,ADM2_PCODE,CANTON_NOMBRE,geometry,CNE_CODIGO_PARROQUIA,Elección política,Votos por elección política,% de electores,Número de personas
0,100152,ANGOCHAGUA,94,94,94,94,94,94,94,94
1,100157,SAN ANTONIO,94,94,94,94,94,94,94,94
2,100250,ATUNTAQUI,94,94,94,94,94,94,94,94
3,100254,SAN ROQUE,94,94,94,94,94,94,94,94
4,100453,GONZALEZ SUAREZ,94,94,94,94,94,94,94,94
...,...,...,...,...,...,...,...,...,...,...
143,230157,SANTA MARIA DEL TOACHI,94,94,94,94,94,94,94,94
144,240152,COLONCHE,94,94,94,94,94,94,94,94
145,240156,SAN JOSE DE ANCON,94,94,94,94,94,94,94,94
146,240250,LA LIBERTAD,94,94,94,94,94,94,94,94


In [45]:
n[n['Elección política'] > 94]

Unnamed: 0,PARROQUIA_CODIGO,PARROQUIA_NOMBRE,ADM2_PCODE,CANTON_NOMBRE,geometry,CNE_CODIGO_PARROQUIA,Elección política,Votos por elección política,% de electores,Número de personas


Finalmente, vamos a calcular el número de votos por parroquia que debrían ser asignados de forma aleatoria a las personas de la muestra obtenida de la base del ENEMDU 2020. AHoramos esto calculando el producto de la proporción de votos por cada tipo de votantes (% electores) y El número de personas seleccionadas en esa parroquia para ser encuestada en el ENEMDU.

In [46]:
votosend['Votos proporcionales'] = 1/100*votosend['% de electores']*votosend['Número de personas']
votosend['Votos proporcionales'] = votosend['Votos proporcionales'].apply(lambda row: int(row))
votosend

Unnamed: 0,PARROQUIA_CODIGO,ADM2_PCODE,PARROQUIA_NOMBRE,CANTON_NOMBRE,geometry,CNE_CODIGO_PARROQUIA,Elección política,Votos por elección política,% de electores,Número de personas,Votos proporcionales
0,210752,2107,AGUAS NEGRAS,CUYABENO,"POLYGON ((-76.14897 -0.08768, -76.14906 -0.087...",1555,Nulos,91.0000,7.6406,17,1
1,210752,2107,AGUAS NEGRAS,CUYABENO,"POLYGON ((-76.14897 -0.08768, -76.14906 -0.087...",1555,Blancos,122.0000,10.2435,17,1
2,210752,2107,AGUAS NEGRAS,CUYABENO,"POLYGON ((-76.14897 -0.08768, -76.14906 -0.087...",1555,Ausentes,140.0000,11.7548,17,1
3,210752,2107,AGUAS NEGRAS,CUYABENO,"POLYGON ((-76.14897 -0.08768, -76.14906 -0.087...",1555,10,0.0000,0.0000,17,0
4,210752,2107,AGUAS NEGRAS,CUYABENO,"POLYGON ((-76.14897 -0.08768, -76.14906 -0.087...",1555,1001,0.0000,0.0000,17,0
...,...,...,...,...,...,...,...,...,...,...,...
13907,190750,1907,ZUMBI,CENTINELA DEL CONDOR,"POLYGON ((-78.75871 -3.86208, -78.75842 -3.862...",6625,83,0.0000,0.0000,46,0
13908,190750,1907,ZUMBI,CENTINELA DEL CONDOR,"POLYGON ((-78.75871 -3.86208, -78.75842 -3.862...",6625,84,0.0000,0.0000,46,0
13909,190750,1907,ZUMBI,CENTINELA DEL CONDOR,"POLYGON ((-78.75871 -3.86208, -78.75842 -3.862...",6625,85,0.0000,0.0000,46,0
13910,190750,1907,ZUMBI,CENTINELA DEL CONDOR,"POLYGON ((-78.75871 -3.86208, -78.75842 -3.862...",6625,87,0.0000,0.0000,46,0


Una más:

In [47]:
votosend[votosend['PARROQUIA_NOMBRE'] == 'DURENO']['% de electores'].sum()

100.0

### La base deseada es:

In [48]:
votosend.columns

Index(['PARROQUIA_CODIGO', 'ADM2_PCODE', 'PARROQUIA_NOMBRE', 'CANTON_NOMBRE',
       'geometry', 'CNE_CODIGO_PARROQUIA', 'Elección política',
       'Votos por elección política', '% de electores', 'Número de personas',
       'Votos proporcionales'],
      dtype='object')

In [49]:
export_df = votosend[['PARROQUIA_CODIGO', 'Elección política', 'Votos por elección política', 
                     '% de electores', 'Número de personas',
                     'Votos proporcionales']]

In [50]:
export_df.to_csv('Data/muestreo2_ajustado.csv', index_label=False, encoding='utf-8', sep=',')