In [155]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import numpy as np

In [156]:
cei_16 = pd.read_csv("CEI_16.csv")
cd_17 = pd.read_csv("CD_17.csv", sep=";")
grad_16 = pd.read_csv("graduados_16.csv")

### Forma general de las cosas

In [157]:
cei_16.head(2)

Unnamed: 0,N° ORDEN,NOMBRE,Padrón,DNI
0,1,"AAS, PETTER FOSSAN",100346,29086232
1,2,"ABABOU, KHALIL",97708,RA1057904


In [158]:
cd_17.head(2)

Unnamed: 0,N° ORDEN,NOMBRE,Padrón,DNI
0,1,"ABAD, ARIEL IGNACIO",86213,32166584
1,2,"ABADI, BETINA",93386,35902423


In [159]:
grad_16.head(2)

Unnamed: 0,N° ORDEN,NOMBRE,Padrón,DNI
0,30,"ABITANTE, CARLOS ALBERTO",79742,27177606
1,50,"ACEVEDO, FERNANDO GUSTAVO",78374,27822506


## Chequeo de tipos

In [160]:
cd_17.dtypes

N° ORDEN     int64
NOMBRE      object
Padrón       int64
DNI          int64
dtype: object

In [161]:
cei_16.dtypes

N° ORDEN     int64
NOMBRE      object
Padrón      object
DNI         object
dtype: object

Por algún motivo el del CEI no agarra bien a todos los padrones como números. Esto causaría problemas. Vamos a chequear por qué.

In [162]:
pad = pd.to_numeric(cei_16["Padrón"], errors="force")

In [163]:
cei_16[pad.isnull()]

Unnamed: 0,N° ORDEN,NOMBRE,Padrón,DNI
9780,9781,"SALAZAR VARGAS, CARLOS ROBERTO",B0239,93890243


Hay **1 padrón fallado**. Este nos hacía que el padrón fuera una string en cei_16, lo cual nos arruinaría un join por padrón. Haremos un append y quitaremos repetidos luego.

Pasamos todo en cd a string para que sea más fácil chequear duplicados y comparar.

In [164]:
cd_17["Padrón"] = cd_17["Padrón"].apply(str)
cd_17["DNI"] = cd_17["DNI"].apply(str)
grad_16["Padrón"] = grad_16["Padrón"].apply(str)
grad_16["DNI"] = grad_16["DNI"].apply(str)

## Chequeo de duplicados en cada uno.

### Graduados

In [165]:
grad_16.duplicated(subset="DNI").sum()

0

### CD

In [166]:
cd_17.duplicated(subset="DNI").sum()

18

In [167]:
cd_17[cd_17.duplicated(subset="DNI", keep=False)]

Unnamed: 0,N° ORDEN,NOMBRE,Padrón,DNI
265,266,"ALVAREZ WINDEY, JUAN SEBASTIÁN",95242,36755372
266,267,"ALVAREZ WINDEY, JUAN SEBASTIÁN",95242,36755372
1024,1025,"BORDONI, LUCAS ENRIQUE",96033,35425609
1025,1026,"BORDONI, LUCAS ENRIQUE",96033,35425609
1259,1260,"CABRERA, MARÍA FLORENCIA",97864,39322189
1260,1261,"CABRERA, MARÍA FLORENCIA",97864,39322189
1957,1958,"CONTINANZA, NICOLAS",97576,38616453
1958,1959,"CONTINANZA, NICOLAS",97576,38616453
2167,2168,"DAHAB, MOISES MICAEL",97520,38995013
2168,2169,"DAHAB, MOISES MICAEL",97520,38995013


In [168]:
len(cd_17)

8722

In [169]:
cd_17 = cd_17[~cd_17.duplicated(subset="DNI", keep="first")]

In [170]:
len(cd_17)

8704

### CEI

In [171]:
cei_16.duplicated(subset="DNI").sum()

7

In [172]:
cei_16[cei_16.duplicated(subset="DNI", keep=False)]

Unnamed: 0,N° ORDEN,NOMBRE,Padrón,DNI
673,674,"ARREJIN, MAURO ALEXIS",97555,35266598
674,675,"ARREJIN, MAURO ALEXIS",97555,35266598
715,716,"ASTUDILLO, JUAN MARCOS",98118,38426324
716,717,"ASTUDILLO, JUAN MARCOS",98118,38426324
2278,2279,"CAUHEPE, LUCAS",98354,39415261
2279,2280,"CAUHEPE, LUCAS",98354,39415261
2838,2839,"CRAVERO, JUAN PABLO",98379,38305305
2839,2840,"CRAVERO, JUAN PABLO",98379,38305305
3976,3977,"FERNÁNDEZ SÁNCHEZ, MARTÍN NICOLÁS",98410,39466298
3977,3978,"FERNÁNDEZ SÁNCHEZ, MARTÍN NICOLÁS",98410,39466298


En el padrón del CEI del 2016 hay 7 duplicados. En los otros padrones no. Los saco acá mismo así hacemos las cuentas más fácil.

In [173]:
len(cei_16)

11793

In [174]:
cei_16 = cei_16[~cei_16.duplicated(subset="DNI", keep="first")]

In [175]:
len(cei_16)

11786

Como corresponde, hay 7 menos, que son los duplicados.

## Armado de padrón
### Agregado de CD 2017
Agregamos los del padrón de CD de 2017 a los del CEI 2016. 

In [176]:
cei_17 = cei_16.append(cd_17)

In [177]:
cei_17.isnull().sum()

N° ORDEN    0
NOMBRE      0
Padrón      0
DNI         0
dtype: int64

Todo en orden. Vamos a ver los duplicados.

In [178]:
dup_dni = cei_17[cei_17.duplicated(subset="DNI", keep=False)].sort_values("DNI")
dup_dni

Unnamed: 0,N° ORDEN,NOMBRE,Padrón,DNI
6723,6724,"RESIO, LUIS BENITO",33024,10390436
9088,9089,"RESIO, LUIS BENITO",33024,10390436
5572,5573,"IBARRA, SARA MABEL",64135,10972945
4084,4085,"IBARRA, SARA MABEL",64135,10972945
7393,7394,"MONSALVE, GUSTAVO ADOLFO",36561,11122336
5461,5462,"MONSALVE, GUSTAVO ADOLFO",36561,11122336
9435,9436,"ROJAS, MARCELO ANDRES",38601,11802981
6979,6980,"ROJAS, MARCELO ANDRES",38601,11802981
5444,5445,"MOLINERO, GUSTAVO EDGARDO",39437,11926253
7369,7370,"MOLINERO, GUSTAVO EDGARDO",39437,11926253


Me fijo que no haya dnis duplicados que no sean efectivamente duplicados.

In [179]:
dup_no = cei_17[cei_17.duplicated(subset=["DNI", "Padrón"], keep=False)].sort_values("DNI")
dup_no

Unnamed: 0,N° ORDEN,NOMBRE,Padrón,DNI
9088,9089,"RESIO, LUIS BENITO",33024,10390436
6723,6724,"RESIO, LUIS BENITO",33024,10390436
4084,4085,"IBARRA, SARA MABEL",64135,10972945
5572,5573,"IBARRA, SARA MABEL",64135,10972945
5461,5462,"MONSALVE, GUSTAVO ADOLFO",36561,11122336
7393,7394,"MONSALVE, GUSTAVO ADOLFO",36561,11122336
9435,9436,"ROJAS, MARCELO ANDRES",38601,11802981
6979,6980,"ROJAS, MARCELO ANDRES",38601,11802981
5444,5445,"MOLINERO, GUSTAVO EDGARDO",39437,11926253
7369,7370,"MOLINERO, GUSTAVO EDGARDO",39437,11926253


Hay 1 DNI repetido cuyo padrón no coincide.

In [180]:
dup_dni[~dup_dni.DNI.isin(dup_no.DNI)]

Unnamed: 0,N° ORDEN,NOMBRE,Padrón,DNI
9780,9781,"SALAZAR VARGAS, CARLOS ROBERTO",B0239,93890243
7243,7244,"SALAZAR VARGAS, CARLOS ROBERTO B",239,93890243


Los que coniciden en DNI están efectivamente duplicados. Los quitamos.

In [181]:
cei_17 = cei_17[~cei_17.duplicated(subset="DNI", keep="first")]

In [182]:
cei_17.duplicated(subset="DNI").sum()

0

Duplicados fueron eliminados. Ahora podemos ver cuántos estudiantes se agregaron al padrón.

In [183]:
len(cei_17)-len(cei_16)

1634

### Remoción de Graduados

In [184]:
grad_dni = cei_17[cei_17.DNI.isin(grad_16.DNI)]
len(grad_dni)

196

In [185]:
grad_pad = cei_17[cei_17["Padrón"].isin(grad_16["Padrón"])]
len(grad_pad)

196

In [186]:
grad_dni.DNI.isin(grad_pad.DNI).sum()

196

Confirmado por padrón y DNI, son 196 graduados los que se van. Los quitamos.

In [187]:
cei_17 = cei_17[~cei_17.DNI.isin(grad_16.DNI)]

Cantidad _neta_ agregada, por si sirve de algo.

In [188]:
len(cei_17) - len(cei_16)

1438

## Escribimos el padrón a un csv

Primero ordenamos por apellido y pisamos el número de orden.

In [189]:
cei_17 = cei_17.sort_values("NOMBRE", ascending=True).reset_index().drop(["index", "N° ORDEN"], axis=1)

In [190]:
cei_17 = cei_17.reset_index()

In [191]:
cei_17["index"] = cei_17["index"]+1

In [192]:
cei_17.rename(columns={"index": "N° Orden"}, inplace=True)

In [193]:
cei_17

Unnamed: 0,N° Orden,NOMBRE,Padrón,DNI
0,1,"AAS, PETTER FOSSAN",100346,29086232
1,2,"ABABOU, KHALIL",97708,RA1057904
2,3,"ABAD, ARIEL IGNACIO",86213,32166584
3,4,"ABAD, MANUEL",89007,32553674
4,5,"ABADI, BETINA",93386,35902423
5,6,"ABAL, FLORENCIA",98128,39743372
6,7,"ABALLAY PIÑEIRO, MARIA BELEN",97420,39321842
7,8,"ABALOS, JOSÉ DANIEL",98584,38748437
8,9,"ABALOS, PATRICIO RICARDO",92850,35970834
9,10,"ABATE, FERNANDO ANGEL",71962,23277085


In [194]:
cei_17.to_csv("padron_cei_2017.csv", index=False)

## Padrón exclusivo del CEI
Los que solo votan en CEI y no están en el padrón del CD.

In [195]:
cei_en_cd = cei_17[cei_17.DNI.isin(cd_17.DNI)]
len(cei_en_cd)

8673

In [196]:
cei_en_cd_pad = cei_17[cei_17["Padrón"].isin(cd_17["Padrón"])]
len(cei_en_cd_pad)

8673

In [197]:
cei_en_cd_pad.DNI.isin(cei_en_cd.DNI).sum()

8672

In [198]:
cei_en_cd_pad[~cei_en_cd_pad.DNI.isin(cei_en_cd.DNI)]

Unnamed: 0,N° Orden,NOMBRE,Padrón,DNI
3802,3803,"DITO, LEANDRO KAMANGOTO GERALDO",91758,6030


In [199]:
cei_en_cd[~cei_en_cd.DNI.isin(cei_en_cd_pad.DNI)]

Unnamed: 0,N° Orden,NOMBRE,Padrón,DNI
10912,10913,"SALAZAR VARGAS, CARLOS ROBERTO",B0239,93890243


Hay uno extra por padroń y uno extra por DNI. Vamos a sacar los dos.

In [205]:
cei_17 = cei_17[~cei_17.DNI.isin(cd_17.DNI)]
cei_17 = cei_17[~cei_17["Padrón"].isin(cd_17["Padrón"])]

In [206]:
len(cei_17)

4550

In [207]:
cei_17.to_csv("cei_exclusivo.csv", index=)

Unnamed: 0,N° Orden,NOMBRE,Padrón,DNI
0,1,"AAS, PETTER FOSSAN",100346,29086232
1,2,"ABABOU, KHALIL",97708,RA1057904
3,4,"ABAD, MANUEL",89007,32553674
9,10,"ABATE, FERNANDO ANGEL",71962,23277085
10,11,"ABATE, MIGUEL AGUSTÍN",84084,31207574


## Casos raros

In [202]:
padrones_no_numericos = pd.to_numeric(cei_16["Padrón"], errors="force").isnull()

In [203]:
cei_16[padrones_no_numericos]

Unnamed: 0,N° ORDEN,NOMBRE,Padrón,DNI
9780,9781,"SALAZAR VARGAS, CARLOS ROBERTO",B0239,93890243


In [204]:
cd_17[cd_17["Padrón"].str.len() < 5]

Unnamed: 0,N° ORDEN,NOMBRE,Padrón,DNI
629,630,"BALDOCEDA HUALLPA, MAXIMO B",204,92859860
7243,7244,"SALAZAR VARGAS, CARLOS ROBERTO B",239,93890243
8260,8261,"VARGAS PÉREZ, VILMA JUANA B",206,92892429
