# Watermark Remover
## Padrón Electoral chileno con PyPDF2 + tabula
$\textit{Emilio Ojeda}$

## Planteamiento del problema:

Recientemente, SERVEL ha incorporado la siguiente marca de agua en el Padrón Electoral chileno:

<img src = "images/WaterMark.png">

La presencia de esta marca de agua, vuelve muy compleja la extracción de la información contenida en el padrón electoral, por lo que realizar análisis sobre estos datos queda supeditado al uso de programas especiales para la extracción de las marcas de agua.

Este cuaderno tiene como objetivo remover esta marca de agua, para eso haremos uso de las librerías: PyPDF2 y pikepdf para el tratamiento de la información contenida en el archivo pdf, y por otra parte tabula y pandas para la extracción de las tablas, almacenaje y la creación de un archivo csv.

Este cuaderno considera la interacción con el usuario, y puede ser empleado en otros contextos distintos al padrón electoral.

Como modelo de juguete, se ha generado un padrón "file_test.pdf" sin nombres reales ni ruts. Pero usted puede acceder al padrón de las elecciones 2021 en el siguiente link: 
https://www.servel.cl/padron-electoral-definitivo-y-nomina-de-inhabilitados-3/

## Librerías
pikepdf se emplea para abrir algunos archivos pdf con cierta encriptación no disponible aún en PyPDF2.

PyPDF2 se utiliza para abrir los archivos, eliminar la información no deseada y luego escribir un archivo de salida sin marca de agua.

tqdm ayuda a visualizar los tiempos de cada iteración y el progreso del programa.

In [1]:
import PyPDF2
import pikepdf
from tqdm import tqdm

Introducimos el nombre del archivo

In [2]:
pdftitle = 'file_test'

1) Abrimos el archivo "file_test.pdf" con o sin contraseña.

2) Para el caso particular del padrón electoral chileno, solo presione Enter.

3) Los archivos con contraseña, se duplicarán en un archivo sin contraseña llamado "file_test_decrypted.pdf"

4) Calculamos el número total de páginas del archivo.

In [3]:
if PyPDF2.PdfFileReader(open(f'{pdftitle}.pdf', "rb")).isEncrypted:
    print('Enter the password:')
    password = input()
    pdf = pikepdf.Pdf.open(f'{pdftitle}.pdf', password = password)
    pdf.save(f'{pdftitle}_decrypted.pdf')
    pdf = PyPDF2.PdfFileReader(open(f'{pdftitle}_decrypted.pdf', "rb"))
else:
    pdf = PyPDF2.PdfFileReader(open(f'{pdftitle}.pdf', "rb"))
    
npages = int(pdf.getNumPages())

## Contenido del archivo pdf
Mostramos el contenido de cada objeto en el archivo pdf.

Para realizar esta operación se debe indicar cuantos elementos desea revisar, esto es para limitar el espacio.

En este punto se debe observar el número de la linea que contiene la marca de agua que se desea eliminar, explore de forma cuidadosa. 

fila ([WaterMark], b'Tj')

In [4]:
%%time

print('Introducir la cantidad de filas que desea revisar:')
stop = int(input())
page0 = pdf.getPage(0) 
content0 = PyPDF2.pdf.ContentStream(page0['/Contents'].getObject(), pdf)
print('\n')
for i, b in enumerate(content0.operations):
    if b[1]==b'Tj' and i<stop:
        print(i, b)

Introducir la cantidad de filas que desea revisar:
40


6 ([' PADRÓN AUDITADO ELECCIONES DE GOBERNADORES REGIONALES, CONVENCIONALES CONSTITUYENTES, ALCALDES Y CONCEJALES 2021 COMUNA DE PIRQUE , REGIÓN METROPOLITANA DE SANTIAGO'], b'Tj')
12 ([' PADRÓN AUDITADO ELECCIONES DE GOBERNADORES REGIONALES, CONVENCIONALES CONSTITUYENTES, ALCALDES Y CONCEJALES 2021 COMUNA DE PIRQUE , REGIÓN METROPOLITANA DE SANTIAGO'], b'Tj')
18 ([' PADRÓN AUDITADO ELECCIONES DE GOBERNADORES REGIONALES, CONVENCIONALES CONSTITUYENTES, ALCALDES Y CONCEJALES 2021 COMUNA DE PIRQUE , REGIÓN METROPOLITANA DE SANTIAGO'], b'Tj')
24 ([' PADRÓN AUDITADO ELECCIONES DE GOBERNADORES REGIONALES, CONVENCIONALES CONSTITUYENTES, ALCALDES Y CONCEJALES 2021 COMUNA DE PIRQUE , REGIÓN METROPOLITANA DE SANTIAGO'], b'Tj')
30 ([' PADRÓN AUDITADO ELECCIONES DE GOBERNADORES REGIONALES, CONVENCIONALES CONSTITUYENTES, ALCALDES Y CONCEJALES 2021 COMUNA DE PIRQUE , REGIÓN METROPOLITANA DE SANTIAGO'], b'Tj')
36 ([' PADRÓN AUDITADO ELECCIONES D

## Definición de la Marca de Agua

En el paso anterior se identificaron las marcas de aguas.

Ahora introducimos el número total de marcas de agua diferentes y luego ingresamos el número de las filas donde están contenidas.

In [5]:
print('Introducir el número total de marcas de agua diferentes:')
total_num = int(input());
water_mark = []
for i in range(0,total_num):
    print('\n')
    print(f'Introducir el número de la fila en donde aparece la {i+1}° marca de agua:')
    row_wm = int(input());
    wm = content0.operations[row_wm][0]
    water_mark.append(wm)
print('\n')
print('La marca de agua corresponde a:')
water_mark

Introducir el número total de marcas de agua diferentes:
1


Introducir el número de la fila en donde aparece la 1° marca de agua:
6


La marca de agua corresponde a:


[[' PADRÓN AUDITADO ELECCIONES DE GOBERNADORES REGIONALES, CONVENCIONALES CONSTITUYENTES, ALCALDES Y CONCEJALES 2021 COMUNA DE PIRQUE , REGIÓN METROPOLITANA DE SANTIAGO']]

# Removiendo las marcas de agua: Etapa de prueba

Probamos con una cantidad reducida de páginas para verificar que nuestra elección elimina completamente el texto no deseado. 

Este paso es conveniente siempre y cuando el pdf tenga la marca distribuida de manera uniforme en todas sus hojas.

In [6]:
output_test = PyPDF2.PdfFileWriter()
outputStream_test = open(f'{pdftitle}_output.pdf', "wb")

page_test = 2    #Modificar

for i in tqdm(range(0, page_test, 1)):
    page = pdf.getPage(i)
    content = PyPDF2.pdf.ContentStream(page['/Contents'].getObject(), pdf)
    new_content_op = [(operands, operator) for (operands, operator) in content.operations if operands not in water_mark]
    content.operations = new_content_op
    page.__setitem__(PyPDF2.generic.NameObject('/Contents'), content)
    page.compressContentStreams()
    output_test.addPage(page)

output_test.write(outputStream_test)
del outputStream_test

100%|████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:06<00:00,  3.04s/it]


# Removiendo las marcas de agua: Etapa Final

Revisamos el archivo 'file_test_output.pdf' y verificamos que la marca de agua haya desaparecido por completo.

Si es así, aplicamos el programa sobre el pdf completo. Si no, repetimos los pasos anteriores hasta obtener el resultado que deseamos.

In [7]:
output = PyPDF2.PdfFileWriter()
outputStream = open(f'{pdftitle}_output_final.pdf', "wb")

for i in tqdm(range(0, npages, 1)):
    page = pdf.getPage(i)
    content = PyPDF2.pdf.ContentStream(page['/Contents'].getObject(), pdf)
    new_content_op = [(operands, operator) for (operands, operator) in content.operations if operands not in water_mark]
    content.operations = new_content_op
    page.__setitem__(PyPDF2.generic.NameObject('/Contents'), content)
    page.compressContentStreams()
    output.addPage(page)

output.write(outputStream)
del outputStream

100%|████████████████████████████████████████████████████████████████████████████████████| 3/3 [00:05<00:00,  1.71s/it]


# Resultado
<img src = "images/WaterMark_Removed.png">

## Extraemos la información y la guardamos como .csv
Mediante la librería tabula, extraemos las tablas que contiene la información de cada elector.

Se debe establecer el área en donde está alojada la tabla. (Un método es abrir el pdf con SumatraPDF, presionar la letra m y verificar la posición del cursor)

In [8]:
import pandas as pd 
import tabula

In [9]:
%%time

df = tabula.read_pdf(f'{pdftitle}_output_final.pdf', pages = 'all', guess=False, area = (66,16,605,776))
df = df[df['NOMBRE'] !='NOMBRE']
df.to_csv(f'{pdftitle}_final.csv', index=False)

Wall time: 1.6 s


In [10]:
df

Unnamed: 0,NOMBRE,C.IDENTIDAD,SEXO,DOMICILIO ELECTORAL,CIRCUNSCRIPCIÓN,MESA,PUEBLO INDÍGENA
0,NNNNNNNN NNNNNNNN AAAAAAAA AAAAAAAA,00.000.000-K,VARON,VIRGINIA SUBERCASEAUX 1650 B,PIRQUE,15 V,
1,NNNNNNNN NNNNNNNN AAAAAAAA AAAAAAAA,00.000.000-K,MUJER,AV V SUBERCASEAUX SN,PIRQUE,8 M,
2,NNNNNNNN NNNNNNNN AAAAAAAA AAAAAAAA,00.000.000-K,MUJER,EL CRUCERAL S/N AV V SUBERCASEAUX,PIRQUE,6 M,
3,NNNNNNNN NNNNNNNN AAAAAAAA AAAAAAAA,00.000.000-K,MUJER,RAMON SUBERCASEAUX 2725 HUINGAN,PIRQUE,14 M,
4,NNNNNNNN NNNNNNNN AAAAAAAA AAAAAAAA,00.000.000-K,VARON,CARLOS VIAL INFANTE PARCELA 5 LOTE 11 EL LLANO,PIRQUE,30,
...,...,...,...,...,...,...,...
252,NNNNNNNN NNNNNNNN AAAAAAAA AAAAAAAA,00.000.000-K,MUJER,ORILLA DE RIO PR 4 1/2 PC 1-A EL CLARILLO,PIRQUE,36,
253,NNNNNNNN NNNNNNNN AAAAAAAA AAAAAAAA,00.000.000-K,MUJER,EMILIANA SUBERCASEAUX 305 SAN RAMON,PIRQUE,30,
254,NNNNNNNN NNNNNNNN AAAAAAAA AAAAAAAA,00.000.000-K,VARON,SITIO 3 SAN VICENTE,EL PRINCIPAL,3,
255,NNNNNNNN NNNNNNNN AAAAAAAA AAAAAAAA,00.000.000-K,MUJER,LA RINCONADA DE PRINCIPAL PARCELA 85,PIRQUE,12 V,MAPUCHE
