In [1]:
import re, os, errno
from tqdm import tqdm

## Nombres de boletines

### Boletines RAC

El formato del nombre d elos archivos era irregular en el tema de los espacios.
A veces las fechas tenían un espacio extra entre el guión anterior al año y este ("- 2018").

In [6]:
ruta_rel = os.path.join('..', 'Boletines', 'RAC', 'txt')
ruta_abs = os.path.abspath(ruta_rel)
# Quitamos los directorios
archivos = [
    f for f in os.listdir(ruta_abs) 
    if os.path.isfile(os.path.join(ruta_abs, f))
]

for filename in archivos:
    archivo_original=os.path.join(ruta_abs, filename)
#     print(filename)
    remplazo = re.sub(
        'COMUNICADO (?P<digit>[\d]+)', 
        'COMUNICADO_\g<digit>', 
        filename
    )
    remplazo = re.sub(' ', '', remplazo)
    if remplazo != filename:
        print(remplazo)
        archivo_remplazo=os.path.join(ruta_abs, remplazo)
        os.rename(archivo_original, archivo_remplazo)

### Boletines JAMK

El formato de fecha en el nombre de los boletines a veces marcaba 2019 cuando todos son del 2018.

In [4]:
ruta_rel = os.path.join('..', 'Boletines', 'JAMK', 'txt')
ruta_abs = os.path.abspath(ruta_rel)
# Quitamos los directorios
archivos = [
    f for f in os.listdir(ruta_abs) 
    if os.path.isfile(os.path.join(ruta_abs, f))
]

for filename in archivos:
    archivo_original=os.path.join(ruta_abs, filename)
#     print(filename)
    remplazo = re.sub(
        '^(?P<digit>[\d]{4})19', 
        '\g<digit>18', 
        filename
    )
    if remplazo != filename:
        print(remplazo)
        archivo_remplazo=os.path.join(ruta_abs, remplazo)
        os.rename(archivo_original, archivo_remplazo)

## Contenido boletines

### Eliminar elementos no léxicos

Elimino espacios, saltos de línea, símbolos especiales, etc

In [13]:
def preprocesar(ruta_dir, archivos):
    try:
        ruta_folder = os.path.join(ruta_abs, 'preprocesados')
        os.makedirs(ruta_folder) # cre
    except OSError as e:
        if e.errno != errno.EEXIST:
            raise
    remplazos = [
        # Elimino bigotes al final de archivos de AMLO
        (r'\u00aa(\u00aa)+', ''),
        # Elimino bigotes al final de archivos de JAMK
        (r'OO(O)+', ''),
        # Elimino bigotes al final de archivos de RAC
        (re.escape('**00**'), ''),
        (r'\*\*(\*)+', ''),
        # Remplaza cadenas encerradas dentro de doble guión bajo,
        # por ejemplo: _Hola_, _cómo estás_
        (r'_(?P<word>[^_]+)_', r'\g<word>'),
        # Remplazo caracter &nbsp (\u00A0) y tabuladores (\t) por espacio
        (r'[\u00A0\t]', ' '),
        # Remplazo repeticiones de más de dos espacios por espacio simple
        (r' ( )+', ' '),
        # Quito los puntos que quedaron huéfanos en una sóla línea
        (r'(\n\.)', ''),
        # Quito espacios al final e inicio de nuevas líneas
        (r'(( +)\n)|(\n( +))', '\n'),
        # Remplazo saltos de líneas múltiples por un identificador especial
        (r'\n(\n)+', '<dnl>'),
        # Cambio saltos de linea simples por espacios
        (r'\n', ' '),
        # Remplazo identificador de saltos de líneas múltiple por linea simple
        (r'<dnl>', '\n'),
        # Elimina links a imágenes tipo [C:\Hola\Mundo.jpg]
        (r'\[(.+)+\]', ''),
        # Elimino tablas al inicio
        (r'^\+.*\+\n', ''),
        # Elimino nuevas lineas y espacios al inicio y fin de archivo
        (r'(^([ \n]+))|(([ \n]+)$)', ''),
    ]
    remplazos = [(re.compile(patron), remplazo) for patron, remplazo in remplazos]
    for fname in tqdm(archivos):
        contenido = ""
        full_path = os.path.join(ruta_abs, fname)
#         print('Procesando: ', full_path, ' ...')
        with open(full_path, 'r', encoding='utf-8') as f:
            contenido = f.read()
        for patron, remplazo in remplazos:
            contenido = patron.sub(remplazo, contenido)
        with open(os.path.join(ruta_folder, fname), 'w', encoding='utf-8') as wf:
            wf.write(contenido)

In [14]:
for candidato in ['AMLO', 'RAC', 'JAMK']:
    ruta_rel = os.path.join('..', 'Boletines', candidato, 'txt')
    ruta_abs = os.path.abspath(ruta_rel)
    # Quitamos los directorios
    archivos = [
        f for f in os.listdir(ruta_abs) 
        if os.path.isfile(os.path.join(ruta_abs, f))
    ] 
#     print(ruta_abs)
    preprocesar(ruta_abs, archivos)

100%|██████████████████████████████████████████████████████████████████████████████████| 85/85 [00:05<00:00, 15.41it/s]
100%|███████████████████████████████████████████████████████████████████████████████| 116/116 [00:00<00:00, 900.89it/s]
100%|███████████████████████████████████████████████████████████████████████████████| 145/145 [00:00<00:00, 809.30it/s]


### Eliminar encabezado y sumarios

In [13]:
ruta_rel = os.path.join('..', 'Boletines', 'AMLO', 'txt', 'preprocesados')
ruta_abs = os.path.abspath(ruta_rel)

# Quitamos los directorios
archivos = [
    f for f in os.listdir(ruta_abs) 
    if os.path.isfile(os.path.join(ruta_abs, f))
]
patron = re.compile(r'(.+)\.- ')
n_matched = 0
for fname in archivos:
    contenido = ""
    full_path = os.path.join(ruta_abs, fname)
#         print('Procesando: ', full_path, ' ...')
    with open(full_path, 'r', encoding='utf-8') as f:
        contenido = f.read()
    match = patron.search(contenido)
    print(contenido[24:43])
    if match:
        n_matched += 1
        print(match[0])
#         print(match.span(0))
        print(f'El patrón termina en pos {match.span(0)}')
#         print(f'{contenido[match.span(0)[1]:]}\n')
        with open(full_path, 'w', encoding='utf-8') as wf:
            # Escribo el contenido real del boletín
            wf.write(contenido[match.span(0)[1]:]) 
    else:
        print('No hay patrón en', fname)
n_matched

BOLETÍN CAMPAÑA-002
SANTA CATARINA, NUEVO LEÓN, 02 DE ABRIL DE 2018.- 
El patrón termina en pos (499, 549)
BOLETÍN CAMPAÑA-004
SAN PEDRO, COAHUILA, 04 DE ABRIL DE 2018.- 
El patrón termina en pos (543, 586)
BOLETÍN CAMPAÑA-005
MONCLOVA, COAHUILA, 04 DE ABRIL DE 2018.- 
El patrón termina en pos (379, 421)
BOLETÍN CAMPAÑA-006
EN PIEDRAS NEGRAS, COAHUILA, 04 DE ABRIL DE 2018.- 
El patrón termina en pos (253, 304)
BOLETÍN CAMPAÑA-007
NUEVO LAREDO, TAMAULIPAS, 05 DE ABRIL DE 2018.- 
El patrón termina en pos (578, 626)
BOLETÍN CAMPAÑA-008
REYNOSA, TAMAULIPAS, 05 DE ABRIL DE 2018.- 
El patrón termina en pos (383, 426)
BOLETÍN CAMPAÑA-009
MATAMOROS, TAMAULIPAS, 06 DE ABRIL DE 2018.- 
El patrón termina en pos (249, 294)
BOLETÍN CAMPAÑA-003
IRAPUATO, GUANAJUATO 07 DE ABRIL DE 2018.- 
El patrón termina en pos (387, 430)
BOLETÍN CAMPAÑA-010
LAGOS DE MORENO, JALISCO 08 DE ABRIL DE 2018.- 
El patrón termina en pos (743, 790)
BOLETÍN CAMPAÑA-013
AZCAPOTZALCO, CIUDAD DE MÉXICO 09 DE ABRIL DE 2018.- 
E

85