In [54]:
import re
import pandas as pd
import numpy as np

In [55]:
data = pd.read_csv('../Data/data_Denisse_Dresser')

In [79]:
def html_cleaner(text):
    
    """Replaces or eliminates generic html expressions"""
    
    # Replace bold
    text = text.replace('<strong>', '<b>').replace('</strong>', '<\\b>')
    text = re.sub('<b>\s[\w\W]{3}>', '', text)
    
    # Replace italics
    text = text.replace('</em></em>', '</em>')
    text = re.sub(r'<em[\s\w\d":/{}=;\.!-]*>', '<i>', text)
    text = text.replace('</em>', '<\i> ')
    
    # Remove hyperlinks
    text = re.sub(r'</?a.*?(?=>)>', ' ', text)
            
    # Replace html spaces
    text = text.replace('\xa0', ' ')
    
    # Replace line breaks
    text = re.sub(r'<br/>', '<\n> ', text)
    text = re.sub(r'<\n>\s<\n>\s', '<\n\n> ', text)  
            
    return text

In [80]:
def dresser_cleaner(text):
    
    """Cleans text of Denisse Dresser's articles"""
    
    text = html_cleaner(text)
    text = text.replace('</p>, <p>', '<\n\n> ')
    text = text.replace('[<p>', '')
    text = text.replace('</p>]', '')
    text = text.replace('<\n\n> —<\n\n>', '<\n\n>')
    
    #Remove final footer
    pattern = '<\n\n> Gracias por visitar[\w\W]*$'
    saludo = re.findall(pattern, text)
    if saludo:
        text = text.replace(saludo[0], '')
    
    return text

### Testing

In [82]:
for i in range(len(data.body)):
    x = re.findall(r'[\w\W]{5}PATTERN[\w\W]{15}', dresser_cleaner(data.body[i]))
    if x:
        print(f'{i}: {x}')

In [83]:
patterns = ['<p>', '<\p>', '<!--', '<br/>', '\r', '<strong>']
for pattern in patterns:
    for i in range(len(data.body)):
        if pattern in dresser_clean(data.body[i]):
            print(f'Article num: {i} | Pattern: {pattern}')

In [53]:
number = 89
print(data.link[number])
dresser_clean(data.body[number])

https://denisedresser.com/columnas/sanguijuelas


'¿Estaría usted dispuesto a sacrificar la vida de su madre enferma de cáncer de mama para aumentar la producción de petróleo? ¿Estaría usted dispuesto a poner en jaque la vida de su hijo que padece VIH-SIDA para construir la refinería de Dos Bocas? ¿Estaría usted dispuesto a tronar al IMSS y quedarse sin pensión para hacer posible el Tren Maya?<\n\n> Estas preguntas no son hipotéticas o alarmistas o alejadas de la realidad que el gobierno de Andrés Manuel López Obrador está creando. El afán de recortar para supuestamente combatir la corrupción, evitar el despilfarro y canalizar los recursos liberados a los proyectos preferidos del Presidente está desangrando al país. Como en tiempos medievales, AMLO y sus operadores en Hacienda están colocándole sanguijuelas a ese cuerpo enfermo que es México, pensando que así lo curarán. Pero no están reviviendo al paciente; están agravando su padecimiento.<\n\n> Padecimiento heredado del gobierno peñanietista, con un IMSS en el nivel más bajo de su h

### Articles

In [11]:
with pd.option_context('display.max_rows', None, 'display.max_columns', None):
    print(data.title)

0              Los seducidos
1            El país de AMLO
2                    El show
3               Mujeres menú
4         Victorias pírricas
5         Vacunas a voluntad
6            El buscapleitos
7             El Arrebatador
8           Credo por México
9             Irresponsables
10         Trágica terquedad
11           ¿Ley Lamebotas?
12          Los Mafiosaurios
13            Mirar morir 02
14            Soga al cuello
15          Barbas a remojar
16             ¿Adiós Trump?
17           Supremo Sofista
18            Huerto podrido
19           Odiar la verdad
20            Oda a la Corte
21         Espejo retrovisor
22            Decir lo obvio
23     Patria (para algunos)
24                  Yo acuso
25                Paranoicos
26        Video-cleptocracia
27             La Silenciosa
28                 Machos 4T
29           (No) Hacer daño
30        ¿Partero o perico?
31         Molotov morenista
32            Dos derrotados
33        Primero la pobreza
34            