In [2]:
import re
import pandas as pd
import numpy as np

In [3]:
data = pd.read_csv('../Data/data_Enrique_Krauze')

In [388]:
def html_cleaner(text):
    
    """Replaces or eliminates generic html expressions"""
    
    # Replace bold
    text = text.replace('<strong>', '<b>').replace('</strong>', '<\\b>')
    text = re.sub('<b>\s[\w\W]{3}>', '', text)
    
    # Replace italics
    text = text.replace('</em></em>', '</em>')
    text = re.sub(r'<em[\s\w\d":/{}=;\.!-]*>', '<i>', text)
    text = text.replace('</em>', '<\i> ')
    
    # Remove hyperlinks
    text = re.sub(r'</?a.*?(?=>)>', ' ', text)
            
    # Replace html spaces
    text = text.replace('\xa0', ' ')
    
    # Replace line breaks
    text = re.sub(r'<br/>', '<\n> ', text)
    text = re.sub(r'<\n>\s<\n>\s', '<\n\n> ', text)  
            
    return text

In [394]:
def krauze_cleaner(text):
    
    """Cleans text of Enrique Krauze's articles"""
    
    text = html_cleaner(text)
    
    # Remove brackets
    text = re.sub('^\[', '', text)
    text = re.sub('\]$', '', text)
    
    # Remove paragraph format 
    text = re.sub(r'<p><[!--\s\w:/{}]*></p>,?', '', text)
    text = re.sub(r'<p[\s\w="-:;]*?>', '', text)
    text = re.sub(r'</?span[!--\s\w:/{}=;\.]*>', '', text)
    
    #Remove multiple spaces
    text = re.sub(r'\s{2,}', ' ', text)
    text = re.sub(r'\s,\s', ', ', text)
    
    #Mark new paragraph
    text = re.sub(r'</p>,?[\s+]?', '<\n\n> ', text)
    
    # Remove new lines or spaces at beginning of text
    text = re.sub('^\s+', '', text)
    
    # Remove publishing media
    text = re.sub('(<?i?>?|<?b?r?>?|\(?)Publicado[\w\W]+$', '', text)
    text = re.sub('\(?(Artículo|Texto) publicado[\w\W]+$', '', text)
    text = re.sub('<?i?>?Una versión (de\seste\stexto|más\samplia|de\seste\s)[\w\W]+$', '', text)
    text = re.sub('<\n\n>\s<i>Reforma[\w\W]+$', '', text)
    text = re.sub('<\n\n>\s<i>El\sNorte[\w\W]+$', '', text)
    text = re.sub('<\n\n>\s<?i?>?Proceso[\w\W]*$', '', text)
    text = re.sub('<\n\n>\s<?i?>El País[\w\W]*$', '', text)
    
    # Remove random html
    text = re.sub(r'<!--[\w\W]+-->', '', text)
    
    # Remove new lines at end of text
    text = re.sub(r'<\n\n>\s+\*?\s?$', '', text)
    text = re.sub(r'<\n\n>\s+(<\n\n>)?\s?(<\n>)?\s?$', '', text)
    text = re.sub(r'<br/>\s*$', '', text)
    
    return text

## Testing

In [393]:
for i in range(len(data.body)):
    x = re.findall(r'[\w\W]{5}</em>[\w\W]{15}', krauze_cleaner(data.body[i]))
    if x:
        print(f'{i}: {x}')

In [391]:
patterns = ['<p>', '<\p>', '<!--', '<br/>', '\r\n', '<strong>', '<span']
for pattern in patterns:
    for i in range(len(data.body)):
        if pattern in krauze_cleaner(data.body[i]):
            print(f'Article num: {i} | Pattern: {pattern}')

In [392]:
number = 405
print(data.link[number])
krauze_cleaner(data.body[number])

https://enriquekrauze.com.mx/historiador-del-presente/


'Los reportajes sobre Iraq que Mario Vargas Llosa publicó la semana pasada en <i>El País<\\i> y <i>Reforma<\\i> son un ejemplo de oficio literario y periodístico y una lección de ética intelectual. La estructura del conjunto es tan clara como la prosa, que fluye en períodos largos, escritos –se adivina- de un tirón, para no olvidar ni un detalle, para no perder la tensión, como una corriente que sólo se desborda en momentos de una inevitable desesperanza. Y así como no hay confusión temática o abigarramiento informativo, tampoco hay adjetivos que no vengan al caso. Los reportajes son, por supuesto, un testimonio personal, pero la opinión del autor sólo aparece donde debe aparecer, como conclusión a un hallazgo sólido e incontrovertible. El autor no es el personaje; el personaje es Iraq, el país concreto de ayer y hoy. Lo que predomina en esos reportajes es la voluntad de observación, una búsqueda honesta, incisiva, precisa de la verdad objetiva. Orwell pensaba que el mayor peligro mora