# Leer archivos PDF y convertir en texto

Este modulo del programa se encarga de leer los archivos en formato PDF de las diferentes campañas y convertir ese contenido en texto.

In [19]:
import re
from pdfminer.high_level import extract_text
from pdfminer.pdfdocument import PDFDocument

In [34]:
#Definimos las funciones esenciales que usaremos en el proceso de limpieza de datos

def leer_texto(path_archivo):
    """obtiene un string con el texto completro de un archivo

    Returns:
        _string_: 
        string: texto de un archivos
    """
    
    archivo = open(path_archivo, 'r')

    text = ''

    while(True):
        linea = archivo.readline()
        text = text+linea
        if not linea:
            break
    
    archivo.close
    
    return text

def depurar_texto(token_texto):
    """A partir de una lista de tokens con cadenas de texto
       crea un nuevo texto solo con aquellos tokens de caracteres
       para ello se aplica la validación isalpha()

    Args:
        token_texto (_list_): lista de tokens con palabras

    Returns:
        string: texto depurado solo con caracteres validos.
    """
    
    texto_depurado = ''
    
    for palabra in token_texto:
        
        palabra = palabra.replace('\n', '')
        palabra = palabra.replace('-', ' ')
        palabra = re.sub(r'[^\w\s]','', palabra)
        palabra = palabra.replace('\x0c',' ')
        
        texto_depurado = texto_depurado+' '+palabra.lower()
    
    return texto_depurado

def depurar_texto_fajardo(token_texto):
    """A partir de una lista de tokens con cadenas de texto
       crea un nuevo texto solo con aquellos tokens de caracteres
       para ello se aplica la validación isalpha()

    Args:
        token_texto (_list_): lista de tokens con palabras

    Returns:
        string: texto depurado solo con caracteres validos.
    """
    
    texto_depurado = ''
    
    for palabra in token_texto:
        
        palabra = re.sub(r'^https?:\/\/.*[\r\n]*', '', palabra, flags=re.MULTILINE)
        palabra = palabra.replace('\x0c',' ')
        palabra = re.sub(r'[^\w\s]','', palabra)
        palabra = palabra.replace('\n', ' ')
        palabra = palabra.replace('cid', '')
        
        if palabra.isalpha():
            texto_depurado = texto_depurado+' '+palabra.lower()
    
    return texto_depurado

def depurar_texto_rodolfo(token_texto):
    """A partir de una lista de tokens con cadenas de texto
       crea un nuevo texto solo con aquellos tokens de caracteres
       para ello se aplica la validación isalpha()

    Args:
        token_texto (_list_): lista de tokens con palabras

    Returns:
        string: texto depurado solo con caracteres validos.
    """
    
    texto_depurado = ''
    
    for palabra in token_texto:
        
        palabra = re.sub(r'^https?:\/\/.*[\r\n]*', '', palabra, flags=re.MULTILINE)
        palabra = re.sub(r'[^\w\s]','', palabra)
        palabra = palabra.replace('\n', '')
        palabra = palabra.replace('\x0c',' ')
        palabra = palabra.replace('\xa0',' ')
        
        texto_depurado = texto_depurado+''+palabra.lower()
    
    return texto_depurado

def depurar_texto_federico(token_texto):
    """A partir de una lista de tokens con cadenas de texto
       crea un nuevo texto solo con aquellos tokens de caracteres
       para ello se aplica la validación isalpha()

    Args:
        token_texto (_list_): lista de tokens con palabras

    Returns:
        string: texto depurado solo con caracteres validos.
    """
    
    texto_depurado = ''
    
    for palabra in token_texto:
        
        palabra = re.sub(r'^https?:\/\/.*[\r\n]*', '', palabra, flags=re.MULTILINE)
        palabra = palabra.replace('\n', '')
        #palabra = palabra.replace('-', ' ')
        palabra = re.sub(r'[^\w\s]','', palabra)
        palabra = palabra.replace('\x0c',' ')
        
        texto_depurado = texto_depurado+' '+palabra.lower()
    
    return texto_depurado

def quitar_palabras_1(texto):
    
    if len(texto)>1:
        return texto


In [21]:
plan_petro = './archivos/petro.pdf'
plan_fajardo = './archivos/fajardo.pdf'
plan_rodolfo = './archivos/rodolfo.pdf'
plan_federico = './archivos/federico.pdf'

In [22]:
#Se lee el texto de cada uno de los pdf para extraer el texto y convertirlo en txt

textoPetro = extract_text(plan_petro)
textoFajardo = extract_text(plan_fajardo)
textoRodolfo = extract_text(plan_rodolfo)
textoFederico = extract_text(plan_federico)

#Guardamos el archivo txt de cada candidato
fileText = open(plan_petro+'.txt', 'w')
fileText.write(textoPetro)
fileText.close()

fileText = open(plan_fajardo+'.txt', 'w')
fileText.write(textoFajardo)
fileText.close()

fileText = open(plan_rodolfo+'.txt', 'w')
fileText.write(textoRodolfo)
fileText.close()

fileText = open(plan_federico+'.txt', 'w')
fileText.write(textoFederico)
fileText.close()

# Limpieza de texto

De acuerdo al contenido y estructura de cada uno de los archivos pdf convertidos a txt, procedemos a realizar una limpieza inicial para normalizar un poco los datos. en este caso vamos a definir unas reglas generales para los documentos:

- texto en minusculas
- se eliminan signos de puntuacion
- se trabajará con palabras de tamaño mayor a 2
- se extraen referencias a paginas web
- los documentos limpios seguiran el siguiente patron: autor_clean.pdf.txt



In [23]:
# se procesa archivo de petro

archivo_petro = leer_texto('./archivos/petro.pdf.txt')

doc_petro_depurado = depurar_texto(archivo_petro.split(' '))


In [24]:
#Se procesa archivo de fajardo

archivo_fajardo = leer_texto('./archivos/fajardo.pdf.txt')

doc_fajardo_depurado = depurar_texto_fajardo(archivo_fajardo.split(' '))


In [25]:
#Se procesa archivo de fajardo

archivo_rodolfo = leer_texto('./archivos/rodolfo.pdf.txt')

doc_rodolfo_depurado = depurar_texto_rodolfo(archivo_rodolfo)

doc_rodolfo_depurado_lis = doc_rodolfo_depurado.split(' ')

doc_rodolfo_depurado_fin = ""

for palabra in doc_rodolfo_depurado_lis:
    if len(palabra)>1:
        doc_rodolfo_depurado_fin = doc_rodolfo_depurado_fin+' '+palabra

In [35]:
archivo_federico = leer_texto('./archivos/federico.pdf.txt')

doc_federico_depurado = depurar_texto_federico(archivo_federico.split(' '))

In [27]:
#Los textos previamente depurados son almacenados para mantener su trazabilidad.

dep_petro = open('./archivos/petro_clean.pdf.txt','w')
dep_petro.write(doc_petro_depurado)

dep_fajardo = open('./archivos/fajardo_clean.pdf.txt','w')
dep_fajardo.write(doc_fajardo_depurado)

dep_rodolfo = open('./archivos/rodolfo_clean.pdf.txt','w')
dep_rodolfo.write(doc_rodolfo_depurado_fin)

dep_federico = open('./archivos/federico_clean.pdf.txt','w')
dep_federico.write(doc_federico_depurado)

dep_petro.close()
dep_fajardo.close()
dep_rodolfo.close()
dep_federico.close()