In [None]:
import pandas as pd
import io
import requests
import spacy
from tika import parser
from bs4 import BeautifulSoup
import numpy as np
import stanza
from nltk.corpus import stopwords

Generamos una lista de tripletas que contienen el indice de la empresa, su nombre y la dirección a su reporte en pdf

In [None]:
esg_urls_rows = [
  ['aguas andinas', 'pdf_es/reporte-integrado-aguas-andinas-2019-v1.pdf'],
  ['cap', 'pdf_es/memoria_cap_s_a__2019.pdf'],
  ['ecl', 'pdf_es/201704-Reporte-Integrado-EECL-compressed.pdf'],
  ['endesa-cl', 'pdf_es/Memoria-Enel-Chile-2019.pdf'],
  ['aesgener', 'pdf_es/Memoria-2019-ESP-AES-Gener.pdf'],
  ['sqm', 'pdf_es/Reporte-2019-SQM-ESP.pdf'],
  ['colbun', 'pdf_es/MEMORIA-COLBUN-2019.pdf'],
  ['cmpc', 'pdf_es/Reporte_2019.pdf'],
  ['ccu', 'pdf_es/CCU 2019 - 30 marzov6 EEFF completos.pdf'],
  ['cencosud', 'pdf_es/Memoria-Anual-Integrada-Cencosud-14042020v2.pdf'],
  ['concha toro', 'pdf_es/Vina_Concha_y_Toro_Memoria_2019-1-1.pdf'],
  ['itaucorp', 'pdf_es/200504+Memoria_Integrada_2019.pdf'],
  ['entel', 'pdf_es/Reporte_Sustentabilidad_Entel_2019.pdf'],
  ['falabella', 'pdf_es/2019-Memoria-falabella.pdf'],
  ['ilc', 'pdf_es/Memoria-Anual-ILC-2019_Razonado_Fecu.pdf'],
  ['latam', 'pdf_es/LATAM-MemoriaIntegrada2019.pdf'],
  ['parauco', 'pdf_es/Parque-Arauco-Memoria-Integrada-2019-1-1.pdf'],
  ['ripley', 'pdf_es/Memoria-Anual-Ripley-Chile-2019.pdf'],
  ['salfacorp', 'pdf_es/Memoria_SalfaCorp_2019_m.pdf'],
  ['grupo security', 'pdf_es/gs_memoria_2019.pdf'],
  ['sonda', 'pdf_es/Reporte_integrado.pdf'],
  ['andina embotelladora', 'pdf_es/Memoria Anual integrada 2019.pdf'],
  ['bci', 'pdf_es/Memoria_BCI_2019.pdf'],
  ['santander', 'pdf_es/memorial_anual_2019.pdf'],
  ['endesa am', 'pdf_es/EnelAmericaInforme de Sostenibilidad_2019.pdf']
]
esg_urls_rows = [[i, name, link] for i, [name,link] in enumerate(esg_urls_rows)]

In [None]:
esg_urls_pd = pd.DataFrame(esg_urls_rows, columns=['idx', 'company', 'url'])

Como los reportes son integrados y no tratan tematicas de sustentabilidad en su totalidad, definimos una secuencia de paginas relevantes a extraer para cada reporte

In [None]:
def nseq(start, finish, offset=0):
        return list(range(start+offset, finish+offset+1))

In [None]:
pages = [nseq(18, 26) + nseq(33, 68) + nseq(74, 94) + nseq(116, 162), #andina
         nseq(69, 81, 2) + nseq(91, 92, 2),   #cap
         [32] + nseq(36,37) + nseq(44,45) + nseq(61,105) + nseq(108, 119),    #engie
         nseq(85, 184),    #enel
         nseq(18, 59) + nseq(124,277) + nseq(284,291) + nseq(348,349),  #aesgener
         nseq(1,189),    #sqm
         nseq(70,105) + nseq(116,135) + nseq(144,267),   #colbun
         nseq(17,18) + nseq(21, 24) + nseq(33,63) + nseq(68,70) + nseq(74, 88),   #cmpc
         [24, 29, 36, 39, 45, 51] + nseq(63, 67),   #ccu
         nseq(19,139),   #cencosud
         nseq(17,32) + nseq(54,103),   #concha y toro
         nseq(20,153) + nseq(162,165),   #itau
         nseq(5,105),   #entel
         nseq(7,12) + nseq(17,70) + nseq(133,141),   #falabella
         nseq(27,30) + nseq(31,32) + nseq(42,45),   #ilc
         [14, 27,28] + nseq(39,54) + [61] + nseq(63,116),   #latam
         nseq(4,52) + nseq(80,105),   #parque arauco
         nseq(49,62),   #ripley
         nseq(16,23) + nseq(93,114) + nseq(119,144) + nseq(149,151) + nseq(154,155) + nseq(157,173),   #salfacorp
         nseq(26, 39) + nseq(78,101),   #security
         nseq(33,84) + nseq(91,98) + nseq(148,150),   #sonda
         nseq(1,92),   #koandina
         nseq(32,88),   #bci
         nseq(19,136) + nseq(157,167) + nseq(173,182),   #santander
         nseq(1,262)   #enel americas
        ]

Usamos el listados de paginas junto con el indices de cada empresa para extraer las paginas que correspondan según el caso. ```extract_content_tika``` utiliza tika para extraer todo el texto encontrado en el reporte pdf.
Se parsea en formato xhtml para facilitar la extracción de secciones de texto y delimitar entre páginas. El paquete BeautifulSoup ayuda a procesar este formato.

Se debe considerar que esta función se aplica en estilo .apply de pandas, es decir, se aplica a cada fila del dataframe, en particular ```esg_urls_pd```.

In [None]:
def extract_content_tika(row, pages):
    file_data = []
    _buffer = io.StringIO()
    data = parser.from_file(row.url, xmlContent=True)#parser.from_file("drive/MyDrive/local/" + row.url, xmlContent=True)
    xhtml_data = BeautifulSoup(data['content'])
    for page, content in enumerate(xhtml_data.find_all('div', attrs={'class': 'page'})):
        if page + 1 in pages[row.idx]:
            _buffer.write(str(content))
            parsed_content = parser.from_buffer(_buffer.getvalue())
            _buffer.truncate()
            file_data.append(parsed_content['content'])
    return "\n".join(file_data)

Una vez extraido el texto se procede a su limpieza, en el orden que muestra el código se realiza:

- Se eliminan todos los saltos de línea, se reemplazan por espacios.
- Dado que cuando una palabra no alcanza a terminar en la pagina se separa por guíon, se revierte juntando todas las palabras que están separadas por guión.
- Se eliminan todos los enlaces e hipervínculos web.
- Se eliminan todos los caracteres especiales no alfanúmericos excluyendo el punto (.) pues este señala el inicio y fin de una oración.
- Se eliminan números y guiones.
- Dadas las transformaciones anteriores pueden quedar multiples espacios juntos. Se reduce la concatenación de espacios a uno solo.
- Por la misma razón anterior pueden quedar símbolos de puntuación juntos. Se reducen a uno solo.

In [None]:
def clean_content(content):
    content = content.str.replace('\n', ' ', regex=False)
    content = content.str.replace('([a-zA-Z0-9]+)\-(?: *)([a-zA-Z0-9]+)', r'\1\2', regex=True) # juntar palabras separadas por guion
    content = content.str.replace('(http|https)://[^ ]+', '', regex=True) # eliminar enlaces
    content = content.str.replace('[^\w  \.]', '', regex=True) # eliminar caracteres especiales
    content = content.str.replace('[0-9_]', '', regex=True) # eliminar caracteres especiales
    content = content.str.replace('\s+', ' ', regex=True) # juntar muchos espacios en uno
    content = content.str.replace('[ \.]{2,}', '.', regex=True) # juntar puntuacion
    return content.str.split('.')

Se utiliza el diccionario estandar de nltk para considerar las stopwords en español.

In [None]:
stop_words = stopwords.words('spanish')

Utilizamos el modelo NLP de stanza para realizar lematización. Se cargan solo los módulos de POS, tokenize y lemma ya que solo utilizaremos esos, con el fin de ahorrar memoria y tiempo de cómputo. Finalmente optamos por el uso de gpu ya que esto acelera el procesamiento.

In [None]:
nlp_gpu = stanza.Pipeline('es', processors='pos, tokenize, lemma', use_gpu=True)

Se define la función de lemmatización de tal forma que recibe una fila del dataframe (de la columna que contiene el texto) y el modelo de stanza. El modelo es capaz de encontrar oraciones en el texto entregado, pero como el texto entregado es una oración se extrae de inmediato la de indice 0. Luego se hace uso del atributo lemma en cada palabra para concatenarlas en un string y retornarlo, en este punto se puede filtrar por POS si se desea, utilizando el atributo .upos de la palabra.

In [None]:
def lemmatize(row, nlp):
    doc = nlp(row)
    sentence = doc.sentences[0]
    return " ".join([word.lemma for word in sentence.words if (word.lemma not in stop_words and word.upos != "VERB")])

Finalmente se aplica cada paso anteriormente descrito para cada una de las empresas en el dataframe esg_urls_pd

In [None]:
for i in range(len(esg_urls_pd)):
    esg_data = esg_urls_pd[["idx", "company", "url"]].iloc[[i]]
    esg_data["content"] = esg_data.apply(extract_content_tika, args=[pages], axis=1)
    esg_data["sentences"] = clean_content(esg_data["content"])
    
    esg_data = esg_data.drop(columns=["idx", "url", "content"])
    esg_data = esg_data.explode("sentences")
    esg_data = esg_data.drop_duplicates()
    esg_data = esg_data[esg_data.sentences.str.len() > 5]
    esg_data["lemma"] = esg_data.sentences.str.lower()
    
    esg_data["lemma"] = [lemmatize(x, nlp_gpu) for x in esg_data["lemma"].values]
    esg_data = esg_data.reset_index(drop=True)
    
    filename = esg_data["company"].iloc[0].replace(" ", "_") + "_noverb"
    esg_data.to_feather(f"clean_data/{filename}.feather")

Se genera un archivo de formato FEATHER por cada empresa, el peso no supera 1 MB en la mayoría de los archivos. La lectura de estos archivos por pandas es simple y rápida.