### Dairo Alberto Cuervo Garcia
#### Proyecto de grado - Exploración de discurso en cartas de maximos responsables - Maestría en Ciencias de los Datos y Analítica - Universidad EAFIT - 2024/1

### Lectura y transformación inicial de datos (txt a csv)

In [1]:
# Cargar librerias necesarias
import os
import glob
import pandas as pd

Carga de archivos txt que contienen cartas

In [2]:
current_dir = os.path.dirname(os.path.abspath('__file__'))
# Construir la ruta relativa a la carpeta que contiene los archivos .txt
path_txt = os.path.join(current_dir, '1.0.Source', 'Colcap_DataText')
all_files = glob.glob(os.path.join(path_txt, "*.txt"))# Lista de todos los archivos .txt
data_frames = [] #lista vacía para almacenar df de cada txt

Crear un data frame con la unión de los archivos txt

In [3]:
for file in all_files:
    file_name = os.path.basename(file) # Nombre archivo
    nombre, año = file_name[:-4].split('_') # Extrae nombre de empresa y año y los separa
    with open(file, 'r', encoding='latin1') as f:  # Utilizar la codificación latin1
        text = f.read() # leer texto de cada txt
    text = text.encode('latin1').decode('utf-8', 'ignore')  # Convertir a UTF-8 y eliminar caracteres no válidos
    df = pd.DataFrame({'Empresa': [nombre], 'Año': [año], 'Texto': [text]}) # crea df con las 3 columnas
    data_frames.append(df) # agregar df a la lista

merged_df = pd.concat(data_frames, ignore_index=True) # unir todos los df
merged_df

Unnamed: 0,Empresa,Año,Texto
0,BancodeBogota,2018,"Estimados accionistas,\nMe complace dirigirme ..."
1,BancodeBogota,2019,"Muy estimados accionistas,\nEs un honor dirigi..."
2,BancodeBogota,2020,"Muy estimados accionistas, colaboradores y\ncl..."
3,BancodeBogota,2021,"Muy estimados accionistas, colaboradores y cli..."
4,BancodeBogota,2022,"Muy estimados accionistas, colaboradores y cli..."
...,...,...,...
198,Terpel,2018,Estar al servicio de las personas ha sido nues...
199,Terpel,2019,Estar en capacidad de hacer esta declaración p...
200,Terpel,2020,Como el nuevo presidente de la Organización Te...
201,Terpel,2021,En épocas de adversidad como las que ha vivido...


Adicionar contexto y almacenar csv con cartas a procesar

In [4]:
# Definir rutas relativas
output_path = os.path.join(current_dir, '1.1.Output', 'Resultados.csv')
sector_info_path = os.path.join(current_dir, '1.0.Source', 'Context0', 'Sector.csv')
# Unir contexto con csv de resultados
merged_df.to_csv(output_path, index=False, mode='w')
info_df = pd.read_csv(sector_info_path, sep=';')
merged_df = pd.merge(merged_df, info_df[['Empresa','Sector','Sector_agrupado']], on='Empresa', how='left')
merged_df.to_csv(output_path, index=False, mode='w')
merged_df

Unnamed: 0,Empresa,Año,Texto,Sector,Sector_agrupado,Bolsa
0,BancodeBogota,2018,"Estimados accionistas,\nMe complace dirigirme ...",Financiero,Financiero,BVC
1,BancodeBogota,2019,"Muy estimados accionistas,\nEs un honor dirigi...",Financiero,Financiero,BVC
2,BancodeBogota,2020,"Muy estimados accionistas, colaboradores y\ncl...",Financiero,Financiero,BVC
3,BancodeBogota,2021,"Muy estimados accionistas, colaboradores y cli...",Financiero,Financiero,BVC
4,BancodeBogota,2022,"Muy estimados accionistas, colaboradores y cli...",Financiero,Financiero,BVC
...,...,...,...,...,...,...
198,Terpel,2018,Estar al servicio de las personas ha sido nues...,Energético,Energético,BVC
199,Terpel,2019,Estar en capacidad de hacer esta declaración p...,Energético,Energético,BVC
200,Terpel,2020,Como el nuevo presidente de la Organización Te...,Energético,Energético,BVC
201,Terpel,2021,En épocas de adversidad como las que ha vivido...,Energético,Energético,BVC


Verificar documentos por año y empresa

In [5]:
empresas_y_anios = {}
for index, row in merged_df.iterrows():
    empresa = row['Empresa']
    año = row['Año']
    if empresa not in empresas_y_anios:
        empresas_y_anios[empresa] = set()
    empresas_y_anios[empresa].add(año)

for empresa, años in empresas_y_anios.items():
    años_str = ', '.join(sorted(años))
    print(f"{empresa}: {años_str}")

BancodeBogota: 2018, 2019, 2020, 2021, 2022
Bancolombia: 2012, 2013, 2014, 2015, 2016, 2017, 2018, 2019, 2020, 2021, 2022
BVC: 2012, 2014, 2015, 2016, 2017, 2018, 2019, 2020, 2021, 2022
Canacol: 2014, 2015, 2016, 2017, 2018, 2019, 2020, 2021, 2022
Celsia: 2012, 2013, 2014, 2015, 2016, 2017, 2018, 2019, 2020, 2021, 2022
CementosArgos: 2012, 2013, 2014, 2015, 2016, 2017, 2018, 2019, 2020, 2021, 2022
Corficolombiana: 2016, 2017, 2018, 2019, 2020, 2021, 2022
Davivienda: 2012, 2013, 2014, 2015, 2016, 2017, 2018, 2019, 2020, 2021, 2022
Ecopetrol: 2012, 2013, 2014, 2015, 2016, 2017, 2018, 2019, 2020, 2021, 2022
ETB: 2012, 2013, 2014, 2015, 2016, 2017, 2018, 2019, 2020, 2021, 2022
GrupoArgos: 2013, 2014, 2015, 2016, 2017, 2018, 2019, 2020, 2021, 2022
GrupoAval: 2012, 2013, 2014, 2015, 2016, 2017, 2018, 2019, 2020, 2021, 2022
GrupoBolivar: 2012, 2013, 2014, 2015, 2016, 2017, 2018, 2019, 2020, 2021, 2022
GrupoEnergiaBogota: 2012, 2013, 2014, 2015, 2016, 2017, 2018, 2019, 2020, 2021, 2022
GrupoNu