In [1]:
import pandas as pd
import numpy as np
import copy
import os

In [2]:
def hay_tabla(archivo,verbose=False):
    '''
    Funcion para verificar si en la pagina (archivo) dada existe una tabla
    Si es el caso devolver la tabla
    '''
    try:
        if verbose:
            print('Hay tabla', archivo)
        df = pd.read_csv(archivo, header=1).transpose()
        df.reset_index(inplace=True)
        df.columns = df.iloc[0]
        return df.drop(index=[0])
    except Exception as e:
        return 'No hay tabla'

In [267]:
def corregir_santander(df):
    '''
    Funcion para dar formato a los trimestres de santander
    '''
    cols = df.columns
    annos = [i for i in df[cols[0]].values]
    annos_correct = [i for i in df[cols[0]].values if not 'Unnamed' in i]
    tris = [i for i in df[cols[1]].values if not 'Unnamed' in i]
    cont = -1
    correciones = []
    if '6M' in tris:
        for i in range(len(tris)):
            if tris[i] == '6M':
                cont += 1
            correciones.append(f'{tris[i]}{annos_correct[cont][-2:]}')
    else:
        
        for i in range(len(tris)):
            try:
                float(annos[i])
                b = True
#                 print(annos[i],'---------', tris[i])
            except:
                b = False

            if tris[i] == '6M' or b:
                cont += 1
#             print(cont, annos[cont], tris[i])
            correciones.append(f'{tris[i]}{annos_correct[cont][-2:]}')
#     print(correciones)
    cols = list(df.columns)
    cols[0] = 'periodos'
    df.columns = cols
    df[list(df.columns)[0]] = correciones
    cols.remove(cols[1])
    df = df[cols]
    df = df.loc[[not ('6M' in i) for i in list(df['periodos'])]]
    return df

In [146]:
def corregir_bbva(df):
    '''
    Funcion para dar formato a los trimestres de bbva
    '''
    trimestres = ['Sep', 'Mar', 'Dic', 'Jun']
    cols = df.columns
#     print([[j in i for i in df[cols[0]].values][0] for j in trimestres])
#     print(df[cols[0]].values)
#     print([i in list(df[cols[0]].values) for i in trimestres])
#     print(df.head())
    if sum([[j in i for i in df[cols[0]].values][0] for j in trimestres]):
        df[cols[0]] = df[cols[0]].apply(lambda x: str(x)[:-4]+str(x)[-2:])
        return df
    df[cols[0]] = df[cols[0]].apply(lambda x: str(x)[:str(x).find('T')+1]+str(x)[-2:])
#     print(df.head())
    return df

In [92]:
def merge_data(df1, df2):
    '''
    Anadimos los elementos que existen en un data frame a otro sin sobreescribir los que estan en ambos
    '''
#     print(df1[list(df1.columns)[0]])
#     print(df2[list(df2.columns)[0]])
    for i in range(len(df2)):
        if not df2[list(df2.columns)[0]].iloc[i] in list(df1[list(df1.columns)[0]].values):
#             print(df2[list(df2.columns)[0]].iloc[i])
            df1 = df1.append(df2.iloc[i])
    
#     print(df1[list(df1.columns)[0]])
    return df1

In [23]:
def m_f(keyword, keyword_black_list, banco, white_list, path_data, verbose=False):
    ## Es importante sortear whitelist por la forma en la que se hace join a los dataframes
    white_list.sort()
    cont = 0
    while len(white_list):
#         if :
            if cont == 0:
                df = all_in_one(keyword, keyword_black_list, banco, [white_list[0]], path_data, verbose)
                cont += 1
            else:
                temp = all_in_one(keyword, keyword_black_list, banco, [white_list[0]], path_data,verbose)
#                 print('AAAAAAAAAAA')
                df = merge_data(temp, df)
            white_list.remove(white_list[0])
    if banco == 'Santander':
        df = corregir_santander(df)
    elif banco == 'BBVA':
        df = corregir_bbva(df)
    cols = list(df.columns)
    cols[0] = 'periodos'
    df.columns = cols
    return df

In [21]:
def all_in_one(keyword, keyword_black_list, banco, white_list, path_data, verbose=False):
    d = encontrar_keyword_banco(keyword, keyword_black_list, banco, white_list, path_data,verbose)
    ## Nos aseguramos de que no haya tablas vacias
    d = {k: v for k, v in d.items() if v}
    df = procesar_tablas(d, banco)
    df['Banco'] = banco
    return limpiar_tabla(df.reset_index(drop=True))

In [22]:
def encontrar_keyword_banco(keyword, keyword_black_list, banco, white_list, path_data,verbose=False):
    '''
    Funcion para buscar las paginas coincidentes con las keyword en todos los archivos de un banco dado
    '''
    ruta = f'{path_data}/{banco}/'
    pdfs = [ruta + i for i in os.listdir(ruta)]
    d = {}
    for i in pdfs:
        if white_list:
            white_list.sort()
            if i.split('-')[0].split('/')[-1] in white_list:
#                 print(i)
                resultado = encontrar_key_word(keyword, keyword_black_list, i, verbose)
                d.setdefault(list(resultado.keys())[0],list(resultado.values())[0])
        else:
            resultado = encontrar_key_word(keyword, i)
            d.setdefault(list(resultado.keys())[0],list(resultado.values())[0], verbose)
    return d

In [9]:
def procesar_tablas(diccionario, banco):
    '''
    Funcion para juntar la informacion (diccionario) de todos los pdf que coincidieron con una keyword dada
    '''
    pagina = list(diccionario[list(diccionario.keys())[0]].keys())[0]
    df = None
    l = []
    for file in diccionario.keys():
        try:
            l += [diccionario[file][pagina].transpose()]
        except:
            pass
    df = l[0]
    l.remove(l[0])
    if len(l):
        for i in range(len(l)):
            df = df.join(l[i], how='right',lsuffix='_caller', rsuffix='_other').transpose().reset_index(drop=True)
            df = df.drop_duplicates(subset=list(df.columns)[0], keep='last')
        return df
    return df.transpose()

In [10]:
def limpiar_tabla(df):
    duplicated = list(df.columns[df.columns.duplicated()])
    special = 'Ingresos por Intereses Gastos por Intereses Comisiones cobradas '
    df.drop(columns=duplicated,inplace=True)
    ## Esta columna se lee como una sola cuando en realidad son 3, dividiremos la columna en sus respectivos campos
    if special in df.columns:
        vals = df[special].apply(lambda x: str(x).split(' '))
        vals_0 = [vals[i][0] for i in range(len(vals))]
        vals_1 = [vals[i][1] for i in range(len(vals))]
        vals_2 = [vals[i][2] for i in range(len(vals))]
        df['Ingresos por Intereses'] = vals_0
        df['Gastos por Intereses'] = vals_0
        df['Comisiones cobradas'] = vals_0
        df.drop(columns= [special], inplace=True)
        
    ## Limpiamos los valores para que tengan un formao numerico adecuado
    for i in df.columns:
        try:
            df[i] = df[i].astype(float)
        except:
            df[i] = df[i].apply(lambda x: str(x).strip().replace('(','').replace(')','').replace(',','').replace('-',''))
            
    ## Le damos formato a los nombres de las columnas
    df.colums = [str(i).strip() for i in list(df.columns)]
    cols = list(df.columns)
    cols = [str(i)[:-1] for i in cols if str(i)[-1]]
    df.columns = cols
    
    ## La O se escapa de nuestros anteriores filtros y lo tratamos nuevamenta
    ## Adicinalmente nos volvemos a asegurar que no existan espacion en los valores
    for c in df.columns:
        df[c] = [str(i).strip().replace(' ','') if i!='O' else 0 for i in df[c].values]
    return df

In [11]:
def encontrar_key_word(keyword, black_list_keywords, file, verbose=False):
    '''
    Funcion para encontrar la pagina con la lista de keywords dada 
    Devuelve un diccionario con las paginas que coinciden y su respectiva tabla
    '''
    numeros = []
    resultado = {}
    paginas = ['-'.join((file + f'/{i}').split('-')[:-1]).replace('-text','') for i in os.listdir(file)]
    archivos = [(i+'-tables.csv', i+'-inreadingorder.txt') if 'text' in i else (i+'-tables.csv', i+'-text-inreadingorder.txt') for i in paginas]
    name = archivos[0][0][:archivos[0][0].find('-pdf')].strip()
    for table, text in archivos:
        with open(text, 'r') as file:
            f = file.read()
        if sum([k in f for k in keyword]) == len(keyword) and not sum([k in f for k in black_list_keywords]):
#             print(f[:f.find(keyword)+len(keyword)])
#             print('#'*60)
            i = text.find('page-') + len('page-')
            try:
                numero = int(text[i:i+3])
            except:
                try:
                    numero = int(text[i:i+2])
                except:
                    numero = int(text[i:i+1])
            if numero < 4:
                continue
            tabla = hay_tabla(table, verbose)
            if type(tabla) != str:
                resultado.setdefault(f'Pagina {numero}', hay_tabla(table))
                numeros += [numero]
    numeros = list(set(numeros))
    resultado = {k: v for k, v in resultado.items() if type(v) != None and type(k) != None}
    temp = {name: resultado}
    return {k: v for k, v in temp.items() if type(v) != None and type(k) != None}

In [12]:
bbva_dict ={'Ingresos por intereses':'ingresos_interes','Gastos por intereses':'gastos_intereses','Ingresos por primas (neto)':'ingresos_primas','Incremento neto de reservas técnicas': 'inc_net_reservas_tecnicas','Siniestralidad, reclamaciones y otras obligaciones contractuales (neto)':'siniestralidad', 'Margen financiero':'marg_fin','Estimación preventiva para riesgos crediticios':'estim_preventiva_riesgos_cred','Margen financiero ajustado por riesgos crediticios':'marg_fin_riesgos_cred','Comisiones y tarifas cobradas':'comision_tarifacobrada','Comisiones y tarifas pagadas':'comision_tarifapagada','Resultado por intermediación':'resultado_intermediacion','Otros ingresos (egresos) de la operación':'ingresos_operacion','Gastos de administración y promoción':'gastos_admon_promo','Resultado de la operación':'resultado_operacion','Participación en el resultado de subsidiarias no consolidadas y asociadas':'resul_no_consoli_asociada','Resultado antes de impuestos a la utilidad':'resul_antes_impues_util','Impuestos a la utilidad causados':'impuesto_util_causados','Impuestos a la utilidad diferidos (netos)':'impuesto_util_diferidos','Participación en el resultado de subsidiarias y asociadas':'result_subsidia_asociada','Resultado antes de operaciones discontinuadas':'result_antes_opera_disconti','Operaciones discontinuadas':'operacion_discontinuada','Participación no controladora':'particip_no_controladora','Resultado neto':'resultado_neto'}
santander_dict = {'Ingresos por intereses':'ingresos_interes','Gastos por intereses':'gastos_intereses','Ingresos por primas (neto)':'ingresos_primas','Incremento neto de reservas técnicas': 'inc_net_reservas_tecnicas','Siniestralidad, reclamaciones y otras obligaciones contractuales (neto)':'siniestralidad', 'Margen financiero':'marg_fin','Estimación preventiva para riesgos crediticios':'estim_preventiva_riesgos_cred','Margen financiero ajustado por riesgos crediticios':'marg_fin_riesgos_cred','Comisiones y tarifas cobradas':'comision_tarifacobrada','Comisiones y tarifas pagadas':'comision_tarifapagada','Resultado por intermediación':'resultado_intermediacion','Otros ingresos de la operación':'ingresos_operacion','Gastos de administración y promoción':'gastos_admon_promo','Resultado de la operación':'resultado_operacion','Participación en el resultado de asociadas':'resul_no_consoli_asociada','Resultado antes de impuestos a la utilidad':'resul_antes_impues_util','Impuestos a la utilidad causados':'impuesto_util_causados','Impuestos a la utilidad diferidos (neto)':'impuesto_util_diferidos','Participación en el resultado de subsidiarias y asociadas':'result_subsidia_asociada','Utilidad neta mayoritaria':'result_antes_opera_disconti','Operaciones discontinuadas':'operacion_discontinuada','Participación no controladora':'particip_no_controladora','Utilidad neta mayoritaria':'resultado_neto'}
banorte_dict = {'Ingresos por Interese':'ingresos_interes','Gastos por Interese':'gastos_intereses','Ingresos por Primas (Neto)':'ingresos_primas','Incremento neto de reservas técnicas': 'inc_net_reservas_tecnicas','Siniestros, Reclamaciones y Otras Obligaciones':'siniestralidad', 'Ingresos de Intereses Netos antes de Estim. Ptva. para Riesgos Cred.':'marg_fin','Provisiones Prev. para Riesgos crediticios':'estim_preventiva_riesgos_cred','Ingresos de Intereses Netos Ajustado por Riesgos Crediticios':'marg_fin_riesgos_cred','Comisiones por Servicios Cobrados':'comision_tarifacobrada','Comisiones por Servicios Pagados':'comision_tarifapagada','Ingresos por Intermediación':'resultado_intermediacion','Total Otros Ingresos (Egresos) de la Operación':'ingresos_operacion','Total Gasto No Financiero':'gastos_admon_promo','Resultado de la Operación':'resultado_operacion','Participación en subsidiarias y asociadas no consolidadas':'resul_no_consoli_asociada','Resultados Antes de Impuestos a la Utilidad':'resul_antes_impues_util','Impuestos a la utilidad causados Impuesto al Activo':'impuesto_util_causados','Impuestos a la utilidad diferidos':'impuesto_util_diferidos','Participación en el resultado de subsidiarias y asociadas':'result_subsidia_asociada','Resultados antes de operaciones discontinuadas':'result_antes_opera_disconti','Operaciones discontinuadas Participación no controladora':'particip_no_controladora','Utilidad Neta':'resultado_neto'}
all_dicts = {'BBVA':bbva_dict, 'Santander':santander_dict, 'Banorte':banorte_dict}


all_dicts_2 = {'BBVA':bbva_dict_2, 'Santander':santander_dict_2, 'Banorte':banorte_dict_2}

In [14]:
bbva_dict_2 = {'DISPONIBILIDADES':'disponible',
               'Cuentas de margen':'cta_margen',
               'INVERSIONES EN VALORES':'inversion_valores',
               'Títulos para negociar':'titulos_negociar',
               'Títulos disponibles para la venta':'titulos_disp_venta ',
               'Títulos conservados a vencimiento':'titulos_vencimiento',
               'Deudores por reporto':'deudores_reportos',
               'Derivados':'derivados',
               'Con Fines de Negociación':'fines_negociacion',
               'Con Fines de Cobertura':'fines_cobertura',
               'Ajustes de valuación por cobertura de activos financieros':'ajustes_cobertura_activos_finan',
               'TOTAL CARTERA DE CREDITO VIGENTE':'total_cartera_vigente',
               'TOTAL CARTERA DE CREDITO VENCIDA':'total_cartera_vencida',
               'TOTAL CARTERA DE CREDITO':'total_cartera_cred',
               'Estimación preventiva para riesgos crediticios':'estimacion_preven_riesgos_cred',
               'TOTAL DE CARTERA DE CREDITO (NETO)':'total_cartera_credito_neto',
               'Deudores por primas (neto)':'deudores_primas',
               'Cuentas por cobrar a reaseguradores y reafianzadores (neto)':'ctas_cobrar_reasegur_reafian',
               'Beneficios por recibir en operaciones de bursatilización':'beneficios_x_recibir_oper_burzatilizacion',
               'Otras cuentas por cobrar (neto)':'otras _cuentas_cobrar',
               'Bienes adjudicados (neto)':'bienes_adjudicados',
               'Inversiones permanentes':'inversione_permanente',
               'Activos de larga duración disponibles para la venta':'activos_disponibles_venta',
               'Impuestos y PTU diferidos (neto)':'impuesto_ptu_diferidos',
               'Cargos diferidos, pagos anticipados e intangibles':'cargo_difer_pago_anticipintang',
               'Otros activos':'otros_activos','TOTAL ACTIVO':'total_activo',
               'Inmuebles, mobiliario y equipo (neto)':'inmuebles_mob_eq'}

santander_dict_2 = {'Disponibilidades':'disponible',
                    'Cuentas de margen':'cta_margen',
                    'Inversiones en valores':'inversion_valores',
                    'Títulos para negociar':'titulos_negociar',
                    'Títulos disponibles para la venta':'titulos_disp_venta ',
                    'Títulos conservados a vencimiento':'titulos_vencimiento',
                    'Deudores por reporto':'deudores_reportos',
                    'Derivados':'derivados',
                    'Con fines de negociación':'fines_negociacion',
                    'Con fines de cobertura':'fines_cobertura',
                    'Ajustes de valuación por cobertura de activos financieros':'ajustes_cobertura_activos_finan',
                    'Cartera de crédito vigente':'total_cartera_vigente',
                    'Cartera de crédito vencida':'total_cartera_vencida',
                    'Total cartera de crédito':'total_cartera_cred',
                    'Estimación preventiva para riesgos crediticios':'estimacion_preven_riesgos_cred',
                    'Cartera de crédito (neto)':'total_cartera_credito_neto',
                    'Deudores por Primas (neto)':'deudores_primas',
                    'Ctas por cobrar a reaseguradores y reafianzadores':'ctas_cobrar_reasegur_reafian',
                    'Beneficios por recibir en operaciones de bursatilización':'beneficios_x_recibir_oper_burzatilizacion',
                    'Otras cuentas por cobrar (neto)':'otras _cuentas_cobrar',
                    'Bienes adjudicados (neto)':'bienes_adjudicados',
                    'Inversiones permanentes':'inversione_permanente',
                    'Activos de larga duración disponibles para la venta':'activos_disponibles_venta',
                    'diferidos (neto)':'impuesto_ptu_diferidos',
                    'Cargos diferidos, pagos anticipados e intangibles':'cargo_difer_pago_anticipintang',
                    'Otros activos a corto y largo plazo':'otros_activos',
                    'Total activo':'total_activo',
                    'Propiedades, mobiliario y equipo (neto)':'inmuebles_mob_eq'}

banorte_dict_2 = {'Disponibilidades':'disponible',
                'Cuentas de Margen':'cta_margen',
                'Inversiones en Valores':'inversion_valores',
                'Títulos para negociar':'titulos_negociar',
                'Títulos disponibles para la venta':'titulos_disp_venta ',
                'Títulos conservados a vencimiento':'titulos_vencimiento',
                'Deudores por reporto (saldo deudor)':'deudores_reportos',
                'Operaciones con Derivados':'derivados',
                'Con fines de negociación':'fines_negociacion',
                'Con fines de cobertura':'fines_cobertura',
                'Ajustes de valuación por cobertura de activos':'ajustes_cobertura_activos_finan',
                'Cartera de Crédito Vigente':'total_cartera_vigente',
                'Cartera de Crédito Vencida':'total_cartera_vencida',
                'Cartera de Crédito Total':'total_cartera_cred',
                'Reservas Prev. Riesgos Crediticios':'estimacion_preven_riesgos_cred',
                'Total de cartera de crédito (neto)':'total_cartera_credito_neto',
                'Deudores por Prima (Neto)':'deudores_primas', 
                'Ctas por cobrar a reaseguradores y reafianzadores':'ctas_cobrar_reasegur_reafian',
                'Beneficios por recibir en operaciones de Bursatilización':'beneficios_x_recibir_oper_burzatilizacion',
                'Otras Cuentas por cobrar, neto':'otras _cuentas_cobrar',
                'Bienes Adjudicados (Neto)':'bienes_adjudicados',
                'Inversiones permanentes':'inversione_permanente',
                'Activos de larga duración disponibles para la venta':'activos_disponibles_venta',
                'Impuestos diferidos, neto':'impuesto_ptu_diferidos', 
                'Cargos diferidos, pagos anticipados e intangibles':'cargo_difer_pago_anticipintang',
                'Otros activos':'otros_activos','TOTAL ACTIVOS':'total_activo',
                'Propiedades, mobiliario y equipo, neto':'inmuebles_mob_eq'}
all_dicts_2 = {'BBVA':bbva_dict_2, 'Santander':santander_dict_2, 'Banorte':banorte_dict_2}

In [15]:
bbva_dict_3 = {'CAPTACION TRADICIONAL':'capital_tradicional',
               'Depósitos de exigibilidad inmediata':'deposito_exigibilidad_inmediata',
               'Depósitos a plazo':'depositos_plazo',
               'Del Público en General':'deposito_publico_gral',
               'Mercado de Dinero':'deposito_mercado_dinero',
               'Titulos de crédito emitidos':'titulo_credito_emitidos',
               'Cuenta Global de Captación sin Movimientos':'cta_global_captacion_sinmov',
               'PRESTAMOS INTERBANCARIOS YDE OTROS ORGANISMOS':'prestamo_interbancario_organismos',
               'De corto plazo':'prestamo_corto_plazo',
               'De largo plazo':'prestamo_largo_plazo',
               'Reservas Técnicas':'reservas_tecnicas',
               'Acreedores por reporto':'acreedores_reporto',
               'Prestamos de valores':'prestamos_valores',
               'COLATERALES VENDIDOS O DADOS EN GARANTIA':'colaterales_vendido_garantia',
               'Reportos':'colateral_reportos',
               'Préstamo de Valores':'colateral_prestamo_valores',
               'DERIVADOS':'derivados',
               'Con fines de Negociación':'derivados_fines_negociacion',
               'Con fines de Cobertura':'derivados_fines_cobertura',
               'Ajustes de valuación por cobertura de pasivos financieros':'ajustes_cobertura_pasivos_finan',
               'Cuentas por pagar a reaseguradores y reafianzadores (neto)':'ctas_pagar_reasegur_reafian',
               'OTRAS CUENTAS POR PAGAR':'otras cuentas_pagar',
               'Impuestos a la utilidad por pagar':'impuestos_utilidad_pagar',
               'Participación de los Trabajadores en las Utilidades por pagar':'part_trabajadores_utilidades_x_pagar',
               'Acreedores por liquidación de operaciones':'acreedores_liquida_operaciones',
               'Acreedores por cuentas de margen':'acreedores_cuentas_margen',
               'Acreedores por colaterales recibidos en efectivo':'acreedores_colateral recibido_ efec',
               'Acreedores diversos y otras cuentas por pagar':'acreedores_diversos',
               'Obligaciones subordinadas en circulacion':'obligacion_subordinada_circulación',
               'Créditos diferidos y cobros anticipados':'credito_diferido_cobroanticipado',
               'TOTAL PASIVO':'total_pasivo',
               'CAPITAL CONTRIBUIDO':'capital_contibuido',
               'Capital social':'capital_social',
               'Prima en venta de acciones':'prima_venta_acciones',
               'CAPITAL GANADO':'capital_ganado',
               'Reservas de capital':'reservas_capital',
               'Resultado de ejercicios anteriores':'resul_ejercicio_anterior',
               'Resultado por valuación de títulos disponibles para la venta':'resul_títulos_ disponibles_venta',
               'Resultado por valuación de instrumentos de cobertura de flujos de efect':'resul_cobertura_flujo_efectivo',
               'Efecto acumulado por conversión':'efecto_acumul_conversión',
               'Remediciones por Beneficios Definidos a los Empleados':'remediciones_beneficios_emple',
               'Resultado neto':'resultado_neto',
               'Participación no controladora':'participacion_nocontroladora',
               'TOTAL CAPITAL CONTABLE':'total_capital_contable',
               'TOTAL PASIVO Y CAPITAL CONTABLE':'total_pasivo_capital'}

santander_dict_3 = {'Captación':'capital_tradicional',
                    'De exigibilidad inmediata':'deposito_exigibilidad_inmediata',
                    'Depósitos a plazo':'depositos_plazo',
                    'Depósitos a plazo - público en general':'deposito_publico_gral',
                    'Depósitos a plazo - mercado de dinero':'deposito_mercado_dinero',
                    'Títulos de crédito emitidos':'titulo_credito_emitidos',
                    'Cuenta global de captación sin movimientos':'cta_global_captacion_sinmov',
                    'Préstamos bancarios y de otros organismos':'prestamo_interbancario_organismos',
                    'De corto plazo':'prestamo_corto_plazo',
                    'De largo plazo':'prestamo_largo_plazo',
                    'Reservas Técnicas':'reservas_tecnicas', 
                    'Acreedores por reporto':'acreedores_reporto',
                    'Préstamo de valores':'prestamos_valores',
                    'Colaterales vendidos o dados en garantía':'colaterales_vendido_garantia', 
                    'Reportos':'colateral_reportos',
                    'Préstamo de valores':'colateral_prestamo_valores',
                    'Derivados':'derivados',
                    'Con fines de negociación':'derivados_fines_negociacion',
                    'Con fines de cobertura':'derivados_fines_cobertura',
                    'Ajuste de valuación por cobertura de pasivos financieros':'ajustes_cobertura_pasivos_finan',
                    'Cuentas por pagar a Reaseguradores y Reafianzadores (Neto)':'ctas_pagar_reasegur_reafian', 
                    'Otras cuentas por pagar':'otras cuentas_pagar',
                    'Impuestos a la Utilidad por pagar':'impuestos_utilidad_pagar', 
                    'Participación de los trabajadores en las utilidades por pagar':'part_trabajadores_utilidades_x_pagar',
                    'Acreedores por liquidación de operaciones':'acreedores_liquida_operaciones',
                    'Acreedores por cuentas de margen':'acreedores_cuentas_margen',
                    'Acreedores por colaterales recibidos en efectivo':'acreedores_colateral recibido_ efec',
                    'Acreedores diversos y otras cuentas por pagar':'acreedores_diversos',
                    'Obligaciones subordinadas en circulación':'obligacion_subordinada_circulacion',
                    'Créditos diferidos y cobros anticipados':'credito_diferido_cobroanticipado',
                    'Total pasivo':'total_pasivo',
                    'Capital contribuido':'capital_contibuido',
                    'Capital social':'capital_social',
                    'Prima en venta de acciones':'prima_venta_acciones',
                    'Capital ganado':'capital_ganado',
                    'Reservas de capital':'reservas_capital',
                    'Resultado de ejercicios anteriores':'resul_ejercicio_anterior',
                    'Resultado por valuación de títulos disponibles para la venta':'resul_títulos_ disponibles_venta',
                    'Resultado por valuación de instrumentos de cobertura de flujos':'resul_cobertura_flujo_efectivo',
                    'Efecto acumulado por conversión':'efecto_acumul_conversión',
                    'Remediciones por beneficios definidos a los empleados':'remediciones_beneficios_emple',
                    'Resultado neto':'resultado_neto',
                    'Participación no controladora':'participacion_nocontroladora',
                    'Total capital contable':'total_capital_contable',
                    'Total pasivo y capital contable':'total_pasivo_capital'}


banorte_dict_3 = {'CAPTACION TRADICIONAL':'capital_tradicional',
                  'Depósitos exigibilidad inmediata':'deposito_exigibilidad_inmediata',
                  'Depósitos a plazo':'depositos_plazo',
                  'Depósitos a plazo-Del Público en General':'deposito_publico_gral',
                  'Depósitos a plazo-Mercado de Dinero':'deposito_mercado_dinero',
                  'Títulos de crédito emitidos':'titulo_credito_emitidos',
                  'Captación de Recursos':'cta_global_captacion_sinmov',
                  'Préstamos de Bancos y otros':'prestamo_interbancario_organismos',
                  'De corto plazo':'prestamo_corto_plazo',
                  'De largo plazo':'prestamo_largo_plazo',
                  'Reservas Técnicas':'reservas_tecnicas',
                  'Acreedores por reporto':'acreedores_reporto',
                  'Préstamos de Valores':'prestamos_valores',
                  'Total de Colaterales vendidos o dados en':'colaterales_vendido_garantia',
                  'Reportos (saldo acreedor)':'colateral_reportos',
                  'Préstamos de valores':'colateral_prestamo_valores',
                  'Operaciones con valores y derivados':'derivados',
                  'Con fines de negociación':'derivados_fines_negociacion',
                  'Con fines de cobertura':'derivados_fines_cobertura',
                  'Ajustes de valuación por cobertura de pasivos':'ajustes_cobertura_pasivos_finan',
                  'Cuentas por pagar a Reaseguradores y Reafianzadores (Neto)':'ctas_pagar_reasegur_reafian',
                  'Otras cuentas por pagar':'otras cuentas_pagar',
                  'Impuestos a la Utilidad por pagar':'impuestos_utilidad_pagar',
                  'Participación de los trabajadores en la utili.':'part_trabajadores_utilidades_x_pagar',
                  'Acreedores por liquidación de operaciones':'acreedores_liquida_operaciones',
                  'Acreedores por cuentas de margen':'acreedores_cuentas_margen',
                  'Acreedores por colaterales recibidos en efectivo':'acreedores_colateral recibido_ efec',
                  'Acreedores Diver. y otras ctas. p/pagar':'acreedores_diversos',
                  'Obligaciones subordinadas en circulación':'obligacion_subordinada_circulacion',
                  'Créditos diferidos y Cobros Anticipados':'credito_diferido_cobroanticipado',
                  'TOTAL PASIVOS':'total_pasivo',
                  'CAPITAL':'capital_contibuido',
                  'Capital Social':'capital_social',
                  'Prima en venta de acciones':'prima_venta_acciones',
                  'Capital Ganado':'capital_ganado',
                  'Reservas de capital':'reservas_capital',
                  'Resultado de ejercicios anteriores':'resul_ejercicio_anterior',
                  'Res. por valuación de títulos disponibles para la venta':'resul_títulos_ disponibles_venta',
                  'Res. por valuación de instrumentos de cobertura de flujos de efectivo':'resul_cobertura_flujo_efectivo',
                  'Efecto acumulado por conversión':'efecto_acumul_conversión',
                  'Remediciones por beneficios definidos a los empleados':'remediciones_beneficios_emple',
                  'Resultado neto':'resultado_neto',
                  'Participación no controladora':'participacion_nocontroladora',
                  'Total Capital Contable':'total_capital_contable',
                  'TOTAL PASIVOS Y CAPITAL':'total_pasivo_capital'}

all_dicts_3 = {'BBVA':bbva_dict_3, 'Santander':santander_dict_3, 'Banorte':banorte_dict_3}

In [259]:
def ab_team(params: dict, verbose=False):
    '''
    Params: diccionario con toda la informacion necesaria para encontrar la informacion en todos los bancons
    '''
    dfs = {}
    for key, value in params.items():
        if key != 'dicts' and key != 'data_path' and key!='file_name':
#                 print(key)
            try:
                dfs.setdefault(key, m_f(value['keywords'], value['black_list'], key, copy.copy(value['white_list']), params['data_path'],verbose))
            except Exception as e:
                print(f'No se encontro ninguna coincidencia para {key}, prueba a usar menos criterios en black list y mas en keywords')
                print(e)
                
    all_dicts = list(params['dicts'].values())
#     return all_dicts
    
    for banco, df in dfs.items():
        df.rename(columns=params['dicts'][banco],inplace=True)
#         print(banco, df.columns)

    for i in range(len(dfs)-1):
        if i == 0:
            data_merged = dfs[list(dfs.keys())[i]].append(dfs[list(dfs.keys())[i+1]], ignore_index=True)
        else:
            data_merged = data_merged.append(dfs[list(dfs.keys())[i+1]], ignore_index=True)
    #####Hacer rbind a las tablas
#     return data_merged
    dic = [list(i.values()) for i in all_dicts][0] + ['periodos', 'Banc']
    dic = [i.replace(' ','') for i in dic]
    cols = list(data_merged.columns)
    for i in cols:
        if i in dic:
            pass
#             print('Esta en el diccionario', i)
        else:
            pass
#             print('FALTAAAAAAA', i)
    data_merged = data_merged[[i for i in cols if i in dic]]
    k = {'Mar':'1T', 'Jun':'2T', 'Sep':'3T','Dic':'4T',
        '1T':'1T', '2T':'2T', '3T':'3T','4T':'4T',}
    
#     print(data_merged[list(data_merged.columns)[0]])
    data_merged[data_merged.columns[0]] = data_merged[data_merged.columns[0]].apply(lambda x: str(x).replace(x,k[x[:-2]]+x[-2:]))
#     print(data_merged[list(data_merged.columns)[0]])
#     print(params['file_name'])
#     print(params['file_name'].split('/'))
    if not os.path.exists('/'.join(params['file_name'].split('/')[:-1])):
        os.makedirs('/'.join(params['file_name'].split('/')[:-1]))
    data_merged.replace('nan',None,inplace=True)
    data_merged.to_csv(params['file_name'], index=False)
    return data_merged

In [260]:
params = {
    
    'data_path': '../Data',
    
    'file_name':'../3_tablas_data_base/estado_resultados_consolidados.csv',
    
    'BBVA': 
    {
     'keywords':['Estado de Resultados Consolidado'],
     'black_list': [],
     'white_list': ['1T21', '2T21']  
    },
    
    'Santander':
    {
     'keywords':['Estado de resultados consolidado'],
     'black_list': [],
     'white_list': ['2T21']          
    },
    
    'Banorte':
    {
     'keywords':['Estado de Resultados-GFNorte'],
     'black_list': [],
     'white_list': ['2T21_Reporte_trimestral']          
    },
    
    'dicts': all_dicts
}

In [261]:
params_2 = {
    
    'data_path': '../Data',
    
    'file_name':'../3_tablas_data_base/balance_general_activos.csv',
    
    'BBVA': 
    {
     'keywords':['Balance General'],
     'black_list': ['Cuentas de Orden'],
     'white_list': ['1T21', '2T21']  
    },
    
    'Santander':
    {
     'keywords':['Balance general consolidado'],
     'black_list': ['segmento'],
     'white_list': ['2T21']          
    },
    
    'Banorte':
    {
     'keywords':['GFNorte - Balance General'],
     'black_list': ['PASIVOS'],
     'white_list': ['2T21_Reporte_trimestral']          
    },
    
    'dicts': all_dicts_2
}

In [262]:
params_3 = {
    
    'data_path': '../Data',
    
    'file_name':'../3_tablas_data_base/balance_general_pasivos.csv',
    
    'BBVA': 
    {
     'keywords':['Pasivo y Capital'],
     'black_list': [],
     'white_list': ['1T21', '2T21']  
    },
    
    'Santander':
    {
     'keywords':['Balance General Consolidado'],
     'black_list': ['Banca', 'Estado de Resultados Consolidado'],
     'white_list': ['2T21']          
    },
    
    'Banorte':
    {
     'keywords':['GFNorte - Balance General'],
     'black_list': ['ACTIVOS', 'IXE'],
     'white_list': ['2T21_Reporte_trimestral']          
    },
    
    'dicts': all_dicts_3
}

In [263]:
prueba = {
    
    'data_path': '../Data',
    
    'file_name':'../3_tablas_data_base/prueba.csv',
    
    'BBVA': 
    {
     'keywords':['Pasivo y Capital'],
     'black_list': [],
     'white_list': ['1T21', '2T21']  
    },
    
    'Santander':
    {
     'keywords':['Balance General Consolidado'],
     'black_list': ['Banca', 'Estado de Resultados Consolidado'],
     'white_list': ['2T21']          
    },
    
    'Banorte':
    {
     'keywords':['GFNorte - Balance General'],
     'black_list': ['ACTIVOS', 'IXE'],
     'white_list': ['2T21_Reporte_trimestral']          
    },
    
    'dicts': all_dicts_3
}

In [268]:
df = ab_team(params, False)

  df.colums = [str(i).strip() for i in list(df.columns)]
