In [1]:
from google.colab import drive
import pickle

# üìå Montar Google Drive
drive.mount('/content/drive')

# üìå Ruta del archivo guardado
ruta_carga = "/content/drive/MyDrive/Datos/1_ArchivosLeidos.pkl"


# üìå Cargar el diccionario de DataFrames desde el archivo .pkl
with open(ruta_carga, "rb") as f:
    dataframes = pickle.load(f)

# üìå Confirmaci√≥n
print(f"\n‚úÖ DataFrames cargados exitosamente desde: {ruta_carga}")
print(f"üìä Total de archivos en el diccionario: {len(dataframes)}")


# üìå Verificar en qu√© DataFrames falta la columna 'NIT' antes de la correcci√≥n
initial_missing_nit_keys = [key for key, df in dataframes.items() if 'NIT' not in df.columns]

# üì¢ Mostrar las bases donde no estaba estandarizado el nombre
if initial_missing_nit_keys:
    print("‚ö†Ô∏è Advertencia: Antes de la correcci√≥n, la columna 'NIT' no estaba presente en las siguientes claves:")
    for key in initial_missing_nit_keys:
        print(f"   ‚ùå {key}")
else:
    print("‚úÖ Todas las bases ya ten√≠an la columna 'NIT' correctamente nombrada.")

# üìå Estandarizar el nombre de la columna "Nit" a "NIT" en todos los DataFrames
for key, df in dataframes.items():
    if 'Nit' in df.columns:
        df.rename(columns={'Nit': 'NIT'}, inplace=True)

# üìå Verificar en qu√© DataFrames sigue faltando la columna 'NIT' despu√©s del cambio
final_missing_nit_keys = [key for key, df in dataframes.items() if 'NIT' not in df.columns]

# üì¢ Mostrar el resultado final
if final_missing_nit_keys:
    print("‚ö†Ô∏è Advertencia: La columna 'NIT' sigue sin estar presente en las siguientes claves despu√©s del cambio:")
    for key in final_missing_nit_keys:
        print(f"   ‚ùå {key}")
else:
    print("‚úÖ La columna 'NIT' ahora est√° presente en todas las bases de datos.")


from termcolor import colored  # Para colores en la terminal (opcional en Colab)

# üìå Funci√≥n para verificar consistencia de NITs en cada periodo
def verificar_consistencia_nits(years, keys):
    inconsistent_years = []

    for year in years:
        nit_sets = []
        valid_keys = [key.format(year) for key in keys if key.format(year) in dataframes]

        if len(valid_keys) == len(keys):
            for key in valid_keys:
                nit_sets.append(set(dataframes[key]['NIT']))

            if not all(nit_sets[0] == s for s in nit_sets):
                inconsistent_years.append(year)

    return inconsistent_years

# üìå **1Ô∏è‚É£ Verificaci√≥n Inicial**
print("\nüîé **Verificaci√≥n Inicial de Consistencia de NITs**")

inconsistencias_p1 = verificar_consistencia_nits(list(range(1995, 2004)) + [2007], ['{}_BG_ER', '{}_FE'])
inconsistencias_p2 = verificar_consistencia_nits(list(range(2004, 2007)) + list(range(2008, 2016)), ['{}_BG', '{}_FE', '{}_ER'])
inconsistencias_p3_py = verificar_consistencia_nits(list(range(2016, 2024)), ['{}_PY_CA', '{}_PY_FE', '{}_PY_ORI', '{}_PY_ER', '{}_PY_SF'])
inconsistencias_p3_pl = verificar_consistencia_nits(list(range(2016, 2024)), ['{}_PL_CA', '{}_PL_FE', '{}_PL_ORI', '{}_PL_ER', '{}_PL_SF'])

# üì¢ Mostrar resultados iniciales
if inconsistencias_p1:
    print(colored(f"‚ö†Ô∏è Inconsistencias encontradas en el **Periodo 1**: {inconsistencias_p1}", "red"))
else:
    print(colored("‚úÖ Todos los NITs son consistentes en el **Periodo 1**.", "green"))

if inconsistencias_p2:
    print(colored(f"‚ö†Ô∏è Inconsistencias encontradas en el **Periodo 2**: {inconsistencias_p2}", "red"))
else:
    print(colored("‚úÖ Todos los NITs son consistentes en el **Periodo 2**.", "green"))

if inconsistencias_p3_py:
    print(colored(f"‚ö†Ô∏è Inconsistencias en las PYMES en el **Periodo 3**: {inconsistencias_p3_py}", "red"))
else:
    print(colored("‚úÖ Todos los NITs en PYMES son consistentes en el **Periodo 3**.", "green"))

if inconsistencias_p3_pl:
    print(colored(f"‚ö†Ô∏è Inconsistencias en las PLENAS en el **Periodo 3**: {inconsistencias_p3_pl}", "red"))
else:
    print(colored("‚úÖ Todos los NITs en PLENAS son consistentes en el **Periodo 3**.", "green"))


# üìå **2Ô∏è‚É£ Correcci√≥n de inconsistencias en 2001**
if 2001 in inconsistencias_p1:
    print("\n‚ö†Ô∏è **Corrigiendo inconsistencias en 2001...**")

    # üìå Obtener los conjuntos de NIT para 2001_BG_ER y 2001_FE
    nit_2001_BG_ER = set(dataframes['2001_BG_ER']['NIT'])
    nit_2001_FE = set(dataframes['2001_FE']['NIT'])

    # üìå Detectar las discrepancias
    nit_discrepancia_BG_ER = nit_2001_BG_ER - nit_2001_FE
    nit_discrepancia_FE = nit_2001_FE - nit_2001_BG_ER

    # üìå Identificar las filas que contienen los NITs en conflicto
    filas_discrepancia_BG_ER = dataframes['2001_BG_ER'][dataframes['2001_BG_ER']['NIT'].isin(nit_discrepancia_BG_ER)].index
    filas_discrepancia_FE = dataframes['2001_FE'][dataframes['2001_FE']['NIT'].isin(nit_discrepancia_FE)].index

    # üì¢ Mostrar los √≠ndices de las filas a eliminar
    print("üìå Fila(s) en 2001_BG_ER a eliminar:", list(filas_discrepancia_BG_ER))
    print("üìå Fila(s) en 2001_FE a eliminar:", list(filas_discrepancia_FE))

    # üìå Eliminar las filas con discrepancias
    dataframes['2001_BG_ER'].drop(filas_discrepancia_BG_ER, inplace=True)
    dataframes['2001_FE'].drop(filas_discrepancia_FE, inplace=True)

    print("‚úÖ Se han eliminado las filas con discrepancias en los NITs de 2001.")


# üìå **3Ô∏è‚É£ Verificaci√≥n Final**
print("\nüîé **Verificaci√≥n Final de Consistencia de NITs**")

inconsistencias_p1 = verificar_consistencia_nits(list(range(1995, 2004)) + [2007], ['{}_BG_ER', '{}_FE'])
inconsistencias_p2 = verificar_consistencia_nits(list(range(2004, 2007)) + list(range(2008, 2016)), ['{}_BG', '{}_FE', '{}_ER'])
inconsistencias_p3_py = verificar_consistencia_nits(list(range(2016, 2024)), ['{}_PY_CA', '{}_PY_FE', '{}_PY_ORI', '{}_PY_ER', '{}_PY_SF'])
inconsistencias_p3_pl = verificar_consistencia_nits(list(range(2016, 2024)), ['{}_PL_CA', '{}_PL_FE', '{}_PL_ORI', '{}_PL_ER', '{}_PL_SF'])

# üì¢ Mostrar resultados finales
if inconsistencias_p1:
    print(colored(f"‚ö†Ô∏è Inconsistencias encontradas en el **Periodo 1** despu√©s de la correcci√≥n: {inconsistencias_p1}", "red"))
else:
    print(colored("‚úÖ Todos los NITs son consistentes en el **Periodo 1** despu√©s de la correcci√≥n.", "green"))

if inconsistencias_p2:
    print(colored(f"‚ö†Ô∏è Inconsistencias encontradas en el **Periodo 2** despu√©s de la correcci√≥n: {inconsistencias_p2}", "red"))
else:
    print(colored("‚úÖ Todos los NITs son consistentes en el **Periodo 2** despu√©s de la correcci√≥n.", "green"))

if inconsistencias_p3_py:
    print(colored(f"‚ö†Ô∏è Inconsistencias en las PYMES en el **Periodo 3** despu√©s de la correcci√≥n: {inconsistencias_p3_py}", "red"))
else:
    print(colored("‚úÖ Todos los NITs en PYMES son consistentes en el **Periodo 3** despu√©s de la correcci√≥n.", "green"))

if inconsistencias_p3_pl:
    print(colored(f"‚ö†Ô∏è Inconsistencias en las PLENAS en el **Periodo 3** despu√©s de la correcci√≥n: {inconsistencias_p3_pl}", "red"))
else:
    print(colored("‚úÖ Todos los NITs en PLENAS son consistentes en el **Periodo 3** despu√©s de la correcci√≥n.", "green"))


# üìå Creaci√≥n de la base inicial con columnas NIT y A√ëO
import pandas as pd

# Crear DataFrame vac√≠o para la BaseInicial
base_inicial = pd.DataFrame(columns=['NIT', 'A√±o'])

# üìå Funci√≥n para extraer NIT y A√±o de cada base de datos y a√±adirlos a base_inicial
def agregar_a_base_inicial(years, key_template):
    global base_inicial  # Para modificar la variable fuera de la funci√≥n
    for year in years:
        key = key_template.format(year)

        if key in dataframes:
            df = dataframes[key]

            # Extraer valores de NIT y A√±o
            nit_values = df['NIT'].values
            year_values = [year] * len(nit_values)

            # Agregar al DataFrame base_inicial
            base_inicial = pd.concat([base_inicial, pd.DataFrame({'NIT': nit_values, 'A√±o': year_values})], ignore_index=True)
        else:
            print(f"‚ö†Ô∏è No se encontraron datos para {key}.")

# üìå Periodo 1: A√±os 1995-2003 y 2007 (_BG_ER)
agregar_a_base_inicial(list(range(1995, 2004)) + [2007], "{}_BG_ER")

# üìå Periodo 2: A√±os 2004-2015 (excepto 2007) (_BG)
agregar_a_base_inicial(list(range(2004, 2007)) + list(range(2008, 2016)), "{}_BG")

# üìå Periodo 3: A√±os 2016-2022 (_PY_CA y _PL_CA)
for year in range(2016, 2024):
    for key_template in ["{}_PY_CA", "{}_PL_CA"]:
        agregar_a_base_inicial([year], key_template)

# üìå Mostrar resultados
print("\nüîé **Vista previa de la Base Inicial creada**")
print(base_inicial.head())
print(base_inicial.tail())
print(f"\n‚úÖ Total de registros en `base_inicial`: {len(base_inicial)}")



import difflib
from tqdm import tqdm  # Barra de progreso

# Definir los sufijos para cada periodo
period_1_suffixes = ['_BG_ER']
period_2_suffixes = ['_BG']
period_3_suffixes = ['_PY_CA', '_PL_CA']

# Definir los a√±os por periodo
years_period_1 = list(range(1995, 2004)) + [2007]
years_period_2 = list(range(2004, 2007)) + list(range(2008, 2016))
years_period_3 = list(range(2016, 2024))

# Definir las columnas a buscar para cada variable
columns_to_search = {
    'Ciudad': ['Ciudad', 'CIUDAD', 'Ciudad de la direcci√≥n del domicilio'],
    'CIIU': ['CIIU', 'Clasificaci√≥n Industrial Internacional Uniforme Versi√≥n 4 A.C', 'Clasificaci√≥n Industrial Internacional Uniforme Versi√≥n 4 A.C (CIIU)'],
    'DEP': ['Dpto','DPTO', 'DEPTO', 'Departamento', 'DEPARTAMENTO', 'Departamento de la direcci√≥n del domicilio']  # üìå Cambio de 'Dpto' a 'DEP'
}

# Cambiar nombres de columnas en todas las bases de datos
for variable, nombres_columnas in columns_to_search.items():
    for key, dataframe in dataframes.items():
        for column_to_search in nombres_columnas:
            if column_to_search in dataframe.columns:
                dataframe.rename(columns={column_to_search: variable}, inplace=True)

# Verificar que las columnas existen en todas las bases de datos
for column in ['Ciudad', 'CIIU', 'DEP']:  # üìå Incluido 'DEP'
    for suffixes, years in zip([period_1_suffixes, period_2_suffixes, period_3_suffixes], [years_period_1, years_period_2, years_period_3]):
        for suffix in suffixes:
            for year in years:
                key = f'{year}{suffix}'
                if key in dataframes and column not in dataframes[key].columns:
                    print(f"‚ö†Ô∏è La columna '{column}' no se encontr√≥ en '{key}'")

# Crear las columnas CI, CIIU y DEP en base_inicial
base_inicial['Ciudad'] = None
base_inicial['CIIU'] = None
base_inicial['DEP'] = None  # üìå Cambio de 'Dpto' a 'DEP'

# Iterar sobre cada fila de base_inicial con barra de progreso
print("\nüîÑ **Procesando datos...**")
for index, row in tqdm(base_inicial.iterrows(), total=len(base_inicial), desc="Progreso"):

    nit = row['NIT']
    year = row['A√±o']

    # Determinar sufijo
    if 1995 <= year <= 2003 or year == 2007:
        suffix = '_BG_ER'
    elif 2004 <= year <= 2015 and year != 2007:
        suffix = '_BG'
    elif 2016 <= year <= 2023:
        suffix = '_PY_CA'
        db_name = f"{year}{suffix}"
        if db_name in dataframes and nit in dataframes[db_name]['NIT'].values:
            suffix = '_PY_CA'
        else:
            suffix = '_PL_CA'
    else:
        continue  # A√±o inv√°lido, no hacer nada

    # Crear nombre de la base de datos
    db_name = f"{year}{suffix}"

    # Verificar si la base de datos existe
    if db_name in dataframes:
        df = dataframes[db_name]
        match = df[df['NIT'] == nit]
        if not match.empty:
            base_inicial.at[index, 'Ciudad'] = match['Ciudad'].values[0]
            base_inicial.at[index, 'CIIU'] = match['CIIU'].values[0]

            # üìå Agregar el Departamento (ahora llamado "DEP")
            if 'DEP' in match.columns:
                base_inicial.at[index, 'DEP'] = match['DEP'].values[0]

# ‚úÖ **Verificaci√≥n final**
print("\nüìå **Verificando que todas las filas tengan valores en Ciudad, CIIU y DEP:**")
missing_ci = base_inicial['Ciudad'].isna().sum()
missing_ciiu = base_inicial['CIIU'].isna().sum()
missing_dep = base_inicial['DEP'].isna().sum()
print(f"üîç Faltan {missing_ci} valores en 'Ciudad'")
print(f"üîç Faltan {missing_ciiu} valores en 'CIIU'")
print(f"üîç Faltan {missing_dep} valores en 'DEP'")  # üìå Verificaci√≥n adicional

# ‚úÖ **Mostrar resultados finales**
from IPython.display import display
print("\nüìå **Base Inicial despu√©s de agregar Ciudad, CIIU y DEP:**")
display(base_inicial)

print("‚úÖ ¬°Proceso completado!")



import difflib
from tqdm import tqdm  # Barra de progreso

# Definir los sufijos para cada periodo
period_1_suffixes = ['_BG_ER']
period_2_suffixes = ['_BG']
period_3_suffixes = ['_PY_SF', '_PL_SF']

# Definir los a√±os por periodo
years_period_1 = list(range(1995, 2004)) + [2007]
years_period_2 = list(range(2004, 2007)) + list(range(2008, 2016))
years_period_3 = list(range(2016, 2024))

# Definir las cuentas a buscar para cada variable
accounts_to_search = {
    'AC': ['0 TOTAL ACTIVO CORRIENTE','TOTAL ACTIVO CORRIENTE  ','TOTAL ACTIVO CORRIENTE','_TOTAL_ACTIVO_CORRIENTE','Activos corrientes totales (CurrentAssets)'],
    'I': ['14 SUBTOTAL INVENTARIOS','14 SUBTOTAL INVENTARIOS  (CP)','14 SUBTOTAL INVENTARIOS (CP)','14 SUBTOTAL INVENTARIOS  (CP)','_14_SUBTOTAL_INVENTARIOS_CP_','Inventarios corrientes (Inventories)'],
    'AF': ['15 PROPIEDADES PLANTA Y EQUIPO NETO               ','15 PROPIEDADES PLANTA Y EQUIPO(ANEXO 9) ','15 PROPIEDADES PLANTA Y EQUIPO','15 PROPIEDADES PLANTA Y EQUIPO(ANEXO 9)','_15_PROPIEDADES_PLANTA_Y_EQUIPO','Propiedades, planta y equipo (PropertyPlantAndEquipment)'],
    'AT': ['0 TOTAL ACTIVO                                    ','TOTAL ACTIVO  ','TOTAL ACTIVO','_TOTAL_ACTIVO','Total de activos (Assets)'],
    'PN': ['0 TOTAL PATRIMONIO                                ','TOTAL PATRIMONIO','_TOTAL_PATRIMONIO','Patrimonio total (Equity)'],
    'PLP': ['0 TOTAL PASIVO NO CORRIENTE                       ','TOTAL PASIVO NO CORRIENTE ','TOTAL PASIVO NO CORRIENTE','_TOTAL_PASIVO_NO_CORRIENTE','Total de pasivos no corrientes (NoncurrentLiabilities)'],
    'PCP': ['0 TOTAL PASIVO CORRIENTE','TOTAL PASIVO CORRIENTE ','TOTAL PASIVO CORRIENTE','_TOTAL_PASIVO_CORRIENTE_','Pasivos corrientes totales (CurrentLiabilities)' ],
    'PT': ['0 TOTAL PASIVO                                    ','TOTAL PASIVO','_TOTAL_PASIVO','Total pasivos (Liabilities)'],
    'CPC': ['13 SUBTOTAL DEUDORES CORTO PLAZO','13 SUBTOTAL DEUDORES (CP)','13 SUBTOTAL DEUDORES (CP)','_13_SUBTOTAL_DEUDORES_CP_','Cuentas comerciales por cobrar y otras cuentas por cobrar no corrientes (NoncurrentReceivables)'],
    'CPP': ['23 SUBTOTAL CUENTAS POR PAGAR CORTO PLAZO','23 SUBTOTAL CUENTAS POR PAGAR (CP)','23 SUBTOTAL CUENTAS POR PAGAR (CP)','_23_SUBTOTAL_CUENTAS_POR_PAGAR_CP_','Cuentas comerciales por pagar y otras cuentas por pagar no corrientes (NoncurrentPayables)']
}

# Cambiar nombres de columnas en todas las bases de datos
for variable, nombres_columnas in accounts_to_search.items():
    for key, dataframe in dataframes.items():
        for column_to_search in nombres_columnas:
            if column_to_search in dataframe.columns:
                dataframe.rename(columns={column_to_search: variable}, inplace=True)

# Verificar que las columnas existen en todas las bases de datos
for column in accounts_to_search.keys():
    for suffixes, years in zip([period_1_suffixes, period_2_suffixes, period_3_suffixes], [years_period_1, years_period_2, years_period_3]):
        for suffix in suffixes:
            for year in years:
                key = f'{year}{suffix}'
                if key in dataframes and column not in dataframes[key].columns:
                    print(f"‚ö†Ô∏è La columna '{column}' no se encontr√≥ en '{key}'")

# Crear las nuevas columnas en base_inicial
for variable in accounts_to_search.keys():
    base_inicial[variable] = None

# Iterar sobre cada fila de base_inicial con barra de progreso
print("\nüîÑ **Procesando datos del activo...**")
for index, row in tqdm(base_inicial.iterrows(), total=len(base_inicial), desc="Progreso"):

    nit = row['NIT']
    year = row['A√±o']

    # Determinar sufijo
    if 1995 <= year <= 2003 or year == 2007:
        suffix = '_BG_ER'
    elif 2004 <= year <= 2015 and year != 2007:
        suffix = '_BG'
    elif 2016 <= year <= 2023:
        suffix = '_PY_SF'
        db_name = f"{year}{suffix}"
        if db_name in dataframes and nit in dataframes[db_name]['NIT'].values:
            suffix = '_PY_SF'
        else:
            suffix = '_PL_SF'
    else:
        continue  # A√±o inv√°lido, no hacer nada

    # Crear nombre de la base de datos
    db_name = f"{year}{suffix}"

    # Verificar si la base de datos existe
    if db_name in dataframes:
        df = dataframes[db_name]
        match = df[df['NIT'] == nit]
        if not match.empty:
            for column in accounts_to_search.keys():
                base_inicial.at[index, column] = match[column].values[0] if column in match.columns else None

# ‚úÖ **Verificaci√≥n final**
print("\nüìå **Verificando que todas las filas tengan valores en las cuentas del activo:**")
for column in accounts_to_search.keys():
    missing_values = base_inicial[column].isna().sum()
    print(f"üîç Faltan {missing_values} valores en '{column}'")

# ‚úÖ **Mostrar resultados finales**
from IPython.display import display
print("\nüìå **Base Inicial despu√©s de agregar cuentas del activo:**")
display(base_inicial)

print("‚úÖ ¬°Proceso completado!")


import difflib
from tqdm import tqdm  # Barra de progreso

# Definir los sufijos para cada periodo
period_1_suffixes = ['_BG_ER']
period_2_suffixes = ['_ER']
period_3_suffixes = ['_PY_ER', '_PL_ER']

# Definir los a√±os por periodo
years_period_1 = list(range(1995, 2004)) + [2007]
years_period_2 = list(range(2004, 2007)) + list(range(2008, 2016))
years_period_3 = list(range(2016, 2024))

# Definir las cuentas a buscar para cada variable
accounts_to_search = {
    'UN': ['59 GANANCIAS Y PERDIDAS                           ','59 GANANCIAS Y PERDIDAS','_59_GANANCIAS_Y_PERDIDAS','Ganancia (p√©rdida) (ProfitLoss)'],
    'V': ['41 INGRESOS OPERACIONALES                         ','41 INGRESOS OPERACIONALES (ANEXO 1)','41 INGRESOS OPERACIONALES ','41 INGRESOS OPERACIONALES (ANEXO  1)','_41_INGRESOS_OPERACIONALES','Ingresos de actividades ordinarias (Revenue)'],
    'UB': ['0 UTILIDAD BRUTA                                  ','UTILIDAD BRUTA','UTILIDAD_BRUTA','Ganancia bruta (GrossProfit)'],
    'EBIT': ['0 UTILIDAD NETA ANTES DE IMPUESTOS                ','UTILIDAD ANTES DE IMPUESTOS Y AJUSTES POR INFLACION','UTILIDAD ANTES DE IMPUESTOS','UTILIDAD_ANTES_DE_IMPUESTOS','Ganancia (p√©rdida), antes de impuestos (ProfitLossBeforeTax)'],
    'UO': ['0 UTILIDAD OPERACIONAL                            ','UTILIDAD OPERACIONAL','UTILIDAD_OPERACIONAL','Ganancia (p√©rdida) por actividades de operaci√≥n (ProfitLossFromOperatingActivities)','Ganancia (p√©rdida) por actividades de operaci√≥n (GananciaPerdidaPorActividadesDeOperacion)'],
    'GF': ['53 MENOS GASTOS NO OPERACIONALES                  ','53 MENOS: GASTOS NO OPERACIONALES (ANEXO 5)','53 MENOS: GASTOS NO OPERACIONALES ','53 MENOS: GASTOS NO OPERACIONALES  (ANEXO  5)','_53_MENOS_GASTOS_NO_OPERACIONALES','Costos financieros (FinanceCosts)'],
    'GV': ['52 MENOS GASTOS OPERACIONALES DE VENTAS           ','52 MENOS: GASTOS OPERACIONALES DE VENTAS (ANEXO 3)','52 MENOS: GASTOS OPERACIONALES DE VENTAS ','52 MENOS: GASTOS OPERACIONALES DE VENTAS  (ANEXO  3)','_52_MENOS_GASTOS_OPERACIONALES_DE_VENTAS','52 MENOS: GASTOS OPERACIONALES DE VENTAS ','Gastos de ventas (DistributionCosts)'],
    'GA': ['51 MENOS GASTOS OPERACIONALES ADMON.              ','51 MENOS GASTOS OPERACIONALES ADMON.              ','51 MENOS: GASTOS OPERACIONALES DE ADMINISTRACI√ìN (ANEXO 3)','51 MENOS: GASTOS OPERACIONALES DE ADMINISTRACI√ìN ','51 MENOS: GASTOS OPERACIONALES DE  ADMINISTRACI√ìN (ANEXO  3)','_51_MENOS_GASTOS_OPERACIONALES_DE__ADMINISTRACION','51 MENOS: GASTOS OPERACIONALES DE ADMINISTRACI√ìN ','51 MENOS: GASTOS OPERACIONALES DE ADMINISTRACI√É‚ÄúN ','Gastos de administraci√≥n (AdministrativeExpense)'],
    'Imp': ['54 MENOS IMPUESTOS DE RENTA Y COMPLEMENTARIOS     ','54 MENOS: IMPUESTO DE RENTA Y COMPLEMENTARIOS','_54_MENOS_IMPUESTO_DE_RENTA_Y_COMPLEMENTARIOS','Ingreso (gasto) por impuestos (IncomeTaxExpenseContinuingOperations)']
}

# Cambiar nombres de columnas en todas las bases de datos
for variable, nombres_columnas in accounts_to_search.items():
    for key, dataframe in dataframes.items():
        for column_to_search in nombres_columnas:
            if column_to_search in dataframe.columns:
                dataframe.rename(columns={column_to_search: variable}, inplace=True)

# Verificar que las columnas existen en todas las bases de datos
for column in accounts_to_search.keys():
    for suffixes, years in zip([period_1_suffixes, period_2_suffixes, period_3_suffixes], [years_period_1, years_period_2, years_period_3]):
        for suffix in suffixes:
            for year in years:
                key = f'{year}{suffix}'
                if key in dataframes and column not in dataframes[key].columns:
                    print(f"‚ö†Ô∏è La columna '{column}' no se encontr√≥ en '{key}'")

# Crear las nuevas columnas en base_inicial
for variable in accounts_to_search.keys():
    base_inicial[variable] = None

# Iterar sobre cada fila de base_inicial con barra de progreso
print("\nüîÑ **Procesando datos de ingresos y utilidades...**")
for index, row in tqdm(base_inicial.iterrows(), total=len(base_inicial), desc="Progreso"):

    nit = row['NIT']
    year = row['A√±o']

    # Determinar sufijo
    if 1995 <= year <= 2003 or year == 2007:
        suffix = '_BG_ER'
    elif 2004 <= year <= 2015 and year != 2007:
        suffix = '_ER'
    elif 2016 <= year <= 2023:
        suffix = '_PY_ER'
        db_name = f"{year}{suffix}"
        if db_name in dataframes and nit in dataframes[db_name]['NIT'].values:
            suffix = '_PY_ER'
        else:
            suffix = '_PL_ER'
    else:
        continue  # A√±o inv√°lido, no hacer nada

    # Crear nombre de la base de datos
    db_name = f"{year}{suffix}"

    # Verificar si la base de datos existe
    if db_name in dataframes:
        df = dataframes[db_name]
        match = df[df['NIT'] == nit]
        if not match.empty:
            for column in accounts_to_search.keys():
                base_inicial.at[index, column] = match[column].values[0] if column in match.columns else None

# ‚úÖ **Verificaci√≥n final**
print("\nüìå **Verificando que todas las filas tengan valores en las cuentas de ingresos y utilidades:**")
for column in accounts_to_search.keys():
    missing_values = base_inicial[column].isna().sum()
    print(f"üîç Faltan {missing_values} valores en '{column}'")

# ‚úÖ **Mostrar resultados finales**
from IPython.display import display
print("\nüìå **Base Inicial despu√©s de agregar cuentas de ingresos y utilidades:**")
display(base_inicial)

print("‚úÖ ¬°Proceso completado!")

import difflib
from tqdm import tqdm  # Barra de progreso

# Definir los sufijos para cada periodo
period_1_suffixes = ['_FE']
period_2_suffixes = ['_FE']
period_3_suffixes = ['_PY_FE', '_PL_FE']

# Definir los a√±os por periodo
years_period_1 = list(range(1995, 2004)) + [2007]
years_period_2 = list(range(2004, 2007)) + list(range(2008, 2016))
years_period_3 = list(range(2016, 2024))

# Definir las cuentas a buscar
accounts_to_search = {
    'DyA1': ['(+) Depreciacion (Anexo 3)','+ Depreciaciones','(+)   Depreciaciones (Anexo 3)                    ','(+) DEPRECIACIONES (ANEXO 3)','(+) DEPRECIACIONES ','(+)  DEPRECIACIONES (ANEXO 3)','MAS_DEPRECIACIONES','(+) DEPRECIACIONES '],
    'DyA2': ['(+) Amortizacion (Anexo 3)','+ Amortizaciones','(+)   Amortizaciones (Anexo 3)                    ','(+) AMORTIZACIONES (ANEXO 3)','(+) AMORTIZACIONES ','(+)  AMORTIZACIONES (ANEXO 3)','MAS_AMORTIZACIONES','(+) AMORTIZACIONES '],
    'DyA': ['( + ) Ajustes por gastos de depreciaci√≥n y amortizaci√≥n (AdjustmentsForDepreciationAndAmortisationExpense)'],
    'FCL1': ['FLUJO_DE_EFECTIVO_NETO_EN_ACTIVIDADES_DE_OPERACION','Flujo de Efectivo Neto en Actividades de Operaci√≥n','TOTAL 2 - Flujo de Efectivo Neto en Actividades de','Flujo de Efectivo neto en actividades de operaci√≥n','FLUJO DE EFECTIVO NETO EN ACTIVIDADES DE OPERACI√ìN','FLUJO DE EFECTIVO NETO EN ACTIVIDADES DE OPERACI√É‚ÄúN','Flujos de efectivo netos procedentes de (utilizados en) actividades de operaci√≥n (CashFlowsFromUsedInOperatingActivities)'],
    'FCL2': ['FLUJO_DE_EFECTIVO_NETO_EN_ACTIVIDADES_DE_INVERSION','Flujo de Efectivo Neto en Actividades de Inversion','TOTAL 3 - Flujo de Efectivo Neto en Actividades de','Flujo de Efectivo neto en activ. de inversi√≥n(R.21','Flujo de Efectivo Neto en Actividades de Inversion','FLUJO DE EFECTIVO NETO EN ACTIVIDADES DE INVERSION','FLUJO DE EFECTIVO NETO EN ACTIVIDADES DE INVERSION','Flujos de efectivo netos procedentes de (utilizados en) actividades de inversi√≥n (CashFlowsFromUsedInInvestingActivities)','FLUJO DE EFECTIVO NETO EN ACTIVIDADES DE INVERSION']
}

# Renombrar columnas en todas las bases de datos
for variable, nombres_columnas in accounts_to_search.items():
    for key, dataframe in dataframes.items():
        for column_to_search in nombres_columnas:
            if column_to_search in dataframe.columns:
                dataframe.rename(columns={column_to_search: variable}, inplace=True)

# üîç **Verificaci√≥n de columnas en los periodos correctos**
for column, valid_years in [('DyA1', years_period_1 + years_period_2),
                            ('DyA2', years_period_1 + years_period_2),
                            ('DyA', years_period_3),
                            ('FCL1', years_period_1 + years_period_2 + years_period_3),
                            ('FCL2', years_period_1 + years_period_2 + years_period_3)]:
    for suffixes, years in zip([period_1_suffixes, period_2_suffixes, period_3_suffixes], [years_period_1, years_period_2, years_period_3]):
        for suffix in suffixes:
            for year in years:
                if year in valid_years:  # Solo busca en los a√±os correctos
                    key = f'{year}{suffix}'
                    if key in dataframes and column not in dataframes[key].columns:
                        print(f"‚ö†Ô∏è La columna '{column}' no se encontr√≥ en '{key}'")

# Crear columnas en base_inicial
base_inicial['DyA'] = None
base_inicial['FCL'] = None

# Iterar sobre cada fila con barra de progreso
print("\nüîÑ **Procesando Depreciaci√≥n, Amortizaci√≥n y Flujo de Efectivo...**")
for index, row in tqdm(base_inicial.iterrows(), total=len(base_inicial), desc="Progreso"):

    nit = row['NIT']
    year = row['A√±o']

    # Determinar sufijo correspondiente
    if 1995 <= year <= 2003 or year == 2007:
        suffix = '_FE'
    elif 2004 <= year <= 2015 and year != 2007:
        suffix = '_FE'
    elif 2016 <= year <= 2023:
        suffix = '_PY_FE'
        db_name = f"{year}{suffix}"
        if db_name in dataframes and nit in dataframes[db_name]['NIT'].values:
            suffix = '_PY_FE'
        else:
            suffix = '_PL_FE'
    else:
        continue  # A√±o inv√°lido, no hacer nada

    db_name = f"{year}{suffix}"

    # Verificar si la base de datos existe
    if db_name in dataframes:
        df = dataframes[db_name]
        match = df[df['NIT'] == nit]
        if not match.empty:
            # Asignar DyA (Depreciaci√≥n y Amortizaci√≥n)
            if year < 2016:  # Antes de 2016 se suman DyA1 y DyA2
                dyA1_value = match['DyA1'].values[0] if 'DyA1' in match.columns else 0
                dyA2_value = match['DyA2'].values[0] if 'DyA2' in match.columns else 0
                base_inicial.at[index, 'DyA'] = dyA1_value + dyA2_value if (dyA1_value and dyA2_value) else None
            else:  # Desde 2016 se usa directamente DyA
                dyA_value = match['DyA'].values[0] if 'DyA' in match.columns else None
                base_inicial.at[index, 'DyA'] = dyA_value

            # Asignar FCL (Flujo de caja libre)
            fcl1_value = match['FCL1'].values[0] if 'FCL1' in match.columns else 0
            fcl2_value = match['FCL2'].values[0] if 'FCL2' in match.columns else 0
            base_inicial.at[index, 'FCL'] = fcl1_value - fcl2_value if (fcl1_value and fcl2_value) else None

# ‚úÖ **Verificaci√≥n final**
print("\nüìå **Verificando que todas las filas tengan valores en DyA y FCL:**")
missing_dya = base_inicial['DyA'].isna().sum()
missing_fcl = base_inicial['FCL'].isna().sum()
print(f"üîç Faltan {missing_dya} valores en 'DyA'")
print(f"üîç Faltan {missing_fcl} valores en 'FCL'")

# ‚úÖ **Mostrar resultados finales**
from IPython.display import display
print("\nüìå **Base Inicial despu√©s de agregar DyA y FCL:**")
display(base_inicial)

print("‚úÖ ¬°Proceso completado!")

import os
import pickle

# üìÇ Ruta donde se guardar√° el archivo
ruta_base_inicial = "/content/drive/MyDrive/Datos/2_1_BaseInicial.pkl"


# üìå Crear la carpeta si no existe
os.makedirs(os.path.dirname(ruta_base_inicial), exist_ok=True)

# üßπ Eliminar duplicados por NIT y A√±o (conservando el primero que aparezca)
base_inicial.drop_duplicates(subset=['NIT', 'A√±o'], keep='first', inplace=True)
print(f"üì¶ Registros √∫nicos por NIT y A√±o: {base_inicial.shape[0]}")


# üìå Guardar en formato Pickle
base_inicial.to_pickle(ruta_base_inicial)

print(f"\n‚úÖ `2_BaseInicial.pkl` guardado en: {ruta_base_inicial}")


# üìå Ruta para guardar en formato Parquet
ruta_parquet = "/content/drive/MyDrive/Datos/2_2_BaseInicial.parquet"


# üìå Guardar en formato Parquet
base_inicial.to_parquet(ruta_parquet, index=False)
print(f"‚úÖ `2_BaseInicial.parquet` guardado en: {ruta_parquet}")

# üìå RESUMEN FINAL DE LA BASE INICIAL
print("\nüìä RESUMEN DE LA BASE FINAL")

total_registros = base_inicial.shape[0]
total_nits = base_inicial['NIT'].nunique()
total_a√±os = base_inicial['A√±o'].nunique()
columnas = list(base_inicial.columns)

print(f"‚úÖ Total de registros √∫nicos: {total_registros}")
print(f"üë§ NITs √∫nicos: {total_nits}")
print(f"üìÖ A√±os √∫nicos: {total_a√±os}")
print(f"üìÑ Total de columnas: {len(columnas)}")

# Mostrar primeras 10 NITs
print("\nüÜî Ejemplos de NITs:")
print(base_inicial['NIT'].dropna().astype(str).unique()[:10])

# Mostrar primeros 10 a√±os ordenados
print("\nüìÖ A√±os presentes:")
print(sorted(base_inicial['A√±o'].dropna().unique())[:10])

# Mostrar nombres de columnas
print("\nüìã Columnas disponibles:")
for col in columnas:
    print(f"   ‚Ä¢ {col}")
# üìÑ Crear resumen de paso en archivo .txt
resumen_txt = f"""
üìÑ Script: 2_Creacion_Base_Inicial.ipynb
üìÖ Fecha: 2025-05-16
üß© Objetivo: Construir una base consolidada por empresa y a√±o con informaci√≥n financiera estandarizada.

üîÅ Pasos realizados:
- Carga desde: 1_ArchivosLeidos.pkl
- Estandarizaci√≥n de columnas: NIT, Ciudad, CIIU, DEP
- Correcci√≥n de inconsistencias por a√±o en NITs
- Extracci√≥n de variables contables del activo, resultado y flujo
- Eliminaci√≥n de duplicados por NIT y A√±o

üì¶ Archivos generados:
- 2_1_BaseInicial.pkl
- 2_2_BaseInicial.parquet

üìä Resumen de la base:
- Registros √∫nicos (NIT-A√±o): {base_inicial.shape[0]}
- NITs √∫nicos: {base_inicial['NIT'].nunique()}
- A√±os √∫nicos: {base_inicial['A√±o'].nunique()}
- Columnas disponibles: {len(base_inicial.columns)}
"""

ruta_resumen = "/content/drive/MyDrive/Datos/2_resumen.txt"
with open(ruta_resumen, "w", encoding="utf-8") as f:
    f.write(resumen_txt.strip())

print(f"üìù Resumen guardado en: {ruta_resumen}")



Mounted at /content/drive

‚úÖ DataFrames cargados exitosamente desde: /content/drive/MyDrive/Datos/1_ArchivosLeidos.pkl
üìä Total de archivos en el diccionario: 133
‚ö†Ô∏è Advertencia: Antes de la correcci√≥n, la columna 'NIT' no estaba presente en las siguientes claves:
   ‚ùå 2001_FE
   ‚ùå 2002_FE
   ‚ùå 2003_FE
‚úÖ La columna 'NIT' ahora est√° presente en todas las bases de datos.

üîé **Verificaci√≥n Inicial de Consistencia de NITs**
‚ö†Ô∏è Inconsistencias encontradas en el **Periodo 1**: [2001]
‚úÖ Todos los NITs son consistentes en el **Periodo 2**.
‚úÖ Todos los NITs en PYMES son consistentes en el **Periodo 3**.
‚úÖ Todos los NITs en PLENAS son consistentes en el **Periodo 3**.

‚ö†Ô∏è **Corrigiendo inconsistencias en 2001...**
üìå Fila(s) en 2001_BG_ER a eliminar: [6496]
üìå Fila(s) en 2001_FE a eliminar: []
‚úÖ Se han eliminado las filas con discrepancias en los NITs de 2001.

üîé **Verificaci√≥n Final de Consistencia de NITs**
‚úÖ Todos los NITs son consistentes en el

Progreso: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 542084/542084 [05:53<00:00, 1532.83it/s]



üìå **Verificando que todas las filas tengan valores en Ciudad, CIIU y DEP:**
üîç Faltan 87 valores en 'Ciudad'
üîç Faltan 88 valores en 'CIIU'
üîç Faltan 25490 valores en 'DEP'

üìå **Base Inicial despu√©s de agregar Ciudad, CIIU y DEP:**


Unnamed: 0,NIT,A√±o,Ciudad,CIIU,DEP
0,860067934,1995,BOGOTA D.C.,A0111,BOGOTA D.C.
1,890328003,1995,CALI,A0111,VALLE
2,891302216,1995,CALI,A0111,VALLE
3,800160353,1995,CALI,A0111,VALLE
4,800063990,1995,CALI,A0111,VALLE
...,...,...,...,...,...
542079,901656609,2023,MEDELLIN-ANTIOQUIA,J6201 - Actividades de desarrollo de sistemas ...,ANTIOQUIA
542080,901675255,2023,BOGOTA D.C.,N8291 - Actividades de agencias de cobranza y ...,BOGOTA D.C.
542081,901680258,2023,YARUMAL-ANTIOQUIA,C1040 - Elaboraci√≥n de productos l√°cteos,ANTIOQUIA
542082,901712459,2023,BOGOTA D.C.,H4921 - Transporte de pasajeros,BOGOTA D.C.


‚úÖ ¬°Proceso completado!

üîÑ **Procesando datos del activo...**


Progreso: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 542084/542084 [09:27<00:00, 954.70it/s] 



üìå **Verificando que todas las filas tengan valores en las cuentas del activo:**
üîç Faltan 128 valores en 'AC'
üîç Faltan 75298 valores en 'I'
üîç Faltan 18283 valores en 'AF'
üîç Faltan 5 valores en 'AT'
üîç Faltan 5 valores en 'PN'
üîç Faltan 60664 valores en 'PLP'
üîç Faltan 1444 valores en 'PCP'
üîç Faltan 125 valores en 'PT'
üîç Faltan 132226 valores en 'CPC'
üîç Faltan 111540 valores en 'CPP'

üìå **Base Inicial despu√©s de agregar cuentas del activo:**


Unnamed: 0,NIT,A√±o,Ciudad,CIIU,DEP,AC,I,AF,AT,PN,PLP,PCP,PT,CPC,CPP
0,860067934,1995,BOGOTA D.C.,A0111,BOGOTA D.C.,239648,0,836854,1333751,664905,3800,665046,668846,157079,322132
1,890328003,1995,CALI,A0111,VALLE,682933,172732,363257,2955905,2881797,0,74108,74108,374898,20390
2,891302216,1995,CALI,A0111,VALLE,649461,380479,506443,1307972,845568,0,462404,462404,265031,4137
3,800160353,1995,CALI,A0111,VALLE,768173,367162,1550320,2402577,2379993,0,22584,22584,389700,3354
4,800063990,1995,CALI,A0111,VALLE,211551,17227,1123495,2149570,732193,1317212,100165,1417377,173647,62105
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
542079,901656609,2023,MEDELLIN-ANTIOQUIA,J6201 - Actividades de desarrollo de sistemas ...,ANTIOQUIA,1869704.0,,436898.0,2754463.0,149723.0,0.0,2604740.0,2604740.0,,
542080,901675255,2023,BOGOTA D.C.,N8291 - Actividades de agencias de cobranza y ...,BOGOTA D.C.,26057893.0,,,26297890.0,889168.0,150832.0,25257890.0,25408722.0,,
542081,901680258,2023,YARUMAL-ANTIOQUIA,C1040 - Elaboraci√≥n de productos l√°cteos,ANTIOQUIA,23399409.0,12826402.0,8078725.0,34960432.0,3296413.0,10883400.0,20780619.0,31664019.0,,
542082,901712459,2023,BOGOTA D.C.,H4921 - Transporte de pasajeros,BOGOTA D.C.,16694054.0,,310128098.0,326822152.0,-3508793.0,65000000.0,265330945.0,330330945.0,,


‚úÖ ¬°Proceso completado!

üîÑ **Procesando datos de ingresos y utilidades...**


Progreso: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 542084/542084 [09:00<00:00, 1002.27it/s]



üìå **Verificando que todas las filas tengan valores en las cuentas de ingresos y utilidades:**
üîç Faltan 27 valores en 'UN'
üîç Faltan 3715 valores en 'V'
üîç Faltan 3472 valores en 'UB'
üîç Faltan 182 valores en 'EBIT'
üîç Faltan 366 valores en 'UO'
üîç Faltan 51698 valores en 'GF'
üîç Faltan 85934 valores en 'GV'
üîç Faltan 6163 valores en 'GA'
üîç Faltan 52763 valores en 'Imp'

üìå **Base Inicial despu√©s de agregar cuentas de ingresos y utilidades:**


Unnamed: 0,NIT,A√±o,Ciudad,CIIU,DEP,AC,I,AF,AT,PN,...,CPP,UN,V,UB,EBIT,UO,GF,GV,GA,Imp
0,860067934,1995,BOGOTA D.C.,A0111,BOGOTA D.C.,239648,0,836854,1333751,664905,...,322132,45734,1031974,236113,-30835,161149,212770,0,74964,24625
1,890328003,1995,CALI,A0111,VALLE,682933,172732,363257,2955905,2881797,...,20390,35407,839772,405640,84292,105484,24555,0,300156,15967
2,891302216,1995,CALI,A0111,VALLE,649461,380479,506443,1307972,845568,...,4137,16062,633557,297693,5446,163513,159567,0,134180,6916
3,800160353,1995,CALI,A0111,VALLE,768173,367162,1550320,2402577,2379993,...,3354,-51551,335610,194706,35376,35222,19850,0,159484,24250
4,800063990,1995,CALI,A0111,VALLE,211551,17227,1123495,2149570,732193,...,62105,70707,441379,100847,-182689,-1749,269257,31916,70680,15121
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
542079,901656609,2023,MEDELLIN-ANTIOQUIA,J6201 - Actividades de desarrollo de sistemas ...,ANTIOQUIA,1869704.0,,436898.0,2754463.0,149723.0,...,,-2450277,5434127.0,5434127.0,-2898138,-2898138.0,,,8333838.0,-447861.0
542080,901675255,2023,BOGOTA D.C.,N8291 - Actividades de agencias de cobranza y ...,BOGOTA D.C.,26057893.0,,,26297890.0,889168.0,...,,889164,38956677.0,11233651.0,1399887,1481400.0,590253.0,,9752242.0,510723.0
542081,901680258,2023,YARUMAL-ANTIOQUIA,C1040 - Elaboraci√≥n de productos l√°cteos,ANTIOQUIA,23399409.0,12826402.0,8078725.0,34960432.0,3296413.0,...,,495413,144877391.0,11045290.0,1042317,4429261.0,3534786.0,4649947.0,2007031.0,546904.0
542082,901712459,2023,BOGOTA D.C.,H4921 - Transporte de pasajeros,BOGOTA D.C.,16694054.0,,310128098.0,326822152.0,-3508793.0,...,,-4083819,25423333.0,11101483.0,-4083819,12593401.0,16818429.0,0.0,4400572.0,0.0


‚úÖ ¬°Proceso completado!

üîÑ **Procesando Depreciaci√≥n, Amortizaci√≥n y Flujo de Efectivo...**


Progreso: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 542084/542084 [06:11<00:00, 1457.87it/s]



üìå **Verificando que todas las filas tengan valores en DyA y FCL:**
üîç Faltan 281483 valores en 'DyA'
üîç Faltan 126839 valores en 'FCL'

üìå **Base Inicial despu√©s de agregar DyA y FCL:**


Unnamed: 0,NIT,A√±o,Ciudad,CIIU,DEP,AC,I,AF,AT,PN,...,V,UB,EBIT,UO,GF,GV,GA,Imp,DyA,FCL
0,860067934,1995,BOGOTA D.C.,A0111,BOGOTA D.C.,239648,0,836854,1333751,664905,...,1031974,236113,-30835,161149,212770,0,74964,24625,186658,139410
1,890328003,1995,CALI,A0111,VALLE,682933,172732,363257,2955905,2881797,...,839772,405640,84292,105484,24555,0,300156,15967,,135254
2,891302216,1995,CALI,A0111,VALLE,649461,380479,506443,1307972,845568,...,633557,297693,5446,163513,159567,0,134180,6916,,-13312
3,800160353,1995,CALI,A0111,VALLE,768173,367162,1550320,2402577,2379993,...,335610,194706,35376,35222,19850,0,159484,24250,,-200479
4,800063990,1995,CALI,A0111,VALLE,211551,17227,1123495,2149570,732193,...,441379,100847,-182689,-1749,269257,31916,70680,15121,,175046
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
542079,901656609,2023,MEDELLIN-ANTIOQUIA,J6201 - Actividades de desarrollo de sistemas ...,ANTIOQUIA,1869704.0,,436898.0,2754463.0,149723.0,...,5434127.0,5434127.0,-2898138,-2898138.0,,,8333838.0,-447861.0,174076.0,295509.0
542080,901675255,2023,BOGOTA D.C.,N8291 - Actividades de agencias de cobranza y ...,BOGOTA D.C.,26057893.0,,,26297890.0,889168.0,...,38956677.0,11233651.0,1399887,1481400.0,590253.0,,9752242.0,510723.0,54872.0,-2921924.0
542081,901680258,2023,YARUMAL-ANTIOQUIA,C1040 - Elaboraci√≥n de productos l√°cteos,ANTIOQUIA,23399409.0,12826402.0,8078725.0,34960432.0,3296413.0,...,144877391.0,11045290.0,1042317,4429261.0,3534786.0,4649947.0,2007031.0,546904.0,,20430859.0
542082,901712459,2023,BOGOTA D.C.,H4921 - Transporte de pasajeros,BOGOTA D.C.,16694054.0,,310128098.0,326822152.0,-3508793.0,...,25423333.0,11101483.0,-4083819,12593401.0,16818429.0,0.0,4400572.0,0.0,14321850.0,332940751.0


‚úÖ ¬°Proceso completado!
üì¶ Registros √∫nicos por NIT y A√±o: 541714

‚úÖ `2_BaseInicial.pkl` guardado en: /content/drive/MyDrive/Datos/2_1_BaseInicial.pkl
‚úÖ `2_BaseInicial.parquet` guardado en: /content/drive/MyDrive/Datos/2_2_BaseInicial.parquet

üìä RESUMEN DE LA BASE FINAL
‚úÖ Total de registros √∫nicos: 541714
üë§ NITs √∫nicos: 69423
üìÖ A√±os √∫nicos: 29
üìÑ Total de columnas: 26

üÜî Ejemplos de NITs:
['860067934' '890328003' '891302216' '800160353' '800063990' '891300003'
 '890500936' '800054093' '860528519' '800145912']

üìÖ A√±os presentes:
[1995, 1996, 1997, 1998, 1999, 2000, 2001, 2002, 2003, 2004]

üìã Columnas disponibles:
   ‚Ä¢ NIT
   ‚Ä¢ A√±o
   ‚Ä¢ Ciudad
   ‚Ä¢ CIIU
   ‚Ä¢ DEP
   ‚Ä¢ AC
   ‚Ä¢ I
   ‚Ä¢ AF
   ‚Ä¢ AT
   ‚Ä¢ PN
   ‚Ä¢ PLP
   ‚Ä¢ PCP
   ‚Ä¢ PT
   ‚Ä¢ CPC
   ‚Ä¢ CPP
   ‚Ä¢ UN
   ‚Ä¢ V
   ‚Ä¢ UB
   ‚Ä¢ EBIT
   ‚Ä¢ UO
   ‚Ä¢ GF
   ‚Ä¢ GV
   ‚Ä¢ GA
   ‚Ä¢ Imp
   ‚Ä¢ DyA
   ‚Ä¢ FCL
üìù Resumen guardado en: /content/drive/MyDrive/Datos/2_resumen.t