In [155]:
# ================ SETUP INICIAL ================ #

import sys
import os
import importlib
import pandas as pd
import numpy as np
import re

# Añadimos el path del paquete local 'src/'
sys.path.append(os.path.abspath("../src"))

# Recargamos módulo en caso de cambios recientes
import procesar_zscore
importlib.reload(procesar_zscore)

from procesar_zscore import procesar_archivo, transformar_a_formato_largo

In [157]:
# ================ PARÁMETROS GENERALES ================ #

# Años que forman el panel
years = [2019, 2020, 2021, 2022, 2023]

# Lista vacía para almacenar DataFrames anuales
dfs = []

In [159]:
# ================ PROCESAMIENTO DE ARCHIVOS ================ #

for year in years:
    file_path = f"../data/zscore_sample{year}.csv"
    df_year = procesar_archivo(file_path, year)

    # Verificamos si hay columnas duplicadas en el DataFrame procesado
    duplicated_cols = df_year.columns[df_year.columns.duplicated()].tolist()
    if duplicated_cols:
        print(f" {year} tiene columnas duplicadas: {duplicated_cols}")
    else:
        print(f" {year} columnas únicas")

    dfs.append(df_year)

 2019 columnas únicas
 2020 columnas únicas
 2021 columnas únicas
 2022 columnas únicas
 2023 columnas únicas


In [161]:
# Unimos todos los años en un solo panel longitudinal
df_panel = pd.concat(dfs, axis=0).reset_index(drop=True)

In [163]:
df_panel.head()

Unnamed: 0,SP_ENTITY_NAME_2019,SP_ENTITY_ID_2019,SP_GEOGRAPHY_2019,SP_COMPANY_TYPE_2019,IQ_INDUSTRY_CLASSIFICATION_2019,SP_COMPANY_STATUS_2019,IQ_TOTAL_ASSETS_2019,IQ_TOTAL_REV_2019,IQ_TOTAL_DEBT_2019,IQ_INTEREST_EXP_2019,...,IQ_TOTAL_ASSETS_2023,IQ_TOTAL_REV_2023,IQ_TOTAL_DEBT_2023,IQ_INTEREST_EXP_2023,IQ_TOTAL_CA_2023,IQ_TOTAL_CL_2023,IQ_RETAINED_EARNINGS_2023,IQ_EBIT_2023,IQ_EBITDA_2023,SNL_PRETAX_INT_COV_EXCL_AFUDC_2023
0,"""AGBank"" OJSC",4538223,Europe,Private Company,Financials,Liquidating,,,,,...,,,,,,,,,,
1,"""AMIO BANK"" CJSC",4559124,Europe,Private Company,Financials,Operating Subsidiary,1538862.0,31092,118122.0,,...,,,,,,,,,,
2,"""Bank Dabrabyt"" Joint-stock Company",4265923,Europe,Private Company,Financials,Operating,594611.0,38160,41650.0,,...,,,,,,,,,,
3,"""DBK-Leasing"" JSC",4414560,Europe,Private Company,Financials,Operating Subsidiary,1185982.0,32798,661782.0,,...,,,,,,,,,,
4,"""Muganbank"" Open Joint Stock Company",4552311,Europe,Private Company,Financials,Operating,355389.0,(295),115385.0,,...,,,,,,,,,,


In [123]:
# ================ LIMPIEZA DE VARIABLES NUMÉRICAS (IQ_) ================ #

# Creamos función para limpieza numérica

def limpiar_columna_numerica(col):
    """
    Transforma columnas con números en formato texto (contable) a float:
    - Convierte (1,234) en -1234
    - Elimina comas, espacios
    - Reemplaza 'NM', '--', '', etc. por np.nan
    """
    col_limpia = (
        col.astype(str) # Primero convertimos todo a texto para hacer modificaciones
           .str.replace(",", "", regex=False)
           .str.replace("(", "-", regex=False)
           .str.replace(")", "", regex=False)
           .str.replace(r"\b(NM|NA|--|n/a|N/A)\b", "", regex=True) # Aplicamos raw string
           .str.strip()
    )
    return pd.to_numeric(col_limpia.replace("", np.nan), errors="coerce")


In [124]:
# Filtramos columnas IQ_ que contienen al menos un valor convertible a número
cols_numericas = [
    col for col in df_panel.columns
    if col.startswith("IQ_") and df_panel[col].str.replace(",", "").str.replace("(", "").str.replace(")", "").str.strip().str.match(r"^-?\d+(\.\d+)?$").sum() > 0
]

In [125]:
# Aplicamos limpieza a todas las columnas IQ_
for col in cols_numericas:
    df_panel[col] = limpiar_columna_numerica(df_panel[col])

In [126]:
# ================ EXPORTACIÓN FINAL DEL PANEL ================ #

df_panel.to_csv("../outputs/panel_zscore_limpio.csv", index=False)

print("Panel final exportado exitosamente: panel_zscore_limpio.csv")

# ================ VALIDACIÓN POSTERIOR (opcional) ================ #

# Verificamos tipos de datos
print("\n Tipos de columnas IQ_ después de limpieza:")
print(df_panel[cols_numericas].dtypes.value_counts())

# Verificamos columnas con más NaNs
print("\n Top columnas con más valores NaN:")
print(df_panel[cols_numericas].isna().mean().sort_values(ascending=False).head(10))

Panel final exportado exitosamente: panel_zscore_limpio.csv

 Tipos de columnas IQ_ después de limpieza:
float64    40
int64       1
Name: count, dtype: int64

 Top columnas con más valores NaN:
IQ_INTEREST_EXP_2023    0.942957
IQ_INTEREST_EXP_2022    0.938503
IQ_EBIT_MARGIN_2023     0.938159
IQ_INTEREST_EXP_2021    0.934748
IQ_EBIT_MARGIN_2022     0.934032
IQ_INTEREST_EXP_2020    0.931741
IQ_EBIT_MARGIN_2021     0.930876
IQ_INTEREST_EXP_2019    0.930421
IQ_EBIT_MARGIN_2020     0.927298
IQ_EBIT_MARGIN_2019     0.925501
dtype: float64


In [136]:
# Paso 1: Identificamos los años disponibles en las columnas
anios_disponibles = sorted({
    re.search(r'_(\d{4})$', col).group(1)
    for col in df_panel.columns if re.search(r'_(\d{4})$', col)
})

# Paso 2: Reorganizamos el DataFrame en formato largo
df_panel_largo = []

for year in years_disponibles:
    # Filtramos columnas del año específico
    cols_year = [col for col in df_panel.columns if col.endswith(f"_{year}")]
    
    # Creamos nuevo DataFrame para el año
    df_tmp = df_panel[cols_year].copy()
    
    # Renombramos quitando el sufijo del año
    df_tmp.columns = [re.sub(f"_{year}$", "", col) for col in cols_year]
    
    # Añadimos columna de año
    df_tmp["year"] = int(year)
    
    df_panel_largo.append(df_tmp)

# Paso 3: Concatenamos todo
df_panel_final = pd.concat(df_panel_largo, ignore_index=True)

df_panel_final.head()

Unnamed: 0,SP_ENTITY_NAME,SP_ENTITY_ID,SP_GEOGRAPHY,SP_COMPANY_TYPE,IQ_INDUSTRY_CLASSIFICATION,SP_COMPANY_STATUS,IQ_TOTAL_ASSETS,IQ_EBIT_MARGIN,IQ_TOTAL_REV,IQ_TOTAL_DEBT,IQ_INTEREST_EXP,IQ_TOTAL_CA,IQ_TOTAL_CL,IQ_RETAINED_EARNINGS,anio
0,"""AGBank"" OJSC",4538223,Europe,Private Company,Financials,Liquidating,,,,,,,,,2019
1,"""AMIO BANK"" CJSC",4559124,Europe,Private Company,Financials,Operating Subsidiary,1538862.0,,31092.0,118122.0,,310153.0,1358825.0,6467.0,2019
2,"""Bank Dabrabyt"" Joint-stock Company",4265923,Europe,Private Company,Financials,Operating,594611.0,,38160.0,41650.0,,181152.0,524820.0,34058.0,2019
3,"""DBK-Leasing"" JSC",4414560,Europe,Private Company,Financials,Operating Subsidiary,1185982.0,,32798.0,661782.0,,788350.0,7370.0,2303.0,2019
4,"""Muganbank"" Open Joint Stock Company",4552311,Europe,Private Company,Financials,Operating,355389.0,,-295.0,115385.0,,114803.0,218986.0,-39841.0,2019


In [138]:
df_panel_final.shape

(901425, 15)

In [140]:
df_panel_final.to_csv("../outputs/panel_zscore_largo.csv", index=False)
print("✅ Archivo exportado exitosamente como: /outputs/panel_zscore_largo.csv")

✅ Archivo exportado exitosamente como: /outputs/panel_zscore_largo.csv


In [132]:
print(df_panel.columns.tolist())

['SP_ENTITY_NAME_2019', 'SP_ENTITY_ID_2019', 'SP_GEOGRAPHY_2019', 'SP_COMPANY_TYPE_2019', 'IQ_INDUSTRY_CLASSIFICATION_2019', 'SP_COMPANY_STATUS_2019', 'IQ_TOTAL_REV_LFY', 'IQ_TOTAL_ASSETS_2019', 'IQ_EBIT_MARGIN_2019', 'IQ_TOTAL_REV_2019', 'IQ_TOTAL_DEBT_2019', 'IQ_INTEREST_EXP_2019', 'IQ_TOTAL_CA_2019', 'IQ_TOTAL_CL_2019', 'IQ_RETAINED_EARNINGS_2019', 'anio', 'SP_ENTITY_NAME_2020', 'SP_ENTITY_ID_2020', 'SP_GEOGRAPHY_2020', 'SP_COMPANY_TYPE_2020', 'IQ_INDUSTRY_CLASSIFICATION_2020', 'SP_COMPANY_STATUS_2020', 'IQ_TOTAL_ASSETS_2020', 'IQ_EBIT_MARGIN_2020', 'IQ_TOTAL_REV_2020', 'IQ_TOTAL_DEBT_2020', 'IQ_INTEREST_EXP_2020', 'IQ_TOTAL_CA_2020', 'IQ_TOTAL_CL_2020', 'IQ_RETAINED_EARNINGS_2020', 'SP_ENTITY_NAME_2021', 'SP_ENTITY_ID_2021', 'SP_GEOGRAPHY_2021', 'SP_COMPANY_TYPE_2021', 'IQ_INDUSTRY_CLASSIFICATION_2021', 'SP_COMPANY_STATUS_2021', 'IQ_TOTAL_ASSETS_2021', 'IQ_EBIT_MARGIN_2021', 'IQ_TOTAL_REV_2021', 'IQ_TOTAL_DEBT_2021', 'IQ_INTEREST_EXP_2021', 'IQ_TOTAL_CA_2021', 'IQ_TOTAL_CL_2021', '