In [131]:
import os
import pandas as pd
import numpy as np
import joblib
from sklearn.naive_bayes import GaussianNB
from sklearn.preprocessing import StandardScaler
from tqdm import tqdm
import json
from imblearn.over_sampling import SMOTE


In [132]:
def load_training_subset(folder_path, sample_size=1000):
    dfs = []
    for file in os.listdir(folder_path):
        if file.endswith(".parquet"):
            df = pd.read_parquet(os.path.join(folder_path, file))
            dfs.append(df)
    df_all = pd.concat(dfs, ignore_index=True)
    #df_all = df_all.sample(n=sample_size, random_state=42)  # subset
    return df_all

def train_model_and_save(file):
    train_df = pd.read_parquet(os.path.join("emisoras_parquet", file))

    train_df['fechaEnvioCobro'] = pd.to_datetime(train_df['fechaEnvioCobro'], errors='coerce')
    train_df['target_success'] = train_df['fechaEnvioCobro'].notna().astype(int)

    features = ['montoCobrar', 'transCount', 'IdBanco_Credito',
                'pagoAnterior', 'ratioAnterior', 'residualAnterior', 'idEmisora']

    train_df = train_df.dropna(subset=features)

    X_train = train_df[features].copy()
    y_train = train_df['target_success']

    X_train = pd.get_dummies(X_train, columns=['IdBanco_Credito', 'idEmisora'], drop_first=True)
    X_train['montoCobrar'] = np.log1p(X_train['montoCobrar'])

    numeric_cols = ['montoCobrar', 'transCount', 'pagoAnterior', 'ratioAnterior', 'residualAnterior']
    scaler = StandardScaler()
    X_train[numeric_cols] = scaler.fit_transform(X_train[numeric_cols])

    model = GaussianNB()
    model.fit(X_train, y_train)

    # Save model and scaler
    joblib.dump(model, os.path.join("modelOut", file))

    print(f"✅ Modelo guardado en: {file}")
    return file

In [133]:
files = pd.DataFrame({"files":os.listdir("D:\Datathon 2025\emisoras_parquet")})

In [134]:
files.files.apply(train_model_and_save)

✅ Modelo guardado en: emisora_1.parquet
✅ Modelo guardado en: emisora_10.parquet
✅ Modelo guardado en: emisora_11.parquet
✅ Modelo guardado en: emisora_12.parquet


  train_df['fechaEnvioCobro'] = pd.to_datetime(train_df['fechaEnvioCobro'], errors='coerce')
  train_df['fechaEnvioCobro'] = pd.to_datetime(train_df['fechaEnvioCobro'], errors='coerce')


✅ Modelo guardado en: emisora_13.parquet
✅ Modelo guardado en: emisora_14.parquet
✅ Modelo guardado en: emisora_15.parquet
✅ Modelo guardado en: emisora_16.parquet


  train_df['fechaEnvioCobro'] = pd.to_datetime(train_df['fechaEnvioCobro'], errors='coerce')
  train_df['fechaEnvioCobro'] = pd.to_datetime(train_df['fechaEnvioCobro'], errors='coerce')
  train_df['fechaEnvioCobro'] = pd.to_datetime(train_df['fechaEnvioCobro'], errors='coerce')


✅ Modelo guardado en: emisora_17.parquet
✅ Modelo guardado en: emisora_18.parquet
✅ Modelo guardado en: emisora_19.parquet


  train_df['fechaEnvioCobro'] = pd.to_datetime(train_df['fechaEnvioCobro'], errors='coerce')
  train_df['fechaEnvioCobro'] = pd.to_datetime(train_df['fechaEnvioCobro'], errors='coerce')


✅ Modelo guardado en: emisora_2.parquet
✅ Modelo guardado en: emisora_20.parquet


  train_df['fechaEnvioCobro'] = pd.to_datetime(train_df['fechaEnvioCobro'], errors='coerce')


✅ Modelo guardado en: emisora_21.parquet
✅ Modelo guardado en: emisora_22.parquet
✅ Modelo guardado en: emisora_23.parquet
✅ Modelo guardado en: emisora_24.parquet


  train_df['fechaEnvioCobro'] = pd.to_datetime(train_df['fechaEnvioCobro'], errors='coerce')
  train_df['fechaEnvioCobro'] = pd.to_datetime(train_df['fechaEnvioCobro'], errors='coerce')
  train_df['fechaEnvioCobro'] = pd.to_datetime(train_df['fechaEnvioCobro'], errors='coerce')
  train_df['fechaEnvioCobro'] = pd.to_datetime(train_df['fechaEnvioCobro'], errors='coerce')


✅ Modelo guardado en: emisora_25.parquet
✅ Modelo guardado en: emisora_3.parquet
✅ Modelo guardado en: emisora_4.parquet


  train_df['fechaEnvioCobro'] = pd.to_datetime(train_df['fechaEnvioCobro'], errors='coerce')


✅ Modelo guardado en: emisora_5.parquet
✅ Modelo guardado en: emisora_6.parquet
✅ Modelo guardado en: emisora_9.parquet


0      emisora_1.parquet
1     emisora_10.parquet
2     emisora_11.parquet
3     emisora_12.parquet
4     emisora_13.parquet
5     emisora_14.parquet
6     emisora_15.parquet
7     emisora_16.parquet
8     emisora_17.parquet
9     emisora_18.parquet
10    emisora_19.parquet
11     emisora_2.parquet
12    emisora_20.parquet
13    emisora_21.parquet
14    emisora_22.parquet
15    emisora_23.parquet
16    emisora_24.parquet
17    emisora_25.parquet
18     emisora_3.parquet
19     emisora_4.parquet
20     emisora_5.parquet
21     emisora_6.parquet
22     emisora_9.parquet
Name: files, dtype: object

In [101]:
def preprocess(train_df):
    train_df["dic"] = train_df.apply(lambda x: {
        "bank":str(x['IdBanco_Credito']),
        "payment": float(x['montoCobrar'])
                }, axis=1)
    features = ['montoCobrar', 'transCount', 'IdBanco_Credito',
                'pagoAnterior', 'ratioAnterior', 'residualAnterior', 'idEmisora', "dic", "idCredito"]
    train_df = train_df.dropna(subset=features)
    train_df = train_df[features]
    train_df = pd.get_dummies(train_df, columns=['IdBanco_Credito', 'idEmisora'], drop_first=True)
    train_df['montoCobrar'] = np.log1p(train_df['montoCobrar'])

    numeric_cols = ['montoCobrar', 'transCount', 'pagoAnterior', 'ratioAnterior', 'residualAnterior']
    scaler = StandardScaler()
    train_df[numeric_cols] = scaler.fit_transform(train_df[numeric_cols])
    return train_df

In [102]:
test_parquet_path=r"D:\Datathon 2025\2025Test.parquet"
test_df = pd.read_parquet(test_parquet_path)
test_df = preprocess(test_df)

In [103]:
def test(x):
    model = joblib.load(os.path.join("modelOut", x))
    test_df[list(set(model.feature_names_in_).difference(set(test_df.columns)))] = False
    return model.predict_proba(test_df[model.feature_names_in_])
files["predicts"] = files.files.apply(test)
files["emisora"] = files.files.apply(lambda x: x[8:].split(".")[0])

  n_ij = -0.5 * np.sum(np.log(2.0 * np.pi * self.var_[i, :]))
  n_ij -= 0.5 * np.sum(((X - self.theta_[i, :]) ** 2) / (self.var_[i, :]), 1)
  n_ij -= 0.5 * np.sum(((X - self.theta_[i, :]) ** 2) / (self.var_[i, :]), 1)


In [104]:
def crearJson(x):
    json = {}
    files.apply(lambda model: json.update({model.emisora: min(model.predicts[x.name])}), axis=1)
    x.dic.update({"probabilities":json})
test_df.apply(crearJson, axis=1)

0        None
1        None
2        None
3        None
4        None
         ... 
12791    None
12792    None
12793    None
12794    None
12795    None
Length: 12796, dtype: object