In [96]:
# ------------------------- #
# Importación de librerías  #
# ------------------------- #

# Librerías estándar para análisis de datos y cálculos matemáticos
import numpy as np
import pandas as pd
import math
import random

# Librerías para bases de datos
#import pyodbc
import sqlite3

# Visualización
import seaborn as sns

# Machine Learning y modelado
from sklearn.model_selection import train_test_split
from sklearn.cluster import KMeans
from imblearn.over_sampling import RandomOverSampler
from sklearn.cluster import KMeans
import joblib

# Estadísticas y pruebas de hipótesis
from scipy.stats import (
    rv_discrete, t, binom, chi2, f, 
    ttest_ind
)
from sklearn.utils import resample

# ------------------------- #
# Importación de módulos    #
# ------------------------- #

# Modulo EDA
import importlib
import funciones_eda
importlib.reload(funciones_eda)
from funciones_eda import *

# Módulo de funciones personalizadas
import funciones_m
importlib.reload(funciones_m)
from funciones_m import *

# Módulo de distribución
import funciones_distribucion
importlib.reload(funciones_distribucion)
from funciones_distribucion import *

# Módulo de pruebas significativas
import funciones_pruebas_significativas
importlib.reload(funciones_pruebas_significativas)
from funciones_pruebas_significativas import *

# Módulo de clostering
import funciones_clostering
importlib.reload(funciones_clostering)
from funciones_clostering import *


### Pip line de datos nuevos

In [97]:
url = 'datos_nuevos_prediccion.csv'
df = pd.read_csv(url, index_col=None)
#df.drop('index', axis=1, inplace=True)

In [98]:
# tablas con encodin producto y cliente
url_2 = 'tabla_target_cliente.csv'
df_cliente = pd.read_csv(url_2, index_col=None)
df_cliente=df_cliente.drop_duplicates()
# tablas con encodin producto y cliente
url_ = 'tabla_target_producto.csv'
df_producto = pd.read_csv(url_, index_col=None)
df_producto=df_producto.drop_duplicates()
#df.drop('index', axis=1, inplace=True)

In [99]:
df_main=df.merge(df_cliente, on='CUSTOMER_ID', how='inner')
df_main=df_main.merge(df_producto, on='PRODUCT_ID', how='inner')

df_main_=df_main[['customer_target_mean','product_target_mean','Semana']]

In [100]:
df_main_ = df_main_.rename(columns={
    'customer_target_mean': 'target_cliente',
    'product_target_mean': 'target_producto',
})

In [101]:
df_main_=df_main_.sort_values(by=['target_cliente','target_producto','Semana'])

In [102]:
df_main_=df_main_.reset_index(drop=True)


### Prediccion de nuevos datos 

In [103]:
modelo = joblib.load('best_model.pkl')
scaler = joblib.load('scaler.pkl')

In [104]:
# Escalar los datos nuevos
nuevos_datos_escalados = scaler.transform(df_main_)

In [105]:
y_proba = modelo.predict_proba(nuevos_datos_escalados)[:, 1]

In [106]:
y_proba_lista = y_proba.tolist()

In [107]:
df_main['probabilidad_compra']=pd.Series(y_proba_lista).round(1)

In [108]:
df_main=df_main[['CUSTOMER_ID','PRODUCT_ID','Semana','probabilidad_compra']]

In [109]:
df_main.to_csv('datos probabilidad.csv', index=False)

In [110]:
df_main

Unnamed: 0,CUSTOMER_ID,PRODUCT_ID,Semana,probabilidad_compra
0,29446,26,25,0.0
1,29446,28,25,0.7
2,29446,79,25,0.5
3,29446,81,25,0.6
4,29446,87,25,0.7
5,29446,91,25,0.8
6,29446,105,25,0.0
7,29446,120,25,0.8
8,29446,130,25,0.9
9,29446,135,25,0.0
