# Objetivo de la prueba

En este caso, se quiere pronosticar la demanda de un producto para una semana
determinada, en una tienda especial. El conjunto de datos que recibe consta de 8 semanas
de transacciones de ventas en México.

Cada semana, hay camiones de reparto que entregan productos a los vendedores. Cada
transacción consiste en ventas y devoluciones. Las devoluciones son los productos que no
se han vendido y caducado.

La demanda de un producto en una semana determinada se define como las ventas de esta
semana restado por el retorno de la próxima semana.

## Requisitos

● Intentar desarrollar la prueba en Python / R / SQL, o el programa que se
le facilite.

● Comparte el documento con las respuestas, incluye una breve explicación
de tus resultados.

● Comparta su código para revisarlo en detalle.

# Limpiar tabla de clientes
Hay Cliente_ID duplicados en cliente_tabla, lo que significa un Cliente_ID. Puede
tener múltiples NombreCliente que son muy similares. 

Esto se debe al NombreCliente ser ruidoso y no estandarizado en los datos sin procesar, por lo
que depende de usted decidir cómo limpiar y utilizar esta información.

In [1]:
# Importar libreria para leer dataset
import pandas as pd

In [2]:
# cargar dataset de cliente mediante url de repositorio publico en github
df_duplicate = pd.read_csv("https://media.githubusercontent.com/media/EnriqueEscalante91/Caso-MELI/master/cliente_tabla.csv")
df_duplicate.shape

(935362, 2)

In [3]:
# Mostrar los primeros registros del DataFrame
print(df_duplicate.head(3)) 

   Cliente_ID     NombreCliente
0           0        SIN NOMBRE
1           1  OXXO XINANTECATL
2           2        SIN NOMBRE


In [4]:
#Validar si existen registros duplicados
duplicates = df_duplicate[df_duplicate.duplicated('Cliente_ID')]
# Mostrar los registros duplicados
print("Registros duplicados:")
print(df_duplicate)

Registros duplicados:
        Cliente_ID                            NombreCliente
0                0                               SIN NOMBRE
1                1                         OXXO XINANTECATL
2                2                               SIN NOMBRE
3                3                                EL MORENO
4                4  SDN SER  DE ALIM  CUERPO SA CIA  DE INT
...            ...                                      ...
935357    11011586                               OXXO PETEN
935358    11693264                     SUPER ABARROTES MARY
935359    19988629                          NO IDENTIFICADO
935360    99999999                          NO IDENTIFICADO
935361  2015152015                          NO IDENTIFICADO

[935362 rows x 2 columns]


In [5]:
# Eliminar los registros duplicados en la columna 'Cliente_ID'
df_cleaned = df_duplicate.drop_duplicates(subset='Cliente_ID', keep='first', inplace=True)

In [6]:
# Mostrar el DataFrame resultante
print("DataFrame sin duplicados:")
print(df_cleaned)

DataFrame sin duplicados:
None


In [7]:
# Guardar el DataFrame limpio en un nuevo archivo CSV
#csv_filename = "cliente_tabla_sin_duplicados.csv"
#df.to_csv(csv_filename, index=False)

# Entregables

1. Justifica la elección del algoritmo que utilizaste.

2. Graficar una serie de tiempo para una determinada combinación producto-cliente-agencia.

3. Agregue varias métricas de su elección para mostrar la solidez del algoritmo.

4. Definir una muestra de clientes que represente a una agencia específica
(Especifique cuál agencia y cuáles fueron sus criterios de selección y metodología
aplicada).

5. Prediga la semana 9 para los 3 productos más vendidos en la muestra de su cliente.

6. Haz un dibujo de diagrama de flujo que mapee todos los pasos de tu algoritmo usado.

In [None]:
# Importar libreria pandas en caso de no haber ejecutado antes
import pandas as pd
# Importar Tensorflow para nuestro modelo de machine learning
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import LSTM, Dense
#importar libreria para conectar con base de datos SQL server
from sqlalchemy import create_engine

# Entregable 1
El uso del algoritmo LSTM (Long Short-Term Memory) en un modelo construido con TensorFlow y Keras puede ser justificado por sus capacidades para tratar con secuencias de datos, como series temporales, y capturar patrones a largo plazo en los datos. Aquí hay algunas razones para considerar el uso de un modelo LSTM:

Captura de Dependencias Temporales: En problemas de pronóstico de series temporales, las dependencias temporales son cruciales. Las capas LSTM están diseñadas para capturar y recordar patrones de dependencia a lo largo del tiempo, lo que las hace ideales para problemas donde la relación entre las observaciones en diferentes momentos es esencial para hacer predicciones precisas.

Manejo de Secuencias: Las series temporales y otros tipos de datos secuenciales presentan desafíos únicos en el modelado. Las capas LSTM pueden manejar secuencias de longitud variable y aprender relaciones complejas entre las diferentes entradas en diferentes pasos de tiempo.

Memoria a Largo Plazo: A diferencia de las redes neuronales feedforward tradicionales, las LSTM tienen unidades de memoria que les permiten retener información importante a lo largo de la secuencia. Esto permite capturar patrones a largo plazo en los datos, lo que puede ser fundamental para pronósticos precisos en series temporales.

Resistencia al Desvanecimiento del Gradiente: Las capas LSTM están diseñadas para mitigar el problema del desvanecimiento del gradiente en redes neuronales profundas. Esto significa que son más efectivas para entrenar en redes profundas con muchas capas, lo que puede ser útil para capturar relaciones complejas en los datos.

Flexibilidad: Las capas LSTM pueden configurarse con diferentes hiperparámetros, como la cantidad de unidades LSTM en cada capa, el número de capas LSTM, la función de activación y más. Esto permite ajustar el modelo a las características específicas de tus datos y problema.

Pronóstico: Dado que estás interesado en pronosticar la demanda futura basada en datos históricos, un modelo LSTM puede ser particularmente útil, ya que puede capturar patrones y tendencias en las series temporales, permitiéndote hacer predicciones precisas.

La combinación de capas LSTM y otras capas, como capas densas (Dense), en un modelo Sequential de Keras te brinda flexibilidad para diseñar y ajustar el modelo según las necesidades de tu conjunto de datos y el problema específico que estás abordando. En resumen, el uso de capas LSTM en un modelo Keras es adecuado para problemas que involucran secuencias temporales y relaciones a largo plazo entre los datos.

El uso de LSTM (Long Short-Term Memory) en TensorFlow y Keras es justificado para pronósticos de series temporales debido a su capacidad para capturar patrones a largo plazo y dependencias temporales. Las capas LSTM manejan secuencias variables, conservan información crucial a lo largo del tiempo y evitan problemas de desvanecimiento del gradiente. Ofrecen flexibilidad para configurar hiperparámetros y se integran en modelos Sequential. Estas características los hacen adecuados para capturar relaciones complejas en datos secuenciales y facilitan el pronóstico preciso en problemas de series temporales como la predicción de la demanda basada en datos históricos.

In [63]:
# Configuración de la conexión a la base de datos SQL Server
server = 'SCALANTECH\SQLEXPRESS'
database = 'caso_negocio_meli'
username = 'sa'
password = '123'

# Cadena de conexión
conn_str = f'mssql+pyodbc://{username}:{password}@{server}/{database}?driver=SQL+Server'

In [64]:
#Realizar consulta SQL y JOINs para consolidar el dataframe de entrenamiento
query_train = '''
SELECT
     TOP 100
     v.Semana,
     v.Agencia_ID,
     e.Ciudad,
     e.Estado,
     c.Cliente_ID,
     c.NombreCliente,
     p.Producto_ID,
     p.NombreProducto,
     v.Venta_uni_hoy,
     v.Demanda_uni_equil
FROM ventas v
   INNER JOIN cliente_tabla c ON v.Cliente_ID = c.Cliente_ID
   INNER JOIN producto_tabla p ON v.Producto_ID = p.Producto_ID
   INNER JOIN estados_state e ON v.Agencia_ID = e.Agencia_ID
WHERE v.Demanda_uni_equil IS NOT NULL
ORDER BY Demanda_uni_equil DESC;

'''

# Crear una conexión SQLAlchemy
engine = create_engine(conn_str)

# Ejecutar la consulta y cargar los resultados en un DataFrame
df_train = pd.read_sql(query_train, engine)


In [65]:
df_train.describe()

Unnamed: 0,Semana,Agencia_ID,Cliente_ID,Producto_ID,Venta_uni_hoy,Demanda_uni_equil
count,100.0,100.0,100.0,100.0,100.0,100.0
mean,5.38,1140.2,1186063.0,17681.46,2487.16,2463.16
std,1.710219,21.331439,1158463.0,18549.579022,906.958829,876.376985
min,3.0,1110.0,17871.0,1166.0,1512.0,1512.0
25%,4.0,1110.0,558206.2,2604.0,1819.75,1819.75
50%,5.0,1139.0,952201.0,2604.0,2160.0,2160.0
75%,7.0,1160.0,1216931.0,34131.75,3074.0,3024.0
max,8.0,1168.0,4713060.0,49028.0,4800.0,4732.0


In [66]:
df_train.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100 entries, 0 to 99
Data columns (total 10 columns):
 #   Column             Non-Null Count  Dtype 
---  ------             --------------  ----- 
 0   Semana             100 non-null    int64 
 1   Agencia_ID         100 non-null    int64 
 2   Ciudad             100 non-null    object
 3   Estado             100 non-null    object
 4   Cliente_ID         100 non-null    int64 
 5   NombreCliente      100 non-null    object
 6   Producto_ID        100 non-null    int64 
 7   NombreProducto     100 non-null    object
 8   Venta_uni_hoy      100 non-null    int64 
 9   Demanda_uni_equil  100 non-null    int64 
dtypes: int64(6), object(4)
memory usage: 7.9+ KB


# Entregable 2
Graficar una serie de tiempo para una determinada combinación
producto-cliente-agencia.

In [67]:
#importar librerias para gráficar
import pandas as pd
import plotly.express as px

In [73]:
fig = px.scatter(df_train, x='Semana', 
                y='Demanda_uni_equil',
                color ='ENERGYSTARScore',
                hover_name= 'Producto_ID')
fig.show()


ValueError: Value of 'color' is not the name of a column in 'data_frame'. Expected one of ['Semana', 'Agencia_ID', 'Ciudad', 'Estado', 'Cliente_ID', 'NombreCliente', 'Producto_ID', 'NombreProducto', 'Venta_uni_hoy', 'Demanda_uni_equil'] but received: ENERGYSTARScore

In [None]:
#Realizar consulta SQL y JOINs para consolidar el dataframe de prueba
query_test = '''
SELECT
     t.Semana,
     t.Agencia_ID,
     e.Ciudad,
     e.Estado,
     t.Canal_ID,
     t.Ruta_SAK,
     t.Cliente_ID,
     c.NombreCliente,
     t.Producto_ID,
     p.NombreProducto
FROM test t
   INNER JOIN cliente_tabla c ON t.Cliente_ID = c.Cliente_ID
   INNER JOIN producto_tabla p ON t.Producto_ID = p.Producto_ID
   INNER JOIN estados_state e ON t.Agencia_ID = e.Agencia_ID
'''

# Crear una conexión SQLAlchemy
engine = create_engine(conn_str)

# Ejecutar la consulta y cargar los resultados en un DataFrame
df_test = pd.read_sql(query_test, engine)

In [None]:
df_test.describe()

In [54]:
plt.plot

<function matplotlib.pyplot.plot(*args, scalex=True, scaley=True, data=None, **kwargs)>