In [1]:
import pandas as pd
import numpy as np
from datetime import datetime, timedelta

def generar_ventas_farmacia_imperial():
    # Configurar la semilla para reproducibilidad
    np.random.seed(42)
    
    # Definir productos con sus características
    PRODUCTOS = {
        'PRD001': {
            'nombre': 'Paracetamol',
            'precio': 15.50,
            'precio_compra': 10.20,
            'demanda_base': 5,  # Demanda base diaria
            'estacionalidad': 'invierno'  # Alta demanda en invierno
        },
        'PRD002': {
            'nombre': 'Ibuprofeno',
            'precio': 18.90,
            'precio_compra': 12.50,
            'demanda_base': 4,
            'estacionalidad': 'invierno'
        },
        'PRD003': {
            'nombre': 'Amoxicilina',
            'precio': 45.00,
            'precio_compra': 32.00,
            'demanda_base': 2,
            'estacionalidad': 'invierno'
        },
        'PRD004': {
            'nombre': 'Omeprazol',
            'precio': 35.90,
            'precio_compra': 25.30,
            'demanda_base': 3,
            'estacionalidad': 'neutral'
        },
        'PRD005': {
            'nombre': 'Loratadina',
            'precio': 22.50,
            'precio_compra': 15.80,
            'demanda_base': 3,
            'estacionalidad': 'primavera'
        },
        'PRD006': {
            'nombre': 'Aspirina',
            'precio': 12.90,
            'precio_compra': 8.50,
            'demanda_base': 4,
            'estacionalidad': 'neutral'
        },
        'PRD007': {
            'nombre': 'Diclofenaco',
            'precio': 25.90,
            'precio_compra': 18.20,
            'demanda_base': 3,
            'estacionalidad': 'neutral'
        },
        'PRD008': {
            'nombre': 'Cetirizina',
            'precio': 28.50,
            'precio_compra': 19.90,
            'demanda_base': 2,
            'estacionalidad': 'primavera'
        },
        'PRD009': {
            'nombre': 'Metformina',
            'precio': 38.90,
            'precio_compra': 27.30,
            'demanda_base': 2,
            'estacionalidad': 'neutral'
        },
        'PRD010': {
            'nombre': 'Enalapril',
            'precio': 42.50,
            'precio_compra': 29.80,
            'demanda_base': 2,
            'estacionalidad': 'neutral'
        },
        'PRD011': {
            'nombre': 'Losartán',
            'precio': 45.90,
            'precio_compra': 32.10,
            'demanda_base': 2,
            'estacionalidad': 'neutral'
        },
        'PRD012': {
            'nombre': 'Atorvastatina',
            'precio': 68.90,
            'precio_compra': 48.20,
            'demanda_base': 1,
            'estacionalidad': 'neutral'
        },
        'PRD013': {
            'nombre': 'Metronidazol',
            'precio': 32.50,
            'precio_compra': 22.80,
            'demanda_base': 2,
            'estacionalidad': 'verano'
        },
        'PRD014': {
            'nombre': 'Ciprofloxacino',
            'precio': 48.90,
            'precio_compra': 34.20,
            'demanda_base': 1,
            'estacionalidad': 'verano'
        },
        'PRD015': {
            'nombre': 'Ranitidina',
            'precio': 28.90,
            'precio_compra': 20.20,
            'demanda_base': 2,
            'estacionalidad': 'neutral'
        },
        'PRD016': {
            'nombre': 'Dexametasona',
            'precio': 35.50,
            'precio_compra': 24.90,
            'demanda_base': 1,
            'estacionalidad': 'neutral'
        },
        'PRD017': {
            'nombre': 'Salbutamol',
            'precio': 42.90,
            'precio_compra': 30.00,
            'demanda_base': 2,
            'estacionalidad': 'invierno'
        },
        'PRD018': {
            'nombre': 'Vitamina C',
            'precio': 25.90,
            'precio_compra': 18.10,
            'demanda_base': 4,
            'estacionalidad': 'invierno'
        },
        'PRD019': {
            'nombre': 'Complejo B',
            'precio': 32.90,
            'precio_compra': 23.00,
            'demanda_base': 3,
            'estacionalidad': 'neutral'
        },
        'PRD020': {
            'nombre': 'Azitromicina',
            'precio': 58.90,
            'precio_compra': 41.20,
            'demanda_base': 1,
            'estacionalidad': 'invierno'
        }
    }
    
    # Generar fechas base para 2 años
    end_date = datetime.now()
    start_date = end_date - timedelta(days=730)
    dates = pd.date_range(start=start_date, end=end_date, freq='D')
    
    # Factores climáticos de Cañete
    # Imperial, Cañete tiene un clima subtropical árido
    temporadas = {
        # Verano (Diciembre - Marzo)
        12: {'temp': 28, 'humedad': 'alta'},
        1: {'temp': 30, 'humedad': 'alta'},
        2: {'temp': 29, 'humedad': 'alta'},
        3: {'temp': 28, 'humedad': 'alta'},
        # Otoño (Abril - Junio)
        4: {'temp': 25, 'humedad': 'media'},
        5: {'temp': 22, 'humedad': 'media'},
        6: {'temp': 20, 'humedad': 'media-alta'},
        # Invierno (Julio - Septiembre)
        7: {'temp': 18, 'humedad': 'alta'},
        8: {'temp': 17, 'humedad': 'alta'},
        9: {'temp': 18, 'humedad': 'alta'},
        # Primavera (Octubre - Noviembre)
        10: {'temp': 20, 'humedad': 'media'},
        11: {'temp': 22, 'humedad': 'media'}
    }
    
    # Definir patrones de demanda por día de la semana
    demanda_dia_semana = {
        0: 1.2,  # Lunes
        1: 1.0,  # Martes
        2: 1.0,  # Miércoles
        3: 1.1,  # Jueves
        4: 1.3,  # Viernes
        5: 1.4,  # Sábado
        6: 0.8   # Domingo
    }
    
    # Lista para almacenar todas las ventas
    ventas = []
    
    # Generar ventas para cada día
    for date in dates:
        # Obtener factores climáticos del mes
        clima = temporadas[date.month]
        
        for prod_id, producto in PRODUCTOS.items():
            # Factor base según día de la semana
            factor_dia = demanda_dia_semana[date.dayofweek]
            
            # Factor estacional basado en el clima y tipo de producto
            factor_estacional = 1.0
            if producto['estacionalidad'] == 'invierno' and clima['temp'] < 20:
                factor_estacional = 1.5
            elif producto['estacionalidad'] == 'verano' and clima['temp'] > 25:
                factor_estacional = 1.3
            elif producto['estacionalidad'] == 'primavera' and date.month in [9, 10, 11]:
                factor_estacional = 1.2
                
            # Calcular demanda esperada
            demanda_esperada = producto['demanda_base'] * factor_dia * factor_estacional
            
            # Agregar variación aleatoria (distribución Poisson)
            num_ventas = np.random.poisson(demanda_esperada)
            
            # Generar ventas del día
            if num_ventas > 0:
                for _ in range(num_ventas):
                    # Generar hora aleatoria (farmacia abierta de 7am a 10pm)
                    hora = pd.Timestamp(date) + pd.Timedelta(hours=np.random.randint(7, 22))
                    
                    # Cantidad vendida (varía según el tipo de producto)
                    if producto['precio'] < 20:  # productos más baratos
                        cantidad = np.random.choice([1, 1, 2, 2, 3], p=[0.5, 0.2, 0.2, 0.05, 0.05])
                    else:  # productos más caros
                        cantidad = np.random.choice([1, 1, 1, 2], p=[0.8, 0.1, 0.05, 0.05])
                    
                    venta = {
                        'fecha_hora': hora,
                        'producto_id': prod_id,
                        'producto_nombre': producto['nombre'],
                        'cantidad': cantidad,
                        'precio_unitario': producto['precio'],
                        'total_venta': producto['precio'] * cantidad,
                        'costo_unitario': producto['precio_compra'],
                        'margen': (producto['precio'] - producto['precio_compra']) * cantidad,
                        'temperatura': clima['temp'],
                        'humedad': clima['humedad']
                    }
                    ventas.append(venta)
    
    # Crear DataFrame
    df_ventas = pd.DataFrame(ventas)
    
    # Ordenar por fecha
    df_ventas = df_ventas.sort_values('fecha_hora')
    
    # Resetear índice
    df_ventas = df_ventas.reset_index(drop=True)
    
    return df_ventas

# Generar los datos
df_ventas = generar_ventas_farmacia_imperial()

# Mostrar resumen de los datos
print("\nResumen de ventas generadas:")
print(f"Total de registros: {len(df_ventas)}")

print("\nVentas por producto:")
ventas_producto = df_ventas.groupby('producto_nombre').agg({
    'cantidad': 'sum',
    'total_venta': 'sum',
    'margen': 'sum'
}).round(2)
print(ventas_producto)

print("\nResumen de ventas por mes:")
ventas_mes = df_ventas.groupby(df_ventas['fecha_hora'].dt.strftime('%Y-%m')).agg({
    'total_venta': 'sum',
    'margen': 'sum'
}).round(2)
print(ventas_mes)

# Guardar los datos
df_ventas.to_csv('ventas_farmacia_imperial.csv', index=False)


Resumen de ventas generadas:
Total de registros: 42088

Ventas por producto:
                 cantidad  total_venta   margen
producto_nombre                                
Amoxicilina          1941      87345.0  25233.0
Aspirina             4393      56669.7  19329.2
Atorvastatina         856      58978.4  17719.2
Azitromicina          970      57133.0  17169.0
Cetirizina           1775      50587.5  15265.0
Ciprofloxacino        852      41662.8  12524.4
Complejo B           2540      83566.0  25146.0
Dexametasona          838      29749.0   8882.8
Diclofenaco          2552      66096.8  19650.4
Enalapril            1692      71910.0  21488.4
Ibuprofeno           4745      89680.5  30368.0
Loratadina           2723      61267.5  18244.1
Losartán             1756      80600.4  24232.8
Metformina           1692      65818.8  19627.2
Metronidazol         1842      59865.0  17867.4
Omeprazol            2560      91904.0  27136.0
Paracetamol          6159      95464.5  32642.7
Ranitidina

In [12]:
import pandas as pd
import numpy as np
from sklearn.preprocessing import MinMaxScaler
from collections import defaultdict
import random
from datetime import datetime, timedelta
import pickle

class PharmacyDemandPredictor:
    def __init__(self, n_states=20, n_actions=20, learning_rate=0.1, 
                 discount_factor=0.95, epsilon=0.1, window_size=30):
        self.n_states = n_states
        self.n_actions = n_actions
        self.learning_rate = learning_rate
        self.discount_factor = discount_factor
        self.epsilon = epsilon
        self.window_size = window_size
        self.q_table = defaultdict(lambda: np.zeros(n_actions))
        self.scaler = MinMaxScaler()
        
    def prepare_features(self, df, product_id):
        """
        Prepara las características para el modelo agregando ventas diarias
        y calculando features temporales.
        También incluye variables climáticas como temperatura y humedad.
        """
        # Filtrar solo el producto relevante
        if 'producto_id' in df.columns:
            df = df[df['producto_id'] == product_id]
            if df.empty:
                raise ValueError(f"No se encontraron datos para el producto con ID {product_id}.")

        # Agregar ventas por día
        # Convertir 'humedad' a valores numéricos
        df['humedad'] = df['humedad'].map({'alta': 1, 'baja': 0}).fillna(0).astype(int)
        
        daily_sales = df.groupby(df['fecha_hora'].dt.date).agg({
            'cantidad': 'sum',
            'total_venta': 'sum',
            'temperatura': 'mean',
            'humedad': 'mean'
        }).reset_index()
        daily_sales['fecha'] = pd.to_datetime(daily_sales['fecha_hora'])

        # Crear características temporales
        daily_sales['dia_semana'] = daily_sales['fecha'].dt.dayofweek
        daily_sales['mes'] = daily_sales['fecha'].dt.month
        daily_sales['dia_mes'] = daily_sales['fecha'].dt.day

        # Calcular medias móviles y otras características
        features = pd.DataFrame({
            'fecha': daily_sales['fecha'],
            'ventas_dia': daily_sales['cantidad'],
            'ventas_media_7d': daily_sales['cantidad'].rolling(7).mean(),
            'ventas_media_30d': daily_sales['cantidad'].rolling(30).mean(),
            'ventas_std_7d': daily_sales['cantidad'].rolling(7).std(),
            'temperatura': daily_sales['temperatura'],  # Promedio diario
            'humedad': daily_sales['humedad'],          # Promedio diario
            'dia_semana': daily_sales['dia_semana'],
            'mes': daily_sales['mes'],
            'dia_mes': daily_sales['dia_mes']
        })

        return features.dropna()

    
    def get_state(self, features):
        """
        Convierte las características en un estado discreto, incluyendo temperatura y humedad.
        """
        # Normalizar características numéricas
        numeric_features = ['ventas_dia', 'ventas_media_7d', 'ventas_media_30d', 'ventas_std_7d', 
                            'temperatura', 'humedad']
        features_norm = self.scaler.fit_transform(features[numeric_features].values.reshape(1, -1))
        
        # Combinar con características categóricas normalizadas
        day_week_norm = features['dia_semana'].values[0] / 6
        month_norm = features['mes'].values[0] / 12
        
        # Calcular estado combinado
        state_value = np.mean([*features_norm[0], day_week_norm, month_norm])
        state = int(state_value * (self.n_states - 1))
        return min(max(state, 0), self.n_states - 1)

    
    def get_action(self, state):
        """
        Selecciona una acción usando la política epsilon-greedy.
        """
        if random.random() < self.epsilon:
            return random.randint(0, self.n_actions - 1)
        return np.argmax(self.q_table[state])
    
    def get_reward(self, predicted, actual):
        """
        Calcula la recompensa basada en la precisión de la predicción.
        """
        error = abs(predicted - actual)
        max_error = max(predicted, actual)
        if max_error == 0:
            return 1.0 if error == 0 else 0.0
        reward = 1.0 - (error / max_error)
        return max(reward, 0.0)
    
    def train(self, features_df, epochs=100):
        """
        Entrena el modelo Q-Learning con los datos históricos.
        """
        print("Iniciando entrenamiento...")

        for epoch in range(epochs):
            total_reward = 0
            for i in range(len(features_df) - 1):
                current_features = features_df.iloc[i]
                next_features = features_df.iloc[i + 1]
                
                current_state = self.get_state(current_features.to_frame().T)
                next_state = self.get_state(next_features.to_frame().T)
                
                action = self.get_action(current_state)
                predicted_sales = (action / (self.n_actions - 1)) * max(features_df['ventas_dia'])
                actual_sales = next_features['ventas_dia']
                
                reward = self.get_reward(predicted_sales, actual_sales)
                total_reward += reward
                
                # Actualizar Q-table
                best_next_action = np.argmax(self.q_table[next_state])
                current_q = self.q_table[current_state][action]
                next_q = self.q_table[next_state][best_next_action]
                
                new_q = current_q + self.learning_rate * (
                    reward + self.discount_factor * next_q - current_q
                )
                
                self.q_table[current_state][action] = new_q

            if (epoch + 1) % 10 == 0:
                print(f"Época {epoch + 1}/{epochs}, Recompensa promedio: {total_reward/len(features_df):.4f}")
    
    def predict_future(self, features_df, days_to_predict, product_id):
        """
        Predice la demanda para un número específico de días futuros para un producto específico.
        """
        last_date = pd.to_datetime(features_df['fecha'].iloc[-1])
        predictions = []
        
        # Filtrar solo los datos del producto seleccionado
        product_data = features_df[features_df['producto_id'] == product_id]
        
        if product_data.empty:
            print(f"No se encontraron datos para el producto con ID {product_id}.")
            return pd.DataFrame()
        
        current_features = product_data.iloc[-1].copy()
        
        for i in range(days_to_predict):
            next_date = last_date + timedelta(days=i+1)
            
            # Actualizar características temporales
            current_features['dia_semana'] = next_date.dayofweek
            current_features['mes'] = next_date.month
            current_features['dia_mes'] = next_date.day
            
            # Obtener estado y predecir
            state = self.get_state(current_features.to_frame().T)
            action = np.argmax(self.q_table[state])
            predicted_sales = (action / (self.n_actions - 1)) * max(features_df['ventas_dia'])
            
            predictions.append({
                'fecha': next_date,
                'demanda_predicha': round(predicted_sales, 2)
            })
            
            # Actualizar features para la siguiente predicción
            current_features['ventas_dia'] = predicted_sales
            current_features['ventas_media_7d'] = (current_features['ventas_media_7d'] * 6 + predicted_sales) / 7
            current_features['ventas_media_30d'] = (current_features['ventas_media_30d'] * 29 + predicted_sales) / 30
            
        return pd.DataFrame(predictions)

    def save_model(self, filename="q_table.pkl"):
        """
        Guarda la tabla Q en un archivo.
        """
        with open(filename, 'wb') as f:
            pickle.dump(self.q_table, f)
            print(f"Modelo guardado en '{filename}' con éxito.")

    
    def load_model(self, filename="q_table.pkl"):
        """
        Carga la tabla Q desde un archivo.
        """
        try:
            with open(filename, 'rb') as f:
                self.q_table = pickle.load(f)
                print("Modelo cargado con éxito.")
        except FileNotFoundError:
            print(f"No se encontró el archivo de modelo '{filename}'. Realizando entrenamiento.")
        except EOFError:
            print(f"El archivo de modelo '{filename}' está vacío. Realizando entrenamiento.")
            self.q_table = defaultdict(lambda: np.zeros(self.n_actions))  # Inicializar Q-table vacía


def predict_demand(sales_data, days_to_predict=5, training_epochs=100, product_id="PRD018"):
    """
    Función principal para predecir la demanda futura para un solo producto.
    
    Parámetros:
    sales_data: DataFrame con las columnas ['fecha_hora', 'cantidad', 'total_venta', 'producto_id']
    days_to_predict: Número de días futuros a predecir
    training_epochs: Número de épocas de entrenamiento
    product_id: ID del producto a predecir
    
    Retorna:
    DataFrame con las predicciones diarias
    """
    # Inicializar el modelo
    predictor = PharmacyDemandPredictor()
    
    # Cargar el modelo preentrenado si existe
    predictor.load_model()
    
    # Si el modelo no está entrenado, realizar el entrenamiento y luego guardarlo
    if not predictor.q_table:  # Si la tabla Q está vacía, significa que el modelo no ha sido entrenado.
        print("Entrenando el modelo...")
        # Preparar características
        features = predictor.prepare_features(sales_data, product_id)
        
        # Entrenar modelo
        predictor.train(features, epochs=training_epochs)
        
        # Guardar el modelo entrenado
        predictor.save_model()
    
    # Realizar predicciones para el producto específico
    predictions = predictor.predict_future(sales_data, days_to_predict, product_id)
    
    return predictions


if __name__ == "__main__":
    # Cargar datos históricos generados
    df_ventas = pd.read_csv('ventas_farmacia_imperial.csv')
    df_ventas['fecha_hora'] = pd.to_datetime(df_ventas['fecha_hora'])
    
    # Predecir demanda para los próximos 5 días para el producto 'PRD018'
    predictions = predict_demand(df_ventas, days_to_predict=5, training_epochs=100, product_id="PRD018")
    
    # Mostrar resultados
    print("\nPredicciones de demanda para los próximos 5 días del producto PRD018:")
    print(predictions)
    
    # Guardar predicciones
    predictions.to_csv('predicciones_demanda_producto_PRD018.csv', index=False)
    
    # Mostrar algunas estadísticas de las predicciones
    print("\nEstadísticas de las predicciones:")
    print(predictions['demanda_predicha'].describe())


No se encontró el archivo de modelo 'q_table.pkl'. Realizando entrenamiento.
Entrenando el modelo...
Iniciando entrenamiento...


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df['humedad'] = df['humedad'].map({'alta': 1, 'baja': 0}).fillna(0).astype(int)


Época 10/100, Recompensa promedio: 0.4379
Época 20/100, Recompensa promedio: 0.5577
Época 30/100, Recompensa promedio: 0.5660
Época 40/100, Recompensa promedio: 0.5699
Época 50/100, Recompensa promedio: 0.5707
Época 60/100, Recompensa promedio: 0.5844
Época 70/100, Recompensa promedio: 0.5672
Época 80/100, Recompensa promedio: 0.5854
Época 90/100, Recompensa promedio: 0.6370
Época 100/100, Recompensa promedio: 0.6389


AttributeError: Can't pickle local object 'PharmacyDemandPredictor.__init__.<locals>.<lambda>'