# **RANDOM values FyV**

## **Importar librerías**

In [1]:
import warnings
warnings.filterwarnings('ignore')

import pandas as pd
import numpy as np

In [2]:
# generar fechas
import datetime
from datetime import timedelta

import calendar
import holidays

In [3]:
# generar valores aleatorios por rangos
import random

import itertools

## **Cargar datos**

In [4]:
# dataframe de productos de la categoría "Fruta y verdura"
prod_fyv = pd.read_csv('../../data/fyv/productos_fyv.csv')

In [5]:
prod_fyv.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 175 entries, 0 to 174
Data columns (total 6 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   producto_id      175 non-null    int64  
 1   producto         175 non-null    object 
 2   formato          175 non-null    object 
 3   precio           175 non-null    float64
 4   subcategoria_id  175 non-null    int64  
 5   categoria_id     175 non-null    int64  
dtypes: float64(1), int64(3), object(2)
memory usage: 8.3+ KB


## **Generar datos**

### **Ventas FyV**

In [6]:
# crear tabla "ventas", con columnas "venta_id", "fecha", "dia_semana", "numero_semana" y "categoria_id"
vent_fyv = pd.DataFrame(columns=['venta_id', 'fecha', 'dia_semana', 'numero_semana', 'categoria_id'])

vent_fyv.info()

<class 'pandas.core.frame.DataFrame'>
Index: 0 entries
Data columns (total 5 columns):
 #   Column         Non-Null Count  Dtype 
---  ------         --------------  ----- 
 0   venta_id       0 non-null      object
 1   fecha          0 non-null      object
 2   dia_semana     0 non-null      object
 3   numero_semana  0 non-null      object
 4   categoria_id   0 non-null      object
dtypes: object(5)
memory usage: 0.0+ bytes


In [7]:
# generar valores para la columna "fecha"

# establecer rango de fechas
start_date = pd.to_datetime('2023-01-01')
end_date = pd.to_datetime('2023-06-30')

# generar fechas
fechas = pd.date_range(start=start_date, end=end_date)

# obtener festivos nacionales en España para el año correspondiente
festivos = holidays.Spain(years=start_date.year)

# generar fechas excluyendo domingos y festivos nacionales
fechas_abiertas = fechas[~(fechas.weekday == 6)]
fechas_abiertas = fechas_abiertas[~fechas_abiertas.isin(festivos)]

# actualizar fechas en la columna "fecha"
vent_fyv.loc[:, 'fecha'] = fechas_abiertas

vent_fyv

Unnamed: 0,venta_id,fecha,dia_semana,numero_semana,categoria_id
0,,2023-01-02,,,
1,,2023-01-03,,,
2,,2023-01-04,,,
3,,2023-01-05,,,
4,,2023-01-07,,,
...,...,...,...,...,...
146,,2023-06-26,,,
147,,2023-06-27,,,
148,,2023-06-28,,,
149,,2023-06-29,,,


In [8]:
# obtener día de la semana según fecha
dias_semana_es = ['lunes', 'martes', 'miércoles', 'jueves', 'viernes', 'sábado']
vent_fyv['dia_semana'] = vent_fyv['fecha'].dt.dayofweek.map(lambda x: dias_semana_es[x])

vent_fyv

Unnamed: 0,venta_id,fecha,dia_semana,numero_semana,categoria_id
0,,2023-01-02,lunes,,
1,,2023-01-03,martes,,
2,,2023-01-04,miércoles,,
3,,2023-01-05,jueves,,
4,,2023-01-07,sábado,,
...,...,...,...,...,...
146,,2023-06-26,lunes,,
147,,2023-06-27,martes,,
148,,2023-06-28,miércoles,,
149,,2023-06-29,jueves,,


In [9]:
# obtener número de semana según fecha
vent_fyv['numero_semana'] = vent_fyv['fecha'].dt.week

vent_fyv

Unnamed: 0,venta_id,fecha,dia_semana,numero_semana,categoria_id
0,,2023-01-02,lunes,1,
1,,2023-01-03,martes,1,
2,,2023-01-04,miércoles,1,
3,,2023-01-05,jueves,1,
4,,2023-01-07,sábado,1,
...,...,...,...,...,...
146,,2023-06-26,lunes,26,
147,,2023-06-27,martes,26,
148,,2023-06-28,miércoles,26,
149,,2023-06-29,jueves,26,


In [10]:
# asignar valor fijo para la columna "categoria_id"
vent_fyv['categoria_id'] = 1

vent_fyv

Unnamed: 0,venta_id,fecha,dia_semana,numero_semana,categoria_id
0,,2023-01-02,lunes,1,1
1,,2023-01-03,martes,1,1
2,,2023-01-04,miércoles,1,1
3,,2023-01-05,jueves,1,1
4,,2023-01-07,sábado,1,1
...,...,...,...,...,...
146,,2023-06-26,lunes,26,1
147,,2023-06-27,martes,26,1
148,,2023-06-28,miércoles,26,1
149,,2023-06-29,jueves,26,1


In [11]:
# generar valores para la columna "venta_id"
vent_fyv['venta_id'] = vent_fyv.index + 1

vent_fyv

Unnamed: 0,venta_id,fecha,dia_semana,numero_semana,categoria_id
0,1,2023-01-02,lunes,1,1
1,2,2023-01-03,martes,1,1
2,3,2023-01-04,miércoles,1,1
3,4,2023-01-05,jueves,1,1
4,5,2023-01-07,sábado,1,1
...,...,...,...,...,...
146,147,2023-06-26,lunes,26,1
147,148,2023-06-27,martes,26,1
148,149,2023-06-28,miércoles,26,1
149,150,2023-06-29,jueves,26,1


In [12]:
vent_fyv.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 151 entries, 0 to 150
Data columns (total 5 columns):
 #   Column         Non-Null Count  Dtype         
---  ------         --------------  -----         
 0   venta_id       151 non-null    int64         
 1   fecha          151 non-null    datetime64[ns]
 2   dia_semana     151 non-null    object        
 3   numero_semana  151 non-null    int64         
 4   categoria_id   151 non-null    int64         
dtypes: datetime64[ns](1), int64(3), object(1)
memory usage: 6.0+ KB


### **Ventas-Productos**

In [13]:
# crear tabla "ventas_productos", con columnas "venta_id", "producto_id", "venta"
vent_prod_fyv = pd.DataFrame(columns=['venta_id', 'producto_id', 'venta'])

vent_prod_fyv.info()

<class 'pandas.core.frame.DataFrame'>
Index: 0 entries
Data columns (total 3 columns):
 #   Column       Non-Null Count  Dtype 
---  ------       --------------  ----- 
 0   venta_id     0 non-null      object
 1   producto_id  0 non-null      object
 2   venta        0 non-null      object
dtypes: object(3)
memory usage: 0.0+ bytes


In [14]:
# obtener valores únicos de "venta_id" y "producto_id" de las tablas "ventas" y "productos"
venta_ids = vent_fyv['venta_id'].unique()
producto_ids = prod_fyv['producto_id'].unique()

# generar combinaciones de ids
combinaciones = list(itertools.product(producto_ids, venta_ids))

# asignar valores en la tabla existente
vent_prod_fyv.loc[:, 'venta_id'] = [venta_id for _, venta_id  in combinaciones]
vent_prod_fyv.loc[:, 'producto_id'] = [producto_id for producto_id, _ in combinaciones]

vent_prod_fyv

Unnamed: 0,venta_id,producto_id,venta
0,1,1,
1,2,1,
2,3,1,
3,4,1,
4,5,1,
...,...,...,...
26420,147,175,
26421,148,175,
26422,149,175,
26423,150,175,


In [15]:
# definir rangos de valores aleatorios para cada día de la semana
rango_cantidad = {
    'lunes': (1, 40),
    'martes': (0, 30),
    'miércoles': (0, 35),
    'jueves': (0, 30),
    'viernes': (1, 50),
    'sábado': (5, 60)
}

# obtener fecha límite hasta la cual generar datos aleatorios
fecha_limite = pd.to_datetime('2023-05-31')

# generar valores aleatorios en columna "venta" de "vent_prod_fyv" hasta fecha límite
for index, row in vent_prod_fyv.iterrows():
    venta_id = row['venta_id']
    venta_row = vent_fyv.loc[vent_fyv['venta_id'] == venta_id]
    if not venta_row.empty:
        fecha_venta = venta_row['fecha'].values[0]
        dia_semana = venta_row['dia_semana'].values[0]
        if pd.to_datetime(fecha_venta) <= fecha_limite:
            rango = rango_cantidad[dia_semana]
            vent_prod_fyv.at[index, 'venta'] = np.random.randint(rango[0], rango[1] + 1)
        else:
            vent_prod_fyv.at[index, 'venta'] = 0
    else:
        vent_prod_fyv.at[index, 'venta'] = 0

vent_prod_fyv

Unnamed: 0,venta_id,producto_id,venta
0,1,1,4
1,2,1,28
2,3,1,3
3,4,1,12
4,5,1,13
...,...,...,...
26420,147,175,0
26421,148,175,0
26422,149,175,0
26423,150,175,0


## **Exportar tablas**

In [18]:
# exportar tablas transformadas a ".csv"
vent_fyv.to_csv('../../data/fyv/ventas_fyv.csv', index=False)

vent_prod_fyv.to_csv('../../data/fyv/ventas_productos_fyv.csv', index=False)