# Data Split

En este notebook realizamos la división de nuestro datatset en entrenamiento (80 %) y prueba (20 %) de nuestro dataset de ventas, generando los archivos `training.csv` y `test.csv` en la carpeta results, para su uso en modelos predictivos.


### 1.Importar liberias

Primero, importaremos las librerias, las cuales estan desde requriments.txt, para trabajar el split del archivo y posterior guardado en la carpeta results

In [28]:
import os
import pandas as pd
from sklearn.model_selection import train_test_split


### 2.Carga de datos

Cargaremos el Dataset "retail_store_inventory.csv" y validamos que para el campo Store ID, si hay mas de una tienda

In [29]:
# Cargamos el archivo, usando read_csv, de la libreria pandas

df = pd.read_csv('../data/retail_store_inventory.csv')
print(df.shape)
df.head()


(73100, 15)


Unnamed: 0,Date,Store ID,Product ID,Category,Region,Inventory Level,Units Sold,Units Ordered,Demand Forecast,Price,Discount,Weather Condition,Holiday/Promotion,Competitor Pricing,Seasonality
0,2022-01-01,S001,P0001,Groceries,North,231,127,55,135.47,33.5,20,Rainy,0,29.69,Autumn
1,2022-01-01,S001,P0002,Toys,South,204,150,66,144.04,63.01,20,Sunny,0,66.16,Autumn
2,2022-01-01,S001,P0003,Toys,West,102,65,51,74.02,27.99,10,Sunny,1,31.32,Summer
3,2022-01-01,S001,P0004,Toys,North,469,61,164,62.18,32.72,10,Cloudy,1,34.74,Autumn
4,2022-01-01,S001,P0005,Electronics,East,166,14,135,9.26,73.64,0,Sunny,0,68.95,Summer


In [30]:
# Ver los valores unicos de la columna 'Store ID'

df['Store ID'].unique()

array(['S001', 'S002', 'S003', 'S004', 'S005'], dtype=object)

### 3. Filtrado a una sola tienda

Se realiza un filtro, en el cual solo dejamos para nuestro dataset preparado el codigo tienda de S005 (tienda 5) y ademas generamos que la categoria sea separada por toys, que es la que tiene mayor cantidad de registros

In [31]:
# Crear un nuevo DataFrame filtrado por Store ID 'S005' y categoría 'Toys'
df_S005_Toys = df[(df['Store ID'] == 'S005') & (df['Category'] == 'Toys')].copy()

# Echar un vistazo rápido con shape y head
print(df_S005_Toys.shape)
df_S005_Toys.head()

(2984, 15)


Unnamed: 0,Date,Store ID,Product ID,Category,Region,Inventory Level,Units Sold,Units Ordered,Demand Forecast,Price,Discount,Weather Condition,Holiday/Promotion,Competitor Pricing,Seasonality
80,2022-01-01,S005,P0001,Toys,West,111,77,60,83.47,70.33,10,Cloudy,0,70.29,Winter
87,2022-01-01,S005,P0008,Toys,West,478,317,197,328.64,34.08,5,Snowy,1,30.44,Winter
182,2022-01-02,S005,P0003,Toys,West,397,333,35,336.02,80.88,20,Rainy,1,84.97,Winter
191,2022-01-02,S005,P0012,Toys,West,182,87,121,83.13,38.59,20,Rainy,0,33.87,Spring
193,2022-01-02,S005,P0014,Toys,South,437,286,116,282.52,14.65,20,Snowy,1,13.12,Winter


Validamos que solo este filtrado el grupo de tienda, correcto

In [32]:
# Revisamos que ya solo aparece un tipo, en la columna de variable categorica

df_S005_Toys['Store ID'].unique()

array(['S005'], dtype=object)

Validamos que solo este filtrado, la categoria correcta, de la variable categorica

In [33]:
df_S005_Toys['Category'].unique()

array(['Toys'], dtype=object)

Validamos la cantidad de rows y filas, con shape

In [34]:
# Validamos que el filtro, baja la cantidad de rows

df_S005_Toys.shape

(2984, 15)

#### 4.Parametros del split

Primeramente, definiremos cuales seran los porcentajes asociados para realizar el split. Como equipo se definio lo siguiente :

    Habitualmente se usa un 80% para entrenamiento y 20% para test.

    Fija una semilla (random_state) para reproducibilidad

In [38]:
# Se definen los parametros, con un random_seed de 42

test_size = 0.2
random_seed = 42


### 5.Realizacion del Split

Realizamos el split, segun lo documentado anteriormente

In [40]:
# Realizamos el split con los parametros ya definidos

train_df, test_df = train_test_split(
    df_S005_Toys,
    test_size=test_size,
    random_state=random_seed,
    shuffle=True
)


### 6. Verificación de resultados

Realizamos un print, para ver como queda populado, separado en los porcentajes antes mencionados

In [41]:
# Verificamos que ya se repartio, correctamente los archivos.

print(f"Entrenamiento: {train_df.shape}")
print(f"Test:         {test_df.shape}")


Entrenamiento: (2387, 15)
Test:         (597, 15)


### 7. Exportación a CSV

Realizamos una exportacion, de los archivos training.csv y test.csv, a la carpeta results

In [42]:
import os

# Define la carpeta de destino a donde debe llegar
output_dir = os.path.join('..', 'data')

# Crea la carpeta (y subcarpetas) si no existen
os.makedirs(output_dir, exist_ok=True)

# Guarda los CSV en la subcarpeta results
train_df.to_csv(os.path.join(output_dir, 'training.csv'), index=False)
test_df.to_csv( os.path.join(output_dir, 'test.csv'),      index=False)
