# Data Split

En este notebook realizamos la división de nuestro datatset en entrenamiento (80 %) y prueba (20 %) de nuestro dataset de ventas, generando los archivos `training.csv` y `test.csv` en la carpeta results, para su uso en modelos predictivos.


Primero, importaremos las librerias, las cuales estan desde requriments.txt, para trabajar el split del archivo y posterior guardado en la carpeta results

### 2.Carga de datos

Cargaremos el Dataset "retail_store_inventory.csv" y validamos que para el campo Store ID, si hay mas de una tienda

In [1]:
import pandas as pd

# Cargamos el archivo, usando read_csv, de la libreria pandas
filepath = "../data/retail_store_inventory.csv"
df_loaded = pd.read_csv(filepath)
df_loaded.info()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 73100 entries, 0 to 73099
Data columns (total 15 columns):
 #   Column              Non-Null Count  Dtype  
---  ------              --------------  -----  
 0   Date                73100 non-null  object 
 1   Store ID            73100 non-null  object 
 2   Product ID          73100 non-null  object 
 3   Category            73100 non-null  object 
 4   Region              73100 non-null  object 
 5   Inventory Level     73100 non-null  int64  
 6   Units Sold          73100 non-null  int64  
 7   Units Ordered       73100 non-null  int64  
 8   Demand Forecast     73100 non-null  float64
 9   Price               73100 non-null  float64
 10  Discount            73100 non-null  int64  
 11  Weather Condition   73100 non-null  object 
 12  Holiday/Promotion   73100 non-null  int64  
 13  Competitor Pricing  73100 non-null  float64
 14  Seasonality         73100 non-null  object 
dtypes: float64(3), int64(5), object(7)
memory usage: 8.4+

In [2]:
# Ver los valores unicos de la columna 'Store ID'

df_loaded["Store ID"].unique()

array(['S001', 'S002', 'S003', 'S004', 'S005'], dtype=object)

### 3. Filtrado a una sola tienda

Se realiza un filtro, en el cual solo dejamos para nuestro dataset preparado el codigo tienda de S005 (tienda 5) y ademas generamos que la categoria sea separada por toys, que es la que tiene mayor cantidad de registros

In [5]:
# Crear un nuevo DataFrame filtrado por Store ID 'S005' y categoría 'Toys'
target = "S005"
df_filtered = df_loaded[df_loaded["Store ID"] == target]

df_filtered["Store ID"].unique()

array(['S005'], dtype=object)

#### 4.Parametros del split

Primeramente, definiremos cuales seran los porcentajes asociados para realizar el split. Como equipo se definio lo siguiente :

    Habitualmente se usa un 80% para entrenamiento y 20% para test.

    Fija una semilla (random_state) para reproducibilidad

In [9]:
from sklearn.model_selection import train_test_split

# Realizamos el split con los parametros ya definidos
df_train, df_test = train_test_split(df_filtered, test_size=0.2, shuffle=False)

# Verificamos que ya se repartio, correctamente los archivos.
print(f"Entrenamiento: {df_train.shape}")
print(f"Test: {df_test.shape}")


Entrenamiento: (11696, 15)
Test: (2924, 15)


### 7. Exportación a CSV

Realizamos una exportacion, de los archivos training.csv y test.csv, a la carpeta results

In [10]:
# Guarda los CSV en la subcarpeta results
df_train.to_csv("../data/training.csv", index=False)
df_test.to_csv( "../data/test.csv",      index=False)
