<a href="https://colab.research.google.com/github/betsyvies/food-sales-predictions/blob/main/predictive_analytics.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [16]:
from google.colab import drive
drive.mount('/content/drive')

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


In [17]:
import pandas as pd
import numpy as np
from sklearn.preprocessing import StandardScaler, OneHotEncoder
from sklearn.impute import SimpleImputer
from sklearn.compose import make_column_transformer, make_column_selector
from sklearn.pipeline import make_pipeline
from sklearn.model_selection import train_test_split
from sklearn import set_config
set_config(display='diagram')

In [18]:
path = '/content/drive/MyDrive/Data science/Projects/Project 1/sales_predictions_2023.csv'
df = pd.read_csv(path)
df.head()

Unnamed: 0,Item_Identifier,Item_Weight,Item_Fat_Content,Item_Visibility,Item_Type,Item_MRP,Outlet_Identifier,Outlet_Establishment_Year,Outlet_Size,Outlet_Location_Type,Outlet_Type,Item_Outlet_Sales
0,FDA15,9.3,Low Fat,0.016047,Dairy,249.8092,OUT049,1999,Medium,Tier 1,Supermarket Type1,3735.138
1,DRC01,5.92,Regular,0.019278,Soft Drinks,48.2692,OUT018,2009,Medium,Tier 3,Supermarket Type2,443.4228
2,FDN15,17.5,Low Fat,0.01676,Meat,141.618,OUT049,1999,Medium,Tier 1,Supermarket Type1,2097.27
3,FDX07,19.2,Regular,0.0,Fruits and Vegetables,182.095,OUT010,1998,,Tier 3,Grocery Store,732.38
4,NCD19,8.93,Low Fat,0.0,Household,53.8614,OUT013,1987,High,Tier 3,Supermarket Type1,994.7052


### Explorar los datos

Tenemos columnas con características categoricas nominales y ordinales, comó tambien numéricas con datos enteros y flotantes. Nos faltaría explorar los datos para saber que columnas tienen datos faltantes y que tipo de datos son.

Puedo ver que son 2 las columnas con datos faltantes estás son de tipo object y flotante. La columna de tipo entero está completa.

In [19]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 8523 entries, 0 to 8522
Data columns (total 12 columns):
 #   Column                     Non-Null Count  Dtype  
---  ------                     --------------  -----  
 0   Item_Identifier            8523 non-null   object 
 1   Item_Weight                7060 non-null   float64
 2   Item_Fat_Content           8523 non-null   object 
 3   Item_Visibility            8523 non-null   float64
 4   Item_Type                  8523 non-null   object 
 5   Item_MRP                   8523 non-null   float64
 6   Outlet_Identifier          8523 non-null   object 
 7   Outlet_Establishment_Year  8523 non-null   int64  
 8   Outlet_Size                6113 non-null   object 
 9   Outlet_Location_Type       8523 non-null   object 
 10  Outlet_Type                8523 non-null   object 
 11  Item_Outlet_Sales          8523 non-null   float64
dtypes: float64(4), int64(1), object(7)
memory usage: 799.2+ KB


#### Codificación ordinal

Para la codificación ordinal haré el cambio de los valores categóricos a numéricos mateniendo un ordenamiento ordinal entre estos. Al ser un número pequeño de variables ordinales es probable que estén en datos de entrenamiento y de prueba. Hacer esto no implica un riesgo de fuga de datos.

In [20]:
df['Outlet_Size'].value_counts()

Outlet_Size
Medium    2793
Small     2388
High       932
Name: count, dtype: int64

A high le dare un valor de 2, a medium un valor de 1 y a small un valor de 0. Ahora sí, ***Outlet_Size*** es un tipo de dato flotante y con codificación ordinal.

In [21]:
replacement_dictionary = {'High':2, 'Medium':1, 'Small':0}
df['Outlet_Size'].replace(replacement_dictionary, inplace=True)
df['Outlet_Size']

0       1.0
1       1.0
2       1.0
3       NaN
4       2.0
       ... 
8518    2.0
8519    NaN
8520    0.0
8521    1.0
8522    0.0
Name: Outlet_Size, Length: 8523, dtype: float64

### División de la validación
Separaré mi columna objetivo **"Item_Outlet_Sales"** de las demás columnas, como también la eliminaré del DataFrame. Las columnas que queden en el DataFrame serán entrenadas. También haré la división de los datos en datos de prueba y entrenamiento.

In [25]:
X = df.drop('Item_Outlet_Sales', axis=1)
y = df['Item_Outlet_Sales']
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=42)

### Instanciar selectores de columnas
Definiré los selectores para las columnas con valor object y otra para la columna con valor number. Lo que permitirá que el código siga funcionando en producción incluso si las columnas del DataFrame cambian.

In [26]:
cat_selector = make_column_selector(dtype_include='object')
num_selector = make_column_selector(dtype_include='number')

### Instanciar transformadores
Usaré tres diferentes transformadores: SimpleImputer, StandardScaler y OneHotEncoder. Instanciaré dos SimpleImputers con diferentes estrategias de imputación: most_frequent y mean. El primero para los categóricos y el segundo para los númericos.

In [27]:
# Imputers
freq_imputer = SimpleImputer(strategy='most_frequent')
mean_imputer = SimpleImputer(strategy='mean')
# Scaler
scaler = StandardScaler()
# One-hot encoder
ohe = OneHotEncoder(handle_unknown='ignore', sparse=False)

### Instanciar pipelines

Definiré dos pipelines, uno para los datos numéricos y otros para los datos nominales categóricos.

In [28]:
# Numeric pipeline
numeric_pipe = make_pipeline(mean_imputer, scaler)
numeric_pipe

In [29]:
# Categorical pipeline
categorical_pipe = make_pipeline(freq_imputer, ohe)
categorical_pipe

### Instanciar ColumnTransformer

Ahora crearé 2 tuplas, estás tendrán como primer valor el pipeline y como segundo valor el selector. Para el pipeline númerico el selector númerico y para el categorico el selector categorico. La función make_column_transformer utiliza tuplas para hacer coincidir los transformadores con los tipos de datos sobre los que deben actuar.

In [30]:
# Tuples para Column Transformer
number_tuple = (numeric_pipe, num_selector)
category_tuple = (categorical_pipe, cat_selector)
# ColumnTransformer
preprocessor = make_column_transformer(number_tuple, category_tuple)
preprocessor

### Instanciar y ajustar el transformador en los datos de entrenamiento
Ajustare el **preprocessor** que es un ColumnTransformer solo en los datos de entrenamiento. El cual no se debe aplicar a los datos de prueba. Esto para que todos los cálculos del escalamiento solo se basen en los datos de entrenamiento.

In [31]:
# fit on train
preprocessor.fit(X_train)



Usaré este ColumnTransformer ajustado para transformar los conjuntos de datos de entrenamiento y de prueba.

In [32]:
# transform train and test
X_train_processed = preprocessor.transform(X_train)
X_test_processed = preprocessor.transform(X_test)

### Inspeccionar el resultado
Al inspeccionar el resultado me aseguro de que se hayan sustituido los datos faltantes, que los datos categóricos hayan sido codificados con one-hot y que los datos numéricos se hayan escalado.

1. Comprobar que no hay datos faltantes

In [33]:
print(np.isnan(X_train_processed).sum().sum(), 'missing values in training data')
print(np.isnan(X_test_processed).sum().sum(), 'missing values in testing data')

0 missing values in training data
0 missing values in testing data


2. Revisar el tipo de dato de los datos de prueba y entrenamiento

In [34]:
print('All data in X_train_processed are', X_train_processed.dtype)
print('All data in X_test_processed are', X_test_processed.dtype)

All data in X_train_processed are float64
All data in X_test_processed are float64


3. Comprobar que todos los datos númericos fueron escalados y que los categóricos tengan codificación one-hot encoder.

In [35]:
# Array NumPy de los datos de entrenamiento
X_train_processed

array([[ 0.81724868, -0.71277507,  1.82810922, ...,  0.        ,
         1.        ,  0.        ],
       [ 0.5563395 , -1.29105225,  0.60336888, ...,  0.        ,
         1.        ,  0.        ],
       [-0.13151196,  1.81331864,  0.24454056, ...,  1.        ,
         0.        ,  0.        ],
       ...,
       [ 1.11373638, -0.92052713,  1.52302674, ...,  1.        ,
         0.        ,  0.        ],
       [ 1.76600931, -0.2277552 , -0.38377708, ...,  1.        ,
         0.        ,  0.        ],
       [ 0.81724868, -0.95867683, -0.73836105, ...,  1.        ,
         0.        ,  0.        ]])

In [36]:
# Array NumPy de los datos de prueba
X_test_processed

array([[ 0.33100885, -0.77664625, -0.99881554, ...,  1.        ,
         0.        ,  0.        ],
       [-1.17989246,  0.1003166 , -1.58519423, ...,  1.        ,
         0.        ,  0.        ],
       [ 0.37844688, -0.48299432, -1.59578435, ...,  1.        ,
         0.        ,  0.        ],
       ...,
       [-1.13957013,  1.21832428,  1.09397975, ...,  1.        ,
         0.        ,  0.        ],
       [-1.49772727, -0.77809567, -0.36679966, ...,  1.        ,
         0.        ,  0.        ],
       [ 0.52076098, -0.77976293,  0.11221189, ...,  1.        ,
         0.        ,  0.        ]])