### Encoding de variables categóricas

In [12]:
import numpy as np
import pandas as pd
# Gráficos
# ------------------------------------------------------------------------------
import matplotlib.pyplot as plt
import seaborn as sns
# Modelado y evaluación
# ------------------------------------------------------------------------------
from sklearn.impute import SimpleImputer
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import RandomForestClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.preprocessing import LabelEncoder
from sklearn.model_selection import cross_val_score
from sklearn import tree
from sklearn.metrics import classification_report, confusion_matrix, accuracy_score, precision_score, recall_score, f1_score, cohen_kappa_score
from sklearn.preprocessing import RobustScaler
from sklearn.preprocessing import OneHotEncoder
from sklearn.model_selection import GridSearchCV
# Configuración warnings
# ------------------------------------------------------------------------------
import warnings
warnings.filterwarnings("ignore")

In [13]:
df = pd.read_pickle("../data/bikes_casuales_estand.pkl")
df.head(2)

Unnamed: 0,fecha,estacion,año,mes,festivo,dia,laborable,meteo,temperatura,humedad,velo_viento,usu_casuales
0,2018-01-01,invierno,2018,ene,festivo,lun,no laborable,nublado,-0.486274,0.858854,-0.208909,331
1,2018-01-02,invierno,2018,ene,no festivo,mar,laborable,nublado,-0.42569,0.331548,0.68755,131


In [14]:
# Vamos a eliminar las variables categóricas "estación" y "laborable"  porque las creamos a partir del resto de variables predictoras y, 
# además, ya comprobamos en la visualización que tenían una relación muy alta con las otras VP. . Eliminamos también fecha porque tiene un valor por cada registro
df.drop(["laborable", "estacion", "fecha"], axis = 1, inplace= True)

Según vimos en "visualización", todas nuestras variables predictorias categóricas tienen orden, por lo que vamos a usar el "map" (para declarar nosotras mismas el orden de las variables):

In [15]:
columnas = ["mes", "festivo", "dia", "meteo", "año"]

mes = {"ene": 0, 
       "feb": 0, 
       "mar": 2, 
       "abr": 3, 
       "may": 3, 
       "jun": 4, 
       "jul": 5, 
       "ago": 5, 
       "sep": 4,
       "oct": 3, 
       "nov": 2, 
       "dic": 1}

festivo = {"festivo": 1, "no festivo": 0}

dia = {"lun": 3, 
       "mar": 2, 
       "mie": 1, 
       "jue": 1, 
       "vie": 0, 
       "sab": 1, 
       "dom": 2}

meteo = {"nublado": 1, 
         "buen tiempo": 2, 
         "ligeramente mal tiempo": 0}

año = {2018: 0,
       2019: 1}

In [16]:
columnas = ["mes", "festivo", "dia", "meteo", "año"]
mapas = [mes, festivo, dia, meteo, año]
for mapa, col in zip(mapas, columnas):
    df[col] = df[col].map(mapa)

In [17]:
df.sample(2)

Unnamed: 0,año,mes,festivo,dia,meteo,temperatura,humedad,velo_viento,usu_casuales
265,0,4,0,2,1,0.3451,1.659655,-1.044171,258
491,1,3,0,2,1,0.120262,0.178179,0.506229,1008


In [18]:
df.to_pickle("../data/bikes_casuales_estand_encod.pkl")

Vamos a probar a guardar también un modelo con encoding y sin estandarizar:

In [19]:
df2 = pd.read_pickle("../data/bikes_limpieza_sin_totales.pkl")
df2.head(2)

Unnamed: 0,fecha,estacion,año,mes,festivo,dia,laborable,meteo,temperatura,sensacion_termica,humedad,velo_viento,usu_casuales,usu_registrados
0,2018-01-01,invierno,2018,ene,festivo,lun,no laborable,nublado,14.110847,18.18125,80.5833,10.749882,331,654
1,2018-01-02,invierno,2018,ene,no festivo,mar,laborable,nublado,14.902598,17.68695,69.6087,16.652113,131,670


In [20]:
# Vamos a eliminar las variables categóricas "estación" y "laborable"  porque las creamos a partir del resto de variables predictoras y, además, ya comprobamos en la visualización que tenían una relación muy alta con las otras VP.
df2.drop(["laborable", "estacion", "usu_registrados"], axis = 1, inplace= True)

In [21]:
for mapa, col in zip(mapas, columnas):
    df2[col] = df2[col].map(mapa)

df2.sample(2)

Unnamed: 0,fecha,año,mes,festivo,dia,meteo,temperatura,sensacion_termica,humedad,velo_viento,usu_casuales
546,2019-07-01,1,5,0,3,2,33.449153,37.53145,51.875,11.291443,1421
117,2018-04-28,0,3,0,1,1,25.3175,28.94645,70.0833,21.500836,569


In [22]:
df.to_pickle("../data/bikes_casuales_encod_sin_estand.pkl")