In [45]:
# Tratamiento de datos
import pandas as pd
import numpy as np

# Visualización
import matplotlib.pyplot as plt
import seaborn as sns

# Estandarización
from sklearn.preprocessing import RobustScaler
from scipy.stats import kstest
from sklearn.preprocessing import OrdinalEncoder

# Errores
import warnings
warnings.filterwarnings('ignore')

In [46]:
df_casual = pd.read_pickle('../datos_finales/archivo_casual_est.pkl')
df_casual.head(2)

Unnamed: 0,estacion,año,mes,dia_semana,dias_laborables,tiempo,temperatura,humedad,velocidad_viento,usuarios_casuales
0,invierno,2018,Enero,Lunes,festivo,nuboso,-0.486274,0.855582,-0.208909,331
1,invierno,2018,Enero,Martes,laborable,nuboso,-0.42569,0.332722,0.68755,131


In [47]:
df_registrados = pd.read_pickle('../datos_finales/archivo_registrados_est.pkl')
df_registrados.head(2)

Unnamed: 0,estacion,año,mes,dia_semana,dias_laborables,tiempo,temperatura,humedad,velocidad_viento,usuarios_registrados
0,invierno,2018,Enero,Lunes,festivo,nuboso,-0.486274,0.855582,-0.208909,654
1,invierno,2018,Enero,Martes,laborable,nuboso,-0.42569,0.332722,0.68755,670


In [48]:
df_total = pd.read_pickle('../datos_finales/archivo_total_est.pkl')
df_total.head(2)

Unnamed: 0,estacion,año,mes,dia_semana,dias_laborables,tiempo,temperatura,humedad,velocidad_viento,total_usuarios
0,invierno,2018,Enero,Lunes,festivo,nuboso,-0.486274,0.855582,-0.208909,985
1,invierno,2018,Enero,Martes,laborable,nuboso,-0.42569,0.332722,0.68755,801


In [49]:
categoricas = df_total.select_dtypes(include = 'O')
categoricas['año'] = df_total['año']
categoricas

Unnamed: 0,estacion,mes,dia_semana,dias_laborables,tiempo,año
0,invierno,Enero,Lunes,festivo,nuboso,2018
1,invierno,Enero,Martes,laborable,nuboso,2018
2,invierno,Enero,Miercoles,laborable,despejado,2018
3,invierno,Enero,Jueves,laborable,despejado,2018
4,invierno,Enero,Viernes,laborable,despejado,2018
...,...,...,...,...,...,...
725,invierno,Diciembre,Viernes,laborable,nuboso,2019
726,invierno,Diciembre,Domingo,fin de semana,nuboso,2019
727,invierno,Diciembre,Sabado,fin de semana,nuboso,2019
728,invierno,Diciembre,Lunes,laborable,despejado,2019


In [50]:
def encoding(dataframe,columnas,variable_respuesta):
    """
    Esta función realiza el encoding de manera automática teniendo en cuenta las medias de los valores únicos de todas las variables categóricas.
    Args:
        dataframe (dataframe): el dataframe donde se encuentran las columnas categóricas.
        columnas (category): las columnas categóricas sobre las cuales queremos hacder el encoding.
        variable_respuesta (str): nuestra variable respuesta la cual utilizamos para saber la mediana.
    Retuns: None
    """
    for col in columnas:
        diccionario = {}
        df_mediana = dataframe.groupby(col)[variable_respuesta].median().reset_index().sort_values(by=variable_respuesta)
        df_mediana['encoding'] = round(df_mediana[variable_respuesta]/df_mediana.iloc[0,1], 2)
        for indice in range(df_mediana.shape[0]):
            diccionario[df_mediana.iloc[indice,0]] = df_mediana.iloc[indice,2]
        dataframe[col] = dataframe[col].map(diccionario)

In [51]:
encoding(df_casual,categoricas.columns,'usuarios_casuales')
encoding(df_registrados,categoricas.columns,'usuarios_registrados')
encoding(df_total,categoricas.columns,'total_usuarios')

### Guardamos los dataframes codificados

In [52]:
df_total.to_pickle('../datos_finales/archivo_total_est_enc2.pkl')
df_casual.to_pickle('../datos_finales/archivo_casual_est_enc2.pkl')
df_registrados.to_pickle('../datos_finales/archivo_registrados_est_enc2.pkl')