In [1]:
# Tratamiento de datos
# -----------------------------------------------------------------------
import numpy as np
import pandas as pd

# Gráficos
# ------------------------------------------------------------------------
import matplotlib.pyplot as plt
import seaborn as sns


# Guardar transformers
import pickle


# Preprocesado
from sklearn.preprocessing import RobustScaler


#  Modelado y evaluación
# -----------------------------------------------------------------------------
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import r2_score, mean_squared_error, mean_absolute_error

In [2]:
df_registrados = pd.read_pickle('../../../datos_finales/archivo_registrados_est_enc2.pkl')
df_registrados.head(2)

Unnamed: 0,estacion,año,mes,dia_semana,dias_laborables,tiempo,temperatura,humedad,velocidad_viento,usuarios_registrados
0,1.0,1.0,1.0,1.05,1.0,2.01,-0.486274,0.855582,-0.208909,654
1,1.0,1.0,1.0,1.0,1.3,2.01,-0.42569,0.332722,0.68755,670


In [3]:
df_registrados_limpio = pd.read_pickle('../../../datos_finales/archivo_registrados_est.pkl')
df_registrados_limpio.head(2)

Unnamed: 0,estacion,año,mes,dia_semana,dias_laborables,tiempo,temperatura,humedad,velocidad_viento,usuarios_registrados
0,invierno,2018,Enero,Lunes,festivo,nuboso,-0.486274,0.855582,-0.208909,654
1,invierno,2018,Enero,Martes,laborable,nuboso,-0.42569,0.332722,0.68755,670


In [4]:
df_registrados.columns

Index(['estacion', 'año', 'mes', 'dia_semana', 'dias_laborables', 'tiempo',
       'temperatura', 'humedad', 'velocidad_viento', 'usuarios_registrados'],
      dtype='object')

### Inputs

In [5]:
estacion = input('Especifica la estación').lower()
año = int(input('Especifica el año'))
mes = input('Especifica el mes').lower().capitalize()
dia_semana = input('Especifica el dia de la semana').lower().capitalize()
dias_laborables = input('Especifica si es día es laborable/festivo/fin de semana').lower()
tiempo = input('Especifica si es día es nuboso/despejado/lluvioso').lower()
temperatura = int(input('Especifica la temperatura'))
humedad = int(input('Especifica la humedad'))
velocidad_viento = int(input('Especifica la velocidad del viento'))

In [6]:
diccionario_aut = {}

In [7]:
for col in df_registrados.columns[:-1]:
    diccionario_aut[col] = globals()[col]

In [8]:
diccionario_aut

{'estacion': 'otoño',
 'año': 2019,
 'mes': 'Octubre',
 'dia_semana': 'Martes',
 'dias_laborables': 'laborable',
 'tiempo': 'despejado',
 'temperatura': 25,
 'humedad': 20,
 'velocidad_viento': 5}

In [9]:
usuario = pd.DataFrame(diccionario_aut,index=[0])

In [10]:
usuario

Unnamed: 0,estacion,año,mes,dia_semana,dias_laborables,tiempo,temperatura,humedad,velocidad_viento
0,otoño,2019,Octubre,Martes,laborable,despejado,25,20,5


### Estandarización

In [11]:
with open("../../../datos_finales/predicciones/estandarizacion.pkl", "rb") as est:
    estandarizacion = pickle.load(est)

In [12]:
numericas = usuario.select_dtypes(include=np.number).drop('año',axis=1)
numericas

Unnamed: 0,temperatura,humedad,velocidad_viento
0,25,20,5


In [13]:
numericas_robust = pd.DataFrame(estandarizacion.transform(numericas), columns = numericas.columns)
numericas_robust.head(2)

Unnamed: 0,temperatura,humedad,velocidad_viento
0,0.346948,-2.03077,-1.082228


In [14]:
usuario[numericas_robust.columns] = numericas_robust
usuario

Unnamed: 0,estacion,año,mes,dia_semana,dias_laborables,tiempo,temperatura,humedad,velocidad_viento
0,otoño,2019,Octubre,Martes,laborable,despejado,0.346948,-2.03077,-1.082228


### Encoding

In [15]:
usuario.loc[0,'año'] = 1.47
usuario

Unnamed: 0,estacion,año,mes,dia_semana,dias_laborables,tiempo,temperatura,humedad,velocidad_viento
0,otoño,1.47,Octubre,Martes,laborable,despejado,0.346948,-2.03077,-1.082228


In [16]:
def encoding(dataframe,dataframe_final, columnas,variable_respuesta):
    """
    Esta función realiza el encoding de manera automática teniendo en cuenta las medias de los valores únicos de todas las variables categóricas.
    Args:
        dataframe (dataframe): el dataframe donde se encuentran las columnas categóricas.
        columnas (category): las columnas categóricas sobre las cuales queremos hacder el encoding.
        variable_respuesta (str): nuestra variable respuesta la cual utilizamos para saber la mediana.
    Retuns: None
    """
    for col in columnas:
        diccionario = {}
        df_mediana = dataframe.groupby(col)[variable_respuesta].median().reset_index().sort_values(by=variable_respuesta)
        df_mediana['encoding'] = round(df_mediana[variable_respuesta]/df_mediana.iloc[0,1], 2)
        for indice in range(df_mediana.shape[0]):
            diccionario[df_mediana.iloc[indice,0]] = df_mediana.iloc[indice,2]
        dataframe_final[col] = dataframe_final[col].map(diccionario)

In [17]:
categoricas = df_registrados_limpio.select_dtypes(include='O')
categoricas

Unnamed: 0,estacion,mes,dia_semana,dias_laborables,tiempo
0,invierno,Enero,Lunes,festivo,nuboso
1,invierno,Enero,Martes,laborable,nuboso
2,invierno,Enero,Miercoles,laborable,despejado
3,invierno,Enero,Jueves,laborable,despejado
4,invierno,Enero,Viernes,laborable,despejado
...,...,...,...,...,...
725,invierno,Diciembre,Viernes,laborable,nuboso
726,invierno,Diciembre,Domingo,fin de semana,nuboso
727,invierno,Diciembre,Sabado,fin de semana,nuboso
728,invierno,Diciembre,Lunes,laborable,despejado


In [18]:
encoding(df_registrados_limpio,usuario, categoricas.columns,'usuarios_registrados')

In [19]:
usuario

Unnamed: 0,estacion,año,mes,dia_semana,dias_laborables,tiempo,temperatura,humedad,velocidad_viento
0,2.04,1.47,2.42,1.0,1.3,2.32,0.346948,-2.03077,-1.082228


### Predicción

In [20]:
with open("../../../datos_finales/predicciones/mejor_modelo_registrados.pkl", "rb") as modelo:
    mejor_modelo = pickle.load(modelo)

In [27]:
mejor_modelo.predict(usuario)[0]

5295.7965888089375

In [22]:
metricas = pd.read_pickle("../../../datos_finales/predicciones/metricas_registrados.pkl")
metricas

Unnamed: 0,MAE,MSE,RMSE,R2,set,modelo
0,489.197186,371006.653591,609.103155,0.828124,test,Random Forest
1,494.489409,430317.817289,655.986141,0.827395,train,Random Forest


In [23]:
metricas.loc[0,'RMSE']

609.10315513101

In [24]:
print(f'La predicciones de bicicletas alquiladas para ese día por los clientes registrados es entre {round(mejor_modelo.predict(usuario)[0] + metricas.loc[0,"RMSE"],0)} y {round(mejor_modelo.predict(usuario)[0] - metricas.loc[0,"RMSE"],0)}')

La predicciones de bicicletas alquiladas para ese día por los cliente casuales es entre 5905.0 y 4687.0
