# Ejemplo 3, Renta de bicicletas

Problema de Regresion

El objetivo es predecir el uso del alquiler de bicicletas basado en datos como la temperatura, humedad, velocidad del viento, etc

Red de perceptrón multicapa

variables:
* instant : indice de registro
* dteday : fecha
* season : temporada: 1:primavera - 2:verano - 3:invierno
* yr : año : 0:2011 - 1:2012
* mnth : mes 
* holiday : dia festivo 1:si - 0:no
* weekday : dia ade la semana
* workingday : 1 en semana - 0 en fin de semana o festivo
* weathersit : clima : 
                        ** 1:despejado
                        ** 2:nublado
                        ** 3:lluvia ligera
                        ** 4:lluvia fuerte
* temp : temperatura en °c
* hum : humedad
* windspeed : velocidad del viento

salidas - TARGET

* casual : recuento de usuarios casuales
* registered : recuento de usuarios registrados
* cnt : conteo total de bicicletas alquiladas

In [None]:
import warnings
warnings.filterwarnings('ignore')

from IPython.core.display import HTML
from sklearn.pipeline import Pipeline
from sklearn.compose import ColumnTransformer
from sklearn.preprocessing import OneHotEncoder
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import train_test_split
import tensorflow as tf
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
%matplotlib inline
#plt.style.use('fivethirtyeight')
#plt.style.use('ggplot')


#Importando Set de Datos
bike = pd.read_csv("rentas_bicis.csv")

display(HTML(bike.to_html()))


In [None]:
bike.info()

In [None]:
#LIMPIEZA DE DATOS (no necesaria)
sns.heatmap(bike.isnull())

#Limpiando Columnas que no interesan
bike = bike.drop(labels = ['instant'], axis= 1)
# 1 IA por target, conservo solo el total
bike = bike.drop(labels = ['casual', 'registered'], axis= 1) 

#Formato de Fecha
bike.dteday = pd.to_datetime(bike.dteday, format = '%m/%d/%Y')

#DateTime como Index
bike.index = pd.DatetimeIndex(bike.dteday)
bike = bike.drop(labels = ['dteday'], axis= 1)

display(HTML(bike.to_html()))


In [None]:

#VISUALIZACION
'''
La función asfreq() en pandas se utiliza para convertir una serie temporal
a una frecuencia especificada.
Se cambia la frecuencia de la columna 'cnt' en el DataFrame 'bike'
a semanal (marcada como 'W').
Si faltan marcas de tiempo en la columna 'cnt', las rellenará basándose
en el método especificado (que no se proporciona en este caso, por lo
que utilizará el método por defecto).
'''


bike['cnt'].asfreq('W').plot(linewidth = 3)
plt.title('Uso de Bicis por Semana (W)')
plt.xlabel('Semana')
plt.ylabel('Renta de Bicis')

bike['cnt'].asfreq('M').plot(linewidth = 3)
plt.title('Uso de Bicis por Mes (M)')
plt.xlabel('Mes')
plt.ylabel('Renta de Bicis')

bike['cnt'].asfreq('Q').plot(linewidth = 3)
plt.title('Uso de Bicis por Cuarto de Año (Q)')
plt.xlabel('Cuarto de Año')
plt.ylabel('Renta de Bicis')

print("semana : azul \nMes: naranja \nTrimestre : verde ")


#plt.legend()


### Preprocesado de los datos

In [None]:
#Datos Categoricos y Numericos
#Datos Numericos
X_numerical = bike[['temp', 'hum', 'windspeed', 'cnt']]

#Encontrando Correlacion en Datos Numericos
sns.heatmap(X_numerical.corr(), annot = True)


In [None]:
#Datos Categoricos
X_cat = bike[['season', 'yr', 'mnth', 'holiday', 'weekday', 'workingday', 'weathersit']]


from sklearn.preprocessing import OneHotEncoder
onehotencoder = OneHotEncoder()
X_cat = onehotencoder.fit_transform(X_cat).toarray()


X_cat = pd.DataFrame(X_cat)


X_numerical = X_numerical.reset_index()

X_all = pd.concat([X_cat, X_numerical], axis = 1)
X_all = X_all.drop('dteday', axis = 1)

X = X_all.iloc[:, :-1].values
y = X_all.iloc[:, -1:].values


from sklearn.preprocessing import MinMaxScaler
scaler = MinMaxScaler()
y = scaler.fit_transform(y)


#Sepaarar set de datos en entrenamiento y prueba
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.2)



#Definiendo Modelo
model = tf.keras.models.Sequential()
model.add(tf.keras.layers.Dense(units=100, activation='relu', input_shape=(35, )))
model.add(tf.keras.layers.Dense(units=100, activation='relu'))
model.add(tf.keras.layers.Dense(units=100, activation='relu'))
model.add(tf.keras.layers.Dense(units=1, activation='linear'))


model.summary()


#Compilado
model.compile(optimizer='Adam', loss='mean_squared_error')


#Entrenamiento
epochs_hist = model.fit(X_train, y_train, epochs = 20, batch_size = 50, validation_split = 0.2)



#Prediccion
epochs_hist.history.keys()


#Grafico
plt.plot(epochs_hist.history['loss'])
plt.plot(epochs_hist.history['val_loss'])
plt.title('Progreso de entrenamiento del modelo')
plt.xlabel('Epoch')
plt.ylabel('Training and Validation Loss')
plt.legend(['Training Loss', 'Validation Loss'])


#Prediccion
y_predict = model.predict(X_test)
plt.plot(y_test, y_predict, "^", color = 'r')
plt.xlabel('Prediccion del Modelo')
plt.ylabel('Valores Verdaderos')

In [None]:
#Datos Categoricos
X_cat = bike[['season', 'yr', 'mnth', 'holiday', 'weekday', 'workingday', 'weathersit']]

#DF completo
X_numerical = X_numerical.reset_index()
X_all = pd.concat([X_cat, X_numerical], axis = 1)
X_all = X_all.drop('dteday', axis = 1)
X_all.head()

In [None]:
#DF separado por variables y target
X = X_all.iloc[:, :-1]
y = X_all.iloc[:, -1:]
X.head()

In [None]:
# binarizacion
numeric_cols = X.select_dtypes(include=['float64', 'int']).columns.to_list()
cat_cols = X.select_dtypes(include=['object', 'category']).columns.to_list()


# Transformaciones para las variables numéricas
numeric_transformer = Pipeline(
                        steps=[('scaler', StandardScaler())]
                      )

# Transformaciones para las variables categóricas
categorical_transformer = Pipeline(
                            steps=[('onehot', OneHotEncoder(handle_unknown='ignore'))]
                          )

preprocessor = ColumnTransformer(
                    transformers=[
                        ('numeric', numeric_transformer, numeric_cols),
                        ('cat', categorical_transformer, cat_cols)
                    ],
                    remainder='passthrough'
                )

# Se aprenden y aplican las transformaciones de preprocesado
X= preprocessor.fit_transform(X)


#Separar set de datos en entrenamiento y prueba

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.2)



In [None]:
#Definiendo Modelo
model = tf.keras.models.Sequential()
model.add(tf.keras.layers.Dense(units=100, activation='relu', input_shape=(35, )))
model.add(tf.keras.layers.Dense(units=100, activation='relu'))
model.add(tf.keras.layers.Dense(units=100, activation='relu'))
model.add(tf.keras.layers.Dense(units=1, activation='linear'))


model.summary()


In [None]:
# Se combinan los pasos de preprocesado y el modelo en un mismo pipeline
pipe = Pipeline([('preprocessing', preprocessor),
                 ('modelo', model.compile(optimizer='Adam', loss='mean_squared_error'))])

#Entrenamiento
epochs_hist = model.fit(X_train, y_train, epochs = 20, batch_size = 50, validation_split = 0.2)




In [None]:

#Prediccion
epochs_hist.history.keys()


#Grafico
plt.plot(epochs_hist.history['loss'])
plt.plot(epochs_hist.history['val_loss'])
plt.title('Progreso de entrenamiento del modelo')
plt.xlabel('Epoch')
plt.ylabel('Training and Validation Loss')
plt.legend(['Training Loss', 'Validation Loss'])


#Prediccion
y_predict = model.predict(X_test)
plt.plot(y_test, y_predict, "^", color = 'r')
plt.xlabel('Prediccion del Modelo')
plt.ylabel('Valores Verdaderos')