In [2]:
!wget --no-cache -O init.py -q https://raw.githubusercontent.com/UDEA-Esp-Analitica-y-Ciencia-de-Datos/EACD-06-MACHINE-LEARNING-II/master/init.py
import init; init.init(force_download=False); 

# Demanda de Bicicletas Públicas

En esta ocasión vamos a tratar de predecir la cantidad de bicicletas requeridas en un sistema de bicicletas públicas. A continuación encontramos la descripción tomada de la fuente original.


## Background 

Bike sharing systems are new generation of traditional bike rentals where whole process from membership, rental and return 
back has become automatic. Through these systems, user is able to easily rent a bike from a particular position and return 
back at another position. Currently, there are about over 500 bike-sharing programs around the world which is composed of 
over 500 thousands bicycles. Today, there exists great interest in these systems due to their important role in traffic, 
environmental and health issues. 

Apart from interesting real world applications of bike sharing systems, the characteristics of data being generated by
these systems make them attractive for the research. Opposed to other transport services such as bus or subway, the duration
of travel, departure and arrival position is explicitly recorded in these systems. This feature turns bike sharing system into
a virtual sensor network that can be used for sensing mobility in the city. Hence, it is expected that most of important
events in the city could be detected via monitoring these data.


## Data Set

Bike-sharing rental process is highly correlated to the environmental and seasonal settings. For instance, weather conditions,
precipitation, day of week, season, hour of the day, etc. can affect the rental behaviors. The core data set is related to  
the two-year historical log corresponding to years 2011 and 2012 from Capital Bikeshare system, Washington D.C., USA which is 
publicly available in http://capitalbikeshare.com/system-data. We aggregated the data on two hourly and daily basis and then 
extracted and added the corresponding weather and seasonal information. Weather information are extracted from http://www.freemeteo.com. 


## Associated tasks

	- Regression: 
		Predication of bike rental count hourly based on the environmental and seasonal settings.
	

## Dataset characteristics

`data.csv` has the following fields:
	
	- instant: record index
	- dteday : date
	- season : season (1:springer, 2:summer, 3:fall, 4:winter)
	- yr : year (0: 2011, 1:2012)
	- mnth : month ( 1 to 12)
	- hr : hour (0 to 23)
	- holiday : weather day is holiday or not (extracted from http://dchr.dc.gov/page/holiday-schedule)
	- weekday : day of the week
	- workingday : if day is neither weekend nor holiday is 1, otherwise is 0.
	+ weathersit : 
		- 1: Clear, Few clouds, Partly cloudy, Partly cloudy
		- 2: Mist + Cloudy, Mist + Broken clouds, Mist + Few clouds, Mist
		- 3: Light Snow, Light Rain + Thunderstorm + Scattered clouds, Light Rain + Scattered clouds
		- 4: Heavy Rain + Ice Pallets + Thunderstorm + Mist, Snow + Fog
	- temp : Normalized temperature in Celsius. The values are divided to 41 (max)
	- atemp: Normalized feeling temperature in Celsius. The values are divided to 50 (max)
	- hum: Normalized humidity. The values are divided to 100 (max)
	- windspeed: Normalized wind speed. The values are divided to 67 (max)
	- casual: count of casual users
	- registered: count of registered users
	- cnt: count of total rental bikes including both casual and registered
    
    
Puedes agregar cualquier función, clase, módulo o paquete que creas necesario.

In [21]:
import datetime
import os

import numpy as np
import matplotlib.pyplot as plt
import pandas as pd

from sklearn.base import BaseEstimator, TransformerMixin, RegressorMixin
from sklearn.ensemble import RandomForestRegressor
from sklearn.pipeline import Pipeline

In [9]:
df = pd.read_csv("local/data/timeseries.csv")
df.head()

Unnamed: 0,instant,dteday,season,yr,mnth,hr,holiday,weekday,workingday,weathersit,temp,atemp,hum,windspeed,casual,registered,cnt
0,1,2011-01-01,1,0,1,0,0,6,0,1,0.24,0.2879,0.81,0.0,3,13,16
1,2,2011-01-01,1,0,1,1,0,6,0,1,0.22,0.2727,0.8,0.0,8,32,40
2,3,2011-01-01,1,0,1,2,0,6,0,1,0.22,0.2727,0.8,0.0,5,27,32
3,4,2011-01-01,1,0,1,3,0,6,0,1,0.24,0.2879,0.75,0.0,3,10,13
4,5,2011-01-01,1,0,1,4,0,6,0,1,0.24,0.2879,0.75,0.0,0,1,1


Primero lo primero, vamos a separar los features de la variable que queremos predecir.

In [14]:
feature_columns = ["temp", "hum"]
target_column = "cnt"
y = df[target_column]
X = df[feature_columns]

Lo segundo es separar los datos en entrenamiento y prueba

In [None]:
X_train, y_train = 
X_test, y_test = 

Lo último antes de empezar a hacer modelos es definir la métrica con que vamos a medir la calidad de nuestros modelos. Es importante considerar los tipos de erorr que podemos cometer. En este caso, podríamos equivocarnos porque nuestro modelo predice más demanda de la real o porque predice menos. En la vida real, hay un tipo de error que duele más, un tipo de error que cuesta más; cuál es este error depende del caso de uso, hay que mirar todos los costos asociados. 

En este caso, tendríamos que considerar el costo que representa para la empresa tener una bicicleta parqueada (por ejemplo, más espacios y transporte) y el precio en el que incurre la empresa al no tener una bicicleta disponible.

In [None]:
def bike_number_error(y_true: np.array, y_pred: np.array, understock_price: float=0.5, overstock_price: float=0.5):
    raise NotImplementedError

## Baseline

¿Cuál es la predicción más sencilla que puedes hacer?

In [None]:
class BaselineBkieRentalForecaster(BaseEstimator, RegressorMixin):
    raise NotImplementedError

Ahora entrena y calcula el error de este modelo, requreda que no debes usar los datos de prueba sino hasta final de todo el proceso, entonces quizá debas partir de nuevo los datos de entrenamiento.

In [None]:
raise NotImplementedError

## Baseline 2.0

Las librerías actuales permiten que entrenar modelos que suelen funcionar bien sea realtivamente fácil. Por esto, escoge un modelo en con el cual sea fácil de trabajar, que no tengas que hacer mucho preprocesamiento. 

In [22]:
model = Pipeline([
    ("regression", RandomForestRegressor())
])

No hace falta que lo entrenes utilizando *Grid Search*, después de todo, es un baseline. 

In [None]:
raise NotImplementedError

## Feature Engineering

Ahora, llego la hora de sacar provecho de la serie de tiempo, crea las características que creas relevantes en el caso de uso actual.

In [None]:
class BikeRentalFeatureExtractor(BaseEstimator, TransformerMixin):
    raise NotImplementedError

Ahora entrena un modelo que saque provecho de esto (también puedes añadir muchos más pasos de extración de características, te aseguro que te hará falta algo para limpiar los datos de valores nulos ¿por qué?). Puedes tener los hiperparámetros que quieras y usar el método de regresión que quieras, pero la creación de tu modelo va a parecerse a lo siguiente:

```python
model = Pipeline([
    ("extractor", BikeRentalFeatureExtractor())
    ("regressor", RandomForestRegressor())
])
```

Esta vez si debes usar *Grid Search*, asegúrate de hacer validación cruzada partiendo los datos de la forma apropiada para series de tiempo. 

In [None]:
raise NotImplementedError

## Error Analysis

¿Qué tipo de errores comete el modelo? ¿Se equivoca más unos días que otros? ¿Cómo podemos mejorar nuestro proceso para cometer menos errores en esos dias? 

Puedes responder con texto, pero sería genial si se te ocurre una solución que puedas aplicar tus ideas para mejorar el modelo.

## Reporte final del error

Ahora recuerda entrenar el modelo con los mejores parámetros usando todos los datos de entrenamiento, calcular el error en los datos de prueba y calcula el error.  

Pro tip: grafica la serie de tiempo, usa colores distintos para los valores reales y las predicciones.

In [None]:
raise NotImplementedError

## Predicciones

Llegó la hora de usar nuestro modelo para hacer predicciones. Predice unos cuantos meses después de la última fecha disponible en tu base de datos. Usa una visualización sugerida durante el reporte del error.

¿Tiene sentido lo que predices?

In [None]:
raise NotImplementedError

Felicitaciones por tu esfuerzo y llegar tan lejos! Te sugiero tener siempre presente el proceso que seguiste en este taller, algo muy parecido te hará falta en tu vida profesional.