In [None]:
import pandas as pd
import numpy as np
import seaborn as sns
import sqlite3
import os
import matplotlib.pyplot as plt
from sklearn.tree import DecisionTreeRegressor, plot_tree
from sklearn import linear_model
from sklearn.model_selection import train_test_split
from sklearn import metrics
import statsmodels.api as sm
import dtreeviz
import matplotlib.font_manager
import scipy as sp
import warnings

In [None]:
print(os.getcwd())
os.chdir('./../')
print(os.getcwd())

In [None]:
plt.style.available

In [None]:
# Configuraciones
# ------------------------------------------------------
pd.set_option('display.max_columns', None)
pd.options.display.float_format = '{:.2f}'.format
warnings.filterwarnings('ignore')

plt.style.use("seaborn-v0_8-whitegrid")
plt.rc("figure", autolayout=True, figsize=(11, 5))
plt.rc(
    "axes",
    labelweight="bold",
    labelsize="large",
    titleweight="bold",
    titlesize=14,
    titlepad=10,
)
plot_params = dict(
    markeredgecolor="0.25",
    markerfacecolor="0.25",
    legend=True,
)

# Funciones

In [None]:
def metricas_evaluacion(y_test, y_pred, printed=True):
    if printed:
        print('Mean Absolute Error:', metrics.mean_absolute_error(y_test,y_pred))
        print('Mean Squared Error:', metrics.mean_squared_error(y_test, y_pred))
        print('Root Mean Squared Error:', np.sqrt(metrics.mean_squared_error(y_test,y_pred)))
        print('r2_score:', metrics.r2_score(y_test,y_pred))
        print('MAPE:', metrics.mean_absolute_percentage_error(y_test,y_pred))
        return None
    else:
        return metrics.mean_absolute_error(y_test,y_pred)

In [None]:
def plot_train_test_predict(y_train, y_test, y_pred):
    fig, ax = plt.subplots(1, 1, figsize=(7, 4))
    y_train.plot(**plot_params, ax=ax, color='blue', alpha=0.5, label='Train')
    y_test.plot(**plot_params, ax=ax, color='grey', alpha=0.5, label='Test')
    y_pred = pd.Series(y_pred, index=y_test.index)
    y_pred.plot(**plot_params, ax=ax, color='r', label='Predict')
    mae = metricas_evaluacion(y_test, y_pred, printed=False)
    fig.suptitle(f"Predicción de uso de bicicletas, MAE {mae:.2f}")
    plt.legend(loc=0)
    plt.xticks(rotation=70)
    plt.show()

# Carga de datos

In [None]:
df = pd.read_csv('./data/processed/usobarriosmeteo.csv')
df.tail()

In [None]:
df['fecha'] = pd.to_datetime(df['fecha'])
df.sort_values('fecha', inplace=True)
df.tail()

In [None]:
df.columns

In [None]:
df = df.loc[df['name']=='EL CARME'].copy()
df.sort_values('fecha', inplace=True)
df.shape

# Separar train test

In [None]:
X = df.loc[:, ['hora', 'dia']]
y = df['uso_bici']
X.shape, y.shape

In [None]:
res_split = train_test_split(X, y, random_state=22, shuffle=False)
X_train, X_test, y_train, y_test = res_split

In [None]:
fig, ax = plt.subplots(1, 1, figsize=(7, 4))
ax.plot(X_train.index, y_train)
ax.plot(X_test.index, y_test)
fig.suptitle("Uso de bicicletas por estación")
plt.xticks(rotation=70)
plt.show()

# Baseline

In [None]:
y_pred = np.ones_like(y_test)
y_pred.fill(y_train.mean())
y_pred

In [None]:
metricas_evaluacion(y_test, y_pred)

In [None]:
fig, ax = plt.subplots(1, 1, figsize=(7, 4))
ax.plot(X_train.index, y_train)
ax.plot(X_test.index, y_test)
ax.axhline(y_train.mean(), color='r')
fig.suptitle("Uso de bicicletas por estación")
plt.xticks(rotation=70)
plt.show()

# Aprendizaje supervisado para el modelado del uso de bicis

Variable que queremos modelar el comportamiento se le denomina variable de salida, respuesta, endógena o y.

Variable o conjunto de variables que se relacionan con la respuesta son variables de entrada, predictoras, explicativas, regresores, exógenas, o x_i



## Árboles de decisión

Son un conjunto de reglas ordenadas en forma de árbol jerárquico. Se aplica en aprendizaje supervisado.

Este árbol puede construirse de forma automática como parte de un proceso de aprendizaje automático a partir de datos.

El árbol está compuesto por la raíz, ramas, nodos y hojas:
- Raíz: nodo inicio o condición incial de un árbol.
- Nodo: condición establecida.
- Rama: respuesta a la condición aplicada en el nodo antecedente.
- Hoja: Fin del recorrido del árbol donde se define la decisión final

Las reglas pueden describirse como condiciones simples en base a un atributo o característica:
- Es fin de semana.
- La lluvia es mayor o igual.
- Hora es mayor de las 9 y menor o igual a 16 horas.

El cumplimiento o no de la condición hará que para tomar una decisión se deba recorrer una u otra rama (exhaustivo).

El recorrido de una rama completa concluye con el nodo hoja donde se toma la decisión final.

Esta decisión puede ser de tipo clasificación, etiqueta o nominal (disjuntas); o puede ser regresión, numérica o continua.

Existen varios algoritmos de partición para la creación de estos árboles: ID3, C4.5, CART, etc.

El árbol sólo aporta una solución, por tanto, las particiones deben ser exhaustivas y excluyentes.

El criterio de partición y el número de particiones son los parámetros a ajustar, en estos algoritmos, entre otros.

Debemos de tener en cuenta, como criterios, la expresividad de nuesto árbol y la complejidad para evitar sobre ajustes.

[Implementación en Scikit-Learn](https://scikit-learn.org/stable/modules/tree.html#tree-algorithms-id3-c4-5-c5-0-and-cart)


In [None]:
tree_reg = DecisionTreeRegressor(max_depth=2)
tree_reg.fit(X_train[['hora']], y_train)
fig, axes = plt.subplots(1,1,figsize = (3,2), dpi=300)
plot_tree(tree_reg, feature_names=['hour'], filled=True)
plt.show()


In [None]:
viz_rmodel = dtreeviz.model(model=tree_reg, tree_index=1,
                            X_train=X_train[['hora']], 
                            y_train=y_train, 
                            feature_names=['hora'], 
                            target_name='uso_bicis')
viz_rmodel.view(fontname='Loma')

In [None]:
# ver la fuente disponible, posibles problemas por fuente
print([f.name for f in matplotlib.font_manager.fontManager.ttflist])

In [None]:
y_pred = tree_reg.predict(X_test[['hora']])
metricas_evaluacion(y_test, y_pred)

In [None]:
plot_train_test_predict(y_train, y_test, y_pred)

### Uso de todas las variables

In [None]:
df.columns

In [None]:
X = df.drop(labels=['fecha', 'uso_bici', 'name', 'dia_nombre'], axis=1)
y = df['uso_bici']
print(X.shape, y.shape)
res_split = train_test_split(X, y, random_state=22, shuffle=False)
X_train, X_test, y_train, y_test = res_split

In [None]:
tree_reg = DecisionTreeRegressor(max_depth=3)
tree_reg.fit(X_train, y_train)
fig, axes = plt.subplots(1,1,figsize = (5, 5), dpi=300)
plot_tree(tree_reg, feature_names=X_train.columns, filled=True)
plt.show()

In [None]:
viz_rmodel = dtreeviz.model(model=tree_reg, tree_index=1,
                            X_train=X_train, 
                            y_train=y_train, 
                            feature_names=X_train.columns, 
                            target_name='uso_bicis')
viz_rmodel.view(fontname='Loma')

In [None]:
y_pred = tree_reg.predict(X_test)
metricas_evaluacion(y_test, y_pred)

In [None]:
fig, ax = plt.subplots(1, 1, figsize=(7, 4))
ax.plot(X_train.index, y_train)
ax.plot(X_test.index, y_test)
ax.plot(X_test.index, y_pred)
fig.suptitle("Uso de bicicletas por estación")
plt.xticks(rotation=70)
plt.show()

In [None]:
tree_reg.feature_importances_

In [None]:
importances = pd.DataFrame(
    tree_reg.feature_importances_, columns=["Importancias"], index=X_train.columns
)

importances.sort_values('Importancias').plot(kind="barh", figsize=(9, 7))
plt.title("Importancias DT")
plt.axvline(x=0, color=".5")
plt.subplots_adjust(left=0.3)

## Regresión lineal

Dividimos los tipos de modelo de regresión en simple o múltiple.

Modelo de regresión lineal es aditivo en cuanto a las variables predictoras.

En casos de tener pocos ejemplos puede ser buena opción para generalizar el conocimiento.

Se puede hacer transformaciones sobre las variables originales mejorando los resultados.

Una de las transformaciones es la numerización de variables categóricas, como puede ser los días de la semana.


In [None]:
df.columns

In [None]:
# Ejemplo con statsmodels, resultados con enfoque estadístico
X_lm = sm.add_constant(X_train)
# Ajuste MMCC
model = sm.OLS(y_train, X_lm)
results = model.fit()
print(results.summary())

# Predicción
y_pred = results.predict(X_test)
# Evaluación
metricas_evaluacion(y_test, y_pred)

In [None]:
# Quantile-Quantile plot 
f,ax = plt.subplots(1,2,figsize=(14,6))
_,(_,_,r)= sp.stats.probplot((y_test - y_pred),fit=True,plot=ax[0])
ax[0].set_title('Check for Multivariate Normality: \nQ-Q Plot')

#Check for Homoscedasticity
sns.scatterplot(y = (y_test - y_pred), x= y_pred, ax = ax[1],color='r') 
ax[1].set_title('Check for Homoscedasticity: \nResidual Vs Predicted');

### Regresión lineal con Scikit Learn

In [None]:
from sklearn.preprocessing import PolynomialFeatures

In [None]:
df.columns

In [None]:
X = df.drop(labels=['fecha', 'name', 'dia_nombre'], axis=1)
X = df.loc[:, ['findesemana', 'prec', 'tamax', 'hora', 'Sunday']]
y = df['uso_bici']
# Transformaciones polinimicas en las variables predictoras
# poly_features = PolynomialFeatures(degree=3, include_bias=False)
# X = poly_features.fit_transform(X)
print(X.shape, y.shape)
res_split = train_test_split(X, y, random_state=22, shuffle=False)
X_train, X_test, y_train, y_test = res_split

In [None]:
# Hay disponibles otros métodos de regresión lineal: ElasticNet, BayesianRidge...
reg = linear_model.LinearRegression().fit(X_train, y_train)
y_pred = reg.predict(X_test)
metricas_evaluacion(y_test, y_pred)

In [None]:
fig, ax = plt.subplots(1, 1, figsize=(7, 4))
ax.plot(X_train.index, y_train)
ax.plot(X_test.index, y_test)
ax.plot(X_test.index, y_pred)
fig.suptitle("Uso de bicicletas por estación")
plt.xticks(rotation=70)
plt.show()

In [None]:
coefs = pd.DataFrame(
    reg.coef_, columns=["coeficientes"], index=X_train.columns
)

coefs.plot(kind="barh", figsize=(9, 7))
plt.title("Ridge")
plt.axvline(x=0, color=".5")
plt.subplots_adjust(left=0.3)

# Conclusiones

- Debe haber una experimentación buscando optimizar las métricas
- La visualización es clave para entender el modelo y el comportamiento en la predicción