## PYTHON JOURNEY MACHINE & DEEP LEARNING
### Trabalho prático usando Python
 
### Árvore de Regressão

Dataset Bike Sharing

Descrição: Os sistemas de compartilhamento de bicicletas são uma nova geração de aluguel de bicicletas tradicional, onde todo o processo de associação, locação e devolução tornou-se automático. Através destes sistemas, o usuário pode facilmente alugar uma bicicleta a partir de uma determinada posição e retornar em outra posição. Atualmente, existem cerca de 500 programas de compartilhamento de bicicletas em todo o mundo, compostos por mais de 500 mil bicicletas. Hoje, existe um grande interesse nesses sistemas devido ao seu importante papel no trânsito, questões ambientais e de saúde.

Fonte de dados: https://archive.ics.uci.edu/ml/datasets/Bike+Sharing+Dataset

Dicionário de variáveis:
- instant:
- dteday:
- season: (1:winter, 2=springer, 3:summer, 4:fall)
- yr: year (0: 2011, 1:2012)
- mnth: ( 1 to 12)
- holiday (0=no;1=yes)
- weekday (day of the week)
- workingday (0=no;1=yes) 
- weathersit (1: Clear, Few clouds , Partly cloudy, Partly cloudy; 2: Mist + Cloudy, Mist + Broken clouds, 
              Mist + Few clouds, Mist;3: Light Snow, Light Rain + Thunderstorm + Scattered clouds, Light Rain + 
              Scattered clouds;4: Heavy Rain + Ice Pallets + Thunderstorm + Mist, Snow + Fog) 
- temp (Normalized temperature in Celsius). The values are derived via (t-t_min)/(t_max-t_min), t_min=-8, 
        t_max=+39 (only in hourly scale)
- atemp (Normalized feeling temperature in Celsius). The values are derived via (t-t_min)/(t_max-t_min),
   t_min=-16, t_max=+50 (only in hourly scale)
- hum (Normalized humidity_. The values are divided to 100 (max)
- windspeed	Normalized wind speed. The values are divided to 67 (max)
- casual (count of casual users)
- registered (count of registered users) 
- cnt (count of total rental bikes including both casual and registered)

![dic_bike.png](attachment:dic_bike.png)

In [16]:
# Importar as bibliotecas
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import sklearn


In [17]:
# Importar os dados
df = pd.read_csv("/home/lucas/Documentos/workspace/ml_jupyter/trab4/Bike_Sharing.csv")

In [18]:
# Pre-processing
# Mudar o formato da variável quantitativa em qualitativa
df['season']= df['season'].astype(str)
df['yr']= df['yr'].astype(str)
df['holiday']= df['holiday'].astype(str)
df['weekday']= df['weekday'].astype(str)
df['workingday']= df['workingday'].astype(str)
df['weathersit']= df['weathersit'].astype(str)


In [19]:
# modificando os nomes das colunas
df.columns = ['ID', 'data', 'estacao', 'ano', 'mes', 'feriado', 'dia_semana','dia_util', 'clima_dia', 'temperatura',
 'sensacao_termica', 'umidade', 'vel_vento', 'casual_user', 'registrado_user', 'cnt_total']

In [20]:
# Selecionar as variáveis preditoras para Árvore de Regressão
list_preditoras = [
 'estacao',
 'ano',
 'mes',
 'feriado',
 'dia_semana',
 'dia_util',
 'clima_dia',
 'temperatura',
 'sensacao_termica',
 'umidade',
 'vel_vento']

In [21]:
# Dividir a amostra em treino e validação
from sklearn.model_selection import train_test_split

# 30% para validação
df_train, df_test = train_test_split(df,
                                     test_size = 0.3,
                                     random_state=75)

In [22]:
# Amostra treino
y_train = df_train["cnt_total"]
x_train = df_train[list_preditoras]

In [23]:
# Amostra validação
y_test = df_test["cnt_total"]
x_test = df_test[list_preditoras]

In [24]:
# Importar a biblioteca da Árvore de Regressão
from sklearn.tree import DecisionTreeRegressor

In [25]:
# Árvore de Regressão
clf = DecisionTreeRegressor(random_state=0, max_depth = 2)
clf.fit(x_train, y_train)

DecisionTreeRegressor(max_depth=2, random_state=0)

In [26]:
# Gráfico da Árvore de Regressão
plt.figure(figsize = (80,20))
plot_tree(clf) 
plt.show()

NameError: name 'plot_tree' is not defined

<Figure size 5760x1440 with 0 Axes>

In [None]:
# Predição da variável targe
y_train_pred = clf.predict(x_train)
y_test_pred  = clf.predict(x_test)

NameError: name 'clf' is not defined

### Medidas de erros

![medidas_erros.png](attachment:medidas_erros.png)

In [None]:
# Importar a biblioteca com as medidas de erros
from sklearn.metrics import mean_absolute_error, mean_squared_error


In [None]:
# Medidas de erros: Erro médio (me), Erro percentual médio (mpe), Erro médio absoluto (mae), 
# Erro percentual absoluto médio (MAPE) e Erro quadrático médio (mse)  
# Na amostra treino

me1   = round((y_train-y_train_pred).mean(),2)
mpe1  = round(((y_train - y_train_pred)/y_train).mean(),2)
mae1  = (mean_absolute_error(y_train, y_train_pred)).round(2)
mse1  = (mean_squared_error(y_train, y_train_pred)).round(2)
rmse1 = (np.sqrt(mean_squared_error(y_train, y_train_pred))).round(2)


In [None]:
# Medidas de erros: Erro médio (me), Erro percentual médio (mpe), Erro médio absoluto (mae), 
# Erro percentual absoluto médio (MAPE) e Erro quadrático médio (mse)  
# Na amostra de validação
me2   = ((y_test - y_test_pred).mean()).round(2)
mpe2  = (((y_test - y_test_pred)/y_test).mean()).round(2)
mae2  = (mean_absolute_error(y_test, y_test_pred).round(2)
mse2  = (mean_squared_error(y_test, y_test_pred)).round(2)
rmse1 = (np.sqrt(mean_squared_error(y_test, y_test_pred))).round(2)


In [None]:
list1 = [me1, mse1, mae1, mpe1, rmse1]
list2 = [me2, mse2, mae2, mpe2, rmse2]
pd.DataFrame({"treino":list1, "teste": list2})