## Dicas de Jupyter Notebook

Este programa que estamos usando no navegador se chama Jupyter Notebook e é um interpretador de Python interativo. Podemos digitar um comando de Python, apertar _Shift + Enter_ e esse comando é executado, tendo seu resultado impresso na tela.

Existem alguns atalhos bastante úteis para trabalhar com Jupyter Notebook:
    0. 'Esc' - Saí do modo edição da célula atual (modo navegação)
    1. 'Enter' - Edita a célula selecionada (modo navegação)
    2. 'Shift + Enter' - Executa a célula selecionada (modo edição)
    3. 'A' - Adiciona uma nova célula acima da célula atual (modo navegação)
    4. 'B' - Adiciona uma nova célula abaixo da célula atual (modo navegação)
    5. 'X' - Recorta a célula selecionada (modo navegação)
    6. 'Z' - Desfaz a deleção de uma célula (modo navegação)
    7. 'Ctrl + Z' - Desfaz as últimas edições (modo edição)
    8. 'Ctrl + Shift + Z' - Refaz o último comando de desfazer (modo edição)
    9. 'H' - Abre um arquivo de ajuda com todos os atalhos (modo navegação)
    10. 'Tab' - Faz sugestões para completar o código (modo edição)
    11. 'Shift + Tab' - Faz sugestões de assinatura de um método ou função (modo edição)
    12. '?função' - Mostra a documentação de uma dada função (modo edição)
    


In [None]:
import pandas as pd

In [None]:
import numpy as np

In [None]:
train = pd.read_csv('../input/train.csv')
test = pd.read_csv('../input/test.csv')

In [None]:
train['count'].head()

In [None]:
train['count'] = np.log(train['count'])

In [None]:
train['count'].head()

In [None]:
import math 

In [None]:
math.log(1000) - math.log(1100) 

In [None]:
math.log(10) - math.log(11) 

Olhando o tamanho do train e test:

In [None]:
train.shape, test.shape

In [None]:
df = train.append(test)

In [None]:
df.dtypes

In [None]:
df['datetime'] = pd.to_datetime(df['datetime'])

In [None]:
df['year'] = df['datetime'].dt.year
df['month'] = df['datetime'].dt.month
df['day'] = df['datetime'].dt.day
df['dayofweek'] = df['datetime'].dt.dayofweek
df['hour'] = df['datetime'].dt.hour

In [None]:
df.head()

In [None]:
df.sort_values('datetime', inplace=True)

In [None]:
df['rolling_temp'] = df['temp'].rolling(4, min_periods=1).mean()

In [None]:
df[['temp', 'rolling_temp']].head()

# One Hot Encoding - Dummificar Variáveis

In [None]:
df.nunique()

In [None]:
pd.get_dummies(df['dayofweek'], prefix='prefixo').head()

In [None]:
df.loc[:, (df.nunique() > 2 ) & (df.nunique() < 8)].head()

In [None]:
for col in df.loc[:, (df.nunique() > 2 ) & (df.nunique() < 8)].columns:
    df = pd.concat([df, pd.get_dummies(df[col], prefix=col).iloc[:, :-1]], 
                   axis =1)
    del df[col]    

In [None]:
df.shape

In [None]:
df.head()

In [None]:
train_raw = df[~df['count'].isnull()]

In [None]:
test = df[df['count'].isnull()]

In [None]:
train_raw.shape, test.shape

In [None]:
df.columns

**Separando em treino e validação**



In [None]:
from sklearn.model_selection import train_test_split

In [None]:
train,valid = train_test_split(train_raw,random_state =42)

In [None]:
from sklearn.ensemble import RandomForestRegressor,ExtraTreesRegressor
from sklearn.ensemble import AdaBoostRegressor,GradientBoostingRegressor
from sklearn.tree import DecisionTreeRegressor
from sklearn.linear_model import LinearRegression
from sklearn.neighbors import KNeighborsRegressor
from sklearn.svm import SVR


In [None]:
models ={ 'RandomForest': RandomForestRegressor(random_state=42),
        'ExtraTrees': ExtraTreesRegressor(random_state=42),
        'GBM': GradientBoostingRegressor(random_state=42),
        'DecisionTree': DecisionTreeRegressor(random_state=42),
        'AdaBoost': AdaBoostRegressor(random_state=42),
        'KNN1': KNeighborsRegressor(n_neighbors=1),
        'KNN3': KNeighborsRegressor(n_neighbors=3),
        'KNN11':KNeighborsRegressor(n_neighbors=11),
        'SRV': SVR(),
        'Linear Regression': LinearRegression()}

In [None]:
removed_cols = ['count','casual','registered','datetime']

In [None]:
feats =[c for c in df.columns if c not in removed_cols]

In [None]:
from sklearn.metrics import  mean_squared_error

In [None]:
#rodar modelo fit (aprende com os dados) e o predict prever
def run_model(model,train,valid,feats,y_name):
    model.fit(train[feats],train[y_name])
    preds =model.predict(valid[feats])
    return mean_squared_error(valid[y_name],preds)**(1/2)

In [None]:
import warnings
warnings.filterwarnings('ignore', category= FutureWarning)

In [None]:
scores=[]
for name ,model in models.items():
    score=run_model(model,train,valid,feats,'count')
    scores.append(score)
    print (name+':',score)