In [1]:
# Importando bibliotecas que serao utilizadas neste projeto
import warnings
warnings.filterwarnings("ignore")

import pandas as pd
import numpy as np
import seaborn as sns
import itertools
import matplotlib.pyplot as plt
%matplotlib inline

from IPython.core.interactiveshell import InteractiveShell
InteractiveShell.ast_node_interactivity = "all"

In [None]:
from google.colab import files
uploaded = files.upload()

In [None]:
# Carregando arquivo csv usando Pandas
train = pd.read_csv("comp_bikes_mod.csv")

# Visualizando o shape do dataset (17.379 linhas x 17 colunas)
print(train.shape)

# Verificando os tipos de dados
train.info()

# Visualizando as primeiras linhas do dataset
train.head()

In [None]:
# Funcao para verificar valores missing no dataset
def check_missing(df, display = 10):
    temp_df = df.copy()
    df_nan = (temp_df.isnull().sum() / len(temp_df)) * 100
    missing_data = pd.DataFrame({'Missing n': temp_df.isnull().sum(),'% Missing' :df_nan})
    if missing_data['Missing n'].sum() == 0:
        return print('Ótimo! Não há mais valores faltantes neste dataset.')
    else:
        return missing_data.sort_values('% Missing', ascending = False).head(display)

# Verificando as colunas com dados missing do dataset
check_missing(train, display = 17)

In [None]:
train = train.dropna(subset=['dteday'])
train.shape

In [None]:
# Fazendo previsões com o Modelo Decision Tree Regressor (Versao 01)

# Import dos módulos
from sklearn.tree import DecisionTreeRegressor
from sklearn.metrics import r2_score

# Criando um novo dataset somente com as colunas para a pergunta
new_train = train[['hum','casual','cnt']]

# Removendo os valores missing
new_train.fillna(new_train.mean(), inplace=True)

# Verificando as colunas com dados missing do dataset
check_missing(new_train, display = 3)

# Verificando o tamanho do dataset
new_train.shape

# Separando as features independentes e dependente (target)
X = new_train[['hum','casual']]
y = new_train['cnt']

# Criando o modelo de arvore de decisão
dt_model = DecisionTreeRegressor()

# Fit do modelo
dt_model.fit(X, y)

# Previsões
y_pred = dt_model.predict(X)

# Avaliando as previsões
accuracy = r2_score(y, y_pred)
print("Score R2: %0.2f" % accuracy)

In [None]:
#Modelo Linear Regression¶

# Fazendo previsões com o Modelo Linear Regression

# Import dos módulos
from sklearn.linear_model import LinearRegression
from sklearn.metrics import r2_score

# Criando um novo dataset somente com as colunas para a pergunta
new_train = train[['hum','casual','cnt']]

# Preenchendo os valores missing com a media de cada uma das colunas
new_train.fillna(new_train.mean(), inplace=True)

# Verificando as colunas com dados missing do dataset
check_missing(new_train, display = 3)

# Verificando o tamanho do dataset
new_train.shape

# Separando as features independentes e dependente (target)
X = new_train[['hum','casual']]
y = new_train['cnt']

# Criando o modelo de regressão linear
lr_model = LinearRegression()

# Fit do modelo
lr_model.fit(X, y)

# Previsões
y_pred = lr_model.predict(X)

# Avaliando as previsões
accuracy = r2_score(y, y_pred)
print("\nScore R2: %0.2f" % accuracy)

In [None]:
#Modelo SVM Regressor¶
# Import dos módulos
from sklearn.svm import SVR
from sklearn.metrics import r2_score

# Criando um novo dataset somente com as colunas para a pergunta
new_train = train[['hum','casual','cnt']]

# Preenchendo os valores missing com a media de cada uma das colunas
new_train.fillna(new_train.mean(), inplace=True)

# Verificando as colunas com dados missing do dataset
check_missing(new_train, display = 3)

# Verificando o tamanho do dataset
new_train.shape

# Separando as features independentes e dependente (target)
X = new_train[['hum','casual']]
y = new_train['cnt']

# Criando o modelo SVM
svm_model = SVR(kernel='rbf')

# Fit do modelo
svm_model.fit(X, y)

# Previsões
y_pred = svm_model.predict(X)

# Avaliando as previsões
accuracy = r2_score(y, y_pred)
print("\nScore R2: %0.2f" % accuracy)


In [None]:
#train['temp'].describe()Verificando dados estatísticos da feature 'temp'¶
train['temp'].describe()

In [None]:
#Transformando a variavel dteday para o formato datetime
# Transformando a coluna data
train['dteday'] = pd.to_datetime(train['dteday'])

# Visualizando os ultimos registros
train['dteday'].tail()

In [None]:
#Verificando correlação usando heatmap¶
# Configurando o tamanho da area do grafico
plt.figure(figsize=(20, 8))

# Selecionando apenas algumas colunas para verificar a correlação
corr = train[['season', 'temp', 'atemp', 'hum', 'windspeed', 'cnt']].corr()

# Configurar o heatmap
sns.heatmap(corr, linewidths=.5, vmin=-1, vmax=1, annot=True, cmap="YlGnBu", fmt='.1g')

# Imprimir o grafico
plt.show();


In [None]:
#Verificando outliers com boxplot¶
train[['windspeed']].boxplot();

In [None]:
#Transformando variavel 'season' em categorica¶
# Transformando a feature season
train['season'] = train['season'].astype('category')

# Verificando todas as categorias (no caso são 4)
train['season'].dtypes



In [None]:
#Verificando dados estatísticos da feature 'windspeed'¶
# Verificando dados estatisticos somente da variavel 'windspeed'
train['windspeed'].describe()