In [None]:
#importando o banco de dados a ser utilizado (comando necessário para o google colab)
from google.colab import files
uploaded = files.upload()

In [None]:
#Definindo as bibliotecas
import numpy as np  # biblioteca utilizada para tratar com número/vetores/matrizes
import matplotlib.pyplot as plt  # utilizada para plotar gráficos ao "estilo" matlab
import pandas as pd #biblioteca utilizada para realizar operações sobre dataframes
import seaborn as sns

In [None]:
nomeArquivo = 'comp_bikes_mod.csv' 
dataset = pd.read_csv(nomeArquivo, sep=',') #realiza a leitura do banco de dados

# **Pergunta 1** - No dataset utilizado para o desafio, quantas instâncias e atributos existem, respectivamente?

In [None]:
dataset.shape #Mostrando as dimensões do dataset (linhas, colunas)

# **Pergunta 2** - Quantos tipos diferentes de dados existem no dataset do desafio?

In [None]:
len(dataset.dtypes.unique()) #Tamanho do array com os tipos de dados das colunas (sem repetir valor)

# **Pergunta 3** - Qual é a proporção (em %) de valores nulos existente na coluna "temp" (temperatura ambiente normalizada)?

In [None]:
dataset['temp'].isna().sum() / len(dataset) #Porcentagem de valores nulos na coluna temp

# **Pergunta 4** - Após retirar as linhas que contém valores nulos para a coluna "dteday", passamos a contar com quantas instancias e atributos, respectivamente?

In [None]:
dataset.dropna(subset=['dteday'], inplace=True) #Excluindo os valores nulos da coluna 'dteday'
dataset.shape #Mostrando as dimensões do dataset (linhas, colunas), depois de excluidos os valores nulos 

# **Pergunta 5** - Considere o dataset após a retirada das linhas que continham valores nulos para a coluna "dteday". Qual é o valor médio para os dados da coluna "temp" (temperatura ambiente normalizada)?

In [None]:
dataset["temp"].mean() #Retorna a média da coluna 'temp'

# **Pergunta 6** - Considere o dataset após a retirada das linhas que continham valores nulos para a coluna "dteday". Qual é o desvio padrão para os dados da coluna "windspeed" (velocidade do vento normalizada)?

In [None]:
dataset["windspeed"].std() #Retorna o desvio padrão da coluna 'windspeed'

# **Pergunta 7** - Considere o dataset após a retirada das linhas que continham valores nulos para a coluna "dteday". Transforme a coluna "season" em valores categóricos. Quantas categorias diferentes existem?

In [None]:
#Criando um vetor com os valores categorizados da coluna season
season_cat = dataset["season"].astype('category')
#Mostrando as categorias
season_cat.dtype

# **Pergunta 8** - Considere o dataset após a retirada das linhas que continham valores nulos para a coluna "dteday". Transforme a coluna "dteday" no tipo "datetime". Qual é a última data presente no dataset ( YYYY-MM-DD)?

In [None]:
dataset[["dteday"]] = pd.to_datetime(dataset['dteday'], format='%Y-%m-%d') #Converte e substitue os valores da coluna 'dteday' para o tipo datetime
dataset["dteday"].max() #Retorna a última data da coluna 'dteday'

# **Pergunta 9** - Considere o dataset após a retirada das linhas que continham valores nulos para a coluna "dteday". Considerando o boxplot da variável "windspeed" (velocidade do vento), é CORRETO afirmar:

**Resposta** : Existem possíveis outliers, pois existem marcações (pontos) foras dos limites do boxplot. 

In [None]:
#boxplot da variavel windspeed
dataset.boxplot(['windspeed'])

# **Pergunta 10** - Considere o dataset após a retirada das linhas que continham valores nulos para a coluna "dteday". Selecione as colunas "season", "temp", "atemp", "hum", "windspeed". Plot a matriz de correlação. Sobre as variáveis "hum" e "cnt", é CORRETO afirmar:

**Resposta** : Possuem baixa correlação linear negativa. (Correlação = -0,32)

In [None]:
plt.figure(figsize=(10, 10)) #Define o tamanho da imagem
correlation = dataset[["season","temp", "atemp", "hum", "windspeed","cnt"]].corr() #Cria a matriz de correlação das colunas listadas
sns.heatmap(correlation, annot=True) #Cria o mapa de calor inserindo os valores nas celulas
plt.title('Correlação entre variáveis do dataset') #Define o título do mapa de calor
plt.show() 

# **Pergunta 11** - Preencha os valores nulos das colunas "hum","cnt" e "casual" com os valores médios. Utilize as variáveis "hum" e "casual" como independentes e a "cnt" como dependente. Aplique uma regressão linear. Qual o valor de R2? Utilize as entradas como teste.

**Resposta** : 0.40.

In [None]:
dataset.fillna(dataset[[ "hum","cnt","casual"]].mean(), inplace=True) #Preenche os valores nulos com a média das colunas listadas

In [None]:
dataset[[ "hum","cnt","casual"]].isna().sum() #Verifica se existem valores nulos nas colunas listadas

In [None]:
from sklearn.linear_model import LinearRegression #importa o modelo de regressão linear univariada
from sklearn.metrics import r2_score #método para o cálculo do R2 (coeficiente de determinação)

dataset_X = dataset[["hum","casual"]].values #Cria um array com os valores das coluna 'hum' e 'casual'
dataset_Y = dataset["cnt"].values #Cria um array com os valores da coluna 'cnt'

In [None]:
reg = LinearRegression() #Constói o modelo de regressão
coef = reg.fit(dataset_X, dataset_Y) #Treina a regressão linear

In [None]:
previsao=reg.predict(dataset_X) #Realiza a previsão utilizando o modelo de regressão linear

In [None]:
print('Y = {} X {}'.format(reg.coef_, reg.intercept_)) #Imprime os coeficientes

R_2 = r2_score(dataset_Y, previsao)  #realiza o cálculo do R2

print("Regressão Linear - Coeficiente de Determinação (R2):", R_2)

# **Pergunta 12** - Utilize os mesmos dados da questão anterior ("hum" e "casual" como variáveis independentes e "cnt" como variavel dependente). Aplique Árvore de Decisão como regressão. Qual é o valor aproximado de R2? Utilize as entradas como teste e valores "default".

**Resposta** : 0,70.

In [None]:
from sklearn.tree import DecisionTreeRegressor # importa o algoritmo arvore de decisão

tree_reg = DecisionTreeRegressor(random_state = 0) #Constrói o modelo da árvore de decisão
tree = tree_reg.fit(dataset_X, dataset_Y) #Treina a árvore de decisao

In [None]:
tree_predict = tree_reg.predict(dataset_X) #Realiza a previsão utilizando o modelo de árvore de decisão

In [None]:
tree_R_2 = r2_score(dataset_Y, tree_predict)  #Realiza o cálculo do R2

print("Árvore de Decisão - Coeficiente de Determinação (R2):", tree_R_2)

# **Pergunta 13** - Comparando os valores de R2 encontrado com a regressão linear e com a Árvore de Decisão, é CORRETO afirmar:

**Resposta** : O valor obtido pela Árvore de Decisão como regressor apresenta maior R2. 

# **Pergunta 14** - Comparando o SVM com a Árvore de Decisão é CORRETO afirmar:


**Resposta** - SVM encontra o hiperplano que gera a maior separação entre os dados. 

# **Pergunta 15** - Com base na Árvore de Decisão é CORRETO afirmar:

**Resposta** : Pode ser utilizada para classificação e regressão.