# Trabalho Prático 2 - Bootcamp IGTI: Engenheiro(a) de Machine Learning

## Bike Sharing Analysis

**Este repositório contém os arquivos referentes ao trabalho prático do módulo 2 do Bootcamp IGTI de Engenheiro(a) de Machine Learning. O objetivo deste trabalho é realizar a análise de uma base de dados real em Python, com foco em modelos preditivos e séries temporais.**

## Enunciado

O uso de bicicletas como meio de transporte tem crescido nos últimos anos, impulsionado por questões ambientais, de saúde e infraestrutura de trânsito. Para incentivar o uso, cidades ao redor do mundo têm implementado programas de compartilhamento de bicicletas. Nestes sistemas, as bicicletas são retiradas e devolvidas em quiosques automatizados espalhados pela cidade.

As plataformas de compartilhamento de bicicletas costumam coletar diversos tipos de dados, como duração da viagem, localização inicial e final do percurso, entre outros. Esses dados, em conjunto com informações sobre clima, trânsito e relevo, tornam possível uma análise mais robusta do compartilhamento de bicicletas.

O objetivo deste trabalho é analisar os dados coletados pela Universidade do Porto sobre o compartilhamento de bicicletas em uma cidade.

## Dicionário de Dados:

* rec_id: índice do registro de locação.
* datetime: data.
* season: estação do ano (1: inverno, 2: primavera, 3: verão, 4: outono). Relativo ao hemisfério norte.
* year: ano (0: 2011, 1:2012).
* month: mês (1 a 12).
* hour: hora do dia (0 a 23).
* is_holiday: booleano indicando feriado.
* weekday: dia da semana (0: domingo, 1: segunda-feira, …, 6: sábado).
* is_workingday: booleano indicando dia útil.
* weather_condition: (1: limpo, 2: nublado, 3: chuva leve, 4: chuva forte).
* temp: temperatura escalada entre 0 e 1. Valor original em graus Celsius: -8 a 39.
* atemp: sensação térmica escalada entre 0 e 1. Valor original em graus Celsius: -16 a 50.
* humidity: umidade relativa (0 a 1).
* windspeed: velocidade do vento escalada entre 0 e 1 (máximo original: 67).
* casual: número de locações para usuários casuais.
* registered: número de locações para usuários registrados.
* total_count: contador total de aluguéis (casual+registered).

## Atividades

1. Acessar o ambiente Google Colaboratory (recomendado) ou qualquer ambiente de desenvolvimento em Python.
2. Importar as bibliotecas do numpy e pandas, conforme:
3. Carregar o dataset https://pycourse.s3.amazonaws.com/bike-sharing.csv para análise utilizando o pandas. Exemplo:df = pd.read_csv("https://pycourse.s3.amazonaws.com/bike-sharing.csv")
4. Responda as seguintes perguntas:
    - a. Qual o tamanho desse dataset?
    - b. Qual a média da coluna windspeed?
    - c. Qual a média da coluna temp?
    - d. Quantos registros existem para o ano de 2011?
    - e. Quantos registros existem para o ano de 2012?
    - f. Quantas locações de bicicletas foram efetuadas em 2011?
    - g. Quantas locações de bicicletas foram efetuadas em 2012?
    - h. Qual estação do ano contém a maior média de locações de bicicletas?
    - i. Qual estação do ano contém a menor média de locações de bicicletas?
    - j. Qual horário do dia contém a maior média de locações de bicicletas?
    - k. Qual horário do dia contém a menor média de locações de bicicletas?
    - l. Que dia da semana contém a maior média de locações de bicicletas?
    - m. Que dia da semana contém a menor média de locações de bicicletas?
    - n. Às quartas-feiras (weekday = 3), qual horário do dia contém a maior média de locações de bicicletas?
    - o. Aos sábados (weekday = 6), qual horário do dia contém a maior média de locações de bicicletas?


In [1]:
#importando as bibliotecas
import numpy as np
import pandas as pd 

In [3]:
link = "https://pycourse.s3.amazonaws.com/bike-sharing.csv"

In [4]:
df = pd.read_csv(link)

In [6]:
df.head()

Unnamed: 0,datetime,rec_id,season,year,month,hour,is_holiday,weekday,is_workingday,weather_condition,temp,atemp,humidity,windspeed,casual,registered,total_count
0,2011-01-01,1,1,0,1,0,0,6,0,1,0.24,0.2879,0.81,0.0,3,13,16
1,2011-01-01,2,1,0,1,1,0,6,0,1,0.22,0.2727,0.8,0.0,8,32,40
2,2011-01-01,3,1,0,1,2,0,6,0,1,0.22,0.2727,0.8,0.0,5,27,32
3,2011-01-01,4,1,0,1,3,0,6,0,1,0.24,0.2879,0.75,0.0,3,10,13
4,2011-01-01,5,1,0,1,4,0,6,0,1,0.24,0.2879,0.75,0.0,0,1,1


In [8]:
# a. Qual o tamanho desse dataset?
df.shape

(17379, 17)

In [56]:
# b. Qual a média da coluna windspeed?
df['windspeed'].mean()

0.1900976063064631

In [57]:
# c. Qual a média da coluna temp?
df['temp'].mean()

0.4969871684216586

In [61]:
# d. Quantos registros existem para o ano de 2011?
# df.loc[df['year'] == 0]['year'].count() # uma das formas
# df['year'].value_counts()
# forma que acho melhor
df.query('year == 0').shape

(8645, 17)

In [60]:
# e. Quantos registros existem para o ano de 2012?
df.query('year == 1').shape


(8734, 17)

In [27]:
#f. Quantas locações de bicicletas foram efetuadas em 2011?
df.loc[df['year']==0]['total_count'].sum()


1243103

In [28]:
#g. Quantas locações de bicicletas foram efetuadas em 2012?
df.loc[df['year']==1]['total_count'].sum()

2049576

In [45]:
#h. Qual estação do ano contém a maior média de locações de bicicletas?
# (1: inverno, 2: primavera, 3: verão, 4: outono
df[['season','total_count']].groupby('season').mean().T
#R. A maior média é para estação 3(verão) com 236.016237 - como o esperado.

season,1,2,3,4
total_count,111.114569,208.344069,236.016237,198.868856


In [None]:
# i. Qual estação do ano contém a menor média de locações de bicicletas?
# R. A menor média foi para a estação 1(inverno) com 111.114569 conforme o esperado.

In [44]:
# j. Qual horário do dia contém a maior média de locações de bicicletas?
df[['hour','total_count']].groupby('hour').mean().sort_values('total_count', ascending=False).head()
# R. O horário que obteve maior média de locação foi as 17 horas com média = 461.452055

Unnamed: 0_level_0,total_count
hour,Unnamed: 1_level_1
17,461.452055
18,425.510989
8,359.011004
16,311.983562
19,311.523352


In [46]:
# k. Qual horário do dia contém a menor média de locações de bicicletas?
df[['hour','total_count']].groupby('hour').mean().sort_values('total_count', ascending=True).head()
# R. O horário que obteve menor média de locação foi as 4:00 horas com média = 6.352941

Unnamed: 0_level_0,total_count
hour,Unnamed: 1_level_1
4,6.352941
3,11.727403
5,19.889819
2,22.86993
1,33.375691


In [47]:
# l. Que dia da semana contém a maior média de locações de bicicletas?
# weekday: dia da semana (0: domingo, 1: segunda-feira, …, 6: sábado)
df[['weekday','total_count']].groupby('weekday').mean().sort_values('total_count', ascending=False).head()
# R. Quinta-feira é o dia que possui a maior média de locação com média = 196.436665

Unnamed: 0_level_0,total_count
weekday,Unnamed: 1_level_1
4,196.436665
5,196.135907
2,191.238891
3,191.130505
6,190.209793


In [48]:
# m. Que dia da semana contém a menor média de locações de bicicletas?
df[['weekday','total_count']].groupby('weekday').mean().sort_values('total_count', ascending=True).head()
# R. Domingo é o dia da semana que possui a menor média de locação com média = 177.468825

Unnamed: 0_level_0,total_count
weekday,Unnamed: 1_level_1
0,177.468825
1,183.744655
6,190.209793
3,191.130505
2,191.238891


In [52]:
# n. Às quartas-feiras (weekday = 3), qual horário do dia contém a maior média
# de locações de bicicletas?
df.query('weekday == 3')[['hour','total_count']].groupby('hour').mean().sort_values('total_count', ascending=False).head()
# R. às quartas-feiras o horário das 17:00 é o que possui a maior média de locação.

Unnamed: 0_level_0,total_count
hour,Unnamed: 1_level_1
17,513.144231
18,494.029126
8,488.326923
19,357.504854
7,303.980769


In [53]:
# o. Aos sábados (weekday = 6), qual horário do dia contém a maior média de
# locações de bicicletas?
df.query('weekday == 6')[['hour','total_count']].groupby('hour').mean().sort_values('total_count', ascending=False).head()
# R. aos sábados o horário das 13:00 é o que possui a maior média de locação.

Unnamed: 0_level_0,total_count
hour,Unnamed: 1_level_1
13,385.371429
15,382.428571
14,381.333333
12,375.380952
16,366.142857
