# Módulo 2: Modelos Preditivos e Séries Temporais

por Otávio Muraca

## Objetivo do Projeto

O uso de bicicletas como um meio de transporte ganhou muita força nos últimos anos, seja por questões ambientais, de saúde ou até mesmo infraestrutura de trânsito. Para incentivar o uso, cidades em todo o mundo têm implementado programas de compartilhamento de bicicleta. 

Nesses sistemas, as bicicletas são retiradas e devolvidas em quiosques automatizados espalhados em diversos pontos da cidade. 

As plataformas de compartilhamento de bicicletas costumam coletar diversos tipos de dados, entre eles: duração da viagem, localização inicial e final do percurso, entre outros. 

Esses dados coletados pela plataforma, em conjunto com informações sobre o clima, trânsito e relevo, por exemplo, tornam possível uma análise mais robusta de compartilhamento de bicicletas.



## Importações

In [2]:
#Importações
import pandas as pd
import numpy as np

In [3]:
#importando dataset
url = "https://pycourse.s3.amazonaws.com/bike-sharing.csv"
dataset = pd.read_csv(url)

## Análise Inicial

In [4]:
dataset.head(5)

Unnamed: 0,datetime,rec_id,season,year,month,hour,is_holiday,weekday,is_workingday,weather_condition,temp,atemp,humidity,windspeed,casual,registered,total_count
0,2011-01-01,1,1,0,1,0,0,6,0,1,0.24,0.2879,0.81,0.0,3,13,16
1,2011-01-01,2,1,0,1,1,0,6,0,1,0.22,0.2727,0.8,0.0,8,32,40
2,2011-01-01,3,1,0,1,2,0,6,0,1,0.22,0.2727,0.8,0.0,5,27,32
3,2011-01-01,4,1,0,1,3,0,6,0,1,0.24,0.2879,0.75,0.0,3,10,13
4,2011-01-01,5,1,0,1,4,0,6,0,1,0.24,0.2879,0.75,0.0,0,1,1


In [5]:
dataset.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 17379 entries, 0 to 17378
Data columns (total 17 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   datetime           17379 non-null  object 
 1   rec_id             17379 non-null  int64  
 2   season             17379 non-null  int64  
 3   year               17379 non-null  int64  
 4   month              17379 non-null  int64  
 5   hour               17379 non-null  int64  
 6   is_holiday         17379 non-null  int64  
 7   weekday            17379 non-null  int64  
 8   is_workingday      17379 non-null  int64  
 9   weather_condition  17379 non-null  int64  
 10  temp               17379 non-null  float64
 11  atemp              17379 non-null  float64
 12  humidity           17379 non-null  float64
 13  windspeed          17379 non-null  float64
 14  casual             17379 non-null  int64  
 15  registered         17379 non-null  int64  
 16  total_count        173

In [10]:
# Convertendo a coluna datetime em formato datetime.
dataset['datetime'] = pd.to_datetime(dataset['datetime'])

## Respondendo as Perguntas da Atividade

In [6]:
#Qual o tamanho desse dataset?
print(f"O dataset possui {dataset.shape[0]} amostras e {dataset.shape[1]} colunas.")

O dataset possui 17379 amostras e 17 colunas.


In [7]:
#Qual a média da coluna windspeed?
round(dataset['windspeed'].mean(),7)

0.1900976

In [8]:
#Qual a média da coluna temp?
dataset['temp'].mean()

0.4969871684216586

In [9]:
#Quantos registros existem para o ano de 2011?
filtro2011 = dataset['datetime'].dt.year == 2011
print(f'Existem {sum(filtro2011)} registros para 2011.')

Existem 8645 registros para 2011.


In [11]:
#Quantos registros existem para o ano de 2011?
filtro2011 = dataset['datetime'].dt.year == 2011
print(f'Existem {sum(filtro2011)} registros para 2011.')

Existem 8645 registros para 2011.


In [12]:
#Quantos registros existem para o ano de 2012?
filtro2012 = dataset['datetime'].dt.year == 2012
print(f'Existem {sum(filtro2012)} registros para 2012.')

Existem 8734 registros para 2012.


In [14]:
#Quantas locações de bicicletas foram efetuadas em 2011?
filtroLocacao2011 = dataset.groupby(dataset['datetime'].dt.year == 2011)['total_count'].sum()
print(f'Foram realiadas {filtroLocacao2011[1]} locações em 2011.')

Foram realiadas 1243103 locações em 2011.


In [15]:
#Quantas locações de bicicletas foram efetuadas em 2011?
filtroLocacao2012 = dataset.groupby(dataset['datetime'].dt.year == 2012)['total_count'].sum()
print(f'Foram realiadas {filtroLocacao2012[1]} locações em 2012.')

Foram realiadas 2049576 locações em 2012.


In [16]:
#Média de locações de bicicletas por estação?  (1: inverno, 2: primavera, 3: verão, 4: outono)
mediasEstacoes = round(dataset.groupby('season')['total_count'].mean(),2)
mediasEstacoes

season
1    111.11
2    208.34
3    236.02
4    198.87
Name: total_count, dtype: float64

In [17]:
#Média de locações de bicicletas por horário do dia? (0 a 23)
mediasHoras = round(dataset.groupby('hour')['total_count'].mean(),2)
mediasHoras

hour
0      53.90
1      33.38
2      22.87
3      11.73
4       6.35
5      19.89
6      76.04
7     212.06
8     359.01
9     219.31
10    173.67
11    208.14
12    253.32
13    253.66
14    240.95
15    251.23
16    311.98
17    461.45
18    425.51
19    311.52
20    226.03
21    172.31
22    131.34
23     87.83
Name: total_count, dtype: float64

In [18]:
#Média de locações de bicicletas por dia da semana? (0: domingo, 1: segunda-feira, …, 6: sábado)
mediasWeekday = round(dataset.groupby('weekday')['total_count'].mean(),2)
mediasWeekday

weekday
0    177.47
1    183.74
2    191.24
3    191.13
4    196.44
5    196.14
6    190.21
Name: total_count, dtype: float64

In [19]:
# Qual horário do dia da semana, contém a maior média de locações de bicicletas?
mediasQuarta = dataset.query("weekday == 6")
round(mediasQuarta.groupby('hour')['total_count'].mean(),2)

hour
0      94.30
1      67.78
2      50.50
3      22.89
4       7.66
5       8.29
6      21.00
7      45.96
8     114.48
9     186.79
10    263.72
11    328.61
12    375.38
13    385.37
14    381.33
15    382.43
16    366.14
17    334.41
18    292.05
19    239.93
20    180.87
21    156.00
22    139.66
23    115.86
Name: total_count, dtype: float64

### - fim -