## Trabalho Prático Módulo 2

  O uso de bicicletas como um meio de transporte ganhou muita força nos últimos anos, seja por questões ambientais, de saúde ou até mesmo infraestrutura de trânsito. Para incentivar o uso, cidades em todo o mundo têm implementado programas de compartilhamento de bicicleta. Nesses sistemas, as bicicletas são retiradas e devolvidas em quiosques automatizados espalhados em diversos pontos da cidade.

  As plataformas de compartilhamento de bicicletas costumam coletar diversos tipos de dados, entre eles: duração da viagem, localização inicial e final do percurso, entre outros. 

  Esses dados coletados pela plataforma, em conjunto com informações sobre o clima, trânsito e relevo, por exemplo, tornam possível uma análise mais robusta de compartilhamento de bicicletas.

**Objetivos**
- Realizar a análise de uma base de dados real em Python

**Dicionário**

- rec_id: índice do registro de locação.
- datetime: data.
- season: estação do ano (1: inverno, 2: primavera, 3: verão, 4: outono). Relativo ao hemisfério norte
- year: ano (0: 2011, 1:2012).
- month: mês (1 a 12).
- hour: hora do dia (0 a 23).
- is_holiday: booleano indicando feriado.
- weekday: dia da semana (0: domingo, 1: segunda-feira, …, 6: sábado).
- is_workingday: booleano indicando dia útil.
- weather_condition: (1: limpo, 2: nublado, 3: chuva leve, 4: chuva forte).
- temp: temperatura escalada entre 0 e 1. Valor original em graus Celsius: -8 a 39.
- atemp: sensação térmica escalada entre 0 e 1. Valor original em graus Celsius: -16 a 50.
- humidity: umidade relativa (0 a 1).
- windspeed: velocidade do vento escalada entre 0 e 1 (máximo original: 67).
- casual: número de locações para usuários casuais.
- registered: número de locações para usuários registrados.
- total_count: contador total de aluguéis (casual+registered).


## **Imports**

In [1]:
import pandas as pd
import numpy as np

## **Carregando o dataset**

In [2]:
df = pd.read_csv('https://pycourse.s3.amazonaws.com/bike-sharing.csv')

## **Análisando o Dataset**

In [47]:
#Visualizando as 5 primeiras linhas
df.head()

Unnamed: 0,datetime,rec_id,season,year,month,hour,is_holiday,weekday,is_workingday,weather_condition,temp,atemp,humidity,windspeed,casual,registered,total_count
0,2011-01-01,1,1,0,1,0,0,6,0,1,0.24,0.2879,0.81,0.0,3,13,16
1,2011-01-01,2,1,0,1,1,0,6,0,1,0.22,0.2727,0.8,0.0,8,32,40
2,2011-01-01,3,1,0,1,2,0,6,0,1,0.22,0.2727,0.8,0.0,5,27,32
3,2011-01-01,4,1,0,1,3,0,6,0,1,0.24,0.2879,0.75,0.0,3,10,13
4,2011-01-01,5,1,0,1,4,0,6,0,1,0.24,0.2879,0.75,0.0,0,1,1


Qual o tamanho desse dataset?

In [4]:
df.shape

(17379, 17)

In [48]:
#Verificando presença de dados faltantes
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 17379 entries, 0 to 17378
Data columns (total 17 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   datetime           17379 non-null  object 
 1   rec_id             17379 non-null  int64  
 2   season             17379 non-null  int64  
 3   year               17379 non-null  int64  
 4   month              17379 non-null  int64  
 5   hour               17379 non-null  int64  
 6   is_holiday         17379 non-null  int64  
 7   weekday            17379 non-null  int64  
 8   is_workingday      17379 non-null  int64  
 9   weather_condition  17379 non-null  int64  
 10  temp               17379 non-null  float64
 11  atemp              17379 non-null  float64
 12  humidity           17379 non-null  float64
 13  windspeed          17379 non-null  float64
 14  casual             17379 non-null  int64  
 15  registered         17379 non-null  int64  
 16  total_count        173

Verificando a descrição dos dados

In [6]:
df.describe()

Unnamed: 0,rec_id,season,year,month,hour,is_holiday,weekday,is_workingday,weather_condition,temp,atemp,humidity,windspeed,casual,registered,total_count
count,17379.0,17379.0,17379.0,17379.0,17379.0,17379.0,17379.0,17379.0,17379.0,17379.0,17379.0,17379.0,17379.0,17379.0,17379.0,17379.0
mean,8690.0,2.50164,0.502561,6.537775,11.546752,0.02877,3.003683,0.682721,1.425283,0.496987,0.475775,0.627229,0.190098,35.676218,153.786869,189.463088
std,5017.0295,1.106918,0.500008,3.438776,6.914405,0.167165,2.005771,0.465431,0.639357,0.192556,0.17185,0.19293,0.12234,49.30503,151.357286,181.387599
min,1.0,1.0,0.0,1.0,0.0,0.0,0.0,0.0,1.0,0.02,0.0,0.0,0.0,0.0,0.0,1.0
25%,4345.5,2.0,0.0,4.0,6.0,0.0,1.0,0.0,1.0,0.34,0.3333,0.48,0.1045,4.0,34.0,40.0
50%,8690.0,3.0,1.0,7.0,12.0,0.0,3.0,1.0,1.0,0.5,0.4848,0.63,0.194,17.0,115.0,142.0
75%,13034.5,3.0,1.0,10.0,18.0,0.0,5.0,1.0,2.0,0.66,0.6212,0.78,0.2537,48.0,220.0,281.0
max,17379.0,4.0,1.0,12.0,23.0,1.0,6.0,1.0,4.0,1.0,1.0,1.0,0.8507,367.0,886.0,977.0


Qual a média da coluna windspeed?

In [51]:
df['windspeed'].mean()

0.1900976063064631

Qual a média da coluna temp?

In [52]:
df['temp'].mean()

0.4969871684216586

Quantos registros existem para o ano de 2011?

In [22]:
df[df['year'] == 0].shape

(8645, 17)

Quantos registros existem para o ano de 2012?

In [29]:
df[df['year'] == 1].shape

(8734, 17)

Quantas locações de bicicletas foram efetuadas em 2011?

In [32]:
df[df['year'] == 0]['total_count'].sum()

1243103

Quantas locações de bicicletas foram efetuadas em 2012?

In [30]:
df[df['year'] == 1]['total_count'].sum()

2049576

Qual estação do ano contém a maior média de locações de bicicletas?

In [36]:
df.groupby(['season'])['total_count'].mean().sort_values(ascending=False)

season
3    236.016237
2    208.344069
4    198.868856
1    111.114569
Name: total_count, dtype: float64

Qual estação do ano contém a menor média de locações de bicicletas?

In [54]:
df.groupby(['season'])['total_count'].mean().sort_values(ascending=True)

season
1    111.114569
4    198.868856
2    208.344069
3    236.016237
Name: total_count, dtype: float64

Qual horário do dia contém a maior média de locações de bicicletas?

In [37]:
df.groupby(['hour'])['total_count'].mean().sort_values(ascending=False)

hour
17    461.452055
18    425.510989
8     359.011004
16    311.983562
19    311.523352
13    253.661180
12    253.315934
15    251.233196
14    240.949246
20    226.030220
9     219.309491
7     212.064649
11    208.143054
10    173.668501
21    172.314560
22    131.335165
23     87.831044
6      76.044138
0      53.898072
1      33.375691
2      22.869930
5      19.889819
3      11.727403
4       6.352941
Name: total_count, dtype: float64

Qual horário do dia contém a menor média de locações de bicicletas?


In [55]:
df.groupby(['hour'])['total_count'].mean().sort_values(ascending=True)

hour
4       6.352941
3      11.727403
5      19.889819
2      22.869930
1      33.375691
0      53.898072
6      76.044138
23     87.831044
22    131.335165
21    172.314560
10    173.668501
11    208.143054
7     212.064649
9     219.309491
20    226.030220
14    240.949246
15    251.233196
12    253.315934
13    253.661180
19    311.523352
16    311.983562
8     359.011004
18    425.510989
17    461.452055
Name: total_count, dtype: float64

Que dia da semana contém a maior média de locações de bicicletas?

In [58]:
df.groupby(['weekday'])['total_count'].mean().sort_values(ascending=False)

weekday
4    196.436665
5    196.135907
2    191.238891
3    191.130505
6    190.209793
1    183.744655
0    177.468825
Name: total_count, dtype: float64

Que dia da semana contém a menor média de locações de bicicletas?

In [59]:
df.groupby(['weekday'])['total_count'].mean().sort_values(ascending=True)

weekday
0    177.468825
1    183.744655
6    190.209793
3    191.130505
2    191.238891
5    196.135907
4    196.436665
Name: total_count, dtype: float64

Às quartas-feiras (weekday = 3), qual horário do dia contém a maior média 
de locações de bicicletas?

In [46]:
df[df['weekday']==3].groupby(['hour'])['total_count'].mean().sort_values(ascending=False)

hour
17    513.144231
18    494.029126
8     488.326923
19    357.504854
7     303.980769
16    272.961538
20    256.660194
9     238.528846
21    194.669903
12    193.903846
13    185.826923
15    181.288462
14    170.548077
11    152.201923
22    143.689320
10    131.894231
6     107.807692
23     83.737864
0      34.557692
5      25.750000
1      15.336538
2       7.813725
4       4.968750
3       4.888889
Name: total_count, dtype: float64

Aos sábados (weekday = 6), qual horário do dia contém a maior média de 
locações de bicicletas?

In [45]:
df[df['weekday']==6].groupby(['hour'])['total_count'].mean().sort_values(ascending=False)

hour
13    385.371429
15    382.428571
14    381.333333
12    375.380952
16    366.142857
17    334.409524
11    328.609524
18    292.048077
10    263.723810
19    239.932692
9     186.790476
20    180.865385
21    156.000000
22    139.663462
23    115.855769
8     114.476190
0      94.304762
1      67.780952
2      50.495238
7      45.961905
3      22.885714
6      21.000000
5       8.291262
4       7.657143
Name: total_count, dtype: float64