#Sobre

O uso de bicicletas como meio de transporte ganhou muita força nos últimos anos,
seja por questões ambientais, de saúde ou até mesmo de infraestrutura de trânsito. Para
incentivar seu uso, cidades em todo o mundo têm implementado programas de
compartilhamento de bicicleta. Nesses sistemas, elas são retiradas e devolvidas em
quiosques automatizados que ficam espalhados por diversos pontos da cidade.
As plataformas de compartilhamento de bicicletas costumam coletar diversos tipos
de dados, como a duração da viagem, as localizações iniciais e finais dos percursos, entre
outros. Esses dados, em conjunto com informações sobre o clima, o trânsito e o relevo, por
exemplo, possibilitam uma análise mais robusta do compartilhamento de bicicletas.
Segue um descritivo dos dados coletados:
- **rec_id**: índice do registro de locação;
- **datetime** : data;
- **season** : estação do ano (1: inverno, 2: primevera, 3: verão, 4: outono). Relativo ao
hemisfério norte;
- **year** : ano (0: 2011, 1:2012);
- **month** : mês (1 a 12);
- **hour** : hora do dia (0 a 23);
- **is_holiday** : booleano indicando feriado;
- **weekday** : dia da semana (0: domingo, 1: segunda-feira, ..., 6: sábado);
- **is_workingday** : booleano indicando dia útil;
- **weather_condition**: (1: limpo, 2: nublado, 3: chuva leve, 4: chuva forte);
- **temp** : Temperatura escalada entre 0 e 1. Valor original em graus Celsius: -8 a 39;
- **atemp**: Sensação térmica escalada entre 0 e 1. Valor original em graus Celsius: -16 a 50;
- **humidity**: Humidade relativa (0 a 1);
- **windspeed**: Velocidade do vento escalada entre 0 e 1 (máximo original: 67);
- **casual**: número de locações para usuários casuais;
- **registered**: número de locações para usuários registrados;
- **total_count**: contador total de aluguéis (casual+registered).
---
__Esta atividade tem como objetivo analisar os dados de compartilhamento de bicicletas em uma cidade, coletados pela Universidade do Porto.__

#Importando Bibliotecas


In [1]:
# importando as bibliotecas
import numpy as np
import pandas as pd

##Carregando dados

In [2]:
# Carregando dados
df = pd.read_csv("https://pycourse.s3.amazonaws.com/bike-sharing.csv")

In [3]:
# Dados carregados
df.head()

Unnamed: 0,datetime,rec_id,season,year,month,hour,is_holiday,weekday,is_workingday,weather_condition,temp,atemp,humidity,windspeed,casual,registered,total_count
0,2011-01-01,1,1,0,1,0,0,6,0,1,0.24,0.2879,0.81,0.0,3,13,16
1,2011-01-01,2,1,0,1,1,0,6,0,1,0.22,0.2727,0.8,0.0,8,32,40
2,2011-01-01,3,1,0,1,2,0,6,0,1,0.22,0.2727,0.8,0.0,5,27,32
3,2011-01-01,4,1,0,1,3,0,6,0,1,0.24,0.2879,0.75,0.0,3,10,13
4,2011-01-01,5,1,0,1,4,0,6,0,1,0.24,0.2879,0.75,0.0,0,1,1


#Questões

## #A

In [None]:
# Qual o tamanho deste dataset?
df.shape

(17379, 17)

## #B

In [None]:
# Qual a média da coluna windspeed?
df['windspeed'].mean()
# 0.190098

0.1900976063064631

## #C

In [None]:
# Qual a média da coluna temp
df['temp'].mean()
# 0.496987

0.4969871684216586

## #D

In [None]:
# Quantos registros existem para o ano de 2011?
df['datetime'].head()

0    2011-01-01
1    2011-01-01
2    2011-01-01
3    2011-01-01
4    2011-01-01
Name: datetime, dtype: object

In [None]:
df['datetime'] = pd.to_datetime(df['datetime'])

In [None]:
df['datetime']

0       2011-01-01
1       2011-01-01
2       2011-01-01
3       2011-01-01
4       2011-01-01
           ...    
17374   2012-12-31
17375   2012-12-31
17376   2012-12-31
17377   2012-12-31
17378   2012-12-31
Name: datetime, Length: 17379, dtype: datetime64[ns]

In [None]:
cond_2011 = df['year'] == 0
df[cond_2011].count()
#Quantidade de registros para 2011: 8645

datetime             8645
rec_id               8645
season               8645
year                 8645
month                8645
hour                 8645
is_holiday           8645
weekday              8645
is_workingday        8645
weather_condition    8645
temp                 8645
atemp                8645
humidity             8645
windspeed            8645
casual               8645
registered           8645
total_count          8645
dtype: int64

## #E

In [None]:
# Quantos registros existem para o ano 2012?
cond_2012 = df['year'] == 1
df[cond_2012].count()
#Quantidade de registros para 2012: 8734

datetime             8734
rec_id               8734
season               8734
year                 8734
month                8734
hour                 8734
is_holiday           8734
weekday              8734
is_workingday        8734
weather_condition    8734
temp                 8734
atemp                8734
humidity             8734
windspeed            8734
casual               8734
registered           8734
total_count          8734
dtype: int64

## #F

In [None]:
# Quantas locações de bicicleta foram efetuadas em 2011?
df[cond_2011]['total_count'].sum()
# total de 1 124 103 locações

1243103

## #G

In [None]:
# Quantas locações de bicicleta foram efetuadas em 2012?
# Quantas locações de bicicleta foram efetuadas em 2011?
df[cond_2012]['total_count'].sum()
# total de 2 049 576 locações

2049576

## #H

In [None]:
# Qual estação do ano contém a maior média de locações de bicicletas?
df['season'].describe
# maior verão

<bound method NDFrame.describe of 0        1
1        1
2        1
3        1
4        1
        ..
17374    1
17375    1
17376    1
17377    1
17378    1
Name: season, Length: 17379, dtype: int64>

## #I

In [None]:
# Qual estação do ano contém a menor média de locações de bicicletas?
inv = df['season'] == 1
prim = df['season'] == 2
ver = df['season'] == 3
outo = df['season'] == 4

#inverno com 471 348 totais

In [None]:
df[inv]['total_count'].sum()

471348

In [None]:
df[prim]['total_count'].sum()

918589

In [None]:
df[ver]['total_count'].sum()

1061129

In [None]:
df[outo]['total_count'].sum()

841613

In [None]:
#OU
dfseason = df.groupby(by='season')['total_count'].mean().sort_values(ascending = False)

dfseason

season
3    236.016237
2    208.344069
4    198.868856
1    111.114569
Name: total_count, dtype: float64

## #J

In [None]:
# Qual horário do dia contém a maior média de locações de bicicletas?
dfhora = df.groupby(by='hour')['total_count'].mean().sort_values(ascending = False)
dfhora
# 17h

hour
17    461.452055
18    425.510989
8     359.011004
16    311.983562
19    311.523352
13    253.661180
12    253.315934
15    251.233196
14    240.949246
20    226.030220
9     219.309491
7     212.064649
11    208.143054
10    173.668501
21    172.314560
22    131.335165
23     87.831044
6      76.044138
0      53.898072
1      33.375691
2      22.869930
5      19.889819
3      11.727403
4       6.352941
Name: total_count, dtype: float64

In [None]:
horas = df['hour'].unique()
for h in horas:
    hora = df['hour'] == h
    print(f'{h}:', df[hora]['total_count'].sum())

0: 39130
1: 24164
2: 16352
3: 8174
4: 4428
5: 14261
6: 55132
7: 154171
8: 261001
9: 159438
10: 126257
11: 151320
12: 184414
13: 184919
14: 175652
15: 183149
16: 227748
17: 336860
18: 309772
19: 226789
20: 164550
21: 125445
22: 95612
23: 63941


## #K

In [None]:
# Qual horário do dia contém a menor média de locações de bicicletas?
df['hour'].value_counts().idxmin()
# 4h

4

In [None]:
horas = df['hour'].unique()
for h in horas:
    hora = df['hour'] == h
    print(f'{h}:', df[hora]['total_count'].sum())

0: 39130
1: 24164
2: 16352
3: 8174
4: 4428
5: 14261
6: 55132
7: 154171
8: 261001
9: 159438
10: 126257
11: 151320
12: 184414
13: 184919
14: 175652
15: 183149
16: 227748
17: 336860
18: 309772
19: 226789
20: 164550
21: 125445
22: 95612
23: 63941


## #L

In [None]:
# Que dia da semana contém a maior média de locações de bicicletas?
dfsemana = df.groupby(by='weekday')['total_count'].mean().sort_values(ascending = False)
dfsemana
# 4: quinta-feira

weekday
4    196.436665
5    196.135907
2    191.238891
3    191.130505
6    190.209793
1    183.744655
0    177.468825
Name: total_count, dtype: float64

## #M

In [5]:
# Que dia da semana contém a menor média de locações de bicicletas?
dfsemana = df.groupby(by='weekday')['total_count'].mean().sort_values(ascending = True)
dfsemana
# 0: domingo

weekday
0    177.468825
1    183.744655
6    190.209793
3    191.130505
2    191.238891
5    196.135907
4    196.436665
Name: total_count, dtype: float64

In [None]:
df['weekday'].unique()

array([6, 0, 1, 2, 3, 4, 5])

In [None]:
wkd = df['weekday'].unique()
for day in wkd:
    dia = df['weekday'] == day
    print(f'{day}:', df[dia]['total_count'].sum())

6: 477807
0: 444027
1: 455503
2: 469109
3: 473048
4: 485395
5: 487790


## #N

In [None]:
# Às quartas-feiras (weekday = 3), qual o horário do dia contém a maior média de
# locações de bicicletas?
dfquarta = df[df['weekday'] == 3]
dfquartahora = dfquarta.groupby(by='hour')['total_count'].mean().sort_values(ascending = False)
dfquartahora
# 17h

hour
17    513.144231
18    494.029126
8     488.326923
19    357.504854
7     303.980769
16    272.961538
20    256.660194
9     238.528846
21    194.669903
12    193.903846
13    185.826923
15    181.288462
14    170.548077
11    152.201923
22    143.689320
10    131.894231
6     107.807692
23     83.737864
0      34.557692
5      25.750000
1      15.336538
2       7.813725
4       4.968750
3       4.888889
Name: total_count, dtype: float64

In [None]:
qf = df['weekday'] == 3
ids = df['hour'].unique()
for id in ids:
    hora = df['hour'] == id
    print(f'{id}:', df[hora][qf]['total_count'].sum())

0: 3594
1: 1595
2: 797
3: 484
4: 477
5: 2678
6: 11212
7: 31614
8: 50786
9: 24807
10: 13717
11: 15829
12: 20166
13: 19326
14: 17737
15: 18854
16: 28388
17: 53367
18: 50885
19: 36823
20: 26436
21: 20051
22: 14800
23: 8625


  """


## #O

In [None]:
# Aos sábados (weekday = 6), qual o horário do dia contém a maior média de
# locações de bicicletas?
dfsabado = df[df['weekday'] == 6]
dfsabadohora = dfsabado.groupby(by='hour')['total_count'].mean().sort_values(ascending = False)
dfsabadohora
# 13h

hour
13    385.371429
15    382.428571
14    381.333333
12    375.380952
16    366.142857
17    334.409524
11    328.609524
18    292.048077
10    263.723810
19    239.932692
9     186.790476
20    180.865385
21    156.000000
22    139.663462
23    115.855769
8     114.476190
0      94.304762
1      67.780952
2      50.495238
7      45.961905
3      22.885714
6      21.000000
5       8.291262
4       7.657143
Name: total_count, dtype: float64

In [None]:
sab = df['weekday'] == 6
ids = df['hour'].unique()
for id in ids:
    hora = df['hour'] == id
    print(f'{id}:', df[hora][sab]['total_count'].sum())

0: 9902
1: 7117
2: 5302
3: 2403
4: 804
5: 854
6: 2205
7: 4826
8: 12020
9: 19613
10: 27691
11: 34504
12: 39415
13: 40464
14: 40040
15: 40155
16: 38445
17: 35113
18: 30373
19: 24953
20: 18810
21: 16224
22: 14525
23: 12049


  """
