O uso de bicicletas como meio de transporte ganhou muita força nos últimos anos, seja por questões ambientais, de saúde ou até mesmo de infraestrutura de trânsito. Para incentivar seu uso, cidades em todo o mundo têm implementado programas de compartilhamento de bicicleta. Nesses sistemas, elas são retiradas e devolvidas em quiosques automatizados que ficam espalhados por diversos pontos da cidade.


As plataformas de compartilhamento de bicicletas costumam coletar diversos tipos de dados, como a duração da viagem, as localizações iniciais e finais dos percursos, entre outros. Esses dados, em conjunto com informações sobre o clima, o trânsito e o relevo, por exemplo, possibilitam uma análise mais robusta do compartilhamento de bicicletas.

Segue um descritivo dos dados coletados:

 - rec_id: índice do registro de locação;
 - datetime: data;
 - season: estação do ano (1: inverno, 2: primavera, 3: verão, 4: outono). Relativo ao hemisfério norte;
 - year: ano (0: 2011, 1:2012);
 - month: mês (1 a 12);
 - hour: hora do dia (0 a 23);
 - is_holiday: booleano indicando feriado;
 - weekday: dia da semana (0: domingo, 1: segunda-feira, …, 6: sábado);
 - is_workingday: booleano indicando dia útil;
 - weather_condition: (1: limpo, 2: nublado, 3: chuva leve, 4: chuva forte);
 - temp: Temperatura escalada entre 0 e 1. Valor original em graus Celsius: -8 a 39;
 - atemp: Sensação térmica escalada entre 0 e 1. Valor original em graus Celsius: -16 a 50;
 - humidity: Humidade relativa (0 a 1);
 - windspeed: Velocidade do vento escalada entre 0 e 1 (máximo original: 67);
 - casual: número de locações para usuários casuais;
 - registered: número de locações para usuários registrados;
 - total_count: contador total de aluguéis (casual+registered).

In [1]:
# Importar as bibliotecas do numpy e pandas

import numpy as np
import pandas as pd

In [43]:
estacoes = {1: 'inverno', 2: 'primavera', 3: 'verão', 4: 'outono'}
dias_da_semana = {0: 'domingo', 1: 'segunda-feira', 2: 'terça-feira', 3: 'quarta-feira', 4: 'quinta-feira', 5: 'sexta-feira', 6: 'sábado'}
horas = {0: '0 hora', 1: '1 hora', 2: '2 horas', 3: '3 horas', 4: '4 horas', 5: '5 horas', 6: '6 horas', 7: '7 horas', 8: '8 horas', 9: '9 horas', 10: '10 horas', 11: '11 horas', 12: '12 horas', 13: '13 horas', 14: '14 horas', 15: '15 horas', 16: '16 horas', 17: '17 horas', 18: '18 horas', 19: '19 horas', 20: '20 horas', 21: '21 horas', 22: '22 horas', 23: '23 horas'}


In [4]:
# Carregar o dataset para análise utilizando o pandas
df = pd.read_csv("./bike-sharing.csv")

# transformando o tipo da coluna date para datetime
df['datetime'] = pd.to_datetime(df['datetime'])

# setando o indice
df = df.set_index('datetime')

df.head()

Unnamed: 0_level_0,rec_id,season,year,month,hour,is_holiday,weekday,is_workingday,weather_condition,temp,atemp,humidity,windspeed,casual,registered,total_count
datetime,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1
2011-01-01,1,1,0,1,0,0,6,0,1,0.24,0.2879,0.81,0.0,3,13,16
2011-01-01,2,1,0,1,1,0,6,0,1,0.22,0.2727,0.8,0.0,8,32,40
2011-01-01,3,1,0,1,2,0,6,0,1,0.22,0.2727,0.8,0.0,5,27,32
2011-01-01,4,1,0,1,3,0,6,0,1,0.24,0.2879,0.75,0.0,3,10,13
2011-01-01,5,1,0,1,4,0,6,0,1,0.24,0.2879,0.75,0.0,0,1,1


In [5]:
df.describe()

Unnamed: 0,rec_id,season,year,month,hour,is_holiday,weekday,is_workingday,weather_condition,temp,atemp,humidity,windspeed,casual,registered,total_count
count,17379.0,17379.0,17379.0,17379.0,17379.0,17379.0,17379.0,17379.0,17379.0,17379.0,17379.0,17379.0,17379.0,17379.0,17379.0,17379.0
mean,8690.0,2.50164,0.502561,6.537775,11.546752,0.02877,3.003683,0.682721,1.425283,0.496987,0.475775,0.627229,0.190098,35.676218,153.786869,189.463088
std,5017.0295,1.106918,0.500008,3.438776,6.914405,0.167165,2.005771,0.465431,0.639357,0.192556,0.17185,0.19293,0.12234,49.30503,151.357286,181.387599
min,1.0,1.0,0.0,1.0,0.0,0.0,0.0,0.0,1.0,0.02,0.0,0.0,0.0,0.0,0.0,1.0
25%,4345.5,2.0,0.0,4.0,6.0,0.0,1.0,0.0,1.0,0.34,0.3333,0.48,0.1045,4.0,34.0,40.0
50%,8690.0,3.0,1.0,7.0,12.0,0.0,3.0,1.0,1.0,0.5,0.4848,0.63,0.194,17.0,115.0,142.0
75%,13034.5,3.0,1.0,10.0,18.0,0.0,5.0,1.0,2.0,0.66,0.6212,0.78,0.2537,48.0,220.0,281.0
max,17379.0,4.0,1.0,12.0,23.0,1.0,6.0,1.0,4.0,1.0,1.0,1.0,0.8507,367.0,886.0,977.0


In [31]:
df.info()

<class 'pandas.core.frame.DataFrame'>
DatetimeIndex: 17379 entries, 2011-01-01 to 2012-12-31
Data columns (total 16 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   rec_id             17379 non-null  int64  
 1   season             17379 non-null  int64  
 2   year               17379 non-null  int64  
 3   month              17379 non-null  int64  
 4   hour               17379 non-null  int64  
 5   is_holiday         17379 non-null  int64  
 6   weekday            17379 non-null  int64  
 7   is_workingday      17379 non-null  int64  
 8   weather_condition  17379 non-null  int64  
 9   temp               17379 non-null  float64
 10  atemp              17379 non-null  float64
 11  humidity           17379 non-null  float64
 12  windspeed          17379 non-null  float64
 13  casual             17379 non-null  int64  
 14  registered         17379 non-null  int64  
 15  total_count        17379 non-null  int64  
dtypes: fl

In [7]:
# a. Qual o tamanho desse dataset?

df.value_counts()

rec_id  season  year  month  hour  is_holiday  weekday  is_workingday  weather_condition  temp  atemp   humidity  windspeed  casual  registered  total_count
1       1       0     1      0     0           6        0              1                  0.24  0.2879  0.81      0.0000     3       13          16             1
11592   2       1     5      4     0           4        1              2                  0.46  0.4545  0.88      0.2537     0       2           2              1
11578   2       1     5      14    0           3        1              1                  0.62  0.6061  0.69      0.0896     51      189         240            1
11579   2       1     5      15    0           3        1              1                  0.64  0.6061  0.65      0.1940     52      204         256            1
11580   2       1     5      16    0           3        1              1                  0.64  0.6061  0.65      0.1642     54      313         367            1
                                 

In [8]:
# b. Qual a média da coluna windspeed?

df['windspeed'].mean()

0.19009760630646177

In [9]:
# c. Qual a média da coluna temp?

df['temp'].mean()

0.4969871684216583

In [33]:
# d. Quantos registros existem para o ano de 2011?

df[df.index.year == 2011].value_counts()

rec_id  season  year  month  hour  is_holiday  weekday  is_workingday  weather_condition  temp  atemp   humidity  windspeed  casual  registered  total_count
1       1       0     1      0     0           6        0              1                  0.24  0.2879  0.81      0.0000     3       13          16             1
5760    3       0     9      10    0           5        1              2                  0.64  0.6061  0.76      0.1642     34      106         140            1
5774    3       0     9      0     0           6        0              2                  0.64  0.6061  0.73      0.1045     22      65          87             1
5773    3       0     9      23    0           5        1              2                  0.64  0.6061  0.73      0.1642     30      68          98             1
5772    3       0     9      22    0           5        1              2                  0.64  0.6061  0.73      0.1642     33      114         147            1
                                 

In [32]:
# e. Quantos registros existem para o ano de 2012?

df[df.index.year == 2012].value_counts()

rec_id  season  year  month  hour  is_holiday  weekday  is_workingday  weather_condition  temp  atemp   humidity  windspeed  casual  registered  total_count
8646    1       1     1      0     0           0        0              1                  0.36  0.3788  0.66      0.0000     5       43          48             1
14471   3       1     8      3     0           5        1              1                  0.66  0.5909  0.89      0.1045     3       2           5              1
14465   3       1     8      21    0           4        1              1                  0.72  0.6818  0.66      0.1343     32      275         307            1
14466   3       1     8      22    0           4        1              1                  0.70  0.6515  0.70      0.0000     38      253         291            1
14467   3       1     8      23    0           4        1              1                  0.70  0.6667  0.74      0.1045     19      133         152            1
                                 

In [12]:
# f. Quantas locações de bicicletas foram efetuadas em 2011?

df[df.index.year == 2011]['total_count'].sum()

1243103

In [13]:
# g. Quantas locações de bicicletas foram efetuadas em 2012?

df[df.index.year == 2012]['total_count'].sum()

2049576

In [66]:
# média de dados por coluna

def mean_data_column(data_array, column):
    media_locacoes = []

    for item in data_array:
        media_locacoes.append(df[df[column] == item]['total_count'].mean())

    return media_locacoes

In [67]:
# média por estação

media_locacoes = mean_data_column(estacoes, 'season')
media_locacoes

[111.11456859971712,
 208.34406894987526,
 236.01623665480426,
 198.86885633270322]

In [68]:
# h. Qual estação do ano contém a maior média de locações de bicicletas? (1: inverno, 2: primavera, 3: verão, 4: outono)

estacoes[media_locacoes.index(max(media_locacoes)) + 1]

'verão'

In [69]:
# i. Qual estação do ano contém a menor média de locações de bicicletas?

estacoes[media_locacoes.index(min(media_locacoes)) + 1]

'inverno'

In [70]:
# média por hora

media_locacoes = mean_data_column(horas, 'hour')
media_locacoes

[53.89807162534435,
 33.3756906077348,
 22.86993006993007,
 11.727403156384504,
 6.352941176470588,
 19.88981868898187,
 76.04413793103448,
 212.0646492434663,
 359.01100412654745,
 219.30949105914718,
 173.6685006877579,
 208.1430536451169,
 253.31593406593407,
 253.66117969821673,
 240.94924554183814,
 251.2331961591221,
 311.9835616438356,
 461.45205479452056,
 425.510989010989,
 311.52335164835165,
 226.03021978021977,
 172.31456043956044,
 131.33516483516485,
 87.83104395604396]

In [71]:
# j. Qual horário do dia contém a maior média de locações de bicicletas?

horas[media_locacoes.index(max(media_locacoes))]

'17 horas'

In [72]:
# k. Qual horário do dia contém a menor média de locações de bicicletas?

horas[media_locacoes.index(min(media_locacoes))]

'4 horas'

In [73]:
media_locacoes = mean_data_column(dias_da_semana, 'weekday')
media_locacoes

[177.46882494004797,
 183.74465510286404,
 191.23889115368937,
 191.13050505050506,
 196.43666531768514,
 196.13590671491758,
 190.20979299363057]

In [74]:
# l. Que dia da semana contém a maior média de locações de bicicletas?

dias_da_semana[media_locacoes.index(max(media_locacoes))]

'quinta-feira'

In [63]:
# m. Que dia da semana contém a menor média de locações de bicicletas?

dias_da_semana[media_locacoes.index(min(media_locacoes))]

'domingo'

In [77]:
# média de dados por coluna e dia da semana
 
def mean_data_column_weekday(data_array, column, weekday):
    media_locacoes = []

    for item in data_array:
        cond = np.logical_and(df['weekday'] == weekday, df[column] == item)
        media_locacoes.append(df[cond]['total_count'].mean())

    return media_locacoes

In [79]:
# média por hora às quartas

media_locacoes = mean_data_column_weekday(horas, 'hour', 3)
media_locacoes

[34.55769230769231,
 15.336538461538462,
 7.813725490196078,
 4.888888888888889,
 4.96875,
 25.75,
 107.8076923076923,
 303.9807692307692,
 488.3269230769231,
 238.52884615384616,
 131.89423076923077,
 152.20192307692307,
 193.90384615384616,
 185.82692307692307,
 170.54807692307693,
 181.28846153846155,
 272.96153846153845,
 513.1442307692307,
 494.02912621359224,
 357.50485436893206,
 256.6601941747573,
 194.66990291262135,
 143.6893203883495,
 83.7378640776699]

In [80]:
# n. Às quartas-feiras (weekday = 3), qual o horário do dia que contém a maior média de locações de bicicletas?

horas[media_locacoes.index(max(media_locacoes))]

'17 horas'

In [81]:
# média por hora aos sábados

media_locacoes = mean_data_column_weekday(horas, 'hour', 6)
media_locacoes

[94.3047619047619,
 67.78095238095239,
 50.49523809523809,
 22.885714285714286,
 7.6571428571428575,
 8.29126213592233,
 21.0,
 45.96190476190476,
 114.47619047619048,
 186.7904761904762,
 263.7238095238095,
 328.6095238095238,
 375.3809523809524,
 385.37142857142857,
 381.3333333333333,
 382.42857142857144,
 366.14285714285717,
 334.4095238095238,
 292.0480769230769,
 239.93269230769232,
 180.8653846153846,
 156.0,
 139.66346153846155,
 115.85576923076923]

In [82]:
# o. Aos sábados (weekday = 6), qual o horário do dia que contém a maior média de locações de bicicletas?

horas[media_locacoes.index(max(media_locacoes))]

'13 horas'