# Desafio Módulo 2 - Python para a análise de dados

In [1]:
import pandas as pd
import numpy as np

# bonus:
import matplot

In [2]:
df = pd.read_csv('https://pycourse.s3.amazonaws.com/bike-sharing.csv')

- **rec_id:** índice do registro de locação;
- **datetime:** data;
- **season:** estação do ano (1: inverno, 2: primavera, 3: verão, 4: outono);
- **year:** ano (0: 2011, 1: 2012);
- **month:** mês (1 a 12);
- **hour:** hora do dia (0 a 23);
- **is_holiday:** booleano indicando feriado;
- **weekday:** dia da semana (0: domingo, 1: segunda, ..., 6: sábado);
- **is_workingday:** booleano indicando dia útil;
- **weather_condition:** condição do tempo (1: limpo, 2: nublado, 3: chuva leve, 4: chuva forte);
- **temp:** temperatura escalada entre 0 e 1. Valor original em graus Celsius: -8 a 39;
- **atemp:** sensação térmica escalada entre 0 e 1. Valor original em graus Celsius: -16 a 50;
- **humidity:** Humidade relativa (0 a 1);
- **windspeed:** velocidade do vento escalada entre 0 e 1 (máximo original: 67);
- **casual:** número de locações para usuários casuais;
- **registered:** número de locações para usuários registrados;
- **total_count:** contador total de aluguéis (casual+registered).

In [3]:
df.head()

Unnamed: 0,datetime,rec_id,season,year,month,hour,is_holiday,weekday,is_workingday,weather_condition,temp,atemp,humidity,windspeed,casual,registered,total_count
0,2011-01-01,1,1,0,1,0,0,6,0,1,0.24,0.2879,0.81,0.0,3,13,16
1,2011-01-01,2,1,0,1,1,0,6,0,1,0.22,0.2727,0.8,0.0,8,32,40
2,2011-01-01,3,1,0,1,2,0,6,0,1,0.22,0.2727,0.8,0.0,5,27,32
3,2011-01-01,4,1,0,1,3,0,6,0,1,0.24,0.2879,0.75,0.0,3,10,13
4,2011-01-01,5,1,0,1,4,0,6,0,1,0.24,0.2879,0.75,0.0,0,1,1


## Perguntas

### a) Qual o tamanho desse dataset?

In [88]:
df.info()
# 17.379 entradas e 17 colunas

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 17379 entries, 0 to 17378
Data columns (total 17 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   datetime           17379 non-null  object 
 1   rec_id             17379 non-null  int64  
 2   season             17379 non-null  int64  
 3   year               17379 non-null  int64  
 4   month              17379 non-null  int64  
 5   hour               17379 non-null  int64  
 6   is_holiday         17379 non-null  int64  
 7   weekday            17379 non-null  int64  
 8   is_workingday      17379 non-null  int64  
 9   weather_condition  17379 non-null  int64  
 10  temp               17379 non-null  float64
 11  atemp              17379 non-null  float64
 12  humidity           17379 non-null  float64
 13  windspeed          17379 non-null  float64
 14  casual             17379 non-null  int64  
 15  registered         17379 non-null  int64  
 16  total_count        173

### b) Qual a média da coluna *windspeed*?

In [5]:
df['windspeed'].mean()

0.1900976063064631

In [29]:
# ou
df['windspeed'].describe()

count    17379.000000
mean         0.190098
std          0.122340
min          0.000000
25%          0.104500
50%          0.194000
75%          0.253700
max          0.850700
Name: windspeed, dtype: float64

### c) Qual a média da coluna *temp*?

In [7]:
df['temp'].mean()

0.4969871684216586

In [86]:
# ou
df['temp'].describe()

count    17379.000000
mean         0.496987
std          0.192556
min          0.020000
25%          0.340000
50%          0.500000
75%          0.660000
max          1.000000
Name: temp, dtype: float64

### d) Quantos registros existem para o ano de 2011?

In [9]:
len(df[df['year'] == 0])

8645

In [84]:
df[df['year'] == 0].count().head()

datetime    8645
rec_id      8645
season      8645
year        8645
month       8645
dtype: int64

### e) Quantos registros existem para o ano de 2012?

In [12]:
len(df[df['year'] == 1])

8734

In [83]:
df[df['year'] == 1].count().head()

datetime    8734
rec_id      8734
season      8734
year        8734
month       8734
dtype: int64

### f) Quantas locações de bicicletas foram efetuadas em 2011?

In [31]:
sum(df[df['year'] == 0]['total_count'])

1243103

### g) Quantas locações de bicicletas foram efetuadas em 2012?

In [16]:
sum(df[df['year'] == 1]['total_count'])

2049576

### h) Qual estação do ano contém a maior média de locações de bicicletas?

In [41]:
# conferindo se existem as 4 estações do ano
df['season'].unique()

array([1, 2, 3, 4])

In [42]:
# precisamos resetar o index:
df.groupby(by='season')['total_count'].mean().sort_values(ascending = False).reset_index()

Unnamed: 0,season,total_count
0,3,236.016237
1,2,208.344069
2,4,198.868856
3,1,111.114569


In [43]:
# utilizando iloc[] para pegar a primeira linha (que contém o maior valor de total_count)
df.groupby(by='season')['total_count'].mean().sort_values(ascending = False).reset_index().iloc[0]
# 3: verão

season           3.000000
total_count    236.016237
Name: 0, dtype: float64

### i) Qual estação do ano contém a menor média de locações de bicicletas?

In [45]:
# novamente resetando o index:
df.groupby(by='season')['total_count'].mean().sort_values(ascending = True).reset_index()

Unnamed: 0,season,total_count
0,1,111.114569
1,4,198.868856
2,2,208.344069
3,3,236.016237


In [56]:
df.groupby(by='season')['total_count'].mean().sort_values(ascending = True).reset_index().iloc[0]
# 1: inverno

season           1.000000
total_count    111.114569
Name: 0, dtype: float64

### j) Qual horário do dia contém a maior média de locações de bicicletas?

In [21]:
# conferindo se existem as 24 horas do dia
df['hour'].unique()

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16,
       17, 18, 19, 20, 21, 22, 23])

In [65]:
df.groupby(by='hour')['total_count'].mean().sort_values(ascending = False).reset_index().iloc[0]

hour            17.000000
total_count    461.452055
Name: 0, dtype: float64

### k) Qual horário do dia contém a menor média de locações de bicicletas?

In [66]:
df.groupby(by='hour')['total_count'].mean().sort_values(ascending = True).reset_index().iloc[0]

hour           4.000000
total_count    6.352941
Name: 0, dtype: float64

### l) Que dia da semana contém a maior média de locações de bicicletas?

In [24]:
# conferindo se existem os 7 dias da semana
df['weekday'].unique()

array([6, 0, 1, 2, 3, 4, 5])

In [67]:
df.groupby(by='weekday')['total_count'].mean().sort_values(ascending = False).reset_index().iloc[0]
# 4: quinta feira

weekday          4.000000
total_count    196.436665
Name: 0, dtype: float64

### m) Que dia da semana contém a menor média de locações de bicicletas?

In [68]:
df.groupby(by='weekday')['total_count'].mean().sort_values(ascending = True).reset_index().iloc[0]
# 0: domingo

weekday          0.000000
total_count    177.468825
Name: 0, dtype: float64

### n) Às quartas-feiras (`weekday = 3`), qual o horário do dia contém a maior média de locações de bicicletas?

In [76]:
df2 = df[df['weekday'] == 3]
df2.groupby(by='hour')['total_count'].mean().sort_values(ascending = False).reset_index().iloc[0]

hour            17.000000
total_count    513.144231
Name: 0, dtype: float64

### o) Aos sábados (`weekday = 6`), qual o horário do dia contém a maior média de locações de bicicletas?

In [82]:
df3 = df[df['weekday'] == 6]
df3.groupby('hour')['total_count'].mean().sort_values(ascending = False).reset_index().iloc[0]

hour            13.000000
total_count    385.371429
Name: 0, dtype: float64