# Análise Exploratória

## Bibliotecas

In [4]:
import sys
import os

project_root = os.path.abspath(os.path.join(os.getcwd(), '..'))
if project_root not in sys.path:
    sys.path.append(project_root)

In [5]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

from utils.date import get_season

## Leitura dos dados

In [6]:
df = pd.read_csv('../data/data.csv')
total_registros = df.shape[0]

In [7]:
# Primeiras linhas do dataset
df.head()

Unnamed: 0,instant,dteday,season,yr,mnth,hr,holiday,weekday,workingday,weathersit,temp,atemp,hum,windspeed,casual,registered,cnt
0,1,2011-01-01,1.0,0,1.0,0.0,0,6.0,0,1.0,0.24,0.2879,0.81,0.0,3,13,16
1,2,2011-01-01,1.0,0,1.0,1.0,0,6.0,0,1.0,0.22,0.2727,0.8,0.0,8,32,40
2,3,2011-01-01,1.0,0,1.0,2.0,0,6.0,0,1.0,0.22,0.2727,0.8,0.0,5,27,32
3,4,2011-01-01,1.0,0,1.0,3.0,0,6.0,0,1.0,1.216284,0.2879,0.75,0.0,3,10,13
4,5,2011-01-01,1.0,0,1.0,4.0,0,6.0,0,,0.24,,0.75,0.0,0,1,1


In [8]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 17379 entries, 0 to 17378
Data columns (total 17 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   instant     17379 non-null  int64  
 1   dteday      17379 non-null  object 
 2   season      16511 non-null  float64
 3   yr          17379 non-null  int64  
 4   mnth        16511 non-null  float64
 5   hr          16511 non-null  float64
 6   holiday     17379 non-null  int64  
 7   weekday     16511 non-null  float64
 8   workingday  17379 non-null  int64  
 9   weathersit  16511 non-null  float64
 10  temp        16511 non-null  float64
 11  atemp       16511 non-null  float64
 12  hum         16511 non-null  float64
 13  windspeed   16511 non-null  float64
 14  casual      17379 non-null  int64  
 15  registered  17379 non-null  int64  
 16  cnt         17379 non-null  int64  
dtypes: float64(9), int64(7), object(1)
memory usage: 2.3+ MB


Percebe-se que a coluna de data está como string (`object`). Essa variável precisará ser tratada nos próximos passos.

In [9]:
# Resumo estatístico
df.describe().T

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
instant,17379.0,8690.0,5017.0295,1.0,4345.5,8690.0,13034.5,17379.0
season,16511.0,2.503119,1.105889,1.0,2.0,3.0,3.0,4.0
yr,17379.0,0.502561,0.500008,0.0,0.0,1.0,1.0,1.0
mnth,16511.0,6.53752,3.435875,1.0,4.0,7.0,10.0,12.0
hr,16511.0,11.543516,6.913205,0.0,6.0,12.0,18.0,23.0
holiday,17379.0,0.02877,0.167165,0.0,0.0,0.0,0.0,1.0
weekday,16511.0,3.004421,2.007899,0.0,1.0,3.0,5.0,6.0
workingday,17379.0,0.682721,0.465431,0.0,0.0,1.0,1.0,1.0
weathersit,16511.0,1.424626,0.638932,1.0,1.0,1.0,2.0,4.0
temp,16511.0,0.513318,0.268215,0.02,0.34,0.5,0.66,4.898534


A variável da contagem total, `cnt`, possui uma média de aproximadamente 189.5, porém o desvio padrão é muito alto (181.4), o que indica uma grande variação da demanda. Além disso, a mediana é 142, diferente da média e que indica uma leve assimetria na distribuição dessa variável.

## Limpeza dos dados

In [10]:
# Verificando linhas com dados faltantes
df.isnull().sum()

instant         0
dteday          0
season        868
yr              0
mnth          868
hr            868
holiday         0
weekday       868
workingday      0
weathersit    868
temp          868
atemp         868
hum           868
windspeed     868
casual          0
registered      0
cnt             0
dtype: int64

In [11]:
total_linhas_com_nan =df.isnull().any(axis=1).sum()
print(f"O dataset possui {total_linhas_com_nan} linhas com dados faltantes")
print(f"{total_linhas_com_nan/total_registros*100:.2f}% das linhas do dataset apresentam dados faltantes")

O dataset possui 6385 linhas com dados faltantes
36.74% das linhas do dataset apresentam dados faltantes


Temos **36.74% de dados faltantes** neste dataset. Não há valores nulos no total de bicicletas alugadas, e a maioria das variáveis com valores faltantes envolvem medição climática.

Uma alternativa para a correção dessas colunas é a imputação de dados com a média ou mediana, porém nesse caso não é uma boa estratégia. Preencher colunas como `hr`, `temp` com a média ou mediana pode inserir ruído no dataset, além de distorcer preditores essenciais na modelagem.

In [12]:
df['dteday'] = pd.to_datetime(df['dteday'])

# preenchendo dia da semana e mês com base na data
df['weekday'] = df['dteday'].dt.dayofweek
df['mnth'] = df['dteday'].dt.month

In [13]:
# vendo a data min e max por estação em um ano especifico
df_201x = df[df['dteday'].dt.year == 2012]
df_min_max_201x = df_201x.groupby('season').agg({
    'dteday': ['min', 'max']
}).reset_index()

df_min_max_201x

Unnamed: 0_level_0,season,dteday,dteday
Unnamed: 0_level_1,Unnamed: 1_level_1,min,max
0,1.0,2012-01-01,2012-12-31
1,2.0,2012-03-21,2012-06-20
2,3.0,2012-06-21,2012-09-22
3,4.0,2012-09-23,2012-12-20


Sabendo que no Hemisfério Norte:

- **Primavera**: Março a Junho
- **Verão**: Junho a Setembro
- **Outono**: Setembro a Dezembro
- **Inverno**: Dezembro a Março

E no Hemisfério Sul:

- **Verão**: Dezembro a Março
- **Outono**: Março a Junho
- **Inverno**: Junho a Setembro
- **Primavera**: Setembro a Dezembro

Vemos que a estação de acordo com a label descrita no documento do case não está de acordo com **nenhum** hemisfério. Mas podemos preencher os dados faltantes com base com base nas linhas em que a estação não é nula.

Já a coluna `hr`, por não ter essa informação em datetime, não será possível preencher

In [14]:
# em season, preenche apenas as linhas que possue valores nulos
df.loc[df['season'].isnull(), 'season'] = df.loc[df['season'].isnull(), 'dteday'].apply(get_season)

In [15]:
# Criando labels para variáveis categóricas para uma melhor visualização
df['season_label'] = df['season'].map({1: 'Primavera', 2: 'Verão', 3: 'Outono', 4: 'Inverno'})
df['weekday_label'] = df['weekday'].map({0: 'Dom', 1: 'Seg', 2: 'Ter', 3: 'Qua', 4: 'Qui', 5: 'Sex', 6: 'Sáb'})
df['weathersit_label'] = df['weathersit'].map({
    1: 'Céu Limpo',
    2: 'Neblina/Nuvens',
    3: 'Chuva Leve',
    4: 'Chuva Intensa'
})
df['yr_label'] = df['yr'].map({0: '2011', 1: '2012'})

In [None]:
# removendo linhas com dados faltantes
# não tratamos colunas de medição
df = df.dropna().copy()
print(f"\nTamanho do DataFrame após a limpeza: {df.shape[0]} linhas")

## Análise univariada

## Análise bivariada

## Análise multivariada