# Atividade Somativa 1

Para essa atividade foi escolhido o dataset **seoul_bike_data**. Ele contém dados horários sobre o aluguel de bicicletas públicas em Seul, capital da Coreia do Sul, cobrindo um período de um ano (de 1º de dezembro de 2017 a 30 de novembro de 2018). 

## Visão Geral do Dataset
O objetivo principal ao usar este dataset é prever a demanda por bicicletas alugadas (Rented Bike Count) com base nas outras variáveis disponíveis.

# Carregando o Dataset

Vamos carregar o dataset em um dataframe e analisar seus features.

O dataset é composto por 8.760 linhas (24 horas por dia × 365 dias) e 14 colunas. As colunas são:

| Nome da Coluna | Descrição | Tipo de Dado | Exemplo |
| :--- | :--- | :--- | :--- |
| **DateTime** | A data e hora do registro. | Objeto/Texto | 01/12/20172017-01-12 00:00:00 |
| **Day** | Dia do registro. | Numérico (Inteiro) | 01|
| **Weekday** | Dia da semana. | Numérico (Inteiro) | 7 |
| **Hour** | A hora do dia (0 a 23). | Numérico (Inteiro) | 0, 1, 2, ... |
| **Rented Bike Count** | **(Variável Alvo)** O número de bicicletas alugadas em uma determinada hora. | Numérico (Inteiro) | 254 |
| **Temperature(°C)** | A temperatura em graus Celsius. | Numérico (Float) | -5.2 |
| **Humidity(%)** | A umidade relativa do ar em porcentagem. | Numérico (Inteiro) | 37 |
| **Wind speed (m/s)** | A velocidade do vento em metros por segundo. | Numérico (Float) | 2.2 |
| **Visibility (10m)** | A visibilidade em uma escala de 10 metros (ex: 2000 significa 20km). | Numérico (Inteiro) | 2000 |
| **Dew point temp(°C)** | A temperatura do ponto de orvalho em graus Celsius. | Numérico (Float) | -17.6 |
| **Solar Radiation (MJ/m2)**| A radiação solar. Geralmente é zero durante a noite. | Numérico (Float) | 0.0 |
| **Rainfall(mm)** | A quantidade de chuva em milímetros. | Numérico (Float) | 0.0 |
| **Snowfall (cm)** | A quantidade de neve em centímetros. | Numérico (Float) | 0.0 |

## Bibliotecas 
Vamos começar importando as blibliotecas

In [2]:
import pandas as pd # importando o pandas para manipularmos o dataset
from ydata_profiling import ProfileReport # importando o pandas-profiling para fazer o profile do dataset


In [6]:
%matplotlib inline

Agora vamos importar o dataset para um dataframe

In [3]:
df = pd.read_excel('seoul_bike_data.xlsx')
    
print("Amostra dos dados (primeiras 5 linhas):")
display(df.head())

print("\nInformações gerais sobre o DataFrame:")
df.info()

#profile = ProfileReport(df)
#profile.to_file("relatorio.html")

Amostra dos dados (primeiras 5 linhas):


Unnamed: 0,DateTime,Day,Weekday,Hour,Rented Bike Count,Temperature(°C),Humidity(%),Wind speed (m/s),Visibility (10m),Dew point temperature(°C),Solar Radiation (MJ/m2),Rainfall(mm),Snowfall (cm)
0,2017-01-12 00:00:00,12,5,0,254,-5.2,37,2.2,2000,-17.6,0.0,0.0,0.0
1,2017-01-12 01:00:00,12,5,1,204,-5.5,38,0.8,2000,-17.6,0.0,0.0,0.0
2,2017-01-12 02:00:00,12,5,2,173,-6.0,39,1.0,2000,-17.7,0.0,0.0,0.0
3,2017-01-12 03:00:00,12,5,3,107,-6.2,40,0.9,2000,-17.6,0.0,0.0,0.0
4,2017-01-12 04:00:00,12,5,4,78,-6.0,36,2.3,2000,-18.6,0.0,0.0,0.0



Informações gerais sobre o DataFrame:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 8760 entries, 0 to 8759
Data columns (total 13 columns):
 #   Column                     Non-Null Count  Dtype  
---  ------                     --------------  -----  
 0   DateTime                   8760 non-null   object 
 1   Day                        8760 non-null   int64  
 2   Weekday                    8760 non-null   int64  
 3   Hour                       8760 non-null   int64  
 4   Rented Bike Count          8760 non-null   int64  
 5   Temperature(°C)            8760 non-null   float64
 6   Humidity(%)                8760 non-null   int64  
 7   Wind speed (m/s)           8760 non-null   float64
 8   Visibility (10m)           8760 non-null   int64  
 9   Dew point temperature(°C)  8760 non-null   float64
 10  Solar Radiation (MJ/m2)    8760 non-null   float64
 11  Rainfall(mm)               8760 non-null   float64
 12  Snowfall (cm)              8760 non-null   float64
dtypes: float6

## Seleção de Atributos
Ao analisando a tabela de correlação estre as variáveis com a ferramenta **ydata_profiling**, foi possível notar o seguinte:

### Análise de Redundância (Multicolinearidade)

Este é o primeiro passo: encontrar atributos que medem quase a mesma coisa.

*   **`Temperature(°C)` vs. `Dew point temperature(°C)`: Correlação de 0.912**
    *   **Análise:** Este é um valor de correlação **extremamente alto**. Como esperado, a temperatura e a temperatura do ponto de orvalho estão fortemente ligadas. Manter ambas no modelo é redundante e pode confundir alguns algoritmos.
    *   **Ação Recomendada:** **remover uma dessas duas colunas**. Mas qual? Para decidir, olhamos a correlação de cada uma com a nossa variável alvo, `Rented Bike Count`.
        *   Correlação de `Temperature` com `Rented Bike Count` = **0.565**
        *   Correlação de `Dew point temperature` com `Rented Bike Count` = **0.374**
    *   **Decisão:** A `Temperature(°C)` tem uma correlação muito mais forte com o número de bicicletas alugadas. Portanto, **mantenha `Temperature(°C)` e removemos `Dew point temperature(°C)`**.

### Análise do Poder Preditivo (Relação com `Rented Bike Count`)

Agora, vamos focar na linha/coluna `Rented Bike Count` para ver quais atributos são os melhores preditores.

**Correlações Positivas (Quando estes aumentam, a demanda tende a aumentar):**

*   **`Temperature(°C)` (0.565):** Esta é a **correlação mais forte** com a variável alvo. Confirma a intuição de que a demanda por bicicletas aumenta significativamente com a temperatura. Este é o seu preditor mais importante.
*   **`Hour` (0.389):** Uma correlação positiva forte. Isso indica que, ao longo do dia (das 0h às 23h), há uma tendência geral de aumento na demanda, provavelmente devido aos picos da tarde/noite. A hora do dia é um preditor crucial.
*   **`Solar Radiation (MJ/m2)` (0.382):** Também uma correlação forte. Mais radiação solar significa um dia ensolarado e agradável, o que incentiva o uso de bicicletas.
*   **`Visibility (10m)` (0.176):** Correlação positiva, mas mais fraca. Melhor visibilidade (menos neblina) está associada a um leve aumento no número de aluguéis.
*   **`Wind speed (m/s)` (0.148):** Correlação positiva fraca. Isso é um pouco contraintuitivo, pois esperaríamos que ventos fortes desincentivassem o ciclismo. Essa correlação fraca pode indicar uma relação não-linear (ex: um pouco de vento é agradável, mas muito vento é ruim).

**Correlações Negativas (Quando estes aumentam, a demanda tende a diminuir):**

*   **`Rainfall(mm)` (-0.282):** Uma correlação negativa moderada. Como esperado, quando chove, as pessoas alugam menos bicicletas.
*   **`Snowfall (cm)` (-0.221):** Correlação negativa moderada. Similar à chuva, a neve também desincentiva o uso de bicicletas.
*   **`Humidity(%)` (-0.221):** Correlação negativa moderada. Alta umidade (clima abafado ou úmido) está associada a uma menor demanda.

**Correlações Próximas de Zero (Pouco Poder Preditivo Linear):**

*   **`Day` (0.067)** e **`Weekday` (0.062):** Essas colunas têm uma correlação linear muito fraca com a demanda. Isso **não significa que elas são inúteis!** Significa apenas que a relação não é uma linha reta simples (ex: a demanda não aumenta linearmente de segunda para domingo). O dia da semana (`Weekday`) é quase certamente um preditor muito importante devido à diferença de padrão entre dias úteis (picos de deslocamento) e fins de semana (uso para lazer). Modelos baseados em árvores (como RandomForest) conseguirão capturar essa relação complexa.

### Resumo e Próximos Passos

1.  **Ação Imediata:** Remover a coluna `Dew point temperature(°C)` do dataset para eliminar a redundância.
2.  **Preditores Mais Fortes:** Os atributos mais importantes são `Temperature(°C)`, `Hour` e `Solar Radiation (MJ/m2)`.
3.  **Preditores Relevantes:** `Rainfall(mm)`, `Snowfall (cm)` e `Humidity(%)` também são importantes e devem ser mantidos.
4.  **Não se Engane com Correlação Baixa:** Mantemos `Weekday` e `Hour`. Apesar da correlação linear baixa, eles contêm padrões cíclicos (diários e semanais) que são fundamentais para o problema e serão capturados por modelos mais sofisticados.

## Normalização
Algoritmos que não são sensíveis à escala das features não exigem normalização.
Por que não é necessário?
Esses modelos tomam decisões com base em regras ou divisões nos dados, e a escala de uma feature não afeta onde essas divisões são feitas.

### Symbolists (Simbolistas):
Árvores de Decisão, Random Forest, XGBoost, LightGBM: Esta é a família de algoritmos mais forte para nosso problema. Eles funcionam fazendo "perguntas" sobre os dados, como "A Temperature é maior que 15°C?". Essa pergunta funciona da mesma forma, não importa se as outras features estão em escalas diferentes. Eles são imunes à escala das features.


# Regressão
A regressão é usada para prever um valor numérico contínuo, neste caso, o número de bicicletas alugadas.
Como se aplica aqui? Você usa os outros atributos (hora, temperatura, umidade, estação do ano, etc.) como features (variáveis de entrada) para treinar um modelo de regressão. O objetivo do modelo é aprender a relação matemática entre essas features e o Rented Bike Count.
