# Trabalho de Grupo Processamento de Big Data

## Grupo 7

### Turma CDB2
#### Afonso Santos, 111431
#### Afonso Lourenço, 111487
#### Catarina Lameira, 111390
#### Leonor Laborinho, 111287

Base de dados utilizada: Smart meters in London

https://www.kaggle.com/datasets/jeanmidev/smart-meters-in-london

Docente: Adriano Lopes

Maio de 2024

## Índice

1. Introdução
2. Compreensão do problema
3. Compreensão dos dados
4. Preparação dos dados
5. Análise Exploratória
6. Modelação
7. Conclusão

## 1. Introdução

O presente trabalho visa consolidar os conhecimentos adquiridos na unidade curricular de Processamento de Big Data, através da implementação de uma solução computacional robusta para análise de dados em larga escala. O projeto propõe a utilização de ferramentas da plataforma Apache Spark e da linguagem de programação Python para realizar operações de ETL (Extract, Transform, Load), análise exploratória de dados, treino, aplicação de modelos de machine learning e visualização dos resultados. O conjunto de dados escolhido para este estudo foi obtido do portal Kaggle, contendo informações detalhadas sobre medidores inteligentes em Londres e dados meteorológicos diários. A escolha deste domínio de dados permite explorar a correlação entre consumo energético e condições climáticas, oferecendo insights valiosos sobre padrões de uso de energia.

![image.png](attachment:9a3dfd67-e11d-49aa-b774-55f3d7687b8a.png)

## 2. Compreensão do problema

O principal objetivo deste projeto é categorizar os consumidores residenciais de Londres com base na similaridade dos seus comportamentos típicos de consumo de eletricidade, medido por medidores inteligentes ao longo do ano de 2013. A partir desta análise, pretende-se obter uma compreensão aprofundada dos padrões de consumo de energia em diferentes residências. Para alcançar este objetivo, propõe-se a utilização do algoritmo de agrupamento K-means, que permitirá a identificação de padrões e a segmentação de consumidores em clusters distintos. Cada cluster irá representar um grupo de consumidores com características de consumo energético semelhantes, considerando tanto fatores temporais, quanto informações meteorológicas relevantes.


Assim, este estudo visa compreender a relação entre o consumo de energia e as condições meteorológicas em Londres, com o intuito de identificar como variáveis climáticas, como a temperatura, a humidade e a precipitação, influenciam o consumo de energia residencial. A análise detalhada destes padrões fornecerá informações relevantes, que poderão eventualmente ser utilizadas para melhorar a eficiência energética e desenvolver estratégias de gestão de energia mais sustentáveis e eficazes. 


Para uma melhor compreensão do problema, definiram-se algumas questões essenciais, que irão orientar a análise:

1. **Como é que podem ser agrupados os consumidores residenciais com base nos seus comportamentos típicos de consumo de eletricidade?**
   - **Objetivo:** Implementar o algoritmo K-means para agrupar os consumidores em clusters com base na similaridade dos seus padrões de consumo de energético.
      
2. **Quantos clusters ou grupos distintos de consumidores podem ser identificados?**
   - **Objetivo:** Determinar o número ideal de clusters que melhor representa a variabilidade nos comportamentos de consumo.

3. **Quais são as características típicas de cada grupo de consumidores?**
   - **Objetivo:** Analisar os padrões de consumo de eletricidade em cada cluster identificado, identificando características comuns que os distinguem uns dos outros.

4. **Como é que os fornecedores de energia podem usar estas informações para compreender melhor os consumidores e tomar decisões mais informadas?**
   - **Objetivo:** Discutir e propor potenciais aplicações práticas dos clusters identificados, como segmentação de mercado, personalização de serviços ou desenvolvimento de estratégias para gerir a energia de forma mais eficiente.

Ao longo do projeto, será realizada uma análise detalhada dos dados, para que, na fase de modelação, seja possível responder a estas questões, proporcionando uma visão clara dos padrões de consumo e da influência dos fatores climáticos e socioeconómicos.


## 3. Compreensão dos dados

Para a realização deste trabalho, utilizou-se uma base de dados obtida do portal Kaggle, intitulada “Smart Meters in London” (https://www.kaggle.com/datasets/jeanmidev/smart-meters-in-london). 

Este dataset abrange diversas categorias de informações essenciais para a análise proposta. Inclui registos de consumo de eletricidade recolhidos por medidores inteligentes instalados em várias residências de Londres, capturados em intervalos de 30 minutos. Isto permite obter variações sazonais e diárias no consumo de energia, podendo identificar os momentos de maior e menor demanda de eletricidade nas residências. Além disso, a base de dados contém informações diárias sobre as condições climáticas, incluindo variáveis como temperatura, humidade e precipitação. Estes dados são essenciais para investigar a relação entre o consumo de energia e as condições meteorológicas, permitindo compreender como fatores como o clima frio ou quente, a presença de chuva ou neve, e a humidade podem influenciar os padrões de uso de energia. A base de dados também apresenta informações adicionais sobre os agregados familiares, como o tipo de tarifa energética (Standard ou Time-of-Use) e a classificação socioeconómica das áreas onde as residências estão localizadas. Estas informações permitem a análise de como fatores sociais e económicos influenciam o uso de energia. Por fim, outro aspeto relevante da base de dados é a inclusão de detalhes sobre a classificação Acorn, que caracteriza residências com base em dados sociodemográficos e comportamentais, categorizando-as em diferentes grupos com perfis semelhantes de consumo de energia. Esta categorização facilita uma análise segmentada dos padrões de consumo entre diferentes tipos de residências, permitindo identificar grupos de consumidores com comportamentos de uso semelhantes. 


## 4. Preparação dos dados

A fase de preparação dos dados é uma etapa fundamental para garantir que os dados estão adequados para a modelação. Esta fase inclui a importação dos datasets, a transformação dos dados, a identificação e correção de inconsistências e a criação de novas variáveis.

Inicialmente, foram escolhidas e importadas quatro bases de dados presentes em "Smart Meters in London", sendo elas: dados de consumo energético medido a cada meia hora (*halfhourly_dataset*), informações sobre os agregados familiares (*informations_households*), detalhes sobre a classificação socioeconômica (*acorn_details*) e dados meteorológicos horários (*weather_hourly*). Estas bases de dados foram armazenadas em formato Parquet devido à sua eficiência e de forma a facilitar o uso das mesmas nas próximas etapas do trabalho.

Após a importação e armazenamento dos dados, realizaram-se algumas transformações para garantir a consistência e integridade das informações. As datas foram convertidas para o formato *timestamp*, permitindo a extração de componentes temporais como ano, mês, dia e hora, que facilitarão futuras análises de padrões ao longo do tempo. Além disso, as variáveis categóricas foram convertidas para os tipos de dados apropriados.

Foram adicionadas novas variáveis para enriquecer a análise, como indicadores que classificam os dados como sendo de fins de semana ou não, e que identificam o mês, o dia da semana, a hora do dia e o período do dia em que a medição do consumo energético foi realizada. 

De forma a simplificar a análise optou-se por focar nos aspetos mais relevantes, escolhendo utilizar na modelação apenas as seguintes variáveis: 
 

- Identificação do Consumidor (`LCLid`): Um identificador único para cada residência/consumidor;
- Data e Hora (`time`): Registo de data e hora para cada medição de consumo, permitindo a análise temporal e a identificação de padrões de uso ao longo do dia e das estações do ano.
- Consumo de Energia (`energy(kWh/hh)`): Quantidade de energia consumida em kilowatt-hora, medida em intervalos de meia hora. Fornece uma visão detalhada do uso de energia em períodos curtos e permite a deteção de picos de consumo.
- Tipo de Tarifa (`stdorToU`): Informação sobre o tipo de tarifa elétrica aplicada, que pode ser uma tarifa padrão (Standard) ou uma tarifa diferenciada por horário de uso (Time-of-Use). É crucial para entender como diferentes estruturas tarifárias influenciam o consumo.
- Segmentação Demográfica (`Acorn` e `Acorn_grouped`): Classificação socioeconômica e demográfica das residências com base no sistema ACORN, que categoriza os consumidores em diferentes grupos de acordo com características econômicas e sociais. Acorn fornece uma categorização detalhada, enquanto Acorn_grouped agrupa essas categorias em segmentos mais amplos.
- Temperatura (`temperature`): Temperatura ambiente em graus Celsius, que pode influenciar diretamente o consumo de energia para aquecimento ou arrefecimento.
- Temperatura aparente (`apparentTemperature`): Reflete a sensação térmica, considerando fatores como vento e humidade, que influenciam o consumo de energia.
- Tipo de precipitação (`precipType`): Chuva ou neve, que pode afetar o comportamento de consumo de energia, especialmente para aquecimento e isolamento térmico.
- Humidade (`humidity`): Humidade relativa do ar, que pode influenciar a necessidade de climatização e, consequentemente, o consumo de energia.
- Resumo das condições climáticas (`summary`): Fornece uma descrição geral do tempo em cada registo, como "Ensolarado" ou "Nublado".
- Período do dia (`period_of_day`): "Morning", "Noon", "Evening" ou "Night".
- Fim de semana (`weekend`): Indica se o dia em que foi realizado o consumo era um fim de semana ou não.
- Mês (`month`): Mês em que foi realizada a medição do consumo.
- Dia (`day`): Dia em que foi realizada a medição do consumo.
- Hora (`hour`): Hora em que foi realizada a medição do consumo. 

A verificação e correção de inconsistências garantiram que os dados estavam limpos e prontos para a análise exploratória. A escolha destas variáveis garantiu que a análise capturasse os principais fatores que influenciam o consumo de energia, permitindo uma compreensão detalhada dos padrões de uso de energia nas residências.

## 5. Análise Exploratória

A fase de análise exploratória dos dados desempenha um papel crucial na compreensão e identificação de padrões nos dados de consumo de energia residencial em Londres durante o ano de 2013. Esta etapa visa não só compreender quais as variáveis que influenciam significativamente o uso de energia, mas também preparar os dados para subsequentes etapas de modelação.

A análise começou com o carregamento e visualização inicial dos dados, de forma a verificar a estrutura da base de dados e identificar as variáveis presentes na mesma. Foi constatado que, tal como foi definido na fase de preparação dos dados, a base de dados contém 93024229 observações e 16 variáveis: ‘LCLid’ (Identificador do consumidor), ‘time’ (Data e hora da medição do consumo), ‘energy(kWh/hh)’ (Consumo de energia), ‘stdorToU’ (Tipo de tarifa), ‘Acorn’ e ‘Acorn_grouped’ (Classificação socioeconômica), ‘temperature’ (Temperatura), ‘apparentTemperature’ (Temperatura aparente), ‘precipType’ (Tipo de precipitação), ‘humidity’ (Humidade), ‘summary’ (Resumo das condições climáticas), ‘period_of_day’ (Período do dia em que foi realizada a medição do consumo), ‘weekend’ (Se a medição do consumo foi realizada no fim de semana ou não), ‘month’ (Mês em que foi realizada a medição do consumo), ‘day’ (Dia em que foi realizada a medição do consumo) e ‘hour’ (Hora em que foi realizada a medição do consumo). 

Esta etapa inicial é fundamental para assegurar a qualidade dos dados e identificar e corrigir possíveis inconsistências. Foram realizadas algumas transformações nos dados, como a conversão das variáveis categóricas para o tipo apropriado, garantindo que os dados estão no formato adequado para as análises seguintes. De seguida, realizou-se uma segmentação temporal dos dados, onde houve a extração de componentes como o ano, o mês, o dia, a hora e o dia da semana em que foi realizada a medição do consumo energético. Isto permitirá, em etapas posteriores, efetuar uma análise detalhada das variações no consumo de energia ao longo do tempo, o que é essencial para identificar padrões sazonais e diários no comportamento dos consumidores.

Primeiramente, foi estudada a variação do consumo de energia ao longo dos meses do ano. Observou-se que nos meses mais frios, como janeiro e dezembro, o consumo de energia é significativamente maior em comparação com os meses mais quentes, como julho e agosto. Este padrão está diretamente relacionado com as necessidades de aquecimento durante o inverno, que impulsionam o consumo de energia. Além disso, a análise por hora do dia revelou que o consumo de energia é mais baixo durante a noite e aumenta significativamente entre as 17h e as 21h, possivelmente devido ao aumento das atividades domésticas e à maior necessidade de iluminação e aquecimento durante a noite.

A análise das tarifas, a partir da variável "stdorToU" (tarifa padrão ou tarifa por uso), revelou que os consumidores que utilizam a tarifa padrão ("Std") tendem a ter um consumo médio de energia mais alto em comparação com aqueles que utilizam a tarifa por uso ("ToU"). Este resultado pode ser explicado pelo facto de que a tarifa por uso incentiva os consumidores a economizar energia durante os períodos de maior custo, levando a um comportamento de consumo mais consciente e eficiente.

A variável "Acorn" foi utilizada para classificar as áreas residenciais em diferentes categorias socioeconómicas. Esta análise mostrou que há uma variação significativa no consumo médio de energia entre as diferentes categorias. Por exemplo, a categoria "ACORN-A", que geralmente representa áreas onde as infraestruturas são de maior qualidade e os moradores apresentam maior capacidade financeira, apresentou o maior consumo médio de energia. Em contraste, a categoria "ACORN-P", correspondente a áreas onde os moradores têm menor rendimento económico, teve o menor consumo médio de energia. Estas diferenças refletem as variações nos estilos de vida e nos padrões de consumo entre diferentes grupos socioeconómicos, sugerindo que, como esperado, em áreas onde os residentes possuem melhores condições financeiras, o consumo de energia é mais elevado em comparação com áreas cujos moradores têm menor poder económico.

A análise das variáveis climáticas revelou uma correlação negativa entre a temperatura e o consumo de energia, indicando que o consumo de energia tende a diminuir à medida que a temperatura aumenta. Este comportamento é esperado, pois, como referido anteriormente, em temperaturas mais altas há menor necessidade de aquecimento. Por outro lado, a análise realizada entre a humidade e o consumo de energia revelou que uma maior humidade está associada a um maior consumo de energia. Isto pode indicar que em condições de maior humidade, a demanda por energia, possivelmente para sistemas de ventilação ou desumidificação, aumenta.

A variável "precipType", que categoriza os tipos de precipitação como neve, chuva ou ausência de precipitação, mostrou que os dias com neve apresentam um consumo médio de energia mais alto, seguido pelos dias de chuva. Isto pode ser atribuído ao aumento das necessidades de aquecimento e iluminação em dias de condições climáticas adversas. Por fim, a análise da variável "summary", que resume as condições climáticas diárias, revelou variações no consumo de energia associadas a diferentes condições meteorológicas. Constatou-se que, em dias nublados e chuvosos, o consumo de energia tende a ser maior, provavelmente devido ao uso intensificado de iluminação e aquecimento para compensar a falta de luz natural e as temperaturas mais baixas. Em contraste, em dias ensolarados, o consumo de energia é geralmente menor, pois há maior disponibilidade de luz natural e temperaturas mais amenas, reduzindo a necessidade de aquecimento e iluminação artificial.

Com base nas análises realizadas, concluiu-se que fatores como o clima, tipo de tarifa e características socioeconómicas têm um impacto significativo no consumo de energia. Estas conclusões são fundamentais para a subsequente fase de modelação, onde se planeia aplicar técnicas de clustering para agrupar consumidores com padrões de consumo semelhantes. A identificação de tais padrões permitirá o desenvolvimento de estratégias personalizadas para melhorar a eficiência energética e a gestão de recursos.


## 6. Modelação

Nesta fase, o objetivo foi agrupar consumidores residenciais com base nos seus comportamentos típicos de consumo de eletricidade. Para tal, foi implementado o algoritmo K-means, com o intuito de identificar clusters de consumidores que apresentassem padrões de consumo similares. A análise foi dividida em duas fases principais: a fase de treino, descrita no notebook `models_train`, e a fase de teste e validação, descrita no notebook `models_test`.

### Fase de Treino (Notebook: models_train)

**1. Preparação dos Dados:**
   - Os dados foram lidos e transformados, com a inclusão de diversas estatísticas agregadas de consumo de energia.
   - As colunas selecionadas para análise incluíram médias, máximos e mínimos de consumo diário, bem como médias de consumo por períodos do dia (manhã, tarde, noite).(`Consume_mean`, `Consume_max`, `Consume_min`, `Consume_mean_Morning`, `Consume_mean_Noon`, `Consume_mean_Evening`, `Consume_mean_Night`, `Min_Day` e `Max_Day`)

**2. Normalização dos Dados:**
   - Utilizou-se o `VectorAssembler` para combinar as colunas selecionadas numa única coluna de features.
   - Aplicou-se o `MinMaxScaler` para normalizar os dados, garantindo que todas as features tivessem valores entre 0 e 1.

**3. Determinação do Número de Clusters:**
   - Foi realizada uma análise do índice de Silhouette para determinar o número ideal de clusters.
   - Testaram-se valores de k entre 2 e 10, sendo que o valor de k=3 apresentou o melhor equilíbrio entre variabilidade explicada e simplicidade do modelo.
![image.png](attachment:a94cdff4-1236-4b5b-a3af-56ec298c9fa2.png)

**4. Criação e Treino do Pipeline:**
   - **Definição das Etapas do Pipeline:**
     - `preprocessing_stage`: Utiliza o VectorAssembler para combinar as colunas selecionadas (Consume_mean, Consume_max, Consume_min, Consume_mean_Morning, Consume_mean_Noon, Consume_mean_Evening, Consume_mean_Night, Min_Day e Max_Day) numa única coluna de características chamada 'features'.
     - `scaling_stage`: Utiliza o MinMaxScaler para normalizar os dados na coluna 'features', resultando numa nova coluna chamada 'scaled_features'.
     - `clustering_stage`: Configura o modelo K-Means para agrupar os dados com base nas características normalizadas, definindo o número de clusters (k) como 3.
   - **Construção do Pipeline:**
     - `pipeline`: Encadeia as etapas de pré-processamento, normalização e agrupamento.
   - **Treino do Pipeline:**
     - `pipeline_model`: Treina o pipeline utilizando os dados de treino, passando por todas as etapas definidas para gerar os clusters de consumidores.
   - **Salvar o Modelo Treinado:**
     - `pipeline_model.save('clustering_model')`: Guarda o modelo treinado, que inclui todas as etapas do pipeline, para uso na fase de teste.

### Fase de Teste e Validação (Notebook: models_test)

**1. Preparação dos Dados de Validação:**
   - Os dados de validação foram lidos e preparados de forma semelhante aos dados de treino.
   - Aplicaram-se transformações e cálculos estatísticos para extrair as mesmas features utilizadas na fase de treino.

**2. Aplicação do Modelo Treinado:**
   - O modelo K-means treinado foi carregado e aplicado aos dados de validação.
   - As previsões de cluster foram geradas para cada consumidor na amostra de validação.

**3. Análise dos Clusters:**
   - Foram extraídos e analisados os centros dos clusters, proporcionando uma visão clara das características típicas de cada grupo.
   - Identificaram-se três clusters principais:
     - **Cluster 1:** Consumidores com baixo consumo médio e picos moderados durante o dia.
     - **Cluster 2:** Consumidores com alto consumo médio e picos de consumo mais acentuados em determinados períodos do dia.
     - **Cluster 3:** Consumidores com consumo médio e padrões mais uniformes ao longo do dia.

**4. Interpretação dos Resultados:**
   - A análise dos clusters permite compreender melhor os diferentes perfis de consumo entre os consumidores residenciais.
   - Estas informações podem ser utilizadas por fornecedores de energia para segmentação de mercado, personalização de serviços e desenvolvimento de estratégias de gestão energética mais eficientes.

## 7. Conclusão
Através da implementação do algoritmo K-means e da análise detalhada dos padrões de consumo, foi possível identificar três grupos distintos de consumidores residenciais com comportamentos de consumo de eletricidade característicos. Estas informações são valiosas para os fornecedores de energia, permitindo uma melhor compreensão dos clientes e uma tomada de decisão mais informada. A segmentação baseada em padrões de consumo pode levar a estratégias mais eficazes de gestão de energia e melhoria dos serviços oferecidos.

Relativamente às questões que o grupo se propôs responder no início do trabalho, as respostas obtidas foram as seguintes:

1. **Como é que podem ser agrupados os consumidores residenciais com base nos seus comportamentos típicos de consumo de eletricidade?**
   Podemos agrupar os consumidores residenciais com base nos seus padrões de consumo de eletricidade utilizando o algoritmo K-means. Este algoritmo divide os consumidores em clusters com base na similaridade dos seus padrões de consumo, permitindo uma segmentação eficaz.

2. **Quantos clusters ou grupos distintos de consumidores podem ser identificados?**
   Utilizando o método do cotovelo e o índice de Silhouette, determinamos o número ideal de clusters que melhor representa a estrutura dos dados. No nosso caso, identificamos que o número ótimo de clusters é 3.

3. **Quais são as características típicas de cada grupo de consumidores?**
   Ao analisar os clusters identificados, percebemos que cada grupo de consumidores apresenta padrões de consumo únicos. No Cluster 1, observamos um perfil de consumidores com baixo consumo médio, mas com picos moderados durante o dia. No Cluster 2, encontramos consumidores com um consumo médio mais elevado, caracterizado por picos de consumo mais acentuados em determinados períodos do dia. Por fim, no Cluster 3, identificamos consumidores com consumo médio e padrões de consumo mais uniformes ao longo do dia.

4. **Como é que os fornecedores de energia podem usar estas informações para compreender melhor os consumidores e tomar decisões mais informadas?**
   Os fornecedores de energia podem utilizar estas informações para melhor compreender as necessidades e preferências dos consumidores. Por exemplo, podem personalizar as suas estratégias de marketing e oferta de serviços com base nos diferentes perfis de consumo identificados em cada grupo. Além disso, podem desenvolver estratégias para gerir a energia de forma mais eficiente. Como por exemplo, incentivando a adoção de medidas de eficiência energética específicas para cada grupo. Desta forma, os fornecedores de energia podem tomar decisões mais informadas e eficazes para melhor atender às necessidades dos consumidores.