https://www.kaggle.com/datasets/hemanthsai7/solar-panel-dust-detection

### Storytelling: **A Jornada pela Eficiência Energética**

---

Imagine um mundo onde a energia solar é a principal fonte de eletricidade, alimentando nossas casas, cidades e indústrias de forma limpa e sustentável. Esse futuro parece promissor, mas há um desafio que muitas vezes passa despercebido: **a eficiência das placas solares**.

As placas solares são incríveis em transformar luz solar em energia elétrica, mas sua eficiência pode ser drasticamente reduzida por algo tão simples quanto **poeira acumulada**. Um painel empoeirado pode gerar até **30% menos energia**, impactando diretamente a sustentabilidade e a economia de projetos de energia solar. Agora pense: como podemos identificar placas solares que precisam de limpeza sem depender de inspeções manuais demoradas e caras?

Aqui entra a tecnologia. Com o poder da **inteligência artificial** e do **aprendizado profundo (deep learning)**, podemos criar sistemas capazes de analisar imagens de placas solares e determinar automaticamente se estão limpas ou empoeiradas. Esse tipo de solução não apenas melhora a eficiência dos sistemas solares, mas também reduz custos operacionais e promove uma maior adoção de energias renováveis.

---

### **O Desafio**

Você, como cientista de dados em formação, está prestes a embarcar em um projeto que pode impactar diretamente o futuro da energia limpa. Seu objetivo é desenvolver um modelo de classificação de imagens que diferencie placas solares limpas de placas empoeiradas. Para isso, você usará **PyTorch**, uma das bibliotecas mais poderosas para aprendizado profundo.

Ao longo desta jornada, você enfrentará desafios que vão desde o pré-processamento de dados até o treinamento e validação de um modelo de aprendizado profundo. Cada etapa é um passo rumo a uma solução prática para melhorar a eficiência energética em larga escala.

---

### **Por que isso é importante?**

1. **Sustentabilidade**: Identificar placas solares ineficientes ajuda a maximizar a geração de energia limpa.
2. **Economia**: Reduz os custos de manutenção ao permitir inspeções mais rápidas e precisas.
3. **Escalabilidade**: Soluções automatizadas podem ser aplicadas em parques solares de qualquer tamanho, em qualquer lugar do mundo.

Além disso, essa experiência prática não apenas contribui para um futuro mais sustentável, mas também prepara você para resolver problemas reais usando **machine learning**.

---

### **A Jornada Técnica**

Você começará lidando com os dados: imagens de placas solares limpas e empoeiradas. Sua primeira tarefa será preparar essas imagens para que possam ser usadas no treinamento do modelo. Em seguida, você projetará e implementará uma rede neural convolucional (CNN) para realizar a classificação. Depois, configurará funções de perda e otimizadores para treinar o modelo. Por fim, validará sua solução e medirá sua acurácia.

Cada etapa é uma peça essencial no quebra-cabeça da eficiência energética. E o melhor: você estará aprendendo habilidades valiosas ao longo do caminho.

---

### **O Impacto do Seu Trabalho**

Imagine o impacto de sua solução sendo aplicada em um parque solar de grande escala. Com seu modelo, uma câmera pode capturar imagens de placas solares e, em questão de segundos, identificar quais precisam de limpeza. Isso significa mais energia gerada, menos desperdício e um passo significativo em direção a um mundo movido por energia limpa.

Você está pronto para esse desafio? Vamos transformar dados em soluções e construir um futuro mais sustentável juntos.

# Pré-processamento

In [None]:
import kagglehub

# Download latest version
path = kagglehub.dataset_download("hemanthsai7/solar-panel-dust-detection")

print("Path to dataset files:", path)

In [None]:
import os

# Listar os arquivos no diretório
files = os.listdir(path)
print("Arquivos no diretório:", files)

In [None]:
files_path = os.path.join(path, 'Detect_solar_dust')

# Tarefa 1: Transformações e carregamento das imagens

O primeiro passo para construir nosso modelo de classificação é preparar os dados. Nesta tarefa, você será responsável por realizar as **transformações necessárias** nas imagens do dataset e carregá-las para o treinamento do modelo. Lembre-se: a qualidade do pré-processamento dos dados é crucial para o desempenho da rede neural!

---

### **O que você deve fazer?**

1. **Transformações nas imagens**:  
   As imagens precisam ser ajustadas para que possam ser processadas pelo modelo. Algumas transformações importantes incluem:  
   - **Redimensionar** as imagens para um tamanho uniforme (por exemplo, 128x128 pixels).  
   - **Converter** as imagens em tensores, que são o formato que o PyTorch utiliza.  
   - **Normalizar** os valores dos pixels para que fiquem em uma escala adequada para o treinamento (por exemplo, entre -1 e 1).  

2. **Carregar o dataset**:  
   Utilize o dataset fornecido para criar um conjunto de dados que possa ser usado no treinamento e validação do modelo. Para isso, você precisará:
   - Usar a classe `ImageFolder` do PyTorch para organizar as imagens.  
   - Dividir o dataset em dois subconjuntos: **treinamento** e **validação**.  
   - Criar **DataLoaders**, que são responsáveis por carregar os dados em lotes (batches) durante o treinamento.

---

### **Dica para começar**

Você pode usar a biblioteca `torchvision.transforms` para criar uma sequência de transformações.

Depois de definir as transformações, você pode aplicá-las ao carregar o dataset usando `datasets.ImageFolder`.

---

### **Objetivo Final da Tarefa**

Ao final desta etapa, você deverá ter:
- Um dataset preparado com as transformações aplicadas.
- Dois subconjuntos: **treinamento** e **validação**.
- DataLoaders configurados para carregar os dados em lotes.

Teste sua implementação imprimindo o tamanho de um lote de imagens e labels para verificar se tudo está funcionando corretamente.

Boa sorte! 🚀

https://pytorch.org/vision/0.9/transforms.html

https://www.geeksforgeeks.org/how-to-use-a-dataloader-in-pytorch/

# Tarefa 2: Denifir o modelo

https://pytorch.org/tutorials/beginner/introyt/modelsyt_tutorial.html

Agora que os dados já estão preparados, é hora de criar o coração do projeto: o **modelo de classificação**. Nesta etapa, você será responsável por definir uma **rede neural convolucional (CNN)** capaz de classificar as imagens de placas solares em "limpas" ou "empoeiradas". Este é um passo essencial para ensinar a máquina a reconhecer padrões visuais nas imagens.

---

### **O que você deve fazer?**

1. **Criar a estrutura do modelo**:  
   - Sua rede neural deve incluir **camadas convolucionais** para extrair características importantes das imagens.  
   - Use **funções de ativação**, como a ReLU, para introduzir não-linearidade no modelo.  
   - Adicione camadas de **pooling** para reduzir a dimensionalidade dos dados e aumentar a eficiência computacional.  
   - Inclua camadas **totalmente conectadas (fully connected)** no final, responsáveis por realizar a classificação.  

2. **Escolher o número de classes**:  
   Como estamos classificando imagens em duas categorias ("limpas" ou "empoeiradas"), o número de classes será **2**.

3. **Montar o `forward`**:  
   Defina como os dados passarão pela rede, desde as camadas convolucionais até a saída final.

4. **Verificar a estrutura do modelo**:  
   Ao final, imprima o modelo definido para garantir que ele foi configurado corretamente.

---

### **Dica para começar**

Você pode começar criando uma classe que herda de `torch.nn.Module`. Aqui está um esqueleto inicial para ajudá-lo:

# Tarefa 3: Configurar a Função de Perda e o Otimizador

Com o modelo definido, chegou a hora de configurar os componentes essenciais para o treinamento: a **função de perda** e o **otimizador**. Esses elementos são fundamentais para ensinar o modelo a aprender a partir dos dados e melhorar suas previsões ao longo do treinamento.

---

### **O que você deve fazer?**

1. **Escolher a função de perda**:  
   Como estamos lidando com um problema de **classificação binária** (duas classes: "limpas" e "empoeiradas"), a função de perda mais adequada é a **Binary Cross-Entropy Loss**. No PyTorch, você pode usar `nn.BCEWithLogitsLoss`, que combina a função de perda de entropia cruzada com uma função sigmoide interna para maior estabilidade numérica.

2. **Configurar o otimizador**:  
   O otimizador é responsável por ajustar os pesos do modelo durante o treinamento. O **Adam** é uma ótima escolha inicial, pois é eficiente e se adapta bem a diferentes problemas. No PyTorch, você pode usar `torch.optim.Adam`.

3. **Definir a taxa de aprendizado (learning rate)**:  
   Escolha um valor inicial para a taxa de aprendizado, como `0.001`. Esse parâmetro controla o tamanho dos passos que o otimizador dará ao ajustar os pesos.

---

**Nota:** Certifique-se de passar os parâmetros do modelo (`model.parameters()`) para o otimizador, para que ele saiba quais pesos deve atualizar.


# Tarefa 4: Treinamento

Agora que o modelo, a função de perda e o otimizador estão configurados, chegou o momento mais importante: **treinar o modelo**! Durante esta etapa, você irá ajustar os pesos da rede neural utilizando os dados de treinamento, enquanto monitora seu desempenho nos dados de validação.

---

### **O que você deve fazer?**

1. **Definir o loop de treinamento**:  
   - Percorra os dados de treinamento em **batches** usando o DataLoader.  
   - Para cada batch, execute as seguintes etapas:
     - Faça uma **passagem para frente (forward pass)** para calcular as previsões do modelo.  
     - Calcule a **função de perda** comparando as previsões com os rótulos reais.  
     - Execute uma **passagem para trás (backward pass)** para calcular os gradientes.  
     - Atualize os pesos do modelo usando o otimizador.  

2. **Monitorar o desempenho no treinamento**:  
   - Registre a **perda média** (loss) por época para acompanhar o progresso.  






# Tarefa 5: Validação

Após o treinamento, é essencial validar o modelo para avaliar seu desempenho em dados que ele **não viu durante o treinamento**. A validação ajuda a entender se o modelo está generalizando bem e pode ser usado para ajustar hiperparâmetros ou identificar problemas como **overfitting**.

---

### **O que você deve fazer?**

1. **Configurar o modelo para avaliação**:  
   - Coloque o modelo em modo de avaliação usando `model.eval()`. Isso garante que camadas como dropout e batch normalization se comportem corretamente durante a validação.

2. **Iterar sobre o conjunto de validação**:  
   - Use o `DataLoader` de validação para processar os dados em **batches**.  
   - Para cada batch, calcule as previsões do modelo e compare com os rótulos reais.

3. **Calcular métricas de desempenho**:  
   - **Acurácia**: Percentual de previsões corretas.  
   - Outras métricas opcionais (dependendo do problema):  


# Tarefa 6: Treinamento com Transferência de Aprendizado

A transferência de aprendizado é uma técnica poderosa que permite aproveitar modelos pré-treinados em grandes conjuntos de dados (como o ImageNet) para resolver problemas específicos com menos dados e menor tempo de treinamento. Nesta tarefa, você irá utilizar um modelo pré-treinado, ajustar suas camadas finais e treiná-lo para o problema de classificação binária.

---

### **O que você deve fazer?**

1. **Escolher um modelo pré-treinado**:  
   - Use um modelo disponível no PyTorch, como `resnet18`, `vgg16`, ou `mobilenet_v2`.  
   - Esses modelos estão disponíveis no módulo `torchvision.models`.

2. **Carregar o modelo pré-treinado**:  
   - Baixe o modelo com pesos pré-treinados no ImageNet.  
   - Substitua a última camada (ou camadas) para que o modelo se adapte ao seu problema de classificação binária.

3. **Congelar as camadas iniciais (opcional)**:  
   - Para evitar treinar todas as camadas do modelo (o que pode ser demorado), congele as camadas iniciais e treine apenas as camadas finais.

4. **Treinar o modelo**:  
   - Use o mesmo loop de treinamento definido anteriormente, mas agora com o modelo pré-treinado ajustado.

---

https://pytorch.org/vision/0.20/models.html