# **Projeto WaRP - Waste Recycling Plant**

---
## **‚ö†Ô∏è Observa√ß√µes Importantes:**
**1.** Todas as an√°lises devem ter tratamento de erro, garantindo que o notebook continue rodando mesmo que ocorram problemas como dados faltantes, diret√≥rios incorretos ou arquivos corrompidos.

**2.** Registrar qualquer problema encontrado, como:
- Alto n√∫mero de imagens corrompidas.
- Desbalanceamento severo nas classes.
- Alto n√∫mero de duplicatas.

**3.** Documentar a decis√£o para resolu√ß√£o de probblemas, como:
- Exclu√ß√£o e/ou substitui√ß√£o de imagens corrompidas (porque, quais e quantas).
- Realiza√ß√£o de padroniza√ß√£o de imagens (porque, quais e quantas).

**4.** Sempre documentar o que foi observado em cada gr√°fico ou an√°lise.

---

## **Etapa 1 - An√°lise do Dataset**

### üß† Instala√ß√£o dos pacotes necess√°rios

In [4]:
!pip install opendatasets
!pip install pandas
!pip install imagehash
!pip install matplotlib
!pip install opencv-python
!pip install pillow
!pip install kaggle



### 1. Download do Dataset üöÄ

In [5]:
# os arquivos ser√£o salvos na pasta "data" localmente. 
# A pasta "data" local foi sincronizada bidirecionalmente com Google Drive

# Configura√ß√£o das credenciais
import os
from kaggle.api.kaggle_api_extended import KaggleApi

# Verificar se o arquivo kaggle.json existe no caminho padr√£o
kaggle_path = os.path.expanduser('~/.kaggle/kaggle.json') # O arquivo kaggle.json deve estar salvo em C:/Users/SeuUsuario/.kaggle/kaggle.json
if not os.path.exists(kaggle_path):
    raise FileNotFoundError(f"Arquivo kaggle.json n√£o encontrado em {kaggle_path}. Verifique se est√° salvo corretamente.")

# Verificar ou criar a pasta de destino
download_path = '../data' # pasta local

if not os.path.exists(download_path):
    os.makedirs(download_path)
    print(f"Pasta {download_path} criada com sucesso!")

# Fazer download do dataset
try:
    print("Autenticando com a API do Kaggle...")
    api = KaggleApi()
    api.authenticate()

    print("Iniciando o download do dataset...")
    api.dataset_download_files(
        'parohod/warp-waste-recycling-plant-dataset',
        path=download_path,
        unzip=True
    )

    print("Download conclu√≠do com sucesso!")

except Exception as e:
    print(f"Ocorreu um erro durante o download: {e}")

Autenticando com a API do Kaggle...
Iniciando o download do dataset...
Dataset URL: https://www.kaggle.com/datasets/parohod/warp-waste-recycling-plant-dataset
Download conclu√≠do com sucesso!


### 2. Cria√ß√£o do DataFrame de Metadados üìÇ

In [7]:
import os
import pandas as pd
import cv2
from PIL import Image
import imagehash
import matplotlib.pyplot as plt
from IPython.display import display

root_dir = '../data/Warp-C/train_crops' # se estiver trabalhando com pasta local no vscode
# root_dir = '/content/drive/MyDrive/data/Warp-C/train_crops' # se estiver trabalhando com pasta do google drive no google colab

if not os.path.exists(root_dir):
    raise FileNotFoundError(f"Diret√≥rio n√£o encontrado: {root_dir}. Verifique o caminho.")

count_corrupted = 0
corrupted = []
dataframe_list = []

print("Iniciando a an√°lise das imagens...")

try:
    for main_folder in os.listdir(root_dir):
        main_path = os.path.join(root_dir, main_folder)
        if os.path.isdir(main_path):
            for sub_folder in os.listdir(main_path):
                sub_path = os.path.join(main_path, sub_folder)
                if os.path.isdir(sub_path):
                    for image in os.listdir(sub_path):
                        img_path = os.path.join(sub_path, image)

                        try:
                            image_format = image.split('.')[-1].lower()
                        except IndexError:
                            image_format = None

                        try:
                            img = cv2.imread(img_path)
                            if img is not None:
                                img_rgb = cv2.cvtColor(img, cv2.COLOR_BGR2RGB)
                                img_pil = Image.fromarray(img_rgb)
                                img_hash = imagehash.phash(img_pil)
                                width, height, channels = img.shape
                                img_corrupted = False
                            else:
                                count_corrupted += 1
                                corrupted.append(img_path)
                                img_corrupted = True
                                img_hash, width, height, channels = None, None, None, None
                        except Exception:
                            count_corrupted += 1
                            corrupted.append(img_path)
                            img_corrupted = True
                            img_hash, width, height, channels = None, None, None, None
                            print(f"Erro ao processar {img_path}: {e}")

                        dataframe_list.append([
                            img_path, img_corrupted, img_hash, image_format,
                            width, height, channels, sub_folder
                        ])

except Exception as e:
    print(f"Ocorreu um erro na varredura das imagens: {e}")
    raise                        
                        
# Criando o DataFrame
df = pd.DataFrame(dataframe_list, columns=[
    'image_path', 'corrupted', 'image_hash', 'image_format',
    'width', 'height', 'channels', 'label'
])

# df.head()
display(df.head())

#  Prints
print(f"\nTotal de imagens processadas: {len(df)}")
print(f"Total de imagens corrompidas: {count_corrupted}")
print(f"Imagens corrompidas:\n{corrupted}")

Iniciando a an√°lise das imagens...


Unnamed: 0,image_path,corrupted,image_hash,image_format,width,height,channels,label
0,../data/Warp-C/train_crops\bottle\bottle-blue\...,False,aecead9899399491,jpg,409,190,3,bottle-blue
1,../data/Warp-C/train_crops\bottle\bottle-blue\...,False,94a724b1adbd4bc8,jpg,285,368,3,bottle-blue
2,../data/Warp-C/train_crops\bottle\bottle-blue\...,False,96cc6b62978ec272,jpg,398,424,3,bottle-blue
3,../data/Warp-C/train_crops\bottle\bottle-blue\...,False,cc8c2e3bd93469d2,jpg,375,239,3,bottle-blue
4,../data/Warp-C/train_crops\bottle\bottle-blue\...,False,df4028ff2410eecb,jpg,212,324,3,bottle-blue



Total de imagens processadas: 8823
Total de imagens corrompidas: 0
Imagens corrompidas:
[]


### 3. Valida√ß√£o de Consist√™ncia entre Metadados e Arquivos ‚úÖ

In [10]:
from IPython.display import display
import os

try:
    # verificar se o DataFrame df existe e n√£o est√° vazio
    if 'df' not in globals() or df.empty:
        raise ValueError("O DataFrame 'df' n√£o foi encontrado ou est√° vazio. Verifique se a etapa de cria√ß√£o do dataframe foi executada corretamente.")

    # verificar se a coluna 'image_path' existe no DataFrame
    if 'image_path' not in df.columns:
        raise KeyError("A coluna 'image_path' n√£o existe no DataFrame.")

    # verificar se o diret√≥rio raiz existe
    if not os.path.exists(root_dir):
        raise FileNotFoundError(f"O diret√≥rio {root_dir} n√£o foi encontrado. Verifique se o caminho est√° correto.")

    # lista de imagens nos metadados
    metadados_imagens = set(df['image_path'].apply(os.path.abspath))

    # lista de imagens que est√£o fisicamente na pasta
    arquivos_encontrados = set()

    for root, dirs, files in os.walk(root_dir):
        for file in files:
            if file.lower().endswith(('.jpg', '.jpeg', '.png', '.svg')):
                arquivos_encontrados.add(os.path.abspath(os.path.join(root, file)))

    # verificar inconsist√™ncias
    faltando_na_pasta = metadados_imagens - arquivos_encontrados
    faltando_no_metadado = arquivos_encontrados - metadados_imagens

    # exibir resultados
    print('Valida√ß√£o conclu√≠da!')
    print(f'\nTotal de imagens no metadado: {len(metadados_imagens)}')
    print(f'Total de imagens na pasta: {len(arquivos_encontrados)}')

    if faltando_na_pasta:
        print(f'\n{len(faltando_na_pasta)} imagens est√£o no metadado, mas N√ÉO foram encontradas na pasta:')
        display(list(faltando_na_pasta))
    else:
        print('\nTodas as imagens do metadado existem na pasta.')

    if faltando_no_metadado:
        print(f'\n{len(faltando_no_metadado)} imagens est√£o na pasta, mas N√ÉO est√£o listadas no metadado:')
        display(list(faltando_no_metadado))
    else:
        print('\nTodas as imagens na pasta est√£o devidamente listadas no metadado.')

except ValueError as ve:
    print(f"Erro de Valor: {ve}")

except KeyError as ke:
    print(f"Erro de Chave: {ke}")

except FileNotFoundError as fnf:
    print(f"Erro de Arquivo: {fnf}")

except Exception as e:
    print(f"Ocorreu um erro inesperado: {e}")


Valida√ß√£o conclu√≠da!

Total de imagens no metadado: 8823
Total de imagens na pasta: 8823

Todas as imagens do metadado existem na pasta.

Todas as imagens na pasta est√£o devidamente listadas no metadado.


### 4. Verificar a Integridade dos Arquivos üîç

#### Informa√ß√µes estat√≠sticas dos valores de altura, largura e canais das imagens:

In [None]:
# Exibir estat√≠sticas:
# Gerar estat√≠sticas descritivas (mean, std, min, max) sobre: Largura (width), Altura (height), Canais (channels) etc
# Verificar se existem padr√µes, outliers ou inconsist√™ncias nas dimens√µes.

#### Quantidade de imagens por formato:

In [None]:
# Plotar gr√°fico:
# Plotar um gr√°fico de barras com a quantidade de imagens por formato de arquivo (ex.: JPG, PNG, etc.).
# Verificar se h√° formatos inconsistentes ou pouco utilizados.

### 5. Verificar a Consist√™ncia dos Metadados üîß

#### Distribui√ß√£o das dimens√µes (width x height):

In [None]:
# Plotar o gr√°fico de dispers√£o:
# Plotar um gr√°fico de dispers√£o (scatterplot) das dimens√µes (width x height).
# Avaliar se as imagens possuem tamanhos muito variados ou padr√µes.

#### Informa√ß√µes nulas:

In [None]:
# Verificar informa√ß√µes nulas:
# Gerar uma tabela com a quantidade de valores nulos por coluna no dataframe.
# Verificar se h√° dados faltantes que precisam ser tratados.

### 6. Analisar a Qualidade das Imagens üßπ

#### Total de imagens corrompidas:

In [None]:
# Realizar a contagem de imagens corrompidas:
# Contar o total de imagens que n√£o puderam ser abertas ou est√£o corrompidas.
# Validar se o n√∫mero √© significativo e se √© necess√°rio substitu√≠-las ou remov√™-las.

#### Quantidade de imagens corrompidas e n√£o corrompidas:

In [None]:
# Exibir a quantidade de imagens corrompidas e n√£o corrompidas:
# Gerar uma contagem e exibir de forma tabular (ou gr√°fico, se desejar) a propor√ß√£o de imagens v√°lidas e corrompidas.

### 7. Verificar a Distribui√ß√£o das Classes üìä 

In [None]:
# Plotar gr√°fico da distribui√ß√£o das classes:
# Gerar um gr√°fico de barras com a quantidade de imagens por classe.
# Avaliar se h√° desequil√≠brio nas classes, o que pode impactar o treinamento de modelos.

### 8. Verificar a Presen√ßa de Duplicatas üß† 

#### Quantidade de duplicatas:

In [None]:
# Calcular quantidade de duplicatas:
# Calcular e exibir a quantidade de imagens duplicadas com base no hash perceptual das imagens.


#### Visualizar duplicatas:

In [None]:
# Verificar e exibir duplicatas, se houver duplicatas:
# Exibir uma tabela com as informa√ß√µes das imagens duplicadas (paths, labels, hashes).

#### Exibir imagens duplicadas:

In [None]:
# Verificar e exibir duplicatas lado a lado, se houver duplicatas:
# Mostrar visualmente as imagens duplicadas em uma mesma linha para compara√ß√£o.
# Avaliar se essas duplicatas devem ser removidas do dataset.

#### Gr√°ficos de Duplicatas por Classe:

In [None]:
# Plotar grafico de duplicatas por classe, se houver duplicatas:
# Plotar um gr√°fico de barras indicando quantas duplicatas existem por classe.
# Verificar se h√° classes mais impactadas por duplica√ß√µes.