<a href="https://colab.research.google.com/github/luanaxcardoso/Squad04-Semantic-Segmentation-Drone-Dataset/blob/main/Sq04_atividade01_062025.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Modelo de Segmenta√ß√£o de Imagens Urbanas
## Bootcamp Machine Learning - Atl√¢ntico Avanti: 06/2025.

Neste primeira etapa, o trabalho avaliou o dataset "Semantic Segmentation Drone Dataset" e teve como foco principal a an√°lise explorat√≥ria dos dados dispon√≠veis.

**Objetivo**: apresentar informa√ß√µes iniciais sobre as caracter√≠sticas do dataset.

**Integrantes**:

- Felipe Ferreira Dos Santos
- Luana Aparecida Cardoso
- Hozana Izadora Da Silva Ferreira
- Patrick Wohrle Guimaraes
- Sarah Cavalcante Salvino

**Dataset dispon√≠vel em**: [Kaggle]( https://www.kaggle.com/datasets/santurini/semantic-segmentation-drone-dataset?select=Image)

## üìö Instala√ß√µes, montar drive (Gdrive), importar Bibliotecas e  leitura dataset

In [None]:
# Instala√ß√£o de bibliotecas necess√°rias
!pip install pandas numpy matplotlib Pillow opencv-python imagehash tqdm tabulate

In [None]:
# Montar o Google Drive
from google.colab import drive
drive.mount('/content/drive')

In [None]:
import os
import pandas as pd
import numpy as np
from PIL import Image
import cv2
import imagehash
import ast
import json
from tqdm.notebook import tqdm # Usar tqdm.notebook para barras de progresso no Colab
from collections import Counter
import matplotlib.pyplot as plt
from tabulate import tabulate
from pathlib import Path
from itertools import combinations
from pathlib import Path


# Defini√ß√£o dos caminhos para o dataset no Google Drive
# AJUSTE ESTES CAMINHOS para onde voc√™ salvou o dataset no SEU Google Drive
# Exemplo: se voc√™ salvou o conte√∫do da pasta 'semantic-segmentation-drone-dataset'
# dentro de 'Meu Drive/datasets/semantic-segmentation-drone-dataset'
BASE_DIR = "/content/drive/MyDrive/dataset"
IMAGE_DIR = os.path.join(BASE_DIR, "binary_dataset/binary_dataset/original_images/")
MASK_DIR = os.path.join(BASE_DIR, "binary_dataset/binary_dataset/images_semantic/")

# Verificar se os diret√≥rios existem
if not os.path.exists(IMAGE_DIR):
    print(f"ERRO: Diret√≥rio de imagens n√£o encontrado em {IMAGE_DIR}")
    print("Por favor, ajuste o caminho IMAGE_DIR para o local correto no seu Google Drive.")
if not os.path.exists(MASK_DIR):
    print(f"ERRO: Diret√≥rio de m√°scaras n√£o encontrado em {MASK_DIR}")
    print("Por favor, ajuste o caminho MASK_DIR para o local correto no seu Google Drive.")

# Lista de arquivos nos diret√≥rios
# Use um bloco try-except caso os diret√≥rios n√£o existam (devido a caminhos incorretos)
try:
    image_files = sorted([f for f in os.listdir(IMAGE_DIR) if os.path.isfile(os.path.join(IMAGE_DIR, f))])
    mask_files = sorted([f for f in os.listdir(MASK_DIR) if os.path.isfile(os.path.join(MASK_DIR, f))])

    print(f"Total de imagens encontradas: {len(image_files)}")
    print(f"Total de m√°scaras encontradas: {len(mask_files)}")

except FileNotFoundError:
    print("\nN√£o foi poss√≠vel listar os arquivos. Verifique se os caminhos IMAGE_DIR e MASK_DIR est√£o corretos.")
    image_files = [] # Definir como lista vazia para evitar erros nos pr√≥ximos passos
    mask_files = []

# Integridade dos Arquivos

In [None]:
#import os

# Montar o Google Drive (execute esta c√©lula no Colab antes de rodar o resto)
#from google.colab import drive
#drive.mount('/content/drive')

# Defina os caminhos com base no seu Google Drive
#BASE_DIR = "/content/drive/MyDrive/dataset" # This is correct, points to MyDrive/dataset

# Corre√ß√£o aqui: remova o "dataset/" extra
#IMAGE_DIR = os.path.join(BASE_DIR, "original_images/")
#MASK_DIR = os.path.join(BASE_DIR, "images_semantic/")
#IMAGE_DIR = os.path.join(BASE_DIR, "binary_dataset/binary_dataset/original_images/")
#MASK_DIR = os.path.join(BASE_DIR, "binary_dataset/binary_dataset/images_semantic/")

# Esta fun√ß√£o verifica:
# 1. Se os arquivos das duas pastas t√™m o mesmo formato (ex: .png)
# 2. Se os arquivos t√™m os mesmos nomes (ignorando a extens√£o)
def verificar_imagens(original_dir, semantic_dir):
    resultados = []

    def obter_info_diretorio(pasta):
        # Listar apenas arquivos, ignorando subdiret√≥rios
        arquivos = [f for f in os.listdir(pasta) if os.path.isfile(os.path.join(pasta, f))]
        extensoes = {os.path.splitext(f)[-1].lower() for f in arquivos}
        nomes_base = {os.path.splitext(f)[0] for f in arquivos}
        return arquivos, extensoes, nomes_base

    try:
        arquivos_ori, ext_ori, nomes_ori = obter_info_diretorio(original_dir)
        arquivos_sem, ext_sem, nomes_sem = obter_info_diretorio(semantic_dir)
    except FileNotFoundError as e:
        return [f"‚ùå Erro ao acessar as pastas: {e}"]
    except Exception as e: # Catch other potential errors during listing
        return [f"‚ùå Ocorreu um erro inesperado ao processar os diret√≥rios: {e}"]


    if len(ext_ori) == 1:
        resultados.append(f"‚úÖ original_images: todas as imagens est√£o no formato {list(ext_ori)[0]}")
    else:
        resultados.append("‚ö†Ô∏è original_images cont√©m m√∫ltiplos formatos:")
        resultados.extend([f"   - {ext}" for ext in sorted(ext_ori)])

    if len(ext_sem) == 1:
        resultados.append(f"‚úÖ images_semantic: todas as imagens est√£o no formato {list(ext_sem)[0]}")
    else:
        resultados.append("‚ö†Ô∏è images_semantic cont√©m m√∫ltiplos formatos:")
        resultados.extend([f"   - {ext}" for ext in sorted(ext_sem)])

    if nomes_ori == nomes_sem:
        resultados.append("‚úÖ As duas pastas possuem os mesmos nomes de arquivos (sem extens√£o).")
    else:
        # Sort these sets to ensure consistent output order
        faltando_em_sem = sorted(nomes_ori - nomes_sem)
        faltando_em_ori = sorted(nomes_sem - nomes_ori)

        resultados.append("‚ö†Ô∏è Diferen√ßas entre os nomes de arquivos encontrados:")
        if faltando_em_sem:
            resultados.append("   - Presentes em original_images, mas faltando em images_semantic:")
            resultados.extend([f"     - {nome}" for nome in faltando_em_sem])
        if faltando_em_ori:
            resultados.append("   - Presentes em images_semantic, mas faltando em original_images:")
            resultados.extend([f"     - {nome}" for nome in faltando_em_ori])

    return resultados

# Executa a verifica√ß√£o e imprime os resultados
print("\nüìã Resultados da verifica√ß√£o:\n")
for linha in verificar_imagens(IMAGE_DIR, MASK_DIR):
    print(linha)

# **Consist√™ncia dos Metadados**

* **Verifique se h√° valores ausentes nos metadados e como esses casos s√£o tratados.**

* **Verifique valores inconsistentes, por exemplo: dimens√µes de imagens fora do esperado**


In [None]:

CSV_PATH = r"/content/metadata_binario.csv"
VALORES_INVALIDOS = {"", "N/A", "None", "[]", "{}", "nan", "NaN", "n/a", "null"}

CLASSES_BINARIAS = {
    0: {0, 5, 6, 7, 8, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20},  # background
    1: {1, 2, 3, 4, 9}  # objeto
}

# Fun√ß√£o para formatar porcentagens de acordo com as faixas de pixels
# de background e objeto
def formatar_porcentagem(valor):
    if valor == 0:
        return "0%"
    elif valor < 0.01:
        return "<1%"
    elif valor < 0.1:
        return "1-10%"
    elif valor < 0.25:
        return "10-25%"
    elif valor < 0.5:
        return "25-50%"
    elif valor < 0.75:
        return "50-75%"
    else:
        return ">75%"

def verificar_metadados(csv_path):
    if not os.path.exists(csv_path):
        print(f"[ERRO] Arquivo n√£o encontrado: {csv_path}")
        return

    df = pd.read_csv(csv_path)
    total_imagens = len(df)
    print(f"\n‚ÑπÔ∏è Total de imagens no dataset: {total_imagens:,}")

    print("\n 1. Valores ausentes ou inv√°lidos:")
    print("-" * 50)
    nulos = df.isnull().sum()
    nulos = nulos[nulos > 0]

    if nulos.empty:
        print(" Nenhum valor ausente (NaN) encontrado.")
    else:
        print(" Valores ausentes encontrados:")
        print(tabulate(nulos.reset_index().rename(columns={"index": "Coluna", 0: "Total NaN"}), headers="keys", tablefmt="pretty"))

    simbolicos_invalidos = []
    for col in df.columns:
        count = df[col].astype(str).isin(VALORES_INVALIDOS).sum()
        if count > 0:
            simbolicos_invalidos.append((col, count))

    if not simbolicos_invalidos:
        print(" Nenhum valor simb√≥lico inv√°lido encontrado.")
    else:
        print("\n Valores simb√≥licos inv√°lidos encontrados:")
        print(tabulate(simbolicos_invalidos, headers=["Coluna", "Quantidade"], tablefmt="pretty"))

    print("\n 2. Dimens√µes das imagens:")
    print("-" * 50)
    retangulares = df[df["largura"] != df["altura"]]
    if retangulares.empty:
        print(" Todas as imagens s√£o quadradas (largura = altura).")
    else:
        primeiro = retangulares.iloc[0]
        print(f"  {len(retangulares)} imagens retangulares encontradas.")
        print(f"  Exemplo: arquivo={primeiro['arquivo']}, largura={primeiro['largura']}, altura={primeiro['altura']}")


    print("\n 3. Consist√™ncia dos dados de pixels:")
    print("-" * 50)
    df["soma_pixels"] = df["pixels_background"] + df["pixels_objeto"]
    inconsistencias = df[df["soma_pixels"] != df["total_pixels"]]

    if inconsistencias.empty:
        print(" Todas as imagens t√™m soma de pixels (background + objeto) igual ao total.")
    else:
        print(f" {len(inconsistencias)} imagens com soma de pixels inconsistente:")
        print(tabulate(inconsistencias[["arquivo", "pixels_background", "pixels_objeto", "total_pixels"]].head(), headers="keys", tablefmt="pretty"))

    df["soma_proporcao"] = df["proporcao_background"] + df["proporcao_objeto"]
    proporcoes_inconsistentes = df[abs(df["soma_proporcao"] - 1.0) > 0.01]
    if proporcoes_inconsistentes.empty:
        print(" Todas as imagens t√™m propor√ß√µes que somam aproximadamente 1.0.")
    else:
        print(f" {len(proporcoes_inconsistentes)} imagens com propor√ß√µes inconsistentes:")
        print(tabulate(proporcoes_inconsistentes[["arquivo", "proporcao_background", "proporcao_objeto", "soma_proporcao"]].head(), headers="keys", tablefmt="pretty"))

    print("\n 4. Verifica√ß√£o das faixas de porcentagem:")
    print("-" * 50)
    df["faixa_calculada"] = df["proporcao_objeto"].apply(formatar_porcentagem)
    faixas_incorretas = df[df["faixa_proporcao_objeto"] != df["faixa_calculada"]]
    if faixas_incorretas.empty:
        print(" Todas as faixas de porcentagem est√£o corretamente calculadas.")
    else:
        print(f" {len(faixas_incorretas)} imagens com faixas de porcentagem incorretas:")
        print(tabulate(faixas_incorretas[["arquivo", "proporcao_objeto", "faixa_proporcao_objeto", "faixa_calculada"]].head(), headers="keys", tablefmt="pretty"))

        # 5. An√°lise bin√°ria: presen√ßa de fundo e objeto
    print("\n 5. An√°lise bin√°ria (com base em background e objeto):")
    print("-" * 50)

    if {"somente_background", "somente_objeto", "background_e_objeto"}.issubset(df.columns):
        total = len(df)
        apenas_bg = df["somente_background"].sum()
        apenas_obj = df["somente_objeto"].sum()
        ambos = df["background_e_objeto"].sum()

        print(f" Imagens com apenas background: {apenas_bg} ({apenas_bg / total:.1%})")
        print(f" Imagens com apenas objeto: {apenas_obj} ({apenas_obj / total:.1%})")
        print(f" Imagens com background e objeto: {ambos} ({ambos / total:.1%})")

        if apenas_bg > 0:
            print("  Algumas imagens n√£o t√™m nenhum pixel de objeto ‚Äî podem ser irrelevantes para o modelo.")
        if apenas_obj > 0:
            print("  Algumas imagens t√™m apenas objeto ‚Äî verifique se o fundo foi corretamente identificado como classe 0.")
    else:
        print(" As colunas 'somente_background', 'somente_objeto', 'background_e_objeto' n√£o est√£o presentes no CSV.")
        print("Sem elas, n√£o √© poss√≠vel avaliar a presen√ßa dos grupos bin√°rios nas m√°scaras.")


    print("\n" + "=" * 60)
    print(" RESUMO FINAL DA QUALIDADE DOS METADADOS")
    print("=" * 60)

    problemas = []
    if not nulos.empty:
        problemas.append(f"‚Ä¢ Valores ausentes (NaN) em {len(nulos)} coluna(s)")
    if simbolicos_invalidos:
        problemas.append(f"‚Ä¢ Valores simb√≥licos inv√°lidos em {len(simbolicos_invalidos)} coluna(s)")
    if not retangulares.empty:
        problemas.append(f"‚Ä¢ {len(retangulares)} imagens retangulares (largura ‚â† altura)")
    if not inconsistencias.empty:
        problemas.append(f"‚Ä¢ {len(inconsistencias)} imagens com soma de pixels inconsistente")
    if not proporcoes_inconsistentes.empty:
        problemas.append(f"‚Ä¢ {len(proporcoes_inconsistentes)} imagens com propor√ß√µes inconsistentes")
    if not faixas_incorretas.empty:
        problemas.append(f"‚Ä¢ {len(faixas_incorretas)} imagens com faixas de porcentagem incorretas")
    if 'classes_presentes' in df.columns and classes_nao_mapeadas:
        problemas.append(f"‚Ä¢ {len(classes_nao_mapeadas)} classe(s) n√£o mapeadas no agrupamento bin√°rio")

    if problemas:
        print("\n PROBLEMAS ENCONTRADOS:")
        for problema in problemas:
            print(problema)
    else:
        print("\n METADADOS CONSISTENTES: Nenhum problema grave encontrado!")
        print("O dataset parece estar bem preparado para uso em modelos de segmenta√ß√£o sem√¢ntica.")

if __name__ == "__main__":
    verificar_metadados(CSV_PATH)



Embora os metadados estejam √≠ntegros e sem valores ausentes, sem erros de soma de pixels ou de propor√ß√µes e com todas as faixas corretamente calculadas, h√° um ponto cr√≠tico: todas as 400 imagens s√£o retangulares (960 √ó 736 no exemplo).

E idealmente dever√≠amos trabalhar com formatos quadrados para manter a propor√ß√£o dos pixels em tarefas de segmenta√ß√£o sem√¢ntica.

Esse desvio pode afetar a performance de modelos que esperam entradas quadradas, portanto, uma solu√ß√£o seria redimensionar ou recortar as m√°scaras para um formato uniforme.




---



## Qualidade das Imagens (Identificar Imagens Corrompidas)
- Objetivo: Identificar imagens (e m√°scaras) que n√£o podem ser abertas ou processadas, indicando corrup√ß√£o.

In [None]:
def check_corrupted_files(directory, filenames, file_type):
    """
    Verifica se os arquivos em um diret√≥rio espec√≠fico est√£o corrompidos
    tentando abri-los e verificando sua integridade usando Pillow.

    Args:
        directory (str): O caminho para o diret√≥rio contendo os arquivos.
        filenames (list): Uma lista de nomes de arquivos a serem verificados.
        file_type (str): Um nome descritivo para o tipo de arquivo (ex: 'imagens', 'm√°scaras').

    Returns:
        list: Uma lista de tuplas, onde cada tupla cont√©m o nome do arquivo
              corrompido e a mensagem de erro capturada.
    """
    corrupted_list = []
    print(f"\nVerificando {file_type} corrompidas...")

    # Usa tqdm para mostrar uma barra de progresso durante a itera√ß√£o
    for filename in tqdm(filenames, desc=f"Verificando {file_type}"):
        filepath = os.path.join(directory, filename)
        try:
            # Usa 'with' para garantir que o arquivo seja fechado automaticamente
            # Image.open() abre o arquivo
            with Image.open(filepath) as img:
                # img.verify() verifica o cabe√ßalho e a estrutura do arquivo
                # sem carregar todos os dados de pixel. Levanta um erro se corrompido.
                img.verify()
            # Nota: Capturar 'Exception' pega qualquer erro durante open/verify.
            # Em casos mais espec√≠ficos, pode-se capturar erros como IOError,
            # PIL.UnidentifiedImageError, etc., para tratamento mais granular.
        except Exception as e:
            # Se ocorrer um erro, o arquivo √© considerado corrompido
            corrupted_list.append((filename, str(e)))

    return corrupted_list

# --- In√≠cio do Algoritmo Principal ---

# Verificar se os diret√≥rios foram encontrados e cont√™m arquivos antes de prosseguir
# Assume que 'image_files' e 'mask_files' s√£o listas de nomes de arquivos
# e 'IMAGE_DIR' e 'MASK_DIR' s√£o os caminhos para os diret√≥rios.
# Estas vari√°veis devem ser definidas ANTES deste bloco de c√≥digo.
if 'image_files' in locals() and 'mask_files' in locals() and image_files and mask_files:

    # Chama a fun√ß√£o para verificar imagens
    corrupted_images = check_corrupted_files(IMAGE_DIR, image_files, 'imagens')

    # Chama a fun√ß√£o para verificar m√°scaras
    corrupted_masks = check_corrupted_files(MASK_DIR, mask_files, 'm√°scaras')

    # --- Relat√≥rio dos Resultados ---
    if not corrupted_images:
        print("Verifica√ß√£o de Qualidade: Nenhuma imagem corrompida encontrada.")
    else:
        print(f"Verifica√ß√£o de Qualidade: {len(corrupted_images)} imagens corrompidas encontradas.")
        # Descomente as linhas abaixo para ver exemplos dos arquivos corrompidos
        # print(" Exemplos (arquivo, erro):")
        # for item in corrupted_images[:10]:
        #     print(f"  {item[0]}: {item[1]}")

    if not corrupted_masks:
        print("Verifica√ß√£o de Qualidade: Nenhuma m√°scara corrompida encontrada.")
    else:
        print(f"Verifica√ß√£o de Qualidade: {len(corrupted_masks)} m√°scaras corrompidas encontradas.")
        # Descomente as linhas abaixo para ver exemplos dos arquivos corrompidos
        # print(" Exemplos (arquivo, erro):")
        # for item in corrupted_masks[:10]:
        #     print(f"  {item[0]}: {item[1]}")

else:
    # Este bloco √© executado se as listas de arquivos estiverem vazias ou n√£o definidas
    print("\nPulando Verifica√ß√£o de Qualidade: Listas de arquivos de imagem/m√°scara vazias ou n√£o definidas.")
    print("Por favor, verifique se IMAGE_DIR e MASK_DIR est√£o definidos corretamente")
    print("e se cont√™m arquivos antes de executar esta se√ß√£o.")

##Duplicatas

‚ñ† Identifique imagens duplicadas que possam enviesar os resultados.  
‚ñ† Verifique duplicatas no arquivo de informa√ß√µes.



In [None]:
# Caminho da pasta
caminho_pasta = Path("binary_dataset/binary_dataset/images_semantic/")

# Tamanho fixo para padronizar
tamanho_padrao = (256, 256)

# Carrega todas as imagens .png
imagens = list(caminho_pasta.glob("*.png"))
imagens_dict = {}

# Carrega e padroniza
for caminho in imagens:
    img = cv2.imread(str(caminho), cv2.IMREAD_GRAYSCALE)
    if img is not None:
        img_padronizada = cv2.resize(img, tamanho_padrao)
        imagens_dict[caminho.name] = img_padronizada

# Comparar pixel a pixel
print(" Verificando imagens exatamente iguais:\n")
iguais = False
for (nome1, img1), (nome2, img2) in combinations(imagens_dict.items(), 2):
    if np.array_equal(img1, img2):
        print(f"üü• Iguais: {nome1} == {nome2}")
        iguais = True

if not iguais:
    print("‚úÖ Nenhuma imagem exatamente igual encontrada.")