# Analisar Datasets

O Estudo2_Recriado e o UAVS_RawImages são usados tanto para train como para val. Mas o FireMan dataset está subdividido, vamos começar por juntá-lo:

In [3]:
import pandas as pd
from sklearn.utils import shuffle

# Carregar os datasets
fireman_train = pd.read_csv('Datasets/FireMan_train.csv')
fireman_val = pd.read_csv('Datasets/FireMan_val.csv')

# Juntar dois datasets
fireman = pd.concat([fireman_train, fireman_val], ignore_index=True)
# Embaralhar as linhas
fireman = shuffle(fireman).reset_index(drop=True)

# Ver um preview
print(fireman.head())

                                          image_path label_cat  label_bi  \
0  /home/magda/Estagio/Datasets/FireMan/train/Fir...      Fire         1   
1  /home/magda/Estagio/Datasets/FireMan/val/Fire/...      Fire         1   
2  /home/magda/Estagio/Datasets/FireMan/train/No_...   No_Fire         0   
3  /home/magda/Estagio/Datasets/FireMan/train/No_...   No_Fire         0   
4  /home/magda/Estagio/Datasets/FireMan/train/Fir...      Fire         1   

   split  
0  train  
1    val  
2  train  
3  train  
4  train  


Agora vamos analisar rapidamente cada dataset:

In [6]:
# Carregar os datasets
flame = pd.read_csv('Datasets/Estudo2_Recriado.csv')
uavs = pd.read_csv('Datasets/UAVS_RawImages.csv')
fireman_test = pd.read_csv('Datasets/FireMan_test.csv')
uavs_test = pd.read_csv('Datasets/UAVS_AugmentedImages.csv')


# Função para exibir estatísticas do dataset
def analisar_dataset(nome, df):
    total = len(df)
    label_1 = (df['label_bi'] == 1).sum()
    label_0 = (df['label_bi'] == 0).sum()
    print(f"{nome}:")
    print(f"  Total de entradas: {total}")
    print(f"  label_bi = 1: {label_1}")
    print(f"  label_bi = 0: {label_0}\n")

# Analisar os três datasets
analisar_dataset("Dataset FLAME", flame)
analisar_dataset("Dataset UAVS RawImages", uavs)
analisar_dataset("Dataset UAVS AugmentedImages", uavs_test)
analisar_dataset("Dataset FireMan", fireman)
analisar_dataset("Dataset FireMan test", fireman_test)

Dataset FLAME:
  Total de entradas: 5615
  label_bi = 1: 2854
  label_bi = 0: 2761

Dataset UAVS RawImages:
  Total de entradas: 1643
  label_bi = 1: 1145
  label_bi = 0: 498

Dataset UAVS AugmentedImages:
  Total de entradas: 15560
  label_bi = 1: 7780
  label_bi = 0: 7780

Dataset FireMan:
  Total de entradas: 5924
  label_bi = 1: 5471
  label_bi = 0: 453

Dataset FireMan test:
  Total de entradas: 589
  label_bi = 1: 556
  label_bi = 0: 33



# Juntar os datasets sem querer saber

In [7]:
from sklearn.model_selection import train_test_split
# Faz o split: 10% para teste, 90% para treino e validação
flame_treino, flame_teste = train_test_split(flame, test_size=0.10, random_state=42, shuffle=True)

## FLAME + UAVS

In [8]:
# Junta os datasets
df_combinado = pd.concat([flame_treino, uavs], ignore_index=True)
# Embaralha os dados
df_combinado = shuffle(df_combinado, random_state=42).reset_index(drop=True)
# Guarda o dataset embaralhado em CSV
df_combinado.to_csv('test_1_train.csv', index=False)

print("Dataset combinado e embaralhado guardado como 'test_1_train.csv'")

Dataset combinado e embaralhado guardado como 'test_1_train.csv'


In [3]:
analisar_dataset("Datasets_Mixed/test_1_train.csv")

Número total de entradas: 6696

Número de imagens com fogo e sem fogo:
  Fire: 3724
  No_Fire: 2972

Distribuição dos valores na coluna 'split':
  Training: 4121
  Test: 932
  Pre-Evening Fire Incident_raw_img: 791
  Evening Fire Incident_raw_img: 354
  Evening Forest condition_raw_img: 286
  Pre-evening Forest condition_raw_img: 212


In [9]:
# Junta os datasets
df_combinado = pd.concat([flame_teste, uavs_test], ignore_index=True)
# Embaralha os dados
df_combinado = shuffle(df_combinado, random_state=42).reset_index(drop=True)
# Guarda o dataset embaralhado em CSV
df_combinado.to_csv('test_1_test.csv', index=False)

print("Dataset combinado e embaralhado guardado como 'test_1_test.csv'")

Dataset combinado e embaralhado guardado como 'test_1_test.csv'


In [4]:
analisar_dataset("Datasets_Mixed/test_1_test.csv")

Número total de entradas: 16122

Número de imagens com fogo e sem fogo:
  No_Fire: 8067
  Fire: 8055

Distribuição dos valores na coluna 'split':
  Pre-_Evening_Fire_Incident_aug_img: 3890
  Evening_Fire_Incident_aug_img: 3890
  Pre-_Evening_Forest_Condition_aug_img: 3890
  Evening_Forest_Condition_aug_img: 3890
  Training: 464
  Test: 98


## FLAME + FireMan

In [10]:
# Junta os datasets
df_combinado = pd.concat([flame_treino, fireman], ignore_index=True)
# Embaralha os dados
df_combinado = shuffle(df_combinado, random_state=42).reset_index(drop=True)
# Guarda o dataset embaralhado em CSV
df_combinado.to_csv('test_2_train.csv', index=False)

print("Dataset combinado e embaralhado guardado como 'test_2_train.csv'")

Dataset combinado e embaralhado guardado como 'test_2_train.csv'


In [5]:
analisar_dataset("Datasets_Mixed/test_2_train.csv")

Número total de entradas: 10977

Número de imagens com fogo e sem fogo:
  Fire: 8050
  No_Fire: 2927

Distribuição dos valores na coluna 'split':
  train: 5313
  Training: 4121
  Test: 932
  val: 611


In [11]:
# Junta os datasets
df_combinado = pd.concat([flame_teste, fireman_test], ignore_index=True)
# Embaralha os dados
df_combinado = shuffle(df_combinado, random_state=42).reset_index(drop=True)
# Guarda o dataset embaralhado em CSV
df_combinado.to_csv('test_2_test.csv', index=False)

print("Dataset combinado e embaralhado guardado como 'test_2_test.csv'")

Dataset combinado e embaralhado guardado como 'test_2_test.csv'


In [6]:
analisar_dataset("Datasets_Mixed/test_2_test.csv")

Número total de entradas: 1151

Número de imagens com fogo e sem fogo:
  Fire: 831
  No_Fire: 320

Distribuição dos valores na coluna 'split':
  test: 589
  Training: 464
  Test: 98


## UAVS + Fireman

In [12]:
# Junta os datasets
df_combinado = pd.concat([uavs, fireman], ignore_index=True)
# Embaralha os dados
df_combinado = shuffle(df_combinado, random_state=42).reset_index(drop=True)
# Guarda o dataset embaralhado em CSV
df_combinado.to_csv('test_3_train.csv', index=False)

print("Dataset combinado e embaralhado guardado como 'test_3_train.csv'")

Dataset combinado e embaralhado guardado como 'test_3_train.csv'


In [7]:
analisar_dataset("Datasets_Mixed/test_3_train.csv")

Número total de entradas: 7567

Número de imagens com fogo e sem fogo:
  Fire: 6616
  No_Fire: 951

Distribuição dos valores na coluna 'split':
  train: 5313
  Pre-Evening Fire Incident_raw_img: 791
  val: 611
  Evening Fire Incident_raw_img: 354
  Evening Forest condition_raw_img: 286
  Pre-evening Forest condition_raw_img: 212


In [13]:
# Junta os datasets
df_combinado = pd.concat([uavs_test, fireman_test], ignore_index=True)
# Embaralha os dados
df_combinado = shuffle(df_combinado, random_state=42).reset_index(drop=True)
# Guarda o dataset embaralhado em CSV
df_combinado.to_csv('test_3_test.csv', index=False)

print("Dataset combinado e embaralhado guardado como 'test_3_test.csv'")

Dataset combinado e embaralhado guardado como 'test_3_test.csv'


In [9]:
analisar_dataset("Datasets_Mixed/test_3_test.csv")

Número total de entradas: 16149

Número de imagens com fogo e sem fogo:
  Fire: 8336
  No_Fire: 7813

Distribuição dos valores na coluna 'split':
  Pre-_Evening_Fire_Incident_aug_img: 3890
  Evening_Forest_Condition_aug_img: 3890
  Evening_Fire_Incident_aug_img: 3890
  Pre-_Evening_Forest_Condition_aug_img: 3890
  test: 589


## Todos

In [14]:
# Junta os datasets
df_combinado = pd.concat([flame_treino, uavs, fireman], ignore_index=True)
# Embaralha os dados
df_combinado = shuffle(df_combinado, random_state=42).reset_index(drop=True)
# Guarda o dataset embaralhado em CSV
df_combinado.to_csv('test_4_train.csv', index=False)

print("Dataset combinado e embaralhado guardado como 'test_4_train.csv'")

Dataset combinado e embaralhado guardado como 'test_4_train.csv'


In [10]:
analisar_dataset("Datasets_Mixed/test_4_train.csv")

Número total de entradas: 12620

Número de imagens com fogo e sem fogo:
  Fire: 9195
  No_Fire: 3425

Distribuição dos valores na coluna 'split':
  train: 5313
  Training: 4121
  Test: 932
  Pre-Evening Fire Incident_raw_img: 791
  val: 611
  Evening Fire Incident_raw_img: 354
  Evening Forest condition_raw_img: 286
  Pre-evening Forest condition_raw_img: 212


In [15]:
# Junta os datasets
df_combinado = pd.concat([flame_teste, fireman_test], ignore_index=True)
# Embaralha os dados
df_combinado = shuffle(df_combinado, random_state=42).reset_index(drop=True)
# Guarda o dataset embaralhado em CSV
df_combinado.to_csv('test_4_test.csv', index=False)

print("Dataset combinado e embaralhado guardado como 'test_4_test.csv'")

Dataset combinado e embaralhado guardado como 'test_4_test.csv'


In [11]:
analisar_dataset("Datasets_Mixed/test_4_test.csv")

Número total de entradas: 1151

Número de imagens com fogo e sem fogo:
  Fire: 831
  No_Fire: 320

Distribuição dos valores na coluna 'split':
  test: 589
  Training: 464
  Test: 98


# Juntar os datasets com lógica

Dataset FLAME:
- Total de entradas: 5615
- label_bi = 1: 2854
- label_bi = 0: 2761

Dataset UAVS RawImages:
- Total de entradas: 1643
- label_bi = 1: 1145
- label_bi = 0: 498

Dataset UAVS AugmentedImages:
- Total de entradas: 15560
- label_bi = 1: 7780
- label_bi = 0: 7780

Dataset FireMan:
- Total de entradas: 5924
- label_bi = 1: 5471
- label_bi = 0: 453

Dataset FireMan test:
- Total de entradas: 589
- label_bi = 1: 556
- label_bi = 0: 33

## FLAME + UAVS

Tiramos ao FLAME 1643 imagens para ter o mesmo número de imagens que o UAVS. As imagens restantes vão para o dataset de teste.

In [16]:
# Número de imagens a escolher
x = 1643
# Faz split: pega 'x' imagens aleatórias e o resto vai para outra variável
flame_t_v, flame_t = train_test_split(flame, train_size=x, random_state=42, shuffle=True)

In [17]:
# Junta os datasets
df_combinado = pd.concat([flame_t_v, uavs], ignore_index=True)
# Embaralha os dados
df_combinado = shuffle(df_combinado, random_state=42).reset_index(drop=True)
# Guarda o dataset embaralhado em CSV
df_combinado.to_csv('mixed_1_train.csv', index=False)

print("Dataset combinado e embaralhado guardado como 'mixed_1_train.csv'")

Dataset combinado e embaralhado guardado como 'mixed_1_train.csv'


In [12]:
analisar_dataset("Datasets_Mixed/mixed_1_train.csv")

Número total de entradas: 3286

Número de imagens com fogo e sem fogo:
  Fire: 1995
  No_Fire: 1291

Distribuição dos valores na coluna 'split':
  Training: 1338
  Pre-Evening Fire Incident_raw_img: 791
  Evening Fire Incident_raw_img: 354
  Test: 305
  Evening Forest condition_raw_img: 286
  Pre-evening Forest condition_raw_img: 212


In [18]:
# Junta os datasets
df_combinado = pd.concat([flame_t, uavs_test], ignore_index=True)
# Embaralha os dados
df_combinado = shuffle(df_combinado, random_state=42).reset_index(drop=True)
# Guarda o dataset embaralhado em CSV
df_combinado.to_csv('mixed_1_test.csv', index=False)

print("Dataset combinado e embaralhado guardado como 'mixed_1_test.csv'")

Dataset combinado e embaralhado guardado como 'mixed_1_test.csv'


In [13]:
analisar_dataset("Datasets_Mixed/mixed_1_test.csv")

Número total de entradas: 19532

Número de imagens com fogo e sem fogo:
  Fire: 9784
  No_Fire: 9748

Distribuição dos valores na coluna 'split':
  Evening_Fire_Incident_aug_img: 3890
  Pre-_Evening_Fire_Incident_aug_img: 3890
  Evening_Forest_Condition_aug_img: 3890
  Pre-_Evening_Forest_Condition_aug_img: 3890
  Training: 3247
  Test: 725


## FLAME + FireMan

Tiramos ao FireMan 5615 imagens para ter o mesmo número de imagens que o FLAME. As imagens restantes vão para o dataset de teste.

In [19]:
# Número de imagens a escolher
x = 5615
# Faz split: pega 'x' imagens aleatórias e o resto vai para outra variável
fireman_t_v, fireman_t = train_test_split(fireman, train_size=x, random_state=42, shuffle=True)

In [20]:
# Junta os datasets
df_combinado = pd.concat([flame_treino, fireman_t_v], ignore_index=True)
# Embaralha os dados
df_combinado = shuffle(df_combinado, random_state=42).reset_index(drop=True)
# Guarda o dataset embaralhado em CSV
df_combinado.to_csv('mixed_2_train.csv', index=False)

print("Dataset combinado e embaralhado guardado como 'mixed_2_train.csv'")

Dataset combinado e embaralhado guardado como 'mixed_1_train.csv'


In [14]:
analisar_dataset("Datasets_Mixed/mixed_2_train.csv")

Número total de entradas: 10668

Número de imagens com fogo e sem fogo:
  Fire: 7758
  No_Fire: 2910

Distribuição dos valores na coluna 'split':
  train: 5038
  Training: 4121
  Test: 932
  val: 577


In [21]:
# Junta os datasets
df_combinado = pd.concat([flame_teste, fireman_t, fireman_test], ignore_index=True)
# Embaralha os dados
df_combinado = shuffle(df_combinado, random_state=42).reset_index(drop=True)
# Guarda o dataset embaralhado em CSV
df_combinado.to_csv('mixed_2_test.csv', index=False)

print("Dataset combinado e embaralhado guardado como 'mixed_2_test.csv'")

Dataset combinado e embaralhado guardado como 'mixed_1_test.csv'


In [15]:
analisar_dataset("Datasets_Mixed/mixed_2_test.csv")

Número total de entradas: 1460

Número de imagens com fogo e sem fogo:
  Fire: 1123
  No_Fire: 337

Distribuição dos valores na coluna 'split':
  test: 589
  Training: 464
  train: 275
  Test: 98
  val: 34


## UAVS + FireMan

In [None]:
# Número de imagens a escolher
x = 1643
# Faz split: pega 'x' imagens aleatórias e o resto vai para outra variável
fireman_t_v, fireman_t = train_test_split(fireman, train_size=x, random_state=42, shuffle=True)

In [None]:
# Junta os datasets
df_combinado = pd.concat([uavs, fireman_t_v], ignore_index=True)
# Embaralha os dados
df_combinado = shuffle(df_combinado, random_state=42).reset_index(drop=True)
# Guarda o dataset embaralhado em CSV
df_combinado.to_csv('mixed_3_train.csv', index=False)

print("Dataset combinado e embaralhado guardado como 'mixed_3_train.csv'")

In [16]:
analisar_dataset("Datasets_Mixed/mixed_3_train.csv")

Número total de entradas: 3286

Número de imagens com fogo e sem fogo:
  Fire: 2661
  No_Fire: 625

Distribuição dos valores na coluna 'split':
  train: 1478
  Pre-Evening Fire Incident_raw_img: 791
  Evening Fire Incident_raw_img: 354
  Evening Forest condition_raw_img: 286
  Pre-evening Forest condition_raw_img: 212
  val: 165


In [None]:
# Junta os datasets
df_combinado = pd.concat([uavs_test, fireman_t, fireman_test], ignore_index=True)
# Embaralha os dados
df_combinado = shuffle(df_combinado, random_state=42).reset_index(drop=True)
# Guarda o dataset embaralhado em CSV
df_combinado.to_csv('mixed_3_test.csv', index=False)

print("Dataset combinado e embaralhado guardado como 'mixed_3_test.csv'")

In [17]:
analisar_dataset("Datasets_Mixed/mixed_3_test.csv")

Número total de entradas: 20430

Número de imagens com fogo e sem fogo:
  Fire: 12291
  No_Fire: 8139

Distribuição dos valores na coluna 'split':
  Pre-_Evening_Fire_Incident_aug_img: 3890
  Evening_Fire_Incident_aug_img: 3890
  Pre-_Evening_Forest_Condition_aug_img: 3890
  Evening_Forest_Condition_aug_img: 3890
  train: 3835
  test: 589
  val: 446


## Todos

In [None]:
# Número de imagens a escolher
x = 1643
# Faz split: pega 'x' imagens aleatórias e o resto vai para outra variável
flame_t_v, flame_t = train_test_split(flame, train_size=x, random_state=42, shuffle=True)
fireman_t_v, fireman_t = train_test_split(fireman, train_size=x, random_state=42, shuffle=True)

In [None]:
# Junta os datasets
df_combinado = pd.concat([uavs, fireman_t_v], ignore_index=True)
# Embaralha os dados
df_combinado = shuffle(df_combinado, random_state=42).reset_index(drop=True)
# Guarda o dataset embaralhado em CSV
df_combinado.to_csv('mixed_4_train.csv', index=False)

print("Dataset combinado e embaralhado guardado como 'mixed_4_train.csv'")

In [18]:
analisar_dataset("Datasets_Mixed/mixed_4_train.csv")

Número total de entradas: 4929

Número de imagens com fogo e sem fogo:
  Fire: 3511
  No_Fire: 1418

Distribuição dos valores na coluna 'split':
  train: 1478
  Training: 1338
  Pre-Evening Fire Incident_raw_img: 791
  Evening Fire Incident_raw_img: 354
  Test: 305
  Evening Forest condition_raw_img: 286
  Pre-evening Forest condition_raw_img: 212
  val: 165


In [None]:
# Junta os datasets
df_combinado = pd.concat([uavs_test, fireman_t, fireman_test], ignore_index=True)
# Embaralha os dados
df_combinado = shuffle(df_combinado, random_state=42).reset_index(drop=True)
# Guarda o dataset embaralhado em CSV
df_combinado.to_csv('mixed_4_test.csv', index=False)

print("Dataset combinado e embaralhado guardado como 'mixed_4_test.csv'")

In [19]:
analisar_dataset("Datasets_Mixed/mixed_4_test.csv")

Número total de entradas: 24402

Número de imagens com fogo e sem fogo:
  Fire: 14295
  No_Fire: 10107

Distribuição dos valores na coluna 'split':
  Pre-_Evening_Forest_Condition_aug_img: 3890
  Evening_Forest_Condition_aug_img: 3890
  Evening_Fire_Incident_aug_img: 3890
  Pre-_Evening_Fire_Incident_aug_img: 3890
  train: 3835
  Training: 3247
  Test: 725
  test: 589
  val: 446


# Analisar os datasets

In [1]:
import pandas as pd

def analisar_dataset(caminho_csv):
    # Lê o arquivo CSV
    df = pd.read_csv(caminho_csv)

    # Número total de entradas
    total_entradas = len(df)

    # Contagem de categorias "Fire" e "No_Fire"
    contagem_fogo = df['label_cat'].value_counts()

    # Valores únicos da coluna "split" e suas contagens
    contagem_split = df['split'].value_counts()

    # Exibe os resultados
    print(f"Número total de entradas: {total_entradas}\n")

    print("Número de imagens com fogo e sem fogo:")
    for categoria, quantidade in contagem_fogo.items():
        print(f"  {categoria}: {quantidade}")

    print("\nDistribuição dos valores na coluna 'split':")
    for valor, quantidade in contagem_split.items():
        print(f"  {valor}: {quantidade}")