# IMPORTAÇÕES

In [114]:
import pandas as pd
import numpy as np

from copy import copy, deepcopy

# FUNÇÕES

In [115]:
class Environment:
  def __init__(self, root, rel_path):
    self.root = root            # Pasta raiz
    self.rel_path = rel_path    # Caminho relativo

  def get_file_path(self):
    """
    Retorna caminho do arquivo.
    :return: Caminho do arquivo.
    """
    parts = [self.root]
    parts.extend(self.rel_path)
    return "/".join(parts)

  def clone(self, mode="shallow"):
    """
    Retorna uma cópia do objeto. O padrão é shallow copy.
    :param mode: Modo de cópia ("shallow" ou "deep").
    :return: Cópia do objeto.
    """
    if mode == "deep":
      return deepcopy(self)
    return copy(self)

# SETUP DO AMBIENTE

In [116]:
from google.colab import drive
drive.mount("/content/drive")

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


# OBTENÇÃO DOS DATASETS

In [117]:
ROOT = "/content/drive/MyDrive/07_per_shared/projCDat_25_1/datasets/raw/TerraBrasilis/qtd_focos"
FILE_FORMAT = "historico_estado_%s"
STATES = ["AC", "AM", "AP", "MA", "MT", "PA", "RO", "RR", "TO"]
EXT = ".csv"

# Exibindo dataset de teste
file_name = f"{FILE_FORMAT % STATES[0].lower()}{EXT}"
env = Environment(ROOT, [file_name])

df_raw = pd.read_csv(env.get_file_path())
print(df_raw.columns)
display(df_raw)

Index(['Unnamed: 0', 'Janeiro', 'Fevereiro', 'Março', 'Abril', 'Maio', 'Junho',
       'Julho', 'Agosto', 'Setembro', 'Outubro', 'Novembro', 'Dezembro',
       'Total'],
      dtype='object')


Unnamed: 0.1,Unnamed: 0,Janeiro,Fevereiro,Março,Abril,Maio,Junho,Julho,Agosto,Setembro,Outubro,Novembro,Dezembro,Total
0,1998,,,,,,3.0,35.0,131.0,512.0,44.0,,7.0,732.0
1,1999,,,,,,,1.0,67.0,212.0,63.0,4.0,,347.0
2,2000,,,11.0,1.0,1.0,1.0,1.0,136.0,261.0,18.0,,,430.0
3,2001,,,,,,1.0,3.0,399.0,288.0,137.0,1.0,,829.0
4,2002,,1.0,,,,,59.0,1268.0,4337.0,932.0,139.0,3.0,6739.0
5,2003,14.0,,,5.0,18.0,18.0,427.0,3163.0,5803.0,1041.0,30.0,4.0,10523.0
6,2004,,4.0,,9.0,21.0,12.0,95.0,1003.0,5458.0,633.0,25.0,11.0,7271.0
7,2005,20.0,,5.0,2.0,17.0,75.0,1136.0,7669.0,6092.0,943.0,27.0,7.0,15993.0
8,2006,7.0,1.0,,2.0,58.0,34.0,186.0,1507.0,3737.0,600.0,66.0,,6198.0
9,2007,1.0,14.0,5.0,8.0,15.0,76.0,181.0,1942.0,5446.0,823.0,38.0,,8549.0


In [118]:
# PARÂMETROS AUXILIARES
BEG_YEAR = 1998              # Ano de início
END_YEAR = 2025              # Ano de fim
DELTA = END_YEAR - BEG_YEAR  # Índice da última linha a ser considerada
COL_REMOVING = ["Total"]     # Colunas a remover

# Remove:
df_filtered = df_raw.loc[0:DELTA] # linhas
df_filtered = df_filtered.drop(columns=COL_REMOVING) # colunas

display(df_filtered)

Unnamed: 0.1,Unnamed: 0,Janeiro,Fevereiro,Março,Abril,Maio,Junho,Julho,Agosto,Setembro,Outubro,Novembro,Dezembro
0,1998,,,,,,3.0,35.0,131.0,512.0,44.0,,7.0
1,1999,,,,,,,1.0,67.0,212.0,63.0,4.0,
2,2000,,,11.0,1.0,1.0,1.0,1.0,136.0,261.0,18.0,,
3,2001,,,,,,1.0,3.0,399.0,288.0,137.0,1.0,
4,2002,,1.0,,,,,59.0,1268.0,4337.0,932.0,139.0,3.0
5,2003,14.0,,,5.0,18.0,18.0,427.0,3163.0,5803.0,1041.0,30.0,4.0
6,2004,,4.0,,9.0,21.0,12.0,95.0,1003.0,5458.0,633.0,25.0,11.0
7,2005,20.0,,5.0,2.0,17.0,75.0,1136.0,7669.0,6092.0,943.0,27.0,7.0
8,2006,7.0,1.0,,2.0,58.0,34.0,186.0,1507.0,3737.0,600.0,66.0,
9,2007,1.0,14.0,5.0,8.0,15.0,76.0,181.0,1942.0,5446.0,823.0,38.0,


# TRATAMENTO DE DADOS FALTANTES

Para reproduzirmos a sazonalidade das oscilações da quantidade de focos de queimada, embora não ideal, adotou-se a imputação da média, técnica simples e escalável. Assim, dado um valor ausente do mês `M` do ano `A` e do estado `E`, imputa-se o valor médio da quantidade de focos de incêndio ocorridos em `E` durante o mês `M` ao longo de todos os anos com valores disponíveis no _dataset_.


In [119]:
# COLUNAS:
IGNORING = ["Unnamed: 0"] # a ignorar
TREATING = [x for x in df_filtered.columns if x not in IGNORING] # a tratar

# Imputação da média
for col in TREATING:
  mean = df_filtered[col].mean()
  df_filtered.loc[:, col] = df_filtered[col].fillna(mean)

display(df_filtered)

Unnamed: 0.1,Unnamed: 0,Janeiro,Fevereiro,Março,Abril,Maio,Junho,Julho,Agosto,Setembro,Outubro,Novembro,Dezembro
0,1998,9.9375,3.5,3.25,6.0,18.826087,3.0,35.0,131.0,512.0,44.0,103.56,7.0
1,1999,9.9375,3.5,3.25,6.0,18.826087,38.68,1.0,67.0,212.0,63.0,4.0,6.590909
2,2000,9.9375,3.5,11.0,1.0,1.0,1.0,1.0,136.0,261.0,18.0,103.56,6.590909
3,2001,9.9375,3.5,3.25,6.0,18.826087,1.0,3.0,399.0,288.0,137.0,1.0,6.590909
4,2002,9.9375,1.0,3.25,6.0,18.826087,38.68,59.0,1268.0,4337.0,932.0,139.0,3.0
5,2003,14.0,3.5,3.25,5.0,18.0,18.0,427.0,3163.0,5803.0,1041.0,30.0,4.0
6,2004,9.9375,4.0,3.25,9.0,21.0,12.0,95.0,1003.0,5458.0,633.0,25.0,11.0
7,2005,20.0,3.5,5.0,2.0,17.0,75.0,1136.0,7669.0,6092.0,943.0,27.0,7.0
8,2006,7.0,1.0,3.25,2.0,58.0,34.0,186.0,1507.0,3737.0,600.0,66.0,6.590909
9,2007,1.0,14.0,5.0,8.0,15.0,76.0,181.0,1942.0,5446.0,823.0,38.0,6.590909


# EDIÇÃO FINAL

In [120]:
# Faz o "melt" das colunas de meses
df_final = df_filtered.melt(id_vars=['Unnamed: 0'],
                  var_name='_mes',
                  value_name='que_focos_qtd')

# Renomeia
df_final = df_final.rename(columns={'Unnamed: 0': '_ano'})

# Adiciona o estado
df_final["_estado"] = STATES[0]

# Mapeia meses em números
dict_months = { month: idx + 1 for idx, month in enumerate(TREATING)}
df_final["_mes"] = df_final["_mes"].map(dict_months)

# Reordena colunas
df_final = df_final[sorted(df_final.columns)]

# Exibe o resultado
display(df_final)

Unnamed: 0,_ano,_estado,_mes,que_focos_qtd
0,1998,AC,1,9.937500
1,1999,AC,1,9.937500
2,2000,AC,1,9.937500
3,2001,AC,1,9.937500
4,2002,AC,1,9.937500
...,...,...,...,...
331,2021,AC,12,1.000000
332,2022,AC,12,9.000000
333,2023,AC,12,4.000000
334,2024,AC,12,30.000000


# GENERALIZAÇÃO

In [124]:
def main():
  # ENTRADA
  ROOT = "/content/drive/MyDrive/07_per_shared/projCDat_25_1/datasets/"
  FILE_FORMAT = "historico_estado_%s"
  STATES = ["AC", "AM", "AP", "MA", "MT", "PA", "RO", "RR", "TO"]
  EXT = ".csv"

  # REMOÇÃO
  BEG_YEAR = 1998              # Ano de início
  END_YEAR = 2025              # Ano de fim
  DELTA = END_YEAR - BEG_YEAR  # Índice da última linha a ser considerada
  COL_REMOVING = ["Total"]     # Colunas a remover

  # IMPUTAÇÃO
  IGNORING = ["Unnamed: 0"] # a ignorar

  # VARIÁVEIS
  dfs = list()

  for month in range(len(STATES)):
    # COLETA DO DATASET
    file_name = f"{FILE_FORMAT % STATES[month].lower()}{EXT}"
    env_in = Environment(ROOT, ["raw", "TerraBrasilis", "qtd_focos", file_name])

    df_raw = pd.read_csv(env.get_file_path())

    # REMOÇÃO DE LINHAS E COLUNAS
    df_filtered = df_raw.loc[0:DELTA] # linhas
    df_filtered = df_filtered.drop(columns=COL_REMOVING) # colunas

    # IMPUTAÇÃO
    TREATING = [x for x in df_filtered.columns if x not in IGNORING] # a tratar
    # Imputação da média
    for col in TREATING:
      mean = df_filtered[col].mean()
      df_filtered.loc[:, col] = df_filtered[col].fillna(mean)

    # FINALIZAÇÃO
    # Faz o "melt" das colunas de meses
    df_final = df_filtered.melt(id_vars=['Unnamed: 0'],
                      var_name='_mes',
                      value_name='que_focos_qtd')

    # Renomeia
    df_final = df_final.rename(columns={'Unnamed: 0': '_ano'})

    # Adiciona o estado
    df_final["_estado"] = STATES[month]

    # Mapeia meses em números
    dict_months = { month: idx + 1 for idx, month in enumerate(TREATING)}
    df_final["_mes"] = df_final["_mes"].map(dict_months)

    # Reordena colunas
    df_final = df_final[sorted(df_final.columns)]

    dfs.append(df_final)

  # CONCATENAÇÃO
  df_all = pd.concat(dfs)

  # SALVA ARQUIVO
  env_out = env_in.clone()

  # Muda nome do arquivo
  env_out.rel_path.pop()
  env_out.rel_path.append(f"{FILE_FORMAT % 'all'}_merged{EXT}")

  # Muda nome da pasta
  env_out.rel_path[0] = "cooked"

  # Salva
  df_all.to_csv(env_out.get_file_path(), index=False, encoding="utf-8")

In [125]:
# EXECUTA ROTINA
main()