<a href="https://colab.research.google.com/github/borgesgoncalves/datacleaning-labsensing/blob/main/firefoci_cleaning.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [1]:
import pandas as pd
import unicodedata
import os

In [2]:
# Lista de utilitários
anos = ['1999', '2000', '2001', '2002', '2003', '2004', '2005', '2006', '2007', '2008', '2009', '2010', '2011', '2012', '2013', '2014', '2015', '2016', '2017', '2018', '2019', '2020']
estados = ['Acre', 'Amapá', 'Amazonas', 'Maranhão', 'Mato Grosso', 'Pará', 'Roraima', 'Rondônia', 'Tocantins']
siglas = ['AC', 'AM', 'AP', 'MA', 'MT', 'PA', 'RO', 'RR', 'TO']
index = [1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22]
meses = ['Janeiro', 'Fevereiro', 'Março', 'Abril', 'Maio', 'Junho', 'Julho', 'Agosto', 'Setembro', 'Outubro', 'Novembro', 'Dezembro']

In [3]:
#Normaliza lista de estados
estados_dict = {
    unicodedata.normalize('NFKD', estado)
        .encode('ASCII', 'ignore') #Converte para ASCII ignorando acentos
        .decode("utf-8") #Decodifica para string
        .replace(' ', '_') #Substitui espaços em branco para _
        .lower() #Converte para minusculas
        : estado
    for estado in estados
} 

# Criar lista com 3 valores por elemento: (nome do arquivo, nome do DataFrame, nome do estado)
arquivos = [
    (
        os.path.join('Dados', 'Focos_incendio', f'historico_estado_{estado_simples}.csv'), # 1º valor: nome do arquivo
        f'df_{estado_simples}', # 2º valor: nome do DataFrame
        estado # 3º valor: nome do estado original
    ) for estado_simples, estado  in estados_dict.items()
]

#Lê arquivos .csv e armazena em variavel
for path, nome_df, estado in arquivos:
    try:
        #Ler arquivo CSV e arma
        globals()[nome_df] = pd.read_csv(path)
        print(f"✔ {path} carregado como {nome_df}")


    except Exception as e:
        print(f'Erro ao ler: {path}: {e}')

#Ignora outros valores da lista arquivos para mostrar somente os Dataframes
print("\n 📂 DataFrames disponíveis:", list(nome_df for _, nome_df, _ in arquivos))

✔ Dados\Focos_incendio\historico_estado_acre.csv carregado como df_acre
✔ Dados\Focos_incendio\historico_estado_amapa.csv carregado como df_amapa
✔ Dados\Focos_incendio\historico_estado_amazonas.csv carregado como df_amazonas
✔ Dados\Focos_incendio\historico_estado_maranhao.csv carregado como df_maranhao
✔ Dados\Focos_incendio\historico_estado_mato_grosso.csv carregado como df_mato_grosso
✔ Dados\Focos_incendio\historico_estado_para.csv carregado como df_para
✔ Dados\Focos_incendio\historico_estado_roraima.csv carregado como df_roraima
✔ Dados\Focos_incendio\historico_estado_rondonia.csv carregado como df_rondonia
✔ Dados\Focos_incendio\historico_estado_tocantins.csv carregado como df_tocantins

 📂 DataFrames disponíveis: ['df_acre', 'df_amapa', 'df_amazonas', 'df_maranhao', 'df_mato_grosso', 'df_para', 'df_roraima', 'df_rondonia', 'df_tocantins']


##### 2. Visualização

 O formato original dos Dataframes possui 14 colunas e 31 linhas:
- "Unnamed: 0" contendo o ano do registro. Tipo **Object**
- 12 colunas representando o número de ocorrências de focos de incêndio dentre os meses de janeiro a dezembro. Tipo **Float64**
- Valor total de incêndios por ano. Tipo **Float64**

- Nas linhas estão presentes registros de 1998 a 2025.

Nota: As 3 últimas linhas do Dataframe são valores de "Máximo", "Média", e "Mínimo" por mês.

In [4]:
df_para.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 31 entries, 0 to 30
Data columns (total 14 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   Unnamed: 0  31 non-null     object 
 1   Janeiro     30 non-null     float64
 2   Fevereiro   30 non-null     float64
 3   Março       28 non-null     float64
 4   Abril       28 non-null     float64
 5   Maio        29 non-null     float64
 6   Junho       30 non-null     float64
 7   Julho       30 non-null     float64
 8   Agosto      30 non-null     float64
 9   Setembro    30 non-null     float64
 10  Outubro     30 non-null     float64
 11  Novembro    30 non-null     float64
 12  Dezembro    30 non-null     float64
 13  Total       31 non-null     float64
dtypes: float64(13), object(1)
memory usage: 3.5+ KB


In [6]:
df_para.tail()

Unnamed: 0.1,Unnamed: 0,Janeiro,Fevereiro,Março,Abril,Maio,Junho,Julho,Agosto,Setembro,Outubro,Novembro,Dezembro,Total
26,2024,633.0,260.0,113.0,52.0,211.0,635.0,3265.0,13803.0,17434.0,7120.0,9555.0,2989.0,56070.0
27,2025,356.0,63.0,,,,,,,,,,,419.0
28,Máximo*,2861.0,370.0,181.0,61.0,225.0,682.0,9464.0,23635.0,22055.0,11568.0,15958.0,10231.0,74214.0
29,Média*,587.0,99.0,44.0,30.0,91.0,367.0,2110.0,10506.0,9559.0,6774.0,7654.0,3588.0,41374.0
30,Mínimo*,30.0,14.0,7.0,6.0,4.0,37.0,426.0,2782.0,2569.0,3666.0,1862.0,650.0,18201.0


##### 3. Processamento

O objetivo final é unir os valores anuais de 1999 à 2020 de cada estado da região Norte em uma única tabela, para futura implementação de algoritmo de machine learning.

In [8]:
for arquivo, df_nome, estado in arquivos:
    #Acessa os Dataframes através das variaveis globais
    df = globals()[df_nome]

    #Processamento
    df.columns = df.columns.str.strip() #Remover espaços extras
    
    df.rename(columns = {'Unnamed: 0' : 'Ano'}, inplace=True) #Renomeia coluna de Ano

    df.rename(columns={'Total': f'{estado}'}, inplace=True) #Renomeia coluna Total para seu respectivo estado.
    print(f"🌟 Renomeando a coluna 'Total' para {estado} em {df_nome}")

    df.drop(meses, axis = 1, inplace=True) #Dropa colunas de Janeiro a Fevereiro
    print(f"🗑️ Removendo colunas Jan a Dez de {df_nome}")
    
    df.query('@anos in Ano', inplace=True) #Seleciona linhas dos respectivos anos por index, pois
    print(f"🌎 Selecionando intervalo 1999 a 2020 de registros de {df_nome}")


    globals()[df_nome] = df

🌟 Renomeando a coluna 'Total' para Acre em df_acre
🗑️ Removendo colunas Jan a Dez de df_acre
🌎 Selecionando intervalo 1999 a 2020 de registros de df_acre
🌟 Renomeando a coluna 'Total' para Amapá em df_amapa
🗑️ Removendo colunas Jan a Dez de df_amapa
🌎 Selecionando intervalo 1999 a 2020 de registros de df_amapa
🌟 Renomeando a coluna 'Total' para Amazonas em df_amazonas
🗑️ Removendo colunas Jan a Dez de df_amazonas
🌎 Selecionando intervalo 1999 a 2020 de registros de df_amazonas
🌟 Renomeando a coluna 'Total' para Maranhão em df_maranhao
🗑️ Removendo colunas Jan a Dez de df_maranhao
🌎 Selecionando intervalo 1999 a 2020 de registros de df_maranhao
🌟 Renomeando a coluna 'Total' para Mato Grosso em df_mato_grosso
🗑️ Removendo colunas Jan a Dez de df_mato_grosso
🌎 Selecionando intervalo 1999 a 2020 de registros de df_mato_grosso
🌟 Renomeando a coluna 'Total' para Pará em df_para
🗑️ Removendo colunas Jan a Dez de df_para
🌎 Selecionando intervalo 1999 a 2020 de registros de df_para
🌟 Renomeando

In [9]:
df_para.info()

<class 'pandas.core.frame.DataFrame'>
Index: 22 entries, 1 to 22
Data columns (total 2 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   Ano     22 non-null     object 
 1   Pará    22 non-null     float64
dtypes: float64(1), object(1)
memory usage: 528.0+ bytes


União das tabelas através da função merge()

In [10]:
merged_data = df_acre.merge(df_amapa, how='outer', on='Ano') \
                        .merge(df_amazonas, how='outer', on='Ano') \
                        .merge(df_maranhao, how='outer',  on='Ano') \
                        .merge(df_mato_grosso, how='outer',  on='Ano') \
                        .merge(df_para, how='outer', on='Ano') \
                        .merge(df_rondonia, how='outer', on='Ano') \
                        .merge(df_roraima, how='outer', on='Ano') \
                        .merge(df_tocantins, how='outer', on='Ano')

In [11]:
merged_data

Unnamed: 0,Ano,Acre,Amapá,Amazonas,Maranhão,Mato Grosso,Pará,Rondônia,Roraima,Tocantins
0,1999,347.0,101.0,1048.0,8712.0,44307.0,20478.0,7122.0,220.0,6687.0
1,2000,430.0,253.0,857.0,8983.0,26056.0,18201.0,5505.0,362.0,6554.0
2,2001,829.0,1300.0,1297.0,18696.0,33013.0,28590.0,5066.0,2415.0,9117.0
3,2002,6739.0,2664.0,8395.0,30464.0,69126.0,60238.0,28691.0,2466.0,14547.0
4,2003,10523.0,2516.0,10191.0,34548.0,70560.0,53040.0,30557.0,3987.0,12124.0
5,2004,7271.0,3413.0,8083.0,33585.0,97012.0,74214.0,40881.0,2221.0,15147.0
6,2005,15993.0,2020.0,15644.0,33691.0,72104.0,71477.0,41649.0,1461.0,16214.0
7,2006,6198.0,1665.0,11697.0,23302.0,43479.0,55840.0,25702.0,2189.0,10299.0
8,2007,8549.0,1484.0,11293.0,44765.0,79968.0,68491.0,27500.0,3244.0,25389.0
9,2008,5699.0,2153.0,6701.0,22122.0,29448.0,48449.0,11560.0,1950.0,10753.0


In [16]:
path = os.path.join('Dados', 'Focos_incendio', 'firefoci.csv')
merged_data.to_csv(path, index = False, encoding="utf-8")
os.getcwd()


'd:\\studs\\git\\datacleaning-labsensing'