## Análise Exploratória Inicial dos Dados

Este notebook realiza uma análise exploratória inicial dos dados, abrangendo as seguintes etapas:

1. **Carregamento dos Dados**: Importação e preparação inicial do conjunto de dados para análise.
2. **Inspeção Inicial**: Verificação da estrutura dos dados, incluindo dimensões, tipos de variáveis e valores ausentes.
3. **Limpeza Básica**: Tratamento de inconsistências, remoção de valores inválidos e ajustes necessários para garantir a qualidade dos dados.
4. **Visualizações Simples**: Geração de gráficos e tabelas para identificar padrões, tendências e possíveis anomalias nos dados.

O objetivo deste notebook é preparar e explorar os dados de forma preliminar, fornecendo insights iniciais e garantindo que estejam prontos para análises mais avançadas.

_______________________________________________________
### Importação das principais bibliotecas

In [1]:
import pandas as pd
import numpy as np
import geopandas as gpd
import geopandas.tools
import matplotlib.pyplot as plt
import seaborn as sns
import os
import folium

# --- **DADOS: (INPE) 2023 A 2024** ---

# 2019 (INPE Focos Queimadas Sat._Ref_RO)
____

### 🎲 Carregamento INPE - Focos Queimadas Anuais_Satélite_Referência_Ro_2019

In [2]:
df_foc_queimadas_2019 = pd.read_csv('../data/brutos/INPE_focos_queimadas_ano_sat_ref_ro_2019-2024/focos_br_ro_ref_2019.csv', sep=',')
df_foc_queimadas_2019.head()

Unnamed: 0,id_bdq,foco_id,lat,lon,data_pas,pais,estado,municipio,bioma
0,1408346307,af46e7c0-6898-31a4-b688-0dc83f924e97,-9.597,-63.155,2019-11-06 17:40:00,Brasil,RONDÔNIA,ALTO PARAÍSO,Amazônia
1,1408346306,abfcc502-192f-359b-ac7c-c877938c9983,-9.609,-63.245,2019-11-06 17:40:00,Brasil,RONDÔNIA,ALTO PARAÍSO,Amazônia
2,1408346305,86269d85-0b7f-373a-8920-1813cdeaec46,-9.611,-63.409,2019-11-06 17:40:00,Brasil,RONDÔNIA,ALTO PARAÍSO,Amazônia
3,1408346304,7143fbb1-e4b9-3e36-a155-95e40c2eee78,-9.634,-62.829,2019-11-06 17:40:00,Brasil,RONDÔNIA,RIO CRESPO,Amazônia
4,1408346303,648bd7d5-5f78-376d-be5f-a55b60d25e64,-9.658,-63.301,2019-11-06 17:40:00,Brasil,RONDÔNIA,ALTO PARAÍSO,Amazônia


In [3]:
# Contagem de linhas do dataframe bruto 
print(df_foc_queimadas_2019.shape[0])

11230


In [4]:
print(df_foc_queimadas_2019.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 11230 entries, 0 to 11229
Data columns (total 9 columns):
 #   Column     Non-Null Count  Dtype  
---  ------     --------------  -----  
 0   id_bdq     11230 non-null  int64  
 1   foco_id    11230 non-null  object 
 2   lat        11230 non-null  float64
 3   lon        11230 non-null  float64
 4   data_pas   11230 non-null  object 
 5   pais       11230 non-null  object 
 6   estado     11230 non-null  object 
 7   municipio  11230 non-null  object 
 8   bioma      11230 non-null  object 
dtypes: float64(2), int64(1), object(6)
memory usage: 789.7+ KB
None


### Tratamento dos dados

In [5]:
# Verifica se existem dados nulos e duplicados no dataframe 
print(df_foc_queimadas_2019.isnull().sum())
print(f'Dados duplicados', df_foc_queimadas_2019.duplicated().sum())


id_bdq       0
foco_id      0
lat          0
lon          0
data_pas     0
pais         0
estado       0
municipio    0
bioma        0
dtype: int64
Dados duplicados 0


In [6]:
# ENCONTRAR DADOS DUPLICADOS E AUSENTES
df_foc_queimadas_2019.duplicated()
df_foc_queimadas_2019.isnull()
df_foc_queimadas_2019.dropna()

# Verificar se existem linhas duplicadas
tem_duplicadas = df_foc_queimadas_2019.duplicated().any()

# Exibir as linhas duplicadas
linhas_duplicadas = df_foc_queimadas_2019[df_foc_queimadas_2019.duplicated()]

# Remover as linhas duplicadas (opcional)
df_foc_queimadas_2019 = df_foc_queimadas_2019.drop_duplicates()

# Verifica os valores nulos no Dataframe
tem_nulos = df_foc_queimadas_2019.isnull().any().any()

# Remover linhas com valores nulos (opcional)
df_foc_queimadas_2019 = df_foc_queimadas_2019.dropna()

In [7]:
display(df_foc_queimadas_2019)

Unnamed: 0,id_bdq,foco_id,lat,lon,data_pas,pais,estado,municipio,bioma
0,1408346307,af46e7c0-6898-31a4-b688-0dc83f924e97,-9.597,-63.155,2019-11-06 17:40:00,Brasil,RONDÔNIA,ALTO PARAÍSO,Amazônia
1,1408346306,abfcc502-192f-359b-ac7c-c877938c9983,-9.609,-63.245,2019-11-06 17:40:00,Brasil,RONDÔNIA,ALTO PARAÍSO,Amazônia
2,1408346305,86269d85-0b7f-373a-8920-1813cdeaec46,-9.611,-63.409,2019-11-06 17:40:00,Brasil,RONDÔNIA,ALTO PARAÍSO,Amazônia
3,1408346304,7143fbb1-e4b9-3e36-a155-95e40c2eee78,-9.634,-62.829,2019-11-06 17:40:00,Brasil,RONDÔNIA,RIO CRESPO,Amazônia
4,1408346303,648bd7d5-5f78-376d-be5f-a55b60d25e64,-9.658,-63.301,2019-11-06 17:40:00,Brasil,RONDÔNIA,ALTO PARAÍSO,Amazônia
...,...,...,...,...,...,...,...,...,...
11225,1405842825,fd9a3464-d15c-30d8-b080-3778762a628f,-12.312,-62.040,2019-10-03 17:50:00,Brasil,RONDÔNIA,ALTA FLORESTA D'OESTE,Amazônia
11226,1405842824,e9de5864-2e54-383d-98a2-85e44a92dd78,-12.311,-62.031,2019-10-03 17:50:00,Brasil,RONDÔNIA,ALTA FLORESTA D'OESTE,Amazônia
11227,1406394217,ffba77b2-568f-383a-89bf-699c9cac5205,-9.431,-63.541,2019-10-12 17:45:00,Brasil,RONDÔNIA,ALTO PARAÍSO,Amazônia
11228,1406394216,3194b407-cdd2-39f5-9b41-3dd72b8f1613,-9.614,-62.038,2019-10-12 17:45:00,Brasil,RONDÔNIA,VALE DO ANARI,Amazônia


### 💾 Salvando o dataframe tratado em um arquivo .csv

In [8]:
# 1. Padronizar nomes das colunas (snake_case)  
df_foc_queimadas_2019.columns = [  
    coluna.lower().replace(' ', '_').replace('ç', 'c').replace('ã', 'a')  
    for coluna in df_foc_queimadas_2019.columns  
]  

# 2. Garantir que 'data_pas' esteja como datetime  
df_foc_queimadas_2019['data_pas'] = pd.to_datetime(df_foc_queimadas_2019['data_pas'])  

# 3. Criar diretório de saída (se não existir)  
output_dir = '../data/processados/tratados'  
os.makedirs(output_dir, exist_ok=True)  

# 4. Salvar em CSV (com encoding UTF-8 e sem índices)  
nome_arquivo = f"{output_dir}/focos_tratados-df_foc_queimadas_2019_{pd.Timestamp.now().strftime('%Y%m%d')}.csv"  
df_foc_queimadas_2019.to_csv(nome_arquivo, index=False, encoding='utf-8')  

print(f"✅ Arquivo salvo em: {nome_arquivo}")  

✅ Arquivo salvo em: ../data/processados/tratados/focos_tratados-df_foc_queimadas_2019_20250406.csv


# 2020 (INPE Focos Queimadas Sat._Ref_RO)
____

### 🎲 Carregamento INPE - Focos Queimadas Anuais_Satélite_Referência_Ro_2020

In [9]:
df_foc_queimadas_2020 = pd.read_csv('../data/brutos/INPE_focos_queimadas_ano_sat_ref_ro_2019-2024/focos_br_ro_ref_2020.csv', sep=',')
df_foc_queimadas_2020.head()

Unnamed: 0,id_bdq,foco_id,lat,lon,data_pas,pais,estado,municipio,bioma
0,1500003545,ac8abed5-6e41-3592-abc8-d29eff3faf96,-11.502,-60.486,2020-06-19 17:25:00,Brasil,RONDÔNIA,PIMENTA BUENO,Amazônia
1,1520688934,b09b75f0-0a7b-3fe4-807c-5223a01a8d8d,-12.753,-60.336,2020-11-28 17:15:00,Brasil,RONDÔNIA,VILHENA,Amazônia
2,1520688905,a9b8169d-4b5e-3c83-b23b-459d507963d4,-9.477,-62.412,2020-11-28 17:15:00,Brasil,RONDÔNIA,MACHADINHO D'OESTE,Amazônia
3,1520688810,a7f82c58-b24d-3ab7-ae80-0f5cc382cf99,-10.286,-62.616,2020-11-28 17:15:00,Brasil,RONDÔNIA,THEOBROMA,Amazônia
4,1520688793,4f74d8a9-ba7d-32e1-825c-1000f0d18f54,-12.562,-61.405,2020-11-28 17:15:00,Brasil,RONDÔNIA,PIMENTEIRAS DO OESTE,Amazônia


In [10]:
print(df_foc_queimadas_2020.shape[0])

11145


In [11]:
print(df_foc_queimadas_2020.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 11145 entries, 0 to 11144
Data columns (total 9 columns):
 #   Column     Non-Null Count  Dtype  
---  ------     --------------  -----  
 0   id_bdq     11145 non-null  int64  
 1   foco_id    11145 non-null  object 
 2   lat        11145 non-null  float64
 3   lon        11145 non-null  float64
 4   data_pas   11145 non-null  object 
 5   pais       11145 non-null  object 
 6   estado     11145 non-null  object 
 7   municipio  11145 non-null  object 
 8   bioma      11145 non-null  object 
dtypes: float64(2), int64(1), object(6)
memory usage: 783.8+ KB
None


### Tratamento dos dados

In [12]:
# Verifica se existem dados duplicados e nulos no dataframe 
print(df_foc_queimadas_2020.isnull().sum())
print(f'Dados duplicados', df_foc_queimadas_2020.duplicated().sum())

id_bdq       0
foco_id      0
lat          0
lon          0
data_pas     0
pais         0
estado       0
municipio    0
bioma        0
dtype: int64
Dados duplicados 0


In [13]:
# ENCONTRAR DADOS DUPLICADOS E AUSENTES
df_foc_queimadas_2020.duplicated()
df_foc_queimadas_2020.isnull()
df_foc_queimadas_2020.dropna()

# Verificar se existem linhas duplicadas
tem_duplicadas = df_foc_queimadas_2020.duplicated().any()

# Exibir as linhas duplicadas
linhas_duplicadas = df_foc_queimadas_2020[df_foc_queimadas_2020.duplicated()]

# Remover as linhas duplicadas (opcional)
df_foc_queimadas_2020 = df_foc_queimadas_2020.drop_duplicates()

# Verifica os valores nulos no Dataframe
tem_nulos = df_foc_queimadas_2020.isnull().any().any()

# Remover linhas com valores nulos (opcional)
df_foc_queimadas_2020 = df_foc_queimadas_2020.dropna()

In [14]:
display(df_foc_queimadas_2020)

Unnamed: 0,id_bdq,foco_id,lat,lon,data_pas,pais,estado,municipio,bioma
0,1500003545,ac8abed5-6e41-3592-abc8-d29eff3faf96,-11.502,-60.486,2020-06-19 17:25:00,Brasil,RONDÔNIA,PIMENTA BUENO,Amazônia
1,1520688934,b09b75f0-0a7b-3fe4-807c-5223a01a8d8d,-12.753,-60.336,2020-11-28 17:15:00,Brasil,RONDÔNIA,VILHENA,Amazônia
2,1520688905,a9b8169d-4b5e-3c83-b23b-459d507963d4,-9.477,-62.412,2020-11-28 17:15:00,Brasil,RONDÔNIA,MACHADINHO D'OESTE,Amazônia
3,1520688810,a7f82c58-b24d-3ab7-ae80-0f5cc382cf99,-10.286,-62.616,2020-11-28 17:15:00,Brasil,RONDÔNIA,THEOBROMA,Amazônia
4,1520688793,4f74d8a9-ba7d-32e1-825c-1000f0d18f54,-12.562,-61.405,2020-11-28 17:15:00,Brasil,RONDÔNIA,PIMENTEIRAS DO OESTE,Amazônia
...,...,...,...,...,...,...,...,...,...
11140,1422580223,00292711-de7c-3c09-9bac-b7f0d441256d,-12.728,-60.306,2020-06-12 17:20:00,Brasil,RONDÔNIA,VILHENA,Amazônia
11141,1422660721,d8eff1e3-f2fb-3253-8dfa-02dcd8a925fe,-12.298,-64.116,2020-06-13 18:05:00,Brasil,RONDÔNIA,COSTA MARQUES,Amazônia
11142,1422660719,64e55cb4-996f-3527-b443-d0ce1b0b78ad,-13.500,-60.980,2020-06-13 18:05:00,Brasil,RONDÔNIA,PIMENTEIRAS DO OESTE,Amazônia
11143,1422660717,e4a5eb64-08df-3b90-b340-fae7ec38de67,-9.489,-62.984,2020-06-13 18:05:00,Brasil,RONDÔNIA,CUJUBIM,Amazônia


### 💾 Salvando o dataframe tratado em um arquivo .csv

In [15]:
# 1. Padronizar nomes das colunas (snake_case)  
df_foc_queimadas_2020.columns = [  
    coluna.lower().replace(' ', '_').replace('ç', 'c').replace('ã', 'a')  
    for coluna in df_foc_queimadas_2020.columns  
]  

# 2. Garantir que 'data_pas' esteja como datetime  
df_foc_queimadas_2020['data_pas'] = pd.to_datetime(df_foc_queimadas_2020['data_pas'])  

# 3. Criar diretório de saída (se não existir)  
output_dir = '../data/processados/tratados'  
os.makedirs(output_dir, exist_ok=True)  

# 4. Salvar em CSV (com encoding UTF-8 e sem índices)  
nome_arquivo = f"{output_dir}/focos_tratados-df_foc_queimadas_2020_{pd.Timestamp.now().strftime('%Y%m%d')}.csv"  
df_foc_queimadas_2020.to_csv(nome_arquivo, index=False, encoding='utf-8')  

print(f"✅ Arquivo salvo em: {nome_arquivo}")  

✅ Arquivo salvo em: ../data/processados/tratados/focos_tratados-df_foc_queimadas_2020_20250406.csv


# 2021 (INPE Focos Queimadas Sat._Ref_RO)
____

### 🎲 Carregamento INPE - Focos Queimadas Anuais_Satélite_Referência_Ro_2021

In [16]:
df_foc_queimadas_2021 = pd.read_csv('../data/brutos/INPE_focos_queimadas_ano_sat_ref_ro_2019-2024/focos_br_ro_ref_2021.csv', sep=',')
df_foc_queimadas_2021.head()

Unnamed: 0,id_bdq,foco_id,lat,lon,data_pas,pais,estado,municipio,bioma
0,1570069576,fc7dbc66-1120-3e97-b1e4-90fff37f8aa0,-12.01189,-63.53592,2021-12-04 17:47:00,Brasil,RONDÔNIA,SÃO FRANCISCO DO GUAPORÉ,Amazônia
1,1570069592,5a8257db-ca0a-3fbd-b752-df32c1509163,-12.29283,-62.29261,2021-12-04 17:47:00,Brasil,RONDÔNIA,ALTA FLORESTA D'OESTE,Amazônia
2,1570069608,36cd32ad-ad4b-3e41-9032-f8348c697ca1,-12.30327,-62.3007,2021-12-04 17:47:00,Brasil,RONDÔNIA,ALTA FLORESTA D'OESTE,Amazônia
3,1570069860,82f41164-0eb0-3f31-8bf0-7c965edaca15,-10.40329,-65.23595,2021-12-04 17:49:00,Brasil,RONDÔNIA,NOVA MAMORÉ,Amazônia
4,1570069877,8eb9c82a-4dbd-3dcd-a694-0aff4b398d45,-10.43507,-65.15567,2021-12-04 17:49:00,Brasil,RONDÔNIA,NOVA MAMORÉ,Amazônia


In [17]:
print(df_foc_queimadas_2021.shape[0])

10030


In [18]:
df_foc_queimadas_2021.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10030 entries, 0 to 10029
Data columns (total 9 columns):
 #   Column     Non-Null Count  Dtype  
---  ------     --------------  -----  
 0   id_bdq     10030 non-null  int64  
 1   foco_id    10030 non-null  object 
 2   lat        10030 non-null  float64
 3   lon        10030 non-null  float64
 4   data_pas   10030 non-null  object 
 5   pais       10030 non-null  object 
 6   estado     10030 non-null  object 
 7   municipio  10030 non-null  object 
 8   bioma      10030 non-null  object 
dtypes: float64(2), int64(1), object(6)
memory usage: 705.4+ KB


### Tratamento dos dados

In [19]:
# Verifica a existência de dados duplicados e dados nulos no dataframe 
print(df_foc_queimadas_2021.isnull().sum())
print(f'Dados duplicados', df_foc_queimadas_2021.duplicated().sum())

id_bdq       0
foco_id      0
lat          0
lon          0
data_pas     0
pais         0
estado       0
municipio    0
bioma        0
dtype: int64
Dados duplicados 0


In [20]:
# ENCONTRAR DADOS DUPLICADOS E AUSENTES
df_foc_queimadas_2021.duplicated()
df_foc_queimadas_2021.isnull()
df_foc_queimadas_2021.dropna()

# Verificar se existem linhas duplicadas
tem_duplicadas = df_foc_queimadas_2021.duplicated().any()

# Exibir as linhas duplicadas
linhas_duplicadas = df_foc_queimadas_2021[df_foc_queimadas_2021.duplicated()]

# Remover as linhas duplicadas (opcional)
df_foc_queimadas_2021 = df_foc_queimadas_2021.drop_duplicates()

# Verifica os valores nulos no Dataframe
tem_nulos = df_foc_queimadas_2021.isnull().any().any()

# Remover linhas com valores nulos (opcional)
df_foc_queimadas_2021 = df_foc_queimadas_2021.dropna()

print(df_foc_queimadas_2021.isnull().sum())
print(f'Dados duplicados', df_foc_queimadas_2021.duplicated().sum())

id_bdq       0
foco_id      0
lat          0
lon          0
data_pas     0
pais         0
estado       0
municipio    0
bioma        0
dtype: int64
Dados duplicados 0


In [21]:
print(df_foc_queimadas_2021.shape[0])

10030


### 💾 Salvando o dataframe tratado em um arquivo .csv

In [22]:
# 1. Padronizar nomes das colunas (snake_case)  
df_foc_queimadas_2021.columns = [  
    coluna.lower().replace(' ', '_').replace('ç', 'c').replace('ã', 'a')  
    for coluna in df_foc_queimadas_2021.columns  
]  

# 2. Garantir que 'data_pas' esteja como datetime  
df_foc_queimadas_2021['data_pas'] = pd.to_datetime(df_foc_queimadas_2021['data_pas'])  

# 3. Criar diretório de saída (se não existir)  
output_dir = '../data/processados/tratados'  
os.makedirs(output_dir, exist_ok=True)  

# 4. Salvar em CSV (com encoding UTF-8 e sem índices)  
nome_arquivo = f"{output_dir}/focos_tratados-df_foc_queimadas_2021_{pd.Timestamp.now().strftime('%Y%m%d')}.csv"  
df_foc_queimadas_2021.to_csv(nome_arquivo, index=False, encoding='utf-8')  

print(f"✅ Arquivo salvo em: {nome_arquivo}")  

✅ Arquivo salvo em: ../data/processados/tratados/focos_tratados-df_foc_queimadas_2021_20250406.csv


# 2022 (INPE Focos Queimadas Sat._Ref_RO)
____

### 🎲 Carregamento INPE - Focos Queimadas Anuais_Satélite_Referência_Ro_2022

In [23]:
df_foc_queimadas_2022 = pd.read_csv('../data/brutos/INPE_focos_queimadas_ano_sat_ref_ro_2019-2024/focos_br_ro_ref_2022.csv', sep=',')
df_foc_queimadas_2022.head()

Unnamed: 0,id_bdq,foco_id,lat,lon,data_pas,pais,estado,municipio,bioma
0,1584716303,f06bf4c7-7b55-30fb-8ab3-3b426c8e902d,-13.2935,-61.02932,2022-04-22 17:24:00,Brasil,RONDÔNIA,PIMENTEIRAS DO OESTE,Amazônia
1,1584716366,a9a131b6-95aa-3af8-bdbe-5e042276463c,-13.43463,-61.4307,2022-04-22 17:24:00,Brasil,RONDÔNIA,PIMENTEIRAS DO OESTE,Amazônia
2,1584981766,72553a4f-2cc0-32b0-b7cb-540e2c1d2488,-10.20745,-63.14499,2022-04-25 17:54:00,Brasil,RONDÔNIA,CACAULÂNDIA,Amazônia
3,1584981767,36e143e5-a1b5-3072-8c20-767895326d26,-10.44827,-63.67271,2022-04-25 17:54:00,Brasil,RONDÔNIA,CAMPO NOVO DE RONDÔNIA,Amazônia
4,1584981769,de7ccaae-cdc9-302f-b1c2-94a9f666909e,-11.20048,-65.05637,2022-04-25 17:54:00,Brasil,RONDÔNIA,GUAJARÁ-MIRIM,Amazônia


In [24]:
print(df_foc_queimadas_2022.shape[0])

12460


In [25]:
df_foc_queimadas_2022.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 12460 entries, 0 to 12459
Data columns (total 9 columns):
 #   Column     Non-Null Count  Dtype  
---  ------     --------------  -----  
 0   id_bdq     12460 non-null  int64  
 1   foco_id    12460 non-null  object 
 2   lat        12460 non-null  float64
 3   lon        12460 non-null  float64
 4   data_pas   12460 non-null  object 
 5   pais       12460 non-null  object 
 6   estado     12460 non-null  object 
 7   municipio  12460 non-null  object 
 8   bioma      12460 non-null  object 
dtypes: float64(2), int64(1), object(6)
memory usage: 876.2+ KB


### Tratamento dos dados

In [26]:
# Verifica a existência de dados duplicados e dados nulos no dataframe 
print(df_foc_queimadas_2022.isnull().sum())
print(f'Dados duplicados', df_foc_queimadas_2022.duplicated().sum())

id_bdq       0
foco_id      0
lat          0
lon          0
data_pas     0
pais         0
estado       0
municipio    0
bioma        0
dtype: int64
Dados duplicados 0


In [27]:
# ENCONTRAR DADOS DUPLICADOS E AUSENTES
df_foc_queimadas_2022.duplicated()
df_foc_queimadas_2022.isnull()
df_foc_queimadas_2022.dropna()

# Verificar se existem linhas duplicadas
tem_duplicadas = df_foc_queimadas_2022.duplicated().any()

# Exibir as linhas duplicadas
linhas_duplicadas = df_foc_queimadas_2022[df_foc_queimadas_2022.duplicated()]

# Remover as linhas duplicadas (opcional)
df_foc_queimadas_2022 = df_foc_queimadas_2022.drop_duplicates()

# Verifica os valores nulos no Dataframe
tem_nulos = df_foc_queimadas_2022.isnull().any().any()

# Remover linhas com valores nulos (opcional)
df_foc_queimadas_2022 = df_foc_queimadas_2022.dropna()

print(df_foc_queimadas_2022.isnull().sum())
print(f'Dados duplicados', df_foc_queimadas_2022.duplicated().sum())

id_bdq       0
foco_id      0
lat          0
lon          0
data_pas     0
pais         0
estado       0
municipio    0
bioma        0
dtype: int64
Dados duplicados 0


### 💾 Salvando o dataframe tratado em um arquivo .csv

In [28]:
# 1. Padronizar nomes das colunas (snake_case)  
df_foc_queimadas_2022.columns = [  
    coluna.lower().replace(' ', '_').replace('ç', 'c').replace('ã', 'a')  
    for coluna in df_foc_queimadas_2022.columns  
]  

# 2. Garantir que 'data_pas' esteja como datetime  
df_foc_queimadas_2022['data_pas'] = pd.to_datetime(df_foc_queimadas_2022['data_pas'])  

# 3. Criar diretório de saída (se não existir)  
output_dir = '../data/processados/tratados'  
os.makedirs(output_dir, exist_ok=True)  

# 4. Salvar em CSV (com encoding UTF-8 e sem índices)  
nome_arquivo = f"{output_dir}/focos_tratados-df_foc_queimadas_2022_{pd.Timestamp.now().strftime('%Y%m%d')}.csv"  
df_foc_queimadas_2022.to_csv(nome_arquivo, index=False, encoding='utf-8')  

print(f"✅ Arquivo salvo em: {nome_arquivo}")  

✅ Arquivo salvo em: ../data/processados/tratados/focos_tratados-df_foc_queimadas_2022_20250406.csv


# 2023 (INPE Focos Queimadas Sat._Ref_RO)
____

### 🎲 Carregamento INPE - Focos Queimadas Anuais_Satélite_Referência_Ro_2023

In [29]:
df_foc_queimadas_2023 = pd.read_csv('../data/brutos/INPE_focos_queimadas_ano_sat_ref_ro_2019-2024/focos_br_ro_ref_2023.csv', sep=',')
df_foc_queimadas_2023.head()

Unnamed: 0,id_bdq,foco_id,lat,lon,data_pas,pais,estado,municipio,bioma
0,1615732324,7d21d7bb-3aa1-384f-baf6-022395c15580,-12.15715,-63.89292,2023-01-08 18:13:00,Brasil,RONDÔNIA,SÃO FRANCISCO DO GUAPORÉ,Amazônia
1,1615732325,845f400d-99c6-3454-a077-cef3d567bded,-12.44201,-63.63117,2023-01-08 18:13:00,Brasil,RONDÔNIA,SÃO FRANCISCO DO GUAPORÉ,Amazônia
2,1615732328,cb171026-3f51-3a2f-b747-b72cbc027411,-12.7656,-61.93178,2023-01-08 18:13:00,Brasil,RONDÔNIA,ALTO ALEGRE DOS PARECIS,Amazônia
3,1615978211,a3250227-7d0a-3099-a80d-087f5e5ad5bb,-11.01511,-62.58382,2023-01-10 18:00:00,Brasil,RONDÔNIA,NOVA UNIÃO,Amazônia
4,1615978212,5c7f99bc-314c-3685-a05e-71fcd45d7aaa,-11.01641,-62.59291,2023-01-10 18:00:00,Brasil,RONDÔNIA,MIRANTE DA SERRA,Amazônia


In [30]:
print(df_foc_queimadas_2023.shape[0])

7417


In [31]:
df_foc_queimadas_2023.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7417 entries, 0 to 7416
Data columns (total 9 columns):
 #   Column     Non-Null Count  Dtype  
---  ------     --------------  -----  
 0   id_bdq     7417 non-null   int64  
 1   foco_id    7417 non-null   object 
 2   lat        7417 non-null   float64
 3   lon        7417 non-null   float64
 4   data_pas   7417 non-null   object 
 5   pais       7417 non-null   object 
 6   estado     7417 non-null   object 
 7   municipio  7417 non-null   object 
 8   bioma      7417 non-null   object 
dtypes: float64(2), int64(1), object(6)
memory usage: 521.6+ KB


### Tratamento dos dados

In [32]:
# Verifica a existência de dados duplicados e dados nulos no dataframe 
print(df_foc_queimadas_2023.isnull().sum())
print(f'Dados duplicados', df_foc_queimadas_2023.duplicated().sum())

id_bdq       0
foco_id      0
lat          0
lon          0
data_pas     0
pais         0
estado       0
municipio    0
bioma        0
dtype: int64
Dados duplicados 0


In [33]:
# ENCONTRAR DADOS DUPLICADOS E AUSENTES
df_foc_queimadas_2023.duplicated()
df_foc_queimadas_2023.isnull()
df_foc_queimadas_2023.dropna()

# Verificar se existem linhas duplicadas
tem_duplicadas = df_foc_queimadas_2023.duplicated().any()

# Exibir as linhas duplicadas
linhas_duplicadas = df_foc_queimadas_2023[df_foc_queimadas_2023.duplicated()]

# Remover as linhas duplicadas (opcional)
df_foc_queimadas_2023 = df_foc_queimadas_2023.drop_duplicates()

# Verifica os valores nulos no Dataframe
tem_nulos = df_foc_queimadas_2023.isnull().any().any()

# Remover linhas com valores nulos (opcional)
df_foc_queimadas_2023 = df_foc_queimadas_2023.dropna()

print(df_foc_queimadas_2023.isnull().sum())
print(f'Dados duplicados', df_foc_queimadas_2023.duplicated().sum())

id_bdq       0
foco_id      0
lat          0
lon          0
data_pas     0
pais         0
estado       0
municipio    0
bioma        0
dtype: int64
Dados duplicados 0


### 💾 Salvando o dataframe tratado em um arquivo .csv

In [34]:
# 1. Padronizar nomes das colunas (snake_case)  
df_foc_queimadas_2023.columns = [  
    coluna.lower().replace(' ', '_').replace('ç', 'c').replace('ã', 'a')  
    for coluna in df_foc_queimadas_2023.columns  
]  

# 2. Garantir que 'data_pas' esteja como datetime  
df_foc_queimadas_2023['data_pas'] = pd.to_datetime(df_foc_queimadas_2023['data_pas'])  

# 3. Criar diretório de saída (se não existir)  
output_dir = '../data/processados/tratados'  
os.makedirs(output_dir, exist_ok=True)  

# 4. Salvar em CSV (com encoding UTF-8 e sem índices)  
nome_arquivo = f"{output_dir}/focos_tratados-df_foc_queimadas_2023_{pd.Timestamp.now().strftime('%Y%m%d')}.csv"  
df_foc_queimadas_2023.to_csv(nome_arquivo, index=False, encoding='utf-8')  

print(f"✅ Arquivo salvo em: {nome_arquivo}")  

✅ Arquivo salvo em: ../data/processados/tratados/focos_tratados-df_foc_queimadas_2023_20250406.csv


# 2024 (INPE Focos Queimadas Sat._Ref_RO)
____

### 🎲 Carregamento INPE - Focos Queimadas Anuais_Satélite_Referência_Ro_2024

In [35]:
df_foc_queimadas_2024 = pd.read_csv('../data/brutos/INPE_focos_queimadas_ano_sat_ref_ro_2019-2024/focos_br_ro_ref_2024.csv', sep=',')
df_foc_queimadas_2024.head()

Unnamed: 0,id_bdq,foco_id,lat,lon,data_pas,pais,estado,municipio,bioma
0,1666954553,c21b7ccc-e950-3a3f-a9d2-535315ebdbe3,-9.93708,-62.63176,2024-01-08 18:00:00,Brasil,RONDÔNIA,ARIQUEMES,Amazônia
1,1666954554,0c6afb2f-c690-3e48-bbdf-c23c9bac412c,-9.62973,-63.07769,2024-01-08 18:00:00,Brasil,RONDÔNIA,ALTO PARAÍSO,Amazônia
2,1666954555,c6a52e7c-b383-353b-8817-f3e7644e04ee,-9.51919,-63.02469,2024-01-08 18:00:00,Brasil,RONDÔNIA,CUJUBIM,Amazônia
3,1666954556,77a81f0d-1a4c-36b3-9654-a81bc4119835,-9.50836,-62.60933,2024-01-08 18:00:00,Brasil,RONDÔNIA,CUJUBIM,Amazônia
4,1666954557,8d70e9e7-436e-3190-aa71-4c617fc19433,-9.42498,-62.00077,2024-01-08 18:00:00,Brasil,RONDÔNIA,MACHADINHO D'OESTE,Amazônia


In [36]:
print(df_foc_queimadas_2024.shape[0])

10692


In [37]:
df_foc_queimadas_2024.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10692 entries, 0 to 10691
Data columns (total 9 columns):
 #   Column     Non-Null Count  Dtype  
---  ------     --------------  -----  
 0   id_bdq     10692 non-null  int64  
 1   foco_id    10692 non-null  object 
 2   lat        10692 non-null  float64
 3   lon        10692 non-null  float64
 4   data_pas   10692 non-null  object 
 5   pais       10692 non-null  object 
 6   estado     10692 non-null  object 
 7   municipio  10692 non-null  object 
 8   bioma      10692 non-null  object 
dtypes: float64(2), int64(1), object(6)
memory usage: 751.9+ KB


### Tratamento dos dados

In [38]:
# Verifica a existência de dados duplicados e dados nulos no dataframe 
print(df_foc_queimadas_2024.isnull().sum())
print(f'Dados duplicados', df_foc_queimadas_2024.duplicated().sum())

id_bdq       0
foco_id      0
lat          0
lon          0
data_pas     0
pais         0
estado       0
municipio    0
bioma        0
dtype: int64
Dados duplicados 0


In [39]:
# ENCONTRAR DADOS DUPLICADOS E AUSENTES
df_foc_queimadas_2024.duplicated()
df_foc_queimadas_2024.isnull()
df_foc_queimadas_2024.dropna()

# Verificar se existem linhas duplicadas
tem_duplicadas = df_foc_queimadas_2024.duplicated().any()

# Exibir as linhas duplicadas
linhas_duplicadas = df_foc_queimadas_2024[df_foc_queimadas_2024.duplicated()]

# Remover as linhas duplicadas (opcional)
df_foc_queimadas_2024 = df_foc_queimadas_2024.drop_duplicates()

# Verifica os valores nulos no Dataframe
tem_nulos = df_foc_queimadas_2024.isnull().any().any()

# Remover linhas com valores nulos (opcional)
df_foc_queimadas_2024 = df_foc_queimadas_2024.dropna()

print(df_foc_queimadas_2024.isnull().sum())
print(f'Dados duplicados', df_foc_queimadas_2024.duplicated().sum())

id_bdq       0
foco_id      0
lat          0
lon          0
data_pas     0
pais         0
estado       0
municipio    0
bioma        0
dtype: int64
Dados duplicados 0


### 💾 Salvando o dataframe tratado em um arquivo .csv

In [40]:
# 1. Padronizar nomes das colunas (snake_case)  
df_foc_queimadas_2024.columns = [  
    coluna.lower().replace(' ', '_').replace('ç', 'c').replace('ã', 'a')  
    for coluna in df_foc_queimadas_2024.columns  
]  

# 2. Garantir que 'data_pas' esteja como datetime  
df_foc_queimadas_2024['data_pas'] = pd.to_datetime(df_foc_queimadas_2024['data_pas'])  

# 3. Criar diretório de saída (se não existir)  
output_dir = '../data/processados/tratados'  
os.makedirs(output_dir, exist_ok=True)  

# 4. Salvar em CSV (com encoding UTF-8 e sem índices)  
nome_arquivo = f"{output_dir}/focos_tratados-df_foc_queimadas_2024_{pd.Timestamp.now().strftime('%Y%m%d')}.csv"  
df_foc_queimadas_2024.to_csv(nome_arquivo, index=False, encoding='utf-8')  

print(f"✅ Arquivo salvo em: {nome_arquivo}")  

✅ Arquivo salvo em: ../data/processados/tratados/focos_tratados-df_foc_queimadas_2024_20250406.csv


# --- **DADOS: (AMS) 2023 A 2024** ---

# 2023 (AMS)
____

### 🎲 Carregamento INPE -Focos Queimadas AMS_2023

In [41]:
df_focus_ams_2023 = pd.read_csv('../data/brutos/INPE_focos_anual_ams_2023_2024/focos_ams_ref_2023.csv', sep=',')
df_focus_ams_2023.head()

Unnamed: 0,id_bdq,foco_id,lat,lon,data_pas,pais,estado,municipio,bioma
0,1615033233,9a03983d-e1b3-3df1-b5e6-0a4ca26e3548,-17.52869,-57.66138,2023-01-02 17:11:00,Brasil,MATO GROSSO,CÁCERES,Pantanal
1,1615033242,cebb86ae-4cbd-3acc-9e70-687003a37a60,-8.4251,-46.00357,2023-01-02 17:13:00,Brasil,MARANHÃO,TASSO FRAGOSO,Cerrado
2,1615033235,23953122-a8e4-3cd9-ac94-91aa2ad22ff4,-17.61373,-57.48255,2023-01-02 17:11:00,Brasil,MATO GROSSO,POCONÉ,Pantanal
3,1615033244,08da7635-56d1-3517-ba8b-c9b92afb7446,-9.05228,-46.17465,2023-01-02 17:13:00,Brasil,MARANHÃO,ALTO PARNAÍBA,Cerrado
4,1615033246,f397b155-c7e5-3f4f-a5ba-9f7ea2d65529,-9.48866,-48.88199,2023-01-02 17:13:00,Brasil,TOCANTINS,DOIS IRMÃOS DO TOCANTINS,Cerrado


In [42]:
print(df_focus_ams_2023.shape[0])

344136


In [43]:
print(df_focus_ams_2023.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 344136 entries, 0 to 344135
Data columns (total 9 columns):
 #   Column     Non-Null Count   Dtype  
---  ------     --------------   -----  
 0   id_bdq     344136 non-null  int64  
 1   foco_id    344136 non-null  object 
 2   lat        344136 non-null  float64
 3   lon        344136 non-null  float64
 4   data_pas   344136 non-null  object 
 5   pais       344136 non-null  object 
 6   estado     344136 non-null  object 
 7   municipio  344136 non-null  object 
 8   bioma      189901 non-null  object 
dtypes: float64(2), int64(1), object(6)
memory usage: 23.6+ MB
None


In [44]:
print(df_focus_ams_2023.describe())

             id_bdq            lat            lon
count  3.441360e+05  344136.000000  344136.000000
mean   1.646427e+09     -10.144690     -57.745873
std    1.353459e+07      10.881916       9.874955
min    1.614864e+09     -53.420540    -109.383870
25%    1.638772e+09     -16.088583     -65.360370
50%    1.650036e+09      -9.246305     -58.279070
75%    1.657001e+09      -3.530500     -49.799710
max    1.666026e+09      12.195750     -34.851200


### Exibe o Brasil e o Estado de rondônia no dataframe

In [45]:
# Exibe apenas o Brasil
df_focus_ams_2023_brasil = df_focus_ams_2023[df_focus_ams_2023['pais'] == 'Brasil']
# Exibe apenas o Estado de Rondônia 
df_focus_ams_2023_ro = df_focus_ams_2023[df_focus_ams_2023['estado'] == 'Rondônia']

# Exibe o Brasil e o Estado de rondônia 
df_focus_ams_2023_brasil_ro = df_focus_ams_2023[(df_focus_ams_2023['pais'] == 'Brasil') & (df_focus_ams_2023['estado'] == 'RONDÔNIA')]
display(df_focus_ams_2023_brasil_ro)





Unnamed: 0,id_bdq,foco_id,lat,lon,data_pas,pais,estado,municipio,bioma
1364,1615732324,7d21d7bb-3aa1-384f-baf6-022395c15580,-12.15715,-63.89292,2023-01-08 18:13:00,Brasil,RONDÔNIA,SÃO FRANCISCO DO GUAPORÉ,Amazônia
1365,1615732325,845f400d-99c6-3454-a077-cef3d567bded,-12.44201,-63.63117,2023-01-08 18:13:00,Brasil,RONDÔNIA,SÃO FRANCISCO DO GUAPORÉ,Amazônia
1368,1615732328,cb171026-3f51-3a2f-b747-b72cbc027411,-12.76560,-61.93178,2023-01-08 18:13:00,Brasil,RONDÔNIA,ALTO ALEGRE DOS PARECIS,Amazônia
1985,1615978211,a3250227-7d0a-3099-a80d-087f5e5ad5bb,-11.01511,-62.58382,2023-01-10 18:00:00,Brasil,RONDÔNIA,NOVA UNIÃO,Amazônia
1986,1615978212,5c7f99bc-314c-3685-a05e-71fcd45d7aaa,-11.01641,-62.59291,2023-01-10 18:00:00,Brasil,RONDÔNIA,MIRANTE DA SERRA,Amazônia
...,...,...,...,...,...,...,...,...,...
344066,1641122055,b366950d-2ff5-3bbf-baa8-7b8c3be480bf,-11.42307,-62.80320,2023-07-27 18:00:00,Brasil,RONDÔNIA,SÃO MIGUEL DO GUAPORÉ,Amazônia
344069,1641122056,6195f3f6-11d1-32e7-83ef-fd8a82415d5a,-10.95463,-63.01513,2023-07-27 18:00:00,Brasil,RONDÔNIA,JARU,Amazônia
344071,1641122057,08f64b91-cd7e-3ec6-b3a8-cebba4395431,-10.95323,-63.00483,2023-07-27 18:00:00,Brasil,RONDÔNIA,JARU,Amazônia
344074,1641122058,576e3620-a443-395a-b21f-90ef3603f01f,-10.84806,-65.05586,2023-07-27 18:00:00,Brasil,RONDÔNIA,GUAJARÁ-MIRIM,Amazônia


## Tratamento do novo Dataframe após filtro Brasil - Rondônia

In [46]:
# Verifica se existe dados nulos e duplicados no dataframe
print(df_focus_ams_2023_brasil_ro.isnull().sum())
print(f'Dados duplicados', df_focus_ams_2023_brasil_ro.duplicated().sum())

id_bdq       0
foco_id      0
lat          0
lon          0
data_pas     0
pais         0
estado       0
municipio    0
bioma        0
dtype: int64
Dados duplicados 0


In [47]:
# ENCONTRAR DADOS DUPLICADOS E AUSENTES
df_focus_ams_2023_brasil_ro.duplicated()
df_focus_ams_2023_brasil_ro.isnull()
df_focus_ams_2023_brasil_ro.dropna()

# Verificar se existem linhas duplicadas
tem_duplicadas = df_focus_ams_2023_brasil_ro.duplicated().any()

# Exibir as linhas duplicadas
linhas_duplicadas = df_focus_ams_2023_brasil_ro[df_focus_ams_2023_brasil_ro.duplicated()]

# Remover as linhas duplicadas (opcional)
df_focus_ams_2023_brasil_ro = df_focus_ams_2023_brasil_ro.drop_duplicates()

# Verifica os valores nulos no Dataframe
tem_nulos = df_focus_ams_2023_brasil_ro.isnull().any().any()

# Remover linhas com valores nulos (opcional)
df_focus_ams_2023_brasil_ro = df_focus_ams_2023_brasil_ro.dropna()

In [48]:
# Exibe o novo dataframe após o tratamento dos dados
display(df_focus_ams_2023_brasil_ro)

Unnamed: 0,id_bdq,foco_id,lat,lon,data_pas,pais,estado,municipio,bioma
1364,1615732324,7d21d7bb-3aa1-384f-baf6-022395c15580,-12.15715,-63.89292,2023-01-08 18:13:00,Brasil,RONDÔNIA,SÃO FRANCISCO DO GUAPORÉ,Amazônia
1365,1615732325,845f400d-99c6-3454-a077-cef3d567bded,-12.44201,-63.63117,2023-01-08 18:13:00,Brasil,RONDÔNIA,SÃO FRANCISCO DO GUAPORÉ,Amazônia
1368,1615732328,cb171026-3f51-3a2f-b747-b72cbc027411,-12.76560,-61.93178,2023-01-08 18:13:00,Brasil,RONDÔNIA,ALTO ALEGRE DOS PARECIS,Amazônia
1985,1615978211,a3250227-7d0a-3099-a80d-087f5e5ad5bb,-11.01511,-62.58382,2023-01-10 18:00:00,Brasil,RONDÔNIA,NOVA UNIÃO,Amazônia
1986,1615978212,5c7f99bc-314c-3685-a05e-71fcd45d7aaa,-11.01641,-62.59291,2023-01-10 18:00:00,Brasil,RONDÔNIA,MIRANTE DA SERRA,Amazônia
...,...,...,...,...,...,...,...,...,...
344066,1641122055,b366950d-2ff5-3bbf-baa8-7b8c3be480bf,-11.42307,-62.80320,2023-07-27 18:00:00,Brasil,RONDÔNIA,SÃO MIGUEL DO GUAPORÉ,Amazônia
344069,1641122056,6195f3f6-11d1-32e7-83ef-fd8a82415d5a,-10.95463,-63.01513,2023-07-27 18:00:00,Brasil,RONDÔNIA,JARU,Amazônia
344071,1641122057,08f64b91-cd7e-3ec6-b3a8-cebba4395431,-10.95323,-63.00483,2023-07-27 18:00:00,Brasil,RONDÔNIA,JARU,Amazônia
344074,1641122058,576e3620-a443-395a-b21f-90ef3603f01f,-10.84806,-65.05586,2023-07-27 18:00:00,Brasil,RONDÔNIA,GUAJARÁ-MIRIM,Amazônia


In [49]:
# Exibe o número total de linhas no novo dataframe
print(df_focus_ams_2023_brasil_ro.shape[0])
display(df_focus_ams_2023_brasil_ro)

7417


Unnamed: 0,id_bdq,foco_id,lat,lon,data_pas,pais,estado,municipio,bioma
1364,1615732324,7d21d7bb-3aa1-384f-baf6-022395c15580,-12.15715,-63.89292,2023-01-08 18:13:00,Brasil,RONDÔNIA,SÃO FRANCISCO DO GUAPORÉ,Amazônia
1365,1615732325,845f400d-99c6-3454-a077-cef3d567bded,-12.44201,-63.63117,2023-01-08 18:13:00,Brasil,RONDÔNIA,SÃO FRANCISCO DO GUAPORÉ,Amazônia
1368,1615732328,cb171026-3f51-3a2f-b747-b72cbc027411,-12.76560,-61.93178,2023-01-08 18:13:00,Brasil,RONDÔNIA,ALTO ALEGRE DOS PARECIS,Amazônia
1985,1615978211,a3250227-7d0a-3099-a80d-087f5e5ad5bb,-11.01511,-62.58382,2023-01-10 18:00:00,Brasil,RONDÔNIA,NOVA UNIÃO,Amazônia
1986,1615978212,5c7f99bc-314c-3685-a05e-71fcd45d7aaa,-11.01641,-62.59291,2023-01-10 18:00:00,Brasil,RONDÔNIA,MIRANTE DA SERRA,Amazônia
...,...,...,...,...,...,...,...,...,...
344066,1641122055,b366950d-2ff5-3bbf-baa8-7b8c3be480bf,-11.42307,-62.80320,2023-07-27 18:00:00,Brasil,RONDÔNIA,SÃO MIGUEL DO GUAPORÉ,Amazônia
344069,1641122056,6195f3f6-11d1-32e7-83ef-fd8a82415d5a,-10.95463,-63.01513,2023-07-27 18:00:00,Brasil,RONDÔNIA,JARU,Amazônia
344071,1641122057,08f64b91-cd7e-3ec6-b3a8-cebba4395431,-10.95323,-63.00483,2023-07-27 18:00:00,Brasil,RONDÔNIA,JARU,Amazônia
344074,1641122058,576e3620-a443-395a-b21f-90ef3603f01f,-10.84806,-65.05586,2023-07-27 18:00:00,Brasil,RONDÔNIA,GUAJARÁ-MIRIM,Amazônia


### 💾 Salvando o dataframe tratado em um arquivo .csv

In [50]:
# 1. Padronizar nomes das colunas (snake_case)  
df_focus_ams_2023_brasil_ro.columns = [  
    coluna.lower().replace(' ', '_').replace('ç', 'c').replace('ã', 'a')  
    for coluna in df_focus_ams_2023_brasil_ro.columns  
]  

# 2. Garantir que 'data_pas' esteja como datetime  
df_focus_ams_2023_brasil_ro['data_pas'] = pd.to_datetime(df_focus_ams_2023_brasil_ro['data_pas'])  

# 3. Criar diretório de saída (se não existir)  
output_dir = '../data/processados/tratados'  
os.makedirs(output_dir, exist_ok=True)  

# 4. Salvar em CSV (com encoding UTF-8 e sem índices)  
nome_arquivo = f"{output_dir}/focos_tratados-df_focus_ams_2023_brasil_ro_{pd.Timestamp.now().strftime('%Y%m%d')}.csv"  
df_focus_ams_2023_brasil_ro.to_csv(nome_arquivo, index=False, encoding='utf-8')  

print(f"✅ Arquivo salvo em: {nome_arquivo}")  

✅ Arquivo salvo em: ../data/processados/tratados/focos_tratados-df_focus_ams_2023_brasil_ro_20250406.csv


# 2024 (AMS)
___

### 🎲 Carregamento INPE - Focos Queimadas AMS_2024

In [51]:
df_focus_ams_2024 = pd.read_csv('../data/brutos/INPE_focos_anual_ams_2023_2024/focos_ams_ref_2024.csv', sep=',')
df_focus_ams_2024.head()

Unnamed: 0,id_bdq,foco_id,lat,lon,data_pas,pais,estado,municipio,bioma
0,1666218617,fad5577f-02dc-3339-807e-5828b10f4ef4,-15.89572,-38.89957,2024-01-02 17:04:00,Brasil,BAHIA,BELMONTE,Mata Atlântica
1,1666218597,178ca94b-abf3-30d0-893a-4f2263fcbb11,-7.49188,-38.88316,2024-01-02 17:06:00,Brasil,CEARÁ,BREJO SANTO,Caatinga
2,1666218598,06bb202f-af6d-34d1-a2e5-8069c4a17c3a,-6.50564,-39.44122,2024-01-02 17:06:00,Brasil,CEARÁ,CARIÚS,Caatinga
3,1666218599,dcc86463-c1e0-3f88-b1a0-d5fb82575af8,-6.50409,-39.43422,2024-01-02 17:06:00,Brasil,CEARÁ,CARIÚS,Caatinga
4,1666218600,8f6cb82e-6cdd-3a88-8c4e-64721a7c7dd4,-5.74166,-39.59352,2024-01-02 17:06:00,Brasil,CEARÁ,MOMBAÇA,Caatinga


In [52]:
print(df_focus_ams_2024.shape[0])

511656


In [53]:
print(df_focus_ams_2024.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 511656 entries, 0 to 511655
Data columns (total 9 columns):
 #   Column     Non-Null Count   Dtype  
---  ------     --------------   -----  
 0   id_bdq     511656 non-null  int64  
 1   foco_id    511656 non-null  object 
 2   lat        511656 non-null  float64
 3   lon        511656 non-null  float64
 4   data_pas   511656 non-null  object 
 5   pais       511656 non-null  object 
 6   estado     511656 non-null  object 
 7   municipio  511656 non-null  object 
 8   bioma      278299 non-null  object 
dtypes: float64(2), int64(1), object(6)
memory usage: 35.1+ MB
None


### Exibe o Brasil e o Estado de rondônia no dataframe

In [54]:
# Exibe apenas o Brasil
df_focus_ams_2024 = df_focus_ams_2024[df_focus_ams_2024['pais'] == 'Brasil']
# Exibe apenas o Estado de Rondônia 
df_focus_ams_2024_ro = df_focus_ams_2024[df_focus_ams_2024['estado'] == 'RONDÔNIA']

# Exibe o Brasil e o Estado de rondônia 
df_focus_ams_2024_ro = df_focus_ams_2024[(df_focus_ams_2024['pais'] == 'Brasil') & (df_focus_ams_2024['estado'] == 'RONDÔNIA')]
display(df_focus_ams_2024_ro)



Unnamed: 0,id_bdq,foco_id,lat,lon,data_pas,pais,estado,municipio,bioma
2053,1666954553,c21b7ccc-e950-3a3f-a9d2-535315ebdbe3,-9.93708,-62.63176,2024-01-08 18:00:00,Brasil,RONDÔNIA,ARIQUEMES,Amazônia
2054,1666954554,0c6afb2f-c690-3e48-bbdf-c23c9bac412c,-9.62973,-63.07769,2024-01-08 18:00:00,Brasil,RONDÔNIA,ALTO PARAÍSO,Amazônia
2055,1666954555,c6a52e7c-b383-353b-8817-f3e7644e04ee,-9.51919,-63.02469,2024-01-08 18:00:00,Brasil,RONDÔNIA,CUJUBIM,Amazônia
2056,1666954556,77a81f0d-1a4c-36b3-9654-a81bc4119835,-9.50836,-62.60933,2024-01-08 18:00:00,Brasil,RONDÔNIA,CUJUBIM,Amazônia
2057,1666954557,8d70e9e7-436e-3190-aa71-4c617fc19433,-9.42498,-62.00077,2024-01-08 18:00:00,Brasil,RONDÔNIA,MACHADINHO D'OESTE,Amazônia
...,...,...,...,...,...,...,...,...,...
509801,1738743510,1b6272bd-bc77-33c5-a27e-e84ae888a464,-11.78009,-64.97167,2024-12-27 18:30:00,Brasil,RONDÔNIA,GUAJARÁ-MIRIM,Amazônia
511339,1739324415,065fa6cb-796f-3247-ae8f-d220a2305e51,-9.57773,-66.27042,2024-12-30 18:49:00,Brasil,RONDÔNIA,PORTO VELHO,Amazônia
511348,1739324424,bca04ca2-4988-3c20-bbe6-ea20590b1917,-12.24483,-63.46517,2024-12-30 18:49:00,Brasil,RONDÔNIA,SÃO FRANCISCO DO GUAPORÉ,Amazônia
511361,1739324437,349cc785-a3d2-3821-b639-6df98eb11a54,-12.25369,-63.46379,2024-12-30 18:49:00,Brasil,RONDÔNIA,SÃO FRANCISCO DO GUAPORÉ,Amazônia


## Tratamento do novo Dataframe após filtro Brasil - Rondônia

In [55]:
# Verifica se existe dados nulos e duplicados no dataframe
print(df_focus_ams_2024_ro.isnull().sum())
print(f'Dados duplicados', df_focus_ams_2024_ro.duplicated().sum())

id_bdq       0
foco_id      0
lat          0
lon          0
data_pas     0
pais         0
estado       0
municipio    0
bioma        0
dtype: int64
Dados duplicados 0


In [56]:
# ENCONTRAR DADOS DUPLICADOS E AUSENTES
df_focus_ams_2024_ro.duplicated()
df_focus_ams_2024_ro.isnull()
df_focus_ams_2024_ro.dropna()

# Verificar se existem linhas duplicadas
tem_duplicadas = df_focus_ams_2024_ro.duplicated().any()

# Exibir as linhas duplicadas
linhas_duplicadas = df_focus_ams_2024_ro[df_focus_ams_2024_ro.duplicated()]

# Remover as linhas duplicadas (opcional)
df_focus_ams_2024_ro = df_focus_ams_2024_ro.drop_duplicates()

# Verifica os valores nulos no Dataframe
tem_nulos = df_focus_ams_2024_ro.isnull().any().any()

# Remover linhas com valores nulos (opcional)
df_focus_ams_2024_ro = df_focus_ams_2024_ro.dropna()

In [57]:
display(df_focus_ams_2024_ro)
print(df_focus_ams_2024_ro.shape[0])

Unnamed: 0,id_bdq,foco_id,lat,lon,data_pas,pais,estado,municipio,bioma
2053,1666954553,c21b7ccc-e950-3a3f-a9d2-535315ebdbe3,-9.93708,-62.63176,2024-01-08 18:00:00,Brasil,RONDÔNIA,ARIQUEMES,Amazônia
2054,1666954554,0c6afb2f-c690-3e48-bbdf-c23c9bac412c,-9.62973,-63.07769,2024-01-08 18:00:00,Brasil,RONDÔNIA,ALTO PARAÍSO,Amazônia
2055,1666954555,c6a52e7c-b383-353b-8817-f3e7644e04ee,-9.51919,-63.02469,2024-01-08 18:00:00,Brasil,RONDÔNIA,CUJUBIM,Amazônia
2056,1666954556,77a81f0d-1a4c-36b3-9654-a81bc4119835,-9.50836,-62.60933,2024-01-08 18:00:00,Brasil,RONDÔNIA,CUJUBIM,Amazônia
2057,1666954557,8d70e9e7-436e-3190-aa71-4c617fc19433,-9.42498,-62.00077,2024-01-08 18:00:00,Brasil,RONDÔNIA,MACHADINHO D'OESTE,Amazônia
...,...,...,...,...,...,...,...,...,...
509801,1738743510,1b6272bd-bc77-33c5-a27e-e84ae888a464,-11.78009,-64.97167,2024-12-27 18:30:00,Brasil,RONDÔNIA,GUAJARÁ-MIRIM,Amazônia
511339,1739324415,065fa6cb-796f-3247-ae8f-d220a2305e51,-9.57773,-66.27042,2024-12-30 18:49:00,Brasil,RONDÔNIA,PORTO VELHO,Amazônia
511348,1739324424,bca04ca2-4988-3c20-bbe6-ea20590b1917,-12.24483,-63.46517,2024-12-30 18:49:00,Brasil,RONDÔNIA,SÃO FRANCISCO DO GUAPORÉ,Amazônia
511361,1739324437,349cc785-a3d2-3821-b639-6df98eb11a54,-12.25369,-63.46379,2024-12-30 18:49:00,Brasil,RONDÔNIA,SÃO FRANCISCO DO GUAPORÉ,Amazônia


10692


### 💾 Salvando o dataframe tratado em um arquivo .csv

In [58]:
# 1. Padronizar nomes das colunas (snake_case)  
df_focus_ams_2024_ro.columns = [  
    coluna.lower().replace(' ', '_').replace('ç', 'c').replace('ã', 'a')  
    for coluna in df_focus_ams_2024_ro.columns  
]  

# 2. Garantir que 'data_pas' esteja como datetime  
df_focus_ams_2024_ro['data_pas'] = pd.to_datetime(df_focus_ams_2024_ro['data_pas'])  

# 3. Criar diretório de saída (se não existir)  
output_dir = '../data/processados/tratados'  
os.makedirs(output_dir, exist_ok=True)  

# 4. Salvar em CSV (com encoding UTF-8 e sem índices)  
nome_arquivo = f"{output_dir}/focos_tratados-df_focus_ams_2024_ro_{pd.Timestamp.now().strftime('%Y%m%d')}.csv"  
df_focus_ams_2024_ro.to_csv(nome_arquivo, index=False, encoding='utf-8')  

print(f"✅ Arquivo salvo em: {nome_arquivo}")  

✅ Arquivo salvo em: ../data/processados/tratados/focos_tratados-df_focus_ams_2024_ro_20250406.csv


# --- **DADOS: GEOESPACIAIS** ---

### 🎲 Carregamento dos dados ÁREAS INDÍGENAS (Municípios) - tis poligonais

In [59]:
caminho_shapefile = '../data/geoespaciais/areas_indígenas/tis_poligonais/tis_poligonaisPolygon.dbf'
df_geo_area_indigena = gpd.read_file(caminho_shapefile, engine="fiona")

df_geo_area_indigena.head()


Unnamed: 0,gid,terrai_cod,terrai_nom,etnia_nome,municipio_,uf_sigla,superficie,fase_ti,modalidade,reestudo_t,cr,faixa_fron,undadm_cod,undadm_nom,undadm_sig,dominio_un,data_atual,epsg,geometry
0,157.0,16101,Igarapé Lage,Pakaa Nova,"Guajará-Mirim,Nova Mamoré",RO,107321.1789,Regularizada,Tradicionalmente ocupada,,COORDENACAO REGIONAL DE GUAJARA MIRIM,Sim,30202000000.0,COORDENACAO REGIONAL DE GUAJARA MIRIM,CR-GJM,t,12/06/2015,0,"POLYGON ((-65.294 -10.45349, -65.29221 -10.453..."
1,158.0,16201,Igarapé Lourdes,Gavião de Rondônia,Ji-Paraná,RO,185533.5768,Regularizada,Tradicionalmente ocupada,,COORDENACAO REGIONAL DE JI PARANA,Não,30202000000.0,COORDENACAO REGIONAL DE JI PARANA,CR-JPR,t,02/08/2016,0,"POLYGON ((-61.61586 -10.72913, -61.61603 -10.7..."
2,159.0,16301,Igarapé Ribeirão,Pakaa Nova,Nova Mamoré,RO,47863.3178,Regularizada,Tradicionalmente ocupada,,COORDENACAO REGIONAL DE GUAJARA MIRIM,Sim,30202000000.0,COORDENACAO REGIONAL DE GUAJARA MIRIM,CR-GJM,t,17/06/2019,0,"POLYGON ((-65.21577 -10.19328, -65.20733 -10.1..."
3,211.0,21601,Karipuna,Karipuna,"Porto Velho,Nova Mamoré",RO,152929.8599,Regularizada,Tradicionalmente ocupada,,COORDENACAO REGIONAL DE JI PARANA,Sim,30202000000.0,COORDENACAO REGIONAL DE JI PARANA,CR-JPR,t,12/11/2018,0,"POLYGON ((-64.4005 -10.08659, -64.40062 -10.08..."
4,214.0,21801,Karitiana,Karitiana,Porto Velho,RO,89682.138,Regularizada,Tradicionalmente ocupada,,COORDENACAO REGIONAL DE JI PARANA,Sim,30202000000.0,COORDENACAO REGIONAL DE JI PARANA,CR-JPR,t,,0,"POLYGON ((-63.88084 -9.26367, -63.88071 -9.263..."


In [60]:
print(df_geo_area_indigena.shape[0])

23


### Tratamento dos dados

In [61]:
# Verifica se existe dados nulos e duplicados no dataframe
print(df_geo_area_indigena.isnull().sum())
print(f'Dados duplicados', df_geo_area_indigena.duplicated().sum())

gid            0
terrai_cod     0
terrai_nom     0
etnia_nome     0
municipio_     0
uf_sigla       0
superficie     0
fase_ti        0
modalidade     0
reestudo_t    22
cr             0
faixa_fron     0
undadm_cod     0
undadm_nom     0
undadm_sig     0
dominio_un     0
data_atual     7
epsg           0
geometry       0
dtype: int64
Dados duplicados 0


In [62]:
# ENCONTRAR DADOS DUPLICADOS E AUSENTES
df_geo_area_indigena.duplicated()
df_geo_area_indigena.isnull()
df_geo_area_indigena.dropna()

# Verificar se existem linhas duplicadas
tem_duplicadas = df_geo_area_indigena.duplicated().any()

# Exibir as linhas duplicadas
linhas_duplicadas = df_geo_area_indigena[df_geo_area_indigena.duplicated()]

# Remover as linhas duplicadas (opcional)
df_geo_area_indigena = df_geo_area_indigena.drop_duplicates()

# Verifica os valores nulos no Dataframe
tem_nulos = df_geo_area_indigena.isnull().any().any()

# Remover linhas com valores nulos (opcional)
df_geo_area_indigena = df_geo_area_indigena.dropna()


### 💾 Salvando o dataframe tratado em um arquivo .csv

Especificamente nesse dataframe, será preciso converter o arquivo.dbf para csv.

In [63]:
from dbfread import DBF


# ------------------------------------------
# 1. Ler o arquivo .dbf
# ------------------------------------------
caminho_dbf = '../data/geoespaciais/areas_indígenas/tis_poligonais/tis_poligonaisPolygon.dbf'

try:
    # Tente ler com encoding 'latin-1' (comum em shapefiles brasileiros)
    tabela = DBF(caminho_dbf, encoding='latin-1')  
    df_geo_area_indigena = pd.DataFrame(iter(tabela))
    
except UnicodeDecodeError:
    # Se falhar, tente 'utf-8'
    tabela = DBF(caminho_dbf, encoding='utf-8')  
    df_geo_area_indigena = pd.DataFrame(iter(tabela))

# ------------------------------------------
# 2. Salvar o CSV
# ------------------------------------------
output_dir = '../data/processados/tratados'
os.makedirs(output_dir, exist_ok=True)  # Criar pasta se não existir

# Nome do arquivo com timestamp
nome_arquivo = os.path.join(output_dir, f"df_geo_area_indigena_{pd.Timestamp.now().strftime('%Y%m%d')}.csv")

# Salvar
df_geo_area_indigena.to_csv(nome_arquivo, index=False, encoding='utf-8')
print(f"✅ Arquivo salvo em: {nome_arquivo}")

✅ Arquivo salvo em: ../data/processados/tratados\df_geo_area_indigena_20250406.csv


# --- **DADOS: 📍Lat. e Long Estados e Municípios ** ---

### 📍 Mapeamento dos Estados e muniicípios

In [64]:
caminho_shapefile   = '../data/geoespaciais/estados.csv'
df_map_estados      = pd.read_csv(caminho_shapefile)
df_map_estados.head()


Unnamed: 0,codigo_uf,uf,nome,latitude,longitude,regiao
0,11,RO,Rondônia,-10.83,-63.34,Norte
1,12,AC,Acre,-8.77,-70.55,Norte
2,13,AM,Amazonas,-3.47,-65.1,Norte
3,14,RR,Roraima,1.99,-61.33,Norte
4,15,PA,Pará,-3.79,-52.48,Norte


In [65]:
print(df_map_estados.shape[0])

27


### 📍 Mapeando o dataframe Rondônia

In [66]:
# Exibir apenas a coluna onde a uf é igual a RO
df_map_ro = df_map_estados[df_map_estados['uf'] == 'RO']
df_map_ro.head()


Unnamed: 0,codigo_uf,uf,nome,latitude,longitude,regiao
0,11,RO,Rondônia,-10.83,-63.34,Norte


### 📍 Mapeamento dos Municípios de Rondônia

In [67]:
caminho_shapefile   = '../data/geoespaciais/municipios.csv'
df_map_municipios      = pd.read_csv(caminho_shapefile)
df_map_municipios.head()


Unnamed: 0,codigo_ibge,nome,latitude,longitude,capital,codigo_uf,siafi_id,ddd,fuso_horario
0,5200050,Abadia de Goiás,-16.7573,-49.4412,0,52,1050,62,America/Sao_Paulo
1,3100104,Abadia dos Dourados,-18.4831,-47.3916,0,31,4001,34,America/Sao_Paulo
2,5200100,Abadiânia,-16.197,-48.7057,0,52,9201,62,America/Sao_Paulo
3,3100203,Abaeté,-19.1551,-45.4444,0,31,4003,37,America/Sao_Paulo
4,1500107,Abaetetuba,-1.72183,-48.8788,0,15,401,91,America/Sao_Paulo


In [68]:
print(df_map_municipios.shape[0])

5570


In [69]:
# Verifica se existem dados nulos e duplicados no dataframe
print(df_map_municipios.isnull().sum())
print(f'Dados Duplicados: ',df_map_municipios.duplicated().sum())


codigo_ibge     0
nome            0
latitude        0
longitude       0
capital         0
codigo_uf       0
siafi_id        0
ddd             0
fuso_horario    0
dtype: int64
Dados Duplicados:  0


In [70]:
# Exibe os dados municípios onde o código da uf é igual a 11 
df_map_municipios_ro = df_map_municipios[df_map_municipios['codigo_uf'] == 11]
df_map_municipios_ro.head()

Unnamed: 0,codigo_ibge,nome,latitude,longitude,capital,codigo_uf,siafi_id,ddd,fuso_horario
131,1100015,Alta Floresta D'Oeste,-11.9283,-61.9953,0,11,33,69,America/Porto_Velho
145,1100379,Alto Alegre dos Parecis,-12.132,-61.835,0,11,2,69,America/Porto_Velho
158,1100403,Alto Paraíso,-9.71429,-63.3188,0,11,675,69,America/Porto_Velho
179,1100346,Alvorada D'Oeste,-11.3463,-62.2847,0,11,35,69,America/Porto_Velho
381,1100023,Ariquemes,-9.90571,-63.0325,0,11,7,69,America/Porto_Velho


In [71]:
print(df_map_municipios_ro.shape[0])

52


In [112]:
# Supondo que seu DataFrame se chame df_municipios
df_map_municipios_ro['codigo_uf'] = df_map_municipios_ro['codigo_uf'].replace(11, 'RO')

# Verificação
print("Valores únicos em 'codigo_uf':", df_map_municipios_ro['codigo_uf'].unique())
print("\nAmostra após substituição:")
print(df_map_municipios_ro.head(2))


Valores únicos em 'codigo_uf': ['RO']

Amostra após substituição:
     codigo_ibge                     nome  latitude  longitude  capital  \
131      1100015    Alta Floresta D'Oeste  -11.9283   -61.9953        0   
145      1100379  Alto Alegre dos Parecis  -12.1320   -61.8350        0   

    codigo_uf  siafi_id  ddd         fuso_horario  
131        RO        33   69  America/Porto_Velho  
145        RO         2   69  America/Porto_Velho  


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_map_municipios_ro['codigo_uf'] = df_map_municipios_ro['codigo_uf'].replace(11, 'RO')


In [113]:
df_map_municipios_ro.head()

Unnamed: 0,codigo_ibge,nome,latitude,longitude,capital,codigo_uf,siafi_id,ddd,fuso_horario
131,1100015,Alta Floresta D'Oeste,-11.9283,-61.9953,0,RO,33,69,America/Porto_Velho
145,1100379,Alto Alegre dos Parecis,-12.132,-61.835,0,RO,2,69,America/Porto_Velho
158,1100403,Alto Paraíso,-9.71429,-63.3188,0,RO,675,69,America/Porto_Velho
179,1100346,Alvorada D'Oeste,-11.3463,-62.2847,0,RO,35,69,America/Porto_Velho
381,1100023,Ariquemes,-9.90571,-63.0325,0,RO,7,69,America/Porto_Velho


### 💾 Salvando o dataframe tratado em um arquivo .csv

In [115]:
# Salvando o df_map_municipios_ro em um arquivo csv

# 1. Padronizar nomes das colunas (snake_case)  
df_map_municipios_ro.columns = [  
    coluna.lower().replace(' ', '_').replace('ç', 'c').replace('ã', 'a')  
    for coluna in df_map_municipios_ro.columns  
]    

# 2. Criar diretório de saída (se não existir)  
output_dir = '../data/processados/tratados'  
os.makedirs(output_dir, exist_ok=True)  

# 3. Salvar em CSV (com encoding UTF-8 e sem índices)  
nome_arquivo = f"{output_dir}/df_map_municipios_ro_{pd.Timestamp.now().strftime('%Y%m%d')}.csv"  
df_map_municipios_ro.to_csv(nome_arquivo, index=False, encoding='utf-8')  

print(f"✅ Arquivo salvo em: {nome_arquivo}")  




✅ Arquivo salvo em: ../data/processados/tratados/df_map_municipios_ro_20250406.csv


# --- **DADOS: 🚨 Unidades Bombeiros ** ---

### 🎲 Locais de Atendimento: Bombeiros de Rondônia

In [74]:
caminho_shapefile   = '../data/brutos/unidades_bombeiros_ro/unidades_bombeiros_ro.csv'
df_unid_local_bomb      = pd.read_csv(caminho_shapefile)
df_unid_local_bomb.head()


Unnamed: 0,Unidade,Cidade,Endereço,Comandante,Contato
0,Comando Geral (QCG),Porto Velho,"Av. Campos Sales, 3254, Bairro Olaria",Cel. BM Nivaldo de Azevedo Ferreira,(69) XXXX-XXXX
1,Comando de Operações Aéreas (COA),Porto Velho,2ª Base Aérea de Combate a Incêndios Florestai...,Cel. BM Francisco Pinto Andrade Júnior,(69) XXXX-XXXX
2,Grupamento de Busca e Salvamento (GBS),Porto Velho,"Av. Estrada do Belmont, 6052, Bairro Nacional",Ten. BM José Feliciano dos Santos Filho,(69) XXXX-XXXX
3,Coordenadoria de Atividades Técnicas (CAT),Porto Velho,"Av. Jorge Teixeira, 2507, Bairro Liberdade",Ten. Cel. BM Hélvio Ferreira Martins,(69) XXXX-XXXX
4,1º Grupamento de Bombeiros Militar (1º GBM),Porto Velho,"Av. Eng. Anysio da Rocha, 4286, Bairro Flodoal...",Ten. Cel. BM Roberto Rodrigues Leal,(69) XXXX-XXXX


In [75]:
df_unid_local_bomb['Contato'] = '193'
df_unid_local_bomb.head()

Unnamed: 0,Unidade,Cidade,Endereço,Comandante,Contato
0,Comando Geral (QCG),Porto Velho,"Av. Campos Sales, 3254, Bairro Olaria",Cel. BM Nivaldo de Azevedo Ferreira,193
1,Comando de Operações Aéreas (COA),Porto Velho,2ª Base Aérea de Combate a Incêndios Florestai...,Cel. BM Francisco Pinto Andrade Júnior,193
2,Grupamento de Busca e Salvamento (GBS),Porto Velho,"Av. Estrada do Belmont, 6052, Bairro Nacional",Ten. BM José Feliciano dos Santos Filho,193
3,Coordenadoria de Atividades Técnicas (CAT),Porto Velho,"Av. Jorge Teixeira, 2507, Bairro Liberdade",Ten. Cel. BM Hélvio Ferreira Martins,193
4,1º Grupamento de Bombeiros Militar (1º GBM),Porto Velho,"Av. Eng. Anysio da Rocha, 4286, Bairro Flodoal...",Ten. Cel. BM Roberto Rodrigues Leal,193


In [76]:
print(df_unid_local_bomb.shape[0])

14


### 💾 Salvando o dataframe tratado em um arquivo .csv

In [77]:
# Salvando o df_map_municipios_ro em um arquivo csv

# 1. Padronizar nomes das colunas (snake_case)  
df_unid_local_bomb.columns = [  
    coluna.lower().replace(' ', '_').replace('ç', 'c').replace('ã', 'a')  
    for coluna in df_unid_local_bomb.columns  
]    

# 2. Criar diretório de saída (se não existir)  
output_dir = '../data/processados/tratados'  
os.makedirs(output_dir, exist_ok=True)  

# 3. Salvar em CSV (com encoding UTF-8 e sem índices)  
nome_arquivo = f"{output_dir}/focos_tratados-df_unid_local_bomb_{pd.Timestamp.now().strftime('%Y%m%d')}.csv"  
df_unid_local_bomb.to_csv(nome_arquivo, index=False, encoding='utf-8')  

print(f"✅ Arquivo salvo em: {nome_arquivo}")  




✅ Arquivo salvo em: ../data/processados/tratados/focos_tratados-df_unid_local_bomb_20250406.csv


# --- **DADOS: INMET_Instituto Nacional de Meteorologia_Região_Norte** ---

### 🎲 Carregamento dos dados ANO: 2024 - ARIQUEMES

In [78]:
df_dados_met_ariquemes_2024 = pd.read_csv('../data/brutos/dados_meteorologicos_regiao_norte/dados_met_ariquemes_2024.csv', sep=';', encoding='utf-8', decimal=',')
df_dados_met_ariquemes_2024.head()



Unnamed: 0,Data,Hora (UTC),Temp. Ins. (C),Temp. Max. (C),Temp. Min. (C),Umi. Ins. (%),Umi. Max. (%),Umi. Min. (%),Pto Orvalho Ins. (C),Pto Orvalho Max. (C),Pto Orvalho Min. (C),Pressao Ins. (hPa),Pressao Max. (hPa),Pressao Min. (hPa),Vel. Vento (m/s),Dir. Vento (m/s),Raj. Vento (m/s),Radiacao (KJ/m²),Chuva (mm)
0,06/01/2024,0,26.5,26.8,26.4,87.0,87.0,83.0,24.2,24.2,23.5,994.6,994.6,993.7,0.2,207.0,1.3,,0.0
1,06/01/2024,100,25.9,26.5,25.9,88.0,89.0,87.0,23.8,24.2,23.8,995.2,995.2,994.6,0.2,55.0,0.7,,0.0
2,06/01/2024,200,26.1,26.1,25.9,90.0,90.0,88.0,24.2,24.3,23.7,996.2,996.2,995.2,0.5,286.0,0.9,,0.0
3,06/01/2024,300,25.6,26.1,25.6,87.0,90.0,87.0,23.3,24.3,23.3,996.7,996.8,996.2,1.3,228.0,3.4,,0.0
4,06/01/2024,400,24.4,25.6,24.4,88.0,88.0,86.0,22.2,23.3,22.2,995.7,996.7,995.7,1.4,184.0,4.0,,0.0


In [79]:
print(df_dados_met_ariquemes_2024.shape[0])

8664


In [80]:
# Verifica se existe dados nulos e duplicados no dataframe
print(df_dados_met_ariquemes_2024.isnull().sum())
print(f'Dados duplicados', df_dados_met_ariquemes_2024.duplicated().sum())

Data                       0
Hora (UTC)                 0
Temp. Ins. (C)          4705
Temp. Max. (C)          4705
Temp. Min. (C)          4705
Umi. Ins. (%)           4705
Umi. Max. (%)           4705
Umi. Min. (%)           4705
Pto Orvalho Ins. (C)    4705
Pto Orvalho Max. (C)    4705
Pto Orvalho Min. (C)    4705
Pressao Ins. (hPa)      4705
Pressao Max. (hPa)      4705
Pressao Min. (hPa)      4705
Vel. Vento (m/s)        7043
Dir. Vento (m/s)        7047
Raj. Vento (m/s)        7050
Radiacao (KJ/m²)        6582
Chuva (mm)              4705
dtype: int64
Dados duplicados 0


In [81]:
# ENCONTRAR DADOS DUPLICADOS E AUSENTES
df_dados_met_ariquemes_2024.duplicated()
df_dados_met_ariquemes_2024.isnull()
df_dados_met_ariquemes_2024.dropna()

# Verificar se existem linhas duplicadas
tem_duplicadas = df_dados_met_ariquemes_2024.duplicated().any()

# Exibir as linhas duplicadas
linhas_duplicadas = df_dados_met_ariquemes_2024[df_dados_met_ariquemes_2024.duplicated()]

# Remover as linhas duplicadas (opcional)
df_dados_met_ariquemes_2024 = df_dados_met_ariquemes_2024.drop_duplicates()

# Verifica os valores nulos no Dataframe
tem_nulos = df_dados_met_ariquemes_2024.isnull().any().any()

# Remover linhas com valores nulos (opcional)
df_dados_met_ariquemes_2024 = df_dados_met_ariquemes_2024.dropna()

In [82]:
# Verifica se existe dados nulos e duplicados no dataframe
print(df_dados_met_ariquemes_2024.isnull().sum())
print(f'Dados duplicados', df_dados_met_ariquemes_2024.duplicated().sum())

df_dados_met_ariquemes_2024.head()

Data                    0
Hora (UTC)              0
Temp. Ins. (C)          0
Temp. Max. (C)          0
Temp. Min. (C)          0
Umi. Ins. (%)           0
Umi. Max. (%)           0
Umi. Min. (%)           0
Pto Orvalho Ins. (C)    0
Pto Orvalho Max. (C)    0
Pto Orvalho Min. (C)    0
Pressao Ins. (hPa)      0
Pressao Max. (hPa)      0
Pressao Min. (hPa)      0
Vel. Vento (m/s)        0
Dir. Vento (m/s)        0
Raj. Vento (m/s)        0
Radiacao (KJ/m²)        0
Chuva (mm)              0
dtype: int64
Dados duplicados 0


Unnamed: 0,Data,Hora (UTC),Temp. Ins. (C),Temp. Max. (C),Temp. Min. (C),Umi. Ins. (%),Umi. Max. (%),Umi. Min. (%),Pto Orvalho Ins. (C),Pto Orvalho Max. (C),Pto Orvalho Min. (C),Pressao Ins. (hPa),Pressao Max. (hPa),Pressao Min. (hPa),Vel. Vento (m/s),Dir. Vento (m/s),Raj. Vento (m/s),Radiacao (KJ/m²),Chuva (mm)
10,06/01/2024,1000,23.8,23.9,23.8,94.0,94.0,93.0,22.7,22.8,22.6,995.2,995.2,994.6,0.4,61.0,1.7,0.9,0.2
11,06/01/2024,1100,24.1,24.1,23.8,94.0,94.0,93.0,23.0,23.0,22.7,996.1,996.1,995.2,0.2,98.0,1.0,82.9,0.0
12,06/01/2024,1200,24.1,24.4,24.1,93.0,94.0,93.0,22.9,23.3,22.9,997.1,997.1,996.1,4.4,11.0,6.9,119.3,0.6
13,06/01/2024,1300,23.8,24.1,23.6,94.0,94.0,92.0,22.7,22.8,22.5,997.8,997.8,997.1,2.0,308.0,7.1,292.0,14.2
14,06/01/2024,1400,24.5,24.7,23.7,92.0,94.0,92.0,23.1,23.5,22.6,998.0,998.0,997.8,2.4,355.0,5.5,671.1,2.2


In [83]:
print(df_dados_met_ariquemes_2024.shape[0])

871


### Adicionando a coluna Ariquemes

In [84]:
# Adicionar doluna Município com o valor 'Ariquemes'
df_dados_met_ariquemes_2024['municipio'] = 'Ariquemes'
df_dados_met_ariquemes_2024.head()

Unnamed: 0,Data,Hora (UTC),Temp. Ins. (C),Temp. Max. (C),Temp. Min. (C),Umi. Ins. (%),Umi. Max. (%),Umi. Min. (%),Pto Orvalho Ins. (C),Pto Orvalho Max. (C),Pto Orvalho Min. (C),Pressao Ins. (hPa),Pressao Max. (hPa),Pressao Min. (hPa),Vel. Vento (m/s),Dir. Vento (m/s),Raj. Vento (m/s),Radiacao (KJ/m²),Chuva (mm),municipio
10,06/01/2024,1000,23.8,23.9,23.8,94.0,94.0,93.0,22.7,22.8,22.6,995.2,995.2,994.6,0.4,61.0,1.7,0.9,0.2,Ariquemes
11,06/01/2024,1100,24.1,24.1,23.8,94.0,94.0,93.0,23.0,23.0,22.7,996.1,996.1,995.2,0.2,98.0,1.0,82.9,0.0,Ariquemes
12,06/01/2024,1200,24.1,24.4,24.1,93.0,94.0,93.0,22.9,23.3,22.9,997.1,997.1,996.1,4.4,11.0,6.9,119.3,0.6,Ariquemes
13,06/01/2024,1300,23.8,24.1,23.6,94.0,94.0,92.0,22.7,22.8,22.5,997.8,997.8,997.1,2.0,308.0,7.1,292.0,14.2,Ariquemes
14,06/01/2024,1400,24.5,24.7,23.7,92.0,94.0,92.0,23.1,23.5,22.6,998.0,998.0,997.8,2.4,355.0,5.5,671.1,2.2,Ariquemes


### 💾 Salvando o dataframe tratado em um arquivo .csv

In [85]:
# Salvando o df_map_municipios_ro em um arquivo csv

# 1. Padronizar nomes das colunas (snake_case)  
df_dados_met_ariquemes_2024.columns = [  
    coluna.lower().replace(' ', '_').replace('ç', 'c').replace('ã', 'a')  
    for coluna in df_dados_met_ariquemes_2024.columns  
]    

# 2. Criar diretório de saída (se não existir)  
output_dir = '../data/processados/tratados'  
os.makedirs(output_dir, exist_ok=True)  

# 3. Salvar em CSV (com encoding UTF-8 e sem índices)  
nome_arquivo = f"{output_dir}/focos_tratados-df_dados_met_ariquemes_2024_{pd.Timestamp.now().strftime('%Y%m%d')}.csv"  
df_dados_met_ariquemes_2024.to_csv(nome_arquivo, index=False, encoding='utf-8')  

print(f"✅ Arquivo salvo em: {nome_arquivo}")  


✅ Arquivo salvo em: ../data/processados/tratados/focos_tratados-df_dados_met_ariquemes_2024_20250406.csv




### 🎲 Carregamento dos dados ANO: 2024 - VILHENA

In [86]:
df_dados_met_vilhena_2024 = pd.read_csv('../data/brutos/dados_meteorologicos_regiao_norte/dados_met_vilhena_2024.csv', sep=';', encoding='utf-8', decimal=',')
df_dados_met_vilhena_2024.head()



Unnamed: 0,Data,Hora (UTC),Temp. Ins. (C),Temp. Max. (C),Temp. Min. (C),Umi. Ins. (%),Umi. Max. (%),Umi. Min. (%),Pto Orvalho Ins. (C),Pto Orvalho Max. (C),Pto Orvalho Min. (C),Pressao Ins. (hPa),Pressao Max. (hPa),Pressao Min. (hPa),Vel. Vento (m/s),Dir. Vento (m/s),Raj. Vento (m/s),Radiacao (KJ/m²),Chuva (mm)
0,06/01/2024,0,22.6,22.6,22.4,93.0,93.0,93.0,21.3,21.4,21.1,945.1,945.1,944.6,1.1,7.0,3.0,,0.0
1,06/01/2024,100,22.5,22.6,22.5,93.0,93.0,93.0,21.3,21.4,21.3,945.6,945.6,945.1,1.5,8.0,3.4,0.7,0.0
2,06/01/2024,200,22.5,22.6,22.4,93.0,93.0,93.0,21.3,21.4,21.2,946.1,946.1,945.6,1.3,352.0,3.9,,0.0
3,06/01/2024,300,22.3,22.5,22.3,93.0,93.0,93.0,21.1,21.3,21.1,946.1,946.2,946.1,1.6,352.0,4.2,0.2,0.0
4,06/01/2024,400,22.1,22.3,22.1,93.0,93.0,93.0,20.9,21.1,20.9,946.0,946.2,946.0,1.7,352.0,5.1,0.9,0.0


In [87]:
print(df_dados_met_vilhena_2024.shape[0])

8664


In [88]:
# Verifica se existe dados nulos e duplicados no dataframe
print(df_dados_met_vilhena_2024.isnull().sum())
print(f'Dados duplicados', df_dados_met_vilhena_2024.duplicated().sum())

Data                       0
Hora (UTC)                 0
Temp. Ins. (C)             1
Temp. Max. (C)             1
Temp. Min. (C)             1
Umi. Ins. (%)              1
Umi. Max. (%)              1
Umi. Min. (%)              1
Pto Orvalho Ins. (C)       1
Pto Orvalho Max. (C)       1
Pto Orvalho Min. (C)       1
Pressao Ins. (hPa)         1
Pressao Max. (hPa)         1
Pressao Min. (hPa)         1
Vel. Vento (m/s)        2234
Dir. Vento (m/s)        2234
Raj. Vento (m/s)        2235
Radiacao (KJ/m²)        4032
Chuva (mm)                 1
dtype: int64
Dados duplicados 0


In [89]:
# ENCONTRAR DADOS DUPLICADOS E AUSENTES
df_dados_met_vilhena_2024.duplicated()
df_dados_met_vilhena_2024.isnull()
df_dados_met_vilhena_2024.dropna()

# Verificar se existem linhas duplicadas
tem_duplicadas = df_dados_met_vilhena_2024.duplicated().any()

# Exibir as linhas duplicadas
linhas_duplicadas = df_dados_met_vilhena_2024[df_dados_met_vilhena_2024.duplicated()]

# Remover as linhas duplicadas (opcional)
df_dados_met_vilhena_2024 = df_dados_met_vilhena_2024.drop_duplicates()

# Verifica os valores nulos no Dataframe
tem_nulos = df_dados_met_vilhena_2024.isnull().any().any()

# Remover linhas com valores nulos (opcional)
df_dados_met_vilhena_2024 = df_dados_met_vilhena_2024.dropna()

In [90]:
print(df_dados_met_vilhena_2024.shape[0])

3369


In [91]:
df_dados_met_vilhena_2024.head()


Unnamed: 0,Data,Hora (UTC),Temp. Ins. (C),Temp. Max. (C),Temp. Min. (C),Umi. Ins. (%),Umi. Max. (%),Umi. Min. (%),Pto Orvalho Ins. (C),Pto Orvalho Max. (C),Pto Orvalho Min. (C),Pressao Ins. (hPa),Pressao Max. (hPa),Pressao Min. (hPa),Vel. Vento (m/s),Dir. Vento (m/s),Raj. Vento (m/s),Radiacao (KJ/m²),Chuva (mm)
1,06/01/2024,100,22.5,22.6,22.5,93.0,93.0,93.0,21.3,21.4,21.3,945.6,945.6,945.1,1.5,8.0,3.4,0.7,0.0
3,06/01/2024,300,22.3,22.5,22.3,93.0,93.0,93.0,21.1,21.3,21.1,946.1,946.2,946.1,1.6,352.0,4.2,0.2,0.0
4,06/01/2024,400,22.1,22.3,22.1,93.0,93.0,93.0,20.9,21.1,20.9,946.0,946.2,946.0,1.7,352.0,5.1,0.9,0.0
6,06/01/2024,600,21.9,22.1,21.9,93.0,93.0,93.0,20.8,21.0,20.8,945.0,945.4,945.0,1.3,356.0,4.8,0.9,0.0
10,06/01/2024,1000,21.3,21.4,21.3,93.0,93.0,93.0,20.2,20.3,20.2,945.4,945.4,944.8,0.5,309.0,2.3,12.2,0.0


### Adicionando a coluna Vilhena

In [92]:
df_dados_met_vilhena_2024['municipio'] = 'Vilhena'
df_dados_met_vilhena_2024.head()

Unnamed: 0,Data,Hora (UTC),Temp. Ins. (C),Temp. Max. (C),Temp. Min. (C),Umi. Ins. (%),Umi. Max. (%),Umi. Min. (%),Pto Orvalho Ins. (C),Pto Orvalho Max. (C),Pto Orvalho Min. (C),Pressao Ins. (hPa),Pressao Max. (hPa),Pressao Min. (hPa),Vel. Vento (m/s),Dir. Vento (m/s),Raj. Vento (m/s),Radiacao (KJ/m²),Chuva (mm),municipio
1,06/01/2024,100,22.5,22.6,22.5,93.0,93.0,93.0,21.3,21.4,21.3,945.6,945.6,945.1,1.5,8.0,3.4,0.7,0.0,Vilhena
3,06/01/2024,300,22.3,22.5,22.3,93.0,93.0,93.0,21.1,21.3,21.1,946.1,946.2,946.1,1.6,352.0,4.2,0.2,0.0,Vilhena
4,06/01/2024,400,22.1,22.3,22.1,93.0,93.0,93.0,20.9,21.1,20.9,946.0,946.2,946.0,1.7,352.0,5.1,0.9,0.0,Vilhena
6,06/01/2024,600,21.9,22.1,21.9,93.0,93.0,93.0,20.8,21.0,20.8,945.0,945.4,945.0,1.3,356.0,4.8,0.9,0.0,Vilhena
10,06/01/2024,1000,21.3,21.4,21.3,93.0,93.0,93.0,20.2,20.3,20.2,945.4,945.4,944.8,0.5,309.0,2.3,12.2,0.0,Vilhena


### 💾 Salvando o dataframe tratado em um arquivo .csv

In [93]:
# Salvando o df_map_municipios_ro em um arquivo csv

# 1. Padronizar nomes das colunas (snake_case)  
df_dados_met_vilhena_2024.columns = [  
    coluna.lower().replace(' ', '_').replace('ç', 'c').replace('ã', 'a')  
    for coluna in df_dados_met_vilhena_2024.columns  
]    

# 2. Criar diretório de saída (se não existir)  
output_dir = '../data/processados/tratados'  
os.makedirs(output_dir, exist_ok=True)  

# 3. Salvar em CSV (com encoding UTF-8 e sem índices)  
nome_arquivo = f"{output_dir}/focos_tratados-df_dados_met_vilhena_2024_{pd.Timestamp.now().strftime('%Y%m%d')}.csv"  
df_dados_met_vilhena_2024.to_csv(nome_arquivo, index=False, encoding='utf-8')  

print(f"✅ Arquivo salvo em: {nome_arquivo}")  


✅ Arquivo salvo em: ../data/processados/tratados/focos_tratados-df_dados_met_vilhena_2024_20250406.csv


### 🎲 Carregamento dos dados ANO: 2024 - CACOAL

In [94]:
df_dados_met_cacoal_2024 = pd.read_csv('../data/brutos/dados_meteorologicos_regiao_norte/dados_met_cacoal_2024.csv', sep=';', encoding='utf-8', decimal=',')
df_dados_met_cacoal_2024.head()



Unnamed: 0,Data,Hora (UTC),Temp. Ins. (C),Temp. Max. (C),Temp. Min. (C),Umi. Ins. (%),Umi. Max. (%),Umi. Min. (%),Pto Orvalho Ins. (C),Pto Orvalho Max. (C),Pto Orvalho Min. (C),Pressao Ins. (hPa),Pressao Max. (hPa),Pressao Min. (hPa),Vel. Vento (m/s),Dir. Vento (m/s),Raj. Vento (m/s),Radiacao (KJ/m²),Chuva (mm)
0,06/01/2024,0,25.5,26.5,25.5,83.0,83.0,75.0,22.4,22.4,21.8,988.4,988.4,987.9,0.6,277.0,2.3,,0.0
1,06/01/2024,100,25.2,25.6,25.1,85.0,85.0,83.0,22.4,22.4,22.3,988.5,988.6,988.3,0.6,294.0,1.7,,0.0
2,06/01/2024,200,24.6,25.2,24.6,86.0,87.0,84.0,22.2,22.4,22.2,989.2,989.2,988.5,0.7,60.0,1.2,,0.0
3,06/01/2024,300,24.4,24.7,24.3,88.0,88.0,86.0,22.2,22.4,21.9,989.8,989.8,989.2,0.7,157.0,2.0,,0.0
4,06/01/2024,400,24.6,24.6,24.3,88.0,88.0,87.0,22.4,22.4,22.2,989.6,989.9,989.6,0.4,329.0,1.7,,0.0


In [95]:
print(df_dados_met_cacoal_2024.shape[0])

8664


In [96]:
# Verifica se existe dados nulos e duplicados no dataframe
print(df_dados_met_cacoal_2024.isnull().sum())
print(f'Dados duplicados', df_dados_met_cacoal_2024.duplicated().sum())

Data                       0
Hora (UTC)                 0
Temp. Ins. (C)             1
Temp. Max. (C)             1
Temp. Min. (C)             1
Umi. Ins. (%)              1
Umi. Max. (%)              1
Umi. Min. (%)              1
Pto Orvalho Ins. (C)       1
Pto Orvalho Max. (C)       1
Pto Orvalho Min. (C)       1
Pressao Ins. (hPa)         1
Pressao Max. (hPa)         1
Pressao Min. (hPa)         1
Vel. Vento (m/s)           1
Dir. Vento (m/s)           1
Raj. Vento (m/s)           1
Radiacao (KJ/m²)        4100
Chuva (mm)                 1
dtype: int64
Dados duplicados 0


In [97]:
# ENCONTRAR DADOS DUPLICADOS E AUSENTES
df_dados_met_cacoal_2024.duplicated()
df_dados_met_cacoal_2024.isnull()
df_dados_met_cacoal_2024.dropna()

# Verificar se existem linhas duplicadas
tem_duplicadas = df_dados_met_cacoal_2024.duplicated().any()

# Exibir as linhas duplicadas
linhas_duplicadas = df_dados_met_cacoal_2024[df_dados_met_cacoal_2024.duplicated()]

# Remover as linhas duplicadas (opcional)
df_dados_met_cacoal_2024 = df_dados_met_cacoal_2024.drop_duplicates()

# Verifica os valores nulos no Dataframe
tem_nulos = df_dados_met_cacoal_2024.isnull().any().any()

# Remover linhas com valores nulos (opcional)
df_dados_met_cacoal_2024 = df_dados_met_cacoal_2024.dropna()

In [98]:
print(df_dados_met_cacoal_2024.shape[0])
df_dados_met_cacoal_2024.head()

4564


Unnamed: 0,Data,Hora (UTC),Temp. Ins. (C),Temp. Max. (C),Temp. Min. (C),Umi. Ins. (%),Umi. Max. (%),Umi. Min. (%),Pto Orvalho Ins. (C),Pto Orvalho Max. (C),Pto Orvalho Min. (C),Pressao Ins. (hPa),Pressao Max. (hPa),Pressao Min. (hPa),Vel. Vento (m/s),Dir. Vento (m/s),Raj. Vento (m/s),Radiacao (KJ/m²),Chuva (mm)
10,06/01/2024,1000,23.6,24.0,23.6,90.0,90.0,90.0,22.0,22.3,21.9,988.6,988.6,987.9,1.3,158.0,1.8,6.5,0.0
11,06/01/2024,1100,24.6,24.6,23.6,88.0,90.0,88.0,22.5,22.6,22.0,989.2,989.3,988.6,0.4,33.0,1.8,209.6,0.0
12,06/01/2024,1200,25.8,25.8,24.6,84.0,88.0,83.0,22.8,23.0,22.5,990.0,990.0,989.2,1.1,8.0,2.7,506.4,0.0
13,06/01/2024,1300,27.3,27.7,25.8,75.0,84.0,74.0,22.5,23.3,22.4,990.2,990.2,990.0,1.6,354.0,3.7,1095.4,0.0
14,06/01/2024,1400,29.0,29.0,27.3,68.0,77.0,68.0,22.5,23.1,22.0,990.1,990.3,990.1,1.8,351.0,3.7,1808.0,0.0


### Adicionando a coluna Cacoal

In [99]:
df_dados_met_cacoal_2024['municipio'] = 'Cacoal'
df_dados_met_cacoal_2024.head()

Unnamed: 0,Data,Hora (UTC),Temp. Ins. (C),Temp. Max. (C),Temp. Min. (C),Umi. Ins. (%),Umi. Max. (%),Umi. Min. (%),Pto Orvalho Ins. (C),Pto Orvalho Max. (C),Pto Orvalho Min. (C),Pressao Ins. (hPa),Pressao Max. (hPa),Pressao Min. (hPa),Vel. Vento (m/s),Dir. Vento (m/s),Raj. Vento (m/s),Radiacao (KJ/m²),Chuva (mm),municipio
10,06/01/2024,1000,23.6,24.0,23.6,90.0,90.0,90.0,22.0,22.3,21.9,988.6,988.6,987.9,1.3,158.0,1.8,6.5,0.0,Cacoal
11,06/01/2024,1100,24.6,24.6,23.6,88.0,90.0,88.0,22.5,22.6,22.0,989.2,989.3,988.6,0.4,33.0,1.8,209.6,0.0,Cacoal
12,06/01/2024,1200,25.8,25.8,24.6,84.0,88.0,83.0,22.8,23.0,22.5,990.0,990.0,989.2,1.1,8.0,2.7,506.4,0.0,Cacoal
13,06/01/2024,1300,27.3,27.7,25.8,75.0,84.0,74.0,22.5,23.3,22.4,990.2,990.2,990.0,1.6,354.0,3.7,1095.4,0.0,Cacoal
14,06/01/2024,1400,29.0,29.0,27.3,68.0,77.0,68.0,22.5,23.1,22.0,990.1,990.3,990.1,1.8,351.0,3.7,1808.0,0.0,Cacoal


### 💾 Salvando o dataframe tratado em um arquivo .csv

In [100]:
# Salvando o df_map_municipios_ro em um arquivo csv

# 1. Padronizar nomes das colunas (snake_case)  
df_dados_met_cacoal_2024.columns = [  
    coluna.lower().replace(' ', '_').replace('ç', 'c').replace('ã', 'a')  
    for coluna in df_dados_met_cacoal_2024.columns  
]    

# 2. Criar diretório de saída (se não existir)  
output_dir = '../data/processados/tratados'  
os.makedirs(output_dir, exist_ok=True)  

# 3. Salvar em CSV (com encoding UTF-8 e sem índices)  
nome_arquivo = f"{output_dir}/focos_tratados-df_dados_met_cacoal_2024_{pd.Timestamp.now().strftime('%Y%m%d')}.csv"  
df_dados_met_cacoal_2024.to_csv(nome_arquivo, index=False, encoding='utf-8')  

print(f"✅ Arquivo salvo em: {nome_arquivo}")  


✅ Arquivo salvo em: ../data/processados/tratados/focos_tratados-df_dados_met_cacoal_2024_20250406.csv


### 🎲 Carregamento dos dados ANO: 2024 - PVH

In [101]:
df_dados_met_pvh_2024 = pd.read_csv('../data/brutos/dados_meteorologicos_regiao_norte/dados_met_porto_velho_2024.csv', sep=';', encoding='utf-8', decimal=',')
df_dados_met_pvh_2024.head()



Unnamed: 0,Data,Hora (UTC),Temp. Ins. (C),Temp. Max. (C),Temp. Min. (C),Umi. Ins. (%),Umi. Max. (%),Umi. Min. (%),Pto Orvalho Ins. (C),Pto Orvalho Max. (C),Pto Orvalho Min. (C),Pressao Ins. (hPa),Pressao Max. (hPa),Pressao Min. (hPa),Vel. Vento (m/s),Dir. Vento (m/s),Raj. Vento (m/s),Radiacao (KJ/m²),Chuva (mm)
0,06/01/2024,0,28.4,29.3,28.4,76.0,76.0,70.0,23.7,23.7,23.3,999.6,999.6,998.6,2.0,43.0,4.4,,0.0
1,06/01/2024,100,27.5,28.4,27.5,80.0,80.0,76.0,23.8,23.8,23.4,1000.5,1000.5,999.6,0.8,74.0,4.4,,0.0
2,06/01/2024,200,27.5,27.6,27.3,79.0,82.0,78.0,23.5,24.1,23.4,1000.9,1000.9,1000.5,1.4,27.0,2.3,,0.0
3,06/01/2024,300,27.0,27.5,26.9,80.0,82.0,79.0,23.3,23.6,23.3,1001.2,1001.3,1000.9,1.4,20.0,3.8,,0.0
4,06/01/2024,400,26.8,27.1,26.8,79.0,80.0,76.0,22.8,23.3,22.6,1001.0,1001.2,1001.0,0.4,329.0,2.9,,0.0


In [102]:
print(df_dados_met_pvh_2024.shape[0])

8664


In [103]:
# Verifica a existência de dados nulos e duplicados no dataframe
print(df_dados_met_pvh_2024.isnull().sum())
print(f'Dados duplicados', df_dados_met_pvh_2024.duplicated().sum())

Data                       0
Hora (UTC)                 0
Temp. Ins. (C)          1396
Temp. Max. (C)          1397
Temp. Min. (C)          1397
Umi. Ins. (%)           1396
Umi. Max. (%)           1397
Umi. Min. (%)           1397
Pto Orvalho Ins. (C)    1396
Pto Orvalho Max. (C)    1397
Pto Orvalho Min. (C)    1397
Pressao Ins. (hPa)      1396
Pressao Max. (hPa)      1397
Pressao Min. (hPa)      1397
Vel. Vento (m/s)        2436
Dir. Vento (m/s)        2442
Raj. Vento (m/s)        2437
Radiacao (KJ/m²)        4342
Chuva (mm)              1396
dtype: int64
Dados duplicados 0


In [104]:
# ENCONTRAR DADOS DUPLICADOS E AUSENTES
df_dados_met_pvh_2024.duplicated()
df_dados_met_pvh_2024.isnull()
df_dados_met_pvh_2024.dropna()

# Verificar se existem linhas duplicadas
tem_duplicadas = df_dados_met_pvh_2024.duplicated().any()

# Exibir as linhas duplicadas
linhas_duplicadas = df_dados_met_pvh_2024[df_dados_met_pvh_2024.duplicated()]

# Remover as linhas duplicadas (opcional)
df_dados_met_pvh_2024 = df_dados_met_pvh_2024.drop_duplicates()

# Verifica os valores nulos no Dataframe
tem_nulos = df_dados_met_pvh_2024.isnull().any().any()

# Remover linhas com valores nulos (opcional)
df_dados_met_pvh_2024 = df_dados_met_pvh_2024.dropna()

In [105]:
print(df_dados_met_pvh_2024.shape[0])
df_dados_met_pvh_2024.head()

3388


Unnamed: 0,Data,Hora (UTC),Temp. Ins. (C),Temp. Max. (C),Temp. Min. (C),Umi. Ins. (%),Umi. Max. (%),Umi. Min. (%),Pto Orvalho Ins. (C),Pto Orvalho Max. (C),Pto Orvalho Min. (C),Pressao Ins. (hPa),Pressao Max. (hPa),Pressao Min. (hPa),Vel. Vento (m/s),Dir. Vento (m/s),Raj. Vento (m/s),Radiacao (KJ/m²),Chuva (mm)
11,06/01/2024,1100,24.8,25.6,24.8,92.0,94.0,88.0,23.4,23.9,23.4,1001.7,1001.7,1000.7,2.1,253.0,6.0,30.0,4.4
12,06/01/2024,1200,24.5,24.8,24.4,90.0,92.0,89.0,22.6,23.2,22.6,1001.9,1001.9,1001.6,2.1,243.0,6.2,411.9,0.0
13,06/01/2024,1300,25.6,25.6,24.3,86.0,91.0,84.0,23.1,23.4,22.5,1002.4,1002.5,1001.9,1.0,215.0,5.0,709.0,0.0
14,06/01/2024,1400,26.9,26.9,25.5,83.0,86.0,80.0,23.7,23.8,22.5,1002.6,1002.6,1002.3,1.1,116.0,2.3,1354.8,0.0
15,06/01/2024,1500,28.7,28.7,26.9,73.0,84.0,72.0,23.4,24.3,22.8,1002.3,1002.6,1002.3,1.2,78.0,2.6,2068.8,0.0


### Adicionando a coluna Porto Velho

In [106]:
df_dados_met_pvh_2024['municipio'] = 'Porto Velho'
df_dados_met_pvh_2024.head()

Unnamed: 0,Data,Hora (UTC),Temp. Ins. (C),Temp. Max. (C),Temp. Min. (C),Umi. Ins. (%),Umi. Max. (%),Umi. Min. (%),Pto Orvalho Ins. (C),Pto Orvalho Max. (C),Pto Orvalho Min. (C),Pressao Ins. (hPa),Pressao Max. (hPa),Pressao Min. (hPa),Vel. Vento (m/s),Dir. Vento (m/s),Raj. Vento (m/s),Radiacao (KJ/m²),Chuva (mm),municipio
11,06/01/2024,1100,24.8,25.6,24.8,92.0,94.0,88.0,23.4,23.9,23.4,1001.7,1001.7,1000.7,2.1,253.0,6.0,30.0,4.4,Porto Velho
12,06/01/2024,1200,24.5,24.8,24.4,90.0,92.0,89.0,22.6,23.2,22.6,1001.9,1001.9,1001.6,2.1,243.0,6.2,411.9,0.0,Porto Velho
13,06/01/2024,1300,25.6,25.6,24.3,86.0,91.0,84.0,23.1,23.4,22.5,1002.4,1002.5,1001.9,1.0,215.0,5.0,709.0,0.0,Porto Velho
14,06/01/2024,1400,26.9,26.9,25.5,83.0,86.0,80.0,23.7,23.8,22.5,1002.6,1002.6,1002.3,1.1,116.0,2.3,1354.8,0.0,Porto Velho
15,06/01/2024,1500,28.7,28.7,26.9,73.0,84.0,72.0,23.4,24.3,22.8,1002.3,1002.6,1002.3,1.2,78.0,2.6,2068.8,0.0,Porto Velho


### 💾 Salvando o dataframe tratado em um arquivo .csv

In [107]:
# Salvando o df_map_municipios_ro em um arquivo csv

# 1. Padronizar nomes das colunas (snake_case)  
df_dados_met_pvh_2024.columns = [  
    coluna.lower().replace(' ', '_').replace('ç', 'c').replace('ã', 'a')  
    for coluna in df_dados_met_pvh_2024.columns  
]    

# 2. Criar diretório de saída (se não existir)  
output_dir = '../data/processados/tratados'  
os.makedirs(output_dir, exist_ok=True)  

# 3. Salvar em CSV (com encoding UTF-8 e sem índices)  
nome_arquivo = f"{output_dir}/focos_tratados-df_dados_met_pvh_2024_{pd.Timestamp.now().strftime('%Y%m%d')}.csv"  
df_dados_met_pvh_2024.to_csv(nome_arquivo, index=False, encoding='utf-8')  

print(f"✅ Arquivo salvo em: {nome_arquivo}")  


✅ Arquivo salvo em: ../data/processados/tratados/focos_tratados-df_dados_met_pvh_2024_20250406.csv
