# --- **Limpeza e Transformação de Dados** ---
**Objetivo:** 
Este notebook tem como objetivo principal preparar os dados para análises e modelagens futuras. As etapas realizadas incluem:

1. **Limpeza de Dados**: Identificação e tratamento de valores ausentes, duplicados e inconsistências nos dados.
2. **Transformação de Dados**: Aplicação de técnicas para ajustar, normalizar e estruturar os dados, garantindo que estejam no formato adequado para análises e algoritmos de modelagem.
3. **Enriquecimento de Dados**: Criação de novas variáveis ou ajustes em variáveis existentes para melhorar a qualidade e a utilidade dos dados.

O foco deste notebook é garantir que os dados estejam limpos, consistentes e prontos para serem utilizados em análises exploratórias mais detalhadas ou em modelos preditivos.

# Notebook Responsável por tratar e limpar os principais dados meteorológicos das estações dos principais municípios de Rondônia.

## Carregando as bibliotecas necessárias📖

In [4]:
import pandas as pd
import numpy as np
import geopandas as gpd
import matplotlib.pyplot as plt
import seaborn as sns
import folium
import os

### 🎲 Carregamento dos Dataframes dados ANO: 2020 a 2024 - PVH, ARIQUEMES, CACOAL, VILHENA

In [5]:
# Carregando dados de Porto Velho em 2020 e 2024
df_dados_met_pvh_2020 = pd.read_csv('../data/brutos/dados_meteorologicos_regiao_norte/dados_met_pvh_ano_2020.csv', sep=';', encoding='utf-8', decimal=',')
df_dados_met_pvh_2023 = pd.read_csv('../data/brutos/dados_meteorologicos_regiao_norte/dados_met_pvh_ano_2023.csv', sep=';', encoding='utf-8', decimal=',')
df_dados_met_pvh_2024 = pd.read_csv('../data/brutos/dados_meteorologicos_regiao_norte/dados_met_pvh_ano_2024.csv', sep=';', encoding='utf-8', decimal=',')

# Carregando dados de Ariquemes em 2020 e 2024
df_dados_met_ariquemes_2020 = pd.read_csv('../data/brutos/dados_meteorologicos_regiao_norte/dados_met_ariquemes_ano_2020.csv', sep=';', encoding='utf-8', decimal=',')
df_dados_met_ariquemes_2023 = pd.read_csv('../data/brutos/dados_meteorologicos_regiao_norte/dados_met_ariquemes_ano_2023.csv', sep=';', encoding='utf-8', decimal=',')
df_dados_met_ariquemes_2024 = pd.read_csv('../data/brutos/dados_meteorologicos_regiao_norte/dados_met_ariquemes_ano_2024.csv', sep=';', encoding='utf-8', decimal=',')

# Carregando dados de Cacoal em 2020 e 2024
df_dados_met_cacoal_2020 = pd.read_csv('../data/brutos/dados_meteorologicos_regiao_norte/dados_met_cacoal_ano_2020.csv', sep=';', encoding='utf-8', decimal=',')
df_dados_met_cacoal_2023 = pd.read_csv('../data/brutos/dados_meteorologicos_regiao_norte/dados_met_cacoal_ano_2023.csv', sep=';', encoding='utf-8', decimal=',')
df_dados_met_cacoal_2024 = pd.read_csv('../data/brutos/dados_meteorologicos_regiao_norte/dados_met_cacoal_ano_2024.csv', sep=';', encoding='utf-8', decimal=',')

# Carregando dados de Vilhena em 2020 e 2024
df_dados_met_vilhena_2020 = pd.read_csv('../data/brutos/dados_meteorologicos_regiao_norte/dados_met_vilhena_ano_2020.csv', sep=';', encoding='utf-8', decimal=',')
df_dados_met_vilhena_2023 = pd.read_csv('../data/brutos/dados_meteorologicos_regiao_norte/dados_met_vilhena_ano_2023.csv', sep=';', encoding='utf-8', decimal=',')
df_dados_met_vilhena_2024 = pd.read_csv('../data/brutos/dados_meteorologicos_regiao_norte/dados_met_vilhena_ano_2024.csv', sep=';', encoding='utf-8', decimal=',')



## Adicionando os nomes dos municípios correspondentes a cada dataframe

In [7]:
# Lista de dataframes e seus respectivos municípios
dataframes_municipios = [
    (df_dados_met_pvh_2020, 'Porto Velho'),
    (df_dados_met_pvh_2023, 'Porto Velho'),
    (df_dados_met_pvh_2024, 'Porto Velho'),
    (df_dados_met_ariquemes_2020, 'Ariquemes'),
    (df_dados_met_ariquemes_2023, 'Ariquemes'),
    (df_dados_met_ariquemes_2024, 'Ariquemes'),
    (df_dados_met_cacoal_2020, 'Cacoal'),
    (df_dados_met_cacoal_2023, 'Cacoal'),
    (df_dados_met_cacoal_2024, 'Cacoal'),
    (df_dados_met_vilhena_2020, 'Vilhena'),
    (df_dados_met_vilhena_2023, 'Vilhena'),
    (df_dados_met_vilhena_2024, 'Vilhena')
]

# Função para adicionar a coluna 'municipio' e tratar o dataframe
def tratar_dataframe_com_municipio(df, municipio):
    # Adicionar a coluna 'municipio'
    df['municipio'] = municipio
    
    # Verificar e exibir linhas duplicadas
    if df.duplicated().any():
        print(f"Linhas duplicadas encontradas no município {municipio}:")
        print(df[df.duplicated()])
        # Remover linhas duplicadas
        df = df.drop_duplicates()
    
    # Verificar e tratar valores nulos
    if df.isnull().any().any():
        print(f"Valores nulos encontrados no município {municipio}:")
        print(df.isnull().sum())
        # Remover linhas com valores nulos
        df = df.dropna()
    
    return df

# Aplicar o tratamento a todos os dataframes
dataframes_tratados = [
    tratar_dataframe_com_municipio(df, municipio) for df, municipio in dataframes_municipios
]

# Atualizar as variáveis originais com os dataframes tratados
(
    df_dados_met_pvh_2020, df_dados_met_pvh_2023, df_dados_met_pvh_2024,
    df_dados_met_ariquemes_2020, df_dados_met_ariquemes_2023, df_dados_met_ariquemes_2024,
    df_dados_met_cacoal_2020, df_dados_met_cacoal_2023, df_dados_met_cacoal_2024,
    df_dados_met_vilhena_2020, df_dados_met_vilhena_2023, df_dados_met_vilhena_2024
) = dataframes_tratados

Valores nulos encontrados no município Porto Velho:
Data                       0
Hora (UTC)                 0
Temp. Ins. (C)          4271
Temp. Max. (C)          4272
Temp. Min. (C)          4272
Umi. Ins. (%)           4271
Umi. Max. (%)           4272
Umi. Min. (%)           4272
Pto Orvalho Ins. (C)    4271
Pto Orvalho Max. (C)    4272
Pto Orvalho Min. (C)    4272
Pressao Ins. (hPa)      4271
Pressao Max. (hPa)      4272
Pressao Min. (hPa)      4272
Vel. Vento (m/s)        8664
Dir. Vento (m/s)        8664
Raj. Vento (m/s)        8664
Radiacao (KJ/m²)        8664
Chuva (mm)              4271
municipio                  0
dtype: int64
Valores nulos encontrados no município Porto Velho:
Data                       0
Hora (UTC)                 0
Temp. Ins. (C)          3790
Temp. Max. (C)          3792
Temp. Min. (C)          3792
Umi. Ins. (%)           4174
Umi. Max. (%)           4176
Umi. Min. (%)           4176
Pto Orvalho Ins. (C)    4174
Pto Orvalho Max. (C)    4176
Pto Orvalho M

In [10]:
# Lista de dataframes a serem tratados
dataframes = [
    df_dados_met_pvh_2020, df_dados_met_pvh_2023, df_dados_met_pvh_2024,
    df_dados_met_ariquemes_2020, df_dados_met_ariquemes_2023, df_dados_met_ariquemes_2024,
    df_dados_met_cacoal_2020, df_dados_met_cacoal_2023, df_dados_met_cacoal_2024,
    df_dados_met_vilhena_2020, df_dados_met_vilhena_2023, df_dados_met_vilhena_2024
]

# Função para tratar cada dataframe
def tratar_dataframe(df):
    # Verificar e exibir linhas duplicadas
    if df.duplicated().any():
        print("Linhas duplicadas encontradas:")
        print(df[df.duplicated()])
        # Remover linhas duplicadas
        df = df.drop_duplicates()
    
    # Verificar e tratar valores nulos
    if df.isnull().any().any():
        print("Valores nulos encontrados:")
        print(df.isnull().sum())
        # Remover linhas com valores nulos
        df = df.dropna()
    
    return df

# Aplicar o tratamento a todos os dataframes
df_dados_met_ro = [tratar_dataframe(df) for df in dataframes]

# Atualizar as variáveis originais com os dataframes tratados
(
    df_dados_met_pvh_2020, df_dados_met_pvh_2023, df_dados_met_pvh_2024,
    df_dados_met_ariquemes_2020, df_dados_met_ariquemes_2023, df_dados_met_ariquemes_2024,
    df_dados_met_cacoal_2020, df_dados_met_cacoal_2023, df_dados_met_cacoal_2024,
    df_dados_met_vilhena_2020, df_dados_met_vilhena_2023, df_dados_met_vilhena_2024
) = df_dados_met_ro

# 🎲✅ Concatenação(Concat) Todos so Dataframaes em um Só

In [36]:
# Concatenar todos os dataframes tratados em um único dataframe
df_dados_met_ro_2020_2024 = pd.concat(dataframes_tratados, ignore_index=True)

# Exibir as primeiras linhas do dataframe combinado
df_dados_met_ro_2020_2024.head()

Unnamed: 0,Data,Hora (UTC),Temp. Ins. (C),Temp. Max. (C),Temp. Min. (C),Umi. Ins. (%),Umi. Max. (%),Umi. Min. (%),Pto Orvalho Ins. (C),Pto Orvalho Max. (C),Pto Orvalho Min. (C),Pressao Ins. (hPa),Pressao Max. (hPa),Pressao Min. (hPa),Vel. Vento (m/s),Dir. Vento (m/s),Raj. Vento (m/s),Radiacao (KJ/m²),Chuva (mm),municipio
0,24/05/2023,2100,29.8,30.9,29.8,67.0,67.0,61.0,22.9,23.4,22.2,997.8,997.8,997.5,0.6,158.0,2.5,713.8,0.0,Porto Velho
1,24/05/2023,2200,27.4,29.8,27.4,80.0,80.0,66.0,23.7,23.8,22.5,998.4,998.4,997.8,0.8,125.0,1.8,57.2,0.0,Porto Velho
2,25/05/2023,1100,24.1,24.1,23.4,95.0,95.0,94.0,23.1,23.1,22.4,1000.5,1000.5,1000.3,0.5,139.0,1.3,102.0,0.0,Porto Velho
3,25/05/2023,1200,25.6,25.6,24.1,92.0,95.0,92.0,24.3,24.3,23.2,1001.0,1001.0,1000.5,0.5,119.0,1.8,547.0,0.0,Porto Velho
4,25/05/2023,1300,27.5,27.6,25.6,79.0,92.0,79.0,23.5,24.2,23.2,1001.3,1001.3,1001.0,1.5,80.0,3.4,1348.0,0.0,Porto Velho


In [38]:
print(df_dados_met_ro_2020_2024.shape[0])

28419


### Tratando a coluna 'data' para filtro de busca por ano

In [64]:
# Converter a coluna 'Data' para o formato datetime
df_dados_met_ro_2020_2024['Data'] = pd.to_datetime(df_dados_met_ro_2020_2024['Data'], format='%d/%m/%Y')

# Filtrar os dados do município de Cacoal e do ano de 2020
df_cacoal_2020 = df_dados_met_ro_2020_2024[
    (df_dados_met_ro_2020_2024['municipio'] == 'Cacoal') & 
    (df_dados_met_ro_2020_2024['Data'].dt.year == 2020)
]

# Exibir as primeiras linhas do dataframe filtrado
df_cacoal_2020.head()

Unnamed: 0,Data,Hora (UTC),Temp. Ins. (C),Temp. Max. (C),Temp. Min. (C),Umi. Ins. (%),Umi. Max. (%),Umi. Min. (%),Pto Orvalho Ins. (C),Pto Orvalho Max. (C),Pto Orvalho Min. (C),Pressao Ins. (hPa),Pressao Max. (hPa),Pressao Min. (hPa),Vel. Vento (m/s),Dir. Vento (m/s),Raj. Vento (m/s),Radiacao (KJ/m²),Chuva (mm),municipio
7299,2020-01-06,1000,23.5,23.5,23.3,90.0,90.0,90.0,21.7,21.7,21.6,987.7,987.7,986.8,1.0,31.0,3.0,6.1,0.0,Cacoal
7300,2020-01-06,1100,24.1,24.1,23.5,89.0,90.0,89.0,22.2,22.2,21.7,988.3,988.3,987.7,1.4,33.0,3.3,179.7,0.0,Cacoal
7301,2020-01-06,1200,25.5,25.6,24.1,82.0,89.0,82.0,22.2,22.6,22.0,988.8,988.8,988.3,1.9,47.0,4.3,743.7,0.0,Cacoal
7302,2020-01-06,1300,26.6,26.6,25.5,78.0,82.0,77.0,22.6,22.7,22.0,989.2,989.2,988.8,1.6,66.0,4.6,989.1,0.0,Cacoal
7303,2020-01-06,1400,28.0,28.1,26.6,74.0,78.0,71.0,23.0,23.2,22.0,988.9,989.2,988.9,1.7,354.0,5.4,1305.1,0.0,Cacoal
