# IMPORTAÇÕES

In [218]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

from copy import copy, deepcopy
from typing import List

# FUNÇÕES

In [219]:
class Environment:
  def __init__(self, root, rel_path):
    self.root = root            # Pasta raiz
    self.rel_path = rel_path    # Caminho relativo

  def get_file_path(self):
    """
    Retorna caminho do arquivo.
    :return: Caminho do arquivo.
    """
    parts = [self.root]
    parts.extend(self.rel_path)
    return "/".join(parts)

  def clone(self, mode="shallow"):
    """
    Retorna uma cópia do objeto. O padrão é shallow copy.
    :param mode: Modo de cópia ("shallow" ou "deep").
    :return: Cópia do objeto.
    """
    if mode == "deep":
      return deepcopy(self)
    return copy(self)

def df_head(df: pd.DataFrame, num: int = 5) -> None:
  display(df.head(num))
  print(f"Shape: {df.shape}")

def df_show_domain(df: pd.DataFrame, columns: List[str]) -> None:
  """
  Exibe o tipo e os valores possíveis de columns segundo a ordem da lista de
  colunas.

  :param df: DataFrame a ter os domínios exibidos.
  :param columns: Lista dos nomes das colunas a serem exibidas.
  :return: None
  """
  for col in columns:
    print(f"Coluna:   {col}")
    print(f"dtype:    {df[col].dtype}")
    print(f"Domínio:  {df[col].unique()}\n")

def df_show_null(df: pd.DataFrame) -> None:
  """
  Exibe o número de valores nulos por coluna.

  :param df: DataFrame a ter os domínios exibidos.
  :return: None
  """
  print("# Número de valores nulos por coluna:")
  display(df.isnull().sum())

# SETUP DO AMBIENTE

In [220]:
from google.colab import drive
drive.mount("/content/drive")

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


# OBTENÇÃO DO DATASET

In [221]:
# PASTA RAIZ
ROOT = "/content/drive/MyDrive/07_per_shared/projCDat_25_1/datasets/cooked"
REL_PATH = ["megazord_original.csv"]

# Cria ambiente de entrada de dados
env = Environment(ROOT, REL_PATH)

# Extrai dataset
df = pd.read_csv(env.get_file_path())

df_head(df)

Unnamed: 0,estado,ano,mes,Precipitação Média (MM),Precipitação Total (MM),Pressão Média (MB),Radiação Média (KJ/M²),Temperatura Média (°C),Temperatura Orvalho Média (°C),Umidade Média (%),Umidade Mínima Média (%),Umidade Mínima Máxima (%),Umidade Mínima Mínima (%),Velocidade Máxima do Vento (M/S),Velocidade Média do Vento (M/S),Quantidade de área queimada (HA)
0,Amazonas,2000,5,0.0,0.0,1004.492026,,26.237716,23.54569,85.922414,82.957845,98.0,58.0,3.7,0.924026,3828.0
1,Amazonas,2000,6,0.0,0.0,1004.887222,,26.419861,23.185417,83.377778,80.301255,98.0,52.0,3.5,1.024339,9452.0
2,Amazonas,2000,7,0.0,0.0,1005.176043,,25.8,22.558205,82.476447,79.559892,98.0,47.0,3.7,1.107962,9316.0
3,Amazonas,2000,8,0.0,0.0,1004.761559,,26.854973,22.629973,79.155914,76.044355,97.0,45.0,3.4,1.060027,19904.0
4,Amazonas,2000,9,0.0,0.0,1003.505621,,27.20858,22.730325,78.076923,75.084444,97.0,43.0,3.7,1.154748,20318.0


Shape: (14257, 16)


# SELEÇÃO DE COLUNAS

In [222]:
# PARÂMETROS
# COLUNAS:
IGNORING = [ # A remover
  "Precipitação Média (MM)",
  "Precipitação Total (MM)",
  "Radiação Média (KJ/M²)",
  "Quantidade de área queimada (HA)"
]
KEEPING = [x for x in df.columns if x not in IGNORING] # A manter

# Remove colunas desnecessárias
df_filtered = df[KEEPING]

df_head(df)

Unnamed: 0,estado,ano,mes,Precipitação Média (MM),Precipitação Total (MM),Pressão Média (MB),Radiação Média (KJ/M²),Temperatura Média (°C),Temperatura Orvalho Média (°C),Umidade Média (%),Umidade Mínima Média (%),Umidade Mínima Máxima (%),Umidade Mínima Mínima (%),Velocidade Máxima do Vento (M/S),Velocidade Média do Vento (M/S),Quantidade de área queimada (HA)
0,Amazonas,2000,5,0.0,0.0,1004.492026,,26.237716,23.54569,85.922414,82.957845,98.0,58.0,3.7,0.924026,3828.0
1,Amazonas,2000,6,0.0,0.0,1004.887222,,26.419861,23.185417,83.377778,80.301255,98.0,52.0,3.5,1.024339,9452.0
2,Amazonas,2000,7,0.0,0.0,1005.176043,,25.8,22.558205,82.476447,79.559892,98.0,47.0,3.7,1.107962,9316.0
3,Amazonas,2000,8,0.0,0.0,1004.761559,,26.854973,22.629973,79.155914,76.044355,97.0,45.0,3.4,1.060027,19904.0
4,Amazonas,2000,9,0.0,0.0,1003.505621,,27.20858,22.730325,78.076923,75.084444,97.0,43.0,3.7,1.154748,20318.0


Shape: (14257, 16)


# CONFORMAÇÃO AO DOMÍNIO



In [223]:
# PADRÃO DE FORMATAÇÃO DOS ESTADOS
STATES = {
  "Acre": "AC",
  "Amazonas": "AM",
  "Amapá": "AP",
  "Maranhão": "MA",
  "Mato Grosso": "MT",
  "Pará": "PA",
  "Rondônia": "RO",
  "Roraima": "RR",
  "Tocantins": "TO"
}

# Altera colunas para corresponderem ao domínio
df_filtered.loc[:, "estado"] = df_filtered["estado"].map(STATES)

df_head(df)
df_show_domain(df_filtered, df_filtered.columns)

Unnamed: 0,estado,ano,mes,Precipitação Média (MM),Precipitação Total (MM),Pressão Média (MB),Radiação Média (KJ/M²),Temperatura Média (°C),Temperatura Orvalho Média (°C),Umidade Média (%),Umidade Mínima Média (%),Umidade Mínima Máxima (%),Umidade Mínima Mínima (%),Velocidade Máxima do Vento (M/S),Velocidade Média do Vento (M/S),Quantidade de área queimada (HA)
0,Amazonas,2000,5,0.0,0.0,1004.492026,,26.237716,23.54569,85.922414,82.957845,98.0,58.0,3.7,0.924026,3828.0
1,Amazonas,2000,6,0.0,0.0,1004.887222,,26.419861,23.185417,83.377778,80.301255,98.0,52.0,3.5,1.024339,9452.0
2,Amazonas,2000,7,0.0,0.0,1005.176043,,25.8,22.558205,82.476447,79.559892,98.0,47.0,3.7,1.107962,9316.0
3,Amazonas,2000,8,0.0,0.0,1004.761559,,26.854973,22.629973,79.155914,76.044355,97.0,45.0,3.4,1.060027,19904.0
4,Amazonas,2000,9,0.0,0.0,1003.505621,,27.20858,22.730325,78.076923,75.084444,97.0,43.0,3.7,1.154748,20318.0


Shape: (14257, 16)
Coluna:   estado
dtype:    object
Domínio:  ['AM' 'PA' 'TO' 'RO' 'AC' 'AP' 'RR']

Coluna:   ano
dtype:    int64
Domínio:  [2000 2001 2002 2003 2004 2005 2006 2007 2008 2009 2010 2011 2012 2013
 2014 2015 2016 2017 2018 2019 2020 2021 2022 2023]

Coluna:   mes
dtype:    int64
Domínio:  [ 5  6  7  8  9 10 11 12  1  2  3  4]

Coluna:   Pressão Média (MB)
dtype:    float64
Domínio:  [1004.49202586 1004.88722222 1005.17604307 ...  994.02537313  993.91347222
  994.57620968]

Coluna:   Temperatura Média (°C)
dtype:    float64
Domínio:  [26.23771552 26.41986111 25.8        ... 28.17889785 27.59791667
 27.26586022]

Coluna:   Temperatura Orvalho Média (°C)
dtype:    float64
Domínio:  [23.54568966 23.18541667 22.55820477 ... 22.86290323 23.42736111
 23.49905914]

Coluna:   Umidade Média (%)
dtype:    float64
Domínio:  [85.92241379 83.37777778 82.47644684 ... 72.42916667 75.25
 79.62777778]

Coluna:   Umidade Mínima Média (%)
dtype:    float64
Domínio:  [82.95784543 80.30125523

# RENOMEAÇÃO DE COLUNAS

In [224]:
DICT_RENAMING = {
  "estado": "_estado",
  "mes": "_mes",
  "ano": "_ano",
  "Pressão Média (MB)": "cli_pressao_atm_med",
  "Radiação Média (KJ/M²)": "cli_rad_global_med",
  "Temperatura Média (°C)": "cli_temp_ar_med",
  "Temperatura Orvalho Média (°C)": "cli_temp_orvalho_med",
  "Umidade Média (%)": "cli_umid_rel_med",
  "Umidade Mínima Média (%)":	"cli_umid_rel_min_med",
  "Umidade Mínima Mínima (%)": "cli_umid_rel_min_min",
  "Umidade Mínima Máxima (%)": "cli_umid_rel_min_max",
  "Velocidade Máxima do Vento (M/S)": "cli_veloc_vento_max",
  "Velocidade Média do Vento (M/S)": "cli_veloc_vento_med",
  "Quantidade de área queimada (HA)": "que_area_queimada"
}

# Renomeia colunas
df_renamed = df_filtered.rename(columns=DICT_RENAMING)

display(df_renamed.head())

Unnamed: 0,_estado,_ano,_mes,cli_pressao_atm_med,cli_temp_ar_med,cli_temp_orvalho_med,cli_umid_rel_med,cli_umid_rel_min_med,cli_umid_rel_min_max,cli_umid_rel_min_min,cli_veloc_vento_max,cli_veloc_vento_med
0,AM,2000,5,1004.492026,26.237716,23.54569,85.922414,82.957845,98.0,58.0,3.7,0.924026
1,AM,2000,6,1004.887222,26.419861,23.185417,83.377778,80.301255,98.0,52.0,3.5,1.024339
2,AM,2000,7,1005.176043,25.8,22.558205,82.476447,79.559892,98.0,47.0,3.7,1.107962
3,AM,2000,8,1004.761559,26.854973,22.629973,79.155914,76.044355,97.0,45.0,3.4,1.060027
4,AM,2000,9,1003.505621,27.20858,22.730325,78.076923,75.084444,97.0,43.0,3.7,1.154748


# REMOÇÃO DE NULOS

In [225]:
PK = ["_estado", "_ano", "_mes"]
df_final = df_renamed.drop_duplicates(subset=PK)

# REMOVE LINHAS NULAS
df_final = df_final.dropna()

df_head(df_final)
df_show_null(df_final)

Unnamed: 0,_estado,_ano,_mes,cli_pressao_atm_med,cli_temp_ar_med,cli_temp_orvalho_med,cli_umid_rel_med,cli_umid_rel_min_med,cli_umid_rel_min_max,cli_umid_rel_min_min,cli_veloc_vento_max,cli_veloc_vento_med
0,AM,2000,5,1004.492026,26.237716,23.54569,85.922414,82.957845,98.0,58.0,3.7,0.924026
1,AM,2000,6,1004.887222,26.419861,23.185417,83.377778,80.301255,98.0,52.0,3.5,1.024339
2,AM,2000,7,1005.176043,25.8,22.558205,82.476447,79.559892,98.0,47.0,3.7,1.107962
3,AM,2000,8,1004.761559,26.854973,22.629973,79.155914,76.044355,97.0,45.0,3.4,1.060027
4,AM,2000,9,1003.505621,27.20858,22.730325,78.076923,75.084444,97.0,43.0,3.7,1.154748


Shape: (1025, 12)
# Número de valores nulos por coluna:


Unnamed: 0,0
_estado,0
_ano,0
_mes,0
cli_pressao_atm_med,0
cli_temp_ar_med,0
cli_temp_orvalho_med,0
cli_umid_rel_med,0
cli_umid_rel_min_med,0
cli_umid_rel_min_max,0
cli_umid_rel_min_min,0


# SALVAMENTO

In [226]:
env_out = env.clone()
env_out.rel_path = ["megazord_final.csv"]
df_final.to_csv(env_out.get_file_path(), index=False, encoding="utf-8")