# IMPORTAÇÕES

In [None]:
import pandas as pd
import numpy as np

from copy import copy, deepcopy
from typing import List

# FUNÇÕES

In [None]:
class Environment:
  def __init__(self, root, rel_path):
    self.root = root            # Pasta raiz
    self.rel_path = rel_path    # Caminho relativo

  def get_file_path(self):
    """
    Retorna caminho do arquivo.
    :return: Caminho do arquivo.
    """
    parts = [self.root]
    parts.extend(self.rel_path)
    return "/".join(parts)

  def clone(self, mode="shallow"):
    """
    Retorna uma cópia do objeto. O padrão é shallow copy.
    :param mode: Modo de cópia ("shallow" ou "deep").
    :return: Cópia do objeto.
    """
    if mode == "deep":
      return deepcopy(self)
    return copy(self)

def df_head(df: pd.DataFrame, num: int = 5) -> None:
  """
  Exibe as primeiras linhas do DataFrame.

  :param df: DataFrame a ser exibido.
  :param num: Número de linhas a serem exibidas.
  """
  display(df.head(num))
  print(f"Shape: {df.shape}")

def df_show_domain(df: pd.DataFrame, columns: List[str]) -> None:
  """
  Exibe o tipo e os valores possíveis de columns segundo a ordem da lista de
  colunas.

  :param df: DataFrame a ter os domínios exibidos.
  :param columns: Lista dos nomes das colunas a serem exibidas.
  :return: None
  """
  for col in columns:
    print(f"Coluna:   {col}")
    print(f"dtype:    {df[col].dtype}")
    print(f"Domínio:  {df[col].unique()}\n")

def df_show_null(df: pd.DataFrame) -> None:
  """
  Exibe o número de valores nulos por coluna.

  :param df: DataFrame a ter os domínios exibidos.
  :return: None
  """
  print("# Número de valores nulos por coluna:")
  display(df.isnull().sum())

# SETUP DO AMBIENTE

In [None]:
from google.colab import drive
drive.mount("/content/drive")

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


# FORMATO DO DATASET

Foi necessário reformatar o arquivo CSV original, pois seu formato mostrou-se imcompreensível pelo `pandas`. Diante disso, fez-se uso gratuito do chat GPT 4o-mini com o seguinte _prompt_:


> _Poderia formatar adequadamente o suposto csv que lhe enviarei? Quando fui abri-lo no pandas, os dados não foram processados adequadamente._


Depois de enviá-lo ao modelo, obteve-se a resposta abaixo ("Diagnóstico do Modelo"), além de um arquivo que se contatou devidamente formatado depois de rigorosa inspeção.

## Diagnóstico do Modelo

O arquivo CSV que você enviou está com formatação não padrão. Aqui está o diagnóstico:

- A **primeira linha** contém os anos como cabeçalhos, separados por vírgulas.
- Porém, há um bloco de **vários pontos e vírgulas (`;`)** após os anos, provavelmente tentando simular colunas vazias.
- As linhas seguintes contêm os estados e suas respectivas séries históricas de emissões, mas parecem desalinhadas por conta dessa estrutura híbrida de vírgulas e ponto e vírgula.

Vamos fazer a correção para deixar o CSV legível pelo `pandas` com as colunas corretas. Vou limpar os `;` extras e reconstruir um DataFrame bem formatado.

---

O arquivo continha vários problemas de formatação:

- A **primeira linha estava entre aspas triplas (`"""`)** e com muitos `;` no final.
- Os dados de cada linha estavam todos lidos como uma única string, sem separação adequada entre os campos.
- Isso fez com que o `pandas` agrupasse os dados incorretamente e os títulos de colunas ficassem mal formatados.

Vou reestruturar o CSV para deixá-lo assim:

- Coluna 1: `Estado`
- Colunas seguintes: anos de **1990 a 2023**
- Valores: emissões de carbono (como `float`)

Em seguida, disponibilizarei o CSV corrigido. Vamos ajustar e salvar.

---

O arquivo foi corrigido com sucesso! Agora ele possui:

- A coluna **"Estado"** com os nomes limpos.
- Uma coluna para cada ano de **1990 a 2023**, com os valores numéricos de emissões.
- Todos os ruídos de aspas e ponto-e-vírgula foram removidos.


# OBTENÇÃO DO DATASET

In [None]:
ROOT = "/content/drive/MyDrive/07_per_shared/projCDat_25_1/datasets"
env_in = Environment(ROOT, ["raw", "SEEG", "SEEG_limpo_gpt.csv"])

# Obtém DataFrame
df_raw = pd.read_csv(env_in.get_file_path())

# Exibe resultado
df_head(df_raw)
df_show_domain(df_raw, df_raw.columns)

Unnamed: 0,Estado,1990,1991,1992,1993,1994,1995,1996,1997,1998,...,2014,2015,2016,2017,2018,2019,2020,2021,2022,2023
0,Pará,371360400.0,345661200.0,488793900.0,390348000.0,409692600.0,570984500.0,460800000.0,562406800.0,480997300.0,...,260838700.0,297073800.0,358915900.0,296520300.0,334548200.0,422834100.0,410878100.0,538918500.0,439050400.0,312260500.0
1,Mato Grosso,299145400.0,308070400.0,412319400.0,395924900.0,546202300.0,646279800.0,535880900.0,523770600.0,533169100.0,...,225923600.0,248465200.0,212761400.0,220687700.0,231969600.0,278904100.0,243673300.0,264612200.0,336848300.0,298571100.0
2,Maranhão,155195900.0,143785000.0,203711600.0,164288200.0,152616800.0,143267900.0,139497600.0,128887100.0,189756500.0,...,98316210.0,106302200.0,106634700.0,95589320.0,93020000.0,105652500.0,119382300.0,117197000.0,153841100.0,173423800.0
3,Minas Gerais,171891900.0,180326000.0,167609900.0,171171400.0,159031300.0,164711900.0,159340800.0,163445600.0,156803400.0,...,175856300.0,172766400.0,164322100.0,156978900.0,154615300.0,155728200.0,156907600.0,166520800.0,165199800.0,169755200.0
4,São Paulo,118884400.0,125423000.0,122058000.0,125479400.0,137770300.0,140101700.0,138892300.0,140087300.0,140948500.0,...,166613100.0,158430600.0,149843600.0,153592900.0,147824000.0,147384700.0,142427700.0,149888200.0,152431300.0,154776200.0


Shape: (67, 35)
Coluna:   Estado
dtype:    object
Domínio:  ['Pará' 'Mato Grosso' 'Maranhão' 'Minas Gerais' 'São Paulo' 'Bahia'
 'Rondônia' 'Amazonas' 'Goiás' 'Tocantins' 'Rio Grande do Sul'
 'Mato Grosso do Sul' 'Paraná' 'Não Alocado' 'Rio de Janeiro'
 'Santa Catarina' 'Piauí' 'Ceará' 'Acre' 'Espírito Santo' 'Roraima'
 'Pernambuco' 'Paraíba' 'Rio Grande do Norte' 'Alagoas' 'Sergipe'
 'Distrito Federal' 'Amapá' ';;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;'
 ';;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;3.122.605.289.059.790']

Coluna:   1990
dtype:    float64
Domínio:  [3.71360389e+08 2.99145398e+08 1.55195860e+08 1.71891875e+08
 1.18884393e+08 1.09641990e+08 7.09765543e+07 2.16067090e+07
 1.06924460e+08 6.93007954e+07 1.01755728e+08 1.50843672e+08
 7.96538411e+07 6.90703712e+07 3.13486549e+07 4.10912207e+07
 1.64931972e+07 2.25369725e+07 2.13089613e+07 2.11960112e+07
 9.23311071e+06 1.76952204e+07 8.94846559e+06 7.63836858e+06
 7.99389647e+06 6.66255374e+06 3.03502159e+06 3.45055538e+06
            nan

# CONFORMAÇÃO DE DOMÍNIO

In [None]:
# Dicionário de sigla dos estados (inclui o Distrito Federal)
DICT_STATES = {
    "Acre": "AC",
    "Alagoas": "AL",
    "Amapá": "AP",
    "Amazonas": "AM",
    "Bahia": "BA",
    "Ceará": "CE",
    "Distrito Federal": "DF",
    "Espírito Santo": "ES",
    "Goiás": "GO",
    "Maranhão": "MA",
    "Mato Grosso": "MT",
    "Mato Grosso do Sul": "MS",
    "Minas Gerais": "MG",
    "Pará": "PA",
    "Paraíba": "PB",
    "Paraná": "PR",
    "Pernambuco": "PE",
    "Piauí": "PI",
    "Rio de Janeiro": "RJ",
    "Rio Grande do Norte": "RN",
    "Rio Grande do Sul": "RS",
    "Rondônia": "RO",
    "Roraima": "RR",
    "Santa Catarina": "SC",
    "São Paulo": "SP",
    "Sergipe": "SE",
    "Tocantins": "TO"
}
STATE_COL = "Estado" # Nome da coluna respectiva a estados

# Mapeia nome extenso em sigla dos estados
df_filtered = df_raw.copy()
# Se não houver correspondência, valor em STATE_COL recebe pd.NA (Not Available)
df_filtered[STATE_COL] = df_raw[STATE_COL].apply(lambda x: DICT_STATES.get(x, pd.NA))

# Remove colunas sem estado correspondente
df_filtered = df_filtered.dropna(subset=[STATE_COL])

# Reordena e reindexa
df = df_filtered.sort_values(by=[STATE_COL]).reset_index(drop=True)

display(df_filtered)

Unnamed: 0,Estado,1990,1991,1992,1993,1994,1995,1996,1997,1998,...,2014,2015,2016,2017,2018,2019,2020,2021,2022,2023
0,PA,371360400.0,345661200.0,488793900.0,390348000.0,409692600.0,570984500.0,460800000.0,562406800.0,480997300.0,...,260838700.0,297073800.0,358915900.0,296520300.0,334548200.0,422834100.0,410878100.0,538918500.0,439050400.0,312260500.0
1,MT,299145400.0,308070400.0,412319400.0,395924900.0,546202300.0,646279800.0,535880900.0,523770600.0,533169100.0,...,225923600.0,248465200.0,212761400.0,220687700.0,231969600.0,278904100.0,243673300.0,264612200.0,336848300.0,298571100.0
2,MA,155195900.0,143785000.0,203711600.0,164288200.0,152616800.0,143267900.0,139497600.0,128887100.0,189756500.0,...,98316210.0,106302200.0,106634700.0,95589320.0,93020000.0,105652500.0,119382300.0,117197000.0,153841100.0,173423800.0
3,MG,171891900.0,180326000.0,167609900.0,171171400.0,159031300.0,164711900.0,159340800.0,163445600.0,156803400.0,...,175856300.0,172766400.0,164322100.0,156978900.0,154615300.0,155728200.0,156907600.0,166520800.0,165199800.0,169755200.0
4,SP,118884400.0,125423000.0,122058000.0,125479400.0,137770300.0,140101700.0,138892300.0,140087300.0,140948500.0,...,166613100.0,158430600.0,149843600.0,153592900.0,147824000.0,147384700.0,142427700.0,149888200.0,152431300.0,154776200.0
5,BA,109642000.0,112988100.0,111979400.0,101928300.0,100125800.0,103801800.0,96029190.0,89181560.0,86988050.0,...,92494810.0,85433890.0,84311340.0,78668620.0,86972210.0,92658440.0,100302400.0,112067000.0,120289300.0,134962900.0
6,RO,70976550.0,116073000.0,145400200.0,145849000.0,185905400.0,239498300.0,222938100.0,159857500.0,148175400.0,...,91158230.0,118043600.0,131984000.0,125135800.0,114809300.0,149094500.0,129241900.0,152454900.0,154964500.0,99632560.0
7,AM,21606710.0,23182070.0,33931750.0,33128190.0,34809610.0,37601810.0,43736280.0,60411580.0,74929970.0,...,55550700.0,78728480.0,109492500.0,80034580.0,75600430.0,126853500.0,117296300.0,186302400.0,205311100.0,92920160.0
8,GO,106924500.0,104696100.0,112468700.0,105610900.0,103228800.0,105930600.0,91085920.0,88816310.0,85697140.0,...,87231520.0,87424880.0,83628720.0,84387240.0,83654650.0,87382690.0,90726660.0,90019820.0,91769900.0,92831970.0
9,TO,69300800.0,67487710.0,86088960.0,77780890.0,63666400.0,90412270.0,71482140.0,63849490.0,57737790.0,...,59116180.0,63567870.0,56644450.0,53437800.0,54706050.0,58412570.0,56669770.0,52967160.0,65002930.0,88702880.0


# VALORES FALTANTES

Como não há valores faltantes, não há que se realizar qualquer imputação ou remoção.

In [None]:
df_show_null(df_filtered)

# Número de valores nulos por coluna:


Unnamed: 0,0
Estado,0
1990,0
1991,0
1992,0
1993,0
1994,0
1995,0
1996,0
1997,0
1998,0


# _OUTLIERS_

Quanto a _outliers_, optou-se por deliberadamente não os remover, uma vez que a emissão de dióxido de carbono na atmosfera é sensível à atividade antrópica, de natureza volátil e imprevisível, porque atrelada a dezenas de variáveis: disposições legais do País, demanda por madeira, governo vigente etc.

# REESTRUTURAÇÃO

In [None]:
# Transforma colunas de ano em atributos
df_melted = df_filtered.melt(
    id_vars=[STATE_COL],
    var_name="_ano",
    value_name="car_c02_emitido"
)
# Renomeia colunas
df_melted.rename(columns={STATE_COL: "_estado"}, inplace=True)

display(df_melted)

Unnamed: 0,_estado,_ano,car_c02_emitido
0,PA,1990,3.713604e+08
1,MT,1990,2.991454e+08
2,MA,1990,1.551959e+08
3,MG,1990,1.718919e+08
4,SP,1990,1.188844e+08
...,...,...,...
913,RN,2023,1.321502e+07
914,AL,2023,1.050894e+07
915,SE,2023,9.628775e+06
916,DF,2023,7.274557e+06


# EXTRAPOLAÇÃO

Como a granularidade temporal dos dados a alimentarem o modelo deveria ser mensal, fez-se, sob sugestão da professora Paula Maçaira, a seguinte extrapolação: não tendo sido possível coletar informações mês a mês sobre a emissão de dióxido de carbono, mas apenas ano a ano; decidiu-se replicar o valor anual ao longo dos meses, a fim de que refletissem o comportamento geral — algo semelhante à imputação da média, mas multiplicada pelo número de meses. Dessa forma, espera-se, o modelo ainda será capaz de identificar padrões, se bem que com menor teor de detalhe. Seja como for, ainda se procuram as informações com a devida granularidade, que poderão ser incorporadas ao projeto em futuras _sprints_.

In [None]:
# PARÂMETROS AUXILIARES
MONTH_COUNT = 12                                   # Número de meses
INIT_VALUE = 1                                     # Índice inicial
END_VALUE = INIT_VALUE + MONTH_COUNT               # Índice final
MONTHS = [x for x in range(INIT_VALUE, END_VALUE)] # Vetor de índices
MONTH_COL = "_mes"                                 # Nome da coluna de meses

dfs = list()
df_aux = None

for month in MONTHS:
  df_aux = df_melted.copy()
  df_aux[MONTH_COL] = month # Adiciona coluna com o respectivo mês
  dfs.append(df_aux)        # Adiciona à lista de DataFrames

# Concatena a lista
df = pd.concat(dfs).reset_index(drop=True)

df_head(df)

Unnamed: 0,_estado,_ano,car_c02_emitido,_mes
0,PA,1990,371360400.0,1
1,MT,1990,299145400.0,1
2,MA,1990,155195900.0,1
3,MG,1990,171891900.0,1
4,SP,1990,118884400.0,1


Shape: (11016, 4)


# CORREÇÃO DE TIPOS

In [None]:
# CORREÇÃO DE TIPOS
df["_estado"] = df["_estado"].astype("string")                  # Converte para string
df["_mes"] = df["_mes"].astype("Int32")                         # Converte para Int32 (nulificável)
df["_ano"] = df["_ano"].astype("Int32")                         # Converte para Int32 (nulificável)
df["car_c02_emitido"] = df["car_c02_emitido"].astype("Float64") # Converte para Float64 (nulificável)

# Exibe resultado
df_show_domain(df, df.columns)

Coluna:   _estado
dtype:    string
Domínio:  <StringArray>
['PA', 'MT', 'MA', 'MG', 'SP', 'BA', 'RO', 'AM', 'GO', 'TO', 'RS', 'MS', 'PR',
 'RJ', 'SC', 'PI', 'CE', 'AC', 'ES', 'RR', 'PE', 'PB', 'RN', 'AL', 'SE', 'DF',
 'AP']
Length: 27, dtype: string

Coluna:   _ano
dtype:    Int32
Domínio:  <IntegerArray>
[1990, 1991, 1992, 1993, 1994, 1995, 1996, 1997, 1998, 1999, 2000, 2001, 2002,
 2003, 2004, 2005, 2006, 2007, 2008, 2009, 2010, 2011, 2012, 2013, 2014, 2015,
 2016, 2017, 2018, 2019, 2020, 2021, 2022, 2023]
Length: 34, dtype: Int32

Coluna:   car_c02_emitido
dtype:    Float64
Domínio:  <FloatingArray>
[371360388.81906617,  299145398.1764236, 155195859.97243583,
  171891874.7191574, 118884392.75664908, 109641990.14207718,
  70976554.29632598, 21606709.009402085,  106924459.7480254,
  69300795.38282482,
 ...
  29615770.90129041, 29566932.231589705, 28627986.022511743,
 26611322.086775333,  15476573.95553324, 13215018.982496202,
 10508940.506028544,  9628774.674436588,  7274556.750461329

# REORDENAÇÃO

In [None]:
# Ordena de forma mais conveniente
df = df.sort_values(by=["_estado", "_ano", "_mes"]).reset_index(drop=True)
df = df[sorted(df.columns)]

# Exibe resultado
df_head(df, MONTH_COUNT)

Unnamed: 0,_ano,_estado,_mes,car_c02_emitido
0,1990,AC,1,21308961.330824
1,1990,AC,2,21308961.330824
2,1990,AC,3,21308961.330824
3,1990,AC,4,21308961.330824
4,1990,AC,5,21308961.330824
5,1990,AC,6,21308961.330824
6,1990,AC,7,21308961.330824
7,1990,AC,8,21308961.330824
8,1990,AC,9,21308961.330824
9,1990,AC,10,21308961.330824


Shape: (11016, 4)


# SALVAMENTO

In [None]:
# SALVAMENTO
env_out = Environment(ROOT, ["cooked", "SEEG", "emissoes_c02_cooked.csv"])
df.to_csv(env_out.get_file_path(), index=False, encoding="utf-8")