# üìò Meu portf√≥lio de dados ambientais
## Como os estados brasileiros emitem gases de efeito estufa

Sou David e constru√≠ este notebook para apresentar, de maneira pessoal, como analiso grandes bases p√∫blicas. Quero mostrar minha capacidade de:

1. Organizar um fluxo anal√≠tico claro.
2. Limpar e preparar dados reais, tratando nulos e outliers.
3. Contar uma boa hist√≥ria a partir dos n√∫meros.

A base utilizada vem do SEEG (Sistema de Estimativa de Emiss√µes e Remo√ß√µes de Gases de Efeito Estufa) e cobre emiss√µes por estado brasileiro de 1970 a 2021.

### Roteiro do estudo
1. Importar bibliotecas e configurar o ambiente.
2. Carregar os dados originais e entender sua estrutura.
3. Limpar a base (tratamento de nulos) e remodelar para o formato longo.
4. Suavizar outliers de emiss√µes anuais por estado usando IQR.
5. Construir visualiza√ß√µes que contem a evolu√ß√£o nacional, os estados l√≠deres e os setores determinantes.
6. Encerrar com li√ß√µes e pr√≥ximos passos.

In [None]:
from pathlib import Path

import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
from matplotlib.ticker import FuncFormatter

sns.set_theme(style="whitegrid", palette="crest")
plt.rcParams["figure.figsize"] = (12, 6)
pd.set_option("display.max_columns", 30)
pd.options.display.float_format = "{:.2f}".format

### 1. Carregamento dos dados
A planilha `dados_gases.xlsx` est√° no diret√≥rio do projeto e cont√©m a aba **GEE Estados**, com o invent√°rio anual de emiss√µes por estado e por tipo de atividade econ√¥mica.

In [None]:
DATA_PATH = Path("dados_gases.xlsx")
if not DATA_PATH.exists():
    raise FileNotFoundError(
        "Arquivo 'dados_gases.xlsx' n√£o encontrado. Certifique-se de mant√™-lo na raiz do projeto."
    )

emissoes_raw = pd.read_excel(DATA_PATH, sheet_name="GEE Estados")
print(f"A base original possui {emissoes_raw.shape[0]:,} linhas e {emissoes_raw.shape[1]} colunas.")
emissoes_raw.sample(5, random_state=42)

### 2. Diagn√≥stico r√°pido de valores nulos
Quais colunas mais sofrem com aus√™ncia de informa√ß√£o?

In [None]:
null_report = (
    emissoes_raw.isna()
    .mean()
    .sort_values(ascending=False)
    .mul(100)
    .round(1)
    .to_frame("Percentual de nulos (%)")
)
null_report.head(12)

### Decis√µes de limpeza
- **Produto**: mais de 60% de nulos e pouco valor para a narrativa ‚Üí coluna descartada.
- **N√≠veis 3 a 6**: completados com o r√≥tulo *"N√£o informado"* para preservar a hierarquia mesmo sem detalhe.
- **Estado**: entradas agregadas (NaN) s√£o rotuladas como *"BRASIL"* para diferenciar dos estados.
- **Atividade Econ√¥mica**: completada com *"N√£o informado"* quando vazia.
- **Filtro**: mantemos somente linhas com `Emiss√£o / Remo√ß√£o / Bunker == 'Emiss√£o'`, removendo remo√ß√µes, bunkers e emiss√µes fora do invent√°rio nacional.

In [None]:
cols_to_drop = ["Produto"]
fill_defaults = {
    "Estado": "BRASIL",
    "Atividade Econ√¥mica": "N√£o informado",
    "N√≠vel 3": "N√£o informado",
    "N√≠vel 4": "N√£o informado",
    "N√≠vel 5": "N√£o informado",
    "N√≠vel 6": "N√£o informado",
}

emissoes = (
    emissoes_raw.loc[emissoes_raw["Emiss√£o / Remo√ß√£o / Bunker"] == "Emiss√£o"]
    .drop(columns=cols_to_drop)
    .copy()
)

demographic_cols = list(fill_defaults.keys())
emissoes[demographic_cols] = emissoes[demographic_cols].fillna(fill_defaults)

emissoes = emissoes.drop(columns=["Emiss√£o / Remo√ß√£o / Bunker"])
emissoes = emissoes.rename(columns={"G√°s": "G√°s (refer√™ncia)"})

print(
    f"Base ap√≥s limpeza: {emissoes.shape[0]:,} linhas e {emissoes.shape[1]} colunas."
)

(
    emissoes.isna()
    .mean()
    .sort_values(ascending=False)
    .head(5)
)

### 3. Remodelando para o formato longo
Para somar emiss√µes por per√≠odo, precisamos condensar as colunas de 1970‚Äì2021 em uma √∫nica coluna `Ano`.

In [None]:
info_cols = [col for col in emissoes.columns if not isinstance(col, int)]
year_cols = sorted([col for col in emissoes.columns if isinstance(col, int)])

emissoes_long = emissoes.melt(
    id_vars=info_cols,
    value_vars=year_cols,
    var_name="Ano",
    value_name="Emissao"
)

emissoes_long["Ano"] = emissoes_long["Ano"].astype(int)
emissoes_long.head()

### 4. Tratamento de outliers com IQR
Emiss√µes estaduais podem ter saltos bruscos (queimadas espec√≠ficas, por exemplo). Para manter a tend√™ncia geral sem perder sinal, apliquei um *winsorize* baseado no intervalo interquart√≠lico (IQR) por ano.

In [None]:
def winsorize_iqr(series: pd.Series) -> pd.Series:
    q1 = series.quantile(0.25)
    q3 = series.quantile(0.75)
    iqr = q3 - q1
    if iqr == 0:
        return series
    lower = q1 - 1.5 * iqr
    upper = q3 + 1.5 * iqr
    return series.clip(lower, upper)

emissoes_estado = (
    emissoes_long.groupby(["Estado", "Ano"], as_index=False)["Emissao"].sum()
    .query("Estado != 'BRASIL'")
)

emissoes_estado["Emissao_sem_outlier"] = (
    emissoes_estado.groupby("Ano")["Emissao"].transform(winsorize_iqr)
)

impacto_outlier = pd.DataFrame({
    "Total sem tratamento": [emissoes_estado["Emissao"].sum()],
    "Total suavizado": [emissoes_estado["Emissao_sem_outlier"].sum()]
})
impacto_outlier.assign(
    Redu√ß√£o_percentual=lambda df: (1 - (df["Total suavizado"] / df["Total sem tratamento"])) * 100
)

### 5. Storytelling visual
#### 5.1 Evolu√ß√£o das emiss√µes nacionais

In [None]:
totais_ano = (
    emissoes_estado.groupby("Ano", as_index=False)["Emissao_sem_outlier"].sum()
)

fig, ax = plt.subplots()
sns.lineplot(data=totais_ano, x="Ano", y="Emissao_sem_outlier", ax=ax, linewidth=2)
ax.set_title("Emiss√µes totais suavizadas por ano (Estados brasileiros)")
ax.set_ylabel("Emiss√µes (toneladas equivalentes de CO‚ÇÇ)")
ax.yaxis.set_major_formatter(
    FuncFormatter(lambda value, pos: f"{value/1e6:.1f} mi t")
)
ax.set_xlabel("Ano")
plt.tight_layout()
plt.show()

> **Insight:** mesmo ap√≥s suavizar outliers, a curva nacional mostra queda no in√≠cio da d√©cada de 2000 e nova escalada recente, refletindo press√µes sobre mudan√ßa de uso da terra.

#### 5.2 Estados que mais emitiram em 2021

In [None]:
top_2021 = (
    emissoes_estado.loc[emissoes_estado["Ano"] == 2021]
    .nlargest(10, "Emissao_sem_outlier")
    .sort_values("Emissao_sem_outlier", ascending=True)
)

fig, ax = plt.subplots()
sns.barplot(
    data=top_2021,
    x="Emissao_sem_outlier",
    y="Estado",
    palette="viridis",
    ax=ax
)
ax.set_title("Top 10 estados emissores em 2021")
ax.set_xlabel("Emiss√µes suavizadas (t de CO‚ÇÇe)")
ax.set_ylabel("")
ax.xaxis.set_major_formatter(
    FuncFormatter(lambda value, pos: f"{value/1e6:.1f} mi")
)
plt.tight_layout()
plt.show()

> **Insight:** Mato Grosso, Par√° e Amazonas lideram o ranking recente ‚Äî evid√™ncia clara do peso do desmatamento amaz√¥nico nas emiss√µes nacionais.

#### 5.3 Quais setores puxam as emiss√µes?

In [None]:
emissoes_setor = (
    emissoes_long.groupby(["N√≠vel 1 - Setor", "Ano"], as_index=False)["Emissao"].sum()
)

top_setores = (
    emissoes_setor.groupby("N√≠vel 1 - Setor")["Emissao"].sum().nlargest(4).index
)

emissoes_setor_top = emissoes_setor[emissoes_setor["N√≠vel 1 - Setor"].isin(top_setores)]

fig, ax = plt.subplots()
sns.lineplot(
    data=emissoes_setor_top,
    x="Ano",
    y="Emissao",
    hue="N√≠vel 1 - Setor",
    ax=ax,
    linewidth=2
)
ax.set_title("Setores que mais contribuem para as emiss√µes")
ax.set_ylabel("Emiss√µes (t de CO‚ÇÇe)")
ax.yaxis.set_major_formatter(
    FuncFormatter(lambda value, pos: f"{value/1e6:.1f} mi")
)
ax.legend(title="Setor", bbox_to_anchor=(1.02, 1), loc="upper left")
plt.tight_layout()
plt.show()

> **Insight:** Mudan√ßa de uso da terra domina o panorama, seguida de Agropecu√°ria e Energia. Os saltos recentes em "Mudan√ßa de Uso da Terra" acontecem ao mesmo tempo em que os estados amaz√¥nicos aparecem no topo, refor√ßando a narrativa.

### 6. Conclus√µes e pr√≥ximos passos
- **Narrativa constru√≠da:** tratamos nulos, suavizamos outliers e mostramos como emiss√µes nacionais ainda dependem da agenda de desmatamento.
- **Estados cr√≠ticos:** MT e PA concentram emiss√µes recentes; merecem planos locais espec√≠ficos.
- **Setores cr√≠ticos:** Mudan√ßa de uso da terra segue como principal vetor, mas agropecu√°ria mant√©m patamar elevado.

**Pr√≥ximos passos que pretendo atacar:**
1. Enriquecer a an√°lise com dados econ√¥micos (PIB/produ√ß√£o agropecu√°ria) para medir intensidade de emiss√µes.
2. Criar um dashboard interativo (Streamlit ou Power BI) reaproveitando os datasets j√° limpos.
3. Explorar emiss√µes per capita integrando dados populacionais por estado.

> Notebook produzido para fins de portf√≥lio pessoal. Fonte dos dados: [SEEG](http://seeg.eco.br/download).

### 7. Exportando a base para o dashboard
Para facilitar a constru√ß√£o de pain√©is interativos, exporto abaixo a base j√° filtrada e suavizada (`emissoes_estado`). Ela cont√©m as emiss√µes anuais por estado, prontas para conex√£o em solu√ß√µes como Power BI ou Streamlit.

In [None]:
OUTPUT_CSV = Path("emissoes_estado_filtrado.csv")
emissoes_estado.to_csv(OUTPUT_CSV, index=False)
print(f"Arquivo para dashboard salvo em: {OUTPUT_CSV.resolve()}")