In [1]:
# %% [markdown]
# # Análise das Práticas Sustentáveis e Percepção de Degradação
# Este notebook:
# - Limpa dados ausentes
# - Expande práticas sustentáveis em colunas binárias
# - Calcula número de práticas por propriedade
# - Gera frequências e prepara dados por município

# %%
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.preprocessing import MultiLabelBinarizer
import os    
os.environ['KMP_DUPLICATE_LIB_OK'] = 'True'

# %% [markdown]
# ## 1. Carregar dados

# %%
df = pd.read_csv("C:/Users/Valentine/Artigo_Mapitos/data_clean/uso_sust_degaradacao.csv")  # ajuste caminho/nome se necessário

print("Registros originais:", len(df))
df.head()



Registros originais: 1056


Unnamed: 0,uso_de_praticas_sustentaveis_,qual_o_nivel_de_degradacao_que_predomina_nas_pastagens_,name,codigo_ibge,Record Count,geometry
0,Não Usa,Degradação Média,Marianópolis do Tocantins,1712504.0,10,"POLYGON ((-49.6746618111 -9.5358800686, -49.66..."
1,"Aceiros, Adubação",,Palmeiras do Tocantins,1713809.0,8,"POLYGON ((-47.6346362056 -6.4496681397, -47.60..."
2,"Aceiros, Calagem, Adubação",Não possui degradação,Miranorte,1713304.0,8,"POLYGON ((-48.6942215268 -9.1934321564, -48.69..."
3,"Aceiros, Adubação",Não possui degradação,Miranorte,1713304.0,7,"POLYGON ((-48.6942215268 -9.1934321564, -48.69..."
4,"Aceiros, Adubação",Não possui degradação,Miranorte,1713304.0,6,"POLYGON ((-48.6942215268 -9.1934321564, -48.69..."


In [2]:
# %% [markdown]
# ## 2. Limpar dados ausentes nas colunas principais

# %%
col_praticas = "uso_de_praticas_sustentaveis_"  # ajuste o nome da coluna exatamente como no seu CSV
col_degrad = "qual_o_nivel_de_degradacao_que_predomina_nas_pastagens_"

df = df.dropna(subset=[col_praticas, col_degrad])
print("Registros após remover NaN nas colunas principais:", len(df))

# %% [markdown]
# ## 3. Expandir práticas sustentáveis em colunas binárias

# %%
# Preencher NaN com string vazia (já removemos os NaN principais)
df[col_praticas] = df[col_praticas].fillna("")

# separar por vírgula -> lista
df["praticas_lista"] = df[col_praticas].apply(lambda x: [i.strip() for i in x.split(",") if i.strip() != ""])

# criar binário com MultiLabelBinarizer
mlb = MultiLabelBinarizer()
praticas_bin = pd.DataFrame(
    mlb.fit_transform(df["praticas_lista"]),
    columns=mlb.classes_,
    index=df.index
)



Registros após remover NaN nas colunas principais: 736


In [None]:
# juntar no dataframe original
df_expanded = pd.concat([df, praticas_bin], axis=1)

# calcular quantas práticas cada produtor usa
df_expanded["n_praticas"] = df_expanded[mlb.classes_].sum(axis=1)

print("Exemplo de colunas binárias:")
df_expanded.head()

# %% [markdown]
# ## 4. Frequência de cada prática

# %%
praticas_freq = df_expanded[mlb.classes_].sum().sort_values(ascending=False)
print("Frequência de cada prática:\n", praticas_freq)

# gráfico de barras
plt.figure(figsize=(8,4))
praticas_freq.plot(kind="bar", color="seagreen")
plt.title("Frequência de cada prática sustentável")
plt.ylabel("Número de propriedades")
plt.xticks(rotation=45, ha="right")
plt.tight_layout()
plt.show()
