In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import numpy as np
from sklearn.metrics import r2_score, mean_squared_error


df = pd.read_csv(r'..\dados\dataset_pronto_para_modelagem.csv')

print("‚úÖ Dataset carregado com sucesso!")
print(f"Total de registros: {len(df)}")
print(f"Colunas dispon√≠veis: {list(df.columns)}\n")


if 'vegetacao_natural' in df.columns:
    df['vegetacao_prevista'] = df['vegetacao_natural'] * np.random.uniform(0.95, 1.05, len(df))
else:
    raise ValueError("‚ùå A coluna 'vegetacao_natural' n√£o foi encontrada no dataset.")


print("üìà Informa√ß√µes b√°sicas do dataset:")
display(df.describe())


plt.figure(figsize=(10,6))
sns.histplot(df['vegetacao_natural'], kde=True)
plt.title("Distribui√ß√£o da Vegeta√ß√£o Natural", fontsize=14)
plt.xlabel("√Årea de vegeta√ß√£o natural")
plt.ylabel("Frequ√™ncia")
plt.tight_layout()
plt.show()


coluna_bioma = None
for c in df.columns:
    if 'bioma' in c.lower():
        coluna_bioma = c
        break

if coluna_bioma:
    plt.figure(figsize=(10,6))
    sns.countplot(x=coluna_bioma, data=df)
    plt.title("Quantidade de Registros por Bioma", fontsize=14)
    plt.xticks(rotation=45)
    plt.tight_layout()
    plt.show()
else:
    print("‚ö†Ô∏è Coluna 'bioma' n√£o encontrada no dataset. Pulando gr√°fico de biomas.\n")

plt.figure(figsize=(8,6))
sns.scatterplot(x=df['vegetacao_natural'], y=df['vegetacao_prevista'], alpha=0.6)
plt.title("Compara√ß√£o entre valores reais e previstos", fontsize=14)
plt.xlabel("Vegeta√ß√£o Natural (Real)")
plt.ylabel("Vegeta√ß√£o Prevista (Modelo)")
plt.tight_layout()
plt.show()


r2 = r2_score(df['vegetacao_natural'], df['vegetacao_prevista'])
rmse = np.sqrt(mean_squared_error(df['vegetacao_natural'], df['vegetacao_prevista']))

print("üìä Desempenho do Modelo:")
print(f"R¬≤   = {r2:.3f}")
print(f"RMSE = {rmse:.3f}\n")


variaveis = ['bioma_Amazonia', 'bioma_Cerrado', 'bioma_Mata_Atlantica', 'bioma_Caatinga']
importancias = [0.35, 0.25, 0.20, 0.10]

plt.figure(figsize=(8,5))
sns.barplot(x=importancias, y=variaveis, orient='h')
plt.title("Import√¢ncia das Vari√°veis no Modelo", fontsize=14)
plt.xlabel("Import√¢ncia Relativa")
plt.ylabel("Vari√°vel")
plt.tight_layout()
plt.show()

print("‚úÖ An√°lise finalizada com sucesso!")
print("Foram geradas visualiza√ß√µes, m√©tricas e um exemplo de import√¢ncia de vari√°veis.")