<a href="https://colab.research.google.com/github/francianerod/Doutorado-ESAN-UFMS/blob/main/C%C3%93DIGO_TESE_PARTE_FINAL.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **APÊNDICE A - CÓDIGO DE ANÁLISE DA ESTIAGEM DA CULTURA DA SOJA**

## **Abertura de biblioteca e dados**

In [None]:
# Importação da biblioteca
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import warnings

In [None]:
# Ignorar avisos
import warnings
warnings.filterwarnings("ignore")

In [None]:
# Abertura dos dados
df = pd.read_csv('/content/cpao_oficial_dados_1979_2023.csv', sep=';')

In [None]:
# Mudança do tipo de dados da data
df['data'] = pd.to_datetime(df['data'], format='%d/%m/%Y')

In [None]:
# Eliminando linhas vazias referentes a 2024.
df = df.dropna()

## **Médias climatológicas de Dourados**

In [None]:
# Período 1: 01/01/1980 a 31/12/2009
periodo_1 = df[(df['data'] >= '1980-01-01') & (df['data'] <= '2009-12-31')]

# Período 2: 01/01/1994 a 31/10/2023
periodo_2 = df[(df['data'] >= '1994-01-01') & (df['data'] <= '2023-10-31')]

In [None]:
# Médias mensais para o período 1
medias_mensais_periodo_1 = periodo_1.groupby(periodo_1['data'].dt.month)[['Tmedia', 'Tmax', 'Tmin']].mean()

# Médias mensais para o período 2
medias_mensais_periodo_2 = periodo_2.groupby(periodo_2['data'].dt.month)[['Tmedia', 'Tmax', 'Tmin']].mean()

In [None]:
# Organização dos dados
meses = ['Janeiro', 'Fevereiro', 'Março', 'Abril', 'Maio', 'Junho', 'Julho', 'Agosto', 'Setembro', 'Outubro', 'Novembro', 'Dezembro']
medias_mensais_periodo_1.index = meses
medias_mensais_periodo_2.index = meses

In [None]:
# Configurando gráficos
# Configurando o tamanho da figura
plt.figure(figsize=(15, 7))

# Plotando os dados do período 1
plt.plot(medias_mensais_periodo_1.index, medias_mensais_periodo_1['Tmedia'], label='Período 1 (1980-2009)', marker='o')
plt.plot(medias_mensais_periodo_1.index, medias_mensais_periodo_1['Tmax'], label='Período 1 (1980-2009) - Tmax', marker='o', linestyle='--')
plt.plot(medias_mensais_periodo_1.index, medias_mensais_periodo_1['Tmin'], label='Período 1 (1980-2009) - Tmin', marker='o', linestyle='--')

# Plotando os dados do período 2
plt.plot(medias_mensais_periodo_2.index, medias_mensais_periodo_2['Tmedia'], label='Período 2 (1994-2023)', marker='s')
plt.plot(medias_mensais_periodo_2.index, medias_mensais_periodo_2['Tmax'], label='Período 2 (1994-2023) - Tmax', marker='s', linestyle='--')
plt.plot(medias_mensais_periodo_2.index, medias_mensais_periodo_2['Tmin'], label='Período 2 (1994-2023) - Tmin', marker='s', linestyle='--')

# Adicionando título, rótulos dos eixos e legenda
plt.title('Comparação das Médias Mensais de Temperatura em Dourados-MS')
plt.xlabel('Mês')
plt.ylabel('Temperatura (°C)')
plt.legend() #loc='upper center', bbox_to_anchor=(0.5, -0.15), fancybox=True, shadow=True, ncol=5
plt.grid(True)

# Rotacionando os rótulos do eixo x para melhor visualização
plt.xticks(rotation=45)

# Exibindo o gráfico
plt.tight_layout() # ajusta o layout para evitar sobreposição de elementos
plt.show()

In [None]:
# Agrupa os dados por ano e mês e soma a chuva
chuva_acumulada_periodo_1 = periodo_1.groupby([periodo_1['data'].dt.year, periodo_1['data'].dt.month])['chuva'].sum()
chuva_acumulada_periodo_2 = periodo_2.groupby([periodo_2['data'].dt.year, periodo_2['data'].dt.month])['chuva'].sum()


# Calcula a média mensal do acumulado de chuva para cada período
media_chuva_mensal_periodo_1 = chuva_acumulada_periodo_1.groupby(level=1).mean()
media_chuva_mensal_periodo_2 = chuva_acumulada_periodo_2.groupby(level=1).mean()

# Define os nomes dos meses para o índice
meses = ['Janeiro', 'Fevereiro', 'Março', 'Abril', 'Maio', 'Junho', 'Julho', 'Agosto', 'Setembro', 'Outubro', 'Novembro', 'Dezembro']
media_chuva_mensal_periodo_1.index = meses
media_chuva_mensal_periodo_2.index = meses

In [None]:
# Configurando o tamanho da figura
plt.figure(figsize=(15, 7))

# Dados para o gráfico
meses = media_chuva_mensal_periodo_1.index  # Usando os meses do período 1 como eixo x
chuva_periodo_1 = media_chuva_mensal_periodo_1.values
chuva_periodo_2 = media_chuva_mensal_periodo_2.values

# Criando o gráfico
plt.figure(figsize=(12, 6))  # Define o tamanho da figura
plt.plot(meses, chuva_periodo_1, label='Período 1 (1980-2009)', marker='o')
plt.plot(meses, chuva_periodo_2, label='Período 2 (1994-2023)', marker='s')

# Personalizando o gráfico
plt.title('Comparação da Média Mensal de Chuva Acumulada em Dourados-MS')
plt.xlabel('Mês')
plt.ylabel('Chuva Acumulada (mm)')
plt.xticks(rotation=45, ha='right')  # Rotaciona os rótulos do eixo x para melhor visualização
plt.legend()
plt.grid(True)

# Exibindo o gráfico
plt.tight_layout()
plt.show()

In [None]:
# Filtrar os dados para o período entre setembro e março
periodo_setembro_marco = df[(df['data'].dt.month >= 9) | (df['data'].dt.month <= 3)]

# Encontrar a temperatura máxima e sua data
data_temperatura_maxima = periodo_setembro_marco.loc[periodo_setembro_marco['Tmax'].idxmax(), 'data']
temperatura_maxima = periodo_setembro_marco['Tmax'].max()

# Encontrar a temperatura mínima e sua data
data_temperatura_minima = periodo_setembro_marco.loc[periodo_setembro_marco['Tmin'].idxmin(), 'data']
temperatura_minima = periodo_setembro_marco['Tmin'].min()


# Encontrar o acumulado de chuva máximo em um dia e sua data
data_chuva_maxima = periodo_setembro_marco.loc[periodo_setembro_marco['chuva'].idxmax(), 'data']
chuva_maxima_dia = periodo_setembro_marco['chuva'].max()

# Imprimir os resultados
print(f"Temperatura máxima entre setembro e março: {temperatura_maxima:.2f} °C em {data_temperatura_maxima.date()}")
print(f"Temperatura mínima entre setembro e março: {temperatura_minima:.2f} °C em {data_temperatura_minima.date()}")
print(f"Acumulado de chuva máximo em um dia entre setembro e março: {chuva_maxima_dia:.2f} mm em {data_chuva_maxima.date()}")

## **Construindo indicador de estiagem usando apenas a Precipitação**

In [None]:
# Apenas a coluna de chuva
df_chuva = df[['data', 'chuva']]

In [None]:
# Janelas Móveis (Rolling Windows): Utilizando a soma acumulada de 5 dias para capturar o comportamento da precipitação no curto prazo.
# Calculando o acumulado de precipitação dos últimos 5 e 10 dias
df_chuva['acumulado5dias'] = df_chuva['chuva'].rolling(window=5, min_periods=1).sum()
df_chuva['acumulado10dias'] = df_chuva['chuva'].rolling(window=10, min_periods=1).sum()

In [None]:
# Janelas Móveis (Rolling Windows): Utilizando a soma acumulada de 5 dias para capturar o comportamento da precipitação no curto prazo.
# Calculando o acumulado de precipitação dos últimos 5 e 10 dias
df_chuva['acumulado5dias'] = df_chuva['chuva'].rolling(window=5, min_periods=1).sum()
df_chuva['acumulado10dias'] = df_chuva['chuva'].rolling(window=10, min_periods=1).sum()

In [None]:
# Agora df_chuva
df_chuva.describe()

In [None]:
# Filtrar os dados para o período entre setembro e março -periodo em que se planta soja
df_chuva_setembro_marco = df_chuva[(df_chuva['data'].dt.month >= 9) | (df_chuva['data'].dt.month <= 3)]

In [None]:
#Estatística descritiva da safra
df_chuva_setembro_marco.describe()

In [None]:
# Boxplot do df_chuva_setembro_marco das colunas chuva, acumulado5dias, acumulado10dias no plotly

import plotly.graph_objects as go
fig = go.Figure()
fig.add_trace(go.Box(y=df_chuva_setembro_marco['chuva'], name='Chuva'))
fig.add_trace(go.Box(y=df_chuva_setembro_marco['acumulado5dias'], name='Acumulado 5 dias'))
fig.add_trace(go.Box(y=df_chuva_setembro_marco['acumulado10dias'], name='Acumulado 10 dias'))

fig.update_layout(title_text="Boxplot da Chuva e Acumulados (Setembro-Março)", yaxis_title="mm")
fig.show()


In [None]:
# Removendo os Outliers e deixar entre os valores máximos e minimos.
import plotly.graph_objects as go

# Função para remover outliers usando o IQR
def remove_outliers(df, column):
    Q1 = df[column].quantile(0.25)
    Q3 = df[column].quantile(0.75)
    IQR = Q3 - Q1
    lower_bound = Q1 - 1.5 * IQR
    upper_bound = Q3 + 1.5 * IQR
    return df[(df[column] >= lower_bound) & (df[column] <= upper_bound)]

# Aplicar a remoção de outliers para cada variável
df_chuva_filtrado = remove_outliers(df_chuva_setembro_marco, 'chuva')
df_acumulado5dias_filtrado = remove_outliers(df_chuva_setembro_marco, 'acumulado5dias')
df_acumulado10dias_filtrado = remove_outliers(df_chuva_setembro_marco, 'acumulado10dias')

# Criar um novo DataFrame apenas com os dados filtrados
df_chuva_setembro_marco_no_outliers = pd.DataFrame({
    'chuva': df_chuva_filtrado['chuva'],
    'acumulado5dias': df_acumulado5dias_filtrado['acumulado5dias'],
    'acumulado10dias': df_acumulado10dias_filtrado['acumulado10dias']
})

# Criar o gráfico sem outliers interferindo nos cálculos estatísticos
fig = go.Figure()
fig.add_trace(go.Box(y=df_chuva_setembro_marco_no_outliers['chuva'], name='Chuva', boxpoints=False))
fig.add_trace(go.Box(y=df_chuva_setembro_marco_no_outliers['acumulado5dias'], name='Acumulado 5 dias', boxpoints=False))
fig.add_trace(go.Box(y=df_chuva_setembro_marco_no_outliers['acumulado10dias'], name='Acumulado 10 dias', boxpoints=False))

fig.update_layout(title_text="Boxplot da Chuva e Acumulados (Setembro-Março) - Sem Outliers", yaxis_title="mm")
fig.show()


In [None]:
# Verifique se a filtragem funcionou
df_chuva_setembro_marco.describe() # Antes da filtragem

In [None]:
# RESULTADO: INDICADOR A SER USADO PARA ESTIAGEM: A MÉDIA SEM INTERFERÊNCIA DE OUTLIERS
# Informações da média foram usadas na planilha em excel para decidir qual melhor indicador.
df_chuva_setembro_marco_no_outliers.describe()  # Depois da filtragem

## **Pré-processamento e teste de ML**

In [None]:
# Janelas Móveis (Rolling Windows): Utilizando a soma acumulada de 5 dias para capturar o comportamento da precipitação no curto prazo.
# Calculando o acumulado de precipitação dos últimos 5 e 10 dias
df['acumulado5dias'] = df['chuva'].rolling(window=5, min_periods=1).sum()
df['acumulado10dias'] = df['chuva'].rolling(window=10, min_periods=1).sum()

In [None]:
# Criando features referentes a data
df['ano'] = df['data'].dt.year
df['mes'] = df['data'].dt.month
df['dia_do_ano'] = df['data'].dt.dayofyear

In [None]:
# Criando novas variáveis derivadas
df["variacao_ac_5_10"] = df["acumulado5dias"] / (df["acumulado10dias"] + 1)

In [None]:
# Aplicando a regra para determinar estiagem sobre a variável de 5 dias acumulado determinado pela estatística
df['estiagem'] = df['acumulado5dias'].apply(lambda x: 1 if x < 20.6 else 0)

In [None]:
# Avaliação de correlação
correlation = df.corr(method='pearson')
mascara = np.triu(np.ones_like(correlation, dtype=bool))
plt.figure(figsize = ((8, 5)))
plot = sns.heatmap(correlation,
                   mask=mascara,
                   annot = True,
                   fmt=".2f", vmax=1, center=0, vmin=-1,
                   cbar=True, cmap='coolwarm',
                   linewidths=.5,
                   cbar_kws={"shrink": .5, 'label': 'Correlação', 'orientation': 'vertical'})

plt.show()

In [None]:
# Verificação de desbalanceamento
estiagem_counts = df['estiagem'].value_counts()
estiagem_counts

In [None]:
# Instalação de pacote
!pip install lazypredict
!pip install imblearn

In [None]:
# Importando bibliotecas
import pandas as pd
import lazypredict
from lazypredict.Supervised import LazyClassifier
from sklearn.model_selection import train_test_split
from imblearn.over_sampling import SMOTE

# Separando as variáveis explicativas (X) e a variável target (y)
X = df.drop(columns=["data", "Tmax", "Tmin","acumulado5dias", "acumulado10dias", "estiagem"])
y = df["estiagem"]

# Dividindo os dados antes do balanceamento
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42, stratify=y)

# Aplicar SMOTE apenas no conjunto de treino
over_sampler = SMOTE(random_state=42)
X_train_resampled, y_train_resampled = over_sampler.fit_resample(X_train, y_train)

# Inicializando o classificador LazyClassifier
clf = LazyClassifier(verbose=0, ignore_warnings=True, custom_metric=None)

# Treinando o modelo com os dados de treino balanceados
models, predictions = clf.fit(X_train_resampled, X_test, y_train_resampled, y_test)

# Imprimindo os resultados
models

## **Separando dados de Treino/Teste e Validação**

In [None]:
#Conjunto de Dados Oficial
df

In [None]:
# Definindo as datas divididas - Para os testes
date_split_train_test = pd.to_datetime('2021-08-31')
date_split_valid = pd.to_datetime('2021-09-01')

# Criando o df1_train_test
df1_train_test = df[df['data'] <= date_split_train_test]

# Criando o df2_valid
df2_valid = df[(df['data'] >= date_split_valid) & (df['data'] <= pd.to_datetime('2023-12-31'))]

print("df1_train_test shape:", df1_train_test.shape)
print("df2_valid shape:", df2_valid.shape)

In [None]:
# Criando df2_ruim (2021-09-01 a 2022-03-31)
df2_ruim = df2_valid[(df2_valid['data'] >= '2021-09-01') & (df2_valid['data'] <= '2022-03-31')]

# Criando df2_boa (2022-09-01 a 2023-03-31)
df2_boa = df2_valid[(df2_valid['data'] >= '2022-09-01') & (df2_valid['data'] <= '2023-03-31')]

print("df2_ruim shape:", df2_ruim.shape)
print("df2_boa shape:", df2_boa.shape)

## **Classificação: Machine Learning**

**Bases separadas:**

* df - original para construir o conjunto de dados
* df1_train_test - treinamento e testes do ML (1979-06-01 a 2021-08-31) - 15429 informações
* df2_valid - validações do ML (01-09-2021 a 31-12-2023)
    * df2_ruim (2021-09-01 a 2022-03-31)
    * df2_boa (2022-09-01 a 2023-03-31)


In [None]:
# Bibliotecas importantes
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
from imblearn.over_sampling import SMOTE
from sklearn.metrics import accuracy_score, confusion_matrix, classification_report

In [None]:
# Base de Dados de Treinamento e Teste
df1_train_test.info()

In [None]:
# Separando as variáveis explicativas (X) e a variável target (y)
# Tmedia, chuva, ano, mes, dia_do_ano, variacao_ac_5_10
# estiagem (0,1)

X = df1_train_test.drop(columns=["data", "Tmax", "Tmin","acumulado5dias", "acumulado10dias", "estiagem"])
y = df1_train_test["estiagem"]

In [None]:
# Dividindo os dados antes do balanceamento
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42, stratify=y)

# Aplicar SMOTE apenas no conjunto de treino
over_sampler = SMOTE(random_state=42)
X_train_resampled, y_train_resampled = over_sampler.fit_resample(X_train, y_train)

In [None]:
# Função Classificação
def print_score(clf, X_train, y_train, X_test, y_test, train=True):
    if train:
        pred = clf.predict(X_train)
        clf_report = pd.DataFrame(classification_report(y_train, pred, output_dict=True))
        print("Resultado do treinamento:\n================================================")
        print(f"Accuracy Score: {accuracy_score(y_train, pred) * 100:.2f}%")
        print("_______________________________________________")
        print(f"Relatório de classificação:\n{clf_report}")
        print("_______________________________________________")
        print(f"Confusion Matrix: \n {confusion_matrix(y_train, pred)}\n")

    elif train==False:
        pred = clf.predict(X_test)
        clf_report = pd.DataFrame(classification_report(y_test, pred, output_dict=True))
        print("Resultado do teste:\n================================================")
        print(f"Accuracy Score: {accuracy_score(y_test, pred) * 100:.2f}%")
        print("_______________________________________________")
        print(f"Relatório de classificação:\n{clf_report}")
        print("_______________________________________________")
        print(f"Confusion Matrix: \n {confusion_matrix(y_test, pred)}\n")

In [None]:
# Importando a biblioteca necessária
from sklearn.ensemble import RandomForestClassifier

# Inicializando o classificador RandomForestClassifier com hiperparâmetros ajustados
rf_clf = RandomForestClassifier(random_state=42,               # Para reprodutibilidade
                                n_estimators=200,              # Número de árvores na floresta
                                max_depth=15,                  # Profundidade máxima das árvores (None permite crescimento ilimitado)
                                min_samples_split=5,           # Número mínimo de amostras para dividir um nó
                                min_samples_leaf=1,            # Número mínimo de amostras em um nó folha
                                )
# Treinando o modelo com os dados de treino balanceados
rf_clf.fit(X_train_resampled, y_train_resampled)

# Fazendo previsões
y_pred_rf = rf_clf.predict(X_test)

#Relatório de Resultados
print_score(rf_clf, X_train_resampled, y_train_resampled, X_test, y_test, train=True)
print_score(rf_clf, X_train_resampled, y_train_resampled, X_test, y_test, train=False)

In [None]:
# Importando a biblioteca necessária
from sklearn.ensemble import ExtraTreesClassifier

# Inicializando o ExtraTreesClassifier
et_clf = ExtraTreesClassifier(n_estimators=200,
                              max_depth=15,
                              min_samples_split=5,
                              min_samples_leaf=2,
                              random_state=42)

# Treinando o modelo com os dados balanceados
et_clf.fit(X_train_resampled, y_train_resampled)

# Fazendo previsões
y_pred_et = et_clf.predict(X_test)

#Relatório de Resultados
print_score(et_clf, X_train_resampled, y_train_resampled, X_test, y_test, train=True)
print_score(et_clf, X_train_resampled, y_train_resampled, X_test, y_test, train=False)

In [None]:
# Importando a biblioteca necessária
import xgboost as xgb

# Inicializando o classificador XGBClassifier
xgb_clf = xgb.XGBClassifier(random_state=42,
                            use_label_encoder=False,
                            eval_metric='logloss',
                            )

# Treinando o modelo com os dados de treino balanceados
xgb_clf.fit(X_train_resampled, y_train_resampled)


# Fazendo previsões
y_pred_xgb = xgb_clf.predict(X_test)

#Relatório de Resultados
print_score(xgb_clf, X_train_resampled, y_train_resampled, X_test, y_test, train=True)
print_score(xgb_clf, X_train_resampled, y_train_resampled, X_test, y_test, train=False)

## **Validação**

### **Teste Safra Ruim de 2021-2022**

In [None]:
# Original para validação
df2_ruim

In [None]:
# Separando as informações da base de treino e teste sem o rótulo
X_unlabeled_ruim = df2_ruim.drop(columns=["data", "Tmax", "Tmin","acumulado5dias", "acumulado10dias", "estiagem"])

In [None]:
# A tabela para validação tem de ser a mesma do treinamento e teste
X_unlabeled_ruim

In [None]:
# Teste de Validação: RandomForestClassifier

# Prevendo rótulos para o conjunto de dados não rotulado
y_pred_unlabeled = rf_clf.predict(X_unlabeled_ruim)

# Contando a quantidade de rótulos 0 e 1
counts = np.bincount(y_pred_unlabeled)

# Calculando a porcentagem
total = len(y_pred_unlabeled)
percent_1 = (counts[1] / total) * 100
percent_0 = (counts[0] / total) * 100

# Exibindo a quantidade e a porcentagem de 0s e 1s
print(f"Quantidade de 1 - com estiagem: {counts[1]} ({percent_1:0.0f}%)")
print(f"Quantidade de 0 - sem estiagem: {counts[0]} ({percent_0:0.0f}%)")


In [None]:
# Teste de Validação: ExtraTreesClassifier

# Prevendo rótulos para o conjunto de dados não rotulado
y_pred_unlabeled = et_clf.predict(X_unlabeled_ruim)

# Contando a quantidade de rótulos 0 e 1
counts = np.bincount(y_pred_unlabeled)

# Calculando a porcentagem
total = len(y_pred_unlabeled)
percent_1 = (counts[1] / total) * 100
percent_0 = (counts[0] / total) * 100

# Exibindo a quantidade e a porcentagem de 0s e 1s
print(f"Quantidade de 1 - com estiagem: {counts[1]} ({percent_1:0.0f}%)")
print(f"Quantidade de 0 - sem estiagem: {counts[0]} ({percent_0:0.0f}%)")

In [None]:
# Teste de Validação: XGBClassifier

# Prevendo rótulos para o conjunto de dados não rotulado
y_pred_unlabeled = xgb_clf.predict(X_unlabeled_ruim)

# Contando a quantidade de rótulos 0 e 1
counts = np.bincount(y_pred_unlabeled)

# Calculando a porcentagem
total = len(y_pred_unlabeled)
percent_1 = (counts[1] / total) * 100
percent_0 = (counts[0] / total) * 100

# Exibindo a quantidade e a porcentagem de 0s e 1s
print(f"Quantidade de 1 - com estiagem: {counts[1]} ({percent_1:0.0f}%)")
print(f"Quantidade de 0 - sem estiagem: {counts[0]} ({percent_0:0.0f}%)")

### **Teste Safra Boa de 2022-2023**

In [None]:
# Original para validação
df2_boa

In [None]:
# Separando as informações da base de treino e teste sem o rótulo
X_unlabeled_boa = df2_boa.drop(columns=["data", "Tmax", "Tmin","acumulado5dias", "acumulado10dias", "estiagem"])

In [None]:
# Teste de Validação: RandomForestClassifier

# Prevendo rótulos para o conjunto de dados não rotulado
y_pred_unlabeled = rf_clf.predict(X_unlabeled_boa)

# Contando a quantidade de rótulos 0 e 1
counts = np.bincount(y_pred_unlabeled)

# Calculando a porcentagem
total = len(y_pred_unlabeled)
percent_1 = (counts[1] / total) * 100
percent_0 = (counts[0] / total) * 100

# Exibindo a quantidade e a porcentagem de 0s e 1s
print(f"Quantidade de 1 - com estiagem: {counts[1]} ({percent_1:0.0f}%)")
print(f"Quantidade de 0 - sem estiagem: {counts[0]} ({percent_0:0.0f}%)")

In [None]:
# Teste de Validação: ExtraTreesClassifier

# Prevendo rótulos para o conjunto de dados não rotulado
y_pred_unlabeled = et_clf.predict(X_unlabeled_boa)

# Contando a quantidade de rótulos 0 e 1
counts = np.bincount(y_pred_unlabeled)

# Calculando a porcentagem
total = len(y_pred_unlabeled)
percent_1 = (counts[1] / total) * 100
percent_0 = (counts[0] / total) * 100

# Exibindo a quantidade e a porcentagem de 0s e 1s
print(f"Quantidade de 1 - com estiagem: {counts[1]} ({percent_1:0.0f}%)")
print(f"Quantidade de 0 - sem estiagem: {counts[0]} ({percent_0:0.0f}%)")

In [None]:
# Teste de Validação: XGBClassifier

# Prevendo rótulos para o conjunto de dados não rotulado
y_pred_unlabeled = xgb_clf.predict(X_unlabeled_boa)

# Contando a quantidade de rótulos 0 e 1
counts = np.bincount(y_pred_unlabeled)

# Calculando a porcentagem
total = len(y_pred_unlabeled)
percent_1 = (counts[1] / total) * 100
percent_0 = (counts[0] / total) * 100

# Exibindo a quantidade e a porcentagem de 0s e 1s
print(f"Quantidade de 1 - com estiagem: {counts[1]} ({percent_1:0.0f}%)")
print(f"Quantidade de 0 - sem estiagem: {counts[0]} ({percent_0:0.0f}%)")

# **Arcabouço de Solow - Aplicação**

In [None]:
# Importação das bibliotecas
import matplotlib.pyplot as plt
import seaborn as sns
import numpy as np

# Estilo do Seaborn
sns.set(style="whitegrid", palette="deep")

# Valores de capital (K)
K = np.linspace(1, 100, 100)

# Parâmetros da função de produção Cobb-Douglas
A1 = 1.0   # Progresso técnico inicial
A2 = 1.2   # Progresso técnico aumentado (20%)
alpha = 0.3
L = 1      # Trabalho constante

# Funções de produção
Y1 = A1 * (K ** alpha) * (L ** (1 - alpha))
Y2 = A2 * (K ** alpha) * (L ** (1 - alpha))

# Plot com cores específicas do Seaborn (verde e azul)
plt.figure(figsize=(9, 6))
plt.plot(K, Y1, label='A = 1,0 (nível tecnológico inicial)', color=sns.color_palette("deep")[2])  # verde
plt.plot(K, Y2, label='A = 1,2 (com progresso técnico)', color=sns.color_palette("deep")[0])      # azul

# Títulos e rótulos
#plt.title('Impacto do Progresso Técnico sobre o Produto Total\nFunção de Produção Cobb-Douglas', fontsize=13)
plt.xlabel('Capital (K)', fontsize=11)
plt.ylabel('Produto Total (Y)', fontsize=11)
plt.legend()
plt.tight_layout()
plt.show()