## <font color='blue'>Data Science Para Análise Multivariada de Dados</font>
### <font color='blue'>Data Science no Agronegócio</font>
### <font color='blue'>Previsão de Rendimento de Colheita e Otimização da Irrigação</font>

## Instalando e Carregando os Pacotes

In [1]:
# Define o nível de log no tensor flow
%env TF_CPP_MIN_LOG_LEVEL=3

env: TF_CPP_MIN_LOG_LEVEL=3


In [2]:
# Imports
import joblib
import sklearn
import pandas as pd
import tensorflow as tf
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense, Dropout
from tensorflow.keras.callbacks import EarlyStopping, ModelCheckpoint
import warnings
warnings.filterwarnings('ignore')

In [3]:
# Versões dos pacotes usados neste jupyter notebook
%reload_ext watermark
%watermark -a "Henrique Bardella" 
%watermark -v -m
%watermark --iversions

Author: Henrique Bardella

Python implementation: CPython
Python version       : 3.9.12
IPython version      : 8.4.0

Compiler    : MSC v.1916 64 bit (AMD64)
OS          : Windows
Release     : 10
Machine     : AMD64
Processor   : AMD64 Family 25 Model 80 Stepping 0, AuthenticAMD
CPU cores   : 16
Architecture: 64bit

joblib    : 1.2.0
pandas    : 1.5.0
tensorflow: 2.11.0
sklearn   : 0.0



## Carregando o Conjunto de Dados

In [4]:
# Carregar o dataset
df_dsa = pd.read_csv('dataset_agro.csv')

In [5]:
df_dsa.shape

(124, 12)

In [6]:
df_dsa.head()

Unnamed: 0,data,indice_vegetacao,capacidade_solo,concentracao_co2,nivel_nutrientes,indice_fertilizantes,profundidade_raiz,radiacao_solar,precipitacao,estagio_crescimento,historico_rendimento,umidade
0,2012-12-01,323,455,3102.61,423.45,844.0,468.0,578.0,28.67,207.70504,117.7,79.261905
1,2013-01-01,345,546,3100.45,415.85,799.0,485.0,557.0,24.49,228.94287,4.5,82.193548
2,2013-02-01,362,595,3199.41,410.77,718.0,466.0,552.0,22.06,238.41747,25.1,74.839286
3,2013-03-01,376,636,3281.67,414.82,614.0,442.0,574.0,21.64,218.47599,53.6,77.935484
4,2013-04-01,383,738,3261.65,451.04,619.0,429.0,595.0,22.3,226.1501,166.0,80.45


## Análise Exploratória


In [7]:
# Verificar os tiposde da dados das colunas
df_dsa.dtypes

data                     object
indice_vegetacao          int64
capacidade_solo           int64
concentracao_co2        float64
nivel_nutrientes        float64
indice_fertilizantes    float64
profundidade_raiz       float64
radiacao_solar          float64
precipitacao            float64
estagio_crescimento     float64
historico_rendimento    float64
umidade                 float64
dtype: object

In [8]:
# Exibir as colunas do dataset
df_dsa.columns

Index(['data', 'indice_vegetacao', 'capacidade_solo', 'concentracao_co2',
       'nivel_nutrientes', 'indice_fertilizantes', 'profundidade_raiz',
       'radiacao_solar', 'precipitacao', 'estagio_crescimento',
       'historico_rendimento', 'umidade'],
      dtype='object')

In [9]:
# Identificar colunas não numéricas
non_numeric_columns = df_dsa.select_dtypes(include = ['object']).columns
print(f'Colunas não numéricas: {non_numeric_columns}')

Colunas não numéricas: Index(['data'], dtype='object')


## Limpeza e Transformação

In [10]:
# Remover colunas não numéricas (se não forem necessárias)
df_dsa = df_dsa.drop(columns = non_numeric_columns)

In [11]:
# Verificar se a coluna 'umidade' contém valores numéricos
if df_dsa['umidade'].dtype == 'object':
    df_dsa['umidade'] = pd.to_numeric(df_dsa['umidade'], errors = 'coerce')

In [12]:
# Remover linhas com valores faltantes
df_dsa = df_dsa.dropna()

## Padronização dos Dados

In [13]:
# Separar preditores e variável alvo
X = df_dsa.drop(columns = 'umidade')
y = df_dsa['umidade']

In [14]:
# Dividir os dados em conjunto de treino  teste
X_treino, X_teste, y_treino, y_teste = train_test_split(X, y, test_size = 0.2, random_state = 42)

In [15]:
# Cria o padronizador 
scaler = StandardScaler()

In [16]:
# Padroniza os dados
X_treino_scaled = scaler.fit_transform(X_treino)
X_teste_scaled = scaler.transform(X_teste)

In [17]:
# Salva o padronizador no disco
joblib.dump(scaler, 'scaler.joblib')

['scaler.joblib']

In [18]:
scaler

## Construção do Modelo

In [20]:
# Definir a arquitetura do modelo
modelo_dsa = Sequential([Dense(64, activation = 'relu', input_shape = (X_treino.shape[1],)),
                         Dropout(0.3),
                         Dense(32, activation = 'relu'),
                         Dropout(0.3),
                         Dense(16, activation = 'relu'),
                         Dense(1)])

O código acima define a arquitetura de um modelo de rede neural sequencial utilizando a biblioteca Keras. Aqui está uma explicação detalhada de cada linha:

**modelo_dsa = Sequential([ ... ])**: Cria um modelo sequencial, que é uma pilha linear de camadas.

**Dense(64, activation='relu', input_shape=(X_treino.shape[1],))**: Adiciona uma camada densa (totalmente conectada) com 64 neurônios e função de ativação ReLU (Rectified Linear Unit). A input_shape especifica a forma dos dados de entrada, que corresponde ao número de características (colunas) em X_treino.

**Dropout(0.3)**: Adiciona uma camada de dropout com uma taxa de 30%. Dropout é uma técnica de regularização que desativa aleatoriamente 30% dos neurônios durante o treinamento para prevenir o overfitting.

**Dense(32, activation='relu')**: Adiciona outra camada densa com 32 neurônios e função de ativação ReLU.

**Dropout(0.3)**: Adiciona mais uma camada de dropout com uma taxa de 30%.

**Dense(16, activation='relu')**: Adiciona mais uma camada densa com 16 neurônios e função de ativação ReLU.

**Dense(1)**: Adiciona a camada de saída com um único neurônio. Não é especificada uma função de ativação, o que é comum em problemas de regressão, onde a saída é um valor contínuo. Se fosse um problema de classificação binária, uma ativação sigmoid poderia ser usada nesta camada.

Essa arquitetura é típica para problemas de regressão onde se deseja prever um único valor contínuo a partir de múltiplas características de entrada.

## Compilação do Modelo

In [21]:
# Compilar o modelo
modelo_dsa.compile(optimizer = 'adam', loss = 'mse', metrics = ['mae'])

O código acima compila o modelo de rede neural que foi definido anteriormente. A compilação é um passo necessário antes de treinar o modelo. Aqui está uma explicação de cada parte do código:

**modelo_dsa.compile(...)**: Compila o modelo, configurando-o para treinamento com um otimizador, uma função de perda e métricas.

**optimizer='adam'**: Define o otimizador como 'adam'. O Adam (Adaptive Moment Estimation) é um otimizador eficiente e amplamente utilizado em redes neurais, combinando as vantagens dos algoritmos de Gradient Descent com Momentum e RMSProp. Ele ajusta dinamicamente a taxa de aprendizado durante o treinamento.

**loss='mse'**: Define a função de perda como 'mse' (Mean Squared Error). MSE é uma função de perda comum em problemas de regressão, que calcula a média dos quadrados das diferenças entre os valores previstos e os valores reais. É usada para medir o desempenho do modelo, com valores menores indicando um melhor ajuste.

**metrics=['mae']**: Especifica que a métrica a ser monitorada durante o treinamento é 'mae' (Mean Absolute Error). MAE é a média dos valores absolutos das diferenças entre os valores previstos e os valores reais. Assim como MSE, valores menores de MAE indicam um melhor desempenho do modelo, mas MAE é menos sensível a grandes erros do que MSE.

Compilar o modelo é um passo essencial que define como o modelo será otimizado e avaliado durante o treinamento.

## Definindo os Callbacks

In [26]:
# Callbacks
early_stopping = EarlyStopping(monitor = 'val_loss', patience = 10, restore_best_weights = True)
model_checkpoint = ModelCheckpoint('modelo_dsa.keras', save_best_only = True)

Este trecho de código define dois callbacks para o treinamento do modelo: EarlyStopping e ModelCheckpoint. Callbacks são ferramentas que permitem realizar certas ações em pontos específicos durante o treinamento.

**early_stopping = EarlyStopping(...)**: Define um callback de parada antecipada (early stopping).

**monitor='val_loss'**: Monitora a perda de validação (val_loss) durante o treinamento. A validação é um processo onde um conjunto separado de dados (dados de validação) é usado para avaliar o desempenho do modelo, ajudando a evitar o overfitting.

**patience=10**: Define a paciência em 10 épocas. Isso significa que se a perda de validação não melhorar por 10 épocas consecutivas, o treinamento será interrompido.

**restore_best_weights=True**: Restabelece os pesos do modelo para o estado em que apresentaram a melhor perda de validação. Isso garante que os pesos finais do modelo sejam os melhores encontrados durante o treinamento.

**model_checkpoint = ModelCheckpoint(...)**: Define um callback de checkpoint do modelo.

**'modelo_dsa.keras'**: Especifica o nome do arquivo onde o modelo será salvo.

**save_best_only=True**: Salva o modelo apenas quando ele apresentar a melhor perda de validação até o momento. Isso evita salvar várias versões do modelo e garante que o melhor modelo encontrado durante o treinamento seja salvo.

Em resumo, esses callbacks ajudam a:

- Parar o treinamento antecipadamente se o modelo não estiver melhorando, economizando tempo e recursos computacionais.

- Salvar automaticamente o melhor modelo encontrado durante o treinamento, garantindo que você tenha uma versão do modelo com o melhor desempenho.

## Treinamento do Modelo

In [27]:
modelo_dsa.summary()

Model: "sequential_1"
_________________________________________________________________
 Layer (type)                Output Shape              Param #   
 dense_4 (Dense)             (None, 64)                704       
                                                                 
 dropout_2 (Dropout)         (None, 64)                0         
                                                                 
 dense_5 (Dense)             (None, 32)                2080      
                                                                 
 dropout_3 (Dropout)         (None, 32)                0         
                                                                 
 dense_6 (Dense)             (None, 16)                528       
                                                                 
 dense_7 (Dense)             (None, 1)                 17        
                                                                 
Total params: 3,329
Trainable params: 3,329
Non-traina

In [28]:
# Treinar o modelo
history = modelo_dsa.fit(X_treino_scaled, 
                         y_treino,
                         validation_split = 0.2,
                         epochs = 100,
                         batch_size = 32,
                         callbacks = [early_stopping, model_checkpoint])

Epoch 1/100
Epoch 2/100
Epoch 3/100
Epoch 4/100
Epoch 5/100
Epoch 6/100
Epoch 7/100
Epoch 8/100
Epoch 9/100
Epoch 10/100
Epoch 11/100
Epoch 12/100
Epoch 13/100
Epoch 14/100
Epoch 15/100
Epoch 16/100
Epoch 17/100
Epoch 18/100
Epoch 19/100
Epoch 20/100
Epoch 21/100
Epoch 22/100
Epoch 23/100
Epoch 24/100
Epoch 25/100
Epoch 26/100
Epoch 27/100
Epoch 28/100
Epoch 29/100
Epoch 30/100
Epoch 31/100
Epoch 32/100
Epoch 33/100
Epoch 34/100
Epoch 35/100
Epoch 36/100
Epoch 37/100
Epoch 38/100
Epoch 39/100
Epoch 40/100
Epoch 41/100
Epoch 42/100
Epoch 43/100
Epoch 44/100
Epoch 45/100
Epoch 46/100
Epoch 47/100
Epoch 48/100
Epoch 49/100
Epoch 50/100
Epoch 51/100
Epoch 52/100
Epoch 53/100
Epoch 54/100
Epoch 55/100
Epoch 56/100
Epoch 57/100
Epoch 58/100
Epoch 59/100


## Avaliação do Modelo

In [29]:
# Avaliar o modelo no conjunto de teste
teste_loss, teste_mae = modelo_dsa.evaluate(X_teste_scaled, y_teste)



In [30]:
print(f'Teste Loss: {teste_loss}')
print(f'Teste MAE: {teste_mae}')

Teste Loss: 176.83340454101562
Teste MAE: 11.319253921508789
