<a href="https://colab.research.google.com/github/edferreira1/FarmTechFase5_Ed_Alex_Ric/blob/main/C%C3%B3pia_de_EdmarFerreiraDeSouza_rm560406_pbl_fase4.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

📊 Análise de Produtividade Agrícola com Machine Learning

1️⃣ Introdução
Este relatório apresenta uma análise da produtividade agrícola utilizando técnicas de Machine Learning. O objetivo é explorar a relação entre variáveis climáticas e o rendimento das colheitas, além de aplicar métodos supervisionados e não supervisionados para previsões e segmentações.

2️⃣ Importação de Bibliotecas
Para a análise, utilizamos bibliotecas essenciais do ecossistema Python, incluindo:
- `pandas` e `numpy` para manipulação de dados;
- `matplotlib` e `seaborn` para visualização de dados;
- Modelos de Machine Learning das bibliotecas `sklearn`, `xgboost` e `MLPRegressor`.

In [None]:
#### 1. *Importando as bibliotecas de python*

# Importando as bibliotecas necessárias
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.tree import DecisionTreeRegressor
from sklearn.ensemble import RandomForestRegressor
from sklearn.svm import SVR
from sklearn.metrics import mean_absolute_error, mean_squared_error, r2_score
from sklearn.cluster import KMeans
from sklearn.preprocessing import StandardScaler
from xgboost import XGBRegressor
from sklearn.cluster import DBSCAN
from sklearn.neural_network import MLPRegressor

📌 Descrição:

Esta célula importa todas as bibliotecas necessárias para a análise. O pandas e numpy são usados para manipulação de dados, enquanto seaborn e matplotlib auxiliam na visualização. Os modelos de regressão e clusterização são importados da biblioteca scikit-learn, além do XGBoost e MLPRegressor para modelagem avançada.

3️⃣ Carregamento e Exploração dos Dados

O dataset utilizado contém informações sobre variáveis climáticas e rendimento da colheita.

In [None]:
# Carregando os dados do arquivo
cropy_yeld_data = pd.read_csv('crop_yield.csv')
cropy_yeld_data.info()
cropy_yeld_data.head()

📌 Descrição:

Aqui, carregamos os dados do arquivo CSV e usamos .info() para verificar a estrutura do dataset, incluindo o número de linhas, colunas e tipos de dados. A função .head() exibe as primeiras linhas do conjunto de dados para uma visualização inicial.

🔍 Estatísticas Descritivas

Para compreender melhor a distribuição dos dados, calculamos estatísticas descritivas:

In [None]:
data = cropy_yeld_data

# Descrição estatística das variáveis numéricas
data.describe()

📌 Descrição:

A função .describe() retorna estatísticas resumidas como média, desvio padrão, valores mínimos e máximos para cada variável numérica. Isso ajuda a identificar possíveis discrepâncias ou valores extremos nos dados.

5️⃣ Análise de Correlação

Geramos um mapa de calor para visualizar a correlação entre as variáveis climáticas e o rendimento das colheitas.

In [None]:
# Excluir colunas não numéricas antes de calcular a correlação
numeric_data = data.select_dtypes(include=[np.number])

# Calculando e visualizando a correlação
plt.figure(figsize=(10, 6))
sns.heatmap(numeric_data.corr(), annot=True, cmap='coolwarm', fmt='.2f')
plt.title("Mapa de Correlação das Variáveis")
plt.show()

📌 Descrição:

Este código gera um heatmap que exibe a correlação entre as variáveis do dataset. Valores próximos de 1 indicam forte correlação positiva, enquanto valores próximos de -1 indicam forte correlação negativa. Essa análise ajuda a identificar quais variáveis são mais relevantes para a modelagem.

6️⃣ Separação dos Dados

Definimos as variáveis preditoras (X) e a variável alvo (y), além de dividir os dados entre treino e teste.

In [None]:
# Separando as variáveis independentes (X) e a variável dependente (y)
X = data[['Precipitation (mm day-1)', 'Specific Humidity at 2 Meters (g/kg)',
          'Relative Humidity at 2 Meters (%)', 'Temperature at 2 Meters (C)']]
y = data['Yield']


# Dividindo os dados em treino e teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

📌 Descrição:

Selecionamos as colunas que representam variáveis climáticas como variáveis independentes (X) e o rendimento da colheita como variável dependente (y). Em seguida, usamos train_test_split() para dividir os dados em um conjunto de treinamento (80%) e um conjunto de teste (20%).

7️⃣ Modelagem com Regressão Linear

A regressão linear é aplicada como primeira abordagem preditiva.

In [None]:
# Criando o modelo de Regressão Linear
lr_model = LinearRegression()
lr_model.fit(X_train, y_train)

# Fazendo previsões
y_pred = lr_model.predict(X_test)

📌 Descrição:

Criamos um modelo de regressão linear simples com LinearRegression(), treinamos com os dados de treino e realizamos previsões para o conjunto de teste.

8️⃣ Avaliação da Regressão Linear

Calculamos métricas para avaliar o desempenho do modelo.

In [None]:
# Avaliação do modelo
print("Métricas de Regressão Linear:")
print("MAE:", mean_absolute_error(y_test, y_pred))
print("MSE:", mean_squared_error(y_test, y_pred))
print("R2:", r2_score(y_test, y_pred))

📌 Descrição:

As métricas utilizadas são:

    MAE (Erro Absoluto Médio): Média dos erros absolutos entre valores reais e previstos.
    MSE (Erro Quadrático Médio): Penaliza erros maiores mais fortemente.
    R² (Coeficiente de Determinação): Mede a proporção da variância explicada pelo modelo.

9️⃣ Normalização dos Dados

Antes de aplicar os algoritmos de Machine Learning, normalizamos os dados usando StandardScaler() para padronizar as variáveis em uma escala semelhante. Isso melhora a eficiência dos modelos, especialmente os baseados em distância.

In [None]:
# Normalização
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

📌 Descrição:

Aqui usamos StandardScaler() para normalizar as variáveis, transformando-as em uma distribuição com média zero e desvio padrão um. Isso melhora o desempenho de algoritmos que dependem da escala das variáveis, como K-Means e DBSCAN.

🔟 Clusterização com K-Means (ML Não Supervisionado)

Utilizamos o algoritmo K-Means para agrupar os dados em três clusters. Essa abordagem permite segmentar regiões com características climáticas e produtivas semelhantes.

In [None]:
# Clusterização (ML não supervisionado)
kmeans = KMeans(n_clusters=3, random_state=42)
data['Cluster'] = kmeans.fit_predict(X_scaled)
sns.scatterplot(x=data['Temperature at 2 Meters (C)'], y=data['Yield'], hue=data['Cluster'])
plt.title("Clusters de produtividade")
plt.show()

📌 Descrição:

O algoritmo K-Means agrupa os dados em três clusters baseados nas características climáticas.
A visualização mostra como a temperatura influencia os clusters de produtividade.

1️⃣1️⃣ Clusterização com DBSCAN

O algoritmo DBSCAN é aplicado para detectar padrões naturais nos dados, diferenciando pontos de alta densidade de regiões de ruído. Diferente do K-Means, ele não exige que o número de clusters seja definido previamente.

In [None]:
# DBSCAN
dbscan = DBSCAN(eps=0.5, min_samples=5)
data['Cluster_DBSCAN'] = dbscan.fit_predict(X_scaled)

sns.scatterplot(x=data['Temperature at 2 Meters (C)'], y=data['Yield'], hue=data['Cluster_DBSCAN'])
plt.title("Clusters de produtividade com DBSCAN")
plt.show()

📌 Descrição:

O DBSCAN segmenta os dados sem exigir um número pré-definido de clusters.
A visualização exibe os clusters identificados, onde pontos rotulados como -1 representam ruído.

1️⃣2️⃣ Contagem de Elementos por Cluster

Aqui analisamos a quantidade de elementos em cada cluster para verificar a distribuição gerada pelos algoritmos K-Means e DBSCAN.

In [None]:
# Contagem de elementos por cluster - K-Means
print("Distribuição dos Clusters - K-Means:")
print(data['Cluster'].value_counts())

# Contagem de elementos por cluster - DBSCAN
print("\nDistribuição dos Clusters - DBSCAN:")
print(data['Cluster_DBSCAN'].value_counts())

📌 Descrição:

Essa etapa quantifica quantos dados foram alocados em cada cluster.
Se DBSCAN apresentar muitos pontos como -1, isso indica que muitos dados foram considerados ruído.

1️⃣3️⃣ Estatísticas de Rendimento por Cluster

Avaliamos as estatísticas descritivas do rendimento da safra dentro de cada cluster identificado pelos dois algoritmos.

In [None]:
# Estatísticas de rendimento por cluster - K-Means
print("\nEstatísticas de Rendimento por Cluster (K-Means):")
print(data.groupby('Cluster')['Yield'].describe())

# Estatísticas de rendimento por cluster - DBSCAN
print("\nEstatísticas de Rendimento por Cluster (DBSCAN):")
print(data.groupby('Cluster_DBSCAN')['Yield'].describe())

📌 Descrição:

Essa análise estatística inclui média, mediana, desvio padrão e valores extremos dentro de cada cluster.
Isso nos permite verificar se há diferenças significativas de produtividade entre os grupos identificados.

1️⃣4️⃣ Distribuição do Rendimento por Cluster (Boxplot)

Criamos boxplots para visualizar a dispersão dos rendimentos em cada cluster identificado por K-Means e DBSCAN.

In [None]:
plt.figure(figsize=(12, 5))

# Boxplot para K-Means
plt.subplot(1, 2, 1)
sns.boxplot(x=data['Cluster'], y=data['Yield'])
plt.title("Distribuição do Rendimento por Cluster - K-Means")

# Boxplot para DBSCAN
plt.subplot(1, 2, 2)
sns.boxplot(x=data['Cluster_DBSCAN'], y=data['Yield'])
plt.title("Distribuição do Rendimento por Cluster - DBSCAN")

plt.tight_layout()
plt.show()

📌 Descrição:

Os boxplots mostram como a rendimento varia dentro de cada cluster, revelando a presença de outliers e padrões distintos.

1️⃣5️⃣ Médias das Variáveis Climáticas por Cluster

Calculamos a média das variáveis climáticas para cada cluster, buscando padrões entre temperatura, umidade e precipitação.

In [None]:
# Médias das variáveis climáticas por cluster - K-Means
print("\nMédias das Variáveis Climáticas por Cluster - K-Means:")
print(data.groupby('Cluster')[['Precipitation (mm day-1)', 
                               'Specific Humidity at 2 Meters (g/kg)', 
                               'Relative Humidity at 2 Meters (%)', 
                               'Temperature at 2 Meters (C)']].mean())

# Médias das variáveis climáticas por cluster - DBSCAN
print("\nMédias das Variáveis Climáticas por Cluster - DBSCAN:")
print(data.groupby('Cluster_DBSCAN')[['Precipitation (mm day-1)', 
                                      'Specific Humidity at 2 Meters (g/kg)', 
                                      'Relative Humidity at 2 Meters (%)', 
                                      'Temperature at 2 Meters (C)']].mean())

📌 Descrição:

Calculamos a média das variáveis climáticas para cada cluster, ajudando a entender quais condições climáticas estão associadas a diferentes níveis de produtividade agrícola.

## 📊 Análise dos Clusters de Produtividade

### **1. Principais Conclusões**

- ✅ **As condições climáticas influenciam o rendimento, mas a relação não é tão forte.**
- ✅ **K-Means conseguiu segmentar melhor os dados em clusters equilibrados.**
- ✅ **DBSCAN considerou muitos pontos como ruído, indicando que os dados podem não possuir padrões claros de clusterização.**
- ✅ **Áreas mais úmedas tendem a ter maior produtividade, mas a variação dentro de cada cluster é muito alta.**

1️⃣6️⃣ Separação dos Dados para Treinamento e Teste

Dividimos os dados em conjuntos de treino (80%) e teste (20%) para treinar os modelos preditivos.

In [None]:
# Separando os dados para treino e teste
X_train, X_test, y_train, y_test = train_test_split(X_scaled, y, test_size=0.2, random_state=42)


📌 Descrição:

Os dados são divididos em 80% para treino e 20% para teste, garantindo que os modelos sejam treinados e avaliados corretamente.

1️⃣7️⃣ Escolha dos Modelos Preditivos

Selecionamos cinco modelos de regressão para prever o rendimento da safra, abrangendo métodos lineares, baseados em árvores e redes neurais.

In [None]:
# Escolha dos modelos preditivos
models = {
    "Linear Regression": LinearRegression(),
    "Random Forest": RandomForestRegressor(n_estimators=100, random_state=42),
    "XGBoost": XGBRegressor(objective='reg:squarederror', random_state=42),
    "SVR": SVR(kernel='rbf'),
    "MLP": MLPRegressor(hidden_layer_sizes=(100, 50), 
                                       activation='relu', 
                                       solver='adam', 
                                       max_iter=500, 
                                       random_state=42),
}

📌 Descrição:

Testamos cinco modelos diferentes e avaliamos seu desempenho utilizando métricas como R², RMSE e MAE.

1️⃣8️⃣ Treinamento e Avaliação dos Modelos

Treinamos os modelos e avaliamos seu desempenho utilizando métricas como R², RMSE e MAE.

In [None]:
# Treinamento e avaliação
for name, model in models.items():
    model.fit(X_train, y_train)
    y_pred = model.predict(X_test)
    print(f"\n{name}:")
    print(f"R²: {r2_score(y_test, y_pred):.4f}")
    print(f"RMSE: {np.sqrt(mean_squared_error(y_test, y_pred)):.4f}")
    print(f"MAE: {mean_absolute_error(y_test, y_pred):.4f}")


📌 Descrição:

Testamos cinco modelos diferentes e avaliamos seu desempenho utilizando métricas como R², RMSE e MAE.

1️⃣9️⃣ Comparação entre Valores Reais e Previstos

Comparamos os valores reais da safra com as previsões dos modelos Linear Regression e MLP.

In [None]:
mlp_model = models["MLP"]
mlp_model.fit(X_train, y_train)
y_pred_mlp = mlp_model.predict(X_test)

# Comparação entre valores reais e previstos
plt.figure(figsize=(8, 6))
plt.scatter(y_test, y_pred, alpha=0.5, label="Linear Regression")
plt.scatter(y_test, y_pred_mlp, alpha=0.5, label="MLP Regressor", color="red")
plt.plot([y.min(), y.max()], [y.min(), y.max()], '--', color='black')  # Linha 1:1
plt.xlabel("Rendimento Real")
plt.ylabel("Rendimento Previsto")
plt.legend()
plt.title("Comparação entre Valores Reais e Previstos")
plt.show()


📌 Descrição:

Este gráfico compara os valores reais e previstos para identificar a precisão dos modelos.

2️⃣0️⃣ Salvamento do Dataset Modificado

Após todas as análises, salvamos os dados processados para uso futuro.

In [None]:
# Salvar o dataset modificado
data.to_csv("crop_yield_processed.csv", index=False)

📌 Descrição:

O dataset modificado é salvo para futuras análises.