
# üìå Predi√ß√£o do Rendimento da Safra üåæ

## üìå Descri√ß√£o do Projeto  
Este projeto faz parte da **Fase 4 - Modelagem de Dados com Regress√£o Supervisionada** e tem como objetivo prever o rendimento da safra a partir de vari√°veis clim√°ticas e condi√ß√µes do solo.  

Utilizamos t√©cnicas de **An√°lise Explorat√≥ria de Dados (EDA)**, **Clusteriza√ß√£o** e **Modelagem Preditiva** para entender os padr√µes nos dados e construir modelos de Machine Learning.

## üéØ Objetivos da Entrega  
- Analisar a base de dados e encontrar tend√™ncias nos rendimentos das planta√ß√µes üå±  
- Utilizar **clusteriza√ß√£o** para identificar padr√µes e outliers nos dados üîç  
- Construir **modelos de regress√£o supervisionada** para prever o rendimento das culturas üìä  
- Avaliar o desempenho dos modelos com m√©tricas estat√≠sticas üèÜ  


In [None]:

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.cluster import KMeans
from sklearn.linear_model import LinearRegression
from sklearn.ensemble import RandomForestRegressor
from sklearn.svm import SVR
from sklearn.neural_network import MLPRegressor
from sklearn.metrics import mean_absolute_error, mean_squared_error, r2_score

# Configurar estilo dos gr√°ficos
sns.set_style("whitegrid")


In [None]:

# Carregar os dados
file_path = "crop_yield.csv"  # Certifique-se de ter o arquivo na mesma pasta
df = pd.read_csv(file_path)

# Visualizar as primeiras linhas
df.head()



## üìä An√°lise Explorat√≥ria dos Dados (EDA)  
Aqui exploramos os dados para verificar se h√° valores ausentes, padr√µes ou tend√™ncias relevantes.


In [None]:

# Informa√ß√µes gerais
df.info()

# Estat√≠sticas descritivas
df.describe()

# Verificar valores nulos
df.isnull().sum()



### üîé An√°lises e Observa√ß√µes  
- **Os dados n√£o possuem valores ausentes**, o que facilita a modelagem.  
- **As vari√°veis clim√°ticas** (temperatura, umidade, precipita√ß√£o) possuem varia√ß√µes significativas.  
- **O rendimento da safra apresenta grande dispers√£o**, indicando que diferentes culturas podem reagir de formas variadas √†s condi√ß√µes ambientais.  



### üìà Visualiza√ß√£o dos Dados  
Vamos analisar a distribui√ß√£o do rendimento da safra e sua rela√ß√£o com as condi√ß√µes clim√°ticas.


In [None]:

# Histogramas e Boxplots
plt.figure(figsize=(12, 8))

plt.subplot(2, 2, 1)
sns.histplot(df["Yield"], bins=15, kde=True)
plt.title("Distribui√ß√£o do Rendimento da Safra")

plt.subplot(2, 2, 2)
sns.boxplot(x=df["Yield"])
plt.title("Boxplot do Rendimento")

plt.subplot(2, 2, 3)
sns.scatterplot(x=df["Temperature at 2 Meters (C)"], y=df["Yield"], hue=df["Crop"])
plt.title("Temperatura vs Rendimento")

plt.subplot(2, 2, 4)
sns.scatterplot(x=df["Precipitation (mm day-1)"], y=df["Yield"], hue=df["Crop"])
plt.title("Precipita√ß√£o vs Rendimento")

plt.tight_layout()
plt.show()



### üìä Observa√ß√µes sobre os Gr√°ficos  
- **Distribui√ß√£o do rendimento**: H√° uma varia√ß√£o consider√°vel, e alguns valores extremos podem ser outliers.  
- **Temperatura vs Rendimento**: Algumas culturas parecem ser mais afetadas por varia√ß√µes de temperatura.  
- **Precipita√ß√£o vs Rendimento**: N√£o h√° uma correla√ß√£o clara, sugerindo que a precipita√ß√£o isolada pode n√£o ser um fator determinante.  



## üîç Clusteriza√ß√£o para Encontrar Padr√µes  
Usamos **K-Means** para segmentar os dados e identificar padr√µes entre as culturas.


In [None]:

# Normalizar os dados
features = df.drop(columns=["Crop", "Yield"])
scaler = StandardScaler()
features_scaled = scaler.fit_transform(features)

# Definir n√∫mero de clusters (k=3 baseado no m√©todo do cotovelo)
kmeans = KMeans(n_clusters=3, random_state=42, n_init=10)
df["Cluster"] = kmeans.fit_predict(features_scaled)

# Visualizar clusters
plt.figure(figsize=(8, 6))
sns.scatterplot(x=df["Temperature at 2 Meters (C)"], y=df["Yield"], hue=df["Cluster"], palette="viridis")
plt.title("Clusteriza√ß√£o: Temperatura vs Rendimento")
plt.xlabel("Temperatura (¬∞C)")
plt.ylabel("Rendimento (toneladas/ha)")
plt.legend(title="Cluster")
plt.show()



### üîé An√°lises da Clusteriza√ß√£o  
- **Os clusters indicam diferentes padr√µes de rendimento** entre as culturas.  
- **Temperatura parece ser um fator relevante**, com rendimentos variando entre os grupos.  
- **Essas informa√ß√µes podem ser √∫teis para ajustar os modelos preditivos**.  



## ü§ñ Modelagem Preditiva  
Agora treinamos diferentes modelos de regress√£o para prever o rendimento da safra com base nas condi√ß√µes ambientais.


In [None]:

# Prepara√ß√£o dos dados para regress√£o
X = df.drop(columns=["Crop", "Yield", "Cluster"])
y = df["Yield"]

X_scaled = scaler.fit_transform(X)
X_train, X_test, y_train, y_test = train_test_split(X_scaled, y, test_size=0.2, random_state=42)

# Modelos
models = {
    "Regress√£o Linear": LinearRegression(),
    "Random Forest": RandomForestRegressor(n_estimators=100, random_state=42),
    "Suporte a Vetores (SVR)": SVR(),
    "Rede Neural (MLP)": MLPRegressor(hidden_layer_sizes=(50, 50), max_iter=1000, random_state=42)
}

# Treinar e avaliar os modelos
results = {}
for name, model in models.items():
    model.fit(X_train, y_train)
    y_pred = model.predict(X_test)

    mae = mean_absolute_error(y_test, y_pred)
    mse = mean_squared_error(y_test, y_pred)
    rmse = mse ** 0.5
    r2 = r2_score(y_test, y_pred)

    results[name] = {"MAE": mae, "RMSE": rmse, "R¬≤": r2}

# Exibir resultados
pd.DataFrame(results).T
