📊 Boxplot interativo das variáveis por tipo de cultivo

Foi criado um boxplot interativo com Plotly para visualizar a distribuição das variáveis numéricas em cada cultura agrícola. Através da função melt(), a base foi transformada para o formato longo, permitindo o agrupamento por cultivo (label) e por variável. Esse gráfico revela diferenças significativas nas medianas e amplitudes interquartis, além da presença de potenciais outliers. Por exemplo, culturas como mamão (papaya) e arroz (rice) apresentam distribuições distintas de precipitação (rainfall), enquanto as culturas maçã (apple) e uva (grape) possuem índices de potássio (K) consideravelmente maiores do que as demais. Essas diferenças podem ser úteis para a criação de modelos de classificação baseados em características específicas do solo e do ambiente.

In [None]:
#📊 Boxplot interativo das variáveis por tipo de cultivo

df_long = df.melt(id_vars='label', 
                  value_vars=['N', 'P', 'K', 'temperature', 'humidity', 'ph', 'rainfall'],
                  var_name='variavel', 
                  value_name='valor')


fig = px.box(df_long, x='label', y='valor', color='variavel', points='all', title='Boxplot Interativo das Variáveis por tipo de Cultivo')
fig.update_layout(
    xaxis_title="Tipo de Cultivo",
    yaxis_title="Valor",
    boxmode='group',  
    xaxis_tickangle=-45,
    legend_title="Variável",
    height=600,
    width=1200
)

🔬 Dispersão entre pH e precipitação

O gráfico de dispersão entre pH e precipitação (rainfall) permite avaliar a existência de correlações visuais ou agrupamentos naturais entre essas variáveis. Embora não seja possível inferir relações causais, pode-se identificar tendências ou padrões específicos. O gráfico sugere alguma dispersão menor em faixas médias de pH, mas sem uma correlação linear clara. Esta análise reforça a importância de múltiplas variáveis em conjunto para prever o tipo de cultura.

In [None]:
#🔬 Dispersão entre pH e precipitação

plt.Figure(figsize=(18,10))
sns.scatterplot(data=df2, x='ph', y='rainfall')

plt.show()

🧪 Média de nutrientes por cultura (gráfico de barras agrupadas)

Utiliza-se o método groupby para calcular as médias de potássio (K), nitrogênio (N) e fósforo (P) por tipo de cultivo, plotando um gráfico de barras agrupadas com Seaborn. Nota-se que diferentes culturas demandam diferentes composições químicas do solo: por exemplo, maçãs (apples) e uvas (grapes) tendem a exigir maior quantidade de K e P em relação ao coco (coconut) e laranjas (oranges). Essas informações são valiosas para práticas agrícolas direcionadas, bem como para alimentar modelos supervisionados com lógica explicável.

In [None]:
#🧪 Média de nutrientes por cultura (gráfico de barras agrupadas)

df_media = df.groupby('label')[['K', 'N', 'P']].mean().reset_index()

# Transformar para formato longo
df_meltado = df_media.melt(id_vars='label', value_vars=['K', 'N', 'P'],
                           var_name='Nutriente', value_name='Valor')

# Gráfico de barras agrupadas
plt.figure(figsize=(16, 6))
sns.barplot(data=df_meltado, x='label', y='Valor', hue='Nutriente', palette='Set2')

plt.title('Média de K, N e P por Cultivo')
plt.xlabel('Cultivo')
plt.ylabel('Valor Médio')
plt.legend(title='Nutriente')
plt.xticks(rotation=45)
plt.tight_layout()
plt.show()

🔥 Matriz de correlação entre variáveis numéricas

Através do heatmap com annot=True, visualiza-se a correlação entre variáveis contínuas. Isso ajuda a identificar multicolinearidade, que pode prejudicar certos algoritmos (como Regressão Linear). A matriz de correlação representada pelo heatmap abaixo revela como as variáveis numéricas do solo e ambientais se relacionam entre si. O mapa utiliza a escala de cores para indicar o grau de correlação: tons avermelhados para correlações positivas e azulados para negativas.

Dentre os destaques:

- Forte correlação positiva entre P (fósforo) e K (potássio): valor de 0,74, indicando que essas variáveis tendem a aumentar juntas. Isso pode sinalizar um padrão comum de aplicação ou presença no solo.
- Correlação negativa entre N (nitrogênio) e P (-0,23): sugere que em solos com mais nitrogênio, pode haver menos fósforo, ou vice-versa.
- A maioria das variáveis climáticas como temperatura, umidade e rainfall (chuva) mostram baixa correlação com os nutrientes, sugerindo que atuam de forma mais independente nos dados, as correlações mais próximas de zero (como entre pH e outras variáveis) indicam pouca ou nenhuma associação linear, o que pode ser útil para enriquecer modelos preditivos sem risco de multicolinearidade.

Essa análise é essencial para entender quais variáveis carregam informações semelhantes e quais trazem diversidade ao conjunto de dados.

In [None]:
#🔥 Matriz de correlação entre variáveis numéricas

df2_num = df2.drop('label', axis=1)

sns.heatmap(df2_num.corr(), annot=True, cmap='coolwarm')
plt.xticks(rotation=45)
plt.show()

🔎 Pairplot com coloração por tipo de cultivo

O pairplot permite examinar relações bivariadas entre variáveis numéricas, com coloração baseada na variável label. Essa técnica é útil para detectar separabilidade visual entre classes. Observa-se que algumas combinações como K vs P ou K vs N exibem distribuições distintas por cultura, o que é promissor para tarefas de classificação. No entanto, outras variáveis mostram sobreposição, indicando que técnicas como PCA ou modelos não-lineares podem ser benéficos.

In [None]:
#🔎 Pairplot com coloração por tipo de cultivo

sns.pairplot(df, hue='label', vars=['N', 'P', 'K', 'temperature', 'humidity', 'rainfall'])
plt.title('Pairplot de Nutrientes do Solo e Fatores Ambientais por Tipo de Cultivo')
plt.show()

