üìä Boxplot interativo das vari√°veis por tipo de cultivo

Foi criado um boxplot interativo com Plotly para visualizar a distribui√ß√£o das vari√°veis num√©ricas em cada cultura agr√≠cola. Atrav√©s da fun√ß√£o melt(), a base foi transformada para o formato longo, permitindo o agrupamento por cultivo (label) e por vari√°vel. Esse gr√°fico revela diferen√ßas significativas nas medianas e amplitudes interquartis, al√©m da presen√ßa de potenciais outliers. Por exemplo, culturas como mam√£o (papaya) e arroz (rice) apresentam distribui√ß√µes distintas de precipita√ß√£o (rainfall), enquanto as culturas ma√ß√£ (apple) e uva (grape) possuem √≠ndices de pot√°ssio (K) consideravelmente maiores do que as demais. Essas diferen√ßas podem ser √∫teis para a cria√ß√£o de modelos de classifica√ß√£o baseados em caracter√≠sticas espec√≠ficas do solo e do ambiente.

In [None]:
#üìä Boxplot interativo das vari√°veis por tipo de cultivo

df_long = df.melt(id_vars='label', 
                  value_vars=['N', 'P', 'K', 'temperature', 'humidity', 'ph', 'rainfall'],
                  var_name='variavel', 
                  value_name='valor')


fig = px.box(df_long, x='label', y='valor', color='variavel', points='all', title='Boxplot Interativo das Vari√°veis por tipo de Cultivo')
fig.update_layout(
    xaxis_title="Tipo de Cultivo",
    yaxis_title="Valor",
    boxmode='group',  
    xaxis_tickangle=-45,
    legend_title="Vari√°vel",
    height=600,
    width=1200
)

üî¨ Dispers√£o entre pH e precipita√ß√£o

O gr√°fico de dispers√£o entre pH e precipita√ß√£o (rainfall) permite avaliar a exist√™ncia de correla√ß√µes visuais ou agrupamentos naturais entre essas vari√°veis. Embora n√£o seja poss√≠vel inferir rela√ß√µes causais, pode-se identificar tend√™ncias ou padr√µes espec√≠ficos. O gr√°fico sugere alguma dispers√£o menor em faixas m√©dias de pH, mas sem uma correla√ß√£o linear clara. Esta an√°lise refor√ßa a import√¢ncia de m√∫ltiplas vari√°veis em conjunto para prever o tipo de cultura.

In [None]:
#üî¨ Dispers√£o entre pH e precipita√ß√£o

plt.Figure(figsize=(18,10))
sns.scatterplot(data=df2, x='ph', y='rainfall')

plt.show()

üß™ M√©dia de nutrientes por cultura (gr√°fico de barras agrupadas)

Utiliza-se o m√©todo groupby para calcular as m√©dias de pot√°ssio (K), nitrog√™nio (N) e f√≥sforo (P) por tipo de cultivo, plotando um gr√°fico de barras agrupadas com Seaborn. Nota-se que diferentes culturas demandam diferentes composi√ß√µes qu√≠micas do solo: por exemplo, ma√ß√£s (apples) e uvas (grapes) tendem a exigir maior quantidade de K e P em rela√ß√£o ao coco (coconut) e laranjas (oranges). Essas informa√ß√µes s√£o valiosas para pr√°ticas agr√≠colas direcionadas, bem como para alimentar modelos supervisionados com l√≥gica explic√°vel.

In [None]:
#üß™ M√©dia de nutrientes por cultura (gr√°fico de barras agrupadas)

df_media = df.groupby('label')[['K', 'N', 'P']].mean().reset_index()

# Transformar para formato longo
df_meltado = df_media.melt(id_vars='label', value_vars=['K', 'N', 'P'],
                           var_name='Nutriente', value_name='Valor')

# Gr√°fico de barras agrupadas
plt.figure(figsize=(16, 6))
sns.barplot(data=df_meltado, x='label', y='Valor', hue='Nutriente', palette='Set2')

plt.title('M√©dia de K, N e P por Cultivo')
plt.xlabel('Cultivo')
plt.ylabel('Valor M√©dio')
plt.legend(title='Nutriente')
plt.xticks(rotation=45)
plt.tight_layout()
plt.show()

üî• Matriz de correla√ß√£o entre vari√°veis num√©ricas

Atrav√©s do heatmap com annot=True, visualiza-se a correla√ß√£o entre vari√°veis cont√≠nuas. Isso ajuda a identificar multicolinearidade, que pode prejudicar certos algoritmos (como Regress√£o Linear). A matriz de correla√ß√£o representada pelo heatmap abaixo revela como as vari√°veis num√©ricas do solo e ambientais se relacionam entre si. O mapa utiliza a escala de cores para indicar o grau de correla√ß√£o: tons avermelhados para correla√ß√µes positivas e azulados para negativas.

Dentre os destaques:

- Forte correla√ß√£o positiva entre P (f√≥sforo) e K (pot√°ssio): valor de 0,74, indicando que essas vari√°veis tendem a aumentar juntas. Isso pode sinalizar um padr√£o comum de aplica√ß√£o ou presen√ßa no solo.
- Correla√ß√£o negativa entre N (nitrog√™nio) e P (-0,23): sugere que em solos com mais nitrog√™nio, pode haver menos f√≥sforo, ou vice-versa.
- A maioria das vari√°veis clim√°ticas como temperatura, umidade e rainfall (chuva) mostram baixa correla√ß√£o com os nutrientes, sugerindo que atuam de forma mais independente nos dados, as correla√ß√µes mais pr√≥ximas de zero (como entre pH e outras vari√°veis) indicam pouca ou nenhuma associa√ß√£o linear, o que pode ser √∫til para enriquecer modelos preditivos sem risco de multicolinearidade.

Essa an√°lise √© essencial para entender quais vari√°veis carregam informa√ß√µes semelhantes e quais trazem diversidade ao conjunto de dados.

In [None]:
#üî• Matriz de correla√ß√£o entre vari√°veis num√©ricas

df2_num = df2.drop('label', axis=1)

sns.heatmap(df2_num.corr(), annot=True, cmap='coolwarm')
plt.xticks(rotation=45)
plt.show()

üîé Pairplot com colora√ß√£o por tipo de cultivo

O pairplot permite examinar rela√ß√µes bivariadas entre vari√°veis num√©ricas, com colora√ß√£o baseada na vari√°vel label. Essa t√©cnica √© √∫til para detectar separabilidade visual entre classes. Observa-se que algumas combina√ß√µes como K vs P ou K vs N exibem distribui√ß√µes distintas por cultura, o que √© promissor para tarefas de classifica√ß√£o. No entanto, outras vari√°veis mostram sobreposi√ß√£o, indicando que t√©cnicas como PCA ou modelos n√£o-lineares podem ser ben√©ficos.

In [None]:
#üîé Pairplot com colora√ß√£o por tipo de cultivo

sns.pairplot(df, hue='label', vars=['N', 'P', 'K', 'temperature', 'humidity', 'rainfall'])
plt.title('Pairplot de Nutrientes do Solo e Fatores Ambientais por Tipo de Cultivo')
plt.show()

