📚 Importação de Bibliotecas Essenciais

Este trecho de código importa as principais bibliotecas utilizadas para manipulação, análise e visualização de dados, tanto em gráficos estáticos (matplotlib, seaborn) quanto interativos (plotly), além de ferramentas para cálculo numérico (numpy) e manipulação de tabelas (pandas).

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import numpy as np
import plotly.express as px
import plotly.graph_objects as go

📂 Definição do caminho de acesso aos dados da lavoura

Aqui, o caminho do arquivo .csv contendo os dados agrícolas é definido em uma variável. Essa prática torna o código mais organizado e permite reutilizar facilmente o caminho do arquivo ao longo do notebook, facilitando ajustes e reaproveitamento do script.

In [None]:
#📂 Definição do caminho de acesso aos dados da lavoura

csv_path = "Atividade_Cap_14_produtos_agricolas.csv"

📥 Carregamento do dataset para estrutura tabular do pandas

Esta etapa carrega os dados do arquivo CSV para um DataFrame, a estrutura de dados mais comum do pandas. Isso permite o uso de diversas ferramentas para exploração, limpeza e análise estatística dos dados referentes a culturas agrícolas como milho e cana-de-açúcar.

In [None]:
#📥 Carregamento do dataset para estrutura tabular do pandas

df = pd.read_csv(csv_path)
df2 = df.copy()

📐 Verificação da dimensão do conjunto de dados (linhas × colunas)

Com df.shape, obtemos a dimensão do DataFrame, ou seja, o número de amostras e de atributos. Isso ajuda a dimensionar a complexidade da base, identificar se há dados suficientes e planejar estratégias de modelagem com base no volume de dados.

In [None]:
#📐 Verificação da dimensão do conjunto de dados (linhas × colunas)

df.shape # 2200 linhas, e 8 colunas

🧾 Extração dos nomes das colunas para facilitar manipulação e seleção

Listar df.columns permite confirmar os nomes das variáveis, especialmente útil para selecionar subconjuntos de dados, configurar o eixo de gráficos ou usar nomes programaticamente em modelagens e pipelines.

In [None]:
#🧾 Extração dos nomes das colunas para facilitar manipulação e seleção

df.columns 

🧬 Checagem dos tipos de dados de cada variável

Usando df.dtypes, identificamos se os dados estão corretamente interpretados pelo pandas. Por exemplo, colunas numéricas devem estar como float ou int, enquanto variáveis categóricas podem estar como object ou category. Essa etapa é fundamental para detectar conversões necessárias para análise estatística ou aprendizado de máquina.

In [None]:
#🧬 Checagem dos tipos de dados de cada variável

df.dtypes # → Retorna os tipos de dados:
            #int64 para nutrientes (N, P, K)
            #float64 para variáveis contínuas (temperature, humidity, ph, rainfall)
            #object para a label, pois é uma variável categórica (string)

🚨 Detecção de dados faltantes para avaliar necessidade de imputação

Esta célula analisa a presença de valores nulos usando df.isnull().sum(). A presença de dados ausentes pode comprometer a análise e os modelos, sendo necessário aplicar técnicas como imputação, remoção de linhas/colunas ou modelagem com tolerância a nulos.

In [None]:
df.isnull().sum() # nao existe nem um nulo

📊 Estatísticas descritivas para análise quantitativa preliminar

Com df.describe(), obtemos medidas estatísticas como média, mediana, desvio padrão e quartis para variáveis numéricas. Isso fornece uma noção do comportamento e da dispersão dos dados, ajudando a identificar outliers e padrões.

In [None]:
#📊 Estatísticas descritivas para análise quantitativa preliminar

df.describe()

🌾 Distribuição das culturas agrícolas (variável target)

Com value_counts(), observamos a distribuição da variável label, que representa o tipo de cultivo. Esse passo permite entender o equilíbrio entre as classes e verificar se há desbalanceamento. Um desbalanceamento severo poderia impactar negativamente o desempenho dos modelos preditivos. Nesta base, as culturas estão relativamente equilibradas, favorecendo o uso de validação cruzada sem necessidade de técnicas de reamostragem.

In [None]:
#🌾 Distribuição das culturas agrícolas (variável target)

df['label'].value_counts()

📄 Exibição do dataset arredondado

Por fim, a base é exibida com valores arredondados para facilitar a leitura e a apresentação. Essa prática é útil para inspeção visual, identificação de padrões e construção de relatórios. Embora não afete o desempenho computacional dos modelos (que devem usar os dados originais), o arredondamento é uma boa prática para dashboards e validação visual de entradas.

In [None]:
#📄 Exibição do dataset arredondado

df2_format = df2.round(2)
display(df2_format)

📊 Boxplot interativo das variáveis por tipo de cultivo

Foi criado um boxplot interativo com Plotly para visualizar a distribuição das variáveis numéricas em cada cultura agrícola. Através da função melt(), a base foi transformada para o formato longo, permitindo o agrupamento por cultivo (label) e por variável. Esse gráfico revela diferenças significativas nas medianas e amplitudes interquartis, além da presença de potenciais outliers. Por exemplo, culturas como mamão (papaya) e arroz (rice) apresentam distribuições distintas de precipitação (rainfall), enquanto as culturas maçã (apple) e uva (grape) possuem índices de potássio (K) consideravelmente maiores do que as demais. Essas diferenças podem ser úteis para a criação de modelos de classificação baseados em características específicas do solo e do ambiente.

In [None]:
#📊 Boxplot interativo das variáveis por tipo de cultivo

df_long = df.melt(id_vars='label', 
                  value_vars=['N', 'P', 'K', 'temperature', 'humidity', 'ph', 'rainfall'],
                  var_name='variavel', 
                  value_name='valor')


fig = px.box(df_long, x='label', y='valor', color='variavel', points='all', title='Boxplot Interativo das Variáveis por tipo de Cultivo')
fig.update_layout(
    xaxis_title="Tipo de Cultivo",
    yaxis_title="Valor",
    boxmode='group',  
    xaxis_tickangle=-45,
    legend_title="Variável",
    height=600,
    width=1200
)

🔬 Dispersão entre pH e precipitação

O gráfico de dispersão entre pH e precipitação (rainfall) permite avaliar a existência de correlações visuais ou agrupamentos naturais entre essas variáveis. Embora não seja possível inferir relações causais, pode-se identificar tendências ou padrões específicos. O gráfico sugere alguma dispersão menor em faixas médias de pH, mas sem uma correlação linear clara. Esta análise reforça a importância de múltiplas variáveis em conjunto para prever o tipo de cultura.

In [None]:
#🔬 Dispersão entre pH e precipitação

plt.Figure(figsize=(18,10))
sns.scatterplot(data=df2, x='ph', y='rainfall')

plt.show()

🧪 Média de nutrientes por cultura (gráfico de barras agrupadas)

Utiliza-se o método groupby para calcular as médias de potássio (K), nitrogênio (N) e fósforo (P) por tipo de cultivo, plotando um gráfico de barras agrupadas com Seaborn. Nota-se que diferentes culturas demandam diferentes composições químicas do solo: por exemplo, maçãs (apples) e uvas (grapes) tendem a exigir maior quantidade de K e P em relação ao coco (coconut) e laranjas (oranges). Essas informações são valiosas para práticas agrícolas direcionadas, bem como para alimentar modelos supervisionados com lógica explicável.

In [None]:
#🧪 Média de nutrientes por cultura (gráfico de barras agrupadas)

df_media = df.groupby('label')[['K', 'N', 'P']].mean().reset_index()

# Transformar para formato longo
df_meltado = df_media.melt(id_vars='label', value_vars=['K', 'N', 'P'],
                           var_name='Nutriente', value_name='Valor')

# Gráfico de barras agrupadas
plt.figure(figsize=(16, 6))
sns.barplot(data=df_meltado, x='label', y='Valor', hue='Nutriente', palette='Set2')

plt.title('Média de K, N e P por Cultivo')
plt.xlabel('Cultivo')
plt.ylabel('Valor Médio')
plt.legend(title='Nutriente')
plt.xticks(rotation=45)
plt.tight_layout()
plt.show()

🔥 Matriz de correlação entre variáveis numéricas

Através do heatmap com annot=True, visualiza-se a correlação entre variáveis contínuas. Isso ajuda a identificar multicolinearidade, que pode prejudicar certos algoritmos (como Regressão Linear). A matriz de correlação representada pelo heatmap abaixo revela como as variáveis numéricas do solo e ambientais se relacionam entre si. O mapa utiliza a escala de cores para indicar o grau de correlação: tons avermelhados para correlações positivas e azulados para negativas.

Dentre os destaques:

- Forte correlação positiva entre P (fósforo) e K (potássio): valor de 0,74, indicando que essas variáveis tendem a aumentar juntas. Isso pode sinalizar um padrão comum de aplicação ou presença no solo.
- Correlação negativa entre N (nitrogênio) e P (-0,23): sugere que em solos com mais nitrogênio, pode haver menos fósforo, ou vice-versa.
- A maioria das variáveis climáticas como temperatura, umidade e rainfall (chuva) mostram baixa correlação com os nutrientes, sugerindo que atuam de forma mais independente nos dados, as correlações mais próximas de zero (como entre pH e outras variáveis) indicam pouca ou nenhuma associação linear, o que pode ser útil para enriquecer modelos preditivos sem risco de multicolinearidade.

Essa análise é essencial para entender quais variáveis carregam informações semelhantes e quais trazem diversidade ao conjunto de dados.

In [None]:
#🔥 Matriz de correlação entre variáveis numéricas

df2_num = df2.drop('label', axis=1)

sns.heatmap(df2_num.corr(), annot=True, cmap='coolwarm')
plt.xticks(rotation=45)
plt.show()

🔎 Pairplot com coloração por tipo de cultivo

O pairplot permite examinar relações bivariadas entre variáveis numéricas, com coloração baseada na variável label. Essa técnica é útil para detectar separabilidade visual entre classes. Observa-se que algumas combinações como K vs P ou K vs N exibem distribuições distintas por cultura, o que é promissor para tarefas de classificação. No entanto, outras variáveis mostram sobreposição, indicando que técnicas como PCA ou modelos não-lineares podem ser benéficos.

In [None]:
#🔎 Pairplot com coloração por tipo de cultivo

sns.pairplot(df, hue='label', vars=['N', 'P', 'K', 'temperature', 'humidity', 'rainfall'])
plt.title('Pairplot de Nutrientes do Solo e Fatores Ambientais por Tipo de Cultivo')
plt.show()

🌱 Análise do Perfil Ideal de Solo/Clima por Cultura (Sem Outliers)

Este script realiza a limpeza de dados e a visualização comparativa do perfil ideal de solo e clima de diferentes culturas agrícolas com base em variáveis do solo e do clima, utilizando um gráfico de radar para facilitar a interpretação.

In [None]:
#🌱 Análise do Perfil Ideal de Solo/Clima por Cultura (Sem Outliers)

# Remoção de outliers usando o método do IQR
def remover_outliers_iqr(df, colunas):
    df_limpo = df.copy()
    for col in colunas:
        Q1 = df_limpo[col].quantile(0.25)
        Q3 = df_limpo[col].quantile(0.75)
        IQR = Q3 - Q1
        limite_inferior = Q1 - 1.5 * IQR
        limite_superior = Q3 + 1.5 * IQR
        df_limpo = df_limpo[(df_limpo[col] >= limite_inferior) & (df_limpo[col] <= limite_superior)]
    return df_limpo

# Variáveis numéricas
variaveis_numericas = ['N', 'P', 'K', 'temperature', 'humidity', 'ph', 'rainfall']

# Aplicar remoção de outliers
df_sem_outliers = remover_outliers_iqr(df, variaveis_numericas)

# Calcular perfil ideal sem outliers
perfil_ideal_sem_outliers = df_sem_outliers.groupby("label")[variaveis_numericas].mean().round(2)

# Exibir
print("📋 Perfil ideal de solo/clima por cultura (sem outliers):")
print(perfil_ideal_sem_outliers)

# Gráfico de radar para o perfil ideal de solo/clima por cultura (sem outliers)

def plot_radar_todas_culturas_sem_marcadores(df):
    categorias = list(df.columns)
    num_vars = len(categorias)
    angulos = np.linspace(0, 2 * np.pi, num_vars, endpoint=False).tolist()
    angulos += angulos[:1]

    plt.figure(figsize=(12, 9))
    ax = plt.subplot(111, polar=True)
    plt.xticks(angulos[:-1], categorias, size=12)

    cores = [
        '#e41a1c', '#377eb8', '#4daf4a', '#984ea3', '#ff7f00',
        '#ffff33', '#a65628', '#f781bf', '#999999', '#66c2a5',
        '#fc8d62', '#8da0cb', '#e78ac3', '#a6d854', '#ffd92f',
        '#e5c494', '#b3b3b3', '#1b9e77', '#d95f02', '#7570b3'
    ]

    estilos_linha = ['solid', 'dashed', 'dotted', 'dashdot']

    for i, cultura in enumerate(df.index):
        valores = df.loc[cultura].values.flatten().tolist()
        valores += valores[:1]

        cor = cores[i % len(cores)]
        estilo = estilos_linha[i % len(estilos_linha)]

        ax.plot(
            angulos, valores, linewidth=2.5, linestyle=estilo, label=cultura,
            color=cor, alpha=0.95
        )
        # Sem scatter (sem marcadores)

    plt.title('🌾 Perfil ideal de solo/clima por cultura', size=14, fontname='Segoe UI Emoji')
    plt.legend(loc='upper right', bbox_to_anchor=(1.35, 1.1), fontsize=12)
    plt.tight_layout()
    plt.show()

plot_radar_todas_culturas_sem_marcadores(perfil_ideal_sem_outliers)

🧪 Análise do Perfil Ideal de Culturas Agrícolas (com Radar Plot)

Este script realiza uma análise exploratória de dados agrícolas com o objetivo de identificar o perfil ideal de solo e clima para culturas comuns, baseado em registros reais e sem distorções causadas por outliers ou culturas com poucos dados.

✅ Resultado
O gráfico radar representa visualmente o perfil médio ideal para cultivo de culturas agrícolas, sem a influência de outliers ou amostras raras, pode ser usado como base para comparar culturas específicas e identificar onde estão alinhadas ou distantes do ideal.

In [None]:
#🧪 Análise do Perfil Ideal de Culturas Agrícolas (com Radar Plot)

# Remoção de outliers usando o método do IQR
def remover_outliers_iqr(df, colunas):
    df_limpo = df.copy()
    for col in colunas:
        Q1 = df_limpo[col].quantile(0.25)
        Q3 = df_limpo[col].quantile(0.75)
        IQR = Q3 - Q1
        limite_inferior = Q1 - 1.5 * IQR
        limite_superior = Q3 + 1.5 * IQR
        df_limpo = df_limpo[(df_limpo[col] >= limite_inferior) & (df_limpo[col] <= limite_superior)]
    return df_limpo

# Variáveis numéricas
variaveis_numericas = ['N', 'P', 'K', 'temperature', 'humidity', 'ph', 'rainfall']

# Aplicar remoção de outliers
df_sem_outliers = remover_outliers_iqr(df, variaveis_numericas)

# Calcular média geral das variáveis numéricas, agrupado por cultura
perfil_medio = df_sem_outliers.groupby("label")[variaveis_numericas].mean().round(2)

# Remover culturas consideradas outliers — vamos definir "culturas outlier" como aquelas com poucos registros (por exemplo, menos que 30 amostras)
contagem_culturas = df_sem_outliers['label'].value_counts()
culturas_validas = contagem_culturas[contagem_culturas >= 30].index.tolist()
perfil_filtrado = perfil_medio.loc[culturas_validas]

# Calcular o perfil médio geral para essas culturas filtradas
perfil_ideal = perfil_filtrado.mean().round(2)

# Preparar dados para gráfico radar
variaveis = perfil_ideal.index.tolist()
valores = perfil_ideal.values.tolist()

# Fechar ciclo do radar (repete o primeiro ponto)
variaveis += [variaveis[0]]
valores += [valores[0]]


# Criar gráfico radar com Plotly e Exibir

# Exibir perfil ideal
print("🌱 Perfil ideal de solo/clima (média das culturas não-outliers):")
display(perfil_ideal.to_frame(name='valor'))


# Gráfico radar interativo
fig = go.Figure()

fig.add_trace(go.Scatterpolar(
    r=valores,
    theta=variaveis,
    fill='toself',
    name='Perfil Ideal Médio',
    marker=dict(color='mediumseagreen'),
    hoverinfo='text',
    text=[f'{v:.2f}' for v in valores]
))

fig.update_layout(
    polar=dict(
        radialaxis=dict(
            visible=True,
            range=[0, max(valores)*1.2]  # ajustar o range para melhor visualização
        )
    ),
    title="Perfil Ideal de Solo/Clima para Culturas Agrícolas (sem Outliers e Culturas Raras)",
    showlegend=True,
    height=600,
    width=600
)

fig.show()

🌱 Culturas Não-Outliers

Este trecho de código exibe as culturas agrícolas consideradas não-outliers após a remoção dos valores extremos do conjunto de dados.

In [None]:
#🌱 Culturas Não-Outliers

# Culturas não-outliers
print("🌱 Culturas não-outliers:")
print(df_sem_outliers[df_sem_outliers['label'].isin(culturas_validas)]['label'].value_counts())

🧭 Gráfico radar interativo (Plotly) para arroz, milho, café e perfil de solo ideal

Este gráfico do tipo radar compara as médias das variáveis numéricas para os cultivos de arroz, milho e café, além de um perfil de solo ideal definido previamente. Cada cultura apresenta um perfil específico, com destaque para diferentes variáveis como precipitação, umidade, nitrogênio, fósforo, potássio, pH e temperatura. O perfil ideal serve como referência para identificar o quão próximo cada cultura está das condições consideradas ideais. Essa visualização facilita a análise multivariada e pode apoiar decisões agronômicas, como sugestões de cultivo para determinadas regiões, ajustes no solo ou estratégias de manejo baseadas em similaridade com o perfil ideal.

In [None]:
#🧭 Gráfico radar interativo (Plotly) para arroz, milho, café e perfil ideal

# Médias por cultura
df_rice = df[df['label'] == 'rice'].drop(columns='label').mean()
df_maize = df[df['label'] == 'maize'].drop(columns='label').mean()
df_coffee = df[df['label'] == 'coffee'].drop(columns='label').mean()

# Valores em lista
val_rice = df_rice.values.tolist()
val_maize = df_maize.values.tolist()
val_coffee = df_coffee.values.tolist()
val_ideal = perfil_ideal.values.tolist()

# Fechar ciclo do radar (primeiro ponto se repete no final)
variaveis = perfil_ideal.index.tolist()
variaveis += [variaveis[0]]
val_rice += [val_rice[0]]
val_maize += [val_maize[0]]
val_coffee += [val_coffee[0]]
val_ideal += [val_ideal[0]]

# Criar figura Plotly
fig = go.Figure()

# Arroz
fig.add_trace(go.Scatterpolar(
    r=val_rice,
    theta=variaveis,
    fill='toself',
    name='Arroz',
    marker=dict(color='green'),
    hoverinfo='text',
    text=[f'{v:.1f}' for v in val_rice]
))

# Milho
fig.add_trace(go.Scatterpolar(
    r=val_maize,
    theta=variaveis,
    fill='toself',
    name='Milho',
    marker=dict(color='orange'),
    hoverinfo='text',
    text=[f'{v:.1f}' for v in val_maize]
))

# Café
fig.add_trace(go.Scatterpolar(
    r=val_coffee,
    theta=variaveis,
    fill='toself',
    name='Café',
    marker=dict(color='brown'),
    hoverinfo='text',
    text=[f'{v:.1f}' for v in val_coffee]
))

# Perfil Ideal
fig.add_trace(go.Scatterpolar(
    r=val_ideal,
    theta=variaveis,
    fill='toself',
    name='Perfil Ideal',
    marker=dict(color='cyan'),
    hoverinfo='text',
    text=[f'{v:.1f}' for v in val_ideal]
))

# Layout
fig.update_layout(
    polar=dict(
        radialaxis=dict(visible=True)
    ),
    title="Perfil Radar Interativo - Arroz, Milho, Café e Perfil Ideal",
    showlegend=True,
    height=700,
    width=700
)

# Exibir
fig.show()

📊 Relatório – Comparativo: Arroz, Milho e Café vs Perfil Ideal

Este relatório analisa o desempenho médio das culturas de arroz, milho e café em relação a um perfil ideal de solo e clima. O objetivo é identificar quais culturas se aproximam mais das condições ideais e quais ajustes seriam necessários para otimizar o cultivo.

🌾 Arroz

Precipitação (Rainfall): O arroz apresenta o maior valor entre todas as culturas, acima do perfil ideal, o que é condizente com sua necessidade de ambientes úmidos.
Umidade (Humidity): Valor elevado e muito próximo do ideal, favorecendo o cultivo.
Nutrientes (N, P, K): Os níveis de nitrogênio (N), fósforo (P) e potássio (K) estão bem abaixo do ideal, indicando necessidade de correção do solo.
Temperatura e pH: Apresentam valores razoáveis, mas ainda inferiores ao ideal.

🔎 Resumo: O arroz se destaca em clima úmido e chuvoso, mas exige complementação de nutrientes no solo.

🌽 Milho

Nutrientes: Fósforo (P): O milho é a cultura mais próxima do ideal nesse nutriente, Nitrogênio (N) e Potássio (K): Apresentam níveis razoáveis, acima do arroz.
Precipitação e Umidade: Abaixo do ideal, podendo exigir irrigação dependendo da região.
Temperatura e pH: Valores medianos, moderadamente compatíveis com o perfil ideal.

🔎 Resumo: O milho mostra bom desempenho em nutrientes, mas pode demandar ajustes climáticos, especialmente em locais mais secos.

☕ Café

Nitrogênio (N): O café apresenta o nível mais alto entre as culturas, bem próximo ao ideal.
Temperatura: Melhor alinhada com o perfil ideal.
Precipitação: Acima do ideal, o que pode exigir controle de irrigação ou drenagem adequada.
Umidade, pH e outros nutrientes: Moderados, com necessidade de ajustes.

🔎 Resumo: O café se destaca em temperatura e nitrogênio, mas deve ter atenção à pluviosidade excessiva.

✅ Conclusões Finais

Nenhuma das culturas atinge perfeitamente o perfil ideal, mas cada uma tem pontos fortes distintos:

🌾 Arroz: Ideal para regiões chuvosas e úmidas.

🌽 Milho: Boa resposta a nutrientes, mas sensível à falta de água.

☕ Café: Clima mais próximo do ideal, porém exige atenção à irrigação.

📄 Exibição do dataset arredondado

Por fim, a base é exibida com valores arredondados para facilitar a leitura e a apresentação. Essa prática é útil para inspeção visual, identificação de padrões e construção de relatórios. Embora não afete o desempenho computacional dos modelos (que devem usar os dados originais), o arredondamento é uma boa prática para dashboards e validação visual de entradas.

In [None]:
#📄 Exibição do dataset arredondado

df2_format = df2.round(2)
display(df2_format)