🔍 Análise Exploratória dos Dados

📚 Importação de Bibliotecas Essenciais

Este trecho de código importa as principais bibliotecas utilizadas para manipulação, análise e visualização de dados, tanto em gráficos estáticos (matplotlib, seaborn) quanto interativos (plotly), além de ferramentas para cálculo numérico (numpy) e manipulação de tabelas (pandas).

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import numpy as np
import plotly.express as px
import plotly.graph_objects as go

📂 Definição do caminho de acesso aos dados da lavoura

Aqui, o caminho do arquivo .csv contendo os dados agrícolas é definido em uma variável. Essa prática torna o código mais organizado e permite reutilizar facilmente o caminho do arquivo ao longo do notebook, facilitando ajustes e reaproveitamento do script.

In [None]:
#📂 Definição do caminho de acesso aos dados da lavoura

csv_path = "Atividade_Cap_14_produtos_agricolas.csv"

📥 Carregamento do dataset para estrutura tabular do pandas

Esta etapa carrega os dados do arquivo CSV para um DataFrame, a estrutura de dados mais comum do pandas. Isso permite o uso de diversas ferramentas para exploração, limpeza e análise estatística dos dados referentes a culturas agrícolas como milho e cana-de-açúcar.

In [None]:
#📥 Carregamento do dataset para estrutura tabular do pandas

df = pd.read_csv(csv_path)
df2 = df.copy()

📐 Verificação da dimensão do conjunto de dados (linhas × colunas)

Com df.shape, obtemos a dimensão do DataFrame, ou seja, o número de amostras e de atributos. Isso ajuda a dimensionar a complexidade da base, identificar se há dados suficientes e planejar estratégias de modelagem com base no volume de dados.

In [None]:
#📐 Verificação da dimensão do conjunto de dados (linhas × colunas)

df.shape # 2200 linhas, e 8 colunas

🧾 Extração dos nomes das colunas para facilitar manipulação e seleção

Listar df.columns permite confirmar os nomes das variáveis, especialmente útil para selecionar subconjuntos de dados, configurar o eixo de gráficos ou usar nomes programaticamente em modelagens e pipelines.

In [None]:
#🧾 Extração dos nomes das colunas para facilitar manipulação e seleção

df.columns 

🧬 Checagem dos tipos de dados de cada variável

Usando df.dtypes, identificamos se os dados estão corretamente interpretados pelo pandas. Por exemplo, colunas numéricas devem estar como float ou int, enquanto variáveis categóricas podem estar como object ou category. Essa etapa é fundamental para detectar conversões necessárias para análise estatística ou aprendizado de máquina.

In [None]:
#🧬 Checagem dos tipos de dados de cada variável

df.dtypes # → Retorna os tipos de dados:
            #int64 para nutrientes (N, P, K)
            #float64 para variáveis contínuas (temperature, humidity, ph, rainfall)
            #object para a label, pois é uma variável categórica (string)

🚨 Detecção de dados faltantes para avaliar necessidade de imputação

Esta célula analisa a presença de valores nulos usando df.isnull().sum(). A presença de dados ausentes pode comprometer a análise e os modelos, sendo necessário aplicar técnicas como imputação, remoção de linhas/colunas ou modelagem com tolerância a nulos.

In [None]:
df.isnull().sum() # nao existe nem um nulo

📊 Estatísticas descritivas para análise quantitativa preliminar

Com df.describe(), obtemos medidas estatísticas como média, mediana, desvio padrão e quartis para variáveis numéricas. Isso fornece uma noção do comportamento e da dispersão dos dados, ajudando a identificar outliers e padrões.

In [None]:
#📊 Estatísticas descritivas para análise quantitativa preliminar

df.describe()

🌾 Distribuição das culturas agrícolas (variável target)

Com value_counts(), observamos a distribuição da variável label, que representa o tipo de cultivo. Esse passo permite entender o equilíbrio entre as classes e verificar se há desbalanceamento. Um desbalanceamento severo poderia impactar negativamente o desempenho dos modelos preditivos. Nesta base, as culturas estão relativamente equilibradas, favorecendo o uso de validação cruzada sem necessidade de técnicas de reamostragem.

In [None]:
#🌾 Distribuição das culturas agrícolas (variável target)

df['label'].value_counts()

📄 Exibição do dataset arredondado

Por fim, a base é exibida com valores arredondados para facilitar a leitura e a apresentação. Essa prática é útil para inspeção visual, identificação de padrões e construção de relatórios. Embora não afete o desempenho computacional dos modelos (que devem usar os dados originais), o arredondamento é uma boa prática para dashboards e validação visual de entradas.

In [None]:
#📄 Exibição do dataset arredondado

df2_format = df2.round(2)
display(df2_format)