üîç An√°lise Explorat√≥ria dos Dados

üìö Importa√ß√£o de Bibliotecas Essenciais

Este trecho de c√≥digo importa as principais bibliotecas utilizadas para manipula√ß√£o, an√°lise e visualiza√ß√£o de dados, tanto em gr√°ficos est√°ticos (matplotlib, seaborn) quanto interativos (plotly), al√©m de ferramentas para c√°lculo num√©rico (numpy) e manipula√ß√£o de tabelas (pandas).

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import numpy as np
import plotly.express as px
import plotly.graph_objects as go

üìÇ Defini√ß√£o do caminho de acesso aos dados da lavoura

Aqui, o caminho do arquivo .csv contendo os dados agr√≠colas √© definido em uma vari√°vel. Essa pr√°tica torna o c√≥digo mais organizado e permite reutilizar facilmente o caminho do arquivo ao longo do notebook, facilitando ajustes e reaproveitamento do script.

In [None]:
#üìÇ Defini√ß√£o do caminho de acesso aos dados da lavoura

csv_path = "Atividade_Cap_14_produtos_agricolas.csv"

üì• Carregamento do dataset para estrutura tabular do pandas

Esta etapa carrega os dados do arquivo CSV para um DataFrame, a estrutura de dados mais comum do pandas. Isso permite o uso de diversas ferramentas para explora√ß√£o, limpeza e an√°lise estat√≠stica dos dados referentes a culturas agr√≠colas como milho e cana-de-a√ß√∫car.

In [None]:
#üì• Carregamento do dataset para estrutura tabular do pandas

df = pd.read_csv(csv_path)
df2 = df.copy()

üìê Verifica√ß√£o da dimens√£o do conjunto de dados (linhas √ó colunas)

Com df.shape, obtemos a dimens√£o do DataFrame, ou seja, o n√∫mero de amostras e de atributos. Isso ajuda a dimensionar a complexidade da base, identificar se h√° dados suficientes e planejar estrat√©gias de modelagem com base no volume de dados.

In [None]:
#üìê Verifica√ß√£o da dimens√£o do conjunto de dados (linhas √ó colunas)

df.shape # 2200 linhas, e 8 colunas

üßæ Extra√ß√£o dos nomes das colunas para facilitar manipula√ß√£o e sele√ß√£o

Listar df.columns permite confirmar os nomes das vari√°veis, especialmente √∫til para selecionar subconjuntos de dados, configurar o eixo de gr√°ficos ou usar nomes programaticamente em modelagens e pipelines.

In [None]:
#üßæ Extra√ß√£o dos nomes das colunas para facilitar manipula√ß√£o e sele√ß√£o

df.columns 

üß¨ Checagem dos tipos de dados de cada vari√°vel

Usando df.dtypes, identificamos se os dados est√£o corretamente interpretados pelo pandas. Por exemplo, colunas num√©ricas devem estar como float ou int, enquanto vari√°veis categ√≥ricas podem estar como object ou category. Essa etapa √© fundamental para detectar convers√µes necess√°rias para an√°lise estat√≠stica ou aprendizado de m√°quina.

In [None]:
#üß¨ Checagem dos tipos de dados de cada vari√°vel

df.dtypes # ‚Üí Retorna os tipos de dados:
            #int64 para nutrientes (N, P, K)
            #float64 para vari√°veis cont√≠nuas (temperature, humidity, ph, rainfall)
            #object para a label, pois √© uma vari√°vel categ√≥rica (string)

üö® Detec√ß√£o de dados faltantes para avaliar necessidade de imputa√ß√£o

Esta c√©lula analisa a presen√ßa de valores nulos usando df.isnull().sum(). A presen√ßa de dados ausentes pode comprometer a an√°lise e os modelos, sendo necess√°rio aplicar t√©cnicas como imputa√ß√£o, remo√ß√£o de linhas/colunas ou modelagem com toler√¢ncia a nulos.

In [None]:
df.isnull().sum() # nao existe nem um nulo

üìä Estat√≠sticas descritivas para an√°lise quantitativa preliminar

Com df.describe(), obtemos medidas estat√≠sticas como m√©dia, mediana, desvio padr√£o e quartis para vari√°veis num√©ricas. Isso fornece uma no√ß√£o do comportamento e da dispers√£o dos dados, ajudando a identificar outliers e padr√µes.

In [None]:
#üìä Estat√≠sticas descritivas para an√°lise quantitativa preliminar

df.describe()

üåæ Distribui√ß√£o das culturas agr√≠colas (vari√°vel target)

Com value_counts(), observamos a distribui√ß√£o da vari√°vel label, que representa o tipo de cultivo. Esse passo permite entender o equil√≠brio entre as classes e verificar se h√° desbalanceamento. Um desbalanceamento severo poderia impactar negativamente o desempenho dos modelos preditivos. Nesta base, as culturas est√£o relativamente equilibradas, favorecendo o uso de valida√ß√£o cruzada sem necessidade de t√©cnicas de reamostragem.

In [None]:
#üåæ Distribui√ß√£o das culturas agr√≠colas (vari√°vel target)

df['label'].value_counts()

üìÑ Exibi√ß√£o do dataset arredondado

Por fim, a base √© exibida com valores arredondados para facilitar a leitura e a apresenta√ß√£o. Essa pr√°tica √© √∫til para inspe√ß√£o visual, identifica√ß√£o de padr√µes e constru√ß√£o de relat√≥rios. Embora n√£o afete o desempenho computacional dos modelos (que devem usar os dados originais), o arredondamento √© uma boa pr√°tica para dashboards e valida√ß√£o visual de entradas.

In [None]:
#üìÑ Exibi√ß√£o do dataset arredondado

df2_format = df2.round(2)
display(df2_format)