# **Agricultura e Agroindústria: Maximizando Recursos e Estratégias**

## 1. Introdução

### 1.1. Contextualização

A indústria agrícola e agroindustrial tem passado por transformações significativas devido à necessidade de otimização de recursos e maximização da produção. Com o avanço da tecnologia e a disponibilidade de grandes conjuntos de dados, surge a oportunidade de utilizar métodos de KDD para descobrir padrões e insights cruciais para a tomada de decisões estratégicas.

### 1.2. Objetivo

O objetivo principal da pesquisa se apoia no método KDD (_Knowledge Discovery in Databases_) para analisar dados relacionados à produção agroindustrial. Ao realizar tal ato, buscamos:

- Identificar deficiências de produção em diferentes produtos agrícolas;

- Desenvolver modelos de previsão de safras baseados em dados históricos;

- Buscar oportunidades de mercado, como demandas crescentes por certos produtos;

- Estimar a demanda futura com base em tendências de mercado e sazonalidade, auxiliando no planejamento de produção e distribuição;


### 1.3. Metodologia

Como mensionado na sessão [Objetivo](#objetivo), a utilização do método KDD será crucial para o desenvolvimento organizado e estruturado da pesquisa. O termo KDD foi formalizado em 1989 em referência ao amplo conceito de procurar conhecimento a partir de bases de dados. Segundo pesquisadores: 
>“KDD é um processo, de várias etapas, não trivial, interativo e iterativo, para identificação de padrões compreensíveis, válidos, novos e potencialmente úteis a partir de grandes conjuntos de dados”. (Fayyad et al.,
1996a)

A Descoberta de Conhecimento em Bases de Dados é caracterizada como
um processo composto por várias etapas operacionais:  
A etapa de Pré-processamento, Mineração de Dados e o Pós-processamento.  

Além do método, utilizaremos a linguagem de programação python e suas seguintes bibliotecas: Pandas para a manipulação dos dados e Matplotlib para uma visualização simples e objetiva por meio de graficos e tabelas. 

Bases de dados utilizadas:
  - IBGE -> SIDRA - [PAM (Produção Agrícola Municipal)](https://sidra.ibge.gov.br/pesquisa/pam/tabelas)   

## 2. Etapas operacionais

### 2.1. Pré-processamento

A etapa de Pré-processamento compreende todas as funções relacionadas à captação, à organização e ao tratamento dos dados. Essa etapa tem como objetivo a preparação dos dados para os algoritmos da etapa da Mineração de Dados.  

Para começarmos o tratamento dos dados, é importante primeiro importar as bibliotecas que serão utilizadas.

In [24]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
%matplotlib inline

Agora armazenaremos nossas bases de dados `.csv` as variáveis

In [3]:
# Indicando local da base de dados
Prod = pd.read_csv("Bases_de_dados/Produção_2020-2022.csv", delimiter=";")

# Mostra as 5 primeiras informações da base de dados, apenas para termos certeza de que foi alocada com sucesso
Prod.head()
# ar_p.head()
# quant_p.head()

Unnamed: 0,Brasil e Unidade da Federação,Abacate (2020),Alho (2020),Amendoim (em casca) (2020),Arroz (em casca) (2020),Aveia (em grão) (2020),Azeitona (2020),Banana (cacho) (2020),Batata-doce (2020),Batata-inglesa (2020),...,Noz (fruto seco) (2022),Pera (2022),Pêssego (2022),Pimenta-do-reino (2022),Soja (em grão) (2022),Sorgo (em grão) (2022),Tangerina (2022),Tomate (2022),Trigo (em grão) (2022),Uva (2022)
0,Brasil,267059,155741,651126,11091011,898405,2651,6593437,849397,3752999,...,6127,17525,208823,128331,120701031,2923318,1086616,3809986,10343182,1450805
1,Rondônia,150,-,169,112848,-,-,83975,-,-,...,-,-,-,141,1750249,-,462,6791,-,76
2,Acre,537,-,120,4626,-,-,86113,591,-,...,-,-,-,-,22667,-,2151,-,-,-
3,Amazonas,391,-,-,1680,-,-,92670,6471,-,...,-,-,-,24,13740,-,266,200,196,-
4,Roraima,-,-,-,71054,-,-,62239,5220,-,...,-,-,-,-,346647,-,708,3135,-,-


In [4]:
# Verificando a quantidade de campos vazios(nulos)
Prod.isnull().sum().sort_values(ascending=False) [:10]


Brasil e Unidade da Federação    0
Cacau (em amêndoa) (2022)        0
Batata-doce (2022)               0
Banana (cacho) (2022)            0
Azeitona (2022)                  0
Aveia (em grão) (2022)           0
Arroz (em casca) (2022)          0
Amendoim (em casca) (2022)       0
Alho (2022)                      0
Abacate (2022)                   0
dtype: int64

Ao analisar nossas bases de dados, observamos que há muitos campos vazios(a base de dados nos entrega como "-"). A presença desses campos vazios pode prejudicar nossa análise. Para lidar com isso, podemos tratar esses campos definindo os **valores ausentes como -1**. Dessa forma, poderemos identificar claramente onde não ocorreu uma determinada safra.

In [20]:
# Substituir "-" por NaN
Prod.replace({'-': pd.NA}, inplace=True)

# Agora, substituir os valores NaN por -1
Prod.fillna(-1, inplace=True)

# Substituir "..." por NaN
Prod.replace({'...': pd.NA}, inplace=True)

# Agora, substituir os valores NaN por -1
Prod.fillna(-1, inplace=True)


Prod.head()

Unnamed: 0,Brasil e Unidade da Federação,Abacate (2020),Alho (2020),Amendoim (em casca) (2020),Arroz (em casca) (2020),Aveia (em grão) (2020),Azeitona (2020),Banana (cacho) (2020),Batata-doce (2020),Batata-inglesa (2020),...,Noz (fruto seco) (2022),Pera (2022),Pêssego (2022),Pimenta-do-reino (2022),Soja (em grão) (2022),Sorgo (em grão) (2022),Tangerina (2022),Tomate (2022),Trigo (em grão) (2022),Uva (2022)
0,Brasil,267059,155741,651126,11091011,898405,2651,6593437,849397,3752999,...,6127,17525,208823,128331,120701031,2923318,1086616,3809986,10343182,1450805
1,Rondônia,150,-1,169,112848,-1,-1,83975,-1,-1,...,-1,-1,-1,141,1750249,-1,462,6791,-1,76
2,Acre,537,-1,120,4626,-1,-1,86113,591,-1,...,-1,-1,-1,-1,22667,-1,2151,-1,-1,-1
3,Amazonas,391,-1,-1,1680,-1,-1,92670,6471,-1,...,-1,-1,-1,24,13740,-1,266,200,196,-1
4,Roraima,-1,-1,-1,71054,-1,-1,62239,5220,-1,...,-1,-1,-1,-1,346647,-1,708,3135,-1,-1


Com os dados devidamente tratados, estamos prontos para iniciar o processo de mineração de dados.

### 2.2. Mineração de dados

Durante a etapa de Mineração de Dados é realizada a busca efetiva por conhecimentos úteis no contexto da aplicação de KDD. É a principal etapa do processo de KDD. Envolve a aplicação de algoritmos sobre os dados em busca de conhecimento implícitos e úteis.

É relevante notar que nossa abordagem não incluirá técnicas de Inteligência Artificial, como _Lógica Nebulosa (Fuzzy Logic), Algoritmos Genéticos (AG), redes neurais_, entre outras metodologias mencionadas na literatura utilizada como referência. Nossas análises serão estritamente baseadas em lógica, visando precisão e fornecimento de resultados pertinentes.

##### 2.2.1. Identificar deficiências de produção em diferentes produtos agrícolas;

Para começar utilizamos o banco de dados do IBGE e o Power Bi como ferramenta de analise de dados para a criação dos graficos e tratamento de tabelas, em seguida analisamos os dados e visualizamos a deficiência de produção agricola em cada um dos estados


##### 2.2.2. Buscar oportunidades de mercado, como demandas crescentes por certos produtos;

Desenvolver sessão aqui!

##### 2.2.3. Desenvolver modelos de previsão de safras baseados em dados históricos;


Desenvolver sessão aqui!

##### 2.2.4. Estimar a demanda futura com base em tendências de mercado e sazonalidade, auxiliando no planejamento de produção e distribuição;

Para darmos inicio, utilizaremos o dataframe da variável `Prod` criada e tratada na sessão de [Pré-processamento](#21-pré-processamento). Podemos analisar a quantidade produzida entre 2020 a 2022 de diversos produtos listados na base de dados.

### 2.3. Pós-processamento