# Projeto de Analise Exploratória da produção agrícola no mercado brasileiro de grãos.

## Sobre o Agronegócio Brasileiro

O Agronegócio no Brasil representa 21% do PIB(Produto Interno Bruto) em 2019, ou seja 1,55 trilhões de reais. Sendo divido pelo o ramo agrícola com 68%(1,06 trilhões de reais) e o ramo pecuário correspondendo 32%(494,8 bilhões de reais). Focando no ramo agrícola temos a soja(grãos) sendo o mais vendido, sendo reponsavel por 1 real a cada 4 reais na produção do setor no Brasil. 

**Figura abaixo sobre a participação global da produção agricola no Brasil em 2020.**
![](https://www.cnabrasil.org.br/assets/images/grafico3panorama_200610_191921.JPG)

Notasse que o açúcar, café, laranja, soja no ramo agrícola estão entre os primeiros na participação global em exportações feitas pelo agronegócio brasileiro.

## Uso da Ciência de Dados no Agronegócio

A "Agricultura Inteligente" vem sendo um termo bastante desenvolvido nos últimos anos, tornando a industria do agronegócio mais eficiente e eficaz com a ajuda de algoritmos de alta precisão e entre outras tecnologias que cercam a Ciência de Dados. Como por exemplo:



*   Uso de Machine Learning para quantificar e compreender processos internos de dados em ambientes operacionais agrícolas, nos ciclos de cultivo e colheita.
* Analisam o solo e medição da alimentação de água, terminando com redes neurais fazem a colheita baseado em algoritmos de visão computacionais que determinam o nível de maturação de uma determinada planta.


<img width="500" src=https://www.cpqd.com.br/wp-content/uploads/2018/05/img-noticia-saomartinho-cpqd-1030x687.jpg>





## Caso do uso da Ciência de Dados em Pesticidas.

Para o sucesso de uma boa colheita e garantido por diversos fatores, sendo eles:


*   Disponibilidade de Água
*   Fertilidade do Solo
* Proteção das colheitas contra animais
* Uso de pesticidas contra pragas comuns em certas épocas do ano
* Entre outros produtos químicos úteis.

Só que muito desses fatores são díficeis ainda de serem quantificados, mas a quantidade e frequência do uso de pesticidas pode ser controlado.

<img src=https://www.motherjones.com/wp-content/uploads/pesticide-master.gif>

Esses pesticidas são usados geralmente para o proteger a lavoura de pestes, sendo usados corretamente, mas se usados de maneira errada podem danificar boa parte ou até em alguns casos destruir totalmente uma plantação. Podendo depois haver problemas com a fiscalização sanitária na hora da comercialização desses produtos agrícolas, por estarem impróprios para o consumo.


## Entendimento do Problema de Negócio

O problema referente seria em questão na previsão do resultado da temporada de colheita, se a colheita seria:


*   Saudável
*   Danificada por pesticidas
* Danificada por outros motivos

Os dados serão baseados em uma base de dados ficticia, em uma safra colhida por agricultores no final da temporada de colheita.



## Análise Exploratória de Dados

### 1 - Dicionário de Dados

`id` - Identificador unico

`Estimated_Insects_Count` - Estimação de contagem de insetos por metro quadrado

`Crop_Type` - Categoria de cultivo (0,1)

`Tipo_do solo` - Categoria do solo (0,1)

`Pesticide_Use_Category` - Tipo de uso de pesticidas (1- 6. Nunca, 2-Usado anteriormente, 3-Usando atualmente)

`Number_Doses_Week` - Número de doses por semana

`Number_Weeks_Used` - Número de semanas usadas

`Number_Weeks_Quit` - Número de semanas de desistência

`Temporada` - Categoria Temporada (1,2,3)

`Crop_Damage` - Categoria de dano de cultivo (0 = vivo, 1 = dano devido a outras causas, 2 = dano devido a pesticidas)

### 2 - Importando pacotes e fazendo as primeiras análises de distribuição dos dados

Primeiro nos importaremos os pacotes para a analise previa dos dados, logo após isso iremos importar a base de dados que sera usada como base neste estudo.

In [5]:
!pip install catboost

Collecting catboost
  Downloading catboost-1.0.0-cp37-none-manylinux1_x86_64.whl (76.4 MB)
[K     |████████████████████████████████| 76.4 MB 28 kB/s 
Installing collected packages: catboost
Successfully installed catboost-1.0.0


In [6]:
# Importando pacotes
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import numpy as np

#Pacotes de machine learning
from sklearn.model_selection import train_test_split
from catboost import CatBoostClassifier

# definir o estilo do seaborn para os plots
sns.set_style()

# filtrar mensagens de warning
import warnings
warnings.filterwarnings('ignore')

In [7]:
!pip install dataprep

Collecting dataprep
  Downloading dataprep-0.3.0-py3-none-any.whl (1.8 MB)
[K     |████████████████████████████████| 1.8 MB 8.8 MB/s 
[?25hCollecting nltk<4.0,>=3.5
  Downloading nltk-3.6.5-py3-none-any.whl (1.5 MB)
[K     |████████████████████████████████| 1.5 MB 26.4 MB/s 
Collecting jsonpath-ng<2.0,>=1.5
  Downloading jsonpath_ng-1.5.3-py3-none-any.whl (29 kB)
Collecting wordcloud<2.0,>=1.8
  Downloading wordcloud-1.8.1-cp37-cp37m-manylinux1_x86_64.whl (366 kB)
[K     |████████████████████████████████| 366 kB 61.1 MB/s 
Collecting python-Levenshtein<0.13.0,>=0.12.2
  Downloading python-Levenshtein-0.12.2.tar.gz (50 kB)
[K     |████████████████████████████████| 50 kB 7.0 MB/s 
Collecting metaphone<0.7,>=0.6
  Downloading Metaphone-0.6.tar.gz (14 kB)
Collecting regex<2021.0.0,>=2020.10.15
  Downloading regex-2020.11.13-cp37-cp37m-manylinux2014_x86_64.whl (719 kB)
[K     |████████████████████████████████| 719 kB 66.4 MB/s 
Collecting usaddress<0.6.0,>=0.5.10
  Downloading usaddre

In [8]:
df = pd.read_csv("/Users/Ygor/Desktop/PROJETO_Agronegócio/dados_agro.csv")

FileNotFoundError: ignored