In [38]:
import pandas as pd
import seaborn as sns
import numpy as np
import datetime

In [39]:
import warnings
warnings.simplefilter(action='ignore', category=FutureWarning)

In [40]:
df = pd.read_csv('../../dados/dadosCompletos_2021.csv', sep=';')

In [41]:
pd.set_option('display.max_columns',999)
pd.set_option("display.max_rows", 999)

In [42]:
df.shape

(1107689, 125)

In [43]:
print(df.columns.tolist())

['id_animal', 'estabelecimento_municipio', 'data_abate', 'estabelecimento_identificador', 'identificador_lote', 'tipificacao', 'maturidade', 'acabamento', 'peso', 'motivo_desclassificacao', 'classificacao_estabelecimento', 'outros_incentivos', 'pratica_recuperacao_pastagem', 'fertiirrigacao', 'ilp', 'ilpf', 'ifp', 'fabrica_racao', 'identificacao_individual', 'regua_de_manejo', 'bpa', 'participa_aliancas_mercadologicas', 'qual_alianca', 'boa_cobertura_vegetal', 'erosao_laminar_ou_sulco_20', 'rastreamento_sisbov', 'lista_trace', 'data12m', 'data6m', 'data3m', 'data1m', 'data7d', 'tot7d_chuva', 'med7d_tempinst', 'med7d_tempmax', 'med7d_tempmin', 'med7d_umidinst', 'med7d_umidmax', 'med7d_umidmin', 'med7d_velventomax', 'med7d_formituinst', 'med7d_formitumax', 'med7d_num_pixels', 'med7d_ndvi', 'med7d_evi', 'med7d_prer_soja', 'med7d_prer_milho', 'med7d_prer_boi', 'tot1m_chuva', 'med1m_tempinst', 'med1m_tempmax', 'med1m_tempmin', 'med1m_umidinst', 'med1m_umidmax', 'med1m_umidmin', 'med1m_velve

In [44]:
df.dtypes

id_animal                              int64
estabelecimento_municipio             object
data_abate                            object
estabelecimento_identificador          int64
identificador_lote                     int64
tipificacao                           object
maturidade                            object
acabamento                            object
peso                                 float64
motivo_desclassificacao               object
classificacao_estabelecimento        float64
outros_incentivos                     object
pratica_recuperacao_pastagem          object
fertiirrigacao                        object
ilp                                   object
ilpf                                  object
ifp                                   object
fabrica_racao                         object
identificacao_individual              object
regua_de_manejo                       object
bpa                                   object
participa_aliancas_mercadologicas     object
qual_alian

In [45]:
df.shape

(1107689, 125)

## 1. Característica Alvo

In [46]:
df.categoria.value_counts()

AA     381558
AAA    231793
BB     182830
D      182108
BBB     85432
C       43968
Name: categoria, dtype: int64

### Identificadores

<p style="color:#1155cc">Características que representam identificadores pois não contribuem para o processo de aprendizado de máquina.</p>

In [47]:
df.drop(['id_animal', 'estabelecimento_identificador', 'identificador_lote'], axis='columns', inplace = True)

## 2. Exclusão de características

### 2.1 Exclusão dos dados referentes a 7 dias

<p style="color:#1155cc">A média das váriáveis climáticas, vegetais e de comodities referente a 7 dias, pois 7 foi considerado um período muito curto para obtermos informações relevantes.</p>

In [48]:
df = df.drop([
              'data7d', 'tot7d_chuva', 'med7d_tempinst', 'med7d_tempmax', 'med7d_tempmin', 'med7d_umidinst', 
              'med7d_umidmax', 'med7d_umidmin', 'med7d_velventomax', 'med7d_formituinst', 'med7d_formitumax', 
              'med7d_num_pixels', 'med7d_ndvi', 'med7d_evi', 'med7d_prer_soja', 'med7d_prer_milho', 
              'med7d_prer_boi', 'cnt7d_cl_itumax', 'cnt7d_cl_ituinst'
              ], axis=1)

In [50]:
#plotarBoxplotAgrupado ('Total de precipitacao de chuva','total de chuva por período', df_chuva )

### 2.2 Alto índice de correlação: Exclusão características relacionadas a Temperatura e Umidade

<p style="color:#1155cc">Baseado na relação entre a temperatura ambiente e a umidade foi calculado e incluído a base de dados o índice de temperatura e umidade <b>(ITU)</b> e a partir do valor do ITU a classe de conforto térmico dos animais. A matriz de correlação apresentou alta correlação entre essas características, desta foi mantida as variável correspondentes ao ITU instantâneo e a classe de conforto estantâneo.</p>

In [51]:
df.drop([
        'med1m_tempinst', 'med1m_tempmax', 'med1m_tempmin', 'med1m_umidinst', 'med1m_umidmax', 'med1m_umidmin',
        'med3m_tempinst', 'med3m_tempmax', 'med3m_tempmin', 'med3m_umidinst', 'med3m_umidmax', 'med6m_tempinst', 
        'med6m_tempmax', 'med6m_tempmin', 'med6m_umidinst', 'med6m_umidmax', 'med6m_umidmin', 'med3m_umidmin', 
        'med12m_tempinst', 'med12m_tempmax', 'med12m_tempmin', 'med12m_umidinst', 'med12m_umidmax', 
        'med12m_umidmin','med1m_formitumax', 'med3m_formitumax', 'med6m_formitumax', 'med12m_formitumax',
        'cnt1m_cl_itumax', 'cnt3m_cl_itumax', 'cnt6m_cl_itumax','cnt12m_cl_itumax'
        ], axis='columns', inplace = True)

### 2.3 Alto índice de correlação: NDVI e EVI

<p style="color:#1155cc">As duas variáveis são Índices de Vegetação e apresentaram alto grau de correlação.</p>

In [52]:
df.drop(['med1m_evi', 'med3m_evi', 'med6m_evi', 'med12m_evi'], axis='columns', inplace = True)

### 2.4 Velocidade do vento, Pixels, Datas e Motivo desclassificação

<p style="color:#1155cc">Motivo desclassificação, essa característica é obtida após o abate do novilho e não contribue para o processo de aprendizado de máquina.</p>

In [53]:
df.drop([
        'med1m_velventomax','med3m_velventomax', 'med6m_velventomax','med12m_velventomax', 'med1m_num_pixels', 
        'med3m_num_pixels', 'med6m_num_pixels', 'med12m_num_pixels','motivo_desclassificacao',
        'data12m', 'data6m', 'data3m', 'data1m'
        ], axis='columns', inplace = True)

### 2.5 Dados ausentes

In [54]:
df.fertiirrigacao.value_counts()

NÃO     959158
SIM      98695
NULO     49836
Name: fertiirrigacao, dtype: int64

<p style="color:#1155cc">Fertiirigação, ILP, ILPF, IFP quando são 'NULO' o valor para 'pratica_recuperacao_pastagem' é NaN.</p>

In [55]:
df.dropna(subset=['pratica_recuperacao_pastagem'], inplace=True)

In [56]:
df.isnull().sum().sort_values(ascending=False)

qual_alianca                         700768
lista_trace                          547884
erosao_laminar_ou_sulco_20           194423
boa_cobertura_vegetal                194423
med12m_ndvi                           41895
med3m_ndvi                            37002
med1m_ndvi                            37002
med6m_ndvi                            37002
tot1m_chuva                            2363
med6m_prer_soja                           0
med3m_prer_soja                           0
med3m_prer_milho                          0
med3m_prer_boi                            0
tot6m_chuva                               0
med6m_formituinst                         0
estabelecimento_municipio                 0
med3m_formituinst                         0
med6m_prer_boi                            0
tot12m_chuva                              0
med12m_formituinst                        0
med12m_prer_soja                          0
med12m_prer_milho                         0
med12m_prer_boi                 

<p>Exclusão qual_alianca, lista_trace, erosao_laminar_ou_sulco_20,boa_cobertura_vegetal</p>

In [57]:
df.drop(['qual_alianca','lista_trace', 'erosao_laminar_ou_sulco_20','boa_cobertura_vegetal'], axis='columns', inplace = True)

In [58]:
round(df.isnull().mean() * 100,2).sort_values(ascending=False)

med12m_ndvi                          3.96
med3m_ndvi                           3.50
med1m_ndvi                           3.50
med6m_ndvi                           3.50
tot1m_chuva                          0.22
med6m_prer_boi                       0.00
med3m_prer_soja                      0.00
med3m_prer_milho                     0.00
med3m_prer_boi                       0.00
tot6m_chuva                          0.00
med6m_formituinst                    0.00
med6m_prer_soja                      0.00
med6m_prer_milho                     0.00
estabelecimento_municipio            0.00
med3m_formituinst                    0.00
med12m_formituinst                   0.00
med12m_prer_soja                     0.00
med12m_prer_milho                    0.00
med12m_prer_boi                      0.00
cnt1m_cl_ituinst                     0.00
cnt3m_cl_ituinst                     0.00
cnt6m_cl_ituinst                     0.00
cnt12m_cl_ituinst                    0.00
ano                               

In [59]:
df.dropna(subset=['med12m_ndvi'], inplace=True)
df.dropna(subset=['med3m_ndvi'], inplace=True)
df.dropna(subset=['med1m_ndvi'], inplace=True)
df.dropna(subset=['med6m_ndvi'], inplace=True)
df.dropna(subset=['tot1m_chuva'], inplace=True)

In [60]:
round(df.isnull().mean() * 100,2).sort_values(ascending=False)

estabelecimento_municipio            0.0
tot12m_chuva                         0.0
med3m_ndvi                           0.0
med3m_prer_soja                      0.0
med3m_prer_milho                     0.0
med3m_prer_boi                       0.0
tot6m_chuva                          0.0
med6m_formituinst                    0.0
med6m_ndvi                           0.0
med6m_prer_soja                      0.0
med6m_prer_milho                     0.0
med6m_prer_boi                       0.0
med12m_formituinst                   0.0
data_abate                           0.0
med12m_ndvi                          0.0
med12m_prer_soja                     0.0
med12m_prer_milho                    0.0
med12m_prer_boi                      0.0
cnt1m_cl_ituinst                     0.0
cnt3m_cl_ituinst                     0.0
cnt6m_cl_ituinst                     0.0
cnt12m_cl_ituinst                    0.0
ano                                  0.0
categoria                            0.0
med3m_formituins

## 3. Exclusão dos registros do ano de 2019 

In [61]:
df.ano.value_counts()

2018    668149
2017    303000
2019     42654
Name: ano, dtype: int64

<p style="color:#1155cc">São 46.238 registros de 2019.</p>

In [62]:
df_new = df.query('ano == 2019')

In [63]:
df_new['data_abate'] = pd.to_datetime(df_new['data_abate'])

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_new['data_abate'] = pd.to_datetime(df_new['data_abate'])


In [64]:
df_new['mes'] = df_new['data_abate'].dt.month 

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_new['mes'] = df_new['data_abate'].dt.month


In [65]:
df_new['mes'].value_counts()

1    42654
Name: mes, dtype: int64

<p style="color:#1155cc">Todos os registros de 2019 são do mês de janeiro</p>

In [66]:
#Exclusão dos registros de 2019
df.drop(df.loc[df['ano']== 2019].index, inplace=True)

## 4. Exclusão dos registro do Peso considerados Outiliers 

In [67]:
df.peso.describe()

count    971149.000000
mean        268.548698
std          46.492705
min         102.000000
25%         237.400000
50%         272.000000
75%         299.500000
max        1566.000000
Name: peso, dtype: float64

In [68]:
df_remove = df.loc[(df['peso'] <= 159.5) | (df['peso'] >= 376.2)]

In [69]:
df = df.drop(df_remove.index)

In [70]:
print(df.columns.tolist())

['estabelecimento_municipio', 'data_abate', 'tipificacao', 'maturidade', 'acabamento', 'peso', 'classificacao_estabelecimento', 'outros_incentivos', 'pratica_recuperacao_pastagem', 'fertiirrigacao', 'ilp', 'ilpf', 'ifp', 'fabrica_racao', 'identificacao_individual', 'regua_de_manejo', 'bpa', 'participa_aliancas_mercadologicas', 'rastreamento_sisbov', 'tot1m_chuva', 'med1m_formituinst', 'med1m_ndvi', 'med1m_prer_soja', 'med1m_prer_milho', 'med1m_prer_boi', 'tot3m_chuva', 'med3m_formituinst', 'med3m_ndvi', 'med3m_prer_soja', 'med3m_prer_milho', 'med3m_prer_boi', 'tot6m_chuva', 'med6m_formituinst', 'med6m_ndvi', 'med6m_prer_soja', 'med6m_prer_milho', 'med6m_prer_boi', 'tot12m_chuva', 'med12m_formituinst', 'med12m_ndvi', 'med12m_prer_soja', 'med12m_prer_milho', 'med12m_prer_boi', 'cnt1m_cl_ituinst', 'cnt3m_cl_ituinst', 'cnt6m_cl_ituinst', 'cnt12m_cl_ituinst', 'ano', 'categoria', 'classificacao']


### Resultado final

In [71]:
df.shape

(960939, 50)

In [72]:
print(df.columns.tolist())

['estabelecimento_municipio', 'data_abate', 'tipificacao', 'maturidade', 'acabamento', 'peso', 'classificacao_estabelecimento', 'outros_incentivos', 'pratica_recuperacao_pastagem', 'fertiirrigacao', 'ilp', 'ilpf', 'ifp', 'fabrica_racao', 'identificacao_individual', 'regua_de_manejo', 'bpa', 'participa_aliancas_mercadologicas', 'rastreamento_sisbov', 'tot1m_chuva', 'med1m_formituinst', 'med1m_ndvi', 'med1m_prer_soja', 'med1m_prer_milho', 'med1m_prer_boi', 'tot3m_chuva', 'med3m_formituinst', 'med3m_ndvi', 'med3m_prer_soja', 'med3m_prer_milho', 'med3m_prer_boi', 'tot6m_chuva', 'med6m_formituinst', 'med6m_ndvi', 'med6m_prer_soja', 'med6m_prer_milho', 'med6m_prer_boi', 'tot12m_chuva', 'med12m_formituinst', 'med12m_ndvi', 'med12m_prer_soja', 'med12m_prer_milho', 'med12m_prer_boi', 'cnt1m_cl_ituinst', 'cnt3m_cl_ituinst', 'cnt6m_cl_ituinst', 'cnt12m_cl_ituinst', 'ano', 'categoria', 'classificacao']


In [73]:
df.to_csv("dados_limpeza.csv",sep=';', index = False)