In [1]:
# To support both python 2 and python 3
from __future__ import division, print_function, unicode_literals

# Common imports
import numpy as np
import os

# to make this notebook's output stable across runs
np.random.seed(42)

# To plot pretty figures
%matplotlib inline
import matplotlib
import matplotlib.pyplot as plt
plt.rcParams['axes.labelsize'] = 14
plt.rcParams['xtick.labelsize'] = 12
plt.rcParams['ytick.labelsize'] = 12

# Where to save the figures
PROJECT_ROOT_DIR = "."
CHAPTER_ID = "end_to_end_project"
IMAGES_PATH = os.path.join(PROJECT_ROOT_DIR, "images", CHAPTER_ID)

def save_fig(fig_id, tight_layout=True, fig_extension="png", resolution=300):
    path = os.path.join(IMAGES_PATH, fig_id + "." + fig_extension)
    print("Saving figure", fig_id)
    if tight_layout:
        plt.tight_layout()
    plt.savefig(path, format=fig_extension, dpi=resolution)

# Ignore useless warnings (see SciPy issue #5998)
import warnings
warnings.filterwarnings(action="ignore", module="scipy", message="^internal gelsd")

In [2]:
import pandas as pd
pd.set_option('display.max_columns', 500)
pd.set_option('display.max_rows', 5000)

def carregar_dados_abate():
    return pd.read_csv('../input/DadosCompleto.csv', encoding='UTF-8', delimiter='\t')

dados_abate = carregar_dados_abate()
dados_abate.head()

Unnamed: 0,estabelecimento_identificador,incentivo_produtor_situacao,identificador_lote,identificador_lote_situacao_lote,identificador_lote_numero_animal,eh_novilho_precoce,empresa_classificadora_identificador,classificador1,classificador2,tipificacao,maturidade,acabamento,rispoa,peso,aprovacao_carcaca_sif,data_abate,estabelecimento_municipio,estabelecimento_uf,incentivo_produtor_identificador,questionario_identificador,questionario_classificacao_estabelecimento_rural,ṕossui_outros_incentivos,produtor_situacao,pratica_recuperacao_pastagem_outra_pratica,fabrica_racao,pergunta_questionario_outros,area_total_destinada_confinamento,area_manejada_80_boa_cobertura_vegetal,area_manejada_20_erosao,dispoe_de_identificacao_individual,rastreamento_sisbov,faz_controle_pastejo_regua_de_manejo_embrapa,lita_trace,apresenta_atestado_programas_controle_qualidade,envolvido_em_organizacao,confinamento_alto_concentrado,confinamento_alto_concentrado_volumoso,confinamento_concentrado_volumoso,confinamento_grao_inteiro,confinamento_racao_consumo_igual_superior_0_8_porcento_peso_vivo,confinamento_racao_consumo_inferior_0_8_porcento_peso_vivo,semi_confinamento_racao_consumo_igual_superior_0_8_porcento_peso_vivo,semi_confinamento_racao_consumo_inferior_0_8_porcento_peso_vivo,suplementacao_a_campo_creep_feeding,suplementacao_a_campo_silagem_ou_feno,suplementacao_a_campo_proteico,suplementacao_a_campo_proteico_energetico,suplementacao_a_campo_sal_mineral,suplementacao_a_campo_sal_mineral_ureia,fertirrigacao,ifp,ilp,ilpf,nenhum
0,1,11,20703,INCENTIVADO,1009,SIM,4.0,2459,2459.0,Macho INTEIRO,Dois dentes,Gordura Mediana - acima de 3 a até 6 mm de esp...,Nenhum,385.0,SIM,2017-10-02 00:00:00.000,BRASILANDIA,MS,3774,3722,26.0,NÃO,APROVADO,Nenhum,SIM,Nenhum,NÃO,Sim,Não,Sim,Não,Sim,NÃO,Não,Não,SIM,SIM,SIM,SIM,SIM,SIM,SIM,SIM,SIM,SIM,SIM,SIM,SIM,SIM,SIM,NÃO,SIM,NÃO,NÃO
1,1,11,20703,INCENTIVADO,959,SIM,4.0,2459,2459.0,Macho INTEIRO,Dois dentes,Gordura Escassa - 1 a 3 mm de espessura,Nenhum,336.5,SIM,2017-10-02 00:00:00.000,BRASILANDIA,MS,3774,3722,26.0,NÃO,APROVADO,Nenhum,SIM,Nenhum,NÃO,Sim,Não,Sim,Não,Sim,NÃO,Não,Não,SIM,SIM,SIM,SIM,SIM,SIM,SIM,SIM,SIM,SIM,SIM,SIM,SIM,SIM,SIM,NÃO,SIM,NÃO,NÃO
2,1,11,20703,INCENTIVADO,958,SIM,4.0,2459,2459.0,Macho INTEIRO,Dente de leite,Gordura Mediana - acima de 3 a até 6 mm de esp...,Nenhum,371.0,SIM,2017-10-02 00:00:00.000,BRASILANDIA,MS,3774,3722,26.0,NÃO,APROVADO,Nenhum,SIM,Nenhum,NÃO,Sim,Não,Sim,Não,Sim,NÃO,Não,Não,SIM,SIM,SIM,SIM,SIM,SIM,SIM,SIM,SIM,SIM,SIM,SIM,SIM,SIM,SIM,NÃO,SIM,NÃO,NÃO
3,1,11,20703,INCENTIVADO,957,SIM,4.0,2459,2459.0,Macho INTEIRO,Dente de leite,Gordura Mediana - acima de 3 a até 6 mm de esp...,Nenhum,370.5,SIM,2017-10-02 00:00:00.000,BRASILANDIA,MS,3774,3722,26.0,NÃO,APROVADO,Nenhum,SIM,Nenhum,NÃO,Sim,Não,Sim,Não,Sim,NÃO,Não,Não,SIM,SIM,SIM,SIM,SIM,SIM,SIM,SIM,SIM,SIM,SIM,SIM,SIM,SIM,SIM,NÃO,SIM,NÃO,NÃO
4,1,11,20703,INCENTIVADO,956,SIM,4.0,2459,2459.0,Macho INTEIRO,Dente de leite,Gordura Escassa - 1 a 3 mm de espessura,Nenhum,336.0,SIM,2017-10-02 00:00:00.000,BRASILANDIA,MS,3774,3722,26.0,NÃO,APROVADO,Nenhum,SIM,Nenhum,NÃO,Sim,Não,Sim,Não,Sim,NÃO,Não,Não,SIM,SIM,SIM,SIM,SIM,SIM,SIM,SIM,SIM,SIM,SIM,SIM,SIM,SIM,SIM,NÃO,SIM,NÃO,NÃO


In [6]:
dados_abate.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 464463 entries, 0 to 464462
Data columns (total 54 columns):
estabelecimento_identificador                                            464463 non-null int64
incentivo_produtor_situacao                                              464463 non-null int64
identificador_lote                                                       464463 non-null int64
identificador_lote_situacao_lote                                         464463 non-null object
identificador_lote_numero_animal                                         464463 non-null int64
eh_novilho_precoce                                                       464463 non-null object
empresa_classificadora_identificador                                     464463 non-null float64
classificador1                                                           464463 non-null int64
classificador2                                                           464463 non-null float64
tipificacao                 

In [26]:
dados_abate['tipificacao'].value_counts()

Macho INTEIRO     199430
Fêmea             154094
Macho CASTRADO    110939
Name: tipificacao, dtype: int64

In [27]:
dados_abate['maturidade'].value_counts()

Dois dentes       223546
Dente de leite    171678
Quatro dentes      69239
Name: maturidade, dtype: int64

In [28]:
dados_abate['acabamento'].value_counts()

Gordura Mediana - acima de 3 a até 6 mm de espessura      259207
Gordura Escassa - 1 a 3 mm de espessura                   174516
Gordura Uniforme - acima de 6 e até 10 mm de espessura     30740
Name: acabamento, dtype: int64

In [29]:
dados_abate['identificador_lote_situacao_lote'].value_counts()

INCENTIVADO        442646
DESCLASSIFICADO     21579
INTERROMPIDO          238
Name: identificador_lote_situacao_lote, dtype: int64

In [30]:
dados_abate['produtor_situacao'].value_counts()

APROVADO    464463
Name: produtor_situacao, dtype: int64

In [31]:
dados_abate['pratica_recuperacao_pastagem_outra_pratica'].value_counts()

Nenhum    464463
Name: pratica_recuperacao_pastagem_outra_pratica, dtype: int64

In [32]:
dados_abate['rispoa'].value_counts()

Nenhum    463395
Ou           694
Ci           374
Name: rispoa, dtype: int64

In [33]:
dados_abate['estabelecimento_municipio'].value_counts()

RIBAS DO RIO PARDO          43372
CAMAPUA                     22084
BRASILANDIA                 20136
SANTA RITA DO PARDO         20032
ITAQUIRAI                   17122
LAGUNA CARAPA               17003
NOVA ANDRADINA              15756
TERENOS                     14769
MIRANDA                     14674
PARAISO DAS AGUAS           13507
CAMPO GRANDE                13349
COXIM                       12815
RIO VERDE DE MATO GROSSO    12477
BANDEIRANTES                12166
NAVIRAI                     11831
CHAPADAO DO SUL             11291
PEDRO GOMES                 10977
JARAGUARI                   10287
SONORA                      10124
BONITO                       8966
SAO GABRIEL DO OESTE         8789
IVINHEMA                     8600
CORUMBA                      7692
AQUIDAUANA                   6968
ALCINOPOLIS                  6079
TRES LAGOAS                  6075
BATAGUASSU                   5882
FIGUEIRAO                    5441
AGUA CLARA                   5226
SELVIRIA      

In [34]:
dados_abate['incentivo_produtor_identificador'].value_counts()

4834    16240
5115     9687
5418     8658
6224     8022
5203     7975
5226     7496
5859     5608
5815     5592
5248     5512
6122     5000
4902     4803
5735     4639
5344     4620
6081     4444
6298     3602
4651     3570
5808     3381
4972     3335
4825     3272
5736     3163
3577     3049
6060     3032
4646     2965
5906     2956
4091     2875
6283     2857
5602     2816
5437     2778
3395     2643
6011     2613
5052     2581
6220     2578
5811     2498
5881     2464
6505     2452
5691     2438
5509     2362
6400     2322
5457     2269
5801     2245
4163     2239
6105     2205
6415     2178
5658     2157
5312     2108
6453     2071
5508     2054
4750     2022
5313     2021
4926     1993
5121     1991
4654     1970
5321     1875
4874     1869
5531     1803
5444     1747
4923     1745
4927     1624
5420     1590
5441     1577
5539     1555
5879     1522
4164     1519
5863     1476
6376     1468
5503     1467
5225     1449
4190     1428
5298     1423
4793     1419
4154     1376
6026  

In [4]:
dados_abate['classificador1'].value_counts()

2460           111450
2459            94445
2406            92345
92              30498
26922182804     29689
2503            29054
57599041672     24974
2537            16775
2597             7069
2567             5487
2577             4846
1126             4196
2548             3674
2572             3097
2643             2520
2353             2189
2321              996
2571              709
1134              412
2709               38
Name: classificador1, dtype: int64

In [5]:
dados_abate['peso'].value_counts()

280.0     1490
273.0     1478
271.0     1473
272.0     1460
268.0     1442
279.0     1435
281.0     1435
269.0     1433
275.0     1429
276.0     1429
282.0     1424
278.0     1404
277.0     1399
285.0     1399
270.0     1386
274.0     1373
266.0     1363
287.0     1360
283.0     1358
289.0     1347
284.0     1347
286.0     1326
288.0     1318
267.0     1317
296.0     1281
292.0     1281
265.0     1280
263.0     1273
290.0     1269
293.0     1261
258.0     1259
295.0     1249
294.0     1246
291.0     1239
264.0     1227
298.0     1222
262.0     1217
259.0     1203
297.0     1196
261.0     1191
299.0     1179
301.0     1176
260.0     1162
300.0     1149
256.0     1133
257.0     1121
255.0     1115
302.0     1108
254.0     1099
303.0     1051
304.0     1020
253.0     1018
252.0      997
305.0      993
308.0      986
251.0      978
250.0      970
307.0      963
306.0      962
247.0      938
288.5      935
248.0      924
249.0      920
285.5      916
201.0      914
205.0      909
280.5     