<a href="https://colab.research.google.com/github/serenozin/desmatamento_analise/blob/main/tratamento_dados_desmatamento.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## Libs installation and import

In [None]:
!pip install basedosdados

Collecting basedosdados
  Downloading https://files.pythonhosted.org/packages/ec/ed/d1b915fb9cce71063047beeaf9c33ba5453daac8f3d69773e881bd12a1ea/basedosdados-1.5.4-py3-none-any.whl
Collecting pandas-gbq==0.13.2
  Downloading https://files.pythonhosted.org/packages/53/f3/3100eb9332c62c5e5ac486d5421965da23a0b92012825bfbb372b7f8d508/pandas_gbq-0.13.2-py3-none-any.whl
Collecting tomlkit==0.7.0
  Downloading https://files.pythonhosted.org/packages/bc/01/a0ee34fe37dd54f795e8f8a820af57c9a94d7358276acf6cdc21ae8d9533/tomlkit-0.7.0-py2.py3-none-any.whl
Collecting tqdm==4.50.2
[?25l  Downloading https://files.pythonhosted.org/packages/bd/cf/f91813073e4135c1183cadf968256764a6fe4e35c351d596d527c0540461/tqdm-4.50.2-py2.py3-none-any.whl (70kB)
[K     |████████████████████████████████| 71kB 5.7MB/s 
[?25hCollecting google-cloud-bigquery==1.28.0
[?25l  Downloading https://files.pythonhosted.org/packages/49/18/6aeca7e64efb37f4d4fceaed0cbb7cd861416588240b76c4796fe2e3393c/google_cloud_bigquery-1.28.0-

In [None]:
# import os
# # restarting runtime
# os.kill(os.getpid(), 9)

In [None]:
import basedosdados as bd
import pandas as pd

# Projeto final do módulo 4 - **Storytelling com Dados**

O desafio foi apresentar uma história a partir da análise de um conjunto de dados escolhido pela equipe, dentre as opções propostas. Para executar o projeto as equipes deveriam usar Python com Jupyter Notebook, e Tableau. 

## Equipe 6 - Desmatamento na Amazônia Legal

Nossa equipe escolheu o conjunto de dados PRODES - Desmatamento, do INPE. Usamos o Python para extrair os dados, através da biblioteca da [Base dos Dados](https://basedosdados.org/), e o Tableau para construir as visualizações. É possível acessar o painel e a história que fizemos no Tableau [aqui](https://public.tableau.com/app/profile/patryck.harley/viz/painel_16247736650040/Painel1). Para uma análise mais ampla também utilizamos os dados do PAM - Lavouras Temporárias, e do PPM - Rabanhos Efetivos. Ambos da Base dos Dados também, disponibilizados através da plataforma [Big Query](https://console.cloud.google.com/bigquery?p=basedosdados).

## Datasets load and overview

### **Desmatamento PRODES**

O projeto PRODES realiza o monitoramento por satélites do desmatamento por corte raso na Amazônia Legal e produz, desde 1988, as taxas anuais de desmatamento na região, que são usadas pelo governo brasileiro para o estabelecimento de políticas públicas. As taxas anuais são estimadas a partir dos incrementos de desmatamento identificados em cada imagem de satélite que cobre a Amazônia Legal. A primeira apresentação dos dados é realizada para dezembro de cada ano, na forma de estimativa. Os dados consolidados são apresentados no primeiro semestre do ano seguinte.

O PRODES utiliza imagens de satélites da classe LANDSAT (20 a 30 metros de resolução espacial e taxa de revisita de 16 dias) numa combinação que busca minimizar o problema da cobertura de nuvens e garantir critérios de interoperabilidade. As imagens do satélite americano LANDSAT-5/TM foram, historicamente, as mais utilizadas pelo projeto, mas as imagens do sensor CCD a bordo do CBERS-2/2B, satélites do programa sino-brasileiro de sensoriamento remoto, foram bastante usadas. O PRODES também fez uso de imagens LISS-3 do satélite indiano IRS-1 e também das imagens do satélite inglês UK-DMC2. Atualmente faz uso massivo das imagens do LANDSAT 8/OLI, CBERS 4 e IRS-2. Independente do instrumento utilizado, a área mínima mapeada pelo PRODES é de 6,25 hectares.

As estimativas do PRODES são consideradas confiáveis pelos cientistas nacionais e internacionais (Kintish, 2007). Esse sistema tem demonstrado ser de grande importância para ações e planejamento de políticas públicas da Amazônia. Resultados recentes, a partir de análises realizadas com especialistas independentes, indicam nível de precisão próximo a 95%.

fonte: https://basedosdados.org/dataset/br-inpe-prodes

#### **Tabela:** desmatamento_municipios
**Variáveis**
- id_municipio:	 ID Município - IBGE 7 Dígitos

- ano: Ano	

- area:	Área (km2)	

- desmatado: Área Desmatada Total (km2)	

- incremento:	Incremento em Área Desmatada (km2)

- floresta: Área de Floresta (km2)	

- nuvem: Área Encoberta por Nuvens (km2)

- nao_observado: Área Não-Observada (km2)	

- nao_floresta: Área de Não-Floresta (km2)	

- hidrografia: Área de Hidrografia (km2)

In [None]:
# # Para carregar o dado direto no pandas
# prodes = bd.read_table(dataset_id='br_inpe_prodes', 
#             table_id='desmatamento_municipios',
#             billing_project_id='lively-oxide-290601')

Please visit this URL to authorize this application: https://accounts.google.com/o/oauth2/auth?response_type=code&client_id=262006177488-3425ks60hkk80fssi9vpohv88g6q1iqd.apps.googleusercontent.com&redirect_uri=urn%3Aietf%3Awg%3Aoauth%3A2.0%3Aoob&scope=https%3A%2F%2Fwww.googleapis.com%2Fauth%2Fcloud-platform&state=blyYQyHN8rq8OR3ReXEf8lm3cLmClz&prompt=consent&access_type=offline
Enter the authorization code: 4/1AX4XfWhZ6zU1Qh-9NkVXqQYRQorvqyJpOr8VW88j7H4Bkt6DlYfazP_hhwU


Downloading: 100%|██████████| 15200/15200 [00:01<00:00, 9801.87rows/s]


In [None]:
# prodes.to_csv('prodes_desmatamento.csv', index=False) 

In [None]:
prodes = pd.read_csv('/content/drive/MyDrive/Resilia/prodes_desmatamento.csv')

In [None]:
prodes.head()

Unnamed: 0,id_municipio,ano,area,desmatado,incremento,floresta,nuvem,nao_observado,nao_floresta,hidrografia
0,1100015,2000,7137.0,1761.1,,3639.6,0.0,6.1,1708.0,22.2
1,1100015,2001,7137.0,1834.2,73.1,3566.5,0.0,6.1,1708.0,22.2
2,1100015,2002,7137.0,1948.9,114.7,3451.8,0.0,6.1,1708.0,22.2
3,1100015,2003,7137.0,2014.9,66.0,3385.8,0.0,6.1,1708.0,22.2
4,1100015,2004,7137.0,2092.0,77.1,3308.7,0.0,6.1,1708.0,22.2


In [None]:
prodes.shape

(15200, 10)

In [None]:
prodes.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 15200 entries, 0 to 15199
Data columns (total 10 columns):
 #   Column         Non-Null Count  Dtype 
---  ------         --------------  ----- 
 0   id_municipio   15200 non-null  int64 
 1   ano            15200 non-null  int64 
 2   area           15200 non-null  object
 3   desmatado      15200 non-null  object
 4   incremento     14440 non-null  object
 5   floresta       15200 non-null  object
 6   nuvem          15200 non-null  object
 7   nao_observado  15200 non-null  object
 8   nao_floresta   15200 non-null  object
 9   hidrografia    15200 non-null  object
dtypes: int64(2), object(8)
memory usage: 1.2+ MB


Como vimos acima, algumas colunas foram interpretadas de forma errada. Por isso, vamos converter as colunas que contém números decimais, mas foram lidas como objeto.

In [None]:
for col in [
          'area', 'desmatado', 'incremento', 
          'floresta', 'nuvem', 'nao_observado',
          'nao_floresta', 'hidrografia'
          ]: 
              prodes[col] = prodes[col].astype(float) # convertendo para float

In [None]:
prodes.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 15200 entries, 0 to 15199
Data columns (total 10 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   id_municipio   15200 non-null  int64  
 1   ano            15200 non-null  int64  
 2   area           15200 non-null  float64
 3   desmatado      15200 non-null  float64
 4   incremento     14440 non-null  float64
 5   floresta       15200 non-null  float64
 6   nuvem          15200 non-null  float64
 7   nao_observado  15200 non-null  float64
 8   nao_floresta   15200 non-null  float64
 9   hidrografia    15200 non-null  float64
dtypes: float64(8), int64(2)
memory usage: 1.2 MB


Quanto aos valores nulos, a tabela só apresenta valores nulos na coluna de incremento. Vamos entender o porque:

In [None]:
nulos = prodes[
               prodes['incremento'].isnull()
               ] # filtrando apenas as linhas onde 'incremento' é nulo
nulos

Unnamed: 0,id_municipio,ano,area,desmatado,incremento,floresta,nuvem,nao_observado,nao_floresta,hidrografia
0,1100015,2000,7137.0,1761.1,,3639.6,0.0,6.1,1708.0,22.2
20,1100023,2000,4481.0,2661.2,,1730.0,0.0,0.0,89.6,0.2
40,1100031,2000,1322.0,851.2,,455.2,0.0,0.6,11.3,3.7
60,1100049,2000,3821.0,2311.3,,1477.7,0.0,0.0,26.2,5.8
80,1100056,2000,2805.0,731.3,,829.3,0.0,0.0,1244.4,0.0
...,...,...,...,...,...,...,...,...,...,...
15100,5108600,2000,7443.0,3039.4,,4206.9,0.0,0.0,186.8,9.9
15120,5108808,2000,1087.0,854.7,,231.7,0.0,0.0,0.0,0.6
15140,5108857,2000,1942.0,759.5,,618.5,0.0,0.2,563.8,0.0
15160,5108907,2000,11528.0,1677.7,,9155.7,0.0,0.9,685.5,8.2


In [None]:
nulos['ano'].unique() # vendo quais anos contém 'incremento' nulo

array([2000])

Assim, entendemos que incremento está nulo somente no primeiro ano representado na tabela, porque nesse ano não é possível calcular o valor de incremento de desmatamento em relação ao ano anterior. Então vamos observar quais anos estão presentes na tabela:

In [None]:
# contando a quantidade de vezes que cada ano aparece na tabela e ordenando por pelo index(ano)
prodes['ano'].value_counts().sort_index() 

2000    760
2001    760
2002    760
2003    760
2004    760
2005    760
2006    760
2007    760
2008    760
2009    760
2010    760
2011    760
2012    760
2013    760
2014    760
2015    760
2016    760
2017    760
2018    760
2019    760
Name: ano, dtype: int64

In [None]:
# contando a quantidade de municipios 
len(prodes['id_municipio'].unique())

760

A tabela abrange os dados do ano de 2000 até 2019, e os dados estão bem consistentes, com informação sobre os 760 municipios em todos os anos. Mas só com o código de municipio do IBGE não temos muito poder de análise, por isso vamos adicionar os nomes dos municípios e seus estados:

In [None]:
# carregando um conjunto de dados de municipios brasileiros, com nome, estado e código
municipios = pd.read_csv('https://raw.githubusercontent.com/augusto-herrmann/transparencia-dados-abertos-brasil/master/data/auxiliary/geographic/municipality.csv')
municipios.head()

Unnamed: 0,code,name,uf,dbpedia,dbpedia_pt,wikidata
0,1100015,Alta Floresta D'Oeste,RO,,,
1,1100023,Ariquemes,RO,http://dbpedia.org/resource/Ariquemes,http://pt.dbpedia.org/resource/Ariquemes,http://www.wikidata.org/entity/Q1646975
2,1100031,Cabixi,RO,,http://pt.dbpedia.org/resource/Cabixi,http://www.wikidata.org/entity/Q940433
3,1100049,Cacoal,RO,,http://pt.dbpedia.org/resource/Cacoal,http://www.wikidata.org/entity/Q1761637
4,1100056,Cerejeiras,RO,,http://pt.dbpedia.org/resource/Cerejeiras,http://www.wikidata.org/entity/Q1803210


In [None]:
# juntando a tabela que contém nomes e estados dos municipios com a tabela
# de desmatamento, através das colunas de código de município. 
prodes = prodes.merge(
    municipios[['name', 'uf', 'code']], 
    how='left', 
    left_on='id_municipio', 
    right_on='code'
    )

In [None]:
prodes.head()

Unnamed: 0,id_municipio,ano,area,desmatado,incremento,floresta,nuvem,nao_observado,nao_floresta,hidrografia,name,uf,code
0,1100015,2000,7137.0,1761.1,,3639.6,0.0,6.1,1708.0,22.2,Alta Floresta D'Oeste,RO,1100015
1,1100015,2001,7137.0,1834.2,73.1,3566.5,0.0,6.1,1708.0,22.2,Alta Floresta D'Oeste,RO,1100015
2,1100015,2002,7137.0,1948.9,114.7,3451.8,0.0,6.1,1708.0,22.2,Alta Floresta D'Oeste,RO,1100015
3,1100015,2003,7137.0,2014.9,66.0,3385.8,0.0,6.1,1708.0,22.2,Alta Floresta D'Oeste,RO,1100015
4,1100015,2004,7137.0,2092.0,77.1,3308.7,0.0,6.1,1708.0,22.2,Alta Floresta D'Oeste,RO,1100015


A coluna code foi usada somente pra relacionar as tabelas, podemos excluí-la.

In [None]:
prodes.drop('code', axis=1, inplace=True)

Feito o merge entre as tabelas, vamos conferir as novas colunas:

In [None]:
prodes.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 15200 entries, 0 to 15199
Data columns (total 12 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   id_municipio   15200 non-null  int64  
 1   ano            15200 non-null  int64  
 2   area           15200 non-null  float64
 3   desmatado      15200 non-null  float64
 4   incremento     14440 non-null  float64
 5   floresta       15200 non-null  float64
 6   nuvem          15200 non-null  float64
 7   nao_observado  15200 non-null  float64
 8   nao_floresta   15200 non-null  float64
 9   hidrografia    15200 non-null  float64
 10  name           15200 non-null  object 
 11  uf             15200 non-null  object 
dtypes: float64(8), int64(2), object(2)
memory usage: 1.5+ MB


Tudo certo, nenhum município ficou sem nome ou estado. Mas vamos renomear as novas colunas para nome mais explicativos:

In [None]:
prodes.rename(
    columns={'name': 'municipio', 'uf': 'estado'}, 
    inplace=True
    )

Com todas as colunas devidamente formatadas, podemos criar alguns campos calculados. Vamos criar campos normalizados, que representam: a proporção de desmatado em relação à área total de onde um dia foi uma floresta(desmatado / desmatado + floresta * 100); e a proporção de incremento em relação à floresta remanescente(incremento / incremento + floresta * 100) em cada ano; e a proporção do municipio coberto por nuvens em cada ano(nuvens / area * 100).

In [None]:
prodes['prop_desmatado'] = (
    prodes['desmatado'] / (
        prodes['desmatado'] + prodes['floresta']
        )
    ) * 100

prodes['prop_incremento'] = (
    prodes['incremento'] / (
        prodes['incremento'] + prodes['floresta']
        )
    ) * 100

prodes['prop_nuvem'] = (
    prodes['nuvem'] / prodes['area']
    ) * 100

In [None]:
prodes.to_csv('/content/drive/MyDrive/Resilia/prodes_desmatamento_com_prop.csv', index=False)

### **Pesquisa Agrícola Municipal (PAM)**

A pesquisa Produção Agrícola Municipal - PAM investiga, anualmente, os principais produtos das lavouras temporárias e permanentes do País, que se caracterizam não só pela grande importância econômica que possuem na pauta de exportações, como também por sua relevância social, componentes que são da cesta básica do brasileiro.

Com o lançamento deste informativo, o IBGE apresenta comentários gerais sobre os principais resultados da PAM relativos a 2018, contemplando informações sobre área plantada e/ou área destinada à colheita, área colhida, quantidade produzida, rendimento médio obtido e valor da produção dos produtos investigados, por Grandes Regiões, Unidades da Federação e Municípios. A análise enfoca o desempenho das lavouras de maior relevância, tanto produtiva como comercial, em que se destacam a distribuição espacial dos principais produtos agrícolas no território e sua participação relativa no valor total das produções regional e nacional, as colheitas obtidas nos principais municípios produtores, bem como os fatores de maior influência nos resultados e na produtividade dessas lavouras, entre outros aspectos.

fonte: https://basedosdados.org/dataset/br-ibge-pam

#### **Tabela:**  municipio_lavouras_temporarias

**Variáveis**
- ano: Ano	

- sigla_uf: Sigla da Unidade da Federação

- id_municipio: ID Município - IBGE 7 Dígitos	

- produto: Produto agrícola	

- area_plantada: Área utilizada para plantio, em hectares

- area_colhida: Área colhida, em hectares	

- quantidade_produzida: Quantidade total produzida, em toneladas	

- rendimento_medio: Rendimento médio do produto, em kg por hectare	

- valor_producao: Valor nominal total da produção, em reais

- prop_area_plantada: Proporção da área plantada em relação ao total da área plantada em lavouras temporárias do município

- prop_area_colhida: Proporção da área colhida em relação ao total da área colhida em lavouras temporárias do município	

- prop_valor_producao: Proporção do valor de produção em relação ao valor total de produção das lavouras temporárias do município

In [None]:
# # Para carregar o dado direto no pandas
# pam = bd.read_table(dataset_id='br_ibge_pam', 
#             table_id='municipio_lavouras_temporarias',
#             billing_project_id='lively-oxide-290601')

In [None]:
# pam[pam['ano'] >= 2000].to_csv('/content/drive/MyDrive/Resilia/pam_lavouras_temporarias.csv', index=False) 

In [None]:
pam = pd.read_csv('/content/drive/MyDrive/Resilia/pam_lavouras_temporarias.csv')

In [None]:
pam.shape

(3671580, 12)

In [None]:
pam.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3671580 entries, 0 to 3671579
Data columns (total 12 columns):
 #   Column                Dtype  
---  ------                -----  
 0   ano                   int64  
 1   sigla_uf              object 
 2   id_municipio          int64  
 3   produto               object 
 4   area_plantada         float64
 5   area_colhida          float64
 6   quantidade_produzida  float64
 7   rendimento_medio      float64
 8   valor_producao        float64
 9   prop_area_plantada    float64
 10  prop_area_colhida     float64
 11  prop_valor_producao   float64
dtypes: float64(8), int64(2), object(2)
memory usage: 336.1+ MB


In [None]:
pam['id_municipio'] = pam['id_municipio'].astype(int)

In [None]:
pam.head()

Unnamed: 0,ano,sigla_uf,id_municipio,produto,area_plantada,area_colhida,quantidade_produzida,rendimento_medio,valor_producao,prop_area_plantada,prop_area_colhida,prop_valor_producao
0,2001,AC,1200013,Abacaxi,2.0,2.0,36.0,18000.0,16.0,0.04,0.04,0.41
1,2001,AC,1200013,Alfafa fenada,,,,,,,,
2,2001,AC,1200013,Algodão herbáceo (em caroço),88.0,88.0,53.0,602.0,34.0,1.68,1.68,0.88
3,2001,AC,1200013,Alho,,,,,,,,
4,2001,AC,1200013,Amendoim (em casca),,,,,,,,


### Pesquisa Pecuária Municipal (PPM)
A Pesquisa da Pecuária Municipal - PPM teve início no Ministério da Agricultura em 1945. Suas informações eram levantadas pela Rede de Coleta do IBGE, cabendo ao Ministério a elaboração dos questionários, a apuração, a crítica e a divulgação dos resultados. Com a publicação do Decreto n. 73.482, de 17.01.1974, o Instituto tornou-se responsável por todas as fases da pesquisa a partir daquela data, bem como pelos demais inquéritos estatísticos relacionados ao setor agropecuário. As estatísticas relativas aos anos de 1971 e 1972, porém, não estão disponíveis por não terem sido divulgadas pelo Ministério. Até 1980, as variáveis investigadas eram, basicamente, a quantidade de animais existentes em 31.12, a produção dos principais produtos primários da pecuária e o preço médio anual unitário. Em 1981 e 1989, ocorreram modificações no questionário da pesquisa visando o aprimoramento de seu escopo. Em 2013, além de outros aprimoramentos realizados no questionário, passou a ser investigada, também, a produção da aquicultura, fruto de acordo entre o IBGE e o Ministério da Pesca e Aquicultura. A produção de peixes, camarões e moluscos, alevinos de peixes, larvas de camarão, sementes de moluscos, bem como o valor da produção de outros animais (rã, jacaré etc.) foram, assim, introduzidos no âmbito da PPM.

A pesquisa fornece informações sobre os efetivos da pecuária existentes no município na data de referência do levantamento, bem como a produção de origem animal, e o valor da produção durante o ano de referência. Os efetivos incluem bovinos, suínos, matrizes de suínos, galináceos, galinhas, codornas, equinos, bubalinos, caprinos e ovinos. A produção de origem animal, por sua vez, contempla a produção de leite, ovos de galinha, ovos de codorna, mel, lã bruta e casulos do bicho-da-seda; as quantidades de vacas ordenhadas e ovinos tosquiados; e a aquicultura, que engloba as produções da piscicultura, carcinocultura e malacocultura.

fonte: https://basedosdados.org/dataset/br-ibge-ppm

#### Tabela: rebanhos_efetivos
**Variáveis**
- id_municipio: ID Município IBGE - 7 Dígitos
- ano: Ano
- tipo_rebanho: Tipo de Rebanho
- quantidade_animais: Quantidade de Animais

In [None]:
# ppm = bd.read_table(dataset_id='br_ibge_ppm', 
#             table_id='efetivo_rebanhos',
#             billing_project_id='lively-oxide-290601')

Please visit this URL to authorize this application: https://accounts.google.com/o/oauth2/auth?response_type=code&client_id=262006177488-3425ks60hkk80fssi9vpohv88g6q1iqd.apps.googleusercontent.com&redirect_uri=urn%3Aietf%3Awg%3Aoauth%3A2.0%3Aoob&scope=https%3A%2F%2Fwww.googleapis.com%2Fauth%2Fcloud-platform&state=Va4LSVXQQWOOpc6gPUzDyRHHWwbSXL&prompt=consent&access_type=offline
Enter the authorization code: 4/1AX4XfWghNVn5BKkPVx0wOpFbwGIoPfGvpvo1RAYA6N6bv6u38BaLKwINLD4


Downloading: 100%|██████████| 2560820/2560820 [00:02<00:00, 989981.12rows/s]


In [None]:
# ppm['ano'].unique()

array([1974, 1975, 1976, 1977, 1978, 1979, 1980, 1981, 1982, 1983, 1984,
       1985, 1986, 1987, 1988, 1989, 1990, 1991, 1992, 1993, 1994, 1995,
       1996, 1997, 1998, 1999, 2000, 2001, 2002, 2003, 2004, 2005, 2006,
       2007, 2008, 2009, 2010, 2011, 2012, 2013, 2014, 2015, 2016, 2017,
       2018, 2019])

In [None]:
# ppm[ppm['ano'] >= 2000].to_csv('/content/drive/MyDrive/Resilia/ppm_efetivo_rebanhos.csv', index=False)

In [None]:
ppm = pd.read_csv('/content/drive/MyDrive/Resilia/ppm_efetivo_rebanhos.csv')

In [None]:
ppm.head()

Unnamed: 0,id_municipio,ano,tipo_rebanho,quantidade_animais
0,1100015,2000,Ovino,2311.0
1,1100023,2000,Ovino,1928.0
2,1100031,2000,Ovino,2039.0
3,1100049,2000,Ovino,3887.0
4,1100056,2000,Ovino,827.0


In [None]:
ppm.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 1113400 entries, 0 to 1113399
Data columns (total 5 columns):
 #   Column                Non-Null Count    Dtype  
---  ------                --------------    -----  
 0   id_municipio          1113400 non-null  int64  
 1   ano                   1113400 non-null  int64  
 2   tipo_rebanho          1113400 non-null  object 
 3   quantidade_animais_x  858302 non-null   float64
 4   quantidade_animais_y  1105340 non-null  float64
dtypes: float64(2), int64(2), object(1)
memory usage: 51.0+ MB


Esse dataset não tem a proporção de cada tipo de rebanho, assim como no dataset de lavouras temporárias. Por isso vamos criar campos calculados com a quantidade cada tipo de animal normalizada para a porcentagem de cada animal nos municípios. 

In [None]:
quantidade_porcen = (
    ppm
    .groupby(['ano', 'id_municipio', 'tipo_rebanho'])
    .sum()
    .groupby(level=[0,1])
    .apply(lambda x: (x / x.sum()) * 100)
)

In [None]:
quantidade_porcen.head(10)

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,quantidade_animais
ano,id_municipio,tipo_rebanho,Unnamed: 3_level_1
2000,1100015,Bovino,38.340451
2000,1100015,Bubalino,0.041204
2000,1100015,Caprino,0.161215
2000,1100015,Codornas,0.0
2000,1100015,Equino,0.833075
2000,1100015,Galináceos - galinhas,17.305558
2000,1100015,Galináceos - total,38.319449
2000,1100015,Ovino,0.462242
2000,1100015,Suíno - matrizes de suínos,0.0
2000,1100015,Suíno - total,4.536808


Feita a agregação para calcular a proporção de cada tipo de rebanhos, vamos juntar esses valores com o dataset base.

In [None]:
ppm = ppm.merge(quantidade_porcen, on=['ano',  'id_municipio', 'tipo_rebanho'])

In [None]:
ppm.head(10)

Unnamed: 0,id_municipio,ano,tipo_rebanho,quantidade_animais_x,quantidade_animais_y
0,1100015,2000,Ovino,2311.0,0.462242
1,1100023,2000,Ovino,1928.0,0.410477
2,1100031,2000,Ovino,2039.0,1.088419
3,1100049,2000,Ovino,3887.0,0.377999
4,1100056,2000,Ovino,827.0,0.434659
5,1100064,2000,Ovino,4320.0,1.691676
6,1100072,2000,Ovino,725.0,0.218046
7,1100080,2000,Ovino,506.0,1.504162
8,1100098,2000,Ovino,1507.0,0.330751
9,1100106,2000,Ovino,2271.0,1.128217


Agora vamos renomear as colunas para que sejam explícitas.

In [None]:
ppm.rename(columns={'quantidade_animais_x': 'quantidade_animais', 'quantidade_animais_y':  'prop_quantidade_animais'})

Unnamed: 0,id_municipio,ano,tipo_rebanho,quantidade_animais,prop_quantidade_animais
0,1100015,2000,Ovino,2311.0,0.462242
1,1100023,2000,Ovino,1928.0,0.410477
2,1100031,2000,Ovino,2039.0,1.088419
3,1100049,2000,Ovino,3887.0,0.377999
4,1100056,2000,Ovino,827.0,0.434659
...,...,...,...,...,...
1113395,5222005,2019,Suíno - matrizes de suínos,550.0,0.484389
1113396,5222054,2019,Suíno - matrizes de suínos,400.0,1.093643
1113397,5222203,2019,Suíno - matrizes de suínos,19.0,0.033792
1113398,5222302,2019,Suíno - matrizes de suínos,110.0,0.079395


Pronto, agora podemos exportar os csv para carregar no tableau.

In [None]:
ppm.to_csv('/content/drive/MyDrive/Resilia/ppm_rebanhos_efetivos_com_prop.csv', index=False)