Pare esse exercício serão disponibilizados três arquivos: ***amazonas.csv*** que contém dados históricos de desflorestamento nos municipios do Amazonas no ano de 2014, ***estados.csv*** que contém uma lista com o nome, uf e codigo dos estados brasileiros e ***municipios.csv*** que contém o nome de todos os municípios brasileiros e suas respectivas localizações no globo (longitude e latitude).

O objetivo do exercício é gerar um relatório sobre o desflorestamento nos municípios do Amazonas com a visualização dos dados sobre o mapa do Brasil.
Para isso será necessário relacionar ambas as três tabelas de forma que seja associado a posição geográfica (longitude e latitude) dos municípios aos dados de desflorestamento.


In [1]:
import matplotlib.pyplot as plt
import pandas as pd
import numpy as np
#biblioteca para plotar no mapa
import mplleaflet

In [2]:
# Aditional packages
import os

In [31]:
# Important directories and other constants
DATA_DIR = 'data'
AMAZONAS = 'amazonas.csv'
STATES = 'estados.csv'
CITIES = 'municipios.csv'

DESFLORESTAMENTO = 'Desflorestamento Relativo'
MINERACAO = 'Mineração'
SCALE_FACTOR = 30 # empiric scale factor

In [4]:
#começaremos importando todas as tabelas
df_amazonas = pd.read_csv(os.path.join(DATA_DIR, AMAZONAS))
df_states = pd.read_csv(os.path.join(DATA_DIR, STATES))
df_cities = pd.read_csv(os.path.join(DATA_DIR, CITIES))

Vamos da uma olhada no jeito de cada tabela

In [5]:
df_amazonas.head()

Unnamed: 0,Municípios,Agricultura Anual,Área não Observada,Área Urbana,Desflorestamento 2014,Floresta,Hidrografia,Mineração,Mosaico de Ocupações,Não Floresta,Outros,Pasto com Solo Exposto,Pasto Limpo,Pasto Sujo,Reflorestamento,Regeneração com Pasto,Vegetação Secundária,Total Geral
0,Alvaraes,,0.07,1.9,2.75,5415.56,133.87,,101.08,43.26,5.36,,2.92,1.02,,5.13,198.55,5911.46
1,Amatura,,,2.05,0.36,4220.22,209.41,,15.87,216.55,3.76,,4.03,,,11.44,71.74,4755.42
2,Anama,,0.86,0.89,0.44,2001.85,229.3,,6.9,34.81,13.11,,2.02,0.87,,,160.61,2451.66
3,Anori,,0.15,2.77,0.59,4646.53,436.07,,17.12,636.01,4.7,,8.05,0.52,,,41.98,5794.49
4,Apui,,6.71,5.91,80.19,51396.43,213.5,,8.76,622.87,7.18,,812.61,329.85,,208.13,546.18,54238.32


In [6]:
df_states.head()

Unnamed: 0,codigo_uf,uf,nome
0,11,RO,Rondônia
1,12,AC,Acre
2,13,AM,Amazonas
3,14,RR,Roraima
4,15,PA,Pará


In [7]:
df_cities.head()

Unnamed: 0,codigo_ibge,nome,latitude,longitude,capital,codigo_uf
0,5200050,Abadia de Goiás,-16.7573,-49.4412,0,52
1,3100104,Abadia dos Dourados,-18.4831,-47.3916,0,31
2,5200100,Abadiânia,-16.197,-48.7057,0,52
3,3100203,Abaeté,-19.1551,-45.4444,0,31
4,1500107,Abaetetuba,-1.72183,-48.8788,0,15


Apos carregar os dados devemos associar as tabelas de estados e municípios e selecionar apenas os municípios do Amazonas

Note que nos dados provenientes da tabela ***municipios.csv*** o nome dos municípios estão todos acentuados, no entanto na tabela amazonas os nomes estão sem acento. Logo é necessario remover os acentos dos nomes da tabela ***municipios.csv***.

In [8]:
from unicodedata import normalize
# use esta funçao para remover acentos
def remove_acentos_python3(txt):
    return str(normalize('NFKD', txt).encode('ASCII', 'ignore'), 'utf-8')
def remove_acentos_python2(txt):
    return normalize('NFKD', txt.decode('utf-8')).encode('ASCII', 'ignore')

# ex
print(remove_acentos_python3("Olá!")) #change to python3, the one I'm using

Ola!


In [9]:
df_cities['nome'] = df_cities['nome'].apply(remove_acentos_python3)

In [10]:
df_cities.head()

Unnamed: 0,codigo_ibge,nome,latitude,longitude,capital,codigo_uf
0,5200050,Abadia de Goias,-16.7573,-49.4412,0,52
1,3100104,Abadia dos Dourados,-18.4831,-47.3916,0,31
2,5200100,Abadiania,-16.197,-48.7057,0,52
3,3100203,Abaete,-19.1551,-45.4444,0,31
4,1500107,Abaetetuba,-1.72183,-48.8788,0,15


Em seguida relacione as tabelas municipios e amazonas.

In [11]:
# rename column "name", because we already have a "name" column in df_cities
df_states.rename(columns={'nome': 'estado'}, inplace=True)
df_states.head()

Unnamed: 0,codigo_uf,uf,estado
0,11,RO,Rondônia
1,12,AC,Acre
2,13,AM,Amazonas
3,14,RR,Roraima
4,15,PA,Pará


In [12]:
df_brazil = df_cities.merge(df_states, how='left', on=['codigo_uf'])

In [13]:
print('Dimensões antigas:', df_cities.shape, 'Dimensões novas:', df_brazil.shape)
df_brazil.head()

Dimensões antigas: (5570, 6) Dimensões novas: (5570, 8)


Unnamed: 0,codigo_ibge,nome,latitude,longitude,capital,codigo_uf,uf,estado
0,5200050,Abadia de Goias,-16.7573,-49.4412,0,52,GO,Goiás
1,3100104,Abadia dos Dourados,-18.4831,-47.3916,0,31,MG,Minas Gerais
2,5200100,Abadiania,-16.197,-48.7057,0,52,GO,Goiás
3,3100203,Abaete,-19.1551,-45.4444,0,31,MG,Minas Gerais
4,1500107,Abaetetuba,-1.72183,-48.8788,0,15,PA,Pará


In [14]:
df_cities_amazonas = df_brazil[df_brazil['uf'] == 'AM']

In [15]:
print('Dimensões df_amazonas:', df_amazonas.shape, 'Dimensões df_cities_amazonas:', df_cities_amazonas.shape)

Dimensões df_amazonas: (62, 18) Dimensões df_cities_amazonas: (62, 8)


In [16]:
df_forest = df_amazonas.merge(df_cities_amazonas, left_on='Municípios', right_on='nome')
print('Dimensões dataframe Amazonas completo:', df_forest.shape)

Dimensões dataframe Amazonas completo: (62, 26)


### Questão


Plote no mapa do Brasil indicadores  de desflorestamento para todos os municipios do amazonas.
Os indicadores devem ser relativos ao tamanho da floresta de cada município dando destaque aos municipios que com desflorestamento acima da média.

#### Dica

O desflorestamento relativo é dado pelas colunas ***Desflorestamento 2014*** / ***Floresta*** da tabela ***amazonas.csv***.
Note que a coluna ***Floresta*** não é numérica e contém ',' separando os milhares, sendo necessário remover a ',' de todas as entradas e logo após converter os valores para float.

Podem ser usadas todas as dicas relevantes sobre apresentação de figuras  nos textos *Making Data Meaningful* e *Ten Simple Rules for Better Figures*.

Para plotar sobre o mapa, pode-se usar a funções normais do matplotlib e ao fim chamar a função **mplleaflet.display()**.

In [28]:
def str_to_float(number):
    return float(number.replace(',', '')) if(isinstance(number, str)) else number

def test_str_tofloat():
    tests = ['98', '7,900', '876.2', '12,986.91']
    gt = [98, 7900, 876.2, 12986.91]
    for i, n in enumerate(tests):
        if str_to_float(n) != gt[i]:
            print('FAIL! Expected: ', i, 'Got:', str_to_float(n))
            return
    print('str_to_float working!')
test_str_tofloat()
    

str_to_float working!


In [29]:
#calcula as informações do desflorestamento
df_forest['Floresta'] = df_forest['Floresta'].apply(str_to_float)
df_forest[DESFLORESTAMENTO] = df_forest['Desflorestamento 2014']/df_forest['Floresta']

In [19]:
print(list(df_forest[DESFLORESTAMENTO]))

[2.75, 0.36, 0.44, 0.59, 80.19, 0.7, 8.35, 1.91, 4.46, 0.31, 2.29, 1.01, 71.96, 1.44, 0.76, 16.62, 1.05, 0.53, 2.71, 3.25, 2.98, 2.4, 7.45, 1.0, 1.12, 13.95, 1.07, 2.24, 5.54, 2.45, 0.81, 0.97, 1.81, 1.61, 130.13, 3.04, 0.14, 2.11, 29.78, 1.68, 13.87, 2.32, 1.14, 0.86, 22.55, 4.24, 9.47, 6.21, 1.11, 0.91, 0.8, 1.82, 1.0, 3.78, 0.54, 1.72, 2.99, 8.79, 0.36, 3.46, 1.45, 0.62]


### Fator de Escala
Para representar as cidades no mapa com indicadores relativos ao tamanho da floresta, optou-se por representar municípios com grandes áreas de floresta por pontos maiores e municípios com pequenas áreas de florestas por pontos menores. 

Para que essa informação se adeque ao tamanho do mapa e preserve a diferença proporcional entre os municípios, aplica-se um **fator de escala** determinado empíricamente.

In [30]:
#codigo de plot
plt.figure(figsize=(8,8))

#plt.plot(df_forest['longitude'], df_forest['latitude'], 'o', s=df_forest['Floresta'])
plt.scatter(df_forest['longitude'], df_forest['latitude'],  
            s=df_forest['Floresta']/SCALE_FACTOR,
            c = df_forest[DESFLORESTAMENTO],
            cmap='bwr')

#transforma o plot em localizações no mapa
mplleaflet.display()



### Questão


Segundo os dados, a mineração nos municípios tem alguma relação com o desflorestamento acima da média?
Mostre suas conclusões por tabelas e plots no mapa.

In [32]:
#calcula as relaçoes entre desflorestamento e mineração
print(list(df_forest[MINERACAO]))

[nan, nan, nan, nan, nan, nan, nan, 0.01, nan, nan, nan, nan, 1.9, nan, 0.01, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, 0.39, 0.03, nan, nan, nan, nan, nan, 2.25, 0.86, nan, 16.89, nan, nan, 6.7, nan, nan, nan, 10.85, nan, nan, 1.48, 0.88, nan, nan, nan, nan, 0.14, nan, nan, nan, nan, nan, nan, 1.78, 0.03]


In [33]:
df_forest[MINERACAO].fillna(0, inplace=True)
df_forest.head()

Unnamed: 0,Municípios,Agricultura Anual,Área não Observada,Área Urbana,Desflorestamento 2014,Floresta,Hidrografia,Mineração,Mosaico de Ocupações,Não Floresta,...,Total Geral,codigo_ibge,nome,latitude,longitude,capital,codigo_uf,uf,estado,Desflorestamento Relativo
0,Alvaraes,,0.07,1.9,2.75,5415.56,133.87,,101.08,43.26,...,5911.46,1300029,Alvaraes,-3.22727,-64.8007,0,13,AM,Amazonas,0.000508
1,Amatura,,,2.05,0.36,4220.22,209.41,,15.87,216.55,...,4755.42,1300060,Amatura,-3.37455,-68.2005,0,13,AM,Amazonas,8.5e-05
2,Anama,,0.86,0.89,0.44,2001.85,229.3,,6.9,34.81,...,2451.66,1300086,Anama,-3.56697,-61.3963,0,13,AM,Amazonas,0.00022
3,Anori,,0.15,2.77,0.59,4646.53,436.07,,17.12,636.01,...,5794.49,1300102,Anori,-3.74603,-61.6575,0,13,AM,Amazonas,0.000127
4,Apui,,6.71,5.91,80.19,51396.43,213.5,,8.76,622.87,...,54238.32,1300144,Apui,-7.19409,-59.896,0,13,AM,Amazonas,0.00156


In [134]:
# conclusoes sobre mineração e desflorestamento


In [24]:
#codigo de plot
plt.figure(figsize=(8,8))



#transforma o plot em localizações no mapa
mplleaflet.display()