<a href="https://colab.research.google.com/github/afdmoraes/GEOSelper/blob/main/Notebook-16_Semana_5_Aula_3_GeoPandas.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Curso de Programação para Sensoriamento Remoto
---

* Gilberto Ribeiro de Queiroz
* Thales Sehn Körting

## Tópicos desta aula

* Manipulação de dados vetoriais com a biblioteca `GeoPandas`



# GeoPandas

Atualmente existem inúmeros formatos para codificação de dados geoespaciais vetoriais: `GeoJSON`, `GML`, `KML`, `ESRI Shapefile`, `Geomedia`, `Atlas BNA`, entre outros. Além desses formatos de arquivo ainda encontramos dados geoespaciais armazenados e gerenciados por Sistemas Gerenciadores de Bancos de Dados (SGBD) como `MySQL`, `PostgreSQL`, `IBM DB2`, `Oracle` e `Microsoft SQL Server`. Uma forte tendência é a disponibilização de dados através de serviços Web, como o ``OGC WFS`` (*Web Feature Service*). Por conta disso, é importante usarmos tecnologias que nos abstraiam ao máximo dos detalhes de cada um desses formatos e sistemas.

<br/>

O [GeoPandas](https://geopandas.org/) é uma biblioteca que adiciona ao `Pandas` suporte a objetos geográficos e que permite realizar a leitura e escrita de dados vetoriais. Ele possui facilidades para tratar colunas com dados geométricos, incluindo operações espaciais e criação de mapas para visualização. Os tipos geométricos são suportados através da biblioteca [Shapely](https://github.com/Toblerity/Shapely) e o acesso a dados é realizado através da biblioteca [Fiona](http://toblerity.org/fiona). A visualização apoia-se na `Matplotlib` e na biblioteca `Descartes`.

<br/>

As duas estruturas fornecidas por esta biblioteca são:

- `GeoSeries`: um vetor contendo uma representação geométrica em conformidade com os tipos da *OGC Simple Feature*: `Point`, `LineString`, `Polygon`, `MultiPoint`, `MultiLineString`, `MultiPolygon`. Essa estrutura possui as mesmas operações da classe `Series` do `Pandas` além de operações espaciais como cálculo de área, perímetro, distâncias, relacionamentos espaciais, operações de conjunto (união, intersecção, diferença), *buffer*, entre outras, todas suportadas pela `Shapely`.

|     |  Localizacao              |
|-----|---------------------------|
| 0   | POINT (-47.607 -5.673)    |
| 1   | POINT (-47.606 -5.581)    |
| 2   | POINT (-47.734 -5.562)    |
| 3   | POINT (-47.605 -5.58)     |
| 4   | POINT (-47.606 -5.677)    |

<br/>

- `GeoDataFrame`: `DataFrame` com uma coluna geométrica.

|   |  municipio              | estado    | regiao | pais   | satelite | bioma   | timestamp           | satelite_r | geometry               |
|---|-------------------------|-----------|--------|--------|----------|--------|---------------------|------------|------------------------|
| 0 | Sítio Novo Do Tocantins | Tocantins | N      | Brazil | NPP_375  | Cerrado | 2016/02/12 17:05:45 | f          | POINT (-47.607 -5.673) |
| 1 | Sítio Novo Do Tocantins | Tocantins | N      | Brazil | NPP_375  | Cerrado | 2016/07/17 04:00:00 | f          | POINT (-47.606 -5.581) |
| 2 | Sítio Novo Do Tocantins | Tocantins | N      | Brazil | AQUA_M-T | Cerrado | 2016/01/15 16:40:14 | t          | POINT (-47.734 -5.562) |
| 3 | Sítio Novo Do Tocantins | Tocantins | N      | Brazil | NPP_375  | Cerrado | 2016/01/15 16:40:14 | t          | POINT (-47.605 -5.58)  |
| 4 | Sítio Novo Do Tocantins | Tocantins | N      | Brazil | NPP_375  | Cerrado | 2016/02/12 17:05:45 | f          | POINT (-47.606 -5.677) |

# Dados de Entrada

Para explorar as funcionalidades do `GeoPandas` serão utilizados os seguintes conjuntos de dados geográficos:

- [Focos de Queimada 2017](https://drive.google.com/file/d/1YMr53fqUbbQJHGT1_UC9s0u5CJnJqOn7/view?usp=sharing) (**Figura 6a**): conjunto de pontos extraídos a partir do [Banco de Dados de Queimadas](http://queimadas.dgi.inpe.br/queimadas/bdqueimadas>) (Fonte original: INPE).


- [Malha das Unidades Federativas - 2017](https://drive.google.com/file/d/1P1eA1cBRnw8clyRLJBvff3tZZ7e-z9l7/view?usp=sharing) (**Figura 6b**): conjunto de feições com elementos geométricos do tipo polígono (Fonte: IBGE).

- [Malha Municipal - 2017](https://drive.google.com/file/d/1OXPz8pKQY4BIxi3zuz33pcu82dzOpkhe/view?usp=sharing) (**Figura 6c**): conjunto de feições com elementos geométricos do tipo polígono (Fonte: IBGE).

- [Biomas](https://drive.google.com/file/d/1C5oF4DsqwRWXzM2Z7P5gTWLh94s_JtwG/view?usp=sharing): mapa com os polígonos dos biomas brasileiros (Fonte: IBGE).

<br/>

<center><img src="https://drive.google.com/uc?id=1qFNm-2oBg9hiYcSjUVkXn3e6LcKu2iS8" width="640"></center>

<center><b>Figura 6</b> - Conjuntos de dados usados nesta seção.</center>

<br/>

**Atenção:** Os dados de focos foram modificados para o propósito da aula e, portanto, se necessário o acesso aos dados oficiais, utilize as ferramentas de extração do [Banco de Dados de Queimadas](http://queimadas.dgi.inpe.br/queimadas/bdqueimadas) disponível no site do INPE.

<br/>

Os arquivos encontram-se no formato `ESRI Shapfile`. Estes arquivos podem ser carregados em um ``SIG`` como o QGIS ou TerraView (**Figura 7**). Neste caso, cada *shapefile* será carregado na forma de uma camada (ou mapa). Um mapa é uma representação, em escala, de uma seleção de entidades abstratas relacionadas com a superfície da Terra. Na imagem abaixo é apresentada a visualização dos dados no TerraView. Note que cada conjunto de dados foi carregado como uma camada (canto superior esquerdo).

<br/>

<center><img src="https://drive.google.com/uc?id=13INqgcmknB0qaOZD4bbvZeiVKPAHOzOq" width="640"></center>

<center><b>Figura 7</b> - Visualização integrada dos dados na interface gráfica do aplicativo TerraView.</center>

# Instalando o GeoPandas

Para utilizar a biblioteca `GeoPandas` no Google Colab, teremos que instalar esta biblioteca primeiro. Para isso, utilizaremos o `pip`, que é um utilitário que permite instalar os pacotes Python. O comando abaixo deverá instalar o `GeoPandas` e algumas bibliotecas auxiliares utilizadas por ele:


In [None]:
!apt install libspatialindex-dev
!pip install rtree

Reading package lists... Done
Building dependency tree       
Reading state information... Done
The following additional packages will be installed:
  libspatialindex-c4v5 libspatialindex4v5
The following NEW packages will be installed:
  libspatialindex-c4v5 libspatialindex-dev libspatialindex4v5
0 upgraded, 3 newly installed, 0 to remove and 30 not upgraded.
Need to get 555 kB of archives.
After this operation, 3,308 kB of additional disk space will be used.
Get:1 http://archive.ubuntu.com/ubuntu bionic/universe amd64 libspatialindex4v5 amd64 1.8.5-5 [219 kB]
Get:2 http://archive.ubuntu.com/ubuntu bionic/universe amd64 libspatialindex-c4v5 amd64 1.8.5-5 [51.7 kB]
Get:3 http://archive.ubuntu.com/ubuntu bionic/universe amd64 libspatialindex-dev amd64 1.8.5-5 [285 kB]
Fetched 555 kB in 0s (4,511 kB/s)
Selecting previously unselected package libspatialindex4v5:amd64.
(Reading database ... 160980 files and directories currently installed.)
Preparing to unpack .../libspatialindex4v5_1.8.5-

In [None]:
!pip install --upgrade geopandas

Collecting geopandas
[?25l  Downloading https://files.pythonhosted.org/packages/d7/bf/e9cefb69d39155d122b6ddca53893b61535fa6ffdad70bf5ef708977f53f/geopandas-0.9.0-py2.py3-none-any.whl (994kB)
[K     |████████████████████████████████| 1.0MB 13.6MB/s 
[?25hCollecting pyproj>=2.2.0
[?25l  Downloading https://files.pythonhosted.org/packages/b1/72/d52e9ca81caef056062d71991b0e9b1d16af042245627c5d0e4916a36c4f/pyproj-3.0.1-cp37-cp37m-manylinux2010_x86_64.whl (6.5MB)
[K     |████████████████████████████████| 6.5MB 33.8MB/s 
[?25hCollecting fiona>=1.8
[?25l  Downloading https://files.pythonhosted.org/packages/47/c2/67d1d0acbaaee3b03e5e22e3b96c33219cb5dd392531c9ff9cee7c2eb3e4/Fiona-1.8.18-cp37-cp37m-manylinux1_x86_64.whl (14.8MB)
[K     |████████████████████████████████| 14.8MB 283kB/s 
Collecting munch
  Downloading https://files.pythonhosted.org/packages/cc/ab/85d8da5c9a45e072301beb37ad7f833cd344e04c817d97e0cc75681d248f/munch-2.5.0-py2.py3-none-any.whl
Collecting cligj>=0.5
  Downloadin

In [None]:
!pip install --upgrade mapclassify

Collecting mapclassify
  Downloading https://files.pythonhosted.org/packages/22/8e/d968c0945d41bb02de0efaa92e31e43a817dc52d30e82b4dfdda407a1903/mapclassify-2.4.2-py3-none-any.whl
Installing collected packages: mapclassify
Successfully installed mapclassify-2.4.2


# Importando o Pandas

Por convenção importamos as funcionalidades do `GeoPandas` da seguinte forma:

In [None]:
%matplotlib inline

import geopandas as gpd

Verifique a sua versão usada com o seguinte comando:

In [None]:
gpd.__version__

'0.9.0'

# Copie os arquivos para o Google Colab

**1.** Descompacte os arquivos indicados na `Seção Dados de Entrada` no seu disco local.

<br/>

**2.** Na sua área de dados do Colab, crie as seguintes pastas:

* focos_2017
* biomas
* br_municipios
* br_unidades_da_federacao

**Atenção:** Não inclua acentos ou caracteres especiais nos nomes das pastas.

Após esse passo, você obterá uma estrutura similar à indicada na **Figura 8**.



<center><img src="https://drive.google.com/uc?id=1xSDE9TiwKscVoOhi1EKDOhk2T2LKYoSp" width="360"></center>

<center><b>Figura 8</b> - Pasta do Google Colab</center>

</br>

**3.** Copie os arquivos que compõe cada conjunto de ESRI Shapefile para as respectivas pastas.

<br/>

A **Figura 9** mostra como ficará um desses diretórios, o de municípios.

<center><img src="https://drive.google.com/uc?id=10iXBqyi4laP9CtE94jXblK3R37JMXL2e" width="360"></center>

<center><b>Figura 9</b> - Pasta br_municipios e os arquivos que compoẽm o conjunto <i>shapefile</i>.</center>

# Abertura de Arquivos `ESRI Shapefile`

Para abrir um arquivo `ESRI Shapefile` e associar os dados a um `GeoDataFrame` basta utilizar a função `read_file`, como mostrado a seguir:

In [None]:
focos = gpd.read_file('./focos_2017/focos_2017.shp', encoding='utf-8')

O comando acima irá criar um ``GeoDataFrame`` associado ao identificador `focos`.

<br/>

Podemos apresentar as primeiras linhas do `GeoDataFrame` através do método `head()`:

In [None]:
focos.head()

Para saber o número de focos carregados no `GeoDataFrame`, podemos utilizar a função interna do Python `len`, como fizemos para os tipos `lista` e `tupla`:

In [None]:
len(focos)

Podemos descobrir os tipos de dados das colunas do `GeoDataFrame` através do atributo `dtypes`:

In [None]:
focos.dtypes

# Visualizando dados na forma de mapas

Podemos visualizar os focos de queimada em um mapa utilizando a operação `plot` do `GeoDataFrame`:

In [None]:
focos.plot(marker='x', color='red', markersize=5, figsize=(10, 10));

O `GeoPandas` utiliza a `Matplotlib` para construção das visualizações e possui diversas facilidades para construção de mapas.

# Explorando o Conjunto de Dados de Focos

### **Q1.** Visualizar os focos de queimada do Estado de Minas Gerais.

O `operador []` permite selecionarmos apenas as linhas contendo focos do Estado de Minas Gerais. Assim, podemos criar um novo `GeoDataFrame` chamado `focos_mg`:

In [None]:
focos_mg = focos[focos.uf == 'MINAS GERAIS']

Em seguida, podemos utilizar a operação `plot` para desenhar as geometrias desse novo `GeoDataFrame`:

In [None]:
focos_mg.plot(marker='x', color='red', markersize=5, figsize=(20, 10));

### **Q2.**  Visualizar os focos de queimada do Estado de Minas Gerais no mês de novembro.

Podemos alterar o formato de uma coluna contendo um texto (string) no formato `data-hora` para uma coluna do tipo `datetime` do `Python` para facilitar a manipulação dos dados desta coluna. Vamos fazer isso com a coluna `data_obser`:

In [None]:
import pandas as pd

focos['data_obser'] = pd.to_datetime(focos['data_obser'])

In [None]:
focos.dtypes

Repare que agora a coluna `data_obser` é do tipo `datetime64`, que nos permitirá utilizar operações de data e hora nesta coluna.

<br/>

Agora, podemos realizar novamente a filtragem dos dados:

In [None]:
focos_mg = focos[focos.uf == 'MINAS GERAIS']

focos_mg_nov = focos_mg[focos_mg.data_obser.dt.month == 11]

Finalmente, podemos criar o mapa:

In [None]:
focos_mg_nov.plot(marker='x', color='red', markersize=5, figsize=(20, 10));

### **Q3.**  Adicionar o limite do Estado de Minas Gerais ao mapa criado em *Q2*.

Vamos criar um novo `GeoDataFrame` a partir do arquivo `BRUFE250GC_SIR.shp`:

In [None]:
uf = gpd.read_file('./br_unidades_da_federacao/BRUFE250GC_SIR.shp', encoding='utf-8')

In [None]:
uf.head()

In [None]:
uf.plot(column='NM_ESTADO', legend=True, figsize=(20, 20))

Podemos agora selecionar a feição do Estado de Minas Gerais no `GeoDataFrame` `uf` e criar um `plot` e, em seguida, podemos reutilizar a mesma área de desenho (`ax`) para plotar os focos:


In [None]:
ax = uf[uf.NM_ESTADO == 'MINAS GERAIS'].plot(color='white', edgecolor='k')

focos_mg_nov.plot(ax=ax, marker='x', color='red', markersize=5)

### **Q4.**  Qual a distribuição dos focos ao longo dos meses do ano em 2017?

Para responder esta pergunta podemos utilizar o operador de agregação (sumarização) `groupby`, disponível em um `DataFrame`.

<br/>

Neste caso, precisaremos informar:

* O critério da agregação: a parte contendo o número do mês na coluna com a data e hora da detecção do foco (coluna `data_obser`).

* Utilizar uma das colunas para realizar a contagem através do operador `count`.


In [None]:
focos_mes = focos.groupby(focos.data_obser.dt.month).uf.count()

focos_mes

O objeto `focos_mes` retornado na operação acima corresponde a um `pandas.core.series.Series`:

In [None]:
type(focos_mes)

Na saída acima podemos notar o seguinte:

* O nome da série é ``uf``, por conta da coluna usada para realizar a contagem.

* Os índices da série correspondem aos índices numéricos dos meses do ano.

<br/>

Podemos re-indexar a série pelo nome do mês do ano. Para isso, podemos construir uma função `lambda` e aplicá-la através do operador `map` a cada um dos valores numéricos do índice do ano. Para transformar o mês do ano em um nome, utilizaremos o módulo `calendar` da biblioteca padrão do Python.

In [None]:
import calendar

novo_indice = map(lambda v : calendar.month_abbr[v], focos_mes.index)

l = list(novo_indice)

l

Agora podemos construir explicitamente a nova série através do construtor `pd.Series`:

In [None]:
focos_mes = pd.Series(data=focos_mes.values, index=l)

focos_mes

Podemos também ajustar o nome da série e o rótulo do índice:

In [None]:
focos_mes.name= 'Número Focos/Mês'

focos_mes.index.name='mes'

focos_mes

Podemos apresentar um gráfico de barras com o total de focos por mês:

In [None]:
focos_mes.plot.bar(legend=True, fontsize=20);

Podemos melhorar nosso gráfico controlando as diversas opções de plotagem fornecidas pela `Matplotlib`:

In [None]:
ax = focos_mes.plot(kind='bar', legend=True, fontsize=20, figsize=(20,10));
ax.set_title('Focos Mensal - 2017', fontsize=36);
ax.set_xlabel('Mes', fontsize=24);
ax.set_ylabel('#Focos', fontsize=24);
ax.legend(loc=2, prop={'size': 20});

### **Q5.**  Qual a distribuição dos focos no mês de Janeiro de 2017 por bioma?

Como o `GeoDataFrame` `focos` não possui informação sobre o bioma, podemos utilizar o `mapa de biomas` para realizar uma operação de junção entre as informações de focos e biomas. Para isso, vamos criar inicialmente um `GeoDataFrame` a partir do arquivo contendo os biomas:

In [None]:
biomas = gpd.read_file('./biomas/biomas.shp', encoding='utf-8')

In [None]:
biomas = gpd.read_file('./biomas/biomas.shp', encoding='utf-8')

biomas.plot(column='Bioma', legend=True, figsize=(16, 8))

Esse mapa de biomas encontra-se numa projeção diferente do mapa de focos. No entanto, para realizar operações espaciais entre diferentes `GeoDataFrames`, as geometrias nessas estruturas precisam estar no mesmo sistema de referência espacial. Por isso, vamos reprojetar as geometrias do mapa de biomas para a mesma do de focos, isto é, para um sistema identificado pelo código `EPSG:4326`:

In [None]:
biomas = biomas.to_crs('EPSG:4326')

Agora que temos as geometrias dos dois `GeoDataFrames` no mesmo sistema de referência espacial, podemos realizar a junção das informações utilizando a função `sjoin`, que irá combinar as linhas dos dois `GeoDataFrames` através de um relacionamento espacial:

In [None]:
focos_jan = focos[focos.data_obser.dt.month == 1]

focos_jan_biomas = gpd.sjoin(focos_jan, biomas, how='inner', op='intersects')

A operação acima irá criar um novo `GeoDataFrame` denominado `focos_biomas` que irá conter todas as colunas do `GeoDataFrame` `focos` além das das colunas **não-geométricas** do `GeoDataDrame` `biomas`:

In [None]:
focos_jan_biomas.head()

Agora, podemos utilizar o operador `groupby` para agrupar as linhas do novo `GeoDataFrame` `focos_biomas` pela coluna `Bioma` e, então, calcular a contagem de focos por bioma:

In [None]:
focos_bioma = focos_jan_biomas.groupby('Bioma').Bioma.count()

focos_bioma

Podemos acertar o nome da série e do índice:

In [None]:
focos_bioma.index.name = 'Biomas'
focos_bioma.name = 'Numero Focos por Bioma'

focos_bioma

Podemos agora desenhar um gráfico circular:

In [None]:
explode=[0.1, 0.0, 0.0, 0.0, 0.0, 0.0]

ax = focos_bioma.plot(kind='pie',
                      explode=explode,
                      autopct='%1.1f%%',
                      figsize=(8,8), fontsize='14');

ax.set_title('Focos por Bioma - Janeiro de 2017', fontsize=20);

ax.set_ylabel('');

### **Q6.** Qual a frequência mensal de queimadas por bioma no Estado de Minas Gerais?

Vammos criar uma seleção dos focos de queimada de 2017 contendo apenas aqueles do Estado de Minas Gerais:

In [None]:
focos_mg = focos[focos.uf == 'MINAS GERAIS']

Apenas para facilitar nosso trabalho, vamos adicionar uma nova coluna chamada `mes` no `GeoDataFrame` `focos_mg`:

In [None]:
focos_mg['mes'] = focos_mg['data_obser'].dt.month

focos_mg.head()

In [None]:
focos_mg_biomas = gpd.sjoin(focos_mg, biomas, how='inner', op='intersects')

Vamos apresentar as informações em uma `pivot_table`:

In [None]:
pvt = pd.pivot_table(focos_mg_biomas, values='id', index=['Bioma'],
                     columns=['mes'], aggfunc='count',
                     fill_value=0, margins=True)

pvt.columns=['jan', 'fev', 'mar', 'abr', 'mai', 'jun', 'jul', 'ago', 'set', 'out', 'nov', 'dez', 'total']

pvt

Vamos remover a totalização nas linhas e colunas para obter uma estatística descritiva:

In [None]:
pvt = pd.pivot_table(focos_mg_biomas, values='id', index=['Bioma'],
                     columns=['mes'], aggfunc='count',
                     fill_value=0)

pvt.columns=['jan', 'fev', 'mar', 'abr', 'mai', 'jun', 'jul', 'ago', 'set', 'out', 'nov', 'dez']

pvt

In [None]:
pvt.describe()

# Considerações Finais
---

A combinação das bibliotecas GeoPandas e Matplotlib permite a criação de muitas ferramentas de análise de geometrias combinadas com seus atributos.