# <span style="color:#336699">SER-347/CAP-419 - Introdução à Programação com Dados Geoespaciais</span>
<hr style="border:2px solid #0077b9;">

# <span style="color:#336699">Análise de Dados Geoespaciais - Python</span>

- Gilberto Ribeiro de Queiroz
- Thales Sehn Körting
- Fabiano Morelli

# 1. Pandas e GeoPandas: análise de dados em Python
<hr style="border:1px solid #0077b9;">

<table>
    <tr>
        <td><img src="https://upload.wikimedia.org/wikipedia/commons/thumb/e/ed/Pandas_logo.svg/2560px-Pandas_logo.svg.png" alt="Python Data Analysis Library" width="300;"/></td>
        <td><img src="https://geopandas.org/en/stable/_images/geopandas_logo.png" alt="Python Geospatial Data Analysis Library" width="200"/></td>
    </tr>
</table>

## Pandas

Fornece duas estruturas de dados básicas: `Series` e `DataFrame`. Para estas estruturas, existem diversas operações de alto nível disponíveis, tais como: agregação de valores e visualização básica através da matplotlib.

Um objeto do tipo `Series` representa um vetor (ou array unidimensional) capaz de armazenar qualquer tipo de dado, como números inteiros, strings ou objetos como data e hora. Possui um eixo (*axis*) usado para rotular cada valor do vetor. Esses rótulos funcionam como um índice para os valores da série.

<table>
  <caption style="font-size: 20px;text-align: center">Series</caption>
  <tbody>
    <tr>
      <td style="font-weight: bold;text-align: center"></td>
      <td style="font-weight: bold;text-align: center">municipio</td>    
    </tr>
    <tr>
      <td style="text-align: center">0</td>
      <td style="text-align: left">Sítio Novo Do Tocantins</td>
    </tr>
    <tr>
      <td style="text-align: center">1</td>
      <td style="text-align: left">Ouro Preto</td>
    </tr>
    <tr>
      <td style="text-align: center">2</td>
      <td style="text-align: left">Mariana</td>
    </tr>
    <tr>
      <td style="text-align: center">3</td>
      <td style="text-align: left">Araxá</td>
    </tr>
    <tr>
      <td style="text-align: center">4</td>
      <td style="text-align: left">Belo Horizonte</td>
    </tr>
  </tbody>
</table>

Um objeto do tipo `DataFrame` representa um tabela bidimensional com os eixos rotulados (linhas e colunas).

<table>
  <caption style="font-size: 20px;text-align: center">DataFrame</caption>
  <tbody>
    <tr>
      <td style="font-weight: bold;text-align: center"></td>
      <td style="font-weight: bold;text-align: center">municipio</td>    
      <td style="font-weight: bold;text-align: center">estado</td>
      <td style="font-weight: bold;text-align: center">regiao</td>
      <td style="font-weight: bold;text-align: center">pais</td>
      <td style="font-weight: bold;text-align: center">satelite</td>
      <td style="font-weight: bold;text-align: center">bioma</td>
      <td style="font-weight: bold;text-align: center">timestamp</td>
      <td style="font-weight: bold;text-align: center">satelite_r</td>
    </tr>
    <tr>
      <td style="text-align: center">0</td>
      <td style="text-align: center">Sítio Novo Do Tocantins</td>
      <td style="text-align: center">Tocantins</td>
      <td style="text-align: center">N</td>
      <td style="text-align: center">Brazil</td>
      <td style="text-align: center">NPP_375</td>
      <td style="text-align: center">Cerrado</td>
      <td style="text-align: center">2016/02/12 17:05:45</td>
      <td style="text-align: center">f</td>
    </tr>
    <tr>
      <td style="text-align: center">1</td>
      <td style="text-align: center">Sítio Novo Do Tocantins</td>
      <td style="text-align: center">Tocantins</td>
      <td style="text-align: center">N</td>
      <td style="text-align: center">Brazil</td>
      <td style="text-align: center">NPP_375</td>
      <td style="text-align: center">Cerrado</td>
      <td style="text-align: center">2016/07/17 04:00:00</td>
      <td style="text-align: center">f</td>
    </tr>
    <tr>
      <td style="text-align: center">2</td>
      <td style="text-align: center">Sítio Novo Do Tocantins</td>
      <td style="text-align: center">Tocantins</td>
      <td style="text-align: center">N</td>
      <td style="text-align: center">Brazil</td>
      <td style="text-align: center">AQUA_M-T</td>
      <td style="text-align: center">Cerrado</td>
      <td style="text-align: center">2016/01/15 16:40:14</td>
      <td style="text-align: center">t</td>
    </tr>
    <tr>
      <td style="text-align: center">3</td>
      <td style="text-align: center">Sítio Novo Do Tocantins</td>
      <td style="text-align: center">Tocantins</td>
      <td style="text-align: center">N</td>
      <td style="text-align: center">Brazil</td>
      <td style="text-align: center">NPP_375</td>
      <td style="text-align: center">Cerrado</td>
      <td style="text-align: center">2016/07/17 04:00:00</td>
      <td style="text-align: center">f</td>
    </tr>
    <tr>
      <td style="text-align: center">4</td>
      <td style="text-align: center">Sítio Novo Do Tocantins</td>
      <td style="text-align: center">Tocantins</td>
      <td style="text-align: center">N</td>
      <td style="text-align: center">Brazil</td>
      <td style="text-align: center">NPP_375</td>
      <td style="text-align: center">Cerrado</td>
      <td style="text-align: center">2016/02/12 17:05:45</td>
      <td style="text-align: center">f</td>
    </tr>
  </tbody>
</table>

## GeoPandas

Possui facilidades para tratar colunas com dados geométricos, incluindo visualização.

As duas estruturas fornecidas são:
- `GeoSeries`: um vetor contendo uma representação geométrica em conformidade com os tipos da *OGC Simple Feature*: `Point`, `LineString`, `Polygon`, `MultiPoint`, `MultiLineString`, `MultiPolygon`. Essa estrutura possui as mesmas operações da classe `Series` do Pandas além de operações espaciais como cálculo de área, perímetro, distâncias, entre outras.

<table>
  <caption style="font-size: 20px;text-align: center">GeoSeries</caption>
  <tbody>
    <tr>
      <td style="font-weight: bold;text-align: center"></td>
      <td style="font-weight: bold;text-align: center">municipio</td>    
    </tr>
    <tr>
      <td style="text-align: center">0</td>
      <td style="text-align: left">POINT (-47.607 -5.673)</td>
    </tr>
    <tr>
      <td style="text-align: center">1</td>
      <td style="text-align: left">POINT (-47.606 -5.581)</td>
    </tr>
    <tr>
      <td style="text-align: center">2</td>
      <td style="text-align: left">POINT (-47.734 -5.562)</td>
    </tr>
    <tr>
      <td style="text-align: center">3</td>
      <td style="text-align: left">POINT (-47.605 -5.58)</td>
    </tr>
    <tr>
      <td style="text-align: center">4</td>
      <td style="text-align: left">POINT (-47.606 -5.677)</td>
    </tr>
  </tbody>
</table>

- `GeoDataFrame`: tabela com uma coluna geométrica.

<table>
  <caption style="font-size: 20px;text-align: center">GeoDataFrame</caption>
  <tbody>
    <tr>
      <td style="font-weight: bold;text-align: center"></td>
      <td style="font-weight: bold;text-align: center">municipio</td>    
      <td style="font-weight: bold;text-align: center">estado</td>
      <td style="font-weight: bold;text-align: center">regiao</td>
      <td style="font-weight: bold;text-align: center">pais</td>
      <td style="font-weight: bold;text-align: center">satelite</td>
      <td style="font-weight: bold;text-align: center">bioma</td>
      <td style="font-weight: bold;text-align: center">timestamp</td>
      <td style="font-weight: bold;text-align: center">satelite_r</td>
      <td style="font-weight: bold;text-align: center">geometry</td>
    </tr>
    <tr>
      <td style="text-align: center">0</td>
      <td style="text-align: center">Sítio Novo Do Tocantins</td>
      <td style="text-align: center">Tocantins</td>
      <td style="text-align: center">N</td>
      <td style="text-align: center">Brazil</td>
      <td style="text-align: center">NPP_375</td>
      <td style="text-align: center">Cerrado</td>
      <td style="text-align: center">2016/02/12 17:05:45</td>
      <td style="text-align: center">f</td>
      <td style="text-align: left">POINT (-47.607 -5.673)</td>
    </tr>
    <tr>
      <td style="text-align: center">1</td>
      <td style="text-align: center">Sítio Novo Do Tocantins</td>
      <td style="text-align: center">Tocantins</td>
      <td style="text-align: center">N</td>
      <td style="text-align: center">Brazil</td>
      <td style="text-align: center">NPP_375</td>
      <td style="text-align: center">Cerrado</td>
      <td style="text-align: center">2016/07/17 04:00:00</td>
      <td style="text-align: center">f</td>
      <td style="text-align: left">POINT (-47.606 -5.581)</td>
    </tr>
    <tr>
      <td style="text-align: center">2</td>
      <td style="text-align: center">Sítio Novo Do Tocantins</td>
      <td style="text-align: center">Tocantins</td>
      <td style="text-align: center">N</td>
      <td style="text-align: center">Brazil</td>
      <td style="text-align: center">AQUA_M-T</td>
      <td style="text-align: center">Cerrado</td>
      <td style="text-align: center">2016/01/15 16:40:14</td>
      <td style="text-align: center">t</td>
      <td style="text-align: left">POINT (-47.734 -5.562)</td>
    </tr>
    <tr>
      <td style="text-align: center">3</td>
      <td style="text-align: center">Sítio Novo Do Tocantins</td>
      <td style="text-align: center">Tocantins</td>
      <td style="text-align: center">N</td>
      <td style="text-align: center">Brazil</td>
      <td style="text-align: center">NPP_375</td>
      <td style="text-align: center">Cerrado</td>
      <td style="text-align: center">2016/07/17 04:00:00</td>
      <td style="text-align: center">f</td>
      <td style="text-align: left">POINT (-47.605 -5.58)</td>
    </tr>
    <tr>
      <td style="text-align: center">4</td>
      <td style="text-align: center">Sítio Novo Do Tocantins</td>
      <td style="text-align: center">Tocantins</td>
      <td style="text-align: center">N</td>
      <td style="text-align: center">Brazil</td>
      <td style="text-align: center">NPP_375</td>
      <td style="text-align: center">Cerrado</td>
      <td style="text-align: center">2016/02/12 17:05:45</td>
      <td style="text-align: center">f</td>
      <td style="text-align: left">POINT (-47.606 -5.677)</td>
    </tr>
  </tbody>
</table>

# 2. GeoPandas
<hr style="border:1px solid #0077b9;">

Vamos importar as bibliotecas `pandas`, `geopandas` e `matplotlib` para podermos manipular os dados com focos de queimada usando um `GeoDataFrame`:

In [None]:
import pandas as pd
import geopandas as gpd
import matplotlib.pyplot as plt

# 2.1. Abrindo shapefiles como `GeoDataFrame`:
<hr style="border:0.25px solid #0077b9;">

### Abrindo uf_2018.shp:

In [None]:
ufs = gpd.read_file("uf_2018/uf_2018.shp")

In [None]:
ufs.head()

In [None]:
len(ufs)

In [None]:
ufs.geometry.geom_type

### Abrindo biomas.shp:

In [None]:
biomas = gpd.read_file("biomas/biomas.shp")

In [None]:
biomas.head()

In [None]:
len(biomas)

In [None]:
biomas.geometry.geom_type

### Abrindo focos_2024_br.shp:

In [None]:
focos = gpd.read_file("focos_2024_br/focos_2024_br.shp")

In [None]:
focos.head()

In [None]:
len(focos)

In [None]:
focos.geometry.geom_type

## Pré processando os Focos de Queimadas
<hr style="border:0.25px solid #0077b9;">

Vamos ver uma amostra dos dados:

In [None]:
focos.head()

Podemos descobrir os tipos de dados das colunas do `GeoDataFrame` através do atributo `dtypes`: 

In [None]:
focos.dtypes

Vamos selecionar apenas algumas colunas

In [None]:
focos = focos[["DataHora", "Estado", "Municipio", "geometry"]]
focos.head()

Visualizar os focos de queimada em um mapa.

In [None]:
focos.plot(marker='x', color='red', markersize=1)

Alterar o formato da coluna `timestamp` para o tipo `datetime` para facilitar a manipulação dos dados desta coluna:

In [None]:
focos["timestamp"] = pd.to_datetime(focos["DataHora"])
focos.dtypes

In [None]:
focos.head()

Veja que sem transformar para timestamp não conseguimos trabalhar com datas e horários:

In [None]:
# focos[focos["DataHora"] > "2024-08-01"]   #===> ERRO
focos[focos["timestamp"] > "2024-08-01"]  #===> OK

Adicionando uma coluna de mês

In [None]:
focos["mes"] = focos["timestamp"].dt.month
focos.head()

Adicionando uma coluna com o nome do mês

In [None]:
import calendar
focos["nome_mes"] = focos["timestamp"].dt.month.map(lambda x: calendar.month_abbr[x])
focos.head()

## Qual a distribuição dos focos ao longo dos meses do ano em 2024?
<hr style="border:0.25px solid #0077b9;">

Para responder esta pergunta podemos utilizar o operador de agregação (sumarização) `groupby`, disponível em um `DataFrame`.  

Neste caso, precisaremos informar:
* O critério da agregação: a parte contendo o número do mês na coluna com a data e hora da detecção do foco (coluna `timestamp`).
* Utilizar uma das colunas para realizar a contagem através do operador `count`.

In [None]:
focos_mes = focos.groupby(focos.nome_mes).nome_mes.count()
focos_mes

O objeto `focos_mes` retornado na operação acima corresponderá um `pandas.core.series.Series`:

In [None]:
type(focos_mes)

Na saída acima podemos notar o seguinte:
* O nome da série é `Estado`, por conta da coluna usada para realizar a contagem.
* Os índices da série correspondem aos índices numéricos dos meses do ano.

In [None]:
focos_mes.plot.bar(legend=True, fontsize=10)

Podemos ajustar o nome da série e o rótulo do índice:

In [None]:
focos_mes.name="Número Focos/Mês"
focos_mes.index.name="Mês"
focos_mes

Podemos apresentar um gráfico de barras com o total de focos por mês:

In [None]:
focos_mes.plot.bar(legend=True, fontsize=10)

Podemos melhorar nosso gráfico controlando as diversas opções de plotagem fornecidas pela Matplotlib:

In [None]:
ax = focos_mes.plot(kind="bar", legend=True, fontsize=20, figsize=(20,10));
ax.set_title("Focos Mensal - 2024", fontsize=28);
ax.set_xlabel("Mes", fontsize=24);
ax.set_ylabel("Focos", fontsize=24);
ax.legend(loc=2, prop={'size': 20});

Podemos salvar a figura do gráfico gerado:

In [None]:
ax.figure.savefig("chart-focos-meses-2024.png", dpi=100, format="png")

## Qual a distribuição dos focos por estado?
<hr style="border:0.25px solid #0077b9;">

In [None]:
focos_estados = focos.groupby(focos.Estado).Estado.count()
focos_estados

Vamos plotar a contagem de focos por estado em 2024

In [None]:
focos_estados.plot.bar(legend=True, fontsize=10)

Podemos ordenar essa série por quantidade de focos?

In [None]:
focos_estados.sort_values(ascending = False)
# inplace=True

In [None]:
focos_estados.plot.bar(legend=True, fontsize=10)

## Como filtrar os focos de queimada do estado do PARÁ?
<hr style="border:0.25px solid #0077b9;">

In [None]:
focos_para = focos[focos.Estado == 'PARÁ']
focos_para.head()

Vamos plotar esses dados filtrados:

In [None]:
focos_para.plot(marker='x', color='red', markersize=5)

Podemos também plotar juntamente com a shape do Brasil:

In [None]:
fig, ax = plt.subplots()
focos_para.plot(marker='x', color='red', markersize=5, ax=ax)
ufs[ufs.SIGLA == "PA"].plot(edgecolor='black', facecolor='none', ax=ax)
plt.show()

## Além de filtrar para PARÁ, como podemos filtrar somente para um mês (e.g. setembro)?
<hr style="border:0.25px solid #0077b9;">

In [None]:
focos_para_sep = focos[(focos.Estado == 'PARÁ') & (focos.timestamp.dt.month == 9)]
focos_para_sep.head()

In [None]:
fig, ax = plt.subplots()
ufs[ufs.SIGLA == "PA"].plot(facecolor='none', ax=ax)
focos_para_sep.plot(marker='x', color='red', markersize=5, ax=ax)
plt.show()

## Como podemos mesclar os focos com os biomas?

In [None]:
focos.head()

In [None]:
biomas.head()

Vamos usar a função **sjoin** do GeoPands para combinar os focos com os biomas:
- how:
  - "left": mantém todos os focos2 — mesmo se não houver interseção com os biomas
  - "inner": mantém apenas as linhas que têm correspondência espacial
- predicate
  - "intersects"
  - "contains"
  - "within"
  - "touches"
  - "crosses"
  - "overlaps"
  - ...
  - "equals"

<table>
  <tr>
    <td><img src="https://prog-geo.github.io/_images/op-within-1.png" width="200" height="200"></td>
    <td><img src="https://prog-geo.github.io/_images/op-cross-2.png" width="200" height="200"></td>
    <td><img src="https://prog-geo.github.io/_images/op-touch-2.png" width="200" height="200"></td>
    <td><img src="https://prog-geo.github.io/_images/op-disjoint-2.png" width="200" height="200"></td>
  </tr>
</table>

Antes, precisamos converter as geometrias para a mesma projeção. Veja abaixo que os objetos GeoPandas possuem diferentes projeções:

In [None]:
print(focos.crs)
print(biomas.crs)

Vamos usar a função **to_crs** para converter os pontos para a mesma projeção da shape dos biomas:

In [None]:
focos_crs = focos.to_crs(biomas.crs)
focos_crs.head()

Veja que agora as projeções são iguais:

In [None]:
print(focos_crs.crs)
print(biomas.crs)

Agora rodando a função **sjoin**, iremos juntar as informações de biomas nos focos:

In [None]:
focos_biomas = gpd.sjoin(focos_crs, biomas, how='inner', predicate='within')
focos_biomas.head()

## Exercício: Plote a quantidade de focos agrupado por bioma
- **Eixo x:** biomas
- **Eixo y:** Quantidade de focos

In [None]:
# ????????????????
# ????????????????
# ????????????????

## Qual a frequência mensal de queimadas por bioma?

Vamos apresentar as informações em uma `pivot_table`:

In [None]:
pvt = pd.pivot_table(focos_biomas, values="geometry", index=["Bioma"],
                     columns=["nome_mes"], aggfunc="count",
                     fill_value=0, margins=False)
pvt.columns=["May", "Jun", "Jul", "Aug", "Sep", "Oct", "Nov", "Dec"]
pvt

Podemos gerar um gráfico de barras agrupado

In [None]:
pvt.T.plot(
    kind="bar", 
    figsize=(10, 6), 
    xlabel = "Mês", 
    ylabel = "Número de Focos", 
    title = "Focos por Mês e Bioma")
plt.legend(title="Bioma", bbox_to_anchor=(1.05, 1), loc="upper left")
plt.show()

Podemos gerar um gráfico heatmap

In [None]:
import seaborn as sns

plt.figure(figsize=(8, 4))
sns.heatmap(pvt, annot=True, fmt="d", cmap="YlOrRd")
plt.title("Número de Focos por Bioma e Mês")
plt.xlabel("Mês")
plt.ylabel("Bioma")
plt.show()

Vamos obter uma estatística descritiva:

In [None]:
pvt.describe()

## Qual a quantidade de focos por município ao longo dos meses?

In [None]:
pvt2 = pd.pivot_table(focos, values="geometry", index=["Estado", "Municipio"], 
                      columns=["nome_mes"], aggfunc="count", fill_value=0, margins=True)
pvt2.columns=["May", "Jun", "Jul", "Aug", "Sep", "Oct", "Nov", "Dec", "All"]
pvt2.head()

### Qual o top 10 para agosto?

In [None]:
top10 = pvt2["Aug"].sort_values(ascending=False)[0:9]
top10

## Exercício / Desafio
<hr style="border:2px solid #0077b9;">

## Gerar um mapa com a classificação dos estados em relação ao número de focos ocorridos no mês de agosto de 2024

Ex:

<img src="https://upload.wikimedia.org/wikipedia/commons/a/a5/Mapa_dos_estados_brasileiros_por_popula%C3%A7%C3%A3o_%282022%29.svg" width="300" height="300">



## Referências Online
<hr style="border:2px solid #0077b9;">

Tutoriais:
* [learnPython Essentials of Python](http://www.stephaniehicks.com/learnPython).
* [IPython notebook reveal-based slideshows](http://www.slideviper.oquanta.info/tutorial/slideshow_tutorial_slides.html#/).
* [Make your slides with IPython](http://www.damian.oquanta.info/posts/make-your-slides-with-ipython.html).

Documentação da [matplotlib](https://matplotlib.org/):
* Opções de controle da legenda: [matplotlib.pyplot.legend](http://matplotlib.org/api/pyplot_api.html#matplotlib.pyplot.legend).
* Opções de salvamento da imagem de um gráfico: [matplotlib.pyplot.savefig](https://matplotlib.org/devdocs/api/_as_gen/matplotlib.pyplot.savefig.html).
* Opções dos tipos de gráficos básicos:
  * [matplotlib.pyplot.pie](https://matplotlib.org/devdocs/api/_as_gen/matplotlib.pyplot.pie.html#matplotlib-pyplot-pie).
  
Documentação [seaborn](https://seaborn.pydata.org/):

