# <center><span style="color:#336699">Introdução à Programação com Dados Geoespaciais em Ambientes de Computação Interativa</span></center>
<hr style="border:2px solid #0077b9;">

<br/>

<div style="text-align: center;font-size: 150%;">
    Aula 01: Introdução à Programação com a Linguagem Python</br>
    <span style="font-size: 0.75em;">Parte III - Manipulação de Dados Tabulares em Python com a biblioteca Pandas</span>
</div>

<br/>

<div style="text-align: center;font-size: 90%;">
    Gilberto Ribeiro de Queiroz<sup><a href="https://orcid.org/0000-0001-7534-0219"><i class="fab fa-lg fa-orcid" style="color: #a6ce39"></i></a></sup>, Karine Reis Ferreira<sup><a href="https://orcid.org/0000-0003-2656-5504"><i class="fab fa-lg fa-orcid" style="color: #a6ce39"></i></a></sup>, Marcos Adami<sup><a href="https://orcid.org/0000-0003-4247-4477"><i class="fab fa-lg fa-orcid" style="color: #a6ce39"></i></a></sup>, Thales Sehn Körting<sup><a href="https://orcid.org/0000-0002-0876-0501"><i class="fab fa-lg fa-orcid" style="color: #a6ce39"></i></a></sup>
    <br/><br/>
    Divisão de Observação da Terra e Geoinformática, Instituto Nacional de Pesquisas Espaciais (INPE)
    <br/>
    Avenida dos Astronautas, 1758, Jardim da Granja, São José dos Campos, SP 12227-010, Brazil
    <br/><br/>
    Última Atualização: 30 de Janeiro de 2025
</div>

<br/>

<div style="text-align: justify;  margin-left: 25%; margin-right: 25%;">
    <b>Resumo.</b> Este Jupyter Notebook apresenta como realizar a manipulação de dados tabulares com a biblioteca Pandas do Python.
</div>

<br/>

<div style="text-align: justify;  margin-left: 25%; margin-right: 25%;">
    <b>Atenção:</b> Este material é baseado nas notas de aula disponível em <a href="https://prog-geo.github.io">https://prog-geo.github.io</a>.
</div>

<img src="../img/logo/pandas.png" align="right" width="48" />

# <span style="color:#336699">Introdução</span>
<hr style="border:1px solid #0077b9;">

O Pandas fornece duas estruturas de dados básicas: **Series** e **DataFrame**.

<img src="../img/pandas/pd-series.png" />

<img src="../img/pandas/pd-dataframe.png" />

Para estas estruturas, existem diversas operações de alto nível disponíveis, tais como:
- Leitura de dados de arquivos CSV ou de tabelas de bancos de dados;

- Concatenação, Merge e Join;

- Operações de agregação;

- Visualização básica.

# <span style="color:#336699">Importação da biblioteca Pandas</span>
<hr style="border:1px solid #0077b9;">

Por convenção importamos as funcionalidades do Pandas da seguinte forma:

In [None]:
import pandas as pd

Para verificar a versão do Pandas em uso:

In [None]:
pd.__version__

# <span style="color:#336699">Series</span>
<hr style="border:1px solid #0077b9;">

## <span style="color:#336699">Criando uma Série</span>
<hr style="border:0.5px solid #0077b9;">

In [None]:
pd.Series(range(1, 6))

O argumento **`name`** permite associar um nome à série:

In [None]:
serie_satelites = pd.Series(
    ["Landsat 7", "Landsat 8", "Landsat 9", "Sentinel-2A", "Sentinel-1C", pd.NA, "Sentinel-3"],
    name="satelites"
)
serie_satelites

In [None]:
#serie_satelites.convert_dtypes(dtype_backend="numpy_nullable")

## <span style="color:#336699">Acessando a Estrutura de uma Série</span>
<hr style="border:0.5px solid #0077b9;">

Considere a série associada ao identificador `serie_satelites`. O tipo de dados associado a essa série pode ser obtido com a propriedade **`dtype`**:

In [None]:
serie_satelites.dtype

Para acessar o eixo dos rótulos associados aos valores da série, utiliza-se o atributo **`index`**:

In [None]:
serie_satelites.index

Os valores da série podem ser acessados através da propriedade **`values`**:

In [None]:
serie_satelites.values

## <span style="color:#336699">Definindo o índice de uma série</span>
<hr style="border:0.5px solid #0077b9;">

Podemos utilizar outros tipos de dados no índice usado para as linhas da série:

In [None]:
serie_satelites = pd.Series(
    ["Landsat 7", "Landsat 8", "Landsat 9", "Sentinel-2A", "Sentinel-1C", None, "Sentinel-3"],
    index=("sat1", "sat2", "sat3", "sat4", "sat5", "sat6", "sat7"),
    dtype=pd.StringDtype(),
    name="satelites"
)

serie_satelites

In [None]:
serie_satelites.index

In [None]:
serie_satelites.values

## <span style="color:#336699">Selecionando Valores da Série</span>
<hr style="border:0.5px solid #0077b9;">

In [None]:
serie_satelites.head(2)

In [None]:
serie_satelites.tail(2)

In [None]:
serie_satelites["sat2"]

In [None]:
serie_satelites[ ["sat2", "sat3"] ]

In [None]:
serie_satelites[0:2]

In [None]:
serie_satelites[1:3]

O atributo **`loc`** permite acessar grupos de valores da série (linhas) através de rótulos ou por um *array* de valores lógicos:

In [None]:
serie_satelites.loc[ ["sat1", "sat3", "sat5"] ]

In [None]:
serie_satelites[ [False, True, False, True, False, True, False] ]

A propriedade **`iloc`** permite a seleção dos valores da série de maneira posicional, isto é, utilizamos números inteiros para especificar uma ou mais linhas a serem selecionadas.

In [None]:
serie_satelites.iloc[1]

In [None]:
serie_satelites.iloc[[0, 2, 4]]

## <span style="color:#336699">Plotando uma Série</span>
<hr style="border:0.5px solid #0077b9;">

Podemos construir gráficos rapidamente a partir das séries pois existe uma operação geral denominada **`plot`**:

In [None]:
ano = [2008, 2009, 2010, 2011, 2012, 2013, 2014, 2015, 2016, 2017]

In [None]:
num_focos = [ 123, 123, 249, 133, 194, 115, 183, 236, 188, 260 ]

In [None]:
serie_focos = pd.Series(data=num_focos, index=ano, name='#Focos x Ano')
serie_focos

In [None]:
serie_focos.index

In [None]:
serie_focos.plot(kind="bar")

In [None]:
serie_focos.plot(
    kind="bar",
    title="Série Histórica do Número de Focos de Queimadas",
    xlabel='Ano',
    ylabel='Número de Focos',
)

# <span style="color:#336699">DataFrame</span>
<hr style="border:1px solid #0077b9;">

## <span style="color:#336699">Criando um DataFrame</span>
<hr style="border:0.5px solid #0077b9;">

In [None]:
df_instalacoes_inpe = pd.DataFrame(
    [
        ["Belém", -1.4608, -48.4414],
        ["Cachoeira Paulista", -22.6886, -44.9989],
        ["Cuiabá", -15.5553, -56.0699],
        ["Eusébio", -3.8778, -38.4258],
        ["Natal", -5.8322, -35.2062],
        ["Santa Maria", -29.7175, -53.7133],
        ["São José dos Campos", -23.1794, -45.8869]
    ],
    columns=["cidade", "latitude", "longtude"]
)

df_instalacoes_inpe

In [None]:
df_satelites = pd.DataFrame(
    [
        ["Landsat 7", 1999, ["ETM+"]],
        ["Landsat 8", 2013, ["OLI", "TIRS"]],
        ["Landsat 9", 2021, ["OLI-2", "TIRS-2"]],
        ["Sentinel-2A", 2015, ["MSI"]],
        ["Sentinel-2B", 2017, ["MSI"]],
        ["Sentinel-2C", 2024, ["MSI"]],
        [None, None, None]
    ],
    columns=["satelite", "ano", "sensores"]
)

df_satelites

In [None]:
df_satelites_idx_str = pd.DataFrame(
    [
        ["Landsat 7", 1999, ["ETM+"]],
        ["Landsat 8", 2013, ["OLI", "TIRS"]],
        ["Landsat 9", 2021, ["OLI-2", "TIRS-2"]],
        ["Sentinel-2A", 2015, ["MSI"]],
        ["Sentinel-2B", 2017, ["MSI"]],
        ["Sentinel-2C", 2024, ["MSI"]],
        [None, None, None]
    ],
    columns=["satelite", "ano", "sensores"],
    index=["sat1", "sat2", "sat3", "sat4", "sat5", "sat6", "sat7"]
)

df_satelites_idx_str

## <span style="color:#336699">Acessando a Estrutura de um DataFrame</span>
<hr style="border:0.5px solid #0077b9;">

In [None]:
df_satelites.index

In [None]:
df_satelites.columns

In [None]:
df_satelites.axes

In [None]:
df_satelites.values

In [None]:
df_satelites.dtypes

In [None]:
df_satelites.shape

## <span style="color:#336699">Selecionando Valores do DataFrame</span>
<hr style="border:0.5px solid #0077b9;">

Selecionando uma coluna inteira:

In [None]:
df_satelites["satelite"]

In [None]:
df_satelites.satelite

In [None]:
df_satelites[ ["satelite", "ano"] ]

In [None]:
df_satelites.filter(like="s")

In [None]:
df_satelites.head(2)

In [None]:
df_satelites.tail(2)

In [None]:
df_satelites.loc[2, ["satelite", "sensores"]]

In [None]:
df_satelites.loc[1:3, ["satelite", "sensores"]]

In [None]:
df_satelites.iloc[1]

In [None]:
df_satelites_idx_str.loc[["sat1", "sat3"]]

In [None]:
df_satelites_idx_str.iloc[[1,3]]

In [None]:
df_satelites[ df_satelites["ano"] >= 2021 ]

## <span style="color:#336699">Plotando uma DataFrame</span>
<hr style="border:0.5px solid #0077b9;">

In [None]:
df_queimadas = pd.DataFrame(
    {
        "2024": [2675, 818, 1220, 605, 32, 368],
        "2025": [1389, 762, 913, 529, 88, 36],
    },
    index=["Amazonia", "Caatinga", "Cerrado", "Mata Atlântica", "Pampa", "Pantanal"]
)
df_queimadas = df_queimadas.convert_dtypes(dtype_backend="numpy_nullable")
df_queimadas

In [None]:
df_queimadas.plot(kind="bar");

In [None]:
ax = df_queimadas.plot(kind="bar", stacked=True)
ax.set_xticklabels(ax.get_xticklabels(), rotation=45);

# <span style="color:#336699">Tipos de Dados para Séries e DataFrames</span>
<hr style="border:1px solid #0077b9;">

## <span style="color:#336699">Inferindo tipos de dados para Séries</span>
<hr style="border:0.5px solid #0077b9;">

Repare na seguinte série:

In [None]:
pd.Series(
    ("Landsat 8", "Sentinel-2A", "Sentinel-1C", None, "Sentinel-3"),
    name="satelites"
)

Também podemos inferir o tipo de dado da série através do argumento **`dtype`**:

In [None]:
pd.Series(
    ("Landsat 8", "Sentinel-2A", "Sentinel-1C", pd.NA, "Sentinel-3"),
    dtype=pd.StringDtype(),
    name="satelites"
)

## <span style="color:#336699">Inferindo tipos de dados em DataFrames</span>
<hr style="border:0.5px solid #0077b9;">

Considere o seguinte DataFrame:

In [None]:
df = pd.DataFrame(
    [
        ["Landsat 7", 1999, ["ETM+"]],
        ["Landsat 8", 2013, ["OLI", "TIRS"]],
        ["Landsat 9", 2021, ["OLI-2", "TIRS-2"]],
        ["Sentinel-2A", 2015, ["MSI"]],
        ["Sentinel-2B", 2017, ["MSI"]],
        ["Sentinel-2C", 2024, ["MSI"]],
        [None, None, None]
    ],
    columns=["satelite", "ano", "sensores"]
)

df

Repare nos tipos de dados associados aos valores ao longo de cada coluna, inferidos automaticamente a partir dos valores fornecidos:

In [None]:
df.dtypes

**Reflexão:** Por que a coluna **`ano`** foi indicada como **`float64`** e a coluna **`sensores`** com o tipo **`object`**?

A biblioteca Pandas tem tipos que podem tratar melhor os tipos de dados usados na estrutura de `Series` e `DataFrames`:

- **Pandas Extension Types**

- **PyArrow**


Vamos usar esses tipos para definir as colunas de um novo `DataFrame`: 

Pandas Extension Types:

In [None]:
df.convert_dtypes(dtype_backend="numpy_nullable")

PyArrow:

In [None]:
import pyarrow as pa

In [None]:
df_novo = df.astype(
    {
        "satelite": pd.StringDtype(),
        "ano": pd.Int16Dtype(),
        "sensores": pd.ArrowDtype(pa.list_(pa.string()))
    }
)

df_novo

In [None]:
df_novo.dtypes

Esses tipos permitem manipular "valores ausentes" ou "faltantes" ou "nulos" de maneia mais uniforme.

o Pandas possui uma constante chamada **`pd.NA`** para indicar esse tipo de valor.

# <span style="color:#336699">Leitura de Arquivos CSV</span>
<hr style="border:1px solid #0077b9;">

O arquivo **`focos-queimada.csv`**, extraído da aplicação [BDQueimadas](https://data.inpe.br/queimadas/bdqueimadas/), contém 56.892 registros de focos de incêndio na vegetação entre o período de 01 de setembro e 31 de outubro de 2025. Esses registros encontram-se estruturados em um arquivo **`CSV`** (*Comma-Separated Values*) de maneira tabular.


O Pandas possui uma rotina chamada **`pd.read_csv`** que permite realizar a leitura desse tipo de arquivo e criar um `DataFrame`. A célula abaixo mostra como utilizar essa rotina para leitura de arquivos CSV:

In [None]:
focos = pd.read_csv("../dados/csv/focos-queimada.csv", sep=",")

focos

Vamos verificar a estrutura desse `DataFrame`:

In [None]:
focos.dtypes

O método `isna()` permite verificarmos se existem "dados ausentes" ou "valores faltantes" ou "dados nulos" nos registros do `DataFrame`:

In [None]:
focos.isna()

O método `any()` retorna elementos do DataFrame que possam ser classifcados como `True`:

In [None]:
focos[focos.isna().any(axis=1)]

Para selecionar as linhas com valores ausentes na coluna `DiaSemChuva`:

In [None]:
focos[focos["DiaSemChuva"].isna()]

# <span style="color:#336699">Análise de Dados com Pandas</span>
<hr style="border:1px solid #0077b9;">

**Q1.** Apresente uma estatística descritiva básica do `DataFrame` de `focos`:

In [None]:
len(focos)

In [None]:
focos.describe()

In [None]:
focos["Latitude"].min()

In [None]:
focos["Latitude"].max()

In [None]:
focos[focos["RiscoFogo"]>0.9]

---

**Q2.** Quantos valores diferentes existem em cada coluna desse `DataFrame` de `focos`?

In [None]:
focos.nunique()

---

**Q3.** Obter os valores únicos das colunas `Bioma` e `Estado`:

In [None]:
focos["Bioma"].unique()

In [None]:
focos["Estado"].unique()

---

**Q4.** Quantos focos temos por Bioma e Estado?

In [None]:
focos.groupby(["Bioma", "Estado"], as_index=True).size()

In [None]:
focos.groupby(["Bioma", "Estado"]).size().sum()

In [None]:
focos.groupby(["Bioma", "Estado"]).size().loc[("Cerrado")]

In [None]:
focos.groupby(["Bioma", "Estado"]).size().loc[("Cerrado", "MINAS GERAIS")]

In [None]:
focos.groupby(["Bioma", "Estado"]).size().loc[(slice(None), "MINAS GERAIS"), ]

---

**Q5.** Apresentar um gráfico com a contagem de focos por Estado:

In [None]:
focos_x_uf = focos["Estado"].value_counts()
focos_x_uf

In [None]:
focos_x_uf.plot.pie(autopct='%1.1f%%', title='Queimadas')

O gráfico acima fica ilegível, com muitas classes. Vamos destacar os nomes dos 08 Estados com maior ocorrência de focos e inserir uma nova categoria somando o valo dos demais Estados.

Para isso, vamos assegurar a ordenação da nossa série `focos_x_uf`:

In [None]:
focos_x_uf_ordenado = focos_x_uf.sort_values(ascending=False)

focos_x_uf_ordenado

In [None]:
focos_x_uf_ordenado.head(8)

Agora podemos criar um novo `DataFrame` com o valor da classe `Outros`:

In [None]:
outros = pd.DataFrame({'count': focos_x_uf_ordenado.iloc[8:].sum()}, index=['Outros'])

outros

In [None]:
dados = pd.concat([focos_x_uf_ordenado.head(8), outros])
dados

Utilizando a função **`pd.concat`** para concatenar os dois `DataFrames`:

Vamos assegurar que a soma dos focos está correta/completa:

In [None]:
dados.sum()

Agora, podemos plotar os dados:

In [None]:
dados.plot.pie(y="count", autopct='%1.1f%%', title="Distribuição das Queimadas por UF", legend=False);

# <span style="color:#336699">Referências Bibliográficas</span>
<hr style="border:1px solid #0077b9;">

- [Documentação do Pandas](https://pandas.pydata.org/docs/). Disponível online.