<a href="https://colab.research.google.com/github/afdmoraes/GEOSelper/blob/main/Semana_5_Aula_2_Pandas.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Curso de Programação para Sensoriamento Remoto
---

* Gilberto Ribeiro de Queiroz
* Thales Sehn Körting

## Tópicos desta aula

* Manipulação de dados com a biblioteca `Pandas`



# Introdução
---

O `Pandas` fornece duas estruturas de dados básicas: `Series` e `DataFrame`, ambas apoiadas na estrutura `ndarray` da biblioteca `NumPy`. 

<br/>

Um objeto do tipo `Series` representa um **vetor** (ou **array unidimensional**) capaz de armazenar qualquer tipo de dado, como números inteiros, strings ou objetos como data e hora.

<br/>

O segundo tipo de estrutura introduzido pelo `Pandas` é o `DataFrame`, que representa uma matriz bidimensional, mais parecida com uma tabela, com capacidade de lidar com tipos heterogêneos.

<br/>

Para essas estruturas, existem diversas operações de alto nível disponíveis, tais como: agregação de valores e visualização básica através da `Matplotlib`.

<br/>

A seguir, iremos aprender a carregar esta biblioteca e utilizar essas duas estruturas básicas para manipulação de dados.

# Importando o Pandas
---

Por convenção importamos as funcionalidades do `Pandas` da seguinte forma:

In [None]:
import pandas as pd

# Séries
---

## Criando uma Série (`Series`)


Uma `série` possui dois eixos (`axis`), um usado para rotular cada valor do vetor (**linhas**) e outro para rotular os valores da série (**colunas**). Os rótulos do `eixo-0` funcionam como um índice para os valores da série. O rótulo do `eixo-1` se refere à coluna com os valores da série.

<br/>

A tabela a seguir apresenta as características dessa estrutura de dados. Repare que há um eixo numérico na primeira coluna, com valores no intervalo `[0, 4]`, que forma a base de indexação dos valores da série (nomes de munícipio), e cuja coluna (`eixo-1`) possui um rótulo chamado `municipio`.

<table style="border: 1px solid black">   
<tbody>
<tr>
<th style="text-align: center; border: 1px solid black; width=16%"></th>
<th style="text-align: center; border: 1px solid black; width=16%">municipio</th>
</tr>
<tr>
<td>0</td><td>Sítio Novo Do Tocantins</td>
</tr>
<tr>
<td>1</td><td>Ouro Preto</td>
</tr>
<tr>
<td>2</td><td>Mariana</td>
</tr>
<tr>
<td>3</td><td>Araxá</td>
</tr>
<tr>
<td>4</td><td>Belo Horizonte</td>
</tr>
</table>

Para criar uma série semelhante à apresentada nessa tabela, podemos fazer:

In [None]:
dados = [
    'Sítio Novo Do Tocantins',
    'Ouro Preto',
    'Mariana',
    'Araxá',
    'Belo Horizonte',
]

serie = pd.Series(data=dados, name='municipio')

In [None]:
serie

Durante a criação da série, podemos indicar os valores dos índices (`eixo-0`). Por exemplo, se você quiser criar a série indexada por letras ao invés de números, podemos fornecer os índices da seguinte forma:

In [None]:
dados = [
    'Sítio Novo Do Tocantins',
    'Ouro Preto',
    'Mariana',
    'Araxá',
    'Belo Horizonte',
]

indices = [ 'e', 'b', 'd', 'c', 'a' ]

serie = pd.Series(data=dados, index=indices, name='Municipios')

In [None]:
serie

## Selecionando Valores da Série

Podemos utilizar a função `head(n)` para obter `n` valores da série a partir do seu início:

In [None]:
serie.head(2)

A função `tail(n)` permite obter os `n` valores ao final da série:

In [None]:
serie.tail(2)

O `operador []` (operador de indexação) permite acessar elementos específicos, ou partes da série:

In [None]:
serie['a']

In [None]:
serie[0:3]

In [None]:
serie[-2:]

O atributo `loc` permite acessar grupos de valores da série (linhas) através de rótulos ou por um *array* de valores lógicos:

In [None]:
serie.loc[ ['a','b'] ]

In [None]:
serie.loc[ [True, False, True, False, True] ]

In [None]:
serie

A propriedade `iloc` permite a seleção dos valores da série de maneira posicional, isto é, utilizamos números inteiros para especificar uma ou mais linhas a serem selecionadas. De maneira semelhante à propriedade `loc`, aceita um *array* de valores lógicos para seleção:

In [None]:
serie.iloc[ [1, 3] ]

## Acessando a Estrutura de uma Série

Para acessar o eixo dos rótulos associados aos valores da série, utiliza-se o atributo `index`:

In [None]:
serie.index

Os valores da série podem ser acessados na forma de um `ndarray` do `NumPy` através do atributo `values`:

In [None]:
serie.values

In [None]:
type(serie.values)

## Ordenando os Valores de uma Série

Podemos ordenar a série pelos seus valores através da operação `sort_values`:

In [None]:
serie.sort_values(ascending=True)

Ou, podemos ordenar a série pelos rótulos do índice dos valores:

In [None]:
serie.sort_index()

**Atenção:** as duas operações acima criam novas séries ordenadas. Para alterar a própria série, sem criar uma cópia, é necessário utilizar o parâmetro `inplace`:

In [None]:
serie.sort_values(ascending=True, inplace=True)

In [None]:
serie

## Plotando uma Série

Podemos construir gráficos rapidamente a partir das séries. O tipo `Series` possui uma operação geral denominada `plot`. O trecho de código abaixo mostra como utilizar esta operação para apresentar um gráfico de barras com o número de focos de incêndio na vegetação ao longo do período de 2008 a 2017.

In [None]:
ano = [ 2008, 2009, 2010, 2011, 2012, 2013, 2014, 2015, 2016, 2017 ]

num_focos = [ 123, 123, 249, 133, 194, 115, 183, 236, 188, 260 ]

serie_focos = pd.Series(data=num_focos, index=ano, name='#Focos x Ano')

In [None]:
serie_focos

In [None]:
%matplotlib inline

import matplotlib.pyplot as plt

serie_focos.plot.bar()

Por padrão, o ``Pandas`` utiliza a ``Matplotlib`` para gerar os gráficos. No entanto, é possível utilizar outras bibliotecas.

<br/>

Consulte [aqui](https://pandas.pydata.org/docs/reference/series.html#plotting>) outras opções de construção de gráficos a partir de uma série.


<br/>

Para saber as demais propriedades e operações disponíveis para a estrutura ``Series``, consulte a seguinte documentação: [pandas.Series](https://pandas.pydata.org/docs/reference/api/pandas.Series.html).

# DataFrame
---

## Criando um `DataFrame`

O segundo tipo de estrutura introduzido pelo `Pandas` é o `DataFrame`, que representa uma matriz bidimensional, mais parecida com uma tabela, com capacidade de lidar com tipos heterogêneos, conforme mostrado na tabela abaixo.

<br/>

|   |  municipio              | estado    | regiao | pais   | satelite | bioma    | timestamp           | satelite_r |
|---|-------------------------|-----------|--------|--------|----------|---------|---------------------|-------------|
| 0 | Sítio Novo Do Tocantins | Tocantins | N      | Brazil | NPP_375  | Cerrado  | 2016/02/12 17:05:45 | f          |
| 1 | Sítio Novo Do Tocantins | Tocantins | N      | Brazil | NPP_375  | Cerrado  | 2016/07/17 04:00:00 | f          |
| 2 | Altamira                | Pará      | N      | Brazil | AQUA_M-T | Amazonia | 2016/01/15 16:40:14 | t          |
| 3 | Altamira                | Pará      | N      | Brazil | NPP_375  | Amazonia | 2016/01/15 16:40:14 | t          |
| 4 | Sítio Novo Do Tocantins | Tocantins | N      | Brazil | NPP_375  | Cerrado  | 2016/02/12 17:05:45 | f          |

<br/>

Essa estrutura possui eixos rotulados (linhas e colunas). O `eixo-0`, dos índices, refere-se à primeira coluna, com os rótulos no intervalo `[0, 4]`. Esses valores podem ser usados para acessar os elementos de cada linha. O `eixo-1`, das colunas, possui os rótulos: `municipio`, `estado`, `regiao`, `pais`, `satelite`, `bioma`, `timestamp` e `satelite_r`. Os rótulos do `eixo-1` se referem à identificação das séries das colunas.

<br/>

Para compreender a estrutura de um `DataFrame`, vamos criar um, baseando-se nos dados da tabela acima. Iremos omitir algumas colunas dessa tabela de propósito, para que possamos acrescentá-las mais adiante.


In [None]:
municipios = [ 'Sítio Novo Do Tocantins', 'Sítio Novo Do Tocantins', 'Altamira', 'Altamira', 'Sítio Novo Do Tocantins' ]

estados = [ 'Tocantins', 'Tocantins', 'Pará', 'Pará', 'Tocantins' ]

satelites = [ 'NPP_375', 'NPP_375', 'AQUA_M-T', 'NPP_375', 'NPP_375' ]

biomas = [ 'Cerrado', 'Cerrado', 'Amazônia', 'Amazônia', 'Cerrado' ]

timestamp = [ '2016/02/12 17:05:45', '2016/07/17 04:00:00', '2016/01/15 16:40:14', '2016/01/15 16:40:14', '2016/02/12 17:05:45' ]

satelites_r = [ False, False, True, False, False ]

In [None]:
dados = {
    'municipio': municipios,
    'estado': estados,
    'satelite': satelites,
    'bioma': biomas,
    'timestamp': timestamp,
    'satelite_r': satelites_r
}

In [None]:
df = pd.DataFrame( data=dados )

In [None]:
df

## Selecionando Colunas de um `DataFrame`

Para selecionar os valores da primeira coluna, rotulada com a string `municipio`, podemos utilizar o `operador []` (operador de indexação) como mostrado abaixo:


In [None]:
df['municipio']

A mesma seleção pode ser realizada com o uso do operador `.`:

In [None]:
df.municipio

Múltiplas colunas podem ser selecionadas. Podemos usar uma lista para especificar os rótulos das colunas desejada na seleção:


In [None]:
df[ ['municipio', 'satelite' ] ]

Podemos usar o método `filter` para selecionar colunas, tendo como base seus nomes ou rótulos:

In [None]:
df.filter(like='sat')

## Acessando a Estrutura de um `DataFrame`

Para acessar os índices ou rótulos das linhas, podemos utilizar a propriedade `index`:

In [None]:
df.index

Os rótulos das colunas podem ser recuperados através da propriedade `columns`:

In [None]:
df.columns

**Atenção:** Existe uma operação chamada `keys()` que retorna esse mesmo objeto ``Index``.

<br/>
O atributo `values` retorna uma representação `numpy.ndarray`, conforme podemos ver no exemplo abaixo:


In [None]:
df.values

**Atenção:** O [documento de referência](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.values.html#pandas.DataFrame.values) do `Pandas` recomenda o uso da operação `to_numpy()` ao invés da propriedade `values`.

<br/>

O atributo `axes` retorna uma lista com os índices dos eixos do `DataFrame`:

In [None]:
df.axes

Podemos recuperar uma série com os tipos de dados de cada coluna. Nessa série, os índices serão os nomes das colunas e os valores, os tipos de dados de cada coluna:

In [None]:
df.dtypes

As dimensões do `DataFrame` podem ser obtidas através da propriedade `shape`:

In [None]:
df.shape

## Selecionando Valores do `DataFrame`

A operação `head` permite obter valores do `DataFrame` a partir do seu início:

In [None]:
df.head(2)

A operação `tail` obtém valores ao final do `DataFrame`:

In [None]:
df.tail(2)

Assim como na estrutura `Series`, podemos utilizar as propriedades `iloc` e `loc` para acessar grupos de linhas e colunas.

<br/>

O trecho de código abaixo utiliza a propriedade `loc` para recuperar os valores compreendidos entre as linhas `1` e `3`, considerando apenas as colunas `satelite` e `timestamp`:

In [None]:
df.loc[ 1:3,  [ 'satelite', 'timestamp' ] ]

**Atenção:** A propriedade `loc` utiliza os índices ou rótulos dos eixos das linhas e colunas como forma de endereçamento dos elementos. Já o operador `iloc` utiliza números inteiros correspondentes à posição dos eixos (linhas e colunas). No exemplo de `DataFrame` usado, os índices (rótulos) das linhas são números inteiros sequenciais e logo não há diferença na forma de acesso entre `loc` e `iloc` quando nos referimos às linhas desse exemplo. No entanto, para o eixo das colunas, temos diferença, conforme será visto abaixo.

Também podemos utilizar um *array* de valores lógicos nas propriedades `loc` e `iloc`. O trecho de código abaixo seleciona linhas alternadas do `DataFrame`:

In [None]:
df.loc[ [True, False, True, False, True], 'satelite':'timestamp' ]

A propriedade `iloc` permite a seleção dos valores da série de maneira posicional, isto é, utilizamos números inteiros para especificar uma ou mais linhas e colunas a serem selecionadas. De maneira semelhante à propriedade ``loc``, aceita um *array* de valores lógicos para seleção:

In [None]:
df.iloc[ [True, False, True, False, True], 2:5 ]

**Atenção:** Repare no exemplo acima que utilizamos um intervalo numérico (`2:5`) para definir as colunas que fariam parte do *slice* consultado.

## Iterando nas colunas e linhas de um `DataFrame`

A operação `items` permite iterarmos nos conjuntos de valores de cada coluna, como se fossem uma série individual:

In [None]:
for rotulo, serie in df.items():
    print(f'Série da Coluna: {rotulo}')
    print(serie)
    print('--------\n')

O operador `iterrows()` permite iterarmos nas linhas do `DataFrame` como se fossem uma série:

In [None]:
for index, row in df.iterrows():
    print(f'Série da Linha: {index}')
    print(row)
    print('--------')

Uma forma melhor de iterar nas linhas é através da operação `itertuples`:

In [None]:
for row in df.itertuples():
    print(row)

**Atenção:** Repare que o índice da linha aparece como primeiro atributo da tupla retornada. Se informarmos o argumento `index=False` na operação `itertuples`, esse elemento será suprimido do resultado.

<br/>

**Atenção:** O parâmetro `name` pode ser usado para controlar o nome da tupla retornada, que por padrão utiliza o nome `Pandas`.

## Construindo máscaras booleanas para seleção de linhas

Uma técnica útil para construir uma máscara de valores booleanos é utilizar expressões que retornem séries com valores booleanos:

In [None]:
df

In [None]:
df['timestamp'] > '2016/02/02'

Podemos usar uma expressão semelhante para selecionar as linhas de um `DataFrame`:

In [None]:
df[ df.timestamp > '2016/02/02' ]

**Atenção:** Para saber as demais propriedades e operações disponíveis para a estrutura `DataFrame`, consulte a seguinte documentação: [pandas.DataFrame](https://pandas.pydata.org/docs/reference/frame.html).


# Leitura de Arquivos CSV
---

**Atenção:** Copie o arquivo [defpatterns.missing.csv](https://drive.google.com/file/d/19WW_kstQ_7rXpaItijqNPUR_sAunOkhO/view?usp=sharing) para a pasta de dados do seu colab.

<br/>

Para abrir um arquivo `CSV` basta utilizar a função `read_csv`:

In [None]:
patterns = pd.read_csv('./defpatterns.missing.csv')

In [None]:
patterns

**Atenção:** O `Pandas` fornece diversas funções de entrada/saída. Consulte o seguinte documento para maiores informações: [Input/output](https://pandas.pydata.org/docs/reference/io.html).

# Análise de Dados com o Pandas
---

Vamos começar nossa análise, do conjunto de dados lido do arquivo `defpatterns.missing.csv`, por uma estatística descritiva:

In [None]:
patterns.describe()

A operação `describe` apresenta um sumário do conjunto de dados do `DataFrame`, mostrando sua tendência central, dispersão e forma. Essa operação cosidera apenas valores numéricos ou que possam ser transformados em valores numéricos, excluindo valores que não possam ser convertidos para números válidos. Veja que as colunas `object_id0` e `padrao` não foram consideradas pela operação. Além disso, existe um valor especial chamado `NaN` (`Not-a-Number`) que indica a ausência de valor naquela célula.

<br/>

Na saída mostrada na célula acima, podemos ver que o resultado da operação `describe` inclui um sumário por coluna:

- `count`: Número de elementos da coluna com valores diferentes de `NaN`.

- `mean`: Média dos valores nas colunas.

- `std`: Desvio padrão dos valores nas colunas.

- `min`: Valor mínimo na coluna.

- `max`: Valor máximo na coluna.

- `percentis`: primeiro quartil (25% das observações abaixo e 75% acima), segundo quartil (mediana, deixa 50% das observações abaixo e 50% das observações acima) e terceiro quartil (75% das observações abaixo e 25% acima).

## Questões para análise

**Q1.** Quantos valores diferentes existem em cada coluna do `DataFrame`?

In [None]:
patterns.nunique()

A operação `nunique` conta o número de observações distintas e retorna uma série com essa contagem. Por padrão, a contagem é realizada ao longo do eixo das linhas (`axis=0` ou índice), como mostrado na saída acima. Podemos realizar a contagem no eixo da colunas usando o argumento `axis=1`.

---
**Q2.** Quantos valores diferentes existem para a coluna `padrao`?    

In [None]:
patterns['padrao'].nunique()

Para obter os valores únicos podemos utilizar a operação `unique` como mostrado abaixo:

In [None]:
patterns['padrao'].unique()

---
**Q3.** Quantas linhas de cada `padrao` existem no `DataFrame`?

<br/>

Nesse caso, precisamos realizar uma operação que agrupe as linha pelos valores da coluna `padrao` e então relize a contagem. O trecho de código abaixo utiliza o operador `groupby` para retornar um objeto que contém informação sobre grupos. Esse objeto é associado ao identificador `grupo_linhas`.

In [None]:
grupo_linhas = patterns.groupby(by='padrao')

grupo_linhas.count()

Se você estiver interessado na contagem apenas de uma das colunas, pode usar a seguinte estratégia:

In [None]:
grupo_linhas['padrao'].count()

Ou até mesmo usar a operação `value_counts` do tipo `Series`, como mostrado abaixo:

In [None]:
patterns['padrao'].value_counts()

A operação `value_counts` retorna uma série em ordem descendente, de maneira que o primeiro elemento é o que ocorre com maior frequência.

<br/>

Para maiores informações sobre operações com objetos do tipo `GroupBy`, consulte a [seguinte documentação](https://pandas.pydata.org/docs/reference/groupby.html).

---
**Q4.** Apresentar um gráfico de barras com a contagem de cada padrão:

In [None]:
%matplotlib inline

import matplotlib.pyplot as plt

contagem = grupo_linhas['padrao'].count()

contagem.plot(kind='bar');

No trecho de código acima usamos o `operador []` para selecionar uma única coluna, o que resulta em um objeto do tipo `Series`:

In [None]:
type(patterns['c_PSMetric'])

---
**Q5.** Qual é o valor mínimo em cada coluna?

<br/>

A operação `min` aplicada a um `DataFrame` computa o valor mínimo para cada coluna:

In [None]:
patterns.min()

Se quisermos computar o valor mínimo para uma coluna específica, como por exemplo a coluna `c_PSMetric`, podemos fazer uma seleção e, então utilizar a operação `min` como mostrado abaixo:

In [None]:
patterns['c_PSMetric'].min()

-----------
**Q6.** Qual o valor minímo de cada coluna desconsiderando as linhas com valores de `c_PSMetric` diferentes de zero?

In [None]:
patterns[ patterns.c_PSMetric != 0 ].min()

Se estivéssemos interessados no valor mínimo apenas da coluna `c_PSMetric` considerando valores diferentes de zero, poderíamos usar a seguinte construção:

In [None]:
patterns[ patterns.c_PSMetric != 0 ]['c_PSMetric'].min()

---
**Q7.** Quantos valores estão faltando em cada coluna?

<br/>

Os métodos `isnull` e `notnull` das estruturas de dados do `Pandas` possibilitam trabalhar a ocorrência de valores nulos. Essas duas operações retornam uma máscara booleana, como pode ser visto na saída dos comandos abaixo:

In [None]:
patterns.isnull()

In [None]:
patterns.notnull()

Para contar o número de células que não possuem valores em cada coluna, podemos utilizar a operação `isnull` para construir um `DataFrame` com valores booleanos e em seguida aplicar o operador `sum`, conforme mostrado abaixo:

In [None]:
patterns.isnull().sum()

Outra solução para realizar a contagem acima seria obter o número total de linhas do `DataFrame`, com a função `len` e, então, subtrair este valor da série contendo a contagem de valores diferentes de `NaN` em cada coluna.

<br/>

Portanto, o número de linhas do `DataFrame` pode ser obtido com a seguinte expressão:

In [None]:
len(patterns)

A série contendo a contagem de valores diferentes de `NaN` em cada coluna pode ser obtida com a seguinte expressão:

In [None]:
patterns.count()

Combinando as duas ideias na expressão abaixo, obtemos a quantidade de células com `NaN` em cada coluna:

In [None]:
len(patterns) - patterns.count()

Existem várias formas de computar algumas informações. O exemplo anterior ainda poderia ser computado com a seguinte expressão:

In [None]:
len(patterns.index) - patterns.count()

---
**Q8.** Quais as linhas que possuem ``NaN`` na coluna ``c_EDMetric``?

In [None]:
patterns[ patterns['c_EDMetric'].isnull() ]

---
**Q9.** Quantas observações estão completas, isto é, não estão faltando valores?

<br/>

Através da operação `dropna` podemos criar um novo `DataFrame` contendo apenas colunas que não contenham valores `NaN`:

In [None]:
ndf = patterns.dropna(axis=1)

ndf

---
**Q10.** Quantas observações completas existem para cada valor de `padrao`?

<br/>

No exemplo anterior, utilizamos a operação `dropna` ao longo do `eixo-1`, isto é, das colunas. Desta vez, usaremos a operação `dropna` para remover as linhas que contenham alguma observação com o valor `NaN`:

In [None]:
ndf = patterns.dropna(axis=0)

ndf['padrao'].value_counts()

---
**Q11.** Adicionar uma nova coluna chamada `idx` que seja o somatório dos valores das colunas `Lin` e `Col`:

In [None]:
patterns['idx'] = patterns['Lin'] + patterns['Col']

Como podemos observar na saída gerada pela expressão abaixo, a coluna `idx` foi adicionada ao nosso `DataFrame`:

In [None]:
patterns[:10]

---
**Q12.** Copiar um `DataFrame`:

In [None]:
copia_df = patterns.copy()

# Considerações Finais
---

Nesta aula, aprendemos um pouco sobre a manipulação de dados tabulares com o `Pandas`. Na próxima aula iremos ver como usar uma estrutura de dados similar para manipulação de dados geoespaciais.