<img src='https://camo.githubusercontent.com/175fa296ff3ddb5a764a788aee45420ba6189ff2dfa28076122797af89599599/68747470733a2f2f64726976652e676f6f676c652e636f6d2f75633f6578706f72743d766965772669643d3153415142706f71477a42354354396c77786a3154306830715655357036736457' width=200 style="float:center">

# Pandas
---
**Índice:**
1. [Introdução](#I.-Introdução)
2. [Objetos](#II.-Objetos)
3. [Seleção](#III.-Seleção)
4. [Operações](#IV.-Operações)
5. [Junção de dados](#V.-Junção-de-dados)
6. [Agrupamento](#VI.-Agrupamento)
7. [Reformatando](#VII.-Reformatando)
8. [Séries temporais](#VIII.-Séries-temporais)
9. [Categorização](#IX.-Categorização)
10. [Gráficos](#X.-Gráficos)
11. [Entrada e saída de dados](#XI.-Entrada-e-saída-de-dados)
12. [Outros problemas](#XII.-Outros-problemas)

<img src="https://images.all-free-download.com/images/graphiclarge/laurent_panda_point_d_interrogation_clip_art_19227.jpg" style="float:left" width=100pt></img>
**Fontes:**
* [Pandas Documentation](https://pandas.pydata.org/docs/)
* [Pandas User Guide](https://pandas.pydata.org/docs/user_guide/index.html)
* [Pandas Getting Started](https://pandas.pydata.org/docs/getting_started/index.html)
* [10 minutes to pandas](https://pandas.pydata.org/docs/user_guide/10min.html)
* [Bancos de dados](https://pt.wikipedia.org/wiki/Banco_de_dados) (para aprimorar os conhecimentos)
    * [SQL](https://www.w3schools.com/sql/default.asp)

In [1]:
%%HTML
<iframe width="560" height="315" src="https://www.youtube.com/embed/videoseries?list=PLdI5ScTnQlX_giV-8vTYgMrZ7JdFBRFeD" title="YouTube video player" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture" allowfullscreen></iframe>

## I. Introdução
---
**Vídeo:** https://youtu.be/0nF8mkVdc1c

A ideia da biblioteca Pandas é realizar operações rápidas em um uma estrutura de dados como um banco de dados ou uma planilha.

O Pandas utiliza muito do processamento e das características do NumPy.

> **Dicas:**
* Biblioteca é exetremamente vasta, sempre estude um pouco mais para conhecer novos métodos.
* *Não se deixe empacar por algum método do Pandas que você não está conseguindo utilizar*, existirá outras *N* formas de resolver o mesmo problema utilizando outros métodos.
* É interessante começar a estudar um pouco sobre **banco de dados**, pois muito  do que o Pandas é capaz de fazer está relacionado com operações que são realizadas nessas estruturas.

Importação de bibliotecas.

In [None]:
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd

## II. Objetos
---
**Índice**
1. [Series](#1-Series)
2. [DataFrame](#2-DataFrame)
3. [Index](#3-Index)

**Fontes:**
* [Data Structure Intro section](https://pandas.pydata.org/docs/user_guide/dsintro.html#dsintro).


### 1 Series
**Vídeo:** https://youtu.be/KJS8gNM8yV4

Um objeto `pd.Series` retrata um np.ndarray 1-D com índices nomeados.

```python
pd.Series(
    data=None,     # Dados de entrada: array-like, Iterable, dict ou scalar value
    index=None,    # Índice: array-like ou Index (1-D)
    dtype=None,    # Tipo dos dados, opcional: str, np.dtype ou ExtentionDtype
    name=None,     # Nome da série, opcional: str
    copy=False,    # Se deve copiar os dados de "data": bool
)
```

Criando um [`pd.Series`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.html#pandas.Series) com uma lista de valores. O pandas criará o índice com inteiros:

In [None]:
s = pd.Series([1, 3, 5, np.nan, 6, 8], index=list('abcdef'), name='Serie1')
s

#### Exercício 1
Crie dois objeto Series distintos:
* nome das variáveis: `s1_ex01` e `s2_ex01`
* nomeados,
* com valores inteiros aleatórios de distribuição uniforme,
* tamanho 10
* índice 0 a 9

### 2 DataFrame
**Vídeo:** https://youtu.be/KJS8gNM8yV4

* Dados tabelados em duas dimensões,
* possivelmente heterogêneos,
* linhas e colunas nomeadas,
* operações aritméticas em linhas ou colunas
* Pode ser imaginado como um `dict` de `pd.Series`.

```python
pd.DataFrame(
    data=None,    # ndarray (structured or homogeneous), Iterable, dict, or DataFrame
    index=None,   # Index ou array-like, padrão: RangeIndex
                  # Índice das linhas
    columns=None, # Index ou array-like
                  # Cabeçalho (índice) das colunas
    dtype=None,   # dtype
                  # Força o tipo de dado. Se None, infere.
)
```

#### Criando um [`DataFrame`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.html#pandas.DataFrame)


Com colunas nomeadas e índice definido:

Entradas:
* NumPy array (np.array),
* datetime (será o índice).

In [None]:
df = pd.DataFrame(np.random.randn(6, 4), columns=list('ABCD'))
df

`pd.DataFrame` de um `dict`

*O `dict` deve conter objetos que podem ser convertidos em series-like*.

In [None]:
df2 = pd.DataFrame(
    {'A': 1.,
     'B': pd.Timestamp('20130102'),
     'C': pd.Series(1, index=list(range(4)), dtype='float32'),
     'D': np.array([3] * 4, dtype='int32'),
     'E': pd.Categorical(["test", "train", "test", "train"]),
     'F': 'foo'})
df2

O `DataFrame` resulante possui colunas de diferentes [dtypes](https://pandas.pydata.org/docs/user_guide/basics.html#basics-dtypes).

In [None]:
df2.dtypes

Existem inúmeros métodos para um `DataFrame`:
```
df2.<TAB>
df2.A              df2.append(          df2.boxplot(
df2.B              df2.apply(           df2.clip(
df2.C              df2.applymap(        df2.clip_lower(
df2.D              df2.as_blocks(       df2.clip_upper(
df2.E              df2.as_matrix(       df2.columns
df2.F              df2.asfreq(          df2.combine(
df2.T              df2.asof(            df2.combine_first(
df2.abs(           df2.assign(          df2.compound(
df2.add(           df2.astype(          df2.copy(
df2.add_prefix(    df2.at(              df2.corr(
df2.add_suffix(    df2.at_time(         df2.corrwith(
df2.agg(           df2.axes             df2.count(
df2.aggregate(     df2.between_time(	df2.cov(
df2.align(         df2.bfill(           df2.cummax(
df2.all(		   df2.blocks           ...
df2.any(		   df2.bool(
```

Tente aqui:

In [None]:
# df2. # Coloque o cursor depois do "." e aperte o TAB do teclado (ou CTRL + Espaço caso esteja usando outra plataforma que não o Jupyter Notebook)

#### Exercício 2
Junte as Series criadas no [Exercício 1](#Exercício-1), `s1_ex01` e `s2_ex01` em um `DataFrame`:
* nome da variável: `df1_ex02`
* dtype: ponto flutuante
* acrescente mais uma coluna `'s03'` com valores `np.nan`

#### Atributos `indices` & `columns`
**Vídeo:** https://youtu.be/QWB_JuL4QlI

In [None]:
df.index

In [None]:
df.columns

#### Atributos `shape`& `size`

In [None]:
df.shape

In [None]:
df.size

#### Métodos `head()` & `tail()`
```python
df.head(
    n=5 # Mostra as n primeiras linhas: int
) 
df.tail(
    n=5 # Mostra as n (5) últimas linhas: int
)
```

**Fontes:**
* [Basics](https://pandas.pydata.org/docs/user_guide/basics.html#basics).

In [None]:
df.head(3)

In [None]:
df.tail() # default de 5 linhas

#### Método `to_numpy()`

Retorna uma representação do Numpy dos dados com `dtype` comum a todos os valores no `DataFrame`.

**Obs:** Há custo computacional para avaliar cada `dtype` de cada valor no `DataFrame` e realizar cópias e conversões, isso o torna um método possivelmente lento.

```python
to_numpy(
    dtype=None, # str or numpy.dtype¹
                # dtype para passar para o método "numpy.asarray"²
    copy=False # bool, padrão: False
               # True -> Garante que a aída é uma cópia e não
               # uma visualização de um outro array.
               # **False não garante que não será feita uma cópia
)
```

**Fontes:**
* [`to_numpy`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.to_numpy.html#pandas.DataFrame.to_numpy)
* [`numpy.dtype`](https://numpy.org/doc/stable/reference/generated/numpy.dtype.html)
* [`numpy.asarray()`](https://numpy.org/doc/stable/reference/generated/numpy.asarray.html)

Para `df`, composto por valores `float`, `to_numpy()` retorna rapidamente o resultado, sem necessidade de cópia dos dados.

In [None]:
df

In [None]:
%%time
df.to_numpy()

Como o `DataFrame` `df2` possui múltiplos **dtypes**, o método se torna relativamente custoso.

In [None]:
df2

In [None]:
%%time
df2.to_numpy()

>**Nota:**
* `DataFrame.to_numpy()` não inclui os rótulos (linhas ou colunas) na saída.

#### Método `describe()`
Estatística rápida dos dados.

In [None]:
df.describe()

#### Método `T`
Transposição dos dados:

In [None]:
df.T

#### Método `sort_index()`
Ordenando na direção do rótulo.

In [None]:
df.sort_index(axis=0, ascending=False)

In [None]:
df.sort_index(axis=1, ascending=False)

#### Método `sort_values()`
Ordenando pelos valores:

In [None]:
df.sort_values(by='B')

#### Exercício 3
Com o `DataFrame` `df1_ex02` criado no [Exercício 2](#Exercício-2):
* nome da variável: `df1_ex03`
* ordene de forma decrescente o `df1_ex02` pela coluna de `s1_ex01`;
* verifique o que faz e aplique o método `reset_index` nos dados resultantes;
* faça a estatística básica dos seus dados.


### 3 Index
Como vimos, os índices são um diferencial para as estruturas do Pandas, vamos dar uma olhada no que são capazes.

**Vídeo:** https://youtu.be/9Sn2QpPawwI

**Fontes:**
* [Indexing](https://pandas.pydata.org/pandas-docs/stable/reference/indexing.html)



#### Numeric Index
```python
RangeIndex([start, stop, step, dtype, copy, …]) # Immutable Index implementing a monotonic integer range.
Int64Index([data, dtype, copy, name])           # Immutable sequence used for indexing and alignment.
UInt64Index([data, dtype, copy, name])          # Immutable sequence used for indexing and alignment.
Float64Index([data, dtype, copy, name])         # Immutable sequence used for indexing and alignment.
```
Quando não informamos o índice de uma serie ou tabela ao Pandas, ele automaticamente cria um índice `pd.RangeIndex` com tamanho igual ao número de dados.

In [None]:
pd.Series(range(100)).index

Semelhante a `range`e `np.arange`.

In [None]:
pd.RangeIndex(start=1, stop=10., step=2)

O que tem dentro dessa caixa preta?

In [None]:
[i for i in pd.RangeIndex(start=1, stop=10., step=2)]

In [None]:
pd.Series(np.random.rand(10), index=pd.RangeIndex(1, 20, 2), name='RangeIndex')

#### CategoricalIndex
```python
CategoricalIndex([data, categories, …]) # Index based on an underlying Categorical.
```
Um índice categórico pode ser imaginado como por exemplo uma linha nomeada por uma palavra em uma planilha. Serão mais explorados em [9. Categorização](#9.-Categorização).

In [None]:
pd.CategoricalIndex(list('abcdacb'))

In [None]:
idx = pd.CategoricalIndex(list('cdacb'), ordered=True, categories=list('dbac'))
print('Agora temos um mínimo "%s" e um máximo "%s" definidos.'%(idx.min(), idx.max()))

#### IntervalIndex
```python
IntervalIndex(data[, closed, dtype, copy, …]) # Immutable index of intervals that are closed on the same side.
```
Este é um tipo de índice com intervalos, normalmente construído com o método `pd.interval_range`.

In [None]:
i_idx = pd.interval_range(start=15, end=25, periods=5, closed='right')
i_idx

In [None]:
pd.DataFrame([10, 50, 30, 10, 5], index=i_idx, columns=['Contagem de alunos pela idade'])

#### DatetimeIndex
```python
DatetimeIndex([data, freq, tz, normalize, …]) # Immutable ndarray-like of datetime64 data.
```
Este é um índice para séries temporais com data e hora. Um jeito fácil de criar um `DatetimeIndex` é utilizando o `pd.date_range`.

In [None]:
pd.date_range(
    start='20200101',
    end='20210301',
    periods=6,
)

In [None]:
pd.date_range(
    start='20200101',
    end='20200101 00:59:59',
    freq='s',
)

#### Exercício 4
Faça o que se pede:
* crie um `DatetimeIndex`:
    * nome da variável: `dates1_ex04`
    * começando em *01/01/2021*,
    * com frequência de amostragem de *1 h*,
    * com *10 períodos*,
    * **dica:** utilize o método `date_range()`;
* crie um `DataFrame`:
    * nome da variável: `df1_ex04`,
    * índice: `dates_ex04`,
    * valores e nomes das colunas idênticos ao `df1_ex03` do [Exercício 3](#Exercício-3).

## III. Seleção
---
**Vídeo:** https://youtu.be/HyddRgytuuQ

**Índice:**
1. [Seleção](#1-Seleção)
2. [Seleção por rótulo](#2-Seleção-por-rótulo)
3. [Seleção multi-eixo](#3-Seleção-multi-eixo)
4. [Seleção pela posição](#4-Seleção-pela-posição)
5. [Indexação por Booleano](#5-Indexação-por-Booleano)
6. [Configurando](#6-Configurando)
7. [Reindexar](#7-Reindexar)
7. [Dados Faltantes](#8-Dados-Faltantes)

A *seleção* é um método de bancos de dados onde a massa de dados é filtrada através de alguma especificação do usuário e é gerada uma visualozação dos dados filtrados.

Enquanto as expressões padrão Python/Numpy para seleção e alteração são intuitivas, no trabalho com o pandas existem métodos otimizados de acesso aos dados: ``.at``, ``.iat``, `.loc` e `.iloc`.

**Fontes:**
* [Bancos de dados: SELECT](https://pt.wikipedia.org/wiki/Select_(SQL))
* [Indexing](https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#indexing)
* [Advanced](https://pandas.pydata.org/pandas-docs/stable/user_guide/advanced.html#advanced).

### 1 Seleção

Selecionando uma coluna para produzir uma `Series`

In [None]:
df['A']

Selecionando uma coluna para produzir um `DataFrame`.

In [None]:
df[['A']]

Seleção de linhas por `[ ]`:

In [None]:
df[0:3] # índices inteiros

Quando temos um índice do tipo `DatetimeIndex`.

In [None]:
dates = pd.date_range('20130101', periods=6)
df.index = dates
df

In [None]:
df['20130102':'20130104'] # Índices com os nomes das linhas

### 2 Seleção por rótulo
**Fonte:**
* [Indexing by Label](https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#indexing-label).

Seleção de linha por rótulo:

In [None]:
df.loc[dates[0]]

### 3 Seleção multi-eixo

Por rótulo de coluna:

In [None]:
df.loc[:, ['A', 'B']]

*Slicing* de linhas e por rótulo de coluna. **O intervalo é fechado**

In [None]:
df.loc['20130102':'20130104', ['A', 'B']]

Especificação de colunas e linhas:

In [None]:
df.loc['20130102', ['A', 'B']]

Obtendo um único valor:

In [None]:
df.loc[dates[0], 'A']

Acesso rápido à um valor:

In [None]:
df.at[dates[0], 'A']

### 4 Seleção pela posição
**Fontes:**
* [Selection by Position](https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#indexing-integer).

Seleção com entrada de índice inteiro:

In [None]:
df.iloc[3]

Slicing multi-eixo com inteiros, similar ao Numpy/Python:

In [None]:
df.iloc[3:5, 0:2]

Seleção com inteiros, similar ao Numpy/Python:

In [None]:
df.iloc[[1, 2, 4], [0, 2]]

Slicing linhas:

In [None]:
df.iloc[1:3, :]

Slicing colunas:

In [None]:
df.iloc[:, 1:3]

Obter um valor:

In [None]:
df.iloc[1, 1]

Acesso rápido (equivalente a `.at`):

In [None]:
df.iat[1, 1]

### 5 Indexação por Booleano

Condicional em determinada coluna, utilizando rótulo:

In [None]:
df['A'] > 0

In [None]:
df.loc[df['A'] > 0]

Condicional de `DataFrame` inteiro:

In [None]:
df[df > 0]

Usando o método [isin()](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.isin.html#pandas.Series.isin) para filtrar:

In [None]:
df2 = df.copy()
df2['E'] = ['one', 'one', 'two', 'three', 'four', 'three']
df2

In [None]:
df2[df2['E'].isin(['one', 'four'])]

### 6 Configurando
**Vídeo:** https://youtu.be/8r4AHIhiC-I

Configurando uma nova coluna alinhando automaticamente aos índices das linhas.

In [None]:
# Criando o índice de datas
dates = pd.date_range('20130102', periods=5)
dates

In [None]:
# Criando o objeto do tipo Series
s1 = pd.Series([1, 2, 3, 4, 5], index=dates)
s1

In [None]:
# Alinhando o Series s1 ao df através de uma nova coluna 'F'
df['F'] = s1
df

In [None]:
# Configurando valores por rótulo
df.at['20130102', 'A'] = 0
df

In [None]:
# Configurando valores por posição
df.iat[0, 1] = 0
df

In [None]:
# Configurando com um array Numpy
df.loc[:, 'D'] = np.array([5] * len(df))
df

Operação de seleção com configuração.

In [None]:
df2 = df.copy()

# Invertendo o sinal de todos os valores de df2 para negativo
df2[df2 > 0] = -df2

df2

### 7 Reindexar
Permite trocar/adicionar/deletar o índice em um eixo específico.

Retorna uma cópia dos dados

In [None]:
df

In [None]:
# Adiciona uma nova coluna com os índices já existentes
df1 = df.reindex(index=dates[0:4], columns=list(df.columns) + ['E'])
df1

In [None]:
# Insere o valor 1 nas duas primeiras linhas de 'E'
df1.loc[dates[0]:dates[1], 'E'] = 1
df1

## IV. Operações
---
**Vídeo:** https://youtu.be/nhcP3oY9ry8

**Índice:**
1. [Estatística](#1-Estatística)
2. [Broadcasting](#2-Broadcasting)
3. [Aplicação de funções](#3-Aplicação-de-funções)
4. [Histogramas](#4-Histogramas)
5. [Métodos de String](#5-Métodos-de-String)
6. [Dados Faltantes](#6-Dados-Faltantes)
7. [Janela Móvel](#7-Janela-Móvel)

Obviamente desejamos realizar operações com os dados que possuímos, portanto veremos como operar com os dados com auxílio dos métodos do Pandas.

**Fontes:**
* [Basic section on Binary Ops](https://pandas.pydata.org/docs/user_guide/basics.html#basics-binop).

### 1 Estatística
No geral, excluem os dados faltantes (NaN).

Estatística descritiva:

In [None]:
df.mean()

Agora no eixo das linhas:

In [None]:
df.mean(axis=1)

Criando um `DataFrame` com as estatísticas.

In [None]:
pd.DataFrame([df.mean(), df.std(), df.var(), df.min(), df.max()],
             index=['mean', 'std', 'var', 'min', 'max'])

In [None]:
df.corr()

In [None]:
df.cov()

### 2 Broadcasting

Operando com objetos de dimensões diferentes, o Pandas automaticamente realiza o Broadcasting na dimensão que necessita de alinhamento.

In [None]:
# Cria uma série em Pandas com os valores inseridos.
# Desloca os dados em duas linhas para baixo
dates = pd.date_range('20130101', periods=6)
s = pd.Series([1, 3, 5, np.nan, 6, 8], index=dates).shift(2)
s

In [None]:
# Subtrai df de s através da direção index (linha)
# Mesmo efeito de `DataFrame` - other, porém é possível especificar o eixo da operação e como preencher os NaN's
df.sub(s, axis='index')

De forma equivalente:

|Função|Operação|
|-|-|
|`add`|`+`|
|`sub`|`-`|
|`mul`|`*`|
|`div`|`/`,`//`|
|`mod`|`%`|
|`pow`|`**`|

### 3 Aplicação de funções
Aplicar funções aos dados:

In [None]:
df

In [None]:
df.apply(np.cumsum)

In [None]:
# Criar uma função lambda, função rápida
foo = lambda x: x.max() - x.min()
# def foo(x):
#     return x.max() - x.min()
df.apply(foo, axis=1)

#### Lambdas
Expressões/Fórmulas são usadas para friar funções anônimas
```python
def <lambda>(parameters):
    return expression

# lambda equivalente
lambda parameters: expression
```

### 4 Histogramas
**Fontes:**
* [Histogramming and Discretization](https://pandas.pydata.org/docs/user_guide/basics.html#basics-discretization).

Contagem de valores.

In [None]:
s = pd.Series(np.random.randint(0, 7, size=10))
s

In [None]:
s.value_counts()

In [None]:
hist = pd.Series(np.random.randn(200)).value_counts(bins=10, sort=False)
hist

Calculando as probabilidades de cada intervalo.

In [None]:
P = hist/hist.sum()
P

Plotando.

In [None]:
# Criando figura e eixos
fig, ax = plt.subplots(figsize=(15,5))
ax2 = ax.twinx()
# Gráfico de barras
ax.bar(range(hist.shape[0]), hist, facecolor='k')
ax.legend(['Frequência'], loc=1)
# Gráficos de linhas
ax2.plot(range(hist.shape[0]), P, 'r',
         range(hist.shape[0]), P.cumsum(), 'g')
ax2.legend(['Probabilidade', 'Probabilidade Acumulada'], loc=2)
# Ajustes finais
ax.set_xticks(range(hist.shape[0]))
ax.set_xticklabels(labels=hist.index, rotation=90)
plt.show()

#### Exercício 5
Transforme o código acima em uma função `plot_hist(s, bins=20)` que possua como entrada somente o objeto `Series` e o número de `bins`, plote o histograma e retorne uma `Series` com as frequências dos dados nos intervalos dos bins, conforme exemplificado na variável `hist` acima.
Faça também:
* entenda como foi gerado o gráfico do plot acima recorrendo às documentações das bibliotecas;
* busque uma forma de juntar as legendas dos gráficos de linhas e de barras;
    * **dica:** pesquise no google com a busca em inglês;
* aplique a função às `Series` `s1_ex01` e `s2_ex01` do [Exercício 1](#Exercício-1), variando o `bins`;
* utilizando o exemplo que gerou a variável `hist`, crie um objeto `Series` de *50* números aleatórios com distribuição normal, média *5* e variância *25*;
* aplique a função criada para gerar o gráfico.

### 5 Métodos de String

É possível utilizar métodos de processamento de `str` para tratar `Series`.

**Fontes:**
* Regular Expressions
    * [Teste e aprenda](https://regexr.com/)
    * [Python - RE](https://docs.python.org/3/library/re.html)
* [Vectorized String Methods](https://pandas.pydata.org/pandas-docs/stable/user_guide/text.html#text-string-methods).

In [None]:
s = pd.Series(['A', 'B', 'C', 'Aaba', 'Baca', np.nan, 'CABA', 'tdog0', 'cat'])
s.str.lower()

Exemplo de `replace` utilizando RE.
Substituir a `str` (iniciada por 1 caractere qualquer + `a`) OU possuir `dog`) por `XX- `
* `^` -> começado por
* `.` -> qualquer caractere
* `a|dog`

In [None]:
s.str.replace('^.a|dog', 'XX- ', case=False)

### 6 Dados Faltantes

Pandas usa por padrão `np.nan` para representação de dados faltantes.

Esses dados não são incluídos em cálculos.

**Fonte:**
* [Missing Data section](https://pandas.pydata.org/pandas-docs/stable/user_guide/missing_data.html#missing-data).

Remover as linhas que possuem dados faltantes (NaN):

In [None]:
df1

In [None]:
df1.dropna(how='any') # axis=0

Populando dados faltantes (NaN):

In [None]:
df1.fillna(value=5)

Preencher `nan` com os métodos `df.bfill()`, `df.ffill()`.

In [None]:
df

In [None]:
df.bfill()

In [None]:
df.ffill(axis=1)

Obter a boolean-mask das posições dos NaN's.

In [None]:
pd.isna(df)

#### Exercício 6
Simulando a coleta de dados no PI ou em algum outro banco de dados, vamos criar um `Dataframe` com *10000* pontos e dados de *3* sensores. É pedido que:
* crie um `Dataframe` com os dados de *3* sensores:
    * nome da variável: `df1_ex06`
    * colunas: `['PT_01', 'PT_02', 'PT_03']`
    * índice: `DatetimeIndex`
        * start: *01/01/2021*
        * freq: *1 min*
    * sensores:

|PT|`bias`<br>`[bar]`|`erro`<br>`[%]`|
|-|-|-|
|`PT-01`|*2*|*6*|
|`PT-02`|*0*|*5*|
|`PT-03`|*-3*|*3*|

Os valores obedecem a equação $PT = 300 + 10\bigg(1-e^{-t/1440}\bigg)$

>Onde:
1. $PT$ : pressão em *bar* que o sensor está medindo,
2. $t$ : tempo em *min*;

* aplique o `nan_generator` ao `DataFrame` criado,
    * esta função retornará alguns pontos como `np.nan` e outros como uma `str` `'nan'`.
    * utilize o método `df1_ex06.apply()` com a função `to_numeric` para transformar as *strings* em valores numéricos;
* utilize o método `df1_ex06.plot(figsize=(15, 5), alpha=.6, grid=True, xlabel='t [dias]', ylabel='P [bar]')` para plotar os dados gerados e visualise seus resultados;
* teste também uma das funções para lidar com dados faltantes `fillna` ou `dropna`.

**Notas:**
* a distribuição Normal $N(\mu, \sigma)$ indica que:
    * os dados estão centrados em $\mu$,
    * *99,8 %* dos dados está concentrado entre $[\mu - 3\sigma, \mu + 3\sigma]$;
* a média ($\mu$) dos dados é o `bias`;
* $3\sigma$ é o `erro` $(\varepsilon)$;
    * o erro está relacionado à faixa de medição, portanto, por conveniência, pode-se considerar uma porcentagem do valor inicial *300 bar*:

$$[PT - \varepsilon, PT + \varepsilon] = PT + N(\mu = bias, \sigma = 300 \times \varepsilon/3) $$

In [None]:
def nan_generator(df):
    df1 = df.copy()
    for column in df.columns:
        n_data = df.shape[0]
        
        nans = [.3, .5] # % de np.nan
        errors = [.1, .2] # % de 'nan'

        n_nan = np.random.randint(int(nans[0]*n_data),
                                  int(nans[1]*n_data))
        n_errors = np.random.randint(int(errors[0]*n_data),
                                     int(errors[1]*n_data))

        pos = np.random.choice(df.index, size=n_nan, replace=False)
        df1.at[pos, column] = np.nan
        
        pos = np.random.choice(df.index, size=n_errors, replace=False)
        df1.at[pos, column] = 'nan'
    return df1

### 7 Janela Móvel
Utilizando-se o método `rolling` podemos analisar uma janela móvel dos dados.
```python
df.rolling(
    window,           # Tamanho da janela: int, offset
    min_periods=None, # Número mínimo de observações em uma janela, c.c. retorna NA: int
    center=False,     # Configura o índice da resposta para o centro da janela: bool
    axis=0,           # Eixo para aplicar a janela: int
    closed=None       # Onde o intervalo é fechado: {'right', 'left', 'both', 'neither'}
                      # Default janelas de offset: 'right'.
                      # Default janelas fixas: 'both'.
)
```

In [None]:
df

In [None]:
dfr = df.rolling(3)
dfr

In [None]:
dfr.sum() # default: closed='right'

A janela por [`offset`](https://pandas.pydata.org/pandas-docs/stable/user_guide/timeseries.html#offset-aliases) rolará uma janela variável de acordo com o tempo especificado.

In [None]:
df0 = pd.DataFrame({'B': [0, 1, 2, np.nan, 4]},
                   index = [pd.Timestamp('20130101 09:00:00'),
                            pd.Timestamp('20130101 09:00:02'),
                            pd.Timestamp('20130101 09:00:03'),
                            pd.Timestamp('20130101 09:00:05'),
                            pd.Timestamp('20130101 09:00:06')])
df0

In [None]:
df0.rolling('2s').sum() # default: closed='both'

## V. Junção de dados
---
**Índice:**
1. [Concat](#1-Concat)
2. [Merge](#2-Merge)

**Vídeo:** https://youtu.be/u1v0JTomz9g

Combinação de objetos `Series` e `DataFrame`.

Utiliza vários tipos de lógica de conjuntos para indexação e álgebra relacional para operações de inclusão e união.

**Fontes:**
* [Merging section](https://pandas.pydata.org/pandas-docs/stable/user_guide/merging.html#merging).

### 1 Concat
```python
pd.concat(
    objs: Union[Iterable[~FrameOrSeries], Mapping[Union[Hashable, NoneType], ~FrameOrSeries]],
    axis=0,
    join='outer',
    ignore_index: bool = False,
    keys=None,
    levels=None,
    names=None,
    verify_integrity: bool = False,
    sort: bool = False,
    copy: bool = True
)
```

Concatenação de objetos Pandas com [`pd.concat()`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.concat.html#pandas.concat):

In [None]:
# Cria um `DataFrame` com números aleatórios com distribuição normal
df1 = pd.DataFrame(np.random.randn(3, 1))
df2 = pd.DataFrame(np.random.randn(4, 1))

In [None]:
pd.concat([df1, df2])

In [None]:
pd.concat([df1, df2], ignore_index=True)

In [None]:
pd.concat([df1, df2], axis=1)

**Nota**
1. Adicionar uma coluna a um `DataFrame` é rápido.
2. Adicionar uma linha requer cópias e é mais demorado.
3. É recomendável passar a lista de dados na hora de construir o `DataFrame` ao invés de incrementá-lo de forma iterativa.
**Fonte:**
* [Appending to `DataFrame`](https://pandas.pydata.org/pandas-docs/stable/user_guide/merging.html#merging-concatenation).

### 2 Merge
Merge no estilo SQL.

**Fontes:**
* [Database style joining](https://pandas.pydata.org/pandas-docs/stable/user_guide/merging.html#merging-join).

In [None]:
left = pd.DataFrame({'key': ['foo', 'foo'], 'lval': [1, 2]})
left

In [None]:
right = pd.DataFrame({'key': ['foo', 'foo'], 'rval': [4, 5]})
right

Junta os `Dataframes` quando possuírem a chave *key* iguais.

In [None]:
pd.merge(left, right, on='key')

Outro exemplo

In [None]:
left = pd.DataFrame({'key': ['foo', 'bar'], 'lval': [1, 2]})
left

In [None]:
right = pd.DataFrame({'key': ['foo', 'bar'], 'rval': [4, 5]})
right

In [None]:
pd.merge(left, right, on='key')

#### Exercício 7
Utilizando o `df1_ex06` do [Exercício 6](#Exercício-6), faça duas janelas móveis: uma que verifique o desvio padrão e a outra que verifique a média dos sensores em uma janela de $30$ *minutos*. Essa análise indicará se o sensor está com muito ruído, indicando que pode precisar de manutenção.

Crie um novo `DataFrame` com as seguintes características:
* nome da variável: `df1_ex07`;
* colunas: `['PT_01_AL', 'PT_02_AL', 'PT_03_AL']`
* valores:
$\cfrac{std(window=30\ min)}{mean(window=30\ min)} > 2 \% \rightarrow$ *Alarme ativado*;
    * ou seja, se a *divisão* do desvio padrão `std` pela média `mean` da janela for superior a *2%* o alarme deve ser ativado;
* analise qual dos três sensores mais teve alarmes de desvio padrão;
* Crie um `DataFrame` `df2_ex07` com a união de`df1_ex06` e `df1_ex07`.

## VI. Agrupamento
---
O agrupamento se refere a:
* **Splitting**: Segregar dados em grupos através de algum critério e/ou
* **Applying**: Aplicar uma função à grupos de forma independente e/ou
* **Combining**: Combinar os resultados em uma estrutura.

**Fonte:**
* [Grouping](https://pandas.pydata.org/pandas-docs/stable/user_guide/groupby.html#groupby).

In [None]:
df = pd.DataFrame({'A': ['foo', 'bar', 'foo', 'bar',
                         'foo', 'bar', 'foo', 'foo'],
                   'B': ['one', 'one', 'two', 'three',
                         'two', 'two', 'one', 'three'],
                   'C': np.random.randn(8),
                   'D': np.random.randn(8)})
df

Agrupando e aplicando o método [`DataFrame.sum()`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.sum.html#pandas.DataFrame.sum).

In [None]:
df.groupby('A').sum()

Indexando de forma hierárquica (agrupando por múltiplas colunas):

In [None]:
df.groupby(['A', 'B']).sum()

## VII. Reformatando
---
**Índice:**
1. [Tabelas dinâmicas](#1-Tabelas-dinâmicas)

**Fontes:**
* [Hierarchical Indexing](https://pandas.pydata.org/pandas-docs/stable/user_guide/advanced.html#advanced-hierarchical)
* [Reshaping](https://pandas.pydata.org/pandas-docs/stable/user_guide/reshaping.html#reshaping-stacking).

### 1 Tabelas dinâmicas

**Fontes:**
* [Pivot Tables](https://pandas.pydata.org/pandas-docs/stable/user_guide/reshaping.html#reshaping-pivot).

In [None]:
df = pd.DataFrame({'A': ['one', 'one', 'two', 'three'] * 3,
                   'B': ['A', 'B', 'C'] * 4,
                   'C': ['foo', 'foo', 'foo', 'bar', 'bar', 'bar'] * 2,
                   'D': np.random.randn(12),
                   'E': np.random.randn(12)})
df

In [None]:
pd.pivot_table(df, values='D', index=['C', 'B'], columns=['A'])

## VIII. Séries temporais
---
O Pandas trabalha com operações simples de reamostragem durante conversões de frequência (ex: amostragem em segundos para 5 minutos).

**Fontes**
* [Time Series section](https://pandas.pydata.org/pandas-docs/stable/user_guide/timeseries.html#timeseries).

#### Criando uma Time Serie
Criando a função $y = A\sin{(\omega t)}$ com $n$ pontos de amostragem. Onde:
- $\omega = 2\pi f$

In [None]:
sin = lambda A, f, t_max: A*np.sin(2*np.pi*f*(np.linspace(0, t_max, t_max)))
n = 10000
ts = pd.Series(sin(1, 3, n), index=pd.date_range('20200101', periods=n, freq='1S'))
ts.plot();

#### Reamostrando

In [None]:
ts.plot()
ts.resample('30S').sum().plot()
ts.resample('1Min').sum().plot()
plt.legend(['1S', '30S', '60S'])

In [None]:
pd.DataFrame({'ts': ts,
              'ts_5s': ts.resample('5S').mean(),
              'ts_10s': ts.resample('10S').mean()}).head(21)

In [None]:
pd.DataFrame(
    {'ts': ts,
     'ts_1min': ts.resample('1Min').mean()-.5,
     'ts_5min': ts.resample('5Min').mean()+.5}
).plot(style='o', figsize=(15,5), grid=True)

#### Exercício 8
Utilizando o `DataFrame` `df1_ex06`, reamostre a cada 5 min e a cada 10 min, criando respectivamente os `DataFrames` `df1_ex08` e `df2_ex08`. Visualize o resultado com o código:
```python
df1_ex06.plot(style='--', alpha=.5)
df1_ex08.plot(style='--', alpha=.5)
df2_ex08.plot(style='--', alpha=.5)
```

#### Fuso horário
Representação de Fuso horário (Time zone):

In [None]:
rng = pd.date_range('3/6/2012 00:00', periods=5, freq='D')
ts = pd.Series(np.random.randn(len(rng)), rng)
ts

In [None]:
ts_utc = ts.tz_localize('UTC')
ts_utc

Conversão para outro fuso:

In [None]:
ts_utc.tz_convert('US/Eastern')

#### Conversões
Conversão entre períodos de tempo:

In [None]:
rng = pd.date_range('1/1/2012', periods=5, freq='M')
ts = pd.Series(np.random.randn(len(rng)), index=rng)
ts

Conversão de `DatetimeIndex` para `PeriodIndex`.

In [None]:
ps = ts.to_period()
ps

Retorna para `DatetimeIndex`.

In [None]:
ps.to_timestamp()

## IX. Categorização
---
Uma categoria é capaz de expressar uma característica qualitativa do dado, o que pode facilitar o entendimento do problema e auxiliar na sua solução.

**Índice:**
1. [Criando categorias](#1-Criando-categorias)
2. [Agrupando dados](#2-Agrupando-dados)

**Vídeo:** https://youtu.be/xLg4FBweiKk

**Fontes:**
* [categorical introduction](https://pandas.pydata.org/pandas-docs/stable/user_guide/categorical.html#categorical)
* [API documentation](https://pandas.pydata.org/pandas-docs/stable/reference/arrays.html#api-arrays-categorical).

### 1 Criando categorias
Criando um `DataFrame` com notas categóricas:

|Nota|Categoria|
|:---:|:---:|
|**a**|muito bom|
|**b**|bom|
|**c**|regular|
|**d**|ruim|
|**e**|muito ruim|

In [None]:
df = pd.DataFrame({"id": [1, 2, 3, 4, 5, 6],
                   "nota_str": ['a', 'e', 'b', 'a', 'a', 'e']})
df

Convertendo em categorias:

In [None]:
df["nota"] = df["nota_str"].astype("category")
df

Renomeando as categorias (diretamente em `Series.cat.categories`).

In [None]:
df.nota.cat.categories

In [None]:
df["nota"].cat.categories = ["muito bom", "bom", "muito ruim"]
df

Reordenar e inserir todas as categorias:

In [None]:
df["nota1"] = df["nota"].cat.set_categories(["muito ruim", "ruim", "regular",
                                              "bom", "muito bom"])
df

Ordenando pela categoria, não por ordem alfabética:

In [None]:
df.sort_values(by="nota1")

### 2 Agrupando dados
Mostrando os dados agrupando pela categoria:

In [None]:
df.groupby("nota1").size()

#### Exercício 9
Crie as categorias dos sensores do [Exercício 8](#Exercício-8), que representam estados **mutuamente exclusivos** conforme segue:
* `N`: estado normal do sistema;
* `H`: alarme *High* (alto: $std/mean \ge 1,5\%$) - estado de atenção naquele ponto;
* `HH`: alarme *High High* (muito alto: $std/mean \ge 2,5\%$) - estado que indica um problema no sensor.

Agrupe os dados e faça a contagem de pontos em cada estado.

## XI. Gráficos
---
O Pandas permite gerar visualizações muito úteis com comandos simples, o que mostra o potencial de se utilizar essa biblioteca.

**Índice:**
1. [MatplotLib](#1-MatplotLib)
2. [Método `plot`](#2-Método-plot)

**Fontes:**
* [Plotting](https://pandas.pydata.org/pandas-docs/stable/user_guide/visualization.html#visualization).

### 1 MatplotLib

In [None]:
import matplotlib.pyplot as plt

In [None]:
ts = pd.Series(np.random.randn(1000),
               index=pd.date_range('1/1/2000', periods=1000))

ts_cs = ts.cumsum()

In [None]:
fig, ax = plt.subplots()

ax.plot(ts, label='Time Serie')
ax.plot(ts_cs, label='Acc Time Serie')

ax.set_xlabel('Tempo')
ax.set_ylabel('Valor')
ax.legend()
plt.xticks(rotation=30)

plt.show()


### 2 Método `plot`
**Fontes:**
* [`DataFrame.plot()`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.plot.html#pandas.DataFrame.plot)

Este método simplifica a geração da visualização.

In [None]:
df = pd.DataFrame({'Time Serie': ts,
                   'Acc Time Serie': ts_cs})
ax = df.plot(xlabel='Tempo',
             ylabel='Valor');

Gerando subplots.

In [None]:
ax = df.plot(subplots=True)

Explorando alguns parâmetros:

In [None]:
ax = df.plot(
    figsize=(15, 5),    # tamanho da figura
    alpha=.6,          # transparência
    title='Gráfico 1', # título
    grid=True,         # grade
    style='--x',       # estilo da linha
)

### 3 Outras visualizações

In [None]:
h = df.hist()

In [None]:
b = df.boxplot()

Dentre outras possibilidades!

#### Exercício 10
Utilize os valores de `df1_ex06` para gerar algumas visualizações. Explore a documentação do método `plot()` para fazer os gráficos.

Gere um histograma de $std/mean$ na janela móvel de *30 min* e observe como o sinal se comporta ao longo do tempo.

## XI. Entrada e saída de dados
---
**Índice:**
1. [CSV](#11.1-CSV)
2. [HDF5](#11.2-HDF5)
3. [Excel](#11.3-Excel)
4. [HTML](#4-HTML)
**Vídeo:** https://youtu.be/5DY3Rmfb-uI

### 1 CSV

Escrita ([store in csv](https://pandas.pydata.org/pandas-docs/stable/user_guide/io.html#io-store-in-csv)):

In [None]:
df.to_csv('foo.csv')

Leitura ([read csv table](https://pandas.pydata.org/pandas-docs/stable/user_guide/io.html#io-read-csv-table)):

In [None]:
pd.read_csv('foo.csv', index_col=0)

### 2 HDF5
`HDF5` é a biblioteca que possui funções de escrita e leitura rápida para trabalhar com um arquivo na memória.

`HDFStore` é um objeto estruturado como um `dict` quer realiza leitura e gravação de dados do pandas com o formato de alta eficiência `HDF5` utilizando PyTables.


**Fontes:**
* [HDFStores](https://pandas.pydata.org/pandas-docs/stable/user_guide/io.html#io-hdf5).
* [PyTables](https://www.pytables.org/)
* [HDF Cookbook](https://pandas.pydata.org/pandas-docs/stable/user_guide/cookbook.html#cookbook-hdf).

Escrita:

In [None]:
df.to_hdf('foo.h5', 'df')

Leitura:

In [None]:
pd.read_hdf('foo.h5', 'df')

### 3 Excel
**Fontes:**
* [Pandas IO Excel](https://pandas.pydata.org/pandas-docs/stable/user_guide/io.html#io-excel).

Escrita:

In [None]:
df.to_excel('foo.xlsx', sheet_name='Sheet1')

Leitura:

In [None]:
pd.read_excel('foo.xlsx', 'Sheet1', index_col=0, na_values=['NA'])

### 4 HTML
É possível buscar dados na internet com o método `read_html()`. O código em HTML da página é percorrido em busca de tabelas no HTML.

**Fontes:**
* [W3 HTML tables](https://www.w3schools.com/html/html_tables.asp)
* [`read_html`](https://pandas.pydata.org/docs/user_guide/io.html#io-read-html)
* [HTML Table Parsing gotchas](https://pandas.pydata.org/docs/user_guide/io.html#io-html-gotchas)

In [None]:
df2 = pd.read_html("https://raw.githubusercontent.com/pandas-dev/pandas/master/pandas/tests/io/data/html/spam.html")[0]
df2

Visualizando a tabela original.

In [None]:
from IPython.display import display, Markdown
display(Markdown(df2.to_html()))

#### Exercício 11
Leia os dados do link https://pt.wikipedia.org/wiki/Pressão e obtenha a tabela de conversão de unidades de pressão. Faça as correções:
* ajuste nomes de índices e colunas para somente a abreviatura da unidade;
* transforme todos os dados em dados numéricos;
* salve os dados em um arquivo HDF5;
* prepare uma função que receba como entradas $(unidade\ atual,\ unidade\ desejada)$ e retorne o $fator\ de\ conversao$ para a unidade desejada a partir da leitura do arquivo HDF5 criado.

## XII. Outros problemas
---
Se tentar realizar uma operação que retornar um erro:
```python
if pd.Series([False, True, False]):
    ...
    print("I was true")
```
```
Traceback
    ...
ValueError: The truth value of an array is ambiguous. Use a.empty, a.any() or a.all().
```
Veja [Comparisons](https://pandas.pydata.org/docs/user_guide/basics.html#basics-compare) para descobrir o que fazer.

**Fontes:**
* [Gotchas](https://pandas.pydata.org/pandas-docs/stable/user_guide/gotchas.html#gotchas).

**Parabéns** por concluir este módulo, até a próxima!

![Panda](https://veja.abril.com.br/wp-content/uploads/2016/08/imagens-do-dia-mundo-panda-completa-um-ano-kuala-lumpur-23082016-023.jpg)