# Manipulação de dados - I

## A biblioteca _pandas_

- _pandas_ é uma biblioteca para leitura, tratamento e manipulação de dados em *Python* 
- Funções similares as de softwares de planilhamento (ex. _Microsoft Excel_, _LibreOffice Calc_, _Apple Numbers_) 
- Novas estruturas de dados que *pandas* introduz: *Series* e *DataFrames*
- Para saber mais, veja a [página oficial](https://pandas.pydata.org/about/index.html) da biblioteca

## Visão geral 

- Um *DataFame* possui uma estrutura tabular
- Suas colunas são vetores unidimensionais (*Series*) 
- Suas linhas são rotuladas por um *index* 
- Usaremos o *numpy* integrado com *pandas*

In [34]:
import numpy as np
import pandas as pd

## *Series*

As *Series*:
  * são vetores, ou seja, são *arrays* unidimensionais;
  * possuem um *index* para cada entrada (e são muito eficientes para operar com base neles);
  * podem conter qualquer um dos tipos de dados (`int`, `str`, `float` etc.).

### Criando um objeto do tipo *Series* 

- O método padrão é utilizar a função *Series*:

```python
serie_exemplo = pd.Series(dados_de_interesse, index=indice_de_interesse)
```
- `dados_de_interesse` pode ser:
    * um dicionário (objeto do tipo `dict`);
    * uma lista (objeto do tipo `list`);
    * um objeto `array` do *numpy*;
    * um escalar, tal como o número inteiro 1.


### Criando *Series* a partir de dicionários

In [35]:
dicionario_exemplo = {'Ana':20, 'João': 19, 'Maria': 21, 'Pedro': 22, 'Túlio': 20}

In [36]:
pd.Series(dicionario_exemplo)

Ana      20
João     19
Maria    21
Pedro    22
Túlio    20
dtype: int64

- *index* obtido a partir das "chaves" dos dicionários 
- ordem do *index* foi dada pela ordem de entrada no dicionário
- podemos fornecer um novo *index* ao dicionário já criado

In [43]:
pd.Series(dicionario_exemplo, index=['Maria', 'Maria', 'ana', 'Paula', 'Túlio', 'Pedro'])

Maria    21.0
Maria    21.0
ana       NaN
Paula     NaN
Túlio    20.0
Pedro    22.0
dtype: float64

> Dados não encontrados são assinalados por um valor especial. O marcador padrão do *pandas* para dados faltantes é o `NaN` (*not a number*).

### Criando *Series* a partir de listas

In [45]:
lista_exemplo = [1,2,3,4,5] 

In [8]:
pd.Series(lista_exemplo)

0    1
1    2
2    3
3    4
4    5
dtype: int64

> Se os *index* não forem fornecidos, o *pandas* atribuirá automaticamente os valores `0, 1, ..., N-1`, onde `N` é o número de elementos da lista.

### Criando *Series* a partir de *arrays* do *numpy*

In [46]:
array_exemplo = np.array([1,2,3,4,5])

In [53]:
pd.Series(array_exemplo)

0    1
1    2
2    3
3    4
4    5
dtype: int64

### Fornecendo um *index* na criação da *Series*

O total de elementos do *index* deve ser igual ao tamanho do *array*. Caso contrário, um erro será retornado.

In [55]:
pd.Series(array_exemplo, index=['a','b','c','d','e','f'])

ValueError: Length of values (5) does not match length of index (6)

In [61]:
pd.Series(array_exemplo, index=['a','b','c','d','e'])

a    1
b    2
c    3
d    4
e    5
dtype: int64

Além disso, não é necessário que que os elementos no *index* sejam únicos.

In [13]:
pd.Series(array_exemplo, index=['a','a','b','b','c'])

a    1
a    2
b    3
b    4
c    5
dtype: int64

Um erro ocorrerá se uma operação que dependa da unicidade dos elementos no *index* for realizada, a exemplo do método `reindex`.

In [64]:
series_exemplo = pd.Series(array_exemplo, index=['a','a','b','b','c']) 

In [63]:
series_exemplo.reindex(['b','a','c','d','e']) # 'a' e 'b' duplicados na origem

ValueError: cannot reindex from a duplicate axis

### Criando *Series* a partir de escalares

In [78]:
pd.Series(1, index=['a', 'b', 'c', 'd'])

a    1
b    1
c    1
d    1
dtype: int64

Neste caso, um índice **deve** ser fornecido!

### *Series* comportam-se como *arrays* do *numpy*

- Uma *Series* do *pandas* comporta-se como um *array* unidimensional do *numpy*. 
- Pode ser utilizada como argumento para a maioria das funções do *numpy*. 
- A diferença é que o *index* aparece.


In [92]:
series_exemplo = pd.Series(array_exemplo, index=['a','b','c','d','e'])

In [93]:
series_exemplo[2]

3

In [101]:
series_exemplo[:2]

a    1
b    2
dtype: int64

In [105]:
np.log(series_exemplo)

a    0.000000
b    0.693147
c    1.098612
d    1.386294
e    1.609438
dtype: float64

Mais exemplos:

In [112]:
serie_1 = pd.Series([1,2,3,4,5]); serie_2 = pd.Series([4,5,6,7,8])

In [116]:
serie_1 + serie_2

0     5
1     7
2     9
3    11
4    13
dtype: int64

In [118]:
serie_1 * 2 - serie_2 * 3

0   -10
1   -11
2   -12
3   -13
4   -14
dtype: int64

Assim como *arrays* do *numpy*, as *Series* do *pandas* também possuem atributos *dtype* (data type). 

In [119]:
series_exemplo.dtype

dtype('int64')

Se o interesse for utilizar os dados de uma *Series* do *pandas* como um *array* do *numpy*, basta utilizar o método `to_numpy` para convertê-la.

In [122]:
series_exemplo.to_numpy()

array([1, 2, 3, 4, 5])

### *Series* comportam-se como dicionários

Podemos acessar os elementos de uma *Series* através das chaves fornecidas no *index*.

In [123]:
series_exemplo

a    1
b    2
c    3
d    4
e    5
dtype: int64

In [124]:
series_exemplo['a']

1

Podemos adicionar novos elementos associados a chaves novas.

In [126]:
series_exemplo['f'] = 6

In [127]:
series_exemplo

a    1
b    2
c    3
d    4
e    5
f    6
dtype: int64

In [128]:
'f' in series_exemplo

True

In [134]:
'g' in series_exemplo

False

Neste examplo, tentamos acessar uma chave inexistente. Logo, um erro ocorre.

In [32]:
series_exemplo['g']

KeyError: 'g'

In [137]:
series_exemplo.get('g')

Entretanto, podemos utilizar o método `get` para lidar com chaves que possivelmente inexistam e adicionar um `NaN` do *numpy* como valor alternativo se, de fato, não exista valor atribuído.

In [144]:
series_exemplo.get('g',np.nan) 

nan

### O atributo `name`

Uma *Series* do *pandas* possui um atributo opcional `name` que nos permite identificar o objeto. Ele é  bastante útil em operações envolvendo *DataFrames*.

In [147]:
serie_com_nome = pd.Series(dicionario_exemplo, name = "Idade")

In [149]:
serie_com_nome

Ana      20
João     19
Maria    21
Pedro    22
Túlio    20
Name: Idade, dtype: int64

### A função `date_range`

Em muitas situações, os índices podem ser organizados como datas. A função `data_range` cria índices a partir de datas. Alguns argumentos desta função são:

- `start`: `str` contendo a data que serve como limite à esquerda das datas. Padrão: `None`
- `end`: `str` contendo a data que serve como limite à direita das datas. Padrão: `None`
- `freq`: frequência a ser considerada. Por exemplo, dias (`D`), horas (`H`), semanas (`W`), fins de meses (`M`), inícios de meses (`MS`), fins de anos (`Y`), inícios de anos (`YS`) etc. Pode-se também utilizar múltiplos (p.ex. `5H`, `2Y` etc.). Padrão: `None`. 
- `periods`: número de períodos a serem considerados (o período é determinado pelo argumento `freq`).

Abaixo damos exemplos do uso de `date_range` com diferente formatos de data.

In [181]:
pd.date_range(start='9/19/2021', freq='W', periods=10) 

DatetimeIndex(['2021-09-19', '2021-09-26', '2021-10-03', '2021-10-10',
               '2021-10-17', '2021-10-24', '2021-10-31', '2021-11-07',
               '2021-11-14', '2021-11-21'],
              dtype='datetime64[ns]', freq='W-SUN')

In [193]:
pd.date_range(start='2010-05-10', freq='Y', periods=10)

DatetimeIndex(['2010-12-31', '2011-12-31', '2012-12-31', '2013-12-31',
               '2014-12-31', '2015-12-31', '2016-12-31', '2017-12-31',
               '2018-12-31', '2019-12-31'],
              dtype='datetime64[ns]', freq='A-DEC')

In [202]:
pd.date_range('9/19/2021', freq='5H', periods=11)

DatetimeIndex(['2021-09-19 00:00:00', '2021-09-19 05:00:00',
               '2021-09-19 10:00:00', '2021-09-19 15:00:00',
               '2021-09-19 20:00:00', '2021-09-20 01:00:00',
               '2021-09-20 06:00:00', '2021-09-20 11:00:00',
               '2021-09-20 16:00:00', '2021-09-20 21:00:00',
               '2021-09-21 02:00:00'],
              dtype='datetime64[ns]', freq='5H')

In [220]:
pd.date_range(start='2024-02-29', freq='365D', periods=9)

DatetimeIndex(['2024-02-29', '2025-02-28', '2026-02-28', '2027-02-28',
               '2028-02-28', '2029-02-27', '2030-02-27', '2031-02-27',
               '2032-02-27'],
              dtype='datetime64[ns]', freq='365D')

O exemplo a seguir cria duas *Series* com valores aleatórios associados a um interstício de 10 dias.

In [223]:
indice_exemplo = pd.date_range('2020-01-01', periods=10, freq='D')
serie_1 = pd.Series(np.random.randn(10),index=indice_exemplo)   
serie_2 = pd.Series(np.random.randn(10),index=indice_exemplo)

serie_1, serie_2

(2020-01-01    0.393696
 2020-01-02    1.178169
 2020-01-03    1.731551
 2020-01-04    0.045049
 2020-01-05   -2.502484
 2020-01-06   -0.010531
 2020-01-07    1.429922
 2020-01-08    1.059066
 2020-01-09   -0.292633
 2020-01-10    0.151089
 Freq: D, dtype: float64,
 2020-01-01   -1.363898
 2020-01-02    0.840579
 2020-01-03    0.238101
 2020-01-04   -0.912568
 2020-01-05   -0.551402
 2020-01-06   -1.769498
 2020-01-07   -0.506190
 2020-01-08   -0.935361
 2020-01-09    1.861616
 2020-01-10    0.408587
 Freq: D, dtype: float64)