# Manipulação de dados com *pandas*

## Introdução

*Pandas* é uma biblioteca para leitura, tratamento e manipulação de dados em *Python* que possui funções muito similares a softwares empregados em planilhamento, tais como _Microsoft Excel_, _LibreOffice Calc_ e _Apple Numbers_. Além de ser uma ferramenta de uso gratuito, ela possui inúmeras vantagens. Para saber mais sobre suas capacidades, veja [página oficial](https://pandas.pydata.org/about/index.html) da biblioteca.

Nesta parte de nosso curso, aprenderemos duas novas estruturas de dados que *pandas* introduz:

* *Series* e
* *DataFrame*.

Um *DataFrame* é uma estrutura de dados tabular com linhas e colunas rotuladas.

|               | Peso           | Altura| Idade| Gênero |
| :------------- |:-------------:| :-----:|:------:|:-----:|
| Ana      | 55 | 162 | 20 | `feminino` |
| João     | 80      |   178 | 19 | `masculino` |
| Maria    | 62      |    164 | 21 | `feminino` |
| Pedro    | 67      |    165 | 22 | `masculino`|
| Túlio    | 73      |    171 | 20 | `masculino` |


As colunas do *DataFrame* são vetores unidimensionais do tipo *Series*, ao passo que as linhas são rotuladas por uma estrutura de dados especial chamada *index*. Os *index* no *Pandas* são listas personalizadas de rótulos que nos permitem realizar pesquisas rápidas e algumas operações importantes.

Para utilizarmos estas estruturas de dados, importaremos as bibliotecas *numpy* utilizando o _placeholder_ usual *np* e *pandas* utilizando o _placeholder_ usual *pd*.

In [1]:
import numpy as np
import pandas as pd

## *Series*

As *Series*:
  * são vetores, ou seja, são *arrays* unidimensionais;
  * possuem um *index* para cada entrada (e são muito eficientes para operar com base neles);
  * podem conter qualquer um dos tipos de dados (`int`, `str`, `float` etc.).

### Criando um objeto do tipo *Series* 

O método padrão é utilizar a função *Series* da biblioteca pandas:

```python
serie_exemplo = pd.Series(dados_de_interesse, index=indice_de_interesse)
```
No exemplo acima, `dados_de_interesse` pode ser:

* um dicionário (objeto do tipo `dict`);
* uma lista (objeto do tipo `list`);
* um objeto `array` do *numpy*;
* um escalar, tal como o número inteiro 1.


### Criando *Series* a partir de dicionários

In [2]:
dicionario_exemplo = {'Ana':20, 'João': 19, 'Maria': 21, 'Pedro': 22, 'Túlio': 20}

In [3]:
pd.Series(dicionario_exemplo)

Ana      20
João     19
Maria    21
Pedro    22
Túlio    20
dtype: int64

Note que o *index* foi obtido a partir das "chaves" dos dicionários. Assim, no caso do exemplo, o *index* foi dado por "Ana", "João", "Maria", "Pedro" e "Túlio". A ordem do *index* foi dada pela ordem de entrada no dicionário.

Podemos fornecer um novo *index* ao dicionário já criado

In [4]:
pd.Series(dicionario_exemplo, index=['Maria', 'Maria', 'ana', 'Paula', 'Túlio', 'Pedro'])

Maria    21.0
Maria    21.0
ana       NaN
Paula     NaN
Túlio    20.0
Pedro    22.0
dtype: float64

Dados não encontrados são assinalados por um valor especial. O marcador padrão do *pandas* para dados faltantes é o `NaN` (*not a number*).

### Criando *Series* a partir de listas

In [5]:
lista_exemplo = [1,2,3,4,5]

In [6]:
pd.Series(lista_exemplo)

0    1
1    2
2    3
3    4
4    5
dtype: int64

Se os *index* não forem fornecidos, o *pandas* atribuirá automaticamente os valores `0, 1, ..., N-1`, onde `N` é o número de elementos da lista.

### Criando *Series* a partir de *arrays* do *numpy*

In [7]:
array_exemplo = np.array([1,2,3,4,5])

In [8]:
pd.Series(array_exemplo)

0    1
1    2
2    3
3    4
4    5
dtype: int64

### Fornecendo um *index* na criação da *Series*

O total de elementos do *index* deve ser igual ao tamanho do *array*. Caso contrário, um erro será retornado.

In [9]:
pd.Series(array_exemplo, index=['a','b','c','d','e','f'])

ValueError: Length of passed values is 5, index implies 6.

In [10]:
pd.Series(array_exemplo, index=['a','b','c','d','e'])

a    1
b    2
c    3
d    4
e    5
dtype: int64

Além disso, não é necessário que que os elementos no *index* sejam únicos.

In [11]:
pd.Series(array_exemplo, index=['a','a','b','b','c'])

a    1
a    2
b    3
b    4
c    5
dtype: int64

Um erro ocorrerá se uma operação que dependa da unicidade dos elementos no *index* for realizada, a exemplo do método `reindex`.

In [12]:
series_exemplo = pd.Series(array_exemplo, index=['a','a','b','b','c'])

In [13]:
series_exemplo.reindex(['b','a','c','d','e']) # 'a' e 'b' duplicados na origem

ValueError: cannot reindex from a duplicate axis

### Criando *Series* a partir de escalares

In [14]:
pd.Series(1, index=['a', 'b', 'c', 'd'])

a    1
b    1
c    1
d    1
dtype: int64

Neste caso, um índice **deve** ser fornecido!

### *Series* comportam-se como *arrays* do *numpy*

Uma *Series* do *pandas* comporta-se como um *array* unidimensional do *numpy*. Pode ser utilizada como argumento para a maioria das funções do *numpy*. A diferença é que o *index* aparece.

Exemplo:

In [15]:
series_exemplo = pd.Series(array_exemplo, index=['a','b','c','d','e'])

In [16]:
series_exemplo[2]

3

In [17]:
series_exemplo[:2]

a    1
b    2
dtype: int64

In [18]:
np.log(series_exemplo)

a    0.000000
b    0.693147
c    1.098612
d    1.386294
e    1.609438
dtype: float64

Mais exemplos:

In [19]:
serie_1 = pd.Series([1,2,3,4,5])

In [20]:
serie_2 = pd.Series([4,5,6,7,8])

In [21]:
serie_1 + serie_2

0     5
1     7
2     9
3    11
4    13
dtype: int64

In [22]:
serie_1 * 2 - serie_2 * 3

0   -10
1   -11
2   -12
3   -13
4   -14
dtype: int64

Assim como *arrays* do *numpy*, as *Series* do *pandas* também possuem atributos *dtype* (data type). 

In [23]:
series_exemplo.dtype

dtype('int64')

Se o interesse for utilizar os dados de uma *Series* do *pandas* como um *array* do *numpy*, basta utilizar o método `to_numpy` para convertê-la.

In [24]:
series_exemplo.to_numpy()

array([1, 2, 3, 4, 5])

### *Series* comportam-se como dicionários

Podemos acessar os elementos de uma *Series* através das chaves fornecidas no *index*.

In [25]:
series_exemplo

a    1
b    2
c    3
d    4
e    5
dtype: int64

In [26]:
series_exemplo['a']

1

Podemos adicionar novos elementos associados a chaves novas.

In [27]:
series_exemplo['f'] = 6

In [28]:
series_exemplo

a    1
b    2
c    3
d    4
e    5
f    6
dtype: int64

In [29]:
'f' in series_exemplo

True

In [30]:
'g' in series_exemplo

False

Neste examplo, tentamos acessar uma chave inexistente. Logo, um erro ocorre.

In [31]:
series_exemplo['g']

KeyError: 'g'

In [32]:
series_exemplo.get('g')

Entretanto, podemos utilizar o método `get` para lidar com chaves que possivelmente inexistam e adicionar um `NaN` do *numpy* como valor alternativo se, de fato, não exista valor atribuído.

In [33]:
series_exemplo.get('g',np.nan)

nan

### O atributo `name`

Uma *Series* do *pandas* possui um atributo opcional `name` que nos permite identificar o objeto. Ele é  bastante útil em operações envolvendo *DataFrames*.

In [34]:
serie_com_nome = pd.Series(dicionario_exemplo, name = "Idade")

In [35]:
serie_com_nome

Ana      20
João     19
Maria    21
Pedro    22
Túlio    20
Name: Idade, dtype: int64

### A função `date_range`

Em muitas situações, os índices podem ser organizados como datas. A função `data_range` cria índices a partir de datas. Alguns argumentos desta função são:

- `start`: `str` contendo a data que serve como limite à esquerda das datas. Padrão: `None`
- `end`: `str` contendo a data que serve como limite à direita das datas. Padrão: `None`
- `freq`: frequência a ser considerada. Por exemplo, dias (`D`), horas (`H`), semanas (`W`), fins de meses (`M`), inícios de meses (`MS`), fins de anos (`Y`), inícios de anos (`YS`) etc. Pode-se também utilizar múltiplos (p.ex. `5H`, `2Y` etc.). Padrão: `None`. 
- `periods`: número de períodos a serem considerados (o período é determinado pelo argumento `freq`).

Abaixo damos exemplos do uso de `date_range` com diferente formatos de data.

In [36]:
pd.date_range(start='1/1/2020', freq='W', periods=10)

DatetimeIndex(['2020-01-05', '2020-01-12', '2020-01-19', '2020-01-26',
               '2020-02-02', '2020-02-09', '2020-02-16', '2020-02-23',
               '2020-03-01', '2020-03-08'],
              dtype='datetime64[ns]', freq='W-SUN')

In [37]:
pd.date_range(start='2010-01-01', freq='2Y', periods=10)

DatetimeIndex(['2010-12-31', '2012-12-31', '2014-12-31', '2016-12-31',
               '2018-12-31', '2020-12-31', '2022-12-31', '2024-12-31',
               '2026-12-31', '2028-12-31'],
              dtype='datetime64[ns]', freq='2A-DEC')

In [38]:
pd.date_range('1/1/2020', freq='5H', periods=10)

DatetimeIndex(['2020-01-01 00:00:00', '2020-01-01 05:00:00',
               '2020-01-01 10:00:00', '2020-01-01 15:00:00',
               '2020-01-01 20:00:00', '2020-01-02 01:00:00',
               '2020-01-02 06:00:00', '2020-01-02 11:00:00',
               '2020-01-02 16:00:00', '2020-01-02 21:00:00'],
              dtype='datetime64[ns]', freq='5H')

In [39]:
pd.date_range(start='2010-01-01', freq='3YS', periods=3)

DatetimeIndex(['2010-01-01', '2013-01-01', '2016-01-01'], dtype='datetime64[ns]', freq='3AS-JAN')

O exemplo a seguir cria duas *Series* com valores aleatórios associados a um interstício de 10 dias.

In [40]:
indice_exemplo = pd.date_range('2020-01-01', periods=10, freq='D')

In [41]:
serie_1 = pd.Series(np.random.randn(10),index=indice_exemplo)
serie_2 = pd.Series(np.random.randn(10),index=indice_exemplo)

## *DataFrame*

Como dissemos anterioremente, o *DataFrame* é a segunda estrutura basilar do *pandas*. Um *DataFrame*:
- é uma tabela, ou seja, é bidimensional;
- tem cada coluna formada como uma *Series* do *pandas*;
- pode ter *Series* contendo tipos de dado diferentes.

### Criando um *DataFrame*

O método padrão para criarmos um *DataFrame* é através de uma função com mesmo nome.

```python
df_exemplo = pd.DataFrame(dados_de_interesse, index = indice_de_interesse, 
                          columns = colunas_de_interesse)
```

Ao criar um *DataFrame*, podemos informar
- `index`: rótulos para as linhas (atributos *index* das *Series*).
- `columns`: rótulos para as colunas (atributos *name* das *Series*).

No _template_, `dados_de_interesse` pode ser

* um dicionário de:
  * *arrays* unidimensionais do *numpy*;
  * listas;
  * dicionários;
  * *Series* do *pandas*.
* um *array* bidimensional do *numpy*;
* uma *Series* do *Pandas*;
* outro *DataFrame*.

### Criando um *DataFrame* a partir de dicionários de *Series*

Neste método de criação, as *Series* do dicionário não precisam possuir o mesmo número de elementos. O *index* do *DataFrame* será dado pela **união** dos *index* de todas as *Series* contidas no dicionário.

Exemplo:

In [42]:
serie_Idade = pd.Series({'Ana':20, 'João': 19, 'Maria': 21, 'Pedro': 22}, name="Idade")

In [43]:
serie_Peso = pd.Series({'Ana':55, 'João': 80, 'Maria': 62, 'Pedro': 67, 'Túlio': 73}, name="Peso")

In [44]:
serie_Altura = pd.Series({'Ana':162, 'João': 178, 'Maria': 162, 'Pedro': 165, 'Túlio': 171}, name="Altura")

In [45]:
dicionario_series_exemplo = {'Idade': serie_Idade, 'Peso': serie_Peso, 'Altura': serie_Altura}

In [46]:
df_dict_series = pd.DataFrame(dicionario_series_exemplo)

In [47]:
df_dict_series

Unnamed: 0,Idade,Peso,Altura
Ana,20.0,55,162
João,19.0,80,178
Maria,21.0,62,162
Pedro,22.0,67,165
Túlio,,73,171


Compare este resultado com a criação de uma planilha pelos métodos usuais. Veja que há muita flexibilidade para criarmos ou modificarmos uma tabela.

Vejamos exemplos sobre como acessar intervalos de dados na tabela.

In [48]:
pd.DataFrame(dicionario_series_exemplo, index=['Ana','Maria'])

Unnamed: 0,Idade,Peso,Altura
Ana,20,55,162
Maria,21,62,162


In [49]:
pd.DataFrame(dicionario_series_exemplo, index=['Ana','Maria'], columns=['Peso','Altura'])

Unnamed: 0,Peso,Altura
Ana,55,162
Maria,62,162


Neste exemplo, adicionamos a coluna `IMC`, ainda sem valores calculados.

In [50]:
pd.DataFrame(dicionario_series_exemplo, index=['Ana','Maria','Paula'], 
             columns=['Peso','Altura','IMC'])

Unnamed: 0,Peso,Altura,IMC
Ana,55.0,162.0,
Maria,62.0,162.0,
Paula,,,


In [51]:
df_exemplo_IMC = pd.DataFrame(dicionario_series_exemplo, 
             columns=['Peso','Altura','IMC'])

Agora, mostramos como os valores do IMC podem ser calculados diretamente por computação vetorizada sobre as *Series*.

In [52]:
df_exemplo_IMC['IMC']=round(df_exemplo_IMC['Peso']/(df_exemplo_IMC['Altura']/100)**2,2)

In [53]:
df_exemplo_IMC

Unnamed: 0,Peso,Altura,IMC
Ana,55,162,20.96
João,80,178,25.25
Maria,62,162,23.62
Pedro,67,165,24.61
Túlio,73,171,24.96


### Criando um *DataFrame* a partir de dicionários de listas ou *arrays* do *numpy*:

Neste método de criação, os *arrays* ou as listas **devem** possuir o mesmo comprimento. Se o *index* não for informado, o *index* será dado de forma similar ao do objeto tipo *Series*.

Exemplo com dicionário de listas:

In [54]:
dicionario_lista_exemplo = {'Idade': [20,19,21,22,20],
                            'Peso': [55,80,62,67,73],
                            'Altura': [162,178,162,165,171]}

In [55]:
pd.DataFrame(dicionario_lista_exemplo)

Unnamed: 0,Idade,Peso,Altura
0,20,55,162
1,19,80,178
2,21,62,162
3,22,67,165
4,20,73,171


Mais exemplos:

In [56]:
pd.DataFrame(dicionario_lista_exemplo, index=['Ana','João','Maria','Pedro','Túlio'])

Unnamed: 0,Idade,Peso,Altura
Ana,20,55,162
João,19,80,178
Maria,21,62,162
Pedro,22,67,165
Túlio,20,73,171


Exemplos com dicionário de *arrays* do *numpy*:

In [57]:
dicionario_array_exemplo = {'Idade': np.array([20,19,21,22,20]),
                            'Peso': np.array([55,80,62,67,73]),
                            'Altura': np.array([162,178,162,165,171])}

In [58]:
pd.DataFrame(dicionario_array_exemplo)

Unnamed: 0,Idade,Peso,Altura
0,20,55,162
1,19,80,178
2,21,62,162
3,22,67,165
4,20,73,171


Mais exemplos:

In [59]:
pd.DataFrame(dicionario_array_exemplo, index=['Ana','João','Maria','Pedro','Túlio'])

Unnamed: 0,Idade,Peso,Altura
Ana,20,55,162
João,19,80,178
Maria,21,62,162
Pedro,22,67,165
Túlio,20,73,171


### Criando um *DataFrame* a partir de uma *Series* do *pandas*

Neste caso, o *DataFrame* terá o mesmo *index* que a *Series* do *pandas* e apenas uma coluna.

In [60]:
series_exemplo = pd.Series({'Ana':20, 'João': 19, 'Maria': 21, 'Pedro': 22, 'Túlio': 20})

In [61]:
pd.DataFrame(series_exemplo)

Unnamed: 0,0
Ana,20
João,19
Maria,21
Pedro,22
Túlio,20


Caso a *Series* possua um atributo `name` especificado, este será o nome da coluna do *DataFrame*.

In [62]:
series_exemplo_Idade = pd.Series({'Ana':20, 'João': 19, 'Maria': 21, 'Pedro': 22, 'Túlio': 20}, name="Idade")

In [63]:
pd.DataFrame(series_exemplo_Idade)

Unnamed: 0,Idade
Ana,20
João,19
Maria,21
Pedro,22
Túlio,20


### Criando um *DataFrame* a partir de lista de *Series* do *pandas*

Neste caso, a entrada dos dados da lista no *DataFrame* será feita por linha.

In [64]:
pd.DataFrame([serie_Peso, serie_Altura, serie_Idade])

Unnamed: 0,Ana,João,Maria,Pedro,Túlio
Peso,55.0,80.0,62.0,67.0,73.0
Altura,162.0,178.0,162.0,165.0,171.0
Idade,20.0,19.0,21.0,22.0,


Podemos corrigir a orientação usando o método `transpose`.

In [65]:
pd.DataFrame([serie_Peso, serie_Altura, serie_Idade]).transpose()

Unnamed: 0,Peso,Altura,Idade
Ana,55.0,162.0,20.0
João,80.0,178.0,19.0
Maria,62.0,162.0,21.0
Pedro,67.0,165.0,22.0
Túlio,73.0,171.0,


### Criando um *DataFrame* a partir de arquivos

Para criar um *DataFrame* a partir de um arquivo, precisamos de funções do tipo `pd.read_FORMATO`, onde `FORMATO` indica o formato a ser importado sob o pressuposto de que a biblioteca *pandas* foi devidamente importada com `pd`.

Os formatos mais comuns são: 

* *csv* (comma-separated values), 
* *xls* ou *xlsx* (formatos do Microsoft Excel),
* *hdf5* (comumente utilizado em *big data*), 
* *json* (comumente utilizado em páginas da internet).

As funções para leitura correspondentes são: 
* `pd.read_csv`, 
* `pd.read_excel`, 
* `pd.read_hdf`, 
* `pd.read_json`, 

respectivamente.

De todas elas, a função mais utilizada é `read_csv`. Ela possui vários argumentos. Vejamos os mais utilizados:

* `file_path_or_buffer`: o endereço do arquivo a ser lido. Pode ser um endereço da internet.
* `sep`: o separador entre as entradas de dados. O separador padrão é `,`.
* `index_col`: a coluna que deve ser usada para formar o *index*. O padrão é `None`. Porém pode ser alterado para outro. Um separador comumente encontrado é o `\t` (TAB).
* `names`: nomes das colunas a serem usadas. O padrão é `None`.
* `header`: número da linha que servirá como nome para as colunas. O padrão é `infer` (ou seja, tenta deduzir automaticamente). Se os nomes das colunas forem passados através do `names`, então `header` será automaticamente considerado como `None`.  

**Exemplo:** considere o arquivo `data/exemplo_data.csv` contendo:

```
,coluna_1,coluna_2
2020-01-01,-0.4160923582996922,1.8103644347460834
2020-01-02,-0.1379696602473578,2.5785204825192785
2020-01-03,0.5758273450544708,0.06086648807755068
2020-01-04,-0.017367186564883633,1.2995865328684455
2020-01-05,1.3842792448510655,-0.3817320973859929
2020-01-06,0.5497056238566345,-1.308789022968975
2020-01-07,-0.2822962331437976,-1.6889791765925102
2020-01-08,-0.9897300598660013,-0.028120707936426497
2020-01-09,0.27558240737928663,-0.1776585993494299
2020-01-10,0.6851316082235455,0.5025348904591399
``` 

Para ler o arquivo acima basta fazer:

In [66]:
df_exemplo_0 = pd.read_csv('data/exemplo_data.csv')

In [67]:
df_exemplo_0

Unnamed: 0.1,Unnamed: 0,coluna_1,coluna_2
0,2020-01-01,-0.416092,1.810364
1,2020-01-02,-0.13797,2.57852
2,2020-01-03,0.575827,0.060866
3,2020-01-04,-0.017367,1.299587
4,2020-01-05,1.384279,-0.381732
5,2020-01-06,0.549706,-1.308789
6,2020-01-07,-0.282296,-1.688979
7,2020-01-08,-0.98973,-0.028121
8,2020-01-09,0.275582,-0.177659
9,2020-01-10,0.685132,0.502535


No exemplo anterior, as colunas receberam nomes corretamentes exceto pela primeira coluna que gostaríamos de considerar como *index*. Neste caso fazemos:

In [68]:
df_exemplo = pd.read_csv('data/exemplo_data.csv', index_col=0)

In [69]:
df_exemplo

Unnamed: 0,coluna_1,coluna_2
2020-01-01,-0.416092,1.810364
2020-01-02,-0.13797,2.57852
2020-01-03,0.575827,0.060866
2020-01-04,-0.017367,1.299587
2020-01-05,1.384279,-0.381732
2020-01-06,0.549706,-1.308789
2020-01-07,-0.282296,-1.688979
2020-01-08,-0.98973,-0.028121
2020-01-09,0.275582,-0.177659
2020-01-10,0.685132,0.502535


### O método *head* do *DataFrame*

O método `head`, sem argumento, permite que visualizemos as 5 primeiras linhas do *DataFrame*.

In [70]:
df_exemplo.head()

Unnamed: 0,coluna_1,coluna_2
2020-01-01,-0.416092,1.810364
2020-01-02,-0.13797,2.57852
2020-01-03,0.575827,0.060866
2020-01-04,-0.017367,1.299587
2020-01-05,1.384279,-0.381732


Se for passado um argumento com valor `n`, as `n` primeiras linhas são impressas.

In [71]:
df_exemplo.head(2)

Unnamed: 0,coluna_1,coluna_2
2020-01-01,-0.416092,1.810364
2020-01-02,-0.13797,2.57852


In [72]:
df_exemplo.head(7)

Unnamed: 0,coluna_1,coluna_2
2020-01-01,-0.416092,1.810364
2020-01-02,-0.13797,2.57852
2020-01-03,0.575827,0.060866
2020-01-04,-0.017367,1.299587
2020-01-05,1.384279,-0.381732
2020-01-06,0.549706,-1.308789
2020-01-07,-0.282296,-1.688979


### O método `tail` do *DataFrame*

O método `tail`, sem argumento, retorna as últimas 5 linhas do *DataFrame*.

In [73]:
df_exemplo.tail()

Unnamed: 0,coluna_1,coluna_2
2020-01-06,0.549706,-1.308789
2020-01-07,-0.282296,-1.688979
2020-01-08,-0.98973,-0.028121
2020-01-09,0.275582,-0.177659
2020-01-10,0.685132,0.502535


Se for passado um argumento com valor `n`, as `n` últimas linhas são impressas.

In [74]:
df_exemplo.tail(2)

Unnamed: 0,coluna_1,coluna_2
2020-01-09,0.275582,-0.177659
2020-01-10,0.685132,0.502535


In [75]:
df_exemplo.tail(7)

Unnamed: 0,coluna_1,coluna_2
2020-01-04,-0.017367,1.299587
2020-01-05,1.384279,-0.381732
2020-01-06,0.549706,-1.308789
2020-01-07,-0.282296,-1.688979
2020-01-08,-0.98973,-0.028121
2020-01-09,0.275582,-0.177659
2020-01-10,0.685132,0.502535


### Atributos de *Series* e *DataFrames*

Atributos comumente usados para *Series* e *DataFrames* são:

* `shape`: fornece as dimensões do objeto em questão (*Series* ou *DataFrame*) em formato consistente com o atributo `shape` de um *array* do *numpy*.
* `index`: fornece o índice do objeto. No caso do *DataFrame* são os rótulos das linhas.
* `columns`: fornece as colunas (apenas disponível para *DataFrames*) 

Exemplo:

In [76]:
df_exemplo.shape

(10, 2)

In [77]:
serie_1.shape

(10,)

In [78]:
df_exemplo.index

Index(['2020-01-01', '2020-01-02', '2020-01-03', '2020-01-04', '2020-01-05',
       '2020-01-06', '2020-01-07', '2020-01-08', '2020-01-09', '2020-01-10'],
      dtype='object')

In [79]:
serie_1.index

DatetimeIndex(['2020-01-01', '2020-01-02', '2020-01-03', '2020-01-04',
               '2020-01-05', '2020-01-06', '2020-01-07', '2020-01-08',
               '2020-01-09', '2020-01-10'],
              dtype='datetime64[ns]', freq='D')

In [80]:
df_exemplo.columns

Index(['coluna_1', 'coluna_2'], dtype='object')

Se quisermos obter os dados contidos nos *index* ou nas *Series* podemos utilizar a propriedade `.array`.

In [81]:
serie_1.index.array

<DatetimeArray>
['2020-01-01 00:00:00', '2020-01-02 00:00:00', '2020-01-03 00:00:00',
 '2020-01-04 00:00:00', '2020-01-05 00:00:00', '2020-01-06 00:00:00',
 '2020-01-07 00:00:00', '2020-01-08 00:00:00', '2020-01-09 00:00:00',
 '2020-01-10 00:00:00']
Length: 10, dtype: datetime64[ns]

In [82]:
df_exemplo.columns.array

<PandasArray>
['coluna_1', 'coluna_2']
Length: 2, dtype: object

Se o interesse for obter os dados como um `array` do *numpy*, devemos utilizar o método `.to_numpy()`.

Exemplo:

In [83]:
serie_1.index.to_numpy()

array(['2020-01-01T00:00:00.000000000', '2020-01-02T00:00:00.000000000',
       '2020-01-03T00:00:00.000000000', '2020-01-04T00:00:00.000000000',
       '2020-01-05T00:00:00.000000000', '2020-01-06T00:00:00.000000000',
       '2020-01-07T00:00:00.000000000', '2020-01-08T00:00:00.000000000',
       '2020-01-09T00:00:00.000000000', '2020-01-10T00:00:00.000000000'],
      dtype='datetime64[ns]')

In [84]:
df_exemplo.columns.to_numpy()

array(['coluna_1', 'coluna_2'], dtype=object)

O método `.to_numpy()` também está disponível em *DataFrames*:

In [85]:
df_exemplo.to_numpy()

array([[-0.41609236,  1.81036443],
       [-0.13796966,  2.57852048],
       [ 0.57582735,  0.06086649],
       [-0.01736719,  1.29958653],
       [ 1.38427924, -0.3817321 ],
       [ 0.54970562, -1.30878902],
       [-0.28229623, -1.68897918],
       [-0.98973006, -0.02812071],
       [ 0.27558241, -0.1776586 ],
       [ 0.68513161,  0.50253489]])

A função do *numpy* `asarray()` é compatível com *index*, *columns* e *DataFrames* do *pandas*:

In [86]:
np.asarray(df_exemplo.index)

array(['2020-01-01', '2020-01-02', '2020-01-03', '2020-01-04',
       '2020-01-05', '2020-01-06', '2020-01-07', '2020-01-08',
       '2020-01-09', '2020-01-10'], dtype=object)

In [87]:
np.asarray(df_exemplo.columns)

array(['coluna_1', 'coluna_2'], dtype=object)

In [88]:
np.asarray(df_exemplo)

array([[-0.41609236,  1.81036443],
       [-0.13796966,  2.57852048],
       [ 0.57582735,  0.06086649],
       [-0.01736719,  1.29958653],
       [ 1.38427924, -0.3817321 ],
       [ 0.54970562, -1.30878902],
       [-0.28229623, -1.68897918],
       [-0.98973006, -0.02812071],
       [ 0.27558241, -0.1776586 ],
       [ 0.68513161,  0.50253489]])

### Informações sobre as colunas de um *DataFrame*

Para obtermos uma breve descrição sobre as colunas de um *DataFrame* utilizamos o método `info`.

Exemplo:

In [89]:
df_exemplo.info()

<class 'pandas.core.frame.DataFrame'>
Index: 10 entries, 2020-01-01 to 2020-01-10
Data columns (total 2 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   coluna_1  10 non-null     float64
 1   coluna_2  10 non-null     float64
dtypes: float64(2)
memory usage: 240.0+ bytes


### Criando arquivos a partir de *DataFrames*

Para criar arquivos a partir de *DataFrames*, basta utilizar os métodos do tipo `pd.to_FORMATO`, onde `FORMATO` indica o formato a ser exportado e supondo que a biblioteca *pandas* foi importada com `pd`.

Com relação aos tipos de arquivo anteriores, os métodos para exportação correspondentes são:
* `.to_csv` ('endereço_do_arquivo'), 
* `.to_excel` ('endereço_do_arquivo'), 
* `.to_hdf` ('endereço_do_arquivo'), 
* `.to_json`('endereço_do_arquivo'), 

onde `endereço_do_arquivo` é uma `str` que contém o endereço do arquivo a ser exportado.

Exemplo:
    
Para exportar para o arquivo `exemplo_novo.csv`, utilizaremos o método `.to_csv` ao *DataFrame* `df_exemplo`:

In [90]:
df_exemplo.to_csv('data/exemplo_novo.csv')

### Exemplo COVID-19 PB

Dados diários de COVID-19 do estado da Paraíba:

*Fonte: https://superset.plataformatarget.com.br/superset/dashboard/microdados/*

In [91]:
dados_covid_PB = pd.read_csv('https://superset.plataformatarget.com.br/superset/explore_json/?form_data=%7B%22slice_id%22%3A1550%7D&csv=true', 
                             sep=',', index_col=0)

In [92]:
dados_covid_PB.info()

<class 'pandas.core.frame.DataFrame'>
Index: 331 entries, 2021-02-09 to 2020-03-16
Data columns (total 7 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   casosAcumulados   331 non-null    int64  
 1   casosNovos        331 non-null    int64  
 2   descartados       331 non-null    int64  
 3   recuperados       331 non-null    int64  
 4   obitosAcumulados  331 non-null    int64  
 5   obitosNovos       331 non-null    int64  
 6   Letalidade        331 non-null    float64
dtypes: float64(1), int64(6)
memory usage: 20.7+ KB


In [93]:
dados_covid_PB.head()

Unnamed: 0_level_0,casosAcumulados,casosNovos,descartados,recuperados,obitosAcumulados,obitosNovos,Letalidade
data,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
2021-02-09,199706,971,237369,152779,4171,13,0.0209
2021-02-08,198735,611,237189,151879,4158,12,0.0209
2021-02-07,198124,664,237072,151535,4146,11,0.0209
2021-02-06,197460,918,236774,150175,4135,12,0.0209
2021-02-05,196542,1060,236216,150169,4123,13,0.021


In [94]:
dados_covid_PB.tail()

Unnamed: 0_level_0,casosAcumulados,casosNovos,descartados,recuperados,obitosAcumulados,obitosNovos,Letalidade
data,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
2020-03-20,0,0,0,0,0,0,0.0
2020-03-19,0,0,0,0,0,0,0.0
2020-03-18,0,0,0,0,0,0,0.0
2020-03-17,0,0,0,0,0,0,0.0
2020-03-16,0,0,0,0,0,0,0.0


In [95]:
dados_covid_PB['estado'] = 'PB'

In [96]:
dados_covid_PB.head()

Unnamed: 0_level_0,casosAcumulados,casosNovos,descartados,recuperados,obitosAcumulados,obitosNovos,Letalidade,estado
data,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
2021-02-09,199706,971,237369,152779,4171,13,0.0209,PB
2021-02-08,198735,611,237189,151879,4158,12,0.0209,PB
2021-02-07,198124,664,237072,151535,4146,11,0.0209,PB
2021-02-06,197460,918,236774,150175,4135,12,0.0209,PB
2021-02-05,196542,1060,236216,150169,4123,13,0.021,PB


In [97]:
dados_covid_PB.to_csv('data/dadoscovidpb.csv')