---
**Autores**: Prof. Dino Magri, Prof. João Nogueira e Prof. Helio

**Contatos**: `professor.dinomagri@gmail.com`, `joaonogueira@fisica.ufc.br`, `helio.hx@gmail.com`

**Licença deste notebook**: 
<br>
<img align="left" width="80" src="https://licensebuttons.net/l/by/3.0/88x31.png" />

<br>
<br>

[Clique aqui para saber mais sobre a licença CC BY v4.0](https://creativecommons.org/licenses/by/4.0/legalcode.pt)


---

# DataFrame

Como vimos DataFrame é um array 2D com rótulos.

Os tipos das colunas podem ser heterogêneas (de diversos tipos). Ele tem as seguintes propriedades:

* Conceitualmente é semelhante a uma tabela ou planilha de dados.
* Colunas podem ser de diferentes tipos: float64, int, bool.
* Uma coluna do DataFrame é uma Series.
* Podemos pensar que é um dicionário de Series, onde as colunas e linhas são indexadas, denota ```index``` no caso da linhas e ```columns``` no caso de colunas.
* Seu tamanho é mutável: colunas podem ser inseridas e deletadas.
    
Cada eixo do DataFrame tem um índice, seja o padrão ou não. Os índices são necessários para acesso rápido aos dados, bem como para realizar as operações disponíveis.

In [1]:
import pandas as pd
import numpy as np

## Criação do DataFrame

O DataFrame é a estrutura de dados comumente utilizada no pandas. O construtor aceita diferentes tipos de argumentos:

* Dicionário de ndarrays de 1D, listas, dicionários, ou Series.
* Array 2D do NumPy
* Estruturado
* Series
* Outra estrutura DataFrame.
    
Podemos definir os índices das linhas e das colunas. Se eles não foram específicados, eles serão gerados a partir dos dados de entrada de maneira intuitiva. Por exemplo, as chaves do dicionário serão os rótulos das colunas.

### Utilizando dicionários de Series

Vamos criar um DataFrame utilizando um dicionário de Series e listas dentro de um dicionário.

In [2]:
resumoAcoes = {
    'GOOG' : pd.Series([740, 750], index=['Abertura', 'Fechamento']),
    'FB' : [110, 120],
    'TWTR' : [20, 30],
    'AMZN' : [740, 750],
    'AAPL' : [100, 90],
    'NFLX' : [70, 80]
}

In [3]:
acoesDF = pd.DataFrame(resumoAcoes)
print(acoesDF)

            GOOG   FB  TWTR  AMZN  AAPL  NFLX
Abertura     740  110    20   740   100    70
Fechamento   750  120    30   750    90    80


In [4]:
acoesDF = pd.DataFrame(resumoAcoes, columns=['GOOG', 'FB', 'AMZN', 'NFLX'])
print(acoesDF)

            GOOG   FB  AMZN  NFLX
Abertura     740  110   740    70
Fechamento   750  120   750    80


In [5]:
acoesDF.index

Index(['Abertura', 'Fechamento'], dtype='object')

In [6]:
acoesDF.columns

Index(['GOOG', 'FB', 'AMZN', 'NFLX'], dtype='object')

### Utilizando Series

In [7]:
dic_moedas = {
    'US' : 'dolar',
    'BR' : 'real',
    'UK' : 'libra',
    'JP' : 'iene'
}
moedas = pd.Series(dic_moedas)
moedas

US    dolar
BR     real
UK    libra
JP     iene
dtype: object

In [8]:
moedas.name = 'moedas'

In [9]:
pd.DataFrame(moedas)

Unnamed: 0,moedas
US,dolar
BR,real
UK,libra
JP,iene


In [10]:
valor = {
    'US' : 1.,
    'BR' : 4.16,
    'UK' : 0.78,
    'JP' : 111.12
}
cotacao = pd.Series(valor)
cotacao

US      1.00
BR      4.16
UK      0.78
JP    111.12
dtype: float64

In [11]:
cotacao.name = 'cotacao'

In [12]:
moeda_cotacao = pd.DataFrame([moedas, cotacao])
moeda_cotacao

Unnamed: 0,US,BR,UK,JP
moedas,dolar,real,libra,iene
cotacao,1,4.16,0.78,111.12


**Durante o curso veremos outras formas de criar um DataFrame.**

## Operações do DataFrame

### Seleção

Uma coluna específica pode ser obtida como uma Series.

In [13]:
print(moeda_cotacao['BR'])

moedas     real
cotacao    4.16
Name: BR, dtype: object


In [14]:
print(moeda_cotacao[['BR', 'US']])

           BR     US
moedas   real  dolar
cotacao  4.16      1


### Atribuição

Uma coluna pode ser adicionada via atribuição

In [15]:
moeda_cotacao['MXN'] = 192270

In [16]:
moeda_cotacao

Unnamed: 0,US,BR,UK,JP,MXN
moedas,dolar,real,libra,iene,192270
cotacao,1,4.16,0.78,111.12,192270


In [17]:
moeda_cotacao.loc['moedas', 'MXN'] = 'peso'

In [18]:
moeda_cotacao.loc['moedas']['MXN'] = 'peso'

In [19]:
moeda_cotacao

Unnamed: 0,US,BR,UK,JP,MXN
moedas,dolar,real,libra,iene,peso
cotacao,1,4.16,0.78,111.12,192270


### Remoção

Uma coluna pode ser deletada utilizando o nome (rótudo) e a função ```del``` conforme visto em dicionários.

In [20]:
del moeda_cotacao['MXN']

In [21]:
moeda_cotacao

Unnamed: 0,US,BR,UK,JP
moedas,dolar,real,libra,iene
cotacao,1,4.16,0.78,111.12


Existem outras formas de remover elementos de um DataFrame. 

É possível utilizar o comando **```pop```**.

In [22]:
uk = moeda_cotacao.pop('UK')
print(uk)

moedas     libra
cotacao     0.78
Name: UK, dtype: object


In [23]:
moeda_cotacao

Unnamed: 0,US,BR,JP
moedas,dolar,real,iene
cotacao,1,4.16,111.12


É possível utilizar o comando **```drop```**. Esse comando permite remover colunas ou linhas.

**Para remover colunas**

In [24]:
moeda_cotacao.drop(['JP', 'BR'], axis=1)

Unnamed: 0,US
moedas,dolar
cotacao,1


**Para remover linhas**

In [25]:
moeda_cotacao.drop(['moedas'], axis=0)

Unnamed: 0,US,BR,JP
cotacao,1,4.16,111.12


In [26]:
moeda_cotacao.drop(['moedas', 'cotacao'])

Unnamed: 0,US,BR,JP


É importante salientar que o método drop, por padrão, não remove no próprio DataFrame, ele devolve um novo objeto DataFrame que deve ser armazenado em uma nova variável.

Para contornar esse problema, podemos utilizar o parâmetro ```inplace=True```.

In [27]:
moeda_cotacao.drop(['JP'], axis=1, inplace=True)

In [28]:
moeda_cotacao

Unnamed: 0,US,BR
moedas,dolar,real
cotacao,1,4.16


### Inserção

Basicamente, um DataFrame pode ser tratado como se fosse um dicionário de Series. Colunas são inseridas no final. Para inserir uma coluna em um local específico podemos utilizar a função ```insert```.

In [29]:
moeda_cotacao.insert(0, 'UK', uk)
moeda_cotacao

Unnamed: 0,UK,US,BR
moedas,libra,dolar,real
cotacao,0.78,1,4.16


### Alinhamento

Voltando ao nosso exemplo inicial das ações, podemos alinhar de maneira similar a Series, exceto que eles se alinham tanto nas colunas quanto nas linhas. O objeto resultante é uma união de colunas e linhas rotuladas.

In [30]:
acoesDF1 = acoesDF
acoesDF1

Unnamed: 0,GOOG,FB,AMZN,NFLX
Abertura,740,110,740,70
Fechamento,750,120,750,80


In [31]:
acoesDF2 = acoesDF * 2
acoesDF2['YHOO'] = 80
acoesDF2

Unnamed: 0,GOOG,FB,AMZN,NFLX,YHOO
Abertura,1480,220,1480,140,80
Fechamento,1500,240,1500,160,80


In [32]:
acoesDF1 + acoesDF2

Unnamed: 0,AMZN,FB,GOOG,NFLX,YHOO
Abertura,2220,330,2220,210,
Fechamento,2250,360,2250,240,


No caso onde não exite rótulos de linhas e colunas em comum, o valor é preenchido com ```NaN```, por exemplo, ```YHOO```.

Se combinarmos o DataFrame com uma Series, o comportamento padrão é difundir a Series nas linhas. Vamos utilizar o ```acoesDF1```:

In [35]:
acoesDF1

Unnamed: 0,GOOG,FB,AMZN,NFLX
Abertura,740,110,740,70
Fechamento,750,120,750,80


In [36]:
# Pode ser 10 ou tem que ser uma lista com 4 elementos.
acoesDF1 + pd.Series(10, index = ['GOOG', 'FB', 'AMZN', 'NFLX'])

Unnamed: 0,GOOG,FB,AMZN,NFLX
Abertura,750,120,750,80
Fechamento,760,130,760,90


### Outras operações matemáticas

Operações matemáticas pode ser aplicadas em cada elemento do DF.

In [37]:
acoesDF1

Unnamed: 0,GOOG,FB,AMZN,NFLX
Abertura,740,110,740,70
Fechamento,750,120,750,80


In [38]:
np.sqrt(acoesDF1)

Unnamed: 0,GOOG,FB,AMZN,NFLX
Abertura,27.202941,10.488088,27.202941,8.3666
Fechamento,27.386128,10.954451,27.386128,8.944272


In [39]:
np.mean(acoesDF1)

GOOG    745.0
FB      115.0
AMZN    745.0
NFLX     75.0
dtype: float64

## Outras operações

Conforme vimos, o fatiamento e a indexação podem ser um pouco confuso. 

Por exemplo, se uma Series tem um index explicito de inteiros, uma operação como ```s1[1]``` irá utilizar o índice explicito, enquanto que uma operação de fatiamento como ```s1[1:3]``` irá utilizar o índice implicito no estilo do Python.

Vamos testar!

In [40]:
s1 = pd.Series(['a', 'b', 'c'], index=[1,3,5])
s1

1    a
3    b
5    c
dtype: object

In [42]:
# índice explicito quando se está indexando
s1[3]

'b'

In [43]:
# índice implicito quando se está fatiando
s1[1:3]

3    b
5    c
dtype: object

Como podemos perceber isso pode ser um pouco confuso no caso de índices de números inteiros. 

Por isso, Pandas fornece alguns **indexadores especiais** que explicitamente contém esquemas de acesso aos índices. 

Eles não são métodos funcionais e sim atributos que expõe uma interface de fatiamento particular para o dados.

Primeiro, o atributo ```loc``` permite indexar e fatiar sempre utilizando o índice explícito.

In [44]:
s1

1    a
3    b
5    c
dtype: object

In [45]:
s1.loc[1]

'a'

In [46]:
s1.loc[1:3]

1    a
3    b
dtype: object

Já o atributo ```iloc``` permite indexar e fatiar sempre utilizando o índice implicito no estilo do Python.

In [47]:
s1.iloc[1]

'b'

In [48]:
s1.iloc[1:3]

3    b
5    c
dtype: object