# DataFrame

Como vimos DataFrame é um array 2D com rótulos.

Os tipos das colunas podem ser heterogêneas (de diversos tipos). Ele tem as seguintes propriedades:

* Conceitualmente é semelhante a uma tabela ou planilha de dados.
* Colunas podem ser de diferentes tipos: float64, int, bool.
* Uma coluna do DataFrame é uma Series.
* Podemos pensar que é um dicionário de Series, onde as colunas e linhas são indexadas, denota ```index``` no caso da linhas e ```columns``` no caso de colunas.
* Seu tamanho é mutável: colunas podem ser inseridas e deletadas.
    
Cada eixo do DataFrame tem um índice, seja o padrão ou não. Os índices são necessários para acesso rápido aos dados, bem como para realizar as operações disponíveis.

In [1]:
import pandas as pd
import numpy as np

## Criação do DataFrame

O DataFrame é a estrutura de dados comumente utilizada no pandas. O construtor aceita diferentes tipos de argumentos:

* Dicionário de ndarrays de 1D, listas, dicionários, ou Series.
* Array 2D do NumPy
* Estruturado
* Series
* Outra estrutura DataFrame.
    
Podemos definir os índices das linhas e das colunas. Se eles não foram específicados, eles serão gerados a partir dos dados de entrada de maneira intuitiva. Por exemplo, as chaves do dicionário serão os rótulos das colunas.

### Utilizando dicionários de Series

Vamos criar um DataFrame utilizando um dicionário de Series e listas dentro de um dicionário.

In [2]:
resumoAcoes = {
    'GOOG' : pd.Series([740, 750], index=['Abertura', 'Fechamento']),
    'FB' : [110, 120], 
    'TWTR' : [20, 30], 
    'AMZN' : [740, 750],
    'AAPL' : [100, 90],
    'NFLX' : [70, 80]
}

In [3]:
acoesDF = pd.DataFrame(resumoAcoes)
print(acoesDF)

            GOOG   FB  TWTR  AMZN  AAPL  NFLX
Abertura     740  110    20   740   100    70
Fechamento   750  120    30   750    90    80


In [4]:
acoesDF.index

Index(['Abertura', 'Fechamento'], dtype='object')

In [5]:
acoesDF.columns

Index(['GOOG', 'FB', 'TWTR', 'AMZN', 'AAPL', 'NFLX'], dtype='object')

## Operações do DataFrame

### Seleção

Uma coluna específica pode ser obtida como uma Series.

In [None]:
print(acoesDF['AAPL'])

In [None]:
print(acoesDF[['AAPL', 'FB']])

### Atribuição

Uma coluna pode ser adicionada via atribuição

In [6]:
acoesDF.loc['Abertura', 'NFLX'] = 30

In [7]:
acoesDF

Unnamed: 0,GOOG,FB,TWTR,AMZN,AAPL,NFLX
Abertura,740,110,20,740,100,30
Fechamento,750,120,30,750,90,80


In [8]:
acoesDF.iloc[0, 0] = 110

In [9]:
acoesDF

Unnamed: 0,GOOG,FB,TWTR,AMZN,AAPL,NFLX
Abertura,110,110,20,740,100,30
Fechamento,750,120,30,750,90,80


### Remoção

Uma coluna pode ser deletada utilizando o nome (rótudo) e a função ```del```conforme visto em dicionários.

In [None]:
del acoesDF['TWTR']

In [None]:
acoesDF

Também podemos utilizar o método ```pop```

In [None]:
nflx = acoesDF.pop('NFLX')
print(nflx)

In [None]:
acoesDF

Basicamente, um DataFrame pode ser tratado como se fosse um dicionário de Series. Colunas são inseridas no final. Para inserir uma coluna em um local específico podemos utilizar a função ```insert```.

In [None]:
acoesDF.insert(0, 'NFLX', nflx)
acoesDF

### Alinhamento

Objetos DataFrame alinham de uma maneira similar a Series, exceto que eles se alinham tanto nas colunas quanto nas linhas. O objeto resultante é uma união de colunas e linhas rotuladas.

In [None]:
acoesDF1 = acoesDF
acoesDF1

In [None]:
acoesDF2 = acoesDF * 2
acoesDF2['YHOO'] = 80
acoesDF2

In [None]:
acoesDF1 + acoesDF2

No caso onde não exite rótulos de linhas e colunas em comum, o valor é preenchido com ```NaN```, por exemplo, ```YHOO```.

Se combinarmos o DataFrame com uma Series, o comportamento padrão é difundir a Series nas linhas. Vamos utilizar o ```acoesDF1```:

In [None]:
acoesDF1

In [None]:
# Pode ser 10 ou tem que ser uma lista com 4 elementos.
acoesDF1 + pd.Series(10,
                  index = ['GOOG', 'FB', 'AMZN', 'NFLX'])

### Outras operações matemáticas

Operações matemáticas pode ser aplicadas em cada elemento do DF.

In [None]:
acoesDF1

In [None]:
np.sqrt(acoesDF1)

In [None]:
np.mean(acoesDF1)