# A estrutura de dados DataFrame

## Definição

Um Pandas DataFrame é uma tabela de dados ordenada por colunas nomeadas, podendo cada uma delas ser de tipo diferente.

O DataFrame possui linhas e colunas indexadas, podendo ser entendida como um dicionário de Series que compartilham o mesmo índice.

In [1]:
import numpy as np
import pandas as pd

In [2]:
# Exemplo

data = {"state": ["Ohio", "Ohio", "Ohio", "Nevada", "Nevada", "Nevada"],
        "year": [2000, 2001, 2002, 2001, 2002, 2003],
        "pop": [1.5, 1.7, 3.6, 2.4, 2.9, 3.2]}
frame = pd.DataFrame(data)

In [3]:
type(frame)

pandas.core.frame.DataFrame

## Representação string

É a representação padrão de objetos Python, mostrada como resposta à invocação da função print.  Para DataFrames, pode-se invocar a função print ou diretamente o objeto.

In [4]:
print(frame)

    state  year  pop
0    Ohio  2000  1.5
1    Ohio  2001  1.7
2    Ohio  2002  3.6
3  Nevada  2001  2.4
4  Nevada  2002  2.9
5  Nevada  2003  3.2


In [5]:
frame

Unnamed: 0,state,year,pop
0,Ohio,2000,1.5
1,Ohio,2001,1.7
2,Ohio,2002,3.6
3,Nevada,2001,2.4
4,Nevada,2002,2.9
5,Nevada,2003,3.2


## Visualizando os dados de um DataFrame com os métodos head() e tail().

In [6]:
frame.head()

Unnamed: 0,state,year,pop
0,Ohio,2000,1.5
1,Ohio,2001,1.7
2,Ohio,2002,3.6
3,Nevada,2001,2.4
4,Nevada,2002,2.9


In [7]:
frame.tail()

Unnamed: 0,state,year,pop
1,Ohio,2001,1.7
2,Ohio,2002,3.6
3,Nevada,2001,2.4
4,Nevada,2002,2.9
5,Nevada,2003,3.2


## Especificando a sequência de colunas

In [8]:
pd.DataFrame(data, columns = ['year', 'state', 'pop'])

Unnamed: 0,year,state,pop
0,2000,Ohio,1.5
1,2001,Ohio,1.7
2,2002,Ohio,3.6
3,2001,Nevada,2.4
4,2002,Nevada,2.9
5,2003,Nevada,3.2


### Observação:

Se o atributo columns do DataFrame não estiver incluído no dicionário de dados, ela será entendida como missing data.

In [9]:
frame2 = pd.DataFrame(data, columns = ['year', 'state', 'pop', 'debt'])

In [10]:
frame2

Unnamed: 0,year,state,pop,debt
0,2000,Ohio,1.5,
1,2001,Ohio,1.7,
2,2002,Ohio,3.6,
3,2001,Nevada,2.4,
4,2002,Nevada,2.9,
5,2003,Nevada,3.2,


## Observação 2:

Cada coluna nomeada pelo atributo columns pode ser obtida pela notação de dicionário ou pela notação de objeto tal qual no caso do objeto Series.  Mas tal como na Series a notação de dicionário é preferível, pois permite maior flexibilidade na manipulação do objeto DataFrame.

In [11]:
frame2.columns

Index(['year', 'state', 'pop', 'debt'], dtype='object')

In [12]:
# Notação de dicionário
frame2['state']

0      Ohio
1      Ohio
2      Ohio
3    Nevada
4    Nevada
5    Nevada
Name: state, dtype: object

In [13]:
# Notação de objeto
frame2.year

0    2000
1    2001
2    2002
3    2001
4    2002
5    2003
Name: year, dtype: int64

## Observação
Cada coluna do DataFrame possui um atributo name tal como os objetos Series

## Selecionando linhas com os métodos iloc e loc

In [14]:
frame2.loc[1]

year     2001
state    Ohio
pop       1.7
debt      NaN
Name: 1, dtype: object

In [15]:
frame2.iloc[2]

year     2002
state    Ohio
pop       3.6
debt      NaN
Name: 2, dtype: object

## Atribuição de valores para colunas

In [16]:
frame2['debt'] = 16.5

In [17]:
frame2

Unnamed: 0,year,state,pop,debt
0,2000,Ohio,1.5,16.5
1,2001,Ohio,1.7,16.5
2,2002,Ohio,3.6,16.5
3,2001,Nevada,2.4,16.5
4,2002,Nevada,2.9,16.5
5,2003,Nevada,3.2,16.5


In [18]:
frame2['debt'] = np.arange(6.)

In [19]:
frame2

Unnamed: 0,year,state,pop,debt
0,2000,Ohio,1.5,0.0
1,2001,Ohio,1.7,1.0
2,2002,Ohio,3.6,2.0
3,2001,Nevada,2.4,3.0
4,2002,Nevada,2.9,4.0
5,2003,Nevada,3.2,5.0


## Atribuindo um objeto Series como coluna de um DataFrame

In [20]:
val = pd.Series([-1.2, -1.5, -1.7], [2,4,5])

In [21]:
frame2['debt'] = val

In [22]:
frame2

Unnamed: 0,year,state,pop,debt
0,2000,Ohio,1.5,
1,2001,Ohio,1.7,
2,2002,Ohio,3.6,-1.2
3,2001,Nevada,2.4,
4,2002,Nevada,2.9,-1.5
5,2003,Nevada,3.2,-1.7


Observação: 
Note que os índices da Series atuam como posições em relação ao DataFrame.  Por isso, não se pode usar índices não correspondentes aos índices do DataFrame quando se deseja incluir uma Series em um DataFrame.

## Criando novas colunas
Basta atribuir uma nova coluna ao DataFrame

In [23]:
frame2['eastern'] = frame2['state'] == 'Ohio'

In [24]:
frame2

Unnamed: 0,year,state,pop,debt,eastern
0,2000,Ohio,1.5,,True
1,2001,Ohio,1.7,,True
2,2002,Ohio,3.6,-1.2,True
3,2001,Nevada,2.4,,False
4,2002,Nevada,2.9,-1.5,False
5,2003,Nevada,3.2,-1.7,False


## Apagando colunas com o comando del

In [25]:
del frame2['eastern']

In [26]:
frame2

Unnamed: 0,year,state,pop,debt
0,2000,Ohio,1.5,
1,2001,Ohio,1.7,
2,2002,Ohio,3.6,-1.2
3,2001,Nevada,2.4,
4,2002,Nevada,2.9,-1.5
5,2003,Nevada,3.2,-1.7


In [27]:
frame2.columns


Index(['year', 'state', 'pop', 'debt'], dtype='object')

## Lendo dicionário de dicionários


In [28]:
populations = {"Ohio": {2000: 1.5, 2001: 1.7, 2002: 3.6}, "Nevada": {2001: 2.4, 2002: 2.9}}

As chaves do dicionário exterior são as colunas e as chaves do dicionário interior são as linhas.

In [29]:
frame3 = pd.DataFrame(populations)

In [30]:
frame3

Unnamed: 0,Ohio,Nevada
2000,1.5,
2001,1.7,2.4
2002,3.6,2.9


In [31]:
frame3.T

Unnamed: 0,2000,2001,2002
Ohio,1.5,1.7,3.6
Nevada,,2.4,2.9


In [32]:
pd.DataFrame(populations, index = [2001, 2002, 2003])

Unnamed: 0,Ohio,Nevada
2001,1.7,2.4
2002,3.6,2.9
2003,,


## Criando DataFrames a partir de dicionários de Series

In [33]:
pdata = {"Ohio": frame3["Ohio"][:-1], "Nevada": frame3["Nevada"][:2]}

In [34]:
pd.DataFrame(pdata)

Unnamed: 0,Ohio,Nevada
2000,1.5,
2001,1.7,2.4


In [35]:
frame3.index.name = "year"

In [36]:
frame3.columns.name = "state"

In [37]:
frame3

state,Ohio,Nevada
year,Unnamed: 1_level_1,Unnamed: 2_level_1
2000,1.5,
2001,1.7,2.4
2002,3.6,2.9


In [38]:
frame3.to_numpy()

array([[1.5, nan],
       [1.7, 2.4],
       [3.6, 2.9]])

In [39]:
frame2.to_numpy()

array([[2000, 'Ohio', 1.5, nan],
       [2001, 'Ohio', 1.7, nan],
       [2002, 'Ohio', 3.6, -1.2],
       [2001, 'Nevada', 2.4, nan],
       [2002, 'Nevada', 2.9, -1.5],
       [2003, 'Nevada', 3.2, -1.7]], dtype=object)

## Objetos Index

É um objeto sequencial (array) cuja função é armazenar os rótulos dos eixos das estruturas de dados Pandas.  No caso do DataFrame, armazena os nomes das colunas.

In [41]:
obj = pd.Series(np.arange(3), index=['a', 'b', 'c'])

In [42]:
index = obj.index

In [43]:
index

Index(['a', 'b', 'c'], dtype='object')

### Observação:

Objetos Index são imutáveis, sendo necessário, por isso, substituir completamente um Index para mudar a indexação.  Isto é feito para tornar mais segura a manipulação de DataFrames e Series e o compartilhamento de objetos Index entre diferentes estruturas de dados.

In [44]:
labels = pd.Index(np.arange(3))

In [45]:
labels

Index([0, 1, 2], dtype='int32')

In [46]:
obj2 = pd.Series([1.5, -2.5, 0], index = labels)

In [47]:
obj2

0    1.5
1   -2.5
2    0.0
dtype: float64

In [48]:
obj2.index is labels

True

### Observação:

Objetos Index, além de se comportarem como objetos Array, também se comportam como objetos Set de tamanho fixo.  Veja o exemplo:

In [49]:
frame3

state,Ohio,Nevada
year,Unnamed: 1_level_1,Unnamed: 2_level_1
2000,1.5,
2001,1.7,2.4
2002,3.6,2.9


In [50]:
frame3.columns

Index(['Ohio', 'Nevada'], dtype='object', name='state')

In [52]:
"Ohio" in frame3.columns

True