# Capítulo 7: Criando DataFrames

[Referência](https://riptutorial.com/pandas)

### Introdução

DataFrame é uma estrutura de dados fornecida pela biblioteca pandas, além de Series & Panel. É uma estrutura bidimensional e pode ser comparada a uma tabela de linhas e colunas.

Cada linha pode ser identificada por um índice inteiro (0..N) ou um rótulo explicitamente definido ao criar um objeto DataFrame. Cada coluna pode ser de um tipo distinto e é identificada por um rótulo.
Este tópico cobre várias maneiras de construir/criar um objeto DataFrame. Ex. de matrizes Numpy, da lista de tuplas, do dicionário.

### Exemplos

Crie um DataFrame de amostra

In [1]:
import pandas as pd

Crie um DataFrame a partir de um dicionário, contendo duas colunas: **numbers** e **colors**. Cada chave representa um nome de coluna e o valor é uma série de dados, o conteúdo da coluna:

In [3]:
df = pd.DataFrame({'numbers': [1, 2, 3], 'colors': ['red', 'white', 'blue']})

df

Unnamed: 0,numbers,colors
0,1,red
1,2,white
2,3,blue


O Pandas ordena as colunas em ordem alfabética, pois os **dict** não são ordenados. Para especificar a ordem, use o parâmetro de colunas.

In [4]:
df = pd.DataFrame({'numbers': [1, 2, 3], 'colors': ['red', 'white', 'blue']},
                  columns=['numbers', 'colors'])

df

Unnamed: 0,numbers,colors
0,1,red
1,2,white
2,3,blue


### Crie um DataFrame de amostra usando Numpy

Crie um DataFrame de números aleatórios:

In [5]:
import numpy as np


In [11]:
# Set the seed for a reproducible sample

np.random.seed(0)
df = pd.DataFrame(np.random.randn(5, 3), columns=list('ABC'))

df

Unnamed: 0,A,B,C
0,1.764052,0.400157,0.978738
1,2.240893,1.867558,-0.977278
2,0.950088,-0.151357,-0.103219
3,0.410599,0.144044,1.454274
4,0.761038,0.121675,0.443863


### Crie um DataFrame com inteiros:

In [14]:
df = pd.DataFrame(np.arange(15).reshape(5,3),columns=list('ABC'))

df

Unnamed: 0,A,B,C
0,0,1,2
1,3,4,5
2,6,7,8
3,9,10,11
4,12,13,14


Crie um **DataFrame** e inclua nans (**NaT**, **NaN**, **'nan'**, **None**) nas colunas e linhas:

In [19]:
df = pd.DataFrame(np.arange(48).reshape(8,6),columns=list('ABCDEF'))

df

Unnamed: 0,A,B,C,D,E,F
0,0,1,2,3,4,5
1,6,7,8,9,10,11
2,12,13,14,15,16,17
3,18,19,20,21,22,23
4,24,25,26,27,28,29
5,30,31,32,33,34,35
6,36,37,38,39,40,41
7,42,43,44,45,46,47


In [20]:
df.loc[::2,0] = np.nan      # in column 0, set elements with indices 0,2,4, ... to NaN
df.loc[::4,1] = pd.NaT      # in column 1, set elements with indices 0,4, ... to np.NaT
df.loc[:3,2] = 'nan'        # in column 2, set elements with index from 0 to 3 to 'nan'
df.loc[:,5] = None          # in column 5, set all elements to None
df.loc[5,:] = None          # in row 5, set all elements to None
df.loc[7,:] = np.nan        # in row 7, set all elements to NaN

df

Unnamed: 0,A,B,C,D,E,F,0,1,2,5
0,0.0,1.0,2.0,3.0,4.0,5.0,,NaT,,
1,6.0,7.0,8.0,9.0,10.0,11.0,,NaT,,
2,12.0,13.0,14.0,15.0,16.0,17.0,,NaT,,
3,18.0,19.0,20.0,21.0,22.0,23.0,,NaT,,
4,24.0,25.0,26.0,27.0,28.0,29.0,,NaT,,
5,,,,,,,,NaT,,
6,36.0,37.0,38.0,39.0,40.0,41.0,,NaT,,
7,,,,,,,,NaT,,


Crie um DataFrame de amostra a partir de várias coleções usando o Dicionário

In [21]:
x = np.random.standard_normal(4)

x

array([ 0.33367433,  1.49407907, -0.20515826,  0.3130677 ])

In [22]:
y = range(4)

y

range(0, 4)

In [23]:
df = pd.DataFrame({'X':x, 'Y':y})

df

Unnamed: 0,X,Y
0,0.333674,0
1,1.494079,1
2,-0.205158,2
3,0.313068,3


### Crie um DataFrame a partir de uma lista de tuplas

Você pode criar um **DataFrame** a partir de uma lista de tuplas simples e pode até escolher os elementos específicos das tuplas que deseja usar. Aqui, criaremos um **DataFrame** usando todos os dados em cada tupla, exceto o último elemento.

In [24]:
data = [('p1', 't1', 1, 2),
        ('p1', 't2', 3, 4),
        ('p2', 't1', 5, 6),
        ('p2', 't2', 7, 8),
        ('p2', 't3', 2, 8)]

In [25]:
df = pd.DataFrame(data)

df

Unnamed: 0,0,1,2,3
0,p1,t1,1,2
1,p1,t2,3,4
2,p2,t1,5,6
3,p2,t2,7,8
4,p2,t3,2,8


### Crie um DataFrame a partir de um dicionário de listas

Crie um **DataFrame** a partir de várias listas, passando um dicionário cujas listas de valores. As chaves do dicionário são usadas como rótulos de coluna. As listas também podem ser variadas. As **listas/ndarrays** devem ter o mesmo comprimento.

In [26]:
# Criar DF a partir de listas/ndarrays

df = pd.DataFrame({'A' : [1, 2, 3, 4],
                   'B' : [4, 3, 2, 1]})

df

Unnamed: 0,A,B
0,1,4
1,2,3
2,3,2
3,4,1


Se as matrizes não tiverem o mesmo comprimento, um erro será gerado

In [27]:
df = pd.DataFrame({'A' : [1, 2, 3, 4], 'B' : [5, 5, 5]}) # a ValueError is raised

ValueError: arrays must all be same length

Usando ndarrays

In [28]:
np.random.seed(123)


In [30]:
x = np.random.standard_normal(4)

x

array([-0.57860025,  1.65143654, -2.42667924, -0.42891263])

In [31]:
y = range(4)

y

range(0, 4)

In [32]:
df = pd.DataFrame({'X':x, 'Y':y})

df

Unnamed: 0,X,Y
0,-0.5786,0
1,1.651437,1
2,-2.426679,2
3,-0.428913,3


Veja detalhes adicionais [aqui](http://pandas.pydata.org/pandas-docs/stable/dsintro.html#from-dict-ofndarrays-listas)

### Crie um DataFrame de amostra com datetime

In [33]:
np.random.seed(0)

# crie uma matriz de 5 datas começando em '2015-02-24', uma por minuto
rng = pd.date_range('2015-02-24', periods=5, freq='T')

rng

DatetimeIndex(['2015-02-24 00:00:00', '2015-02-24 00:01:00',
               '2015-02-24 00:02:00', '2015-02-24 00:03:00',
               '2015-02-24 00:04:00'],
              dtype='datetime64[ns]', freq='T')

In [34]:
df = pd.DataFrame({ 'Date': rng, 'Val': np.random.randn(len(rng)) })

df

Unnamed: 0,Date,Val
0,2015-02-24 00:00:00,1.764052
1,2015-02-24 00:01:00,0.400157
2,2015-02-24 00:02:00,0.978738
3,2015-02-24 00:03:00,2.240893
4,2015-02-24 00:04:00,1.867558


In [36]:
# crie uma matriz de 5 datas começando em '2015-02-24', uma por dia

rng = pd.date_range('2015-02-24', periods=5, freq='D')


rng

DatetimeIndex(['2015-02-24', '2015-02-25', '2015-02-26', '2015-02-27',
               '2015-02-28'],
              dtype='datetime64[ns]', freq='D')

In [37]:
df = pd.DataFrame({ 'Date': rng, 'Val' : np.random.randn(len(rng))})

df

Unnamed: 0,Date,Val
0,2015-02-24,-0.977278
1,2015-02-25,0.950088
2,2015-02-26,-0.151357
3,2015-02-27,-0.103219
4,2015-02-28,0.410599


In [38]:
# crie uma matriz de 5 datas começando em '2015-02-24', uma a cada 3 anos

rng = pd.date_range('2015-02-24', periods=5, freq='3A')

rng

DatetimeIndex(['2015-12-31', '2018-12-31', '2021-12-31', '2024-12-31',
               '2027-12-31'],
              dtype='datetime64[ns]', freq='3A-DEC')

In [39]:
df = pd.DataFrame({ 'Date': rng, 'Val' : np.random.randn(len(rng))})

df

Unnamed: 0,Date,Val
0,2015-12-31,0.144044
1,2018-12-31,1.454274
2,2021-12-31,0.761038
3,2024-12-31,0.121675
4,2027-12-31,0.443863


DataFrame com **DatetimeIndex**:

In [40]:
np.random.seed(0)
rng = pd.date_range('2015-02-24', periods=5, freq='T')

rng

DatetimeIndex(['2015-02-24 00:00:00', '2015-02-24 00:01:00',
               '2015-02-24 00:02:00', '2015-02-24 00:03:00',
               '2015-02-24 00:04:00'],
              dtype='datetime64[ns]', freq='T')

In [41]:
df = pd.DataFrame({ 'Val' : np.random.randn(len(rng)) }, index=rng)

df

Unnamed: 0,Val
2015-02-24 00:00:00,1.764052
2015-02-24 00:01:00,0.400157
2015-02-24 00:02:00,0.978738
2015-02-24 00:03:00,2.240893
2015-02-24 00:04:00,1.867558


**Offset-aliases** for parameter freq in **date_range**:

### Crie um DataFrame de amostra com MultiIndex

Usando **from_tuples**:

In [42]:
np.random.seed(0)
tuples = list(zip(*[['bar', 'bar', 'baz', 'baz','foo', 'foo', 'qux', 'qux'],
                    ['one', 'two', 'one', 'two','one', 'two', 'one', 'two']]))


tuples

[('bar', 'one'),
 ('bar', 'two'),
 ('baz', 'one'),
 ('baz', 'two'),
 ('foo', 'one'),
 ('foo', 'two'),
 ('qux', 'one'),
 ('qux', 'two')]

In [43]:
idx = pd.MultiIndex.from_tuples(tuples, names=['first', 'second'])

idx

MultiIndex([('bar', 'one'),
            ('bar', 'two'),
            ('baz', 'one'),
            ('baz', 'two'),
            ('foo', 'one'),
            ('foo', 'two'),
            ('qux', 'one'),
            ('qux', 'two')],
           names=['first', 'second'])

Usando **from_product**:

In [44]:
idx = pd.MultiIndex.from_product([['bar', 'baz', 'foo', 'qux'],['one','two']])

idx

MultiIndex([('bar', 'one'),
            ('bar', 'two'),
            ('baz', 'one'),
            ('baz', 'two'),
            ('foo', 'one'),
            ('foo', 'two'),
            ('qux', 'one'),
            ('qux', 'two')],
           )

Então, use este MultiIndex:

In [45]:
df = pd.DataFrame(np.random.randn(8, 2), index=idx, columns=['A', 'B'])

df

Unnamed: 0,Unnamed: 1,A,B
bar,one,1.764052,0.400157
bar,two,0.978738,2.240893
baz,one,1.867558,-0.977278
baz,two,0.950088,-0.151357
foo,one,-0.103219,0.410599
foo,two,0.144044,1.454274
qux,one,0.761038,0.121675
qux,two,0.443863,0.333674


### Salvar e carregar um DataFrame no formato pickle (.plk)

In [None]:
# Salvar dataframe no objeto pandas em conserva

df.to_pickle(file_name) # where to save it usually as a .plk


# Load dataframe from pickled pandas object
df= pd.read_pickle(file_name)

### Crie um DataFrame a partir de uma lista de dicionários

Um DataFrame pode ser criado a partir de uma lista de dicionários. As chaves são usadas como nomes de coluna.

In [46]:
L = [{'Name': 'John', 'Last Name': 'Smith'},
     {'Name': 'Mary', 'Last Name': 'Wood'}]

L

[{'Name': 'John', 'Last Name': 'Smith'}, {'Name': 'Mary', 'Last Name': 'Wood'}]

In [47]:
pd.DataFrame(L)

Unnamed: 0,Name,Last Name
0,John,Smith
1,Mary,Wood


Valores ausentes são preenchidos com **NaNs**

In [48]:
L = [{'Name': 'John', 'Last Name': 'Smith', 'Age': 37},
     {'Name': 'Mary', 'Last Name': 'Wood'}]


pd.DataFrame(L)

Unnamed: 0,Name,Last Name,Age
0,John,Smith,37.0
1,Mary,Wood,


Leia [Criando DataFrames](https://riptutorial.com/pandas/topic/1595/creating-dataframes) online.