# Dataframes 

### Dataframes são estruturas multidimensionais do Pandas, compostas de linhas e colunas, e que permitem um alto grau de manipulação de seus dados e metadados. Além de mostrar diversas maneiras que possibilitam a criação de um DataFrame, esse documento fará um apanhado dos principais métodos e atributos desse tipo de estrutura.

## Bibliotecas

In [1]:
import numpy as np
import pandas as pd

### Criando um DataFrame

In [2]:
d1 = {"País": ["EUA", "China", "México", "Brasil", "Austrália", "França"], 
      "Continente": ["América do Norte", "Ásia", "América do Norte", "América do Sul", "Oceania", "Europa"],
     "Idioma": ["Inglês", "Mandarim", "Espanhol", "Português", "Inglês", "Francês"]}
d1

{'Continente': ['América do Norte',
  'Ásia',
  'América do Norte',
  'América do Sul',
  'Oceania',
  'Europa'],
 'Idioma': ['Inglês',
  'Mandarim',
  'Espanhol',
  'Português',
  'Inglês',
  'Francês'],
 'País': ['EUA', 'China', 'México', 'Brasil', 'Austrália', 'França']}

In [3]:
# Criando um DataFrame com índices que vão de 1 ao tamanho do dicionário, e colunas nomeadas.
df1 = pd.DataFrame(d1, 
                   index=range(1, len(d1["País"])+1), 
                   columns=["País", "Idioma", "Continente", "Colonização"])
df1

Unnamed: 0,País,Idioma,Continente,Colonização
1,EUA,Inglês,América do Norte,
2,China,Mandarim,Ásia,
3,México,Espanhol,América do Norte,
4,Brasil,Português,América do Sul,
5,Austrália,Inglês,Oceania,
6,França,Francês,Europa,


In [4]:
df1.Colonização = ["Inglesa", np.nan, "Espanhola", "Portuguesa", "Inglesa", np.nan] 
# Adicionando valores à coluna Colonização.

df1.columns.name = "Dados"# Nome das colunas.
df1.index.name = "Índice" # Nome dos índices.
df1

Dados,País,Idioma,Continente,Colonização
Índice,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1,EUA,Inglês,América do Norte,Inglesa
2,China,Mandarim,Ásia,
3,México,Espanhol,América do Norte,Espanhola
4,Brasil,Português,América do Sul,Portuguesa
5,Austrália,Inglês,Oceania,Inglesa
6,França,Francês,Europa,


-------------------------------------------------------------------------------------------------------

## Indexação

### .loc[]
#### Indexa linhas.

In [5]:
d2 = {"Embraer": {"País": "Brasil", "Setor": "Aeronáutico", "Capital": "Aberto"}, 
      "Microsoft":{"País": "Estados Unidos", "Setor": "Software/Hardware", "Capital": "Aberto"},
      "Tencent": {"País": "China", "Setor": "Software", "Capital":"Fechado"},
      "Aranco": {"País": "Arábia Saudita", "Setor": "Petróleo e Gás", "Capital": "Fechado"},
      "Renault": {"País": "França", "Setor": "Automotivo", "Capital": "Aberto"},
     }

df2 = pd.DataFrame(d2)
df2

Unnamed: 0,Embraer,Microsoft,Tencent,Aranco,Renault
País,Brasil,Estados Unidos,China,Arábia Saudita,França
Setor,Aeronáutico,Software/Hardware,Software,Petróleo e Gás,Automotivo
Capital,Aberto,Aberto,Fechado,Fechado,Aberto


In [6]:
df2.loc["País"]

Embraer              Brasil
Microsoft    Estados Unidos
Tencent               China
Aranco       Arábia Saudita
Renault              França
Name: País, dtype: object

### reindex()
#### Reindexa as linhas ou as colunas.

In [7]:
novo_indice = df2.index.append(pd.Index(['Receita'])) # = df2.index.insert(3, 'Receita')
df3 = df2.reindex(novo_indice, fill_value='Em Estudo') # fill_value preenche os valores não disponíveis.
df3

Unnamed: 0,Embraer,Microsoft,Tencent,Aranco,Renault
País,Brasil,Estados Unidos,China,Arábia Saudita,França
Setor,Aeronáutico,Software/Hardware,Software,Petróleo e Gás,Automotivo
Capital,Aberto,Aberto,Fechado,Fechado,Aberto
Receita,Em Estudo,Em Estudo,Em Estudo,Em Estudo,Em Estudo


### iat[] e at[]
#### Indexa um elemento único por índice númerico e literal, respectivamente.

In [8]:
df4 = pd.DataFrame(np.arange(1, 17).reshape(4,4), 
                   index=['Honda', 'Yamaha', 'Suzuki', 'Kawasaki'], 
                   columns=['Receita', 'Vendas', 'Ação (R$)', 'Lançamentos'])
df4

Unnamed: 0,Receita,Vendas,Ação (R$),Lançamentos
Honda,1,2,3,4
Yamaha,5,6,7,8
Suzuki,9,10,11,12
Kawasaki,13,14,15,16


In [9]:
df4.iat[1, 2] # = df4.at['Yamaha', 'Ação']

7

### idxmax()
#### Índice que aparece o maior elemento de cada coluna.

In [10]:
df5 = pd.DataFrame(np.random.randint(100, size=30).reshape(6, 5), 
                   index=list('akbieo'), 
                   columns=['três', 'um', 'cinco', 'dois', 'quatro'])
df5

Unnamed: 0,três,um,cinco,dois,quatro
a,48,18,28,90,20
k,16,82,76,95,74
b,47,54,92,19,40
i,18,46,99,36,39
e,79,39,97,84,23
o,44,47,92,0,30


In [11]:
df5.idxmax()

três      e
um        k
cinco     i
dois      k
quatro    k
dtype: object

### Indexação hierárquica
#### Indíces hierarquizados são aqueles que também apresentam índices.

In [12]:
# Criando uma Series com índices hierarquizados.
s1 = pd.Series([True] * 4 + [False] * 3, index=[['a', 'a', 'a', 'b', 'b', 'c', 'c'], [1, 2, 3, 1, 2, 1, 3]])
s1.index

MultiIndex([('a', 1),
            ('a', 2),
            ('a', 3),
            ('b', 1),
            ('b', 2),
            ('c', 1),
            ('c', 3)],
           )

### unstack() e stack()
#### Por padrão o método unstack() desempilha os índice mais internos em uma coluna, embora possamos escolher um índice específico pelo nome. A função stack() faz o contrário, ela empilha as colunas mais internas nos índices, e por padrão tem dropna = True.

In [13]:
s1.unstack()

Unnamed: 0,1,2,3
a,True,True,True
b,True,False,
c,False,,False


In [14]:
df6 = pd.DataFrame([['Azul', 2001, 125], 
                     ['Preto', 2015, 160], 
                     ['Branco', 2017, 250], 
                     ['Prata', 2016, 150], 
                     ['Branco', 2020, 600], 
                     ['Vermelho', 2012, 600], 
                     ['Preto', 2021, 250]], 
                    columns=['Cor', 'Ano', 'Cilindrada'], 
                    index = pd.MultiIndex.from_frame(pd.DataFrame([('Honda', 'Biz'), ('Honda', 'Titan'), 
                                           ('Honda', 'Twister'), ('Honda', 'PCX'), 
                                           ('Honda', 'Hornet'), ('Yamaha', 'XJ6'), ('Yamaha', 'Fazer')], 
                                                     columns=['Marca', 'Modelo'])))
df6

Unnamed: 0_level_0,Unnamed: 1_level_0,Cor,Ano,Cilindrada
Marca,Modelo,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Honda,Biz,Azul,2001,125
Honda,Titan,Preto,2015,160
Honda,Twister,Branco,2017,250
Honda,PCX,Prata,2016,150
Honda,Hornet,Branco,2020,600
Yamaha,XJ6,Vermelho,2012,600
Yamaha,Fazer,Preto,2021,250


In [15]:
df6.stack()

Marca   Modelo             
Honda   Biz      Cor               Azul
                 Ano               2001
                 Cilindrada         125
        Titan    Cor              Preto
                 Ano               2015
                 Cilindrada         160
        Twister  Cor             Branco
                 Ano               2017
                 Cilindrada         250
        PCX      Cor              Prata
                 Ano               2016
                 Cilindrada         150
        Hornet   Cor             Branco
                 Ano               2020
                 Cilindrada         600
Yamaha  XJ6      Cor           Vermelho
                 Ano               2012
                 Cilindrada         600
        Fazer    Cor              Preto
                 Ano               2021
                 Cilindrada         250
dtype: object

In [16]:
df6 = df6.stack().unstack('Marca').fillna('-')
df6.index.names = ['Modelo', 'Características']
df6

Unnamed: 0_level_0,Marca,Honda,Yamaha
Modelo,Características,Unnamed: 2_level_1,Unnamed: 3_level_1
Biz,Cor,Azul,-
Biz,Ano,2001,-
Biz,Cilindrada,125,-
Fazer,Cor,-,Preto
Fazer,Ano,-,2021
Fazer,Cilindrada,-,250
Hornet,Cor,Branco,-
Hornet,Ano,2020,-
Hornet,Cilindrada,600,-
PCX,Cor,Prata,-


### swaplevel() e argumento level
#### O método swaplevel() permite que troquemos a ordem dos índices ou colunas hierarquizadas, enquanto o argumento level nos permite escolher em qual índice/coluna hierarquizado queremos operar.

In [17]:
df7 = pd.DataFrame(np.zeros(30).reshape(6, 5), 
                  index=[['Japão', 'Alemanha', 'Alemanha', 'Canadá', 'Canadá', 'Canadá'], [1, 1, 2, 1, 2, 3]], 
                  columns=[['Jogo', 'Jogo', 'Jogo', 'Filme', 'Filme'], 
                           ['Nome', 'Origem', 'Plataforma', 'Nome', 'Gênero']])
df7.index.names = ['País', 'Unidade']
df7.columns.names = ['Tipo de Produto', 'Informações']
df7

Unnamed: 0_level_0,Tipo de Produto,Jogo,Jogo,Jogo,Filme,Filme
Unnamed: 0_level_1,Informações,Nome,Origem,Plataforma,Nome,Gênero
País,Unidade,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
Japão,1,0.0,0.0,0.0,0.0,0.0
Alemanha,1,0.0,0.0,0.0,0.0,0.0
Alemanha,2,0.0,0.0,0.0,0.0,0.0
Canadá,1,0.0,0.0,0.0,0.0,0.0
Canadá,2,0.0,0.0,0.0,0.0,0.0
Canadá,3,0.0,0.0,0.0,0.0,0.0


In [18]:
df7.swaplevel(0, 1).sort_index() # Troco-se a posição dos índices 'Unidade' e 'País'.

Unnamed: 0_level_0,Tipo de Produto,Jogo,Jogo,Jogo,Filme,Filme
Unnamed: 0_level_1,Informações,Nome,Origem,Plataforma,Nome,Gênero
Unidade,País,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
1,Alemanha,0.0,0.0,0.0,0.0,0.0
1,Canadá,0.0,0.0,0.0,0.0,0.0
1,Japão,0.0,0.0,0.0,0.0,0.0
2,Alemanha,0.0,0.0,0.0,0.0,0.0
2,Canadá,0.0,0.0,0.0,0.0,0.0
3,Canadá,0.0,0.0,0.0,0.0,0.0


In [19]:
# Ordenou-se o eixo das colunas (axis=1) no nível 1 (level=1 --> Informações).
df7.sort_index(axis=1, level=1)

Unnamed: 0_level_0,Tipo de Produto,Filme,Filme,Jogo,Jogo,Jogo
Unnamed: 0_level_1,Informações,Gênero,Nome,Nome,Origem,Plataforma
País,Unidade,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
Japão,1,0.0,0.0,0.0,0.0,0.0
Alemanha,1,0.0,0.0,0.0,0.0,0.0
Alemanha,2,0.0,0.0,0.0,0.0,0.0
Canadá,1,0.0,0.0,0.0,0.0,0.0
Canadá,2,0.0,0.0,0.0,0.0,0.0
Canadá,3,0.0,0.0,0.0,0.0,0.0


### set_index() e reset_index()
#### Transforma colunas em índices hierarquizados, ou vice versa, respectivamente.

In [20]:
df8 = pd.DataFrame({'a': range(7), 'b': range(7, 0, -1), 'c': ['um'] * 3 + ['dois'] * 4, 'd': [0, 1, 2] * 2 + [3]})
df8

Unnamed: 0,a,b,c,d
0,0,7,um,0
1,1,6,um,1
2,2,5,um,2
3,3,4,dois,0
4,4,3,dois,1
5,5,2,dois,2
6,6,1,dois,3


In [21]:
df8.set_index(['c', 'd'])

Unnamed: 0_level_0,Unnamed: 1_level_0,a,b
c,d,Unnamed: 2_level_1,Unnamed: 3_level_1
um,0,0,7
um,1,1,6
um,2,2,5
dois,0,3,4
dois,1,4,3
dois,2,5,2
dois,3,6,1


In [22]:
df8.set_index(['c', 'a'], drop=False)

Unnamed: 0_level_0,Unnamed: 1_level_0,a,b,c,d
c,a,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
um,0,0,7,um,0
um,1,1,6,um,1
um,2,2,5,um,2
dois,3,3,4,dois,0
dois,4,4,3,dois,1
dois,5,5,2,dois,2
dois,6,6,1,dois,3


In [23]:
df9 = pd.DataFrame(np.random.randint(4, size=21).reshape(7, 3), 
                   index=[['S.J. do Rio Preto'] + ['Jales'] * 3 + ['Votuporanga'] * 2 + ['Araçatuba'],
                          [1, 1, 2, 3, 1, 2, 1]], 
                   columns=[['Segunda', 'Segunda', 'Terça'], ['Carros', 'Motos', 'Carros']])

df9.index.names = ['Cidade', 'Loja']
df9

Unnamed: 0_level_0,Unnamed: 1_level_0,Segunda,Segunda,Terça
Unnamed: 0_level_1,Unnamed: 1_level_1,Carros,Motos,Carros
Cidade,Loja,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
S.J. do Rio Preto,1,0,2,3
Jales,1,3,1,3
Jales,2,2,3,0
Jales,3,3,1,3
Votuporanga,1,2,3,2
Votuporanga,2,1,1,3
Araçatuba,1,1,2,3


In [24]:
df9.reset_index(['Loja'])

Unnamed: 0_level_0,Loja,Segunda,Segunda,Terça
Unnamed: 0_level_1,Unnamed: 1_level_1,Carros,Motos,Carros
Cidade,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
S.J. do Rio Preto,1,0,2,3
Jales,1,3,1,3
Jales,2,2,3,0
Jales,3,3,1,3
Votuporanga,1,2,3,2
Votuporanga,2,1,1,3
Araçatuba,1,1,2,3


-------------------------------------------------------------------------------------------------------

## Valores nulos e Exclusão

### drop()
#### Exclui linhas e colunas.

In [25]:
# Excluindo a linha Receita, e em seguinda excluindo as colunas Microsoft e Renault.
df10 = df3.drop(['Receita']).drop(['Microsoft', 'Renault'], axis='columns')
df10

Unnamed: 0,Embraer,Tencent,Aranco
País,Brasil,China,Arábia Saudita
Setor,Aeronáutico,Software,Petróleo e Gás
Capital,Aberto,Fechado,Fechado


### fillna(n)
#### Preenche os valores não disponíveis por n, sendo n um valor escalar ou um dicionário com chaves iguais os índices das linhas e os valores iguais às novas informações.

In [26]:
df11 = pd.DataFrame(np.random.randn(24).reshape(4, 6), columns=list('abcdef'))
df11.at[1, 'c'] = np.nan
df11

Unnamed: 0,a,b,c,d,e,f
0,-1.014281,-1.006307,0.160368,1.67218,-0.018931,1.189073
1,-1.387513,1.111509,,1.151613,-0.54274,0.146082
2,1.818108,0.085779,-0.373413,1.450449,0.058563,1.064294
3,-0.557066,-0.450679,-1.332855,-1.180329,1.944461,1.347457


In [27]:
df12 = pd.DataFrame(np.random.rand(18).reshape(6, 3), columns=list('abc'))
df12

Unnamed: 0,a,b,c
0,0.874803,0.146683,0.256051
1,0.38551,0.787276,0.611597
2,0.741713,0.99753,0.778994
3,0.867956,0.874004,0.668128
4,0.197711,0.276144,0.41056
5,0.466912,0.359255,0.738742


In [28]:
df11.add(df12)

Unnamed: 0,a,b,c,d,e,f
0,-0.139477,-0.859624,0.416419,,,
1,-1.002003,1.898785,,,,
2,2.559821,1.083309,0.405581,,,
3,0.31089,0.423325,-0.664727,,,
4,,,,,,
5,,,,,,


In [29]:
df11.add(df12, fill_value = 0).fillna(0)

Unnamed: 0,a,b,c,d,e,f
0,-0.139477,-0.859624,0.416419,1.67218,-0.018931,1.189073
1,-1.002003,1.898785,0.611597,1.151613,-0.54274,0.146082
2,2.559821,1.083309,0.405581,1.450449,0.058563,1.064294
3,0.31089,0.423325,-0.664727,-1.180329,1.944461,1.347457
4,0.197711,0.276144,0.41056,0.0,0.0,0.0
5,0.466912,0.359255,0.738742,0.0,0.0,0.0


### isnull()
#### Retorna True para valores nulos

In [30]:
s2 = pd.DataFrame(([1, 2, np.nan], [3, 4, 5], [np.nan, np.nan, np.nan]))
s2

Unnamed: 0,0,1,2
0,1.0,2.0,
1,3.0,4.0,5.0
2,,,


In [31]:
s2.isnull()

Unnamed: 0,0,1,2
0,False,False,True
1,False,False,False
2,True,True,True


### dropna()
#### Exclui linhas e colunas com valores NA.

In [32]:
s2.dropna() # Exclui linhas que têm pelo menos um valor igual à NA.

Unnamed: 0,0,1,2
1,3.0,4.0,5.0


In [33]:
s2.dropna(how='all') # Exclui linhas que têm todos os elementos iguais à NA.

Unnamed: 0,0,1,2
0,1.0,2.0,
1,3.0,4.0,5.0


In [34]:
s2.iloc[1, 2]= np.nan
s2

Unnamed: 0,0,1,2
0,1.0,2.0,
1,3.0,4.0,
2,,,


In [35]:
s2.dropna(how='all', axis=1) # Exclui colunas com todos os valores nulos.

Unnamed: 0,0,1
0,1.0,2.0
1,3.0,4.0
2,,


In [36]:
s2.iloc[2, 2] = 7
s2

Unnamed: 0,0,1,2
0,1.0,2.0,
1,3.0,4.0,
2,,,7.0


In [37]:
s2.fillna(method='bfill', axis=0, limit=1) # Preenche as linhas para trás (bfll) uma vez (limit=1).

Unnamed: 0,0,1,2
0,1.0,2.0,
1,3.0,4.0,7.0
2,,,7.0


-------------------------------------------------------------------------------------------------------

## Funções

### apply(f)
#### Aplica a função f sobre Series.

In [38]:
f = lambda x: np.sqrt(np.var(x)) # Definição de desvio padrão.

df13 = pd.DataFrame(np.random.randint(100, size=50).reshape(10, 5))
df13

Unnamed: 0,0,1,2,3,4
0,87,25,97,46,98
1,24,75,64,9,71
2,52,22,78,81,37
3,50,5,84,81,69
4,51,35,21,51,16
5,45,2,94,4,50
6,79,50,31,16,16
7,54,48,19,63,18
8,67,46,58,82,57
9,61,9,66,42,68


In [39]:
df13.apply(f) # Função nas linhas.

0    16.887865
1    22.226336
2    27.403649
3    28.436772
4    26.427259
dtype: float64

In [40]:
df13.apply(f, axis='columns') # Função nas colunas.

0    29.668839
1    26.867080
2    22.899782
3    28.978613
4    14.620534
5    33.988233
6    23.837785
7    18.510538
8    12.016655
9    22.103393
dtype: float64

### applymap(f)
#### Aplica a função f sobre os elementos de um DataFrame.

In [41]:
form = lambda x: -1 * x

df13.applymap(form)

Unnamed: 0,0,1,2,3,4
0,-87,-25,-97,-46,-98
1,-24,-75,-64,-9,-71
2,-52,-22,-78,-81,-37
3,-50,-5,-84,-81,-69
4,-51,-35,-21,-51,-16
5,-45,-2,-94,-4,-50
6,-79,-50,-31,-16,-16
7,-54,-48,-19,-63,-18
8,-67,-46,-58,-82,-57
9,-61,-9,-66,-42,-68


### map(f)
#### Aplica a função f sobre os elementos de uma Series.

In [42]:
df14 = pd.DataFrame({'comida': ['bacon', 'porco desfiado', 'bacon', 'Pastrami', 'carne enlatada', 
                              'Bacon', 'pastrami', 'presunto', 'nova lox'], 
                     'ounces':[4, 3, 12, 6, 7.5, 8, 3, 5, 6]})
df14

Unnamed: 0,comida,ounces
0,bacon,4.0
1,porco desfiado,3.0
2,bacon,12.0
3,Pastrami,6.0
4,carne enlatada,7.5
5,Bacon,8.0
6,pastrami,3.0
7,presunto,5.0
8,nova lox,6.0


In [43]:
carne_para_animal = {'bacon': 'porco', 
                  'porco desfiado': 'porco', 
                  'pastrami': 'vaca', 
                  'carne enlatada': 'vaca', 
                  'presunto': 'porco', 
                  'nova lox': 'salmão'}
carne_para_animal

{'bacon': 'porco',
 'carne enlatada': 'vaca',
 'nova lox': 'salmão',
 'pastrami': 'vaca',
 'porco desfiado': 'porco',
 'presunto': 'porco'}

In [44]:
df14['animal'] = df14['comida'].str.lower().map(carne_para_animal)
df14['animal']

0     porco
1     porco
2     porco
3      vaca
4      vaca
5     porco
6      vaca
7     porco
8    salmão
Name: animal, dtype: object

-------------------------------------------------------------------------------------------------------

## Ordenação e Edição

### Series
#### São as estruturas de dados indexadas unidimensionais do Pandas.

### sort_index() e sort_values()
#### Ordena os índices e os valores respectivamente.

In [45]:
s3 = pd.Series([1, -4, 5, 3, 0, -1], index=['b', 'a', 'c', 'e', 'f', 'd'])
s3

b    1
a   -4
c    5
e    3
f    0
d   -1
dtype: int64

In [46]:
s3.sort_index()

a   -4
b    1
c    5
d   -1
e    3
f    0
dtype: int64

In [47]:
s3.sort_values(ascending=False) # Ordena em ordem decrescente.

c    5
e    3
b    1
f    0
d   -1
a   -4
dtype: int64

In [48]:
df5.sort_values(by='cinco') # Ordena os valores pela coluna 'cinco'.

Unnamed: 0,três,um,cinco,dois,quatro
a,48,18,28,90,20
k,16,82,76,95,74
b,47,54,92,19,40
o,44,47,92,0,30
e,79,39,97,84,23
i,18,46,99,36,39


### replace() e rename()
#### Altera os valores e os nomes dos índices e colunas respectivamente.

In [49]:
s4 = pd.Series([1, -999, 2, 1000, -999])
s4

0       1
1    -999
2       2
3    1000
4    -999
dtype: int64

In [50]:
s4.replace([1, -999], [0, 8]) # Passa-se a lista a ser substituída, e os valores substitutos.

0       0
1       8
2       2
3    1000
4       8
dtype: int64

In [51]:
s4.replace({-999: 0, 1000: 1}, inplace=True) # Pode-se passar um dicionário também.
s4

0    1
1    0
2    2
3    1
4    0
dtype: int64

In [52]:
df15 = pd.DataFrame(np.arange(12).reshape(3, 4), 
                    index=['Ohio', 'Colorado', 'New York'], 
                    columns=['um', 'dois', 'três', 'quatro'])
df15

Unnamed: 0,um,dois,três,quatro
Ohio,0,1,2,3
Colorado,4,5,6,7
New York,8,9,10,11


In [53]:
df15.rename(index={'Ohio': 'Indiana', 'Colorado': 'Texas'}, columns={'quatro': 'última'}, inplace=True)
df15

Unnamed: 0,um,dois,três,última
Indiana,0,1,2,3
Texas,4,5,6,7
New York,8,9,10,11


### Adicionando uma nova linha ou coluna

In [54]:
df16 = pd.DataFrame(np.random.rand(10).reshape(5, 2), index=range(5), columns=['c_a', 'c_b'])
df16

Unnamed: 0,c_a,c_b
0,0.573932,0.580031
1,0.177637,0.599349
2,0.619115,0.875497
3,0.451622,0.760399
4,0.880991,0.667863


In [55]:
# Nova linha
df16 = df16.append(pd.DataFrame([[1, 2]], index=[len(df16.index)], columns=df16.columns))
df16

Unnamed: 0,c_a,c_b
0,0.573932,0.580031
1,0.177637,0.599349
2,0.619115,0.875497
3,0.451622,0.760399
4,0.880991,0.667863
5,1.0,2.0


In [56]:
# Nova coluna
df16 = df16.assign(c_c = range(1, 7))
df16

Unnamed: 0,c_a,c_b,c_c
0,0.573932,0.580031,1
1,0.177637,0.599349,2
2,0.619115,0.875497,3
3,0.451622,0.760399,4
4,0.880991,0.667863,5
5,1.0,2.0,6


In [57]:
# Nova coluna
df17 = pd.DataFrame(range(6), index=df16.index, columns=['c_d'])
df16.join(df17)

Unnamed: 0,c_a,c_b,c_c,c_d
0,0.573932,0.580031,1,0
1,0.177637,0.599349,2,1
2,0.619115,0.875497,3,2
3,0.451622,0.760399,4,3
4,0.880991,0.667863,5,4
5,1.0,2.0,6,5


-------------------------------------------------------------------------------------------------------

## Métodos Estatísticos

### describe()
#### Mostra várias informações a respeito dos dados do DataFrame por coluna, incluindo quartis, média, desvio padrão, máximo, mínimo e número de elementos não nulos.

In [58]:
df5.describe()

Unnamed: 0,três,um,cinco,dois,quatro
count,6.0,6.0,6.0,6.0,6.0
mean,42.0,47.666667,80.666667,54.0,37.666667
std,23.177575,20.867838,27.038245,40.846052,19.561868
min,16.0,18.0,28.0,0.0,20.0
25%,24.5,40.75,80.0,23.25,24.75
50%,45.5,46.5,92.0,60.0,34.5
75%,47.75,52.25,95.75,88.5,39.75
max,79.0,82.0,99.0,95.0,74.0


### var()
#### Calcula a variância.

In [59]:
df5.var()

três       537.200000
um         435.466667
cinco      731.066667
dois      1668.400000
quatro     382.666667
dtype: float64

### std()
#### Calcula o desvio padrão.

In [60]:
df5.std()

três      23.177575
um        20.867838
cinco     27.038245
dois      40.846052
quatro    19.561868
dtype: float64

### pct_change()
#### Mudança percentual.

In [61]:
df5.pct_change()

Unnamed: 0,três,um,cinco,dois,quatro
a,,,,,
k,-0.666667,3.555556,1.714286,0.055556,2.7
b,1.9375,-0.341463,0.210526,-0.8,-0.459459
i,-0.617021,-0.148148,0.076087,0.894737,-0.025
e,3.388889,-0.152174,-0.020202,1.333333,-0.410256
o,-0.443038,0.205128,-0.051546,-1.0,0.304348


### diff()
#### Diferença de valores entre a linha atual e a predecessora.

In [62]:
df5

Unnamed: 0,três,um,cinco,dois,quatro
a,48,18,28,90,20
k,16,82,76,95,74
b,47,54,92,19,40
i,18,46,99,36,39
e,79,39,97,84,23
o,44,47,92,0,30


In [63]:
df5.diff()

Unnamed: 0,três,um,cinco,dois,quatro
a,,,,,
k,-32.0,64.0,48.0,5.0,54.0
b,31.0,-28.0,16.0,-76.0,-34.0
i,-29.0,-8.0,7.0,17.0,-1.0
e,61.0,-7.0,-2.0,48.0,-16.0
o,-35.0,8.0,-5.0,-84.0,7.0


### corr() e cov()
#### Calcula a correlação e a covariância entre dois objetos respectivamente.

In [64]:
d3 = {'Câmbio': [3.3, 3.4, 4.1], 'Retorno de Y': [5.3, 6.5, 7.1]}
df18 = pd.DataFrame(d3, index= [1, 2, 3])
df18.index.name = 'Período'
df18

Unnamed: 0_level_0,Câmbio,Retorno de Y
Período,Unnamed: 1_level_1,Unnamed: 2_level_1
1,3.3,5.3
2,3.4,6.5
3,4.1,7.1


In [65]:
round(df18['Câmbio'].corr(df18['Retorno de Y']), 2)

0.83

In [66]:
round(df18.Câmbio.cov(df18['Retorno de Y']), 2)

0.33

-------------------------------------------------------------------------------------------------------

## Duplicatas

### duplicate() e drop_duplicates()
#### Identifica e exclui duplicatas respectivamente.

In [67]:
df19 = pd.DataFrame({'k1': ['um', 'dois'] * 3 + ['dois'], 'k2':list(range(6)) + [5]})
df19

Unnamed: 0,k1,k2
0,um,0
1,dois,1
2,um,2
3,dois,3
4,um,4
5,dois,5
6,dois,5


In [68]:
df19.duplicated()

0    False
1    False
2    False
3    False
4    False
5    False
6     True
dtype: bool

In [69]:
df19.drop_duplicates()

Unnamed: 0,k1,k2
0,um,0
1,dois,1
2,um,2
3,dois,3
4,um,4
5,dois,5


In [70]:
df19.drop_duplicates(['k1']) # Retorna sem duplicatas na coluna k1.

Unnamed: 0,k1,k2
0,um,0
1,dois,1


In [71]:
df19.drop_duplicates(keep='last') # Retorna sem duplicatas mantendo o último registro visto.

Unnamed: 0,k1,k2
0,um,0
1,dois,1
2,um,2
3,dois,3
4,um,4
6,dois,5


-------------------------------------------------------------------------------------------------------

## Intervalos

### cut(l1, l2)
#### Cria seções baseado nos valores de l1 e l2. l1 será dividido de acordo com os intervalos formados pelos elementos de l2.

In [72]:
alturas = [153, 165, 149, 170, 183, 167, 177, 190, 202, 160]
intervalos = [0, 165, 185, 230]
rotulos_grupos = ['Baixo', 'Média', 'Alto']

secoes = pd.cut(alturas, intervalos, right=False)
secoes

[[0, 165), [165, 185), [0, 165), [165, 185), [165, 185), [165, 185), [165, 185), [185, 230), [185, 230), [0, 165)]
Categories (3, interval[int64]): [[0, 165) < [165, 185) < [185, 230)]

In [73]:
secoes.categories

IntervalIndex([[0, 165), [165, 185), [185, 230)],
              closed='left',
              dtype='interval[int64]')

In [74]:
secoes.describe()

Unnamed: 0_level_0,counts,freqs
categories,Unnamed: 1_level_1,Unnamed: 2_level_1
"[0, 165)",3,0.3
"[165, 185)",5,0.5
"[185, 230)",2,0.2


### qcut(l1, n)
#### Faz a mesma operação que cut(), mas divide l1 em n intervalos de tamanhos iguais (quantis).

In [75]:
secoes2 = pd.qcut(alturas, 2)
secoes2

[(148.999, 168.5], (148.999, 168.5], (148.999, 168.5], (168.5, 202.0], (168.5, 202.0], (148.999, 168.5], (168.5, 202.0], (168.5, 202.0], (168.5, 202.0], (148.999, 168.5]]
Categories (2, interval[float64]): [(148.999, 168.5] < (168.5, 202.0]]

In [76]:
secoes2.categories

IntervalIndex([(148.999, 168.5], (168.5, 202.0]],
              closed='right',
              dtype='interval[float64]')

In [77]:
secoes2.describe()

Unnamed: 0_level_0,counts,freqs
categories,Unnamed: 1_level_1,Unnamed: 2_level_1
"(148.999, 168.5]",5,0.5
"(168.5, 202.0]",5,0.5


-------------------------------------------------------------------------------------------------------

## Permutação

### take(l1)
#### Ordena o DataFrame com base em l1.

In [78]:
df20 =pd.DataFrame(np.arange(20).reshape(5, 4))
df20

Unnamed: 0,0,1,2,3
0,0,1,2,3
1,4,5,6,7
2,8,9,10,11
3,12,13,14,15
4,16,17,18,19


In [79]:
amostra = np.random.permutation(5)
amostra

array([4, 0, 1, 3, 2])

In [80]:
df20.take(amostra)

Unnamed: 0,0,1,2,3
4,16,17,18,19
0,0,1,2,3
1,4,5,6,7
3,12,13,14,15
2,8,9,10,11


### sample(n, replace)
#### Escolhe n registros do DataFrame, com ou sem substituição.

In [81]:
df20.sample(n=2)

Unnamed: 0,0,1,2,3
4,16,17,18,19
0,0,1,2,3


In [82]:
df20.sample(n=7, replace=True)

Unnamed: 0,0,1,2,3
3,12,13,14,15
3,12,13,14,15
2,8,9,10,11
3,12,13,14,15
0,0,1,2,3
2,8,9,10,11
0,0,1,2,3


-------------------------------------------------------------------------------------------------------

## Dummies

### pd.get_dummies()
#### Indica se uma determinada linha tem tal elemento (1) ou não (0).

In [83]:
df21 = pd.DataFrame({'chave': ['b', 'b', 'a', 'c', 'a', 'b'], 
                     'data1': range(6)})
df21

Unnamed: 0,chave,data1
0,b,0
1,b,1
2,a,2
3,c,3
4,a,4
5,b,5


In [84]:
pd.get_dummies(df21['chave'], prefix='chave')

Unnamed: 0,chave_a,chave_b,chave_c
0,0,1,0
1,0,1,0
2,1,0,0
3,0,0,1
4,1,0,0
5,0,1,0


-------------------------------------------------------------------------------------------------------

## Junção

### pd.merge() e join()
#### Ambas as funções usam notação de SQL para fazerem junções de tabelas. Os valores dos argumentos, assim como aqueles vistos em SQL, são left, right, outer, cross e inner para how, sendo inner o valor default. left_on e right_on são os argumentos das colunas comparativas, e left_index e right_index são usados quando as chaves comparativas estão em algum índice.

In [85]:
df22 = pd.DataFrame({'chave': ['b', 'b', 'a', 'c', 'a', 'a', 'b'], 
                    'data1': range(7)})
df22

Unnamed: 0,chave,data1
0,b,0
1,b,1
2,a,2
3,c,3
4,a,4
5,a,5
6,b,6


In [86]:
df23 = pd.DataFrame({'chave': ['a', 'b', 'd', np.nan], 
                    'data2': range(4)})
df23

Unnamed: 0,chave,data2
0,a,0
1,b,1
2,d,2
3,,3


In [87]:
pd.merge(right=df22, left=df23, on='chave', how='left')

Unnamed: 0,chave,data2,data1
0,a,0,2.0
1,a,0,4.0
2,a,0,5.0
3,b,1,0.0
4,b,1,1.0
5,b,1,6.0
6,d,2,
7,,3,


In [88]:
df24 = pd.DataFrame({'chave1': ['a', 'd', 'b', 'c'], 
                    'data1': range(4)})
df24

Unnamed: 0,chave1,data1
0,a,0
1,d,1
2,b,2
3,c,3


In [89]:
df25= pd.DataFrame({'chave2': ['c', 'a', 'b'], 
                    'data2': range(3)})
df25

Unnamed: 0,chave2,data2
0,c,0
1,a,1
2,b,2


In [90]:
pd.merge(right=df24, left=df25, left_on='chave2', right_on='chave1', indicator=True, how='right')

Unnamed: 0,chave2,data2,chave1,data1,_merge
0,a,1.0,a,0,both
1,,,d,1,right_only
2,b,2.0,b,2,both
3,c,0.0,c,3,both


In [91]:
df26 = pd.DataFrame([[1., 2.], [3., 4.], [5., 6.]], 
                   index=['a', 'c', 'e'], 
                   columns=['Rio de Janeiro', 'São Paulo'])
df26

Unnamed: 0,Rio de Janeiro,São Paulo
a,1.0,2.0
c,3.0,4.0
e,5.0,6.0


In [92]:
df27 = pd.DataFrame([[7., 8.], [9., 10.], [11., 12.], [13., 14]], 
                   index=['b', 'c', 'd', 'e'], 
                   columns=['Minas Gerais', 'Santa Catarina'] )
df27

Unnamed: 0,Minas Gerais,Santa Catarina
b,7.0,8.0
c,9.0,10.0
d,11.0,12.0
e,13.0,14.0


In [93]:
# As colunas do argumento devem ser diferentes daquelas da instância. Por default how='left'.
df26.join(df27, how='outer')

Unnamed: 0,Rio de Janeiro,São Paulo,Minas Gerais,Santa Catarina
a,1.0,2.0,,
b,,,7.0,8.0
c,3.0,4.0,9.0,10.0
d,,,11.0,12.0
e,5.0,6.0,13.0,14.0


### pd.concat()
#### Concatena estruturas de dados.

In [94]:
s5 = pd.Series([0, 1], index=['a', 'b'])
s6 = pd.Series([2, 3, 4], index=['c', 'd', 'e'])
s7 = pd.Series([5, 6], index=['f', 'g'])
s5.name, s6.name, s7.name = 's5', 's6', 's7'

s5

a    0
b    1
Name: s5, dtype: int64

In [95]:
s6

c    2
d    3
e    4
Name: s6, dtype: int64

In [96]:
s7

f    5
g    6
Name: s7, dtype: int64

In [97]:
# Concatenando ao longo das colunas, gerando um DataFrame.
pd.concat([s5, s6, s7], axis='columns')

Unnamed: 0,s5,s6,s7
a,0.0,,
b,1.0,,
c,,2.0,
d,,3.0,
e,,4.0,
f,,,5.0
g,,,6.0


In [98]:
# Concatenando ao longo das linhas, gerando outra Serie.
pd.concat([s5, s6, s7], axis='index')

a    0
b    1
c    2
d    3
e    4
f    5
g    6
dtype: int64

In [99]:
s8, s8.name = pd.concat([s5, s7]), 's8'
s8

a    0
b    1
f    5
g    6
Name: s8, dtype: int64

In [100]:
pd.concat([s5, s8], axis=1, join='inner') # Faz um inner join usando os índices como chave.

Unnamed: 0,s5,s8
a,0,0
b,1,1


In [101]:
# O argumento keys cria índices hierarquizados.
pd.concat([s5, s6, s7], keys=['cinco', 'seis', 'sete'])

cinco  a    0
       b    1
seis   c    2
       d    3
       e    4
sete   f    5
       g    6
dtype: int64

In [102]:
# O argumento ignore_index = True ignorará os índices.
pd.concat([s6, s7], ignore_index=True)

0    2
1    3
2    4
3    5
4    6
dtype: int64

In [103]:
s9 = pd.Series([1], index=['b'])
s9

b    1
dtype: int64

### df1.combine_first(df2)
#### Funciona como np.where(df1.isnull(), df2, df1)

In [104]:
df28 = pd.DataFrame([[1, 2, np.nan], 
                    [3, np.nan, 4], 
                    [np.nan, np.nan, 5]], index=list('abc'))
df28

Unnamed: 0,0,1,2
a,1.0,2.0,
b,3.0,,4.0
c,,,5.0


In [105]:
df29 = pd.DataFrame(np.arange(12).reshape(4, 3), index=list('abcd'))
df29

Unnamed: 0,0,1,2
a,0,1,2
b,3,4,5
c,6,7,8
d,9,10,11


In [106]:
df28.combine_first(df29)

Unnamed: 0,0,1,2
a,1.0,2.0,2.0
b,3.0,4.0,4.0
c,6.0,7.0,5.0
d,9.0,10.0,11.0
