## Pandas

## Numpy

---

Para começar com Pandas, é necessário entender conceitos básicos do Numpy

Toda a teoria de **Databases** é baseada em um conceito de **Forma Normal**. Isso vem lá dos primórdios das linguagens especiais para **Bancos de Dados**, como **COBOL** e está baseado numa padronização tipo 1FN, 2FN... Todo mundo que opera **Databases** conhece e adora discutir essas formas normais[aqui](https://pt.wikipedia.org/wiki/Normaliza%C3%A7%C3%A3o_de_dados)

E a linguagem de programação se fixou para **Databases** foi o SQL

Este é um casamento quase perfeito, se não fosse o pequeno detalhe que o que normalmente se faz em Python não é gerir e armazenar bancos de dados, mas sim fazer **Data Science**!

---

Bom, então teremos que contar esta história toda de novo. Tudo começou com a evolução do Python como linguagem por excelência para Inteligência Artificial. O ramo é extremamente **promissor** e vale a pena entender as regras deste jogo

Em **primeiro** lugar, temos dados que originalmente simplesmente foram colocados na maneira mais simples usada pela ciência para armazenar grande volume de dados. Então se usavam **Matrizes** e **Vetores**. Matriz é uma estrutura 2D contendo dados numéricos de **ponto flutuante**. O ideal é que estes dados não sejam muito **esparsos**, ou teremos que lidar com eles de maneiras diferentes. A ciência foi capaz de evoluir várias formulações matemáticas para lidar com **matrizes esparsas**. Vetores são mais simples, são uma matriz com uma única dimensão de dados

A maneira de lidar com dados inicial do Python portanto, foi na forma de matrizes e vetores. E matrizes são tratadas por um pacote específico chamado **Numpy**

E como diversos pacotes entrelaçam com **Numpy**, esta revisão pode ser útil [aqui](https://www.datacamp.com/community/tutorials/python-numpy-tutorial)

Especialmente Pandas. O Pandas não começou da maneira tradicional dos **Databases**. Ele criou sua própria estrutura chamada de **Dataframes**. Um **Dataframe** é portanto um **forking** (derivação) de uma matriz **Numpy** e ultrassofisticada, podendo conter diversos tipos de campos, **Multiíndice**, **Multicoluna** e operações complexas, como **Relacionamentos**, **Empilhamento** e muitas outras

Primeiro uma revisão de:

**Matrizes**

- o apontador **data** indica o endereço de memória do primeiro byte da matriz

- **dtype** descreve o tipo de dado

- **shape** o formato

- **strides** é o número de bytes que serão pulados para o próximo elemento. Se o seu **stride** for (10,1), você precisará prosseguir por um byte para a próxima coluna e 10 bytes para encontrar a próxima linha

Funções interessantes:

- **np.linspace()** e **np.arange()** para criar matrizes com certos conjuntos de dados

- **np.eye()** e **np.identity()** para matriz identidade

- **.loadtxt()** e **.genfromtxt()** para carregar matrizes a partir de arquivos texto e **.savetxt()** para gravar

- **np.array_equal()** para comparar duas matrizes

- **np.logical_or()** (...) operadores lógicos ( e também em comparações, | (OR) e & (AND)

      bigger_than_3 = (my_3d_array > 3) | (my_3d_array == 3)


- Cortar matrizes

In [None]:
a[start:end] # items start through the end (but the end is not included!)
a[start:]    # items start through the rest of the array
a[:end]      # items from the beginning through the end (but the end is not included!)

- **np.resize()** e **np.reshape()** para cortar/colar cópias dos dados até preencher a nova matriz (bons para arquivos *raster*) 

- **.ravel()** para achatar a uma dimensão menor

- **np.append()** para colar uma ao final da outra (como SQL **Union**)

- **np.insert()** e **np.delete()** para adicionar ou eliminar elementos

- **np.concatenate()** ou **np.c_[]**

- **np.vstack()** e **np.hstack()** e **np.column_stack()**

- **np.hsplit()** e **np.vsplit**

- **np.histogram()**

- **np.meshgrid()**

### Dicionários [aqui](https://www.youtube.com/watch?v=daefaLgNkw0)

---

Em **segundo** lugar, teremos a estrutura chamada **Dicionário**. Para trabalhar com Data Science e AI em Python é importante conhecer bem esta estrutura. Ela é bastante simples e muito funcional. Dicionários são usados há bastante tempo em programação para otimizar cálculos complexos. Tanto **Matrizes** como **Dicionários** são facilmente convertidos em **Dataframes**

Um dicionário trabalha com o conceito de **Key-Value Pairs**. Um **Valor Chave** serve para abrir um segundo valor. A graça é que este segundo valor pode ser algo simples, como uma string de texto, ou uma **sequência de dados**, ou mesmo um segundo dicionário **aninhado**

In [1]:
student = {'name': 'John', 'age': 25, 'courses': ['Math', 'CompSci']}

student.update({'name': 'Jane', 'age': 26, 'phone': '555-555'}) #para múltiplas atualizações

student['phone'] = '444-444'
student['name'] = 'Jane'

del student['age'] #remover
age = student.pop('age')

print(len(student)) #mostra as chaves
print(student.keys)
print(student.values) #mostra os valores
print(student.items()) #chaves e valores (em tuplas)

for key in student:
        print(key)

for key, value in student.items():
        print(key, value)

print (student.get('name'))
print (student.get('phone'))# <-return None
print (student.get('name', 'Not Found'))# <-mensagem customizada

John


---

Dica: se eu quiser testar se um objeto está vazio:

*Isso vale para qualquer objeto Python. Então eu não preciso testar se aquele objeto contêm um dado, etc.. Eu posso simplesmente chamar por aquele objeto. Esse tipo de teste rápido evita um bocado de erro no meu código!*

In [2]:
dicionario={}

if dicionario:
    print('OK')
else:
    print('Vazio')

Vazio


---

Dica: se eu quiser saber se um objeto é ele mesmo ou se é um apontador:

*Observe que cada um ocupa um espaço na memória, possui um ID diferente!*

In [5]:
dicionario={}
diciob={}

if dicionario is diciob:
    print('Igual')
else:
    print('diferente')
    
print(id(dicionario), id(diciob))

diferente
1796070138936 1796069932920


---

Em **Terceiro**, é necessário uma boa revisão em **Estatística**. A Estatística é a base da AI e sem conhecer o seu funcionamento, dificilmente se consegue algo com algum fundamento científico. E mesmo que você esteja pensando em criar apenas um jogo, sem um mínimo de fundamento científico, seu game mostrará inconsistências e se tornará desacreditado!

---

E por fim, maneiras de exibir isso ao seu cliente, através de **gráficos**. A revisão de **Seaborn** trata apenas disso. Gráficos são usados em Data Science em duas etapas:

- exploratória, quando nós queremos entender a **estrutura profunda** dos dados com os quais estamos lidando. Então são gráficos plotados para **nós mesmos**, indicando a localização dos outliers, a dispersão dos pontos, as possíveis falhas na aquisição, possíveis aproximações a uma regressão linear ou não...

- explanatória, quando nós iremos apresentar os **resultados** ao nosso cliente. Estes são gráficos bonitos, pouco poluídos e que exibam bastante **Big Data**. É isso o que um administrador e o público em geral gostam de ver

## Pandas

---

Como o **Seaborn** interage muito bem com o sistema de dados **Pandas**, esta revisão foi encontrada [aqui](https://www.datacamp.com/community/tutorials/pandas-tutorial-dataframe-python)

Uma colinha [aqui](https://s3.amazonaws.com/assets.datacamp.com/blog_assets/PandasPythonForDataScience.pdf)

Um **dataset** Pandas é composto de **dados**, **índice** e **colunas**. A estrutura que pode conter os dados pode ser:

- um Pandas **dataframe**

- uma **série** Pandas

- uma **ndarray** do Numpy de 2D

- **dicionários** de **ndarray** de uma dimensão, listas, dicionários de **séries**

OS tipos são:

- **series** 1D com **índice** e **rótulos**

- **dataframes** 2D com **índices 2D** e **rótulos** de **linha** e de **coluna**

- **panel** 3D, como os anteriores

---

Dataframe é uma estrutura de dados 2D, muito parecida com em banco de dados, as **tabelas**

Ela possui **colunas**, que em banco de dados são chamados **campos**. Uma coluna pode apresentar estrutura hierarquizada, chamada de **categorias**, ou **multiíndice de coluna**

E ela possui **linhas**, que em banco de dados são chamados de **registros**. O **índice** pode apresentar estrutura de árvore, chamada de **multiíndice**

O método Pandas para isso é **.set_index()** e para visualizar, **df.index**

---

Matrizes **estruturadas** permitem a manipulação de dados através de **campos** por nome (coluna) e de registros via **índice** (linha):

In [90]:
import numpy as np

# A structured array
my_array = np.ones(3, dtype=([('foo', int), ('bar', float)]))

# Print the structured array
#print (my_array.dtype.names)
print (my_array['foo'])
print (my_array['bar'])

[1 1 1]
[1. 1. 1.]


---

Matrizes **de registro** (record array) aumentam essa possibilidade. Elas permitem que os campos de uma matriz **estruturada** sejam acessados por **atributo**:

In [91]:
# A record array
my_array2 = my_array.view(np.recarray)

# Print the record array
print(my_array2.foo)
print(my_array2.bar)

[1 1 1]
[1. 1. 1.]


---

Passagem do dataframe do **Numpy** para o **Pandas**

In [92]:
import numpy as np
import pandas as pd

data = np.array([['','Col1','Col2'],
                ['Row1',1,2],
                ['Row2',3,4]])
                
print(pd.DataFrame(data=data[1:,1:],
                  index=data[1:,0],
                  columns=data[0,1:]))

#print (data[1:,1:])
#print (data[1:,0])
#print (data[0,1:])

     Col1 Col2
Row1    1    2
Row2    3    4


---

**Matriz 2D**, **dicionário**, **dataframe** e **série** transformadas em Pandas Dataframe:

*observe que a série ficou ordenada!*

In [94]:
# Take a 2D array as input to your DataFrame 
my_2darray = np.array([[1, 2, 3], [4, 5, 6]])
print(pd.DataFrame(my_2darray))

# Take a dictionary as input to your DataFrame 
my_dict = {1: ['1', '3'], 2: ['1', '2'], 3: ['2', '4']}
print(pd.DataFrame(my_dict))

# Take a DataFrame as input to your DataFrame 
my_df = pd.DataFrame(data=[4,5,6,7], index=range(0,4), columns=['A'])
print(pd.DataFrame(my_df))

# Take a Series as input to your DataFrame
my_series = pd.Series({"Belgium":"Brussels", "India":"New Delhi", "United Kingdom":"London", "United States":"Washington"})
pd.DataFrame(my_series)

   0  1  2
0  1  2  3
1  4  5  6
   1  2  3
0  1  1  2
1  3  2  4
   A
0  4
1  5
2  6
3  7


Unnamed: 0,0
Belgium,Brussels
India,New Delhi
United Kingdom,London
United States,Washington


---

Informações sobre o Dataframe:

- propriedade **shape** dá as dimensões
- função **len()** em combinação com a propriedade **index**, traz apenas o comprimento
- **df[0].count()** exclui os valores **Nan** e pode ser perigoso. Mas dar um **df.count()** pode lhe dizer em quais colunas existem valores nulos!
- **list(df.columns.values)** dá mais informações sobre as colunas 

---

Acessando de diversas maneiras o **valor** que se encontra no índice 2, da coluna B

Depois, acessando **colunas** e **linhas**

Conceito de **indexação**

- .loc[] - trabalha sobre **rótulos**, como "A"
- .iloc[] - trabalha com **posições**

In [95]:
# Take a dictionary as input to your DataFrame
my_dict = {'A': ['1', '2', '3'], 'B': ['4', '5', '6'], 'C': ['7', '8', '9']}
df = pd.DataFrame(my_dict)
print(df)

# Using `iloc[]`
print(df.iloc[2][1])

# Using `loc[]`
print(df.loc[2]['B'])

# Using `at[]`
print(df.at[2,'B'])

# Using `iat[]`
print(df.iat[2,1])

#Colunas e linhas
# Use `iloc[]` to select row `0`
print(df.iloc[0])
print(df.iloc[0, :])

# Use `loc[]` to select column `'A'`
print(df.loc[:,'A'])

   A  B  C
0  1  4  7
1  2  5  8
2  3  6  9
6
6
6
6
A    1
B    4
C    7
Name: 0, dtype: object
A    1
B    4
C    7
Name: 0, dtype: object
0    1
1    2
2    3
Name: A, dtype: object


---

Acrescentar um **índice** a um dataframe:

In [96]:
# Print out your DataFrame `df` to check it out
print(df)

# Set 'C' as the index of your DataFrame
# esta é definitiva
df.set_index('C')

# Outra maneira
# esta é volátil - quando você quer usar uma única vez em um comando, prefira ela!
#df['C'] = df.index

   A  B  C
0  1  4  7
1  2  5  8
2  3  6  9


Unnamed: 0_level_0,A,B
C,Unnamed: 1_level_1,Unnamed: 2_level_1
7,1,4
8,2,5
9,3,6


---

Acrescentar uma **linha** a um dataframe

In [97]:
import pandas as pd
import numpy as np
df = pd.DataFrame(data=np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]]), 
                  index= [2, 'A', 4], columns=[48, 49, 50])
print(df)

# Pass `2` to `loc`
print(df.loc[2])

# Pass `2` to `iloc`
print(df.iloc[2])
df

   48  49  50
2   1   2   3
A   4   5   6
4   7   8   9
48    1
49    2
50    3
Name: 2, dtype: int32
48    7
49    8
50    9
Name: 4, dtype: int32


Unnamed: 0,48,49,50
2,1,2,3
A,4,5,6
4,7,8,9


---

Apenas atribua a nova coluna a um índice particular, usando a função de localização **.loc[]**:

In [99]:
df.loc["E"] = [-2, -1, 0]  # adding a row
df

#df.index = df.index + 1  # shifting index
#df = df.sort_index()  # sorting by index

Unnamed: 0,48,49,50
2,1,2,3
A,4,5,6
4,7,8,9
E,-2,-1,0


---

Resetando o **índice**:

In [100]:
# Use `reset_index()` to reset the values
df_reset = df.reset_index(level=0, drop=True)

# Observe que o índice anterior é preservado no nome original do dataframe
print("df")
print(df)
print("df_reset")
print(df_reset)

## Observe que um NOVO dataframe foi criado na memória (não é apenas um apontador!)
df_reset.loc[1] = [9,9,9]
print("df depois")
print(df)
print("df_reset depois")
df_reset

df
   48  49  50
2   1   2   3
A   4   5   6
4   7   8   9
E  -2  -1   0
df_reset
   48  49  50
0   1   2   3
1   4   5   6
2   7   8   9
3  -2  -1   0
df depois
   48  49  50
2   1   2   3
A   4   5   6
4   7   8   9
E  -2  -1   0
df_reset depois


Unnamed: 0,48,49,50
0,1,2,3
1,9,9,9
2,7,8,9
3,-2,-1,0


---

Agora ao invés do argumento **drop**, eu uso o argumento **inplace**:

*Obs: apesar de eu ter mandado criar uma tabela chamada df_reset, esta de fato não foi criada, pois eu usei o argumento **inplace**, que se sobrepôs*

*Obs2: quando eu uso o argumento **inplace**, o índice anterior não é eliminado. Ele ganhou o nome index e continuou existindo na tabela, sendo que o atual índice agora é esse campo numerado de 0 a 3 na primeira coluna de visualização.*

*Tudo isso pode ser bastante exótico, mas cada comando destes tem uma utilidade. Então sempre que for lidar com dataframes grandes, é bom fazer **antes** alguns testes elementares com dataframes de amostra. É realmente chato encontrar erros de programação quando manipulamos dados realmente grandes!*

---

Acrescentar uma **coluna** a um dataframe

In [105]:
df = pd.DataFrame(data=np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]]), columns=['A', 'B', 'C'])

# Use `.index`
df['D'] = df.index

# Print `df`
df

Unnamed: 0,A,B,C,D
0,1,2,3,0
1,4,5,6,1
2,7,8,9,2


In [106]:
# Append a column to `df`
df.loc[:, 4] = pd.Series(['5', '6', '7'], index=df.index)

# Print out `df` again to see the changes
df

Unnamed: 0,A,B,C,D,4
0,1,2,3,0,5
1,4,5,6,1,6
2,7,8,9,2,7


---

Apagar **índice**, **linhas** ou **colunas**

*Obs: os dataframes do Pandas **sempre** possuem um índice!*

Portanto o que você pode fazer:

- **resetar** o índice

- remover o **nome** do índice

- remover valores **duplicados** com...

 - resetando o índice
 
 - eliminando a coluna com duplicações
 
 - reinstalando a coluna sem duplicatas como novo índice

### Eliminando Duplicatas

---

*Obs: esta é apenas **uma** estratégia para lidar com índices duplicados. Cada estratégia se aplica a um caso e uma das coisas que distingue um bom cientista de dados é ter **bom senso** ao desenhar a estratégia para o caso em foco!*

Uma **duplicação** é como se fossem duas fichas de registro descrevendo aparentemente a mesma coisa. 

Mas é preciso ter a máxima atenção!

Duplicações possuem várias origens

1. Duas fichas **idênticas**. Você pega dois dataframes, de datasources diferentes. Às vezes a mesma ficha está reproduzida em um lugar e em outro. Problemas de backup de segurança. Nesses casos, você pode eliminar todas as linhas duplicadas através da função *.drop_duplicates()* e com o parâmetro *inplace=True*

2. Duas fichas **análogas**, mas com alguns dados divergentes. Imagine uma rede de videolocadoras. Você fez o cadastro do mesmo cliente em duas lojas, mas há informações diferentes em um registro e em outro. Uma estratégia **automática** seria excluir todas e manter apenas a mais recente. Se eu não preciso conhecer o histórico de endereços do meu cliente, basta o último. É o que o exemplo a seguir mostra. E se temos dúvidas, podemos usar uma estratégia **manual** e colocar numa tela registro ao lado de registro para alguém comparar. Às vezes isso é necessário. A Inteligência Artificial têm procurado espelhar este trabalho manual em ferramentas automáticas de mais alto grau de evolução

3. Atenção para esta! Duas fichas referindo o **mesmo** registro, ambas atualizadas, criando uma relação 1:n. Então por exemplo, eu tenho uma livraria. Minha estrutura de banco de dados é de 1800 e bolinha e eu não quero mudá-la. Então eu vou cadastrar um livro e para cada livro, existe um **único** campo para Nome do Autor. O problema é existem diversos livros com dois ou mais autores. Quando meus clientes entram na loja e me pedem todos os livros do autor X, eu preciso ter no meu banco uma referência daquela sua obra em coautoria com o autor Y, cadastrada por inteiro. Então eu tenho um livro chamado *Memórias de um sargento de Milícias*, cadastrado como Autor: *Monteiro Lobato* e um outro registro de livro com o mesmo nome cadastrado como Autor: *Manoel Antônio de Almeida*

    a. Nem sempre a vida de um analista de dados é simples! Nestes casos, eu devo começar a mapear a **estrutura de dados** do meu cliente. Se eu encontro ambos cadastrados sob o mesmo número de **índice**, exemplo: *34*, então eles podem ser considerados **subtabelas** em uma relação 1:n. Neste caso não é recomendável **zerar o índice**! Eu devo manter os agrupamentos (é o **mesmo** livro com **dois** autores) e criar um outro campo para servir de índice principal. Uma estratégia legal é criar um novo índice e do índice original, manter apenas os registros que forem **duplicados**. Quando um livro possui apenas um autor, que é o caso típico, deixe meu segundo índice **em branco**. Quando representar uma relação 1:n, mantenha todos os índices. Se eu precisar reagrupar e recriar meus índices numa **nova estrutura de dados**, com relações 1:n completas, fica fácil e eu não perdi informação!
    
    b. Caso estejam registrados com **números de índice** diferentes, então a estratégia anterior não será válida. Nestes casos, eu posso realmente recriar minha estrutura de índices (os números estavam corrompidos) e partir para uma **nova estratégia** para reagrupar esses livros em um só (eu nunca desisto!). Então eu posso escolher algum ou um grupo de campos que seja significativo e tento fazer uma nova consulta, agrupando por aqueles campos. Por exemplo, no caso do livro citado, eu poderia tentar agrupar por **Título** combinado com **Ano de Edição** e assim recriar uma estrutura de índices mais inteligente. E combinar só por **Título**? Às vezes o nome do segundo autor desaparece em edições posteriores! (quem sabe que o *Memórias* tinha coautoria de Monteiro Lobato?). Esta é uma das razões pelas quais o cientista de dados gosta muito de trabalhar com bancos **bem povoados**, ou seja, que não foi digitado por preguiçosos que deixaram de incluir diversas informações e que mais tarde podem vir a ser de alta relevância!

---

Eliminando linhas duplicatas de um banco **atualizado**, mantendo apenas o **último** registro:

In [108]:
df = pd.DataFrame(data=np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9], [40, 50, 60], [23, 35, 37]]), 
                  index= [2.5, 12.6, 4.8, 4.8, 2.5], 
                  columns=[48, 49, 50])
print (df)
                  
df_limpo = df.reset_index().drop_duplicates(subset='index', keep='last').set_index('index')
df_limpo

      48  49  50
2.5    1   2   3
12.6   4   5   6
4.8    7   8   9
4.8   40  50  60
2.5   23  35  37


Unnamed: 0_level_0,48,49,50
index,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
12.6,4,5,6
4.8,40,50,60
2.5,23,35,37


Para dar cabo de um conjunto de **registros**, ou seja de **linhas**, a função **.drop()** é bem interessante

Para eliminar um ou mais **campos**, ou seja, **colunas**, a mesma função é utilizada

O que varia é o **eixo** de atuação:

- **axis=0** você está lidando com **linhas**

- **axis=1** você está lidando com **colunas**

Se eu não quero criar um novo dataframe para o meu conjunto de dados com a remoção, eu posso usar o parâmetro **inplace=True**. Ou seja, eu gravo as mudanças em cima do meu próprio dataframe. Isso é interessante se eu realmente não tenho chance nenhuma de voltar atrás na minha decisão e especialmente, se eu estou lidando com um conjunto de dados muito grande. Se em cada alteração eu for copiando todo o meu dataframe, logo eu esgotarei até a memória do computador mais poderoso do mundo!

Outra coisa, depois de deletar **linhas**, as pessoas têm uma mania de **resetar o índice** para deixá-lo bonitinho. Esta é uma prática **espúria**. Não se deve ficar resetando índices, a menos que isso seja absolutamente necessário. O problema é que quando eu reseto índices, eu redefino o rótulo de cada registro. Agora suponha que na minha videolocadora, depois eu descubra uma segunda tabela que continha os registros de usuários **em débito** com a loja. E a tabela começa assim: 1231 DEVE DEVOLUÇÃO DA FITA CORAÇÃO SELVAGEM, EM 1978... E agora? Quem é o nosso Usuário 1231? Se eu resetei o índice, nunca mais poderei refazer as ligações com dados de **subtabelas**, se elas existirem!

---

Eliminando algumas colunas de um banco de dados, usando **dois métodos** diferentes:

*Obs: a escolha do **método** não é feita ao acaso. Para cada equipamento, há uma ferramenta adequada. É como tentar usar um martelo para fixar parafusos! Para isso deve existir **bom senso** e **planejamento**. O ideal é deixar escrito no código tudo o que desejávamos fazer. Assim se der algum problema, alguém pode mapear depois e verificar mais fácil onde foi o erro*

In [109]:
df = pd.DataFrame(data=np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]]), 
                  index= [0, 1, 2], 
                  columns=["A", "B", "C"])
print (df)

# Drop the column with label 'A'                  
df.drop('A', axis=1, inplace=True)

# Drop the column at position 1
df.drop(df.columns[[1]], axis=1)

   A  B  C
0  1  2  3
1  4  5  6
2  7  8  9


Unnamed: 0,B
0,2
1,5
2,8


---

Mudando os **nomes** das colunas:

*Obs: já escrevi mais para cima que às vezes eu de fato não quero renomear as colunas do banco de dados, mas apenas apresentar um resultado com nomes mais bonitos. Isso é usual, pois para tornar as coisas mais claras e o sistema mais livre de erros, eu costumo usar nomes padronizados, dando dicas do **tipo** de dado como **txClienteNome** e **dtInicioOperacao**. Então eu crio uma série de colunas com meus nomes elegantes, por exemplo **NomesCol** e ao invés de dar um **inplace**, eu simplesmente coloco na consulta específica o parâmetro **labels=NomesCol**. A **NomesCol** seria algo assim: 

    NomesCol = ["Nome do Cliente", "Data de Início da Operação"]
    
*E nesse caso, os nomes apareceriam bonitinhos no cabeçalho, mas sem eu bagunçar com os nomes das colunas do meu dataset!*

Nomes mudados com parâmetro **inplace**:

In [5]:
import pandas as pd
import numpy as np

df = pd.DataFrame(data=np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]]), 
                  index= [0, 1, 2], 
                  columns=["A", "B", "C"])

# Check out your DataFrame `df`
print(df)

# Define the new names of your columns
newcols = {
    'A': 'new_column_1', 
    'B': 'new_column_2', 
    'C': 'new_column_3'
}

# Use `rename()` to rename your columns
df.rename(columns=newcols, inplace=True)

# Rename your index
df.rename(index={1: 'a'})
df

   A  B  C
0  1  2  3
1  4  5  6
2  7  8  9


Unnamed: 0,new_column_1,new_column_2,new_column_3
0,1,2,3
1,4,5,6
2,7,8,9


### Além do Básico no Pandas

---

#### Mecanismo de busca e substituição

Nem sempre nosso dataset possui nomes legais. E às vezes é preciso condensar coisas, como a informação Reino Unido, Inglaterra e Reino Unido da Grã Bretanha com Irlanda...

In [113]:
df = pd.DataFrame(data=np.array([[1, 2, 3], [4, 2, 1], [1, 1, 3]]), 
                  index= [0, 1, 2], 
                  columns=["A", "B", "C"])

# Study the DataFrame `df` first
print(df)

# Replace the strings by numerical values (0-4)
df.replace([0, 1, 2, 3, 4], ['Awful', 'Poor', 'OK', 'Acceptable', 'Perfect'], inplace=True)
df

   A  B  C
0  1  2  3
1  4  2  1
2  1  1  3


Unnamed: 0,A,B,C
0,Poor,OK,Acceptable
1,Perfect,OK,Poor
2,Poor,Poor,Acceptable


O Parâmetro **regex** pode ser usado quando estou lidando com combinações estranhas em **strings**:

*A ideia é criar um dicionário de substituições. Isso pode ser útil quando estou passando por exemplo, um texto de uma formatação para outra*

In [114]:
df = pd.DataFrame(data=np.array([[1, 2, 3], ["4\n", 2, 1], ["1\n", "1\n", 3]]), 
                  index= [0, 1, 2], 
                  columns=["A", "B", "C"])

# Study the DataFrame `df` first
print(df)

# Replace strings by others with `regex`
df.replace({"\n": "<br>"}, regex=True, inplace=True)
df

     A    B  C
0    1    2  3
1  4\n    2  1
2  1\n  1\n  3


Unnamed: 0,A,B,C
0,1,2,3
1,4<br>,2,1
2,1<br>,1<br>,3


Posso usar diversas **cláusulas de busca**, como ^ ou .* no regex, o que me dá grande flexibilidade:

In [115]:
df = pd.DataFrame({"country":["United Kingdom of Great Britain", "Ireland", 
                              "United Kingdom of Great Britain & Ireland"], "value":[12,31, 43]})
print (df)

df.country.replace("^United Kingdom of Great Britain.*", "United Kingdom", regex=True, inplace=True)
df

                                     country  value
0            United Kingdom of Great Britain     12
1                                    Ireland     31
2  United Kingdom of Great Britain & Ireland     43


Unnamed: 0,country,value
0,United Kingdom,12
1,Ireland,31
2,United Kingdom,43


---

**Invocando funções Lambda com uso da função .map()**

Isso é ótimo para limpar dados poluídos. Além de apagar coisas, posso substituir por outras mais compreensíveis, eliminar detalhes em excesso, etc.

Outro uso é fazer um pouco de cálculo, ou conversão de formato em algumas células. Com o uso de uma **função**, o limite é apenas a criatividade humana!

*Uma **função Lambda** nada mais é do que uma função sem nome. O nome é substituído pela palavra **Lambda**. Esta função é criada como um objeto na memória do computador. Depois, toda vez que for invocada, ela faz as funções contidas nela. É possível acrescentar **If** e **Else** em uma função **Lambda**, apenas deve-se observar uma sintaxe especial, para caber na tripa*

Se fosse uma função comum ficaria mais ou menos assim:

In [116]:
def limpa(x): 
    a = x.lstrip('+-')
    b = a.rstrip('aAbBcC')
    return b

celula = "+3b"

print("célula: {} célula limpa: {}".format(celula, limpa(celula)))

célula: +3b célula limpa: 3


Daí ela é enxugada para:
    
    lambda x: x.lstrip('+-').rstrip('aAbBcC')
    
*Obs: na Udacity é recomendado não se pythonizar demais, se não souber exatamente o que está fazendo. Às vezes você enxuga um loop pesado em uma única linha e torna a compreensão difícil. E às vezes você está enxugando um loop totalmente **ineficiente**! Então, se estiver em dúvida, primeiro experimente e teste a função escrita no modo tradicional e se ela estiver OK, então poderá pythonizar (ou não!)*

*Pythonizar é o termo usado para o modo de escrita do Python no qual o código fica absurdamente enxuto. Isso em alguns casos é ótimo e em outros, bastante **traiçoeiro**. Nem sempre uma função super magra dá o melhor tempo computacional! Isso precisa ser testado usando **.time()** e outras funções* 

In [117]:
df = pd.DataFrame(data=np.array([[1, 2, "+3b"], [4, 5, "-6B"], [7, 8, "+9A"]]), 
                  index= [0, 1, 2], 
                  columns=["Class", "test", "result"])

# Check out your DataFrame
print(df)

# Delete unwanted parts from the strings in the `result` column
df['result'] = df['result'].map(lambda x: x.lstrip('+-').rstrip('aAbBcC'))

# Check out the result again
df

  Class test result
0     1    2    +3b
1     4    5    -6B
2     7    8    +9A


Unnamed: 0,Class,test,result
0,1,2,3
1,4,5,6
2,7,8,9


**Quebrando texto em uma coluna para várias linha no dataset**

---

Parece uma proposta excêntrica, mas **não é**! Em muitos casos, bancos de dados são preenchidos de uma maneira meio acochambrada. Chamar um programador para mudar toda a estrutura de um banco gera custos. Então as pessoas operam o banco do melhor jeito que conseguem

Às vezes os resultados são catastróficos. Acumulamos grande quantidade de dados e que irão representar mal a realidade. A razão: há coisas que a estrutura de dados não suportou, então foram preenchidas manualmente e de qualquer jeito

Um exemplo é na nossa videolocadora. Nosso cadastro é simples, então ele não permite relações 1:n. Para piorar, o programador esqueceu que um cliente não loca apenas uma fita, então ele não criou diversas colunas para cadastrar um filme em cada coluna

O que a balconista fez? Simplesmente listou, entre vírgulas, os filmes locados, no campo Filme. Então eu tenho uma ficha de locação do tipo:

    ID:221; Nome:Pedro da Silva; Data:21 de outubro 1972; Filme:2001-Uma Odisséia no espaço, Tempos Modernos, Macunaíma
    
E eu preferia ter algo assim:

    ID:221; Nome:Pedro da Silva; Data:21 de outubro 1972; Filme:2001-Uma Odisséia no espaço
    ID:221; Nome:Pedro da Silva; Data:21 de outubro 1972; Filme:Tempos Modernos
    ID:221; Nome:Pedro da Silva; Data:21 de outubro 1972; Filme:Macunaíma
    
Isso é um caso **muito usual** em banco de dados e a rotina maluca a seguir faz isso para mim!

*No caso em pauta, são os bilhetes de embarque de uma empresa de estrada de ferro. As duas primeiras pessoas comparam bilhetes para um trecho e a terceira comprou um trecho adicional. Como o sistema de registros possuía o mesmo defeito do sistema da videolocadora, todos os horários dos trechos foram gravados em um único campo chamado Ticket. Isso não é bom para o analista de dados: como eu vou traçar por exemplo, um gráfico de custos x entradas para cada trecho da minha ferrovia?*

In [118]:
import pandas as pd
import numpy as np

df = pd.DataFrame(data=np.array([[34, 0, "23:44:55"], 
                                 [22, 0, "66:77:88"], 
                                 [19, 1, "43:68:05 56:34:12"]]), 
                  index= [0, 1, 2], 
                  columns=["Age", "PlusOne", "Ticket"]) 
    
# Inspect your DataFrame `df`
print(df)

# Split out the two values in the third row
# Make it a Series
# Stack the values
ticket_series = df['Ticket'].str.split(' ').apply(pd.Series, 1).stack()

# Get rid of the stack:
# Drop the level to line up with the DataFrame
ticket_series.index = ticket_series.index.droplevel(-1)

# Make your series a dataframe 
ticketdf = pd.DataFrame(ticket_series)
print (ticketdf)

# Delete the `Ticket` column from your DataFrame
del df['Ticket']

# Join the ticket DataFrame to `df`
new_df = df.join(ticketdf)

# Check out the new `df`
new_df

  Age PlusOne             Ticket
0  34       0           23:44:55
1  22       0           66:77:88
2  19       1  43:68:05 56:34:12
          0
0  23:44:55
1  66:77:88
2  43:68:05
2  56:34:12


Unnamed: 0,Age,PlusOne,0
0,34,0,23:44:55
1,22,0,66:77:88
2,19,1,43:68:05
2,19,1,56:34:12


#### Detalhando as Operações do Exercício Anterior

---

Primeira operação, com a função **.split()** tendo separador o **espaço simples**, é criada uma lista, contendo os objetos separados:

In [119]:
a = "43:68:05 56:34:12"

b = a.split(" ")
print (b[0], b[1])

43:68:05 56:34:12


No nosso caso, um objeto é criado contendo listas dos tickets já separados:

In [120]:
df = pd.DataFrame(data=np.array([[34, 0, "23:44:55"], 
                                 [22, 0, "66:77:88"], 
                                 [19, 1, "43:68:05 56:34:12"]]), 
                  index= [0, 1, 2], 
                  columns=["Age", "PlusOne", "Ticket"])

b = df['Ticket'].str.split(' ')

print (b)

0              [23:44:55]
1              [66:77:88]
2    [43:68:05, 56:34:12]
Name: Ticket, dtype: object


E com isso, eu crio um novo dataset, utilizando a função **apply(pd.Series)**:

*Observe que isso está quase bom... o problema é que existem dois objetos **nulos** que nos atrapalham um pouco...*

In [121]:
df = pd.DataFrame(data=np.array([[34, 0, "23:44:55"], 
                                 [22, 0, "66:77:88"], 
                                 [19, 1, "43:68:05 56:34:12"]]), 
                  index= [0, 1, 2], 
                  columns=["Age", "PlusOne", "Ticket"]) 

b = df['Ticket'].str.split(' ').apply(pd.Series)

print(b)

          0         1
0  23:44:55       NaN
1  66:77:88       NaN
2  43:68:05  56:34:12


A função **.apply()** passa todos os objetos delimitados de um dataframe por um método ou função. No caso esta função é **Series**

*A única coisa que não descobri é porque a função é chamada **apply(... ,1)**. Este 1 aparentemente não desempenha nenhuma tarefa*

---

O método **Series** gera um enumerador. Ele pega uma lista de ítens como entrada e cria um objeto tipo **série** para aquela lista:

In [122]:
a = [6,3,4,6]

x = pd.Series(a)
x

0    6
1    3
2    4
3    6
dtype: int64

No nosso caso:

In [124]:
df = pd.DataFrame(data=np.array([[34, 0, "23:44:55"], 
                                 [22, 0, "66:77:88"], 
                                 [19, 1, "43:68:05 56:34:12"]]), 
                  index= [0, 1, 2], 
                  columns=["Age", "PlusOne", "Ticket"]) 

b = df["Age"].apply(pd.Series)
b

Unnamed: 0,0
0,34
1,22
2,19


---

E por fim **Stack**. Esta é uma função de pilha. Isso significa que ela empilha objetos. No caso de objetos vazios, estes sendo inexistentes, não irão para a pilha!

In [125]:
df = pd.DataFrame(data=np.array([[34, 0, "23:44:55"], 
                                 [22, 0, "66:77:88"], 
                                 [19, 1, "43:68:05 56:34:12"]]), 
                  index= [0, 1, 2], 
                  columns=["Age", "PlusOne", "Ticket"]) 
    
b = df['Ticket'].str.split(' ').apply(pd.Series).stack()
b

0  0    23:44:55
1  0    66:77:88
2  0    43:68:05
   1    56:34:12
dtype: object

O **.stack()** trabalha com diversos níveis de dados, transformando para níveis em árvore. No nosso caso, ele está ao final da série de funções para poder **empilhar** os resultados da operação

Colunas de nível **simples**:

In [126]:
df = pd.DataFrame([[0, 1], [2, 3]],
                index=['cat', 'dog'],
                columns=['weight', 'height'])
print(df)

df_novo = df.stack()
df_novo

     weight  height
cat       0       1
dog       2       3


cat  weight    0
     height    1
dog  weight    2
     height    3
dtype: int64

Colunas de nível **composto**:

In [127]:
multicol1 = pd.MultiIndex.from_tuples([('weight', 'kg'), ('weight', 'pounds')])
multicol1

MultiIndex(levels=[['weight'], ['kg', 'pounds']],
           labels=[[0, 0], [0, 1]])

In [128]:
df_multi_level_cols1 = pd.DataFrame([[1, 2], [2, 4]],
                                index=['cat', 'dog'],
                                columns=multicol1)
df_multi_level_cols1

Unnamed: 0_level_0,weight,weight
Unnamed: 0_level_1,kg,pounds
cat,1,2
dog,2,4


In [129]:
df_multi_level_cols1.stack()

Unnamed: 0,Unnamed: 1,weight
cat,kg,1
cat,pounds,2
dog,kg,2
dog,pounds,4


Aplicando uma **Função** (Método)para colunas ou linhas do seu dataframe

---

*Observação: diferença básica entre Função e Método é a orientação a objeto do último. Isso não faz diferença neste momento. Uma explicação detalhada encontra-se no documento Testes Seaborn*

Exemplos genéricos de **Apply**:

In [None]:
df['A'].apply(doubler)

In [None]:
df.loc[0].apply(doubler)

Aplicando a função **.apply()** para dobrar valores num dataframe:

*Obs: ele me retornou a coluna de Assentos, com a alteração feita. Não era exatamente o que eu queria, eu pensava numa alteração no **próprio** dataframe!*

*Consegui resolver isso acrescentando o comando:*

    df["Seats"] = b

In [131]:
df = pd.DataFrame(data=np.array([[34, 1, 2], 
                                 [22, 3, 3], 
                                 [19, 2, 4]]), 
                  index= [0, 1, 2], 
                  columns=["Age", "Seats", "Tickets"]) 
print(df)

b = df["Seats"].apply(lambda x: x*2)
print(b)

df["Seats"] = b
df

   Age  Seats  Tickets
0   34      1        2
1   22      3        3
2   19      2        4
0    2
1    6
2    4
Name: Seats, dtype: int64


Unnamed: 0,Age,Seats,Tickets
0,34,2,2
1,22,6,3
2,19,4,4


Mesma coisa, com o uso da função **.map()**:

*Achei este exemplo infeliz. Às vezes conseguimos a mesma coisa usando comandos diferentes. O problema é que cada um é especializado numa tarefa. Então quando dominamos completamente o uso do comando, os resultados podem servir apenas com um deles!*

*Uma explicação das diferenças das funções **.map()**, **.applymap()** e **.apply()** encontra-se [aqui](https://stackoverflow.com/questions/19798153/difference-between-map-applymap-and-apply-methods-in-pandas)*

In [132]:
df = pd.DataFrame(data=np.array([[34, 1, 2], 
                                 [22, 3, 3], 
                                 [19, 2, 4]]), 
                  index= [0, 1, 2], 
                  columns=["Age", "Seats", "Tickets"]) 
print(df)

b = df["Seats"].map(lambda x: x*2)
print(b)

df["Seats"] = b
df

   Age  Seats  Tickets
0   34      1        2
1   22      3        3
2   19      2        4
0    2
1    6
2    4
Name: Seats, dtype: int64


Unnamed: 0,Age,Seats,Tickets
0,34,2,2
1,22,6,3
2,19,4,4


Aplicando para todas as células do dataframe, com a função **.applymap()**:

In [133]:
df = pd.DataFrame(data=np.array([[34, 1, 2], 
                                 [22, 3, 3], 
                                 [19, 2, 4]]), 
                  index= [0, 1, 2], 
                  columns=["Age", "Seats", "Tickets"]) 
print(df)

b = df.applymap(lambda x: x*2)
b

   Age  Seats  Tickets
0   34      1        2
1   22      3        3
2   19      2        4


Unnamed: 0,Age,Seats,Tickets
0,68,2,4
1,44,6,6
2,38,4,8


#### Explicação sobre Apply

---

A diferença é que:

- **Apply** trabalha sobre uma **série** (coluna ou linha) de um **dataframe**

- **Applymap** sobre **elementos** de um **dataframe**

- **Map**, sobre **elementos** de uma **série**

O método **.apply()** aplica uma função em matrizes 2D para cada linha ou coluna

Aqui pegamos uma matriz aleatória e para cada uma das **colunas**, determinamos a variação, ou seja, a diferença entre o valor **máximo** e o **mínimo**:

*Obs: normalmente o que foi feito aqui não é necessário. A maioria dos tratamentos estatísticos  (como soma e média) possuem métodos prontos para dataframe!

In [136]:
df = pd.DataFrame(np.random.randn(4, 3), columns=list('bde'), 
                    index=['Utah', 'Ohio', 'Texas', 'Oregon'])

f = lambda x: x.max() - x.min()

print(df)
df.apply(f)

               b         d         e
Utah    0.004135  1.480745  0.719668
Ohio    1.082657  0.590198 -0.603353
Texas   1.778640  0.879334  0.045757
Oregon -0.126959 -1.231449 -1.190028


b    1.905599
d    2.712195
e    1.909696
dtype: float64

#### Explicação sobre ApplyMap

---

Suponha que você queira aplicar uma formatação especial para cada **elemento** de um **dataframe**:

*A razão para este nome estranho é que as **Séries** já possuem um método **Map** para cada um de seus elementos!*

In [137]:
df = pd.DataFrame(np.random.randn(4, 3), columns=list('bde'), 
                    index=['Utah', 'Ohio', 'Texas', 'Oregon'])
print(df)

format = lambda x: '%.2f' % x

df.applymap(format)

               b         d         e
Utah    0.966960  0.160812  0.907248
Ohio   -0.428441  1.296903 -0.850858
Texas   0.714402 -0.905583 -0.707652
Oregon  0.679997 -0.558362 -1.549683


Unnamed: 0,b,d,e
Utah,0.97,0.16,0.91
Ohio,-0.43,1.3,-0.85
Texas,0.71,-0.91,-0.71
Oregon,0.68,-0.56,-1.55


**Explicação sobre Map**

---

É a mesma coisa que o anterior. Só que aplicado para cada **elemento** de uma **série**:

In [138]:
df = pd.DataFrame(np.random.randn(4, 3), columns=list('bde'), 
                    index=['Utah', 'Ohio', 'Texas', 'Oregon'])
print(df['e'])

df['e'].map(format)

Utah      2.324277
Ohio     -0.044960
Texas     0.383831
Oregon   -0.008279
Name: e, dtype: float64


Utah       2.32
Ohio      -0.04
Texas      0.38
Oregon    -0.01
Name: e, dtype: object

#### O que Não Fazer com Apply

---

Documentação de **Apply** [aqui](http://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.apply.html)

Por fim, um esclarecimento do que **não** fazer no Pandas **Apply**, [aqui](https://ys-l.github.io/posts/2015/08/28/how-not-to-use-pandas-apply/)

Sobre estratégias para aumentar a performance computacional do Pandas, [aqui](http://pandas.pydata.org/pandas-docs/stable/enhancingperf.html)

Suponha que você vá redefinir um dataframe com aproximadamente 1 milhão de linhas e uma dúzia de colunas, processando algumas operações vetorias de alguma complexidade:

In [139]:
def complex_computation(a):
    # do lots of work here...
    # ...
    # and finally it's done.
    return value1, value2, value3

Os resultados serão agrupados nesse novo dataframe. Uma solução natural é o uso da função **Apply**:

In [None]:
def func(row):
    v1, v2, v3 = complex_computation(row[['some', 'columns']].values)
    return pd.Series({'NewColumn1': v1,
                      'NewColumn2': v2,
                      'NewColumn3': v3})
df_result = df.apply(func, axis=1)

O resultado de **Apply** depende do que a **func** retorna. se passamos uma **func** retornando uma **Série** ao invés de um valor **singular**, o resultado será uma dataframe contendo três colunas como os nomes dados

Expressada de uma maneira mais carregada de **loops**, o resultado equivalente seria dado por:

In [None]:
v1s, v2s, v3s = [], [], []
for _, row in df.iterrows():
    v1, v2, v3 = complex_computation(row[['some', 'columns']].values)
    v1s.append(v1)
    v2s.append(v2)
    v3s.append(v3)
df_result = pd.DataFrame({'NewColumn1': v1s,
                          'NewColumn2': v2s,
                          'NewColumn3': v3s})

A solução usando **Apply** parece bem mais elegante, não? Bom, nem sempre **elegância** significa código **eficiente**!

E ainda mais, somos tentados a fazer o Pandas juntar todas as tripas para nós e ainda fazer toda a operação de alguma maneira **otimizada**, certo? Mas não é assim que as coisas ocorrem. O que construímos, ao colocar todas as operações juntas, foi um **monstro silencioso comedor de memória** com o uso de **Apply**

Segue um exemplo reprodutível desse efeito:

*Obs: o mesmo pode ocorrer com **excesso de pythonização**, como já descrevi! Às vezes uma pequena linha condensada aparenta ter uma enorme elegância de codificação, se mostrando depois altamente **ineficiente**!*

Para instalar o memory_profiler, com dicas de uso, [aqui](https://pypi.org/project/memory_profiler/)

    pip install -U memory_profiler

In [142]:
import pandas as pd
import numpy as np
%load_ext memory_profiler

def complex_computation(a):
    # Okay, this is not really complex, but this is just for illustration.
    # To keep reproducibility, we can't make it order a pizza here.
    # Anyway, pretend that there is no way to vectorize this operation.
    return a[0]-a[1], a[0]+a[1], a[0]*a[1]

def func(row):
    v1, v2, v3 = complex_computation(row.values)
    return pd.Series({'NewColumn1': v1,
                      'NewColumn2': v2,
                      'NewColumn3': v3})

def run_apply(df):
    df_result = df.apply(func, axis=1)
    return df_result

def run_loopy(df):
    v1s, v2s, v3s = [], [], []
    for _, row in df.iterrows():
        v1, v2, v3 = complex_computation(row.values)
        v1s.append(v1)
        v2s.append(v2)
        v3s.append(v3)
    df_result = pd.DataFrame({'NewColumn1': v1s,
                              'NewColumn2': v2s,
                              'NewColumn3': v3s})
    return df_result

def make_dataset(N):
    np.random.seed(0)
    df = pd.DataFrame({
            'a': np.random.randint(0, 100, N),
            'b': np.random.randint(0, 100, N)
         })
    return df

def test():
    from pandas.util.testing import assert_frame_equal
    df = make_dataset(100)
    df_res1 = run_loopy(df)
    df_res2 = run_apply(df)
    assert_frame_equal(df_res1, df_res2)
    print ('OK')

df = make_dataset(1000000)

Checando se ambas as implementações resultam em resultados idênticos (**correctedness**):

In [143]:
test()

OK


Usando **Memit** para aquela função feia, cheia de loops:

In [144]:
%memit run_loopy(df)

peak memory: 326.91 MiB, increment: 160.68 MiB


Agora o **Memit** na função elegante, escrita com **Apply**:

In [145]:
%memit run_apply(df)

peak memory: 2754.70 MiB, increment: 2581.15 MiB


Então... a nossa função elegante consumiu **10 vezes** mais memória!

Aparentemente, para atingir sua **flexibilidade**, a função **Apply** parece precisar armazenar **séries intermediárias**, comendo memória

Agora vamos ver em termos de uso do processador:

In [146]:
%timeit run_loopy(df)

42.8 s ± 670 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)


In [147]:
%timeit run_apply(df)

4min 15s ± 4.4 s per loop (mean ± std. dev. of 7 runs, 1 loop each)


A sobrecarga na **Apply** de criar uma **série** para cada linha de entrada é demasiada!

A aparente elegância causou ineficiência em **processamento** e **memória**

*Quando aplicar uma função em um dataframe usando **DF.apply** por linha, tome muito cuidado com o que a função retorna. Fazendo com que ela retorne uma **série** de maneira que **Apply** resulte em um novo dataframe pode ser muito ineficiente...*

#### Como criar um dataframe vazio

---

Com o uso do método Numpy **nan**:

In [151]:
df = pd.DataFrame(np.nan, index=[0,1,2,3], columns=['A'])
df

Unnamed: 0,A
0,
1,
2,
3,


O Numpy gera o NaN em float64, mas eu posso fazer isso determinando o formato:

In [152]:
df = pd.DataFrame(index=range(0,4),columns=['A'], dtype='datetime64[ns]')
df

Unnamed: 0,A
0,NaT
1,NaT
2,NaT
3,NaT


#### O Pandas reconhece Datas quando está importando dados?

---

Formas genéricas:

In [None]:
import pandas as pd
pd.read_csv('yourFile', parse_dates=True)

# or this option:
pd.read_csv('yourFile', parse_dates=['columnName'])

Para formas malucas de data, eu posso criar uma função **lambda**:

In [None]:
import pandas as pd
interpData = lambda x: pd.datetime.strptime(x, '%Y-%m-%d %H:%M:%S')

# Which makes your read command:
pd.read_csv(infile, parse_dates=['columnName'], date_parser=interpData)

# Or combine two columns into a single DateTime column
pd.read_csv(infile, parse_dates={'datetime': ['date', 'time']}, date_parser=interpData)

## Combinando Dataframes - Parte 1

---

#### Quando, por que e como remodelar seu dataframe

Outras maneiras de remodelar seu data frame [aqui](http://pandas.pydata.org/pandas-docs/stable/reshaping.html)

Às vezes o formato no qual eu recebo meu dataframe não está muito adequado ao meu trabalho

Especialmente se eu pretendo fazer gráficos com **Seaborn**, que reconhece o dataframe por inteiro, eu gostaria de mudar a forma dos meus dados

Existem diversas maneiras de se remodelar um dataframe:

- pivotear
- empilhar
- desempilhar
- fundir

Uma explicação mais detalhada sobre pivotear, empilhar e desempilhar um dataframe encontra-se [aqui](https://nikgrozev.com/2015/07/01/reshaping-in-pandas-pivot-pivot-table-stack-and-unstack-explained-with-pictures/)

**Pivoteando** um dataframe

É costumeiro se chamar em SQL isso de **Consulta de Referência Cruzada**. Quando você usa a função **.pivot()** você precisa passar três argumentos:

- **valores** onde voce irá especificar quais os valores do seu dataframe original que você irá quer ter na sua tabela pivô

- **colunas** tudo o que você passar neste argumento se tornará uma coluna da sua tabela de resultado

- **índice** o que você passar neste argumento irá ser o índice da sua tabela de resultado

Na minha tabela original, eu tenho uma lista de diversas categorias de produtos (Higiene, Diversão, etc.), informando qual a loja operadora (Walmart, Fnac, etc.) e o preço médio e uma nota de testes. É um formato típico dessas listas de entrevistas. Eu dou na mão de um entrevistador um bloquinho com os seguintes campos a serem preenchidos:

- **Categoria**

- **Loja em que Foi Encontrado**

- **Preço Média de Aquisição**

- **Nota** (um valor encontrado por exemplo, em um site como **ReclameAqui**)

Depois de ter listas e listas de entradas desse tipo, eu quero contar, por categoria, qual o preço médio praticado cada loja. Essa nova organização é legal para eu informar ao consumidor, num site tipo **PeixeUrbano**, quem está em primeiro lugar em matéria de menor preço na categoria por exemplo **Diversão**. O campo Nota não me interessa

Como **linhas** em uma se tornam **colunas** na outra, uma operação de **referência cruzada** tem que ser executada. Note que **nem todas** as lojas trabalham com todos os departamentos. Então por exemplo, a FNAC no momento da pesquisa não operava com produtos de higiene

Observe também a importância do **índice**. Se houver operações de **agrupamento**, é sobre esta nova coluna que a operação irá ocorrer!

As **colunas** são uma operação automática da função e ela pegou toda a diversidade existente nos dados de **loja** e criou uma coluna para cada ítem. Observe que os nomes precisam estar **idênticos**, ou por exemplo, eu terei duas colunas, **Fnac** e **FNAC**

Os **valores** nesse caso são únicos. Mas isso não é usual neste tipo de operação. Normalmente nós queremos **contar**. Mas às vezes **somar**, ou pegar o **maior** ou o **menor** valor encontrado

In [154]:
# Import pandas
import pandas as pd

# Create your DataFrame
products = pd.DataFrame({'category': ['Cleaning', 'Cleaning', 'Entertainment', 'Entertainment', 'Tech', 'Tech'],
        'store': ['Walmart', 'Dia', 'Walmart', 'Fnac', 'Dia','Walmart'],
        'price':[11.42, 23.50, 19.99, 15.95, 55.75, 111.55],
        'testscore': [4, 3, 5, 7, 5, 8]})

print (products)

# Use `pivot()` to pivot the DataFrame
pivot_products = products.pivot(index='category', columns='store', values='price')

# Check out the result
pivot_products

        category    store   price  testscore
0       Cleaning  Walmart   11.42          4
1       Cleaning      Dia   23.50          3
2  Entertainment  Walmart   19.99          5
3  Entertainment     Fnac   15.95          7
4           Tech      Dia   55.75          5
5           Tech  Walmart  111.55          8


store,Dia,Fnac,Walmart
category,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Cleaning,23.5,,11.42
Entertainment,,15.95,19.99
Tech,55.75,,111.55


### Pivoteando para múltiplas colunas

---

Quando você não especifica quais valores que você espera estarem presentes na sua tabela de resutado, você irá pivotear para **múltiplas colunas**

*Observe que o terceiro parâmetro, **Values** está ausente!*

Como nada está apontador para **o quê** que você quer pivotear, o sistema pivoteia para toda célula de valor que ele encontrar. No caso há duas, **price** e **testscore**. Então ele gera um relatório para cada valor. É como se fossem supercolunas de relatórios, seguidas cada uma de suas respectivas colunas de **lojas**

O gráfico abaixo ilustra um caso assim:

![Figura: pivoteamento para múltiplas colunas](pivoting_simple_multicolumn.png)

---

E mais, para uma célula usando o método **.pivot()**, existem  apenas **dois** casos possíveis:

- **nenhum valor** encontrado para aquele caso - célula é preenchida com NaN (valor nulo)

- **um valor** encontrado - célula recebe o valor do dado

*Observe que eu tenho uma tabela Products2, exatamente como a do exemplo **abaixo**. Ela está comentada, mas se eu a ativar, eu resulto numa mensagem de erro*

*O que ocorre neste caso? Bom, são **métodos** diferentes e o método **.pivot()** não permite duplicatas. Ele simplesmente não foi feito para lidar com **mais de um valor** para uma célula... Resultado? Se houver, **erro**!*

In [155]:
# Import the Pandas library
import pandas as pd

# Construct the DataFrame
products = pd.DataFrame({'category': ['Cleaning', 'Cleaning', 'Entertainment', 'Entertainment', 'Tech', 'Tech'],
                        'store': ['Walmart', 'Dia', 'Walmart', 'Fnac', 'Dia','Walmart'],
                        'price':[11.42, 23.50, 19.99, 15.95, 55.75, 111.55],
                        'testscore': [4, 3, 5, 7, 5, 8]})
print(products)

'''products2 = pd.DataFrame({'category': ['Cleaning', 'Cleaning', 'Entertainment', 'Entertainment', 'Tech', 'Tech', 'Tech'],
                        'store': ['Walmart', 'Dia', 'Walmart', 'Fnac', 'Dia','Walmart', 'Walmart'],
                        'price':[11.42, 23.50, 19.99, 15.95, 19.99, 111.55, 11.99],
                        'testscore': [4, 3, 5, 7, 5, 8, 3]})
print(products2)'''

# Use `pivot()` to pivot your DataFrame
pivot_products = products.pivot(index='category', columns='store')
#pivot_products2 = products2.pivot(index='category', columns='store')

# Check out the results
pivot_products

        category    store   price  testscore
0       Cleaning  Walmart   11.42          4
1       Cleaning      Dia   23.50          3
2  Entertainment  Walmart   19.99          5
3  Entertainment     Fnac   15.95          7
4           Tech      Dia   55.75          5
5           Tech  Walmart  111.55          8


Unnamed: 0_level_0,price,price,price,testscore,testscore,testscore
store,Dia,Fnac,Walmart,Dia,Fnac,Walmart
category,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
Cleaning,23.5,,11.42,3.0,,4.0
Entertainment,,15.95,19.99,,7.0,5.0
Tech,55.75,,111.55,5.0,,8.0


### Tabela Pivô - parte 1

---

Observe que para o tipo de pivoteamento que estou fazendo, este não permite que existam valores duplicados para uma **coluna**. Neste caso eu obteria uma **mensagem de erro**

Aqui surgiu um **parâmetro** a mais no método, que é **aggfunc='mean'**. O que isso quer dizer? quer dizer que quando houver **agrupamento**, eu devo aplicar a função **Média** para resolver o problema. 

Então, para uma célula, agora existem **três** casos possíveis:

- **nenhum valor** encontrado para aquele caso - célula é preenchida com NaN (valor nulo)

- **um valor** encontrado - célula recebe o valor do dado

- **dois ou mais valores** encontrados - aplicada a fórmula presente no parâmetro **aggfunc**

Você pode se certificar da unicidade dos seus dados usando agora o método **.pivot_table()**:

*Observe que eu criei uma **nova** tabela chamada Products2, contendo mais um ítem para Walmart, ao final das linhas*

*O que acontece quando eu processo a Products2 neste caso? Ele tira uma **média** das notas encontradas, no caso de **repetição**. Então minha nota para Walmart, em Tech, passou de 111,55 para 61,77*

*Esta operação em bancos de dados SQL é chamada de **agrupamento** ou **agregação**. No caso não houve exatamente um agrupamento, mas algo da família dele... Este é o **único** critério de agrupamento possível? Não. Eu posso pegar a **soma**, o **maior valor**, o **menor valor** e assim por diante*

*O quê me diz o que eu devo instruir a máquina para o caso de **agrupamento**? Duas palavras: **bom senso**. Depende do caso. Essa é a arte do Cientista de Dados...*

*Obs: é que a cláusula SQL para isso é **Group By**. Daí o nome*

In [156]:
# Import the Pandas library
import pandas as pd

# Your DataFrame
products= pd.DataFrame({'category': ['Cleaning', 'Cleaning', 'Entertainment', 'Entertainment', 'Tech', 'Tech'],
                        'store': ['Walmart', 'Dia', 'Walmart', 'Fnac', 'Dia','Walmart'],
                        'price':[11.42, 23.50, 19.99, 15.95, 19.99, 111.55],
                        'testscore': [4, 3, 5, 7, 5, 8]})
print(products)

products2 = pd.DataFrame({'category': ['Cleaning', 'Cleaning', 'Entertainment', 'Entertainment', 'Tech', 'Tech', 'Tech'],
                        'store': ['Walmart', 'Dia', 'Walmart', 'Fnac', 'Dia','Walmart', 'Walmart'],
                        'price':[11.42, 23.50, 19.99, 15.95, 19.99, 111.55, 11.99],
                        'testscore': [4, 3, 5, 7, 5, 8, 3]})
print(products2)

# Pivot your `products` DataFrame with `pivot_table()`
pivot_products = products.pivot_table(index='category', columns='store', values='price', aggfunc='mean')
pivot_products2 = products2.pivot_table(index='category', columns='store', values='price', aggfunc='mean')

# Check out the results
print(pivot_products)
pivot_products2

        category    store   price  testscore
0       Cleaning  Walmart   11.42          4
1       Cleaning      Dia   23.50          3
2  Entertainment  Walmart   19.99          5
3  Entertainment     Fnac   15.95          7
4           Tech      Dia   19.99          5
5           Tech  Walmart  111.55          8
        category    store   price  testscore
0       Cleaning  Walmart   11.42          4
1       Cleaning      Dia   23.50          3
2  Entertainment  Walmart   19.99          5
3  Entertainment     Fnac   15.95          7
4           Tech      Dia   19.99          5
5           Tech  Walmart  111.55          8
6           Tech  Walmart   11.99          3
store            Dia   Fnac  Walmart
category                            
Cleaning       23.50    NaN    11.42
Entertainment    NaN  15.95    19.99
Tech           19.99    NaN   111.55


store,Dia,Fnac,Walmart
category,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Cleaning,23.5,,11.42
Entertainment,,15.95,19.99
Tech,19.99,,61.77


### Um engano comum em pivoteamento

---

Observe a figura:

![Figura: engano comum em pivoteamento](pivoting_simple_error.png)

Ao rodar isso dá a **mensagem de erro**:
    
    ValueError: Index contains duplicate entries, cannot reshape

In [None]:
table = OrderedDict((
    ("Item", ['Item0', 'Item0', 'Item0', 'Item1']),
    ('CType',['Gold', 'Bronze', 'Gold', 'Silver']),
    ('USD',  ['1',  '2',  '3',  '4']),
    ('EU',   ['1€', '2€', '3€', '4€'])
))
d = DataFrame(table)
p = d.pivot(index='Item', columns='CType', values='USD')

Para evitar isso, antes de fazer a chamada do método **.pivot()** eu preciso me certificar de que os nossos dados não possuem linhas com valores duplicados, para as colunas especificadas

### Tabela Pivô - Parte 2

---

Ela trabalha como **pivô**, mas agrega valores das linhas com entradas duplicadas para as colunas especificadas. Em outras palavras, nós podemos usar uma **função de agregação**

![Figura: tabela pivô](pivoting_table_simple1.png)

In [167]:
from pandas import DataFrame
from collections import OrderedDict

table = OrderedDict((
    ("Item", ['Item0', 'Item0', 'Item0', 'Item1']),
    ('CType',['Gold', 'Bronze', 'Gold', 'Silver']),
    ('USD',  [1, 2, 3, 4]),
    ('EU',   [1.1, 2.2, 3.3, 4.4])
))
print (table)

d = DataFrame(table)
p = d.pivot_table(index='Item', columns='CType', values='USD', aggfunc=np.min)
p

OrderedDict([('Item', ['Item0', 'Item0', 'Item0', 'Item1']), ('CType', ['Gold', 'Bronze', 'Gold', 'Silver']), ('USD', [1, 2, 3, 4]), ('EU', [1.1, 2.2, 3.3, 4.4])])


CType,Bronze,Gold,Silver
Item,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Item0,2.0,1.0,
Item1,,,4.0


### Stacking e Unstacking

---

**Empilhando** e **Desempilhando** um dataframe

Isso tudo parece meio confuso, pois nos acostumamos com o **paradigma Excel**. De fato, a ferramenta **Excel** não é uma ferramenta de dataframe. É uma ótima ferramenta de **cálculo celular**. O conceito de **cálculo celular** é muito antigo e remonta os temos da antiga URSS. É mais fácil você proceder cálculos a partir de células quando você tem computadores precários e parte do serviço é feito à mão, a partir de **réguas de cálculo**

Mas ao que parece, apenas 1 em cada 10 usuários de **Excel** realmente lida com matemática. Então ele, com suas limitações inerentes, foi apropriado para outra função.

Ocorre que em **Excel** somos acostumados a lidar com dataframes contendo **coluna** x **linha**. Isso é um pouco mais complexo

Eu posso ter dataframes tendo uma **coluna**, ou campo principal, ou **externa**, como por exemplo: Loja. E Loja é um campo de **índice primário de coluna** neste meu dataframe

Mas uma Loja possui vários Departamentos. Então Departamento é um **índice secundário de coluna** no meu dataframe.

E o mesmo para **linhas**, ou registros do meu dataframe. Então em uma linha eu tenho a entrada **Furadeira de Impacto** e que por um lado está relacionada ao nível de **linha** a uma categoria maior de **índice de linha**, de **Utilidades do Lar**

E a uma determinada **furadeira de impacto** (Utilidades do Lar), a uma operação de venda em particular e por outro lado, está relacionada à coluna **Eletrodoméstico** (Departamento), sendo na coluna maior **Mappin** (Loja)

---

**Empilhamento**

Se eu trouxer **Furadeira** para ser subcoluna de **Eletrodomésticos**, eu estarei tornando meu dataframe mais estreito, numa operação de **desempilhamento**, restando como **índice de linha** apenas **Furadeira de Impacto**. Como **índice de coluna** agora eu terei como primário **Loja**, depois **Departamento** depois **Eletrodomésticos**

Quando você **empilha** um dataframe, ele fica **mais alto**

E isso acontece quando move a **coluna** de índice mais interna para se tornar a **linha** de índice mais interna (ou **rodando**, ou **pivoteando**)

Assim o **pivoteamento** nada mais é do que um caso especial de **empilhamento**

E então você retorna o dataframe com um índice com um novo nível de rótulos de **coluna** mais internos

---

**Desempilhamento**

E quando você **desempilha**, você está movendo o índice da **linha** mais interna para se tornar o índice da **coluna** mais interna

Agora, se eu resolver baixar a subcoluna **Departamento** para minhas linhas, eu ficarei no meu dataframe como **índice de coluna** apenas **Loja**. E como índices de linha agora eu terei como índice primário de **linha**, **Departamento**, seguido de **Utilidades do Lar**

A **figura** a a seguir ilustra essas operações

![Figura: desempilhando um dataframe](stack_unstack1.png)

### Melting

---

Redesenhando um dataframe com **Melt** (SQL **UNION**)

A **Fusão** é considerada útil nos casos em que você tem dados que possuem uma ou mais colunas que são **variáveis de identificação**, enquanto as outras colunas são consideras **variáveis de medição**

Estas **variáveis de medição** estão todas **não pivotadas** para o eixo das linhas

E então, enquanto as variáveis de medição estão dispersas por toda a **largura** do dataframe, a operação de **Fusão** irá assegurar de que elas serão postas na sua **altura**

Em outras palavas, o novo dataframe se tornará mais **longo** ao invés de **largo**

Como resultado, você terá duas colunas **não identificadoras**, sendo elas **Variável** e **Valor**

![Figura: redesenhando um dataframe com melt](reshaping_melt.png)

In [170]:
# The `people` DataFrame
people = pd.DataFrame({'FirstName' : ['John', 'Jane'],
                       'LastName' : ['Doe', 'Austen'],
                       'BloodType' : ['A-', 'B+'],
                       'Weight' : [90, 64]})
print(people)

# Use `melt()` on the `people` DataFrame
a = pd.melt(people, id_vars=['FirstName', 'LastName'], var_name='measurements')
a

  FirstName LastName BloodType  Weight
0      John      Doe        A-      90
1      Jane   Austen        B+      64


Unnamed: 0,FirstName,LastName,measurements,value
0,John,Doe,BloodType,A-
1,Jane,Austen,BloodType,B+
2,John,Doe,Weight,90
3,Jane,Austen,Weight,64


## Combinando Dataframes - Parte 2

---

Para continuar com as técnicas de combinação de dataframes, é bom relembrar aquelas regras de **Teoria de Conjuntos**. Encontrado [aqui](https://stackoverflow.com/questions/50543326/how-to-do-left-outer-join-exclusion-in-pandas)

Isso é aplicado para banco de dados, com muito sucesso. Como o padrão básico para lidar com banco de dados é o **SQL**, uma linguagem padronizada para realizar buscas em bancos de dados, seguem os agrupamentos possíveis:

![Figura: joins em SQL](pxUO3.png)

#### Explicação

Isso parece complicado, mas de fato **não é**

Em **primeiro** lugar, eu escolho dois dataframes que irão se interligar. O resultado será dado num terceiro dataframe, que será o **resultado** da minha ligação

Em **segundo**, em cada dataframe eu escolho uma coluna que será o **elemento de ligação** entre os conjuntos de dados. Ela precisa ser um dos meus **índices**? Não, nem sempre! Às vezes o que eu quero e fazer ligações entre dados de **Hortaliças** do dataframe1 com de **Hortaliças** do dataframe2. O que realmente é importante:

- que as duas colunas apresentem o **mesmo tipo** de dado. Ou seja, se uma for **int64**, a outra deverá necessariamente ser **int64**

- que as duas colunas apresentem dados **compatíveis** e sem dubiedades. Assim, se uma delas possui uma entrada como **Melão**, na outra a entrada deverá ter exatamente a mesma grafia **Melão**. Se for **melão** ou **Melao**, a ligação não dará certo, então é bom se assegurar disso! E também que numa mesma tabela a entrada não use grafias diferentes para indicar a mesma coisa, como **Melão**, **Melao**, **Melão redondo**...

Em **terceiro** eu escolho qual o **tipo de relacionamento** que eu desejo. Isso depende do que eu desejo obter como resultado e da minha criatividade. Basicamente funciona assim:

- se eu quero **Todos** os registros do dataframe1 e apenas os registros que coincidirem no dataframe2, eu uso Um **Left Join**. Se isso for invertido e eu quiser todos os do dataframe2, então eu uso um **Right Join**
 
 - Quando eu usaria isso? Suponha que eu tenha no meu dataframe1 uma listagem de automóveis de uma empresa, com data de 2010. E no dataframe2, uma listagem de automóveis que passaram pela funilaria do Zezinho, em 2018, entre eles, alguns da minha empresa. Bom, eu sei que alguns dos meus carros foram reformados lá e **modernizados**, mas quais? Eu faço um **Left Join** e seguido de uma colagem **lateral** e eu terei agora uma listagem dos veículos, com suas características de 2010 e aqueles que foram reformados em 2018 pelo Zezinho, com suas novas características, para eu poder comparar. Isso é muito útil!
 
 - Outro uso disso é se existir uma relação entre dois dataframes de **1:n (um para muitos)**. Então no primeiro dataframe eu tenho registros dos meus **Clientes** da videolocadora e no segundo, das **Fitas Alugadas**. Com uma ligação dessas eu consigo constituir um novo dataframe contendo **Todos** os meus clientes e para aqueles que alugaram filmes, os filmes que eles alugaram

- se eu quero **Apenas** os registros que existirem no dataframe1 e também no dataframe2, eu uso um **Inner Join** (observe que esses nomes são estranhos, mas altamente **intuitivos**)

 - É uma cláusula super restritiva. Quando eu usaria isso? Suponha que no caso da minha videolocadora eu queria a listagem apenas dos **Clientes** que constem **Fitas Alugadas**. Então agora o registro de João da Silva, que não alugou **nenhum** filme não me interessa!  

- se eu quero um **misturão**, ou seja **Todos** os registros do dataframe1 e também **Todos** do dataframe2, eu uso um **Outer Join**. É usado também, mas se for mal usado, é uma das maiores causas de confusão em bancos de dados! 

- no gráfico **acima** se pode observar mais três maneiras, pouco usuais de relacionar dataframes. Mas se for o caso, devem ser usadas **sim**!

- e uma que não aparece no gráfico acima é **Union**. Mas ela é fácil de entender. Eu simplesmente  pego dois dataframes **idênticos**, mas com dados **diferentes** e colo um em série com o outro. Se eles fossem impressos formulários contínuos, bastaria colar uma listagem depois do fim da outra!

 - Para quê isso serve? Se eu tenho dados idênticos, mas de origens diferentes, eu posso juntar tudo isso num só dataframe comuma colagem **de comprido**, com **Union**, e simplificar minha vida!

Em **quarto**, sabendo a estratégia que eu desejo, procurar o comando Pandas que faça a tarefa para mim. Como Pandas não usa cláusulas **SQL**, eu preciso verificar, para cada caso, como proceder. Por sorte o Pandas é fácil de operar, então isso costuma ser bem **pouco** trabalhoso

Uma **estratégia geral**:

- primeiro simular a operação em **dataframes mais simples** e depois passar para o seu objetivo

- depois começar extraindo um **resultado simplificado** e depois ir aprimorando sua consulta

- e finalmente, **fazer isso em etapas**. Ou seja, uma consulta básica, depois outra que puxa daquela primeira e assim por diante. Isso torna mais fácil auditar o código, se algo der errado!

---

Para combinação de dataframes em **múltiplas colunas**, [aqui](https://stackoverflow.com/questions/21786490/pandas-left-outer-join-multiple-dataframes-on-multiple-columns)

É importante saber:

- key - se irá ser usada uma ou mais **chaves** para as ligações

- how - o padrão é **inner**. Outros tipos são **left**, **right** e **outer**

*Observação: a escolha do tipo de **ligação** tem a ver com o que eu espero como **resultado**. Basta ter bom senso e tudo corre bem. Em alguns casos, nenhuma ligação é necessária. Há uma descrição detalhada mais **acima**

Com relação a **chave**, nem sempre ela é necessária. Alguns tipos de merge não necessita da passagem da chave. Da mesma maneira, o que mais importa é o **bom senso**. A regra é criada pelo usuário

Sobre uso de coisas **por default**, eu prefiro sempre declarar. É mais fácil ver no código e **opa, esta ligação está estranha!** do que ficar confiando nos padrões e acabar me ferrando. Então mesmo no caso **inner**, por favor, declare!

Ligações n:m... bom, esse é um caso à parte. Uma ligação típica n:m é o de uma livraria que vende vários livros de um autor, que por sua vez possuem vários autores... autores:obras... n:m. E aí?

E aí é fácil. Existem apenas dois tipos possíveis desse negócio:

- reificadas - você encontra um dataframe específico no seu database que faz a tal ligação. Para que serve reificar? É que às vezes eu quero acrescentear, na própria ligação, campos de comentários específicos, tipo, *foi muito feliz o trabalho conjunto de Oswald de Andrade com Mário de Andrade* ou coisas do tipo. Neste caso eu terei sempre **três** dataframes, um ligando 1:n, uma intermediária de reificação n:m e um terceiro fazendo m:1

- não reificadas - eu simplesmente percebo que há duplicatas 1:n e m:1 nos meus **dois** dataframes. Por exemplo, a minha tabela da locadora de filmes, no campo Ator cadastra o Ator replicadamente para vários filmes e filmes para vários atores! Às vezes isso se encontra em **dois** dataframes, mas atenção, às vezes eles se condensam em apenas **um dataframe**! Observe as **replicações** no índice ou nas colunas!

Sempre que eu tiver o **diagrama de projeto** do meu database, melhor será! Caso eu não tenha, se o nome dos campos e dos dataframes for amigável, muitas vezes dá para ser reconstruído

O que eu faço na minha relação 1:n? Simples, não importa o caso (reificado ou não), eu apenas crio uma primeira consulta, depois outra e depois outra até chegar ao meu resultado!

Embora para obter views isso seja possível, na hora de implementar Dataframes, normalmente **não é boa estratégia** resolver relações n:m de uma só vez!

Então por exemplo, no caso dos meus livros eu vou ajustando, uma cláusula por vez, até obter meu resultado final! Simples assim!

## Exemplos de ligações

---

*Obs: isso não é **exaustivo**, existem muitas outras coisas que se pode fazer durante uma combinação de dois dataframes. Uma coisa que eu sempre gosto de fazer é, se eu tenho que trabalhar com **mais de dois** dataframes, eu faço consultas em série, uma e depois outra e assim por diante. O único caso em que não faço isso é quando eu tenho certeza que todos eles são estruturalmente **idênticos**, como no caso abaixo do **Union**. Isso facilita auditar o código, se algo der errado*

*Antes de sair criando relacionamentos, eu costumo pegar uma folha de papel e lápis e começo a **rascunhar** o que eu tenho e o que eu quero tirar. Então é uma boa ideia desenhar os dataframes, tentar enxergar os relacionamentos, se eles forem **1:n**, eu desenho isso também e depois uma seta grande e mais ou menos o meu formato de saída. Isso costuma me evitar muita dor de cabeça na hora de codificar!*

### Left Join

---

Como no caso dos **carros modernizados**, acima:

    result = left.join(right)

![Figura: visão do Left Join](merging_join.png)

### Union

---

Use a estratégia **melt** descrita acima

Estratégia **append** também funciona

    In [12]: result = df1.append(df2)

Ou a estratégia **concat** de topo [aqui](https://pandas.pydata.org/pandas-docs/stable/merging.html) (muitos exemplos de uso de várias estratégias de combinação de dados)

    frames = [df1, df2, df3]
    result = pd.concat(frames)

Lembre-se de que os dataframes precisam ser estruturalmente **idênticos**, contendo apenas **dados** diferentes!

![Figura: visão do Union](merging_concat_keys.png)

### Outer Join com colagem lateral

---

Repare que agora eu tenho que setar o eixo com **axis=1**!

    result = pd.concat([df1, df4], axis=1, sort=False)

![Figura: visão do Outer Join](junta_con_eixo1.png)

### Inner Join com colagem lateral

---

    result = pd.concat([df1, df4], axis=1, join='inner')

![Figura: visão do Inner Join](merging_concat_axis1_inner.png)

### Mais coisas legais com colagens

----

#### Ignorando os índices nos eixos de concatenação [aqui](https://pandas.pydata.org/pandas-docs/stable/merging.html)

Às vezes no nosso novo arranjo, as estruturas de índice dos dataframes originais não é relevante

O parâmetro **Ignore Index** pode ser passado

In [None]:
result = pd.concat([df1, df4], ignore_index=True)

![Figura: visão de ignorar índice](merging_concat_ignore_index.png)

---

#### Concatenando com ndims misturados

Dataframes com dimensões diferentes podem ser concatenados, por exemplo, uma tripa de um servindo de linha ou coluna em outro. Uma coluna adicional, ou uma série de colunas, representando as linhas do menor serão apensadas, conforme o caso. O interessante é sempre **desenhar** o que esperamos como resultado!

*Observe que como no anterior, o índice foi **ignorado**. Mas não é só isso. O segundo dataset se transformou em **colunas** ao ser apensado ao primeiro!*

![Figura: concatetar ignorando índice](merging_concat_series_ignore_index.png)

![Figura: outra visão de concatenação](merging_concat_unnamed_series.png)

*Observe também que no **segundo** exemplo, o segundo dataset também se transformou em **colunas**... mas de uma maneira diferente! Quem diz como a operação deve ser feita é o programador. Apenas a **criatividade**, unida à **necessidade** podem lhe dizer o que deve ser feito para cada caso...* 

---

#### Concatenando com chaves de agrupamento

É comum sobrescrever os nomes das colunas ao fazer uma concatenação. Isso é feito passando o argumento **Keys**:

    pd.concat([s3, s4, s5], axis=1, keys=['red','blue','yellow'])
    
Uma **variante** disso passa o argumento Keys como **Categorias**:

    frames = ['df1', 'df2', 'df3']

    result = pd.concat(frames, keys=['x', 'y', 'z'])
    
Outra maneira de atingir este **mesmo** resultado é passando um argumento na forma de **dicionário**


    pieces = {'x': df1, 'y': df2, 'z': df3}

    result = pd.concat(pieces)

![Figura: keys como categorias](merging_concat_group_keys2.png)

---

#### Apensando linhas a um dataframe

Normalmente o argumento **Ignore Index = True** será passado:

    s2 = pd.Series(['X0', 'X1', 'X2', 'X3'], index=['A', 'B', 'C', 'D'])

    result = df1.append(s2, ignore_index=True)
    
E para reconstruir as colunas, eu posso passar um **dicionário**:

    dicts = [{'A': 1, 'B': 2, 'C': 3, 'X': 4},
             {'A': 5, 'B': 6, 'C': 7, 'Y': 8}]
 
    result = df1.append(dicts, ignore_index=True)

---

#### Fazendo Join e Merge ao estilo de Databases

Pandas foi modelado de tal maneira que há muitos métodos replicando o funcionamento da manutenção de um database **SQL**

    pd.merge(left, right, how='inner', on=None, left_on=None, right_on=None,
         left_index=False, right_index=False, sort=True,
         suffixes=('_x', '_y'), copy=True, indicator=False,
         validate=None)

---

#### A Álgebra Relacional envolvida em métodos de concatenação

São as relações possíveis entre dois dataframes:

- 1:1 (inner join)

- 1:n (outer join - left ou right)

- n:m (full outer join - produto cartesiano)

Lembrando que quando apensamos colunas a colunas, qualquer índice passado será **descartado**!

---

##### Checando por chaves duplicadas

O parâmetro **validate** faz isso para mim:

    pd.merge(left, right, on='B', how='outer', validate="one_to_many")

---

#### O indicador Merge

Este parâmetro me dá uma indicação de se o valor existia em um, ou nos dois dataframes:

    pd.merge(df1, df2, on='col1', how='outer', indicator='indicator_column')

---

#### Dtypes em operações de Merge

Sempre que possível, eles tendem a ser preservados! (uma excessão é quando em um campo Inteiro se gera no caminho várias entradas NaN, neste caso eles são passados para Ponto Flutuante)

---

#### Join em índices

O mais comum para juntar bancos de dados é fazer um join por índices. Desta maneira ele não precisa ser invocado no Pandas. Linhas são adicionadas ao Dataset, os critérios dependendo apenas do tipo de join realizado:

    result = left.join(right, how='inner')
    
Lembrando que o alinhamento do índice é de **linha**! Como linhas podem ser transformadas em **colunas** pela ação de desempilhamento, basta passar o argumento certo e as colunas também será adicionadas ao novo Dataset:
    
    result = pd.merge(left, right, left_index=True, right_index=True, how='outer') 

---

#### Join em índices em chave por coluna

Estas duas funções são equivalentes:

    left.join(right, on=key_or_keys)
    
    pd.merge(left, right, left_on=key_or_keys, right_index=True, how='left', sort=False)
    
Isso corresponde a uma colagem **lateral**. Em alguns casos, dependo das cláusulas, linhas também podem ser adicionadas ao novo Dataset

*Observe que o segredo do Pandas é a **simplicidade**. Então se alguma coisa está começando a se tornar realmente complexa, é bom às vezes recomeçar do zero, revisando nossos conceitos. Provavelmente você tomou o caminho mais difícil!*

---

#### Join em um Índice Simples a um Muitiíndice

O Pandas reconhece automaticamente a estrutura de multindexação e reconstrói toda a estrutura da árvore, sem que você tenha que fazer nada. Essas funções são equivamentes:

    result = left.join(right, how='inner')
    
    result = pd.merge(left.reset_index(), right.reset_index(),
                      on=['key'], how='inner').set_index(['key','Y'])
                      
*Observe que os dados, ao acessar a estrutura de árvore, quando há uma ramificação, são gravados em **todos** os ramos encontrados. Isso é meo intuitivo, pois se temos **K2** como ramo e **Y2** e **Y3** como folhas, é normal que um dado pertencente ao ramo vá ser herdado por suas folhas!*

*Uma observação geral é que uma linguagem de programação não é feita para ter pegadinhas. Então, dentro das limitações da lógica de passagem de instruções para a máquina e para evitar **ambiguidades** às vezes algumas coisas ficam confusas. Mesmo assim, são raros estes casos. Então use sua própria lógica para **entender** o que está implementando! Colar e copiar códigos pode ser bom para iniciantes, mas o legal é saber o que cada detalhe está fazendo, ou as coisas podem sair do controle!*

*Outra coisa, ninguém joga o **jogo de contas de vidro** quando se desenvolve uma linguagem de programação. Em outras palavras, uma linguagem não comporta comandos ou funções **inúteis**, implementadas simplesmente pela beleza ou pelo desafio. Então se vocÊ esbarrar uma hora com algo que lhe pareça inútil, tenha **certeza** que aquilo foi colocado lá para resolver um problema fundamental para algum tipo de necessidade. Tenha sempre isso em mente*

![Figura: join em multiíndice](merging_join_multiindex_inner.png)

---

#### Join em dois Multiíndices

Isso ainda não foi implementado, mas pode ser feito pelo seguinte código (método da época da vovó!):

    result = pd.merge(left.reset_index(), right.reset_index(),
                      on=['key'], how='inner').set_index(['key','X','Y'])

---

#### Merge em uma combinação de colunas e níveis de índice

Os parâmetros **On**, **left_on** e **right_on** podem referir:

- nomes de colunas

- nomes de níveis de índice

Então é possível dar um **Merge** combinando níveis de índice e colunas, sem ter que resetar os índices:

    result = left.merge(right, on=['key1', 'key2'])

*Nota: quando Dataframes são fundidos em uma sequência que casa os **níveis de índice** nos dois dataframes, o nível de índice é preservado como um índice de nível do Dataframe de resultado. Em outras palavras, quando os níveis forem consistentes, essa consistência será preservada!*

*Nota: se uma sequência casa tanto um nome de coluna e um nome de nível de índice, então uma mensagem de aviso aparece e a coluna têm prioridade. Isso irá resultar em um erro de ambiguidade numa versão futura*

![Figura: merge em índice e coluna](merge_on_index_and_column.png)

---

#### Colunas de valor com sobreposição

O comando direto é aceito e o Pandas atribui sufixos padronizados _x e _y. O ideal é sempre você evitar o uso de coisas padronizadas e colocar seus próprios parâmetros. O argumento **merge** pega uma tupla de lista de strings para criar os sufixos

Há quem prefira usar os argumentos da seguinte maneira, o resultado é o mesmo:

    result = left.join(right, lsuffix='_esq', rsuffix='_dir')
    
*Observação: esse traço _baixo é bastante útil em operações que transformam nomes complexos de colunas em colunas multiindexadas. O Python tem funções que fazem isso. Então prefira usar sufixos ou prefixos (quando for o caso) com esta sintaxe para facilitar sua vida!*

In [6]:
import pandas as pd

left = pd.DataFrame({'k': ['K0', 'K1', 'K2'], 'v': [1, 2, 3]})
right = pd.DataFrame({'k': ['K0', 'K0', 'K3'], 'v': [4, 5, 6]})

pd.merge(left, right, on='k', suffixes=['_esq', '_dir'])

Unnamed: 0,k,v_esq,v_dir
0,K0,1,4
1,K0,1,5


---

#### Join em múltiplos Dataframes ou Painéis

Uma lista ou tupla de Dataframes pode ser passada para serem **juntados**

*Observe que algumas colunas mudaram para **ponto flutuante**. Por que? Porque no dataframe final, elas apresentam algumas entradas NaN. Então a regra do Pandas para estes casos é que eles sejam modificados para **PF**, pois **inteiro** não aceita valor nulo!*

*Observe também que como **right** e **right2** foram adicionadas a **left** (estes nomes são arbitrários), o nome da coluna foi preservado para **left** e para as demais, foi adicionado um sufixo x e y automaticamente para as diferenciar*

In [3]:
import pandas as pd

left = pd.DataFrame({'k': ['K0', 'K1', 'K2'], 'v': [1, 2, 3]})
left = left.set_index('k')

right = pd.DataFrame({'k': ['K0', 'K0', 'K3'], 'v': [4, 5, 6]})
right = right.set_index('k')

right2 = pd.DataFrame({'v': [7, 8, 9]}, index=['K1', 'K1', 'K2'])

result = left.join([right, right2])
result

Unnamed: 0,v_x,v_y,v
K0,1,4.0,
K0,1,5.0,
K1,2,,7.0
K1,2,,8.0
K2,3,,9.0


![Figura: join de múltiplos Dataframes](merging_join_multi_df.png)

---

#### Merge de valores em Séries ou Colunas de Dataframes

Esse é um caso especial de **Merge**, pois alguns valores serão **destruídos**. Observe que o Dataframe **dominante** é DF1. Então no resultado, apenas os valores e registos ausentes serão completados por DF2

*Observe que não é tão **exótico** assim. Imagine que eu tenha um controle de estoque, mantido o mais autualizado como possível, de um comércio. Tudo isso está gravado no meu **DF1**. De repente eu descubro que tenho mais alguns produtos não perecíveis e em boas condições em um outro depósito que eu desconhecia. É claro que eu quero incorporar estes também ao meu estoque, mas eu não quero destruir as informações existentes. Eles acompanham um registro. E este registro está desatualizado. Então eu confio nas informações do meu **DF1**. Mas no caso de haver produtos novos a incorporar, eu puxo de **DF2**. O resultado será basicamente um **DF1** adicionado de mais alguns produtos minerados em **DF2** e que constavam como **NaN** em **DF1**. É o que este merge faz*

In [6]:
import pandas as pd
import numpy as np

df1 = pd.DataFrame([[np.nan, 3., 5.], [-4.6, np.nan, np.nan], [np.nan, 7., np.nan]])
df2 = pd.DataFrame([[-42.6, np.nan, -8.2], [-5., 1.6, 4]], index=[1, 2])

result = df1.combine_first(df2)

![Figura: merge com Combine First](merging_combine_first.png)

Este é um outro caso especial de **Merge** e alguns valores também serão **destruídos**, mas de outra maneira. DF1 agora será **atualizado** com as informações de DF2

*Observe que este também é um método extremamente útil. Suponha que eu tenha um depósito de máquinas, relativamente complexas, como **empilhadeiras**. Eu mantenho um registo do estado das peças de cada uma, número de horas para serem trocadas, estado geral do equipamento, dados de capacidade de carga, consumo, valor da locação por hora, etc.. De repente, eu recebo uma atualização das condições gerais de um lote de máquinas que acabou de retornar da revisão. Qual é minha informação melhor? Agora é o dataframe **novo**, ou seja, **df2**. Então **df1** passará por uma **atualização geral** baseado nas informações de **df2**. É claro que ela não é tão geral assim, pois a maioria dos meus equipamentos não foi submetido à revisão. Este tipo de prática em Dataframes é muito comum e muitas vezes o critério de quem atualiza quem são campos de **data** e **hora**. Meu **df1** será sobrescrito com informações de **df2**. Um procedimento usual em gestão de dados* 

In [9]:
df1.update(df2)

![Figura: Merge com Update](merging_update.png)

### Merge amigável de Timeseries

---

#### Merge de dados ordenados

O método **Merge Ordered** possibilita combinar séries temporais e dados ordenados. Ele possui uma palavra chave **Fill** opcional, que permite preencher ou interpolar dados ausentes

In [15]:
left = pd.DataFrame({'k': ['K0', 'K1', 'K1', 'K2'], 'lv': [1, 2, 3, 4],
                     's': ['a', 'b', 'c', 'd']})
left

Unnamed: 0,k,lv,s
0,K0,1,a
1,K1,2,b
2,K1,3,c
3,K2,4,d


In [16]:
right = pd.DataFrame({'k': ['K1', 'K2', 'K4'], 'rv': [19, 21, 33]})
right

Unnamed: 0,k,rv
0,K1,19
1,K2,21
2,K4,33


Até aqui eu simplesmente completei uma tabela, usando elementos de **left** e de **right**:

In [18]:
result = pd.merge_ordered(left, right, )
result

Unnamed: 0,k,lv,s,rv
0,K0,1.0,a,
1,K1,2.0,b,19.0
2,K1,3.0,c,19.0
3,K2,4.0,d,21.0
4,K4,,,33.0


Eu sei que estes dados são uma **evolução** um do outro. Portanto, não é errado eu completar os valores ausentes com os anteriores

Eu uso o parâmetro **ffill** para isso. Observe que a última linha agora ficou completa

*Como eu sei quando coisas devem ser completadas? Simples: usando o **bom senso**. Se eu sei que isso aqui é tipo uma caderneta de notas de algo que está evoluindo no tempo, não é errado usar o **ffill**! Não preciso pensar duas vezes antes de completar*

*Observe também que a coluna **lv** voltou a se tornar inteira, pois agora ela está completa. Ela havia se tornado floating apenas para comportar o **NaN** da última linha!*

In [20]:
result = pd.merge_ordered(left, right, fill_method='ffill')
result

Unnamed: 0,k,lv,s,rv
0,K0,1,a,
1,K1,2,b,19.0
2,K1,3,c,19.0
3,K2,4,d,21.0
4,K4,4,d,33.0


Mas o que eu quero de verdade é associar **séries temporais** a **dados ordenados**

---

**Séries temporais** são comuns em ciências. Eu inicio um experimento e há cada intervalo de tempo eu faço uma nova medição, ou um conjunto de novas medições. Isso me ajuda a entender por exemplo, processos catalíticos, ou o crescimento de uma planta...

Então queremos agora partindo da série temporal **left**, fundir mais um parâmetro, vindo de **right**. Isso poderia ser uma segunda medição, por exemplo de um outro sensor instalado na câmara onde ocorre o experimento. O elemento de ligação (onde eu sei que eu tenho uma medição) é o valor **k**. Provavelmente ele significa um disparo de um gatilho, que liga diversos sensores há cada período de por exemplo, duas horas. E os valores da minha nova leitura estão gravados em **rv** 

---

Existe um truque para se usar em coisas que **emendam** em outras, que é o parâmetro **ffill**. Essa é uma variável auxiliar, que grava o último parâmetro usado. Caso o próximo esteja em branco, ele usa o anterior. Imagine uma película de cinema que precisa de emendas. Se eu não tenho um dado logo após, eu perderia também o pedaço da minha trilha de som. Mas se eu ainda tenho a quadrícula anterior, eu a exibo, é melhor do que nada... O que o meu expectador verá? O filme sofrendo um ligeiro congelamento e depois prosseguindo:

|Método|Ação|
|-----|------|
|pad/ffill|preenche valores avante|
|bfill/backfill|preenche valores em ré|

Para gerar tabelas em Markdown [aqui](http://tablesgenerator.com/markdown_tables)

*Observação: uso do **pad** é comum, uma vez que o último valor conhecido está disponível para cada ponto temporal*

---

Meu novo parâmetro:

    left_by='s'
    
    k é minha referência de ligação
    lv e rv são leituras
    s é o elemento indicador da série temporal [a...d]
    
Eu agrupo o Dataframe **left** por grupos de colunas e junto, peça a peça, com o Dataframe **right**

*Escrito de outra maneira:

- primeiro eu crio **fatias**, espessas como o Dataframe **right**

- essas fatias ao invés de **condensar** os dados, irão abrir espaço suficiente para eu abarcar em **left**, o novo detalhe contido em **right**

- lembrando que eu tenho em **right** apenas três leituras: K1=19, K2=21 e K4=33, esta será a **espessura** das minhas fatias

- depois eu junto tudo isso numa tripa só, como se fosse um salame:

In [19]:
result = pd.merge_ordered(left, right, left_by='s')
result

Unnamed: 0,k,lv,s,rv
0,K0,1.0,a,
1,K1,,a,19.0
2,K2,,a,21.0
3,K4,,a,33.0
4,K1,2.0,b,19.0
5,K2,,b,21.0
6,K4,,b,33.0
7,K1,3.0,c,19.0
8,K2,,c,21.0
9,K4,,c,33.0


E agora eu junto os dois parâmetros, preenchendo dados evolutivos numa série temporal. O elemento de ligação e que me dá a dica de **qual** valor colocar é simplesmente pensar que isso nada mais é do que segmentos unidos pela linha do **tempo**

Bom, agora observe, continuo com dois valores **NaN**, um no início e outro na minha linha 10. Explicação:

- **NaN** em rv na linha O: eu inicio minha leitura de rv a partir de K1. Não tenho dica nenhuma do que aconteceu antes disso. Quais valores eu poderia colocar para rv em K0?

- **Nan** em lv na linha 10: observe que eu venho evoluindo lv em 1, 2, 3... o problema é que na última fatia, o parâmetro lv 4 aparece apenas em K2. E **K1** Será que ele pegaria 3 ou 4 nessa tripa? Isso fica **indeterminado** e portanto, o campo permanece em branco

In [21]:
result = pd.merge_ordered(left, right, fill_method='ffill', left_by='s' )
result

Unnamed: 0,k,lv,s,rv
0,K0,1.0,a,
1,K1,1.0,a,19.0
2,K2,1.0,a,21.0
3,K4,1.0,a,33.0
4,K1,2.0,b,19.0
5,K2,2.0,b,21.0
6,K4,2.0,b,33.0
7,K1,3.0,c,19.0
8,K2,3.0,c,21.0
9,K4,3.0,c,33.0


---

#### Merge AsOf

Isso é similar a uma ligação **esquerda** ordenada, exceto que:

- nós casamos em chaves **próximas** ao invés de chaves **iguais**

Por exemplo, nós podemos ter em um leilão, **vendas** e **lances** em dataframes diferentes

Uma vez que alguns **lances** se tornam **vendas**, nós queremos unir os dois. O problema é que embora nós tenhamos uma régua temporal **precisa** nos dois dataframes, os dados não casam exatamente. Quando eu dou um lance e esse meu lance foi vencedor, meu sistema demora alguns segundos (tem um **lag**) para processar **arrematou, venda completa!**. Então o **Left Join** não irá funcionar! Eu preciso de algo com uma certa **flexibilidade**

Aqui está o Dataframe das minhas **vendas**, numa série ordenada de **datas**:

In [22]:
trades = pd.DataFrame({
     'time': pd.to_datetime(['20160525 13:30:00.023',
                             '20160525 13:30:00.038',
                             '20160525 13:30:00.048',
                             '20160525 13:30:00.048',
                             '20160525 13:30:00.048']),
     'ticker': ['MSFT', 'MSFT', 'GOOG', 'GOOG', 'AAPL'],
     'price': [51.95, 51.95, 720.77, 720.92, 98.00],
     'quantity': [75, 155, 100, 100, 100]},
     columns=['time', 'ticker', 'price', 'quantity']) 
trades

Unnamed: 0,time,ticker,price,quantity
0,2016-05-25 13:30:00.023,MSFT,51.95,75
1,2016-05-25 13:30:00.038,MSFT,51.95,155
2,2016-05-25 13:30:00.048,GOOG,720.77,100
3,2016-05-25 13:30:00.048,GOOG,720.92,100
4,2016-05-25 13:30:00.048,AAPL,98.0,100


Para cada linha do Dataframe da **esquerda**, nós selecionamos a última linha do Dataframe da **direita** no qual a sua chave seja **menor** do que a chave da **esquerda**

Observe que ambos os Dataframes devem estar ordenados pela chave (pois são **séries** numa régua do tempo!)

Esse é o meu dataframe dos **lances**. Nem todos resultaram em **vendas**:

In [23]:
quotes = pd.DataFrame({
     'time': pd.to_datetime(['20160525 13:30:00.023',
                             '20160525 13:30:00.023',
                             '20160525 13:30:00.030',
                             '20160525 13:30:00.041',
                             '20160525 13:30:00.048',
                             '20160525 13:30:00.049',
                             '20160525 13:30:00.072',
                             '20160525 13:30:00.075']),
     'ticker': ['GOOG', 'MSFT', 'MSFT', 'MSFT', 'GOOG', 'AAPL', 'GOOG', 'MSFT'],
     'bid': [720.50, 51.95, 51.97, 51.99, 720.50, 97.99, 720.50, 52.01],
     'ask': [720.93, 51.96, 51.98, 52.00, 720.93, 98.01, 720.88, 52.03]},
     columns=['time', 'ticker', 'bid', 'ask'])
quotes

Unnamed: 0,time,ticker,bid,ask
0,2016-05-25 13:30:00.023,GOOG,720.5,720.93
1,2016-05-25 13:30:00.023,MSFT,51.95,51.96
2,2016-05-25 13:30:00.030,MSFT,51.97,51.98
3,2016-05-25 13:30:00.041,MSFT,51.99,52.0
4,2016-05-25 13:30:00.048,GOOG,720.5,720.93
5,2016-05-25 13:30:00.049,AAPL,97.99,98.01
6,2016-05-25 13:30:00.072,GOOG,720.5,720.88
7,2016-05-25 13:30:00.075,MSFT,52.01,52.03


Como opcional, um merge asof pode realizar uma merge com inteligência de grupo

O casamento é feito:

- primeiro com a chave igual

- segundo com o valor próximo (asof dos lances)

In [24]:
result = pd.merge_asof(trades, quotes, on='time', by='ticker')
result

Unnamed: 0,time,ticker,price,quantity,bid,ask
0,2016-05-25 13:30:00.023,MSFT,51.95,75,51.95,51.96
1,2016-05-25 13:30:00.038,MSFT,51.95,155,51.97,51.98
2,2016-05-25 13:30:00.048,GOOG,720.77,100,720.5,720.93
3,2016-05-25 13:30:00.048,GOOG,720.92,100,720.5,720.93
4,2016-05-25 13:30:00.048,AAPL,98.0,100,,


Margem de 2ms entre o lance e a hora da transação:

In [25]:
pd.merge_asof(trades, quotes, on='time', by='ticker', tolerance=pd.Timedelta('2ms'))
result

Unnamed: 0,time,ticker,price,quantity,bid,ask
0,2016-05-25 13:30:00.023,MSFT,51.95,75,51.95,51.96
1,2016-05-25 13:30:00.038,MSFT,51.95,155,51.97,51.98
2,2016-05-25 13:30:00.048,GOOG,720.77,100,720.5,720.93
3,2016-05-25 13:30:00.048,GOOG,720.92,100,720.5,720.93
4,2016-05-25 13:30:00.048,AAPL,98.0,100,,


Tolerância de 10ms entre o lance e a hora da transação. Também foram excluídos os casamentos perfeitos no tempo

*Observe que quando nós excluídos o casamento perfeito (nos lançces), os lances anteriores se propagam a partir daquele ponto, no tempo*

In [26]:
pd.merge_asof(trades, quotes, on='time', by='ticker', tolerance=pd.Timedelta('10ms'), allow_exact_matches=False)
result

Unnamed: 0,time,ticker,price,quantity,bid,ask
0,2016-05-25 13:30:00.023,MSFT,51.95,75,51.95,51.96
1,2016-05-25 13:30:00.038,MSFT,51.95,155,51.97,51.98
2,2016-05-25 13:30:00.048,GOOG,720.77,100,720.5,720.93
3,2016-05-25 13:30:00.048,GOOG,720.92,100,720.5,720.93
4,2016-05-25 13:30:00.048,AAPL,98.0,100,,


### Usos gerais envolvendo combinação de Dataframes

---

**Combinando** dois dataframes iguais em **multinível** com **Concat** [aqui](https://stackoverflow.com/questions/40820017/how-to-create-a-multilevel-dataframe-in-pandas)

*Eu só mostro o que ocorreu no dataframe A, pois os dois são idênticos!*

*Observação: eu introduzi no dataframe B alguns campos **em branco**, pois eu queria ver como ele lidava com isso. Assim mesmo o processo correu bem e provavelmente o caso do meu dataframe de **carros reformados** também daria certo!*

In [47]:
import pandas as pd

A = pd.DataFrame(data=[[2, 1], [3, 4], [5, 2], [6, 3], [6, 3]],
                  index= ['2016-11-21', '2016-11-22', '2016-11-23', '2016-11-24', '2016-11-25'],
                  columns=['a', 'b'])
B = pd.DataFrame(data=[[3, 0], [1, 0], [1, 6], ['', ''], ['', '']],
                  index= ['2016-11-21', '2016-11-22', '2016-11-23', '2016-11-24', '2016-11-25'],
                  columns=['a', 'b'])
A

Unnamed: 0,a,b
2016-11-21,2,1
2016-11-22,3,4
2016-11-23,5,2
2016-11-24,6,3
2016-11-25,6,3


Esse método **From Product** usa o **Produto Cartesiano** dos dois elementos para criar a multiindexação

E a partir dele o método **Multi Index** pode construir minha nova indexação

In [48]:
A.columns = pd.MultiIndex.from_product([['A'], A.columns])
A

Unnamed: 0_level_0,A,A
Unnamed: 0_level_1,a,b
2016-11-21,2,1
2016-11-22,3,4
2016-11-23,5,2
2016-11-24,6,3
2016-11-25,6,3


O **Produto Cartesiano** é a multiplicação entre pares ordenados, envolvendo conjuntos distintos

No caso, temos o produto da nova **chave de índice A** pelos elementos em cada coluna da **tabela A**

É um pouco estranho, mas é uma ótima maneira de criar as tuplas, ideal para reformatar um dataframe para mais um nível **primário**

Abaixo como fica uma dessas tuplas:

In [41]:
import itertools
for element in itertools.product(['A'], [2, 3, 5, 6, 6]):
    print(element)

('A', 2)
('A', 3)
('A', 5)
('A', 6)
('A', 6)


In [49]:
B.columns = pd.MultiIndex.from_product([['B'], B.columns])
pd.concat([A, B], axis = 1)

Unnamed: 0_level_0,A,A,B,B
Unnamed: 0_level_1,a,b,a,b
2016-11-21,2,1,3.0,0.0
2016-11-22,3,4,1.0,0.0
2016-11-23,5,2,1.0,6.0
2016-11-24,6,3,,
2016-11-25,6,3,,


### Redefinindo dataframes usando estatísticas

---

**Combinando** um dataframe com **Stats** e **Groupby** [aqui](https://pandas.pydata.org/pandas-docs/stable/reshaping.html)



Isso aqui é um dataframe vindo de um laboratório. Vários experimentos foram feitos em vários animais por duas semanas. Isso gera um dataframe em múltiplos níveis. Observer a complexidade deste dataframe. Essa informação pode ser demasiada:

In [47]:
import pandas as pd
import numpy as np

H = pd.DataFrame(np.random.randn(8, 4), columns=('cat_A', 'dog_B', 'cat_', 'dog_A'))
H.columns = H.columns.str.split('_', expand=True)
H.columns = H.columns.swaplevel(1,0)
H.columns.names = ['exp', 'animal']
H.index=pd.MultiIndex.from_product([['bar', 'baz', 'foo', 'qux'], ['one', 'two']])
H.index.names = ['first', 'second']
H

Unnamed: 0_level_0,exp,A,B,Unnamed: 4_level_0,A
Unnamed: 0_level_1,animal,cat,dog,cat,dog
first,second,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
bar,one,1.632754,-0.551827,-2.574443,-0.432358
bar,two,-0.471698,-1.24352,0.742335,0.342478
baz,one,1.936691,-0.030853,1.504171,-0.779984
baz,two,0.759899,-0.428439,-0.292747,-0.603547
foo,one,1.722871,-1.120541,0.321965,-1.630697
foo,two,-0.600571,0.23453,0.85571,-0.443203
qux,one,-0.003694,1.664536,-0.919551,-0.042198
qux,two,0.262598,-0.606351,-1.458344,-0.472203


Aqui eu **sumarizo** pela média dos experimentos:

In [49]:
H.stack().mean(1).unstack()

Unnamed: 0_level_0,animal,cat,dog
first,second,Unnamed: 2_level_1,Unnamed: 3_level_1
bar,one,-0.470844,-0.492093
bar,two,0.135319,-0.450521
baz,one,1.720431,-0.405418
baz,two,0.233576,-0.515993
foo,one,1.022418,-1.375619
foo,two,0.127569,-0.104336
qux,one,-0.461622,0.811169
qux,two,-0.597873,-0.539277


Outra maneira, com mesmo resultado:

In [51]:
H.groupby(level=1, axis=1).mean()

Unnamed: 0_level_0,animal,cat,dog
first,second,Unnamed: 2_level_1,Unnamed: 3_level_1
bar,one,-0.470844,-0.492093
bar,two,0.135319,-0.450521
baz,one,1.720431,-0.405418
baz,two,0.233576,-0.515993
foo,one,1.022418,-1.375619
foo,two,0.127569,-0.104336
qux,one,-0.461622,0.811169
qux,two,-0.597873,-0.539277


Aqui o experimento aparece, mas eu **sumarizo** pela média dos indivíduos e condensando pela **raça**:

In [53]:
H.stack().groupby(level=1).mean()

exp,Unnamed: 1_level_0,A,B
second,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
one,-0.416964,0.300423,-0.009671
two,-0.038262,-0.153281,-0.510945


Aqui o experimento também aparece, mas eu **sumarizo** pela média dos indivíduos, condensando se foi o primeiro ou o segundo lote:

In [55]:
H.mean().unstack(0)

exp,Unnamed: 1_level_0,A,B
animal,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
cat,-0.227613,0.654856,
dog,,-0.507714,-0.260308


### Uma palavra sobre experimentos com animais e inferências estatísticas

*No passado, tínhamos múltiplas limitações técnicas. Então quando recebíamos um lote por exemplo de ratos para trabalhar em um laboratório, focávamos fortemente no **problema que queríamos resolver**

*Era a única maneira de se proceder: não tínhamos chips identificadores do indivíduo, o espaço para preenchimento de uma caderneta de papel era pequena e o laboratorista estava sempre cansado de preencher dados, não tínhamos câmeras infravermelho e nem dispositivos que nos coletassem dados automaticamente. Nossos arquivos em papel eram limitados em espaço*

*Então como procedíamos? Bom, **condensávamos** previamente ao máximo nossos dados, ao mínimo suficiente para ter nossa inferência validada ou falsificada. Isso era feito **antes** de experimento começar. Então nossos ratos eram pesados e a temperatura deles medida e outras variáveis ambientes controladas e medidas várias vezes. A partir daí inferíamos que todo o experimento se passou numa temperatura ambiente de 28 graus Celsius, que nossos ratos tinham massa corpórea média de 128+/-13g ao início do experimento e temperatura corporal média de 37,5+/-0,4 graus Celsius. E então começávamos o experimento e fazíamos nossas leituras*

*Ocorre que um mesmo experimento poderia nos fornecer dicas para outros. E tudo isso era perdido no nosso reducionismo. Hoje não precisamos proceder extamente da mesma maneira. Por exemplo, eu posso ter os chips implantandos nos ratos que os identificam. E câmeras infravermelho podem tirar fotos dos ratos e através de programas de tratamento de imagens, eu posso inferir por exemplo, mudanças **atípicas** na temperatura dos indivíduos **foo** e **baz**, mas nunca no indivíduo  **bar**... seria isso uma pista para algo relacionado à droga injetada?*

*A variação do ambiente, monitorada eletronicamente ao longo das horas, dias e semanas... Será que aquela tripa enorme de leituras teve alguma coisa a ver com a morte súbita de todos os indivíduos do **exp A** ao fina da terceira semana?*

*Essas e muitas outras perguntas podem ser investigadas, manualmente ou automaticamente, através de ferramentas de **machine learning**. Então agora sim, não necessariamente eu preciso tratar um **mar de ratos** como um grande número, mas sim por indivíduo, como cada um se comportou e por quê em cada experimento e em cada período... Como agora meus resultados não vêm mais na forma de um **grande número**, faz sentido essa parte da **condensação de dados via estatística** 

### Tabulação Cruzada [aqui](http://pandas.pydata.org/pandas-docs/stable/reshaping.html)

---

Por padrão, o método **.crosstab()** calcula a tabela de frequências dos fatores, a não ser que uma matriz de valores **values** e uma função de agregação **aggfunc** forem passadas

Ele necessita como argumentos:

- **index**, como matriz, valores para serem agrupados nas linhas
- **columns**, como matriz, valores a serem agrupados nas colunas
- **values**, matriz **opcional** de valores para agregar de acordo com os fatores e **aggfunc**, é uma função **opcional**
- **rownames** e **colnames** como sequências, **margins** para acabamento
- **normalize** para normalizar o resultado. Para alguns gráficos, isso pode ser interessante!

In [92]:
import pandas as pd
import numpy as np

foo, bar, dull, shiny, one, two = 'foo', 'bar', 'dull', 'shiny', 'one', 'two'
a = np.array([foo, foo, bar, bar, foo, foo], dtype=object)
b = np.array([one, one, two, one, two, one], dtype=object)
c = np.array([dull, dull, shiny, dull, dull, shiny], dtype=object)

pd.crosstab(a, [b, c], rownames=['a'], colnames=['b', 'c'])

b,one,one,two,two
c,dull,shiny,dull,shiny
a,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
bar,1,0,0,1
foo,2,1,1,0


Quando são passadas duas séries, ele devolve uma **tabela de frequências**:

In [93]:
df = pd.DataFrame({'A': [1, 2, 2, 2, 2], 'B': [3, 3, 4, 4, 4],
                    'C': [1, 1, np.nan, 1, 1]})
df
pd.crosstab(df.A, df.B)

B,3,4
A,Unnamed: 1_level_1,Unnamed: 2_level_1
1,1,0
2,1,3


No caso de dados **categorizados**, mesmo as categorias **vazias** serão vasculhadas:

In [94]:
foo = pd.Categorical(['a', 'b'], categories=['a', 'b', 'c'])
bar = pd.Categorical(['d', 'e'], categories=['d', 'e', 'f'])

pd.crosstab(foo, bar)

col_0,d,e
row_0,Unnamed: 1_level_1,Unnamed: 2_level_1
a,1,0
b,0,1


---

**Normalização**

Repare como isso fica bom para gráficos de **porcentagens**:

In [5]:
pd.crosstab(df.A, df.B, normalize=True)

B,3,4
A,Unnamed: 1_level_1,Unnamed: 2_level_1
1,0.2,0.0
2,0.2,0.6


In [6]:
pd.crosstab(df.A, df.B, normalize='columns')

B,3,4
A,Unnamed: 1_level_1,Unnamed: 2_level_1
1,0.5,0.0
2,0.5,1.0


---

#### Função de agregação

In [7]:
pd.crosstab(df.A, df.B, values=df.C, aggfunc=np.sum)

B,3,4
A,Unnamed: 1_level_1,Unnamed: 2_level_1
1,1.0,
2,1.0,2.0


---

**Adicionando Margens**

In [9]:
pd.crosstab(df.A, df.B, values=df.C, aggfunc=np.sum, normalize=True)

B,3,4
A,Unnamed: 1_level_1,Unnamed: 2_level_1
1,0.25,0.0
2,0.25,0.5


In [95]:
pd.crosstab(df.A, df.B, values=df.C, aggfunc=np.sum, normalize=True,
            margins=True)

B,3,4,All
A,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1,0.25,0.0,0.25
2,0.25,0.5,0.75
All,0.5,0.5,1.0


### Ladrilhando

---

Isso é usado para transformar variáveis **contínuas** em **discretas** ou de **categoria**

Imagine que eu queira traçar um gráfico complexo, envolvendo **vinho tinto** e **vinho branco**, com **notas**, **teor de açúcar** e **teor alcoólico**. O que é mais fácil de se ler e comparar: uma nota **7.3** para o Cabernet Sauvignon de Tarapacá - Chile, ou a classificação: **Bom**?

**bins** é o número de fatias

In [10]:
ages = np.array([10, 15, 13, 12, 23, 25, 28, 59, 60])
pd.cut(ages, bins=3)

[(9.95, 26.667], (9.95, 26.667], (9.95, 26.667], (9.95, 26.667], (9.95, 26.667], (9.95, 26.667], (26.667, 43.333], (43.333, 60.0], (43.333, 60.0]]
Categories (3, interval[float64]): [(9.95, 26.667] < (26.667, 43.333] < (43.333, 60.0]]

Aqui eu passei os **limites** das minhas fatias já definidas:

In [11]:
c = pd.cut(ages, bins=[0, 18, 35, 70])
c

[(0, 18], (0, 18], (0, 18], (0, 18], (18, 35], (18, 35], (18, 35], (35, 70], (35, 70]]
Categories (3, interval[int64]): [(0, 18] < (18, 35] < (35, 70]]

Se bins for um **IntervalIndex**, então elas serão usadas para fatiar os dados:

In [15]:
c.categories

IntervalIndex([(0, 18], (18, 35], (35, 70]]
              closed='right',
              dtype='interval[int64]')

In [12]:
pd.cut([25, 20, 50], bins=c.categories)

[(18, 35], (18, 35], (35, 70]]
Categories (3, interval[int64]): [(0, 18] < (18, 35] < (35, 70]]

### Indicador Computacional / Variáveis Dummy

---

Variável **Dummy** é uma variável de categoria que foi transformada em numérica. Ela passa a pegar valores 0 (ausência de) ou 1 (presença de)

In [46]:
df = pd.DataFrame({'key': list('bbacab'), 'data1': range(6)})
df

Unnamed: 0,key,data1
0,b,0
1,b,1
2,a,2
3,c,3
4,a,4
5,b,5


In [28]:
pd.get_dummies(df['key'])

Unnamed: 0,a,b,c
0,0,1,0
1,0,1,0
2,1,0,0
3,0,0,1
4,1,0,0
5,0,1,0


Passando um nome de **prefixo** para facilitar identificar:

In [29]:
dummies = pd.get_dummies(df['key'], prefix='key')
dummies

Unnamed: 0,key_a,key_b,key_c
0,0,1,0
1,0,1,0
2,1,0,0
3,0,0,1
4,1,0,0
5,0,1,0


In [30]:
df[['data1']].join(dummies)

Unnamed: 0,data1,key_a,key_b,key_c
0,0,0,1,0
1,1,0,1,0
2,2,1,0,0
3,3,0,0,1
4,4,1,0,0
5,5,0,1,0


---

Uso de **Dummies** para transformar valores flutuantes em categorias binárias, com **fatiamento**:

In [31]:
values = np.random.randn(10)
values

array([-0.21481769, -1.85545031, -0.26206971,  0.77753025,  1.28482469,
       -1.15334782, -0.76410304,  1.10719509, -0.68436061,  0.50548142])

In [32]:
bins = [0, 0.2, 0.4, 0.6, 0.8, 1]
pd.get_dummies(pd.cut(values, bins))

Unnamed: 0,"(0.0, 0.2]","(0.2, 0.4]","(0.4, 0.6]","(0.6, 0.8]","(0.8, 1.0]"
0,0,0,0,0,0
1,0,0,0,0,0
2,0,0,0,0,0
3,0,0,0,1,0
4,0,0,0,0,0
5,0,0,0,0,0
6,0,0,0,0,0
7,0,0,0,0,0
8,0,0,0,0,0
9,0,0,1,0,0


---

Como **Dummies** pegam todo um dataframe, qualquer variável **categórica** pode ser transformada em uma matriz **Dummie**

In [47]:
df = pd.DataFrame({'A': ['a', 'b', 'a'], 'B': ['c', 'c', 'b'],
                    'C': [1, 2, 3]})
df

Unnamed: 0,A,B,C
0,a,c,1
1,b,c,2
2,a,b,3


In [48]:
pd.get_dummies(df)

Unnamed: 0,C,A_a,A_b,B_b,B_c
0,1,1,0,0,1
1,2,0,1,0,1
2,3,1,0,1,0


Aqui eu transformo **apenas** a coluna A em **Dummie**

O método **Drop** também pode ser usado para não incluir por exemplo a coluna B

In [34]:
pd.get_dummies(df, columns=['A'])

Unnamed: 0,B,C,A_a,A_b
0,c,1,1,0
1,c,2,0,1
2,b,3,1,0


---
Como nas **Series** eu posso passar valores para **prefix** e **prefix_sep**:

- caso **string**, o mesmo valor para **prefix** e **prefix_sep** para cada coluna codificada

- **lista**, mesmo comprimento, pois o número de colunas será codificado

- **dict**, mapeia o **nome da coluna** ao prefixo

In [35]:
simple = pd.get_dummies(df, prefix='new_prefix')
simple

Unnamed: 0,C,new_prefix_a,new_prefix_b,new_prefix_b.1,new_prefix_c
0,1,1,0,0,1
1,2,0,1,0,1
2,3,1,0,1,0


In [37]:
from_list = pd.get_dummies(df, prefix=['from_A', 'from_B'])
from_list

Unnamed: 0,C,from_A_a,from_A_b,from_B_b,from_B_c
0,1,1,0,0,1
1,2,0,1,0,1
2,3,1,0,1,0


In [38]:
from_dict = pd.get_dummies(df, prefix={'B': 'from_B', 'A': 'from_A'})
from_dict

Unnamed: 0,C,from_A_a,from_A_b,from_B_b,from_B_c
0,1,1,0,0,1
1,2,0,1,0,1
2,3,1,0,1,0


---

Às vezes você precisa evitar **colinearidade** quando for alimentar modelos estatísticos

Então você quer manter níveis de uma variável categórica em **k-1**

In [39]:
s = pd.Series(list('abcaa'))
pd.get_dummies(s)

Unnamed: 0,a,b,c
0,1,0,0
1,0,1,0
2,0,0,1
3,1,0,0
4,1,0,0


In [40]:
pd.get_dummies(s, drop_first=True)

Unnamed: 0,b,c
0,0,0
1,1,0
2,0,1
3,0,0
4,0,0


E ainda, uma coluna que contiver apenas **um nível** será omitida do resultado

In [41]:
df = pd.DataFrame({'A':list('aaaaa'),'B':list('ababc')})
pd.get_dummies(df)

Unnamed: 0,A_a,B_a,B_b,B_c
0,1,1,0,0
1,1,0,1,0
2,1,1,0,0
3,1,0,1,0
4,1,0,0,1


In [42]:
pd.get_dummies(df, drop_first=True)

Unnamed: 0,B_b,B_c
0,0,0
1,1,0
2,0,0
3,1,0
4,0,1


---

O padrão de saída é **np.uint8**, mas isso pode ser mudado com o argumento **dtype**

In [43]:
df = pd.DataFrame({'A': list('abc'), 'B': [1.1, 2.2, 3.3]})
pd.get_dummies(df, dtype=bool).dtypes

B      float64
A_a       bool
A_b       bool
A_c       bool
dtype: object

### Fatorando Valores

---

Isso codifica o objeto como um **tipo enumerado**, ou uma **variável de categoria**

Se eu quero identificar valores **distintos**, ele me dá uma representação numérica deles

Note que o método **.factorize()** é similar ao **numpy.unique**, mas ele lida de modo diferente com valores **nulos**:

- o valor nulo sempre será representado por **-1**

- quando eu peço os valores **únicos**, o **NaN** não virá na lista

In [23]:
x = pd.Series(['A', 'A', np.nan, 'B', 3.14, np.inf])
x

0       A
1       A
2     NaN
3       B
4    3.14
5     inf
dtype: object

In [24]:
labels, uniques = pd.factorize(x)
labels

array([ 0,  0, -1,  1,  2,  3], dtype=int64)

In [25]:
uniques

Index(['A', 'B', 3.14, inf], dtype='object')

## Tentativas de geração de dataframes com subníveis

---

![Figura: visão geral de um dataframe](base_01_pandas_5_0.png)

*Subníveis são chamados de multiindex!*

Quando eu faço como abaixo, eu não obtenho, a partir de um dicionário **aninhado** (nested), um dataframe **multiindex**:

In [64]:
import pandas as pd
# Take a dictionary as input to your DataFrame
my_dict = {'A': [['1','1b'], ['2','2b'], ['3','3b']],
           'B': [['4', '4b'], ['5','5b'], ['6','6b']], 
           'C': [['7','7b'], ['8','8b'], ['9','9b']]}
print(my_dict)

pd.DataFrame(my_dict)

{'A': [['1', '1b'], ['2', '2b'], ['3', '3b']], 'B': [['4', '4b'], ['5', '5b'], ['6', '6b']], 'C': [['7', '7b'], ['8', '8b'], ['9', '9b']]}


Unnamed: 0,A,B,C
0,"[1, 1b]","[4, 4b]","[7, 7b]"
1,"[2, 2b]","[5, 5b]","[8, 8b]"
2,"[3, 3b]","[6, 6b]","[9, 9b]"


Outra tentativa, sem sucesso:

In [80]:
dict = {'A' : {'a': [1,2,3,4,5],
                     'b': [6,7,8,9,1]},
              'B' : {'a': [2,3,4,5,6],
                     'b': [7,8,9,1,2]}}
print(dict)

pd.DataFrame(dict)

{'A': {'a': [1, 2, 3, 4, 5], 'b': [6, 7, 8, 9, 1]}, 'B': {'a': [2, 3, 4, 5, 6], 'b': [7, 8, 9, 1, 2]}}


Unnamed: 0,A,B
a,"[1, 2, 3, 4, 5]","[2, 3, 4, 5, 6]"
b,"[6, 7, 8, 9, 1]","[7, 8, 9, 1, 2]"


O problema é que o Pandas trabalha forma de **tuplas**

         {('A', 'a'): [1, 2, 3, 4, 5],
          ('A', 'b'): [6, 7, 8, 9, 1],
          ('B', 'a'): [2, 3, 4, 5, 6],
          ('B', 'b'): [7, 8, 9, 1, 2]}

Ele não aceita valores para multiindexação como **dicionários aninhados**

A maneira mais fácil é converter seu dicionário para o formato correto:

In [93]:
reforma = {(chaveExterna, chaveInterna): valores 
          for chaveExterna, dictInterno in dict.items() 
          for chaveInterna, valores in dictInterno.items()}
print(reforma)
pd.DataFrame(reforma)

{('A', 'a'): [1, 2, 3, 4, 5], ('A', 'b'): [6, 7, 8, 9, 1], ('B', 'a'): [2, 3, 4, 5, 6], ('B', 'b'): [7, 8, 9, 1, 2]}


Unnamed: 0_level_0,A,A,B,B
Unnamed: 0_level_1,a,b,a,b
0,1,6,2,7
1,2,7,3,8
2,3,8,4,9
3,4,9,5,1
4,5,1,6,2


---

### Passo a passo

O loop parece complicado, pois é **duplo**

A primeira parte o que faz é recuperar a chave **externa**

É claro que isso não fará nada, pois a chave **externa** já está explícita

**Primeiro Loop** (mais externo):


In [95]:
print(dict)
reforma = {(chaveExterna): valores 
          for chaveExterna, valores in dict.items() 
          }
print(reforma)
pd.DataFrame(reforma)

{'A': {'a': [1, 2, 3, 4, 5], 'b': [6, 7, 8, 9, 1]}, 'B': {'a': [2, 3, 4, 5, 6], 'b': [7, 8, 9, 1, 2]}}
{'A': {'a': [1, 2, 3, 4, 5], 'b': [6, 7, 8, 9, 1]}, 'B': {'a': [2, 3, 4, 5, 6], 'b': [7, 8, 9, 1, 2]}}


Unnamed: 0,A,B
a,"[1, 2, 3, 4, 5]","[2, 3, 4, 5, 6]"
b,"[6, 7, 8, 9, 1]","[7, 8, 9, 1, 2]"


O método **.items()** do Python quebra o dicionário

Ele retorna tuplas de dois elementos:

- o primeiro é a **chave**

- o segundo é o **conteúdo**, que pode ser um elemento, uma lista ou até um outro dicionário aninhado 

O exemplo ilustra isso:

In [100]:
dic = {'a': [1,2,3,4,5], 'b': [6,7,8,9,1], 'c': [6,5,4,2,1]}
dic.items()

dict_items([('a', [1, 2, 3, 4, 5]), ('b', [6, 7, 8, 9, 1]), ('c', [6, 5, 4, 2, 1])])

Então, o Loop de extração da chave **externa** e do seu **conteúdo**:

In [98]:
for chaveExterna, valores in dict.items():
    print ('Chave Externa :{}, valores :{}'.format(chaveExterna, valores))

Chave Externa :A, valores :{'a': [1, 2, 3, 4, 5], 'b': [6, 7, 8, 9, 1]}
Chave Externa :B, valores :{'a': [2, 3, 4, 5, 6], 'b': [7, 8, 9, 1, 2]}


Aprimorando, o Loop de extração da chave **externa** e depois o Loop da chave **interna** e seu **conteúdo**:
    

In [139]:
for chaveExterna, valores in dict.items():
    print ('Chave Externa :{}, valores :{}'.format(chaveExterna, valores))
    dictInterno = valores
    for chaveInterna, valores in dictInterno.items():
        print('    Chave Interna :{}, valores :{}'.format(chaveInterna, valores))

Chave Externa :A, valores :{'a': [1, 2, 3, 4, 5], 'b': [6, 7, 8, 9, 1]}
    Chave Interna :a, valores :[1, 2, 3, 4, 5]
1
    Chave Interna :b, valores :[6, 7, 8, 9, 1]
6
Chave Externa :B, valores :{'a': [2, 3, 4, 5, 6], 'b': [7, 8, 9, 1, 2]}
    Chave Interna :a, valores :[2, 3, 4, 5, 6]
2
    Chave Interna :b, valores :[7, 8, 9, 1, 2]
7


Sintaxe **básica** do dicionário:

In [3]:
reforma = {}
reforma ["a"] = "teste"
print(reforma)
reforma["a"]

{'a': 'teste'}


'teste'

A sintaxe como a desejamos (chave **dupla**)

Note que para chamar uma entrada no meu dicionário, eu preciso passar a chave dupla!

In [7]:
reforma = {}
# [(chaveExterna, chaveInterna)] = valores
reforma [('A', 'a')] = [1, 2, 3, 4, 5]
print(reforma)
reforma['A','a']

{('A', 'a'): [1, 2, 3, 4, 5]}


[1, 2, 3, 4, 5]

Nosso loop da forma **aberta**

In [134]:
reforma = {}

for chaveExterna, valores in dict.items():
    dictInterno = valores
    for chaveInterna, valores in dictInterno.items():
        reforma [(chaveExterna, chaveInterna)] = valores
reforma

{('A', 'a'): [1, 2, 3, 4, 5],
 ('A', 'b'): [6, 7, 8, 9, 1],
 ('B', 'a'): [2, 3, 4, 5, 6],
 ('B', 'b'): [7, 8, 9, 1, 2]}

Agora na forma **pythonizada**

O que muda é que **primeiro** vem o resultado da função, **depois** os dois loops aninhados

As duas maneiras de programar são adequadas. O importante é **endender** o que cada função faz!

Se eu tiver que acrescentar muitos e muitos laços, basta uma alteração no algoritmo e *voilà*!

In [105]:
reforma = {(chaveExterna, chaveInterna): valores 
          for chaveExterna, dictInterno in dict.items() 
          for chaveInterna, valores in dictInterno.items()}
reforma

{('A', 'a'): [1, 2, 3, 4, 5],
 ('A', 'b'): [6, 7, 8, 9, 1],
 ('B', 'a'): [2, 3, 4, 5, 6],
 ('B', 'b'): [7, 8, 9, 1, 2]}

### Testes mais difíceis envolvendo dataframe multinível

---

Este aqui é um dicionário **monstrossauro**

Por que treinar com **dicionários**?

Porque para dados científicos, existem diversas maneiras de armazenar dados... a tradicional, que vem lá do **FORTRAN** são **Tuplas**, **Pilhas** e **Listas**

Depois vieram **Matrizes** e algumas Listas passaram a ser **Indexadas**

Mas nada supera, para uma boa cata de dados, um **Dicionário**

Em cálculos matemáticos, é comum criar um **Cache** na forma de **Dicionário**. Funciona assim, antes de se tentar resolver uma função, procura-se no dicionário se aquela função para aqueles parâmetros já foi resolvida. Se já foi resolvida, simplesmente se pega o resultado já calculado. Se ainda não foi resolvida, se calcula e se grava no dicionário. Em alguns casos, isso pode diminuir tremendamente o esforço computacional

In [117]:
Monstrossauro1 = {
    'A1':{
        'B1':{'C1':['1'],'C2':['2'],'C3':['3']},
        'B2':{'C1':['4'],'C2':['5'],'C3':['6']},
        'B3':{'C1':['7'],'C2':['8'],'C3':['9'] }
         },
    'A2':{
        'B1':{'C1':['10'],'C2':['11'],'C3':['12']},
        'B2':{'C1':['13'],'C2':['14'],'C3':['15']},
        'B3':{'C1':['16'],'C2':['17'],'C3':['18']}
         }
    }
H

{'A1': {'B1': {'C1': ['1'], 'C2': ['2'], 'C3': ['3']},
  'B2': {'C1': ['4'], 'C2': ['5'], 'C3': ['6']},
  'B3': {'C1': ['7'], 'C2': ['8'], 'C3': ['9']}},
 'A2': {'B1': {'C1': ['10'], 'C2': ['11'], 'C3': ['12']},
  'B2': {'C1': ['13'], 'C2': ['14'], 'C3': ['15']},
  'B3': {'C1': ['16'], 'C2': ['17'], 'C3': ['18']}}}

In [133]:
reforma = {(chaveExterna, chaveInterna): valores
          for chaveExterna, dictInterno in Monstrossauro1.items() 
          for chaveInterna, valores in dictInterno.items()}
print(reforma)
pd.DataFrame(reforma)

{('A1', 'B1'): {'C1': ['1'], 'C2': ['2'], 'C3': ['3']}, ('A1', 'B2'): {'C1': ['4'], 'C2': ['5'], 'C3': ['6']}, ('A1', 'B3'): {'C1': ['7'], 'C2': ['8'], 'C3': ['9']}, ('A2', 'B1'): {'C1': ['10'], 'C2': ['11'], 'C3': ['12']}, ('A2', 'B2'): {'C1': ['13'], 'C2': ['14'], 'C3': ['15']}, ('A2', 'B3'): {'C1': ['16'], 'C2': ['17'], 'C3': ['18']}}


Unnamed: 0_level_0,A1,A1,A1,A2,A2,A2
Unnamed: 0_level_1,B1,B2,B3,B1,B2,B3
C1,[1],[4],[7],[10],[13],[16]
C2,[2],[5],[8],[11],[14],[17]
C3,[3],[6],[9],[12],[15],[18]


O Loop **não está** completo!

Como eu só tenho um valor na série, OK, eu até poderia ficar por aqui...

Qual o **problema**? É que se eu for usar bibliotecas de desenhar **gráficos**, como Matplotlib ou Seaborn, ele se depara com uma série e encrencará

Observe aqui que na minha série, o **valor** ainda é um **dicionário**:

In [165]:
reforma = {}

for chaveExterna, valores in Monstrossauro1.items():
    dictInterno = valores
    for chaveInterna, valores in dictInterno.items():
        print ('Chave Interna :{} Valores : {}'.format(chaveInterna,valores))
        reforma [(chaveExterna, chaveInterna)] = valores
reforma
pd.DataFrame(reforma)

Chave Interna :B1 Valores : {'C1': ['1'], 'C2': ['2'], 'C3': ['3']}
Chave Interna :B2 Valores : {'C1': ['4'], 'C2': ['5'], 'C3': ['6']}
Chave Interna :B3 Valores : {'C1': ['7'], 'C2': ['8'], 'C3': ['9']}
Chave Interna :B1 Valores : {'C1': ['10'], 'C2': ['11'], 'C3': ['12']}
Chave Interna :B2 Valores : {'C1': ['13'], 'C2': ['14'], 'C3': ['15']}
Chave Interna :B3 Valores : {'C1': ['16'], 'C2': ['17'], 'C3': ['18']}


Unnamed: 0_level_0,A1,A1,A1,A2,A2,A2
Unnamed: 0_level_1,B1,B2,B3,B1,B2,B3
C1,[1],[4],[7],[10],[13],[16]
C2,[2],[5],[8],[11],[14],[17]
C3,[3],[6],[9],[12],[15],[18]


Agora sim, tecnicamente o dataframe está **correto**!

In [167]:
reforma = {(chaveExterna, chaveInterna1, chaveInterna2): valores 
          for chaveExterna, dictInterno1 in Monstrossauro1.items() 
          for chaveInterna1, dictInterno2 in dictInterno1.items() 
          for chaveInterna2, valores in dictInterno2.items()}
print(reforma)
a = pd.DataFrame(reforma)
a

{('A1', 'B1', 'C1'): ['1'], ('A1', 'B1', 'C2'): ['2'], ('A1', 'B1', 'C3'): ['3'], ('A1', 'B2', 'C1'): ['4'], ('A1', 'B2', 'C2'): ['5'], ('A1', 'B2', 'C3'): ['6'], ('A1', 'B3', 'C1'): ['7'], ('A1', 'B3', 'C2'): ['8'], ('A1', 'B3', 'C3'): ['9'], ('A2', 'B1', 'C1'): ['10'], ('A2', 'B1', 'C2'): ['11'], ('A2', 'B1', 'C3'): ['12'], ('A2', 'B2', 'C1'): ['13'], ('A2', 'B2', 'C2'): ['14'], ('A2', 'B2', 'C3'): ['15'], ('A2', 'B3', 'C1'): ['16'], ('A2', 'B3', 'C2'): ['17'], ('A2', 'B3', 'C3'): ['18']}


Unnamed: 0_level_0,A1,A1,A1,A1,A1,A1,A1,A1,A1,A2,A2,A2,A2,A2,A2,A2,A2,A2
Unnamed: 0_level_1,B1,B1,B1,B2,B2,B2,B3,B3,B3,B1,B1,B1,B2,B2,B2,B3,B3,B3
Unnamed: 0_level_2,C1,C2,C3,C1,C2,C3,C1,C2,C3,C1,C2,C3,C1,C2,C3,C1,C2,C3
0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18


Ah, espere! Não gostei deste **formato** do dataframe, o que eu faço?

Bom, você usa os métodos Pandas **.stack()** ou **.unstack()** conforme o caso e coloca isso no seu jeito!

In [171]:
b = a.stack()
b

Unnamed: 0_level_0,Unnamed: 1_level_0,A1,A1,A1,A2,A2,A2
Unnamed: 0_level_1,Unnamed: 1_level_1,B1,B2,B3,B1,B2,B3
0,C1,1,4,7,10,13,16
0,C2,2,5,8,11,14,17
0,C3,3,6,9,12,15,18


In [173]:
b.stack()

Unnamed: 0,Unnamed: 1,Unnamed: 2,A1,A2
0,C1,B1,1,10
0,C1,B2,4,13
0,C1,B3,7,16
0,C2,B1,2,11
0,C2,B2,5,14
0,C2,B3,8,17
0,C3,B1,3,12
0,C3,B2,6,15
0,C3,B3,9,18


---

Novo teste, agora com **Monstrossauro2**:

In [120]:
Monstrossauro2 = {
    'A1':{
        'B1':{'C1':['1','2'],'C2':['3','4'],'C3':['5','6']},
        'B2':{'C1':['7','8'],'C2':['9','10'],'C3':['11','12']},
        'B3':{'C1':['13','14'],'C2':['15','16'],'C3':['17','18'] }
         },
    'A2':{
        'B1':{'C1':['19','20'],'C2':['21','22'],'C3':['23','24']},
        'B2':{'C1':['25','26'],'C2':['27','28'],'C3':['29','30']},
        'B3':{'C1':['31','32'],'C2':['33','34'],'C3':['35','36']}
         }
    }
H

{'A1': {'B1': {'C1': ['1'], 'C2': ['2'], 'C3': ['3']},
  'B2': {'C1': ['4'], 'C2': ['5'], 'C3': ['6']},
  'B3': {'C1': ['7'], 'C2': ['8'], 'C3': ['9']}},
 'A2': {'B1': {'C1': ['10'], 'C2': ['11'], 'C3': ['12']},
  'B2': {'C1': ['13'], 'C2': ['14'], 'C3': ['15']},
  'B3': {'C1': ['16'], 'C2': ['17'], 'C3': ['18']}}}

Ainda não está bom, eu preciso adicionar **um nível** de compreensão à minha estrutura!

In [121]:
reforma = {(chaveExterna, chaveInterna): valores 
          for chaveExterna, dictInterno in Monstrossauro2.items() 
          for chaveInterna, valores in dictInterno.items()}
print(reforma)
pd.DataFrame(reforma)

{('A1', 'B1'): {'C1': ['1', '2'], 'C2': ['3', '4'], 'C3': ['5', '6']}, ('A1', 'B2'): {'C1': ['7', '8'], 'C2': ['9', '10'], 'C3': ['11', '12']}, ('A1', 'B3'): {'C1': ['13', '14'], 'C2': ['15', '16'], 'C3': ['17', '18']}, ('A2', 'B1'): {'C1': ['19', '20'], 'C2': ['21', '22'], 'C3': ['23', '24']}, ('A2', 'B2'): {'C1': ['25', '26'], 'C2': ['27', '28'], 'C3': ['29', '30']}, ('A2', 'B3'): {'C1': ['31', '32'], 'C2': ['33', '34'], 'C3': ['35', '36']}}


Unnamed: 0_level_0,A1,A1,A1,A2,A2,A2
Unnamed: 0_level_1,B1,B2,B3,B1,B2,B3
C1,"[1, 2]","[7, 8]","[13, 14]","[19, 20]","[25, 26]","[31, 32]"
C2,"[3, 4]","[9, 10]","[15, 16]","[21, 22]","[27, 28]","[33, 34]"
C3,"[5, 6]","[11, 12]","[17, 18]","[23, 24]","[29, 30]","[35, 36]"


Reparou o **zero** e o **1** nas linhas? Sabe de onde eles surgiram?

Sim, isso mesmo, do **fatiamento** do nosso último nível de dicionários **aninhados**, transformado em **linhas** do meu dataframe!

In [176]:
reforma = {(chaveExterna, chaveInterna1, chaveInterna2): valores 
          for chaveExterna, dictInterno1 in Monstrossauro2.items() 
          for chaveInterna1, dictInterno2 in dictInterno1.items() 
          for chaveInterna2, valores in dictInterno2.items()}
print(reforma)
x1 = pd.DataFrame(reforma)
x1

{('A1', 'B1', 'C1'): ['1', '2'], ('A1', 'B1', 'C2'): ['3', '4'], ('A1', 'B1', 'C3'): ['5', '6'], ('A1', 'B2', 'C1'): ['7', '8'], ('A1', 'B2', 'C2'): ['9', '10'], ('A1', 'B2', 'C3'): ['11', '12'], ('A1', 'B3', 'C1'): ['13', '14'], ('A1', 'B3', 'C2'): ['15', '16'], ('A1', 'B3', 'C3'): ['17', '18'], ('A2', 'B1', 'C1'): ['19', '20'], ('A2', 'B1', 'C2'): ['21', '22'], ('A2', 'B1', 'C3'): ['23', '24'], ('A2', 'B2', 'C1'): ['25', '26'], ('A2', 'B2', 'C2'): ['27', '28'], ('A2', 'B2', 'C3'): ['29', '30'], ('A2', 'B3', 'C1'): ['31', '32'], ('A2', 'B3', 'C2'): ['33', '34'], ('A2', 'B3', 'C3'): ['35', '36']}


Unnamed: 0_level_0,A1,A1,A1,A1,A1,A1,A1,A1,A1,A2,A2,A2,A2,A2,A2,A2,A2,A2
Unnamed: 0_level_1,B1,B1,B1,B2,B2,B2,B3,B3,B3,B1,B1,B1,B2,B2,B2,B3,B3,B3
Unnamed: 0_level_2,C1,C2,C3,C1,C2,C3,C1,C2,C3,C1,C2,C3,C1,C2,C3,C1,C2,C3
0,1,3,5,7,9,11,13,15,17,19,21,23,25,27,29,31,33,35
1,2,4,6,8,10,12,14,16,18,20,22,24,26,28,30,32,34,36


In [178]:
x1.stack().stack()

Unnamed: 0,Unnamed: 1,Unnamed: 2,A1,A2
0,C1,B1,1,19
0,C1,B2,7,25
0,C1,B3,13,31
0,C2,B1,3,21
0,C2,B2,9,27
0,C2,B3,15,33
0,C3,B1,5,23
0,C3,B2,11,29
0,C3,B3,17,35
1,C1,B1,2,20


---

Uma maneira bem **elegante** de criar um dataframe com múltiplos níveis no Pandas:

In [40]:
import pandas as pd
import numpy as np

H = pd.DataFrame(np.random.randn(10, 5), columns=('0_n', '1_n', '0_p', '1_p', 'x'))
print(H)

H.columns = H.columns.str.split('_', expand=True)
H.columns = H.columns.swaplevel(1,0)
H

        0_n       1_n       0_p       1_p         x
0 -1.893374  0.784087 -1.069758 -1.206069 -0.328646
1  0.494655  0.937990  0.368235  1.636666  1.363144
2 -0.228642  0.495364 -0.610093  2.481030  1.458161
3 -1.111355  0.815561  1.079841  1.270487  0.000218
4 -0.659275 -0.240184 -0.737870 -1.149624  0.039710
5 -0.052706 -1.444082  0.500829  2.792043 -1.917434
6  1.943367 -0.381340  0.171346  1.216241  2.505286
7 -0.547478  1.836949  2.010731 -0.337613  0.461066
8  0.098479  1.808016  1.767726  0.170918 -0.475948
9  0.807474  0.097755 -0.234575 -0.194491  1.538407


Unnamed: 0_level_0,n,n,p,p,NaN
Unnamed: 0_level_1,0,1,0,1,x
0,-1.893374,0.784087,-1.069758,-1.206069,-0.328646
1,0.494655,0.93799,0.368235,1.636666,1.363144
2,-0.228642,0.495364,-0.610093,2.48103,1.458161
3,-1.111355,0.815561,1.079841,1.270487,0.000218
4,-0.659275,-0.240184,-0.73787,-1.149624,0.03971
5,-0.052706,-1.444082,0.500829,2.792043,-1.917434
6,1.943367,-0.38134,0.171346,1.216241,2.505286
7,-0.547478,1.836949,2.010731,-0.337613,0.461066
8,0.098479,1.808016,1.767726,0.170918,-0.475948
9,0.807474,0.097755,-0.234575,-0.194491,1.538407


Uma aplicação disso com um dataframe simples, de **bilhetes de arquibancada** para uma competição esportiva:

In [271]:
import pandas as pd
df = pd.DataFrame(data=[[34, 1, 2], 
                        [22, 3, 3], 
                        [19, 2, 4]],
                  index= ['Homero', 'Ana', 'Ifigênia'], 
                  columns=['Idade_Tipo A', 'Poltronas_Tipo B', 'Bilhetes_Tipo A'])
print(df)

df.columns = df.columns.str.split('_', expand=True)
df.columns = df.columns.swaplevel(1,0)
print(df.dtypes)

df

          Idade_Tipo A  Poltronas_Tipo B  Bilhetes_Tipo A
Homero              34                 1                2
Ana                 22                 3                3
Ifigênia            19                 2                4
Tipo A  Idade        int64
Tipo B  Poltronas    int64
Tipo A  Bilhetes     int64
dtype: object


Unnamed: 0_level_0,Tipo A,Tipo B,Tipo A
Unnamed: 0_level_1,Idade,Poltronas,Bilhetes
Homero,34,1,2
Ana,22,3,3
Ifigênia,19,2,4


Isso é consistente, mas a visualização não ficou legal! Eu tenho dois tipos de bilhetes, os do tipo **A** e os de tipo **B**

Primeiro vamos **empilhar** isso

*Observe que há mais código aqui! A razão é que quando fazemos alguma operação em dataframe que produza valores **NaN** (células vazias), estas não são suportadas por determinados formatos. Como células **int64** (números inteiros de 64 Bits) não suportam **NaN**, o dataframe teve que ter as células vazias preenchidas por zero e depois reconvertido ao formato original!*

In [272]:
import numpy as np

a = df.stack().fillna(0).astype(np.int64)
a

Unnamed: 0,Unnamed: 1,Tipo A,Tipo B
Homero,Bilhetes,2,0
Homero,Idade,34,0
Homero,Poltronas,0,1
Ana,Bilhetes,3,0
Ana,Idade,22,0
Ana,Poltronas,0,3
Ifigênia,Bilhetes,4,0
Ifigênia,Idade,19,0
Ifigênia,Poltronas,0,2


E agora **desempilhar**

*Observe que a informação ficou meio **desconexa**. Por quê Homero, que comprou 2 bilhetes do **Tipo A** teria duas poltronas, do **Tipo B** ?*

*Bom, isso é apenas um exemplo ilustrativo! Se fosse um dataframe real, teríamos que averiguar todas essas coisas com muito **critério**!*

In [273]:
a.unstack().fillna(0).astype(np.int64)

Unnamed: 0_level_0,Tipo A,Tipo A,Tipo A,Tipo B,Tipo B,Tipo B
Unnamed: 0_level_1,Bilhetes,Idade,Poltronas,Bilhetes,Idade,Poltronas
Homero,2,34,0,0,0,1
Ana,3,22,0,0,0,3
Ifigênia,4,19,0,0,0,2


## Multiindexação

---

*Obsevação: alguns desses métodos retornam uma **Cópia** do dataframe, outros retornam uma **View**. Cópias ocupam um novo **espaço na memória**, enquanto Views são como se fossem apontadores com novos filtros (uma nova **visão** daquele dataframe!). Material encontrado [aqui](http://pandas.pydata.org/pandas-docs/stable/advanced.html)*

*Técnicas mais avançadas no [cookbook](http://pandas.pydata.org/pandas-docs/stable/cookbook.html#cookbook-multi-index)

### Construção de Multi Índices - Parte 1

---

Um **MultiIndex** é uma matriz de tuplas, na qual cada tupla é única

    [ [ ('bar','foo'), (1,2),         ('A','B')          ],
      [ ('a','b'),     ('one','two'), ('Alpha', 'Omega') ] ]

Ele pode ser criado a partir de:

- uma lista de **matrizes** com **MultiIndex.from_arrays()**

- uma matriz de **tuplas** com **MultiIndex.from_tuples()**

- um conjunto cruzado de **iteráveis** com **MultiIndex.from_product()** (Produto Cartesiano) 
    
Então o **construtor de índice** irá retornar um **MultiIndex** a partir da entrada fornecida

Aqui o método foi construir **tuplas** com o uso do método **.zip()**:

In [9]:
import pandas as pd
import numpy as np

#Essa parte pega duas séries e a transforma em tuplas
arrays = [['bar', 'bar', 'baz', 'baz', 'foo', 'foo', 'qux', 'qux'],
         ['one', 'two', 'one', 'two', 'one', 'two', 'one', 'two']]
tuples = list(zip(*arrays))
print("tuplas :", tuples)

#Aqui eu crio o meu objeto MultiIndex
index = pd.MultiIndex.from_tuples(tuples, names=['first', 'second'])
print(index)

#Isso aqui é só para ilustrar e eu crio uma série aleatório, indexada pelo meu MultiIndex
s = pd.Series(np.random.randn(8), index=index)
s

tuplas : [('bar', 'one'), ('bar', 'two'), ('baz', 'one'), ('baz', 'two'), ('foo', 'one'), ('foo', 'two'), ('qux', 'one'), ('qux', 'two')]
MultiIndex(levels=[['bar', 'baz', 'foo', 'qux'], ['one', 'two']],
           labels=[[0, 0, 1, 1, 2, 2, 3, 3], [0, 1, 0, 1, 0, 1, 0, 1]],
           names=['first', 'second'])


first  second
bar    one      -0.415328
       two      -1.821592
baz    one       0.417119
       two       1.393763
foo    one       2.986441
       two       1.114001
qux    one       1.148784
       two       2.411758
dtype: float64

Usando o **Produto Cartesiano**:

*Observe que o objeto produzido, MultiIndex é idêntico!*

In [10]:
iterables = [['bar', 'baz', 'foo', 'qux'], ['one', 'two']]

pd.MultiIndex.from_product(iterables, names=['first', 'second'])

MultiIndex(levels=[['bar', 'baz', 'foo', 'qux'], ['one', 'two']],
           labels=[[0, 0, 1, 1, 2, 2, 3, 3], [0, 1, 0, 1, 0, 1, 0, 1]],
           names=['first', 'second'])

Aqui a **Matriz** foi passada diretamente:

In [23]:
import numpy as np
import pandas as pd

arrays = [np.array(['bar', 'bar', 'baz', 'baz', 'foo', 'foo', 'qux', 'qux']),
          np.array(['one', 'two', 'one', 'two', 'one', 'two', 'one', 'two'])] 

s = pd.Series(np.random.randn(8), index=arrays)
print(s)

df = pd.DataFrame(np.random.randn(8, 4), index=arrays)
df

bar  one   -0.795296
     two   -0.792742
baz  one    0.139205
     two    0.165114
foo  one    0.300704
     two    0.289664
qux  one    0.932942
     two    0.310368
dtype: float64


Unnamed: 0,Unnamed: 1,0,1,2,3
bar,one,-2.310297,-0.188318,-1.475343,0.383571
bar,two,-1.935992,1.17907,-0.53475,-0.278248
baz,one,0.026262,1.014572,-0.101596,-0.791485
baz,two,-0.255073,-0.399517,-0.261882,1.348614
foo,one,-0.201388,-0.691666,0.835763,1.016092
foo,two,-0.576034,1.127168,-0.56336,-0.695545
qux,one,0.959934,-0.774126,0.894986,-0.760023
qux,two,0.544336,-1.132537,-0.031095,-1.458948


O construtor **MultiIndice** pega um argumento **names**, uma String com os nomes dos próprios níveis

Se os nomes não forem fornecidos, o resultado: 

In [24]:
df.index.names

FrozenList([None, None])

O índice serve nos **dois eixos** e pode ter tantos **níveis** quantos você precisar:

In [25]:
with pd.option_context('display.multi_sparse', False):
    df

In [26]:
pd.Series(np.random.randn(8), index=tuples)

(bar, one)   -0.666806
(bar, two)   -0.484042
(baz, one)    1.700535
(baz, two)    0.795902
(foo, one)    1.375651
(foo, two)   -0.735380
(qux, one)    1.255736
(qux, two)    0.513604
dtype: float64

In [27]:
index.names = ['Animal','Ordem']

df = pd.DataFrame(np.random.randn(3, 8), index=['A', 'B', 'C'], columns=index)
print(df)

pd.DataFrame(np.random.randn(6, 6), index=index[:6], columns=index[:6])

Animal       bar                 baz                 foo                 qux  \
Ordem        one       two       one       two       one       two       one   
A       0.486469  0.856955 -3.141083  0.335996 -1.324319  0.644449  0.533992   
B      -0.670015 -0.453107 -1.497053 -0.864832  0.300417  1.892226 -0.401932   
C       0.864679 -0.134688  0.378430  0.256251 -0.458580 -0.402177 -0.274435   

Animal            
Ordem        two  
A      -0.364926  
B       1.083283  
C      -0.592052  


Unnamed: 0_level_0,Animal,bar,bar,baz,baz,foo,foo
Unnamed: 0_level_1,Ordem,one,two,one,two,one,two
Animal,Ordem,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2
bar,one,0.292904,-0.174137,1.004233,-0.482495,-0.842582,-1.489835
bar,two,-0.876983,0.857151,-0.974872,0.930391,1.087497,0.29829
baz,one,0.640238,-1.952362,0.550437,-0.055878,0.235115,1.568694
baz,two,0.059844,-0.06778,0.374379,-1.259136,1.287125,0.11113
foo,one,1.001695,-0.32425,0.111346,0.191908,-0.970032,0.747889
foo,two,-1.199552,0.548644,1.793226,-2.39018,0.459096,1.601819


#### Truques visuais

---

Existe um método Pandas chamado **.set_options()**

Ele serve para diversas funções, inclusive mudar a maneira de vizualizar seu dataframe

Estávamos na maneira **esparsa** que normalmente torna as coisas mais fáceis de ler, mas podemos mudar isso:

In [28]:
with pd.option_context('display.multi_sparse', False):
    df
df

Animal,bar,bar,baz,baz,foo,foo,qux,qux
Ordem,one,two,one,two,one,two,one,two
A,0.486469,0.856955,-3.141083,0.335996,-1.324319,0.644449,0.533992,-0.364926
B,-0.670015,-0.453107,-1.497053,-0.864832,0.300417,1.892226,-0.401932,1.083283
C,0.864679,-0.134688,0.37843,0.256251,-0.45858,-0.402177,-0.274435,-0.592052


A **Multiindexação** permite operações bastante úteis de:

- agrupar (grouping)

- selecionar (selection)

- redimensionar (reshaping)

Em alguns casos, eu nem chego a criar um **Multiindex**. Mesmo assim, sabendo o **ordenamento hierárquico** adequado, eu consigo trabalhar muito melhor com meus dados

Uma estratégia legal é, logo à **importação** dos dados, já criar seu **Muiltiindex**. Como o **Seaborn** trabalha com dataframes inteiros, isso ajuda todas as minhas operações de visualização dos dados

E eu sempre posso visualizar meus dados, indexados com as velhas e boas **tuplas**:

In [29]:
pd.Series(np.random.randn(8), index=tuples)

(bar, one)   -1.063637
(bar, two)    0.003435
(baz, one)    0.749566
(baz, two)   -0.387872
(foo, one)   -1.135378
(foo, two)    0.409375
(qux, one)   -0.649240
(qux, two)    0.047979
dtype: float64

### Construção de Multi Índices - Parte 2

---

#### Reconstruindo os rótulos de níveis

O método **.get_level_values()** irá retornar um vetor com os rótulos em cada nível específico

Do mesmo modo, eu posso **redefinir** rótulos para um nível específico. É uma ferramenta bastante útil para manutenção

In [30]:
index.get_level_values(0)

Index(['bar', 'bar', 'baz', 'baz', 'foo', 'foo', 'qux', 'qux'], dtype='object', name='Animal')

In [32]:
index.get_level_values('Ordem')

Index(['one', 'two', 'one', 'two', 'one', 'two', 'one', 'two'], dtype='object', name='Ordem')

#### Indexação básica em um eixo com Multiíndice

---

Um rótulo **parcial** identifica um **subgrupo** de dados no seu dataframe!

Assim, da mesa maneira como selecionávamos **colunas** em um dataframe básico, agora podemos selecionar níveis hierárquicos de dados. Isso pode ser **extremamente útil** se bem usado, especialmente combinado com **Seaborn**

In [37]:
df

Animal,bar,bar,baz,baz,foo,foo,qux,qux
Ordem,one,two,one,two,one,two,one,two
A,0.486469,0.856955,-3.141083,0.335996,-1.324319,0.644449,0.533992,-0.364926
B,-0.670015,-0.453107,-1.497053,-0.864832,0.300417,1.892226,-0.401932,1.083283
C,0.864679,-0.134688,0.37843,0.256251,-0.45858,-0.402177,-0.274435,-0.592052


In [36]:
df['bar']

Ordem,one,two
A,0.486469,0.856955
B,-0.670015,-0.453107
C,0.864679,-0.134688


In [38]:
df['bar', 'one']

A    0.486469
B   -0.670015
C    0.864679
Name: (bar, one), dtype: float64

In [39]:
df['bar']['one']

A    0.486469
B   -0.670015
C    0.864679
Name: one, dtype: float64

In [41]:
s

bar  one   -0.795296
     two   -0.792742
baz  one    0.139205
     two    0.165114
foo  one    0.300704
     two    0.289664
qux  one    0.932942
     two    0.310368
dtype: float64

In [40]:
s['qux']

one    0.932942
two    0.310368
dtype: float64

#### Níveis definidos

---

A representação de um **Multiíndice** irá mostrar todos os níveis definidos para aquele índice. Em alguns casos isso fica um pouco confuso: 

In [42]:
df.columns  # original MultiIndex

MultiIndex(levels=[['bar', 'baz', 'foo', 'qux'], ['one', 'two']],
           labels=[[0, 0, 1, 1, 2, 2, 3, 3], [0, 1, 0, 1, 0, 1, 0, 1]],
           names=['Animal', 'Ordem'])

Agora eu estou trabalhando apenas com **dois** animais, usando uma operação de  **fatiamento**:

In [45]:
df[['foo','qux']].columns  # sliced

MultiIndex(levels=[['bar', 'baz', 'foo', 'qux'], ['one', 'two']],
           labels=[[2, 2, 3, 3], [0, 1, 0, 1]],
           names=['Animal', 'Ordem'])

Isso é usado normalmente para acelerar a performance de operações de **fatiamento**. Ela evita o recálculo dos níveis

*Observação: existem duas maneiras básicas de desenvolver*

*- a **primeira** é a tradicional e é usada na nossa civilização desde o **Renascimento**. Funciona assim. Inicialmente você bota a coisa para funcionar. Então você tem uma ideia inicial de como resolver um problema, por exemplo como criar uma ponte a partir de troncos roliços e corda, a fim de atravessar um rio. Essa ideia inicial normalmente vem na forma de um **insight** na cabeça de um lunático. Então pessoas são convencidas a construir a ponte e se ela cai, o inventor é ridicularizado e sua ideia cai no abandono, até que apareça um outro doido com alguma ideia corretiva sobre o modelo (**paradigma**) inicial. Se ela perdura, então as pessoas vão tentar **entender** o que fez ela parar em pé. Nessa etapa, parte-se para a **astração** que pode envolver **geometria** e algum **modelamento matemático**. Então se padroniza o processo de fabricação e se produz aquele negócio por décadas, às vezes séculos, sem a mínima preocupação com **Otimização**. Até que algum infeliz, percebendo que o mercado está saturado, resolve entrar mesmo assim, introduzindo otimizações naquele paradigma. Ou em alguns casos o Governo, percebendo que a falta de **madeira roliça** está afetando a produção nacional de pontes (ou que a produção nacional de **alumínio** poderia ser estrategicamente escoada para o setor de construções), introduz **inovação funcional**, sem afetar o **paradigma**. Até que um dia um outro lunático introduz um modelo de **ponte autoconstruída** a partir de dois robôs 3D e argamassa de secagem rápida, formando um novo **paradigma** e assim em diante. (Para conhecer melhor esta estória, é bom ler os livros de T.S.Kuhn e de Imre Lakatos)*

*Qual o problema de usarmos a abordagem **tradicional** em **Ciência da Computação**? É um problema meio básico. A tecnologia de 1600 era **tosca**, mas possuía uma qualidade positiva: ao olhar para aquele grupo de troncos roliços (o exemplo da ponte eu tirei do modelo de **Leonardo da Vinci**), você poderia entender o porquê a bagaça não deu certo. A visualização do erro, de onde se poderia otimizar e as possíveis correções é bastante óbvia*

*Em **Ciência da Computação**, à medida que o código avança, ele se torna um **monstro**. Revisar 15 mil linhas de código é uma tarefa diabólica. Nenhum ser humano seria capaz de fazer isso. E programas tendem a **crescer** à medida que são operadas. Ou seja, o seu cliente, a partir do momento que começa a operar a ferramenta, começa a pedir mais e mais pontos de função e aquele bicho vai crescendo... com uma equipe razoável de digamos **meia dúzia** de programadores trabalhando **um ano**, você tem um monstro que quando começa a apresentar defeitos, se tornou irremediável. O novo iluminado **jamais** aparecerá!*

*E então existe uma **metaciência** chamada **Epistemologia**. Às vezes a Epistemologia é tratada como a **Filosofia da Ciência** e às vezes como a **Ciência da Ciência**. Essa discussão é um pouco inútil, mas podemos entender que existem outras **maneiras** de encarar cientificamente um desafio. Então temos a nossa:*

*- a **segunda** maneira de desenvolver foi criada inicialmente para lidar com **reatores nucleares**. O problema de um reator nuclear é que se você fizer qualquer besteira, mas qualquer **besteirinha** o nível do estrago é tão grande que esse seu acidente poderia comprometer por exemplo, a civilização humana em todo um **continente**! (Para quem achar que estou inventando, por favor pesquise sobre o acidente de Chernobyl. Se a segunda explosão tivesse ocorrido, a Europa hoje seria uma região inabitável!). Outro problema, agora na **operação** de um reator é que tudo tem que ser **preditivo**. Se você está entrando num **caminho sem volta**, você precisa começar imediatamente a enfiar **varetas moderadoras** no seu núcleo. Uma vez moderador você ainda tem que resfriar **ativamente** o seu núcleo por 24 horas, ou ele irá derreter e produzir um fenômeno chamado **Síndrome da China**. Se isso encontrar o lençol freático, os Prótons desaeleram, catalizando a fissão nuclear e... adeus Europa!

*O mesmo vale para a **Ciência da Computação**. Então antes de começar a ter a sua **ideia genial** e começar a **prototipar**, primeiro passe um bom tempo pesquisando as **tecnologias existentes**. Nem sempre a melhor tecnologia é a **gratuita**. Assim como normalmente os grandes fabricantes de software não implementaram naquela sua mais recente versão do **Visual Studio** a tecnologia mais de ponta! (Se você duvida disso, por favor observe um automóvel do ano. E agora reflita: ele se parece com o **último avanço** da indústria automobilística mundial, ou a **materialização** de um projeto que foi dado início em meados da década de 1980, com introdução de uma ou outra tecnologia mais atual e testada da década de 1990 e com um design **realmente inovador** produzido por especialistas em disfarçar tecnologia inferior e ultrapassada para enganar trouxas como você?)*

*Bom, na **abordagem preditiva**, antes do nosso **insight**, nós gastamos um bom tempo pesquisando e aprendendo sobre as mais novas abordagens de construção de software. Depois de nos adaptarmos a uma determinada tecnologia e a **incorporarmos** organicamente, partimos para a etapa do **insight**. Onde essa nova tecnologia nos levará, dado o desafio posto? Ou em alguns casos: qual o tipo de cliente que irá se interessar pela nossa nova ideia inovadora? (O que ocorre é mais um processo de **fusão** entre vários **paradigmas tecnológicos**, ou seja, avançamos em termos de **interciências** e não propriamente numa inovação de **base**)*

*Em seguida, já com nosso **insight**, partimos para nossa **elaboração estratégica**. São todas as etapas de predição de todos os **caminhos críticos**, seleção de ferramentas, da técnica ou técnicas adotadas, instrumentos... Um pouco como o planejamento de uma **cirurgia**. Se você errar, seu paciente **morre**. Ou o tiro de um **Sniper**. É nessa etapa que eu crio um tipo de documentação, não aquela de implementação, mas a dos **caminhos**, o **resultado esperado** e como agir em cada **caso de caminho sem volta**. E para cada um desses casos de caminhos de risco, as pessoas envolvidas são **adestradas** para lidar com a **identificação precoce** da situação fora do comum e buscar proativamente **soluções antecipadoras** (não **soluções reparadoras**!) **antes** da coisa desvirtuar. E isso adentra as etapas mais operativas do desenvolvimento*

*Por que escrevi essas linhas tão chatas? Por uma única palavra: **otimização**. Somos viciados pela técnica do **Renascimento** e nos prontificamos a **resolver a bagaça**. Depois que o programa ficou um **monstro**, daí tentamos implantar, a um custo **elevadísismo** métodos de otimização. É assim em quase toda empresa!*

*Então anote na sua caderneta: **Otimização vem em primeiro lugar**. Lá naquela etapa da **abordagem preditiva**, já vá pensando na sua otimização. Então essa técnica bobinha ensiada neste tópico porcaria pode ser **fundamental** para um bom desenvolvimento. Esteja atento!*


E se você quiser visualizar apenas os níveis utilizados, você pode usar o método **.get_level_values()**:

In [46]:
df[['foo','qux']].columns.values

array([('foo', 'one'), ('foo', 'two'), ('qux', 'one'), ('qux', 'two')],
      dtype=object)

In [47]:
# for a specific level
df[['foo','qux']].columns.get_level_values(0)

Index(['foo', 'foo', 'qux', 'qux'], dtype='object', name='Animal')

Reconstruir o **Multiindex**, removendo níves não utilizados, com o método **.remove_unused_levels()**:

In [48]:
df[['foo','qux']].columns.remove_unused_levels()

MultiIndex(levels=[['foo', 'qux'], ['one', 'two']],
           labels=[[0, 0, 1, 1], [0, 1, 0, 1]],
           names=['Animal', 'Ordem'])

#### Alinhamento e o uso de Reindex

---

Operações entre objetos indexados de maneiras diferentes funcionam da mesma maneira do que **índices em tuplas**

In [53]:
s

bar  one   -0.795296
     two   -0.792742
baz  one    0.139205
     two    0.165114
foo  one    0.300704
     two    0.289664
qux  one    0.932942
     two    0.310368
dtype: float64

Corte no **eixo x**, note que o último elemento não existe no segundo dataframe

In [59]:
s[:-2]

bar  one   -0.795296
     two   -0.792742
baz  one    0.139205
     two    0.165114
foo  one    0.300704
     two    0.289664
dtype: float64

In [57]:
s + s[:-2]

bar  one   -1.590591
     two   -1.585484
baz  one    0.278410
     two    0.330228
foo  one    0.601409
     two    0.579327
qux  one         NaN
     two         NaN
dtype: float64

---

Outro exemplo, agora com corte no **eixo y**

In [60]:
s[::2]

bar  one   -0.795296
baz  one    0.139205
foo  one    0.300704
qux  one    0.932942
dtype: float64

In [51]:
s + s[::2]

bar  one   -1.590591
     two         NaN
baz  one    0.278410
     two         NaN
foo  one    0.601409
     two         NaN
qux  one    1.865883
     two         NaN
dtype: float64

---

Uso do método **.reindex()** pode se dar com outro **Muitiindex**, ou mesmo uma **lista**, ou **matriz de tuplas**

In [61]:
s.reindex(index[:3])

Animal  Ordem
bar     one     -0.795296
        two     -0.792742
baz     one      0.139205
dtype: float64

*Observe que apenas os animais chamados nas tuplas constam na view do dataframe*

In [63]:
s.reindex([('foo', 'two'), ('bar', 'one'), ('qux', 'one'), ('baz', 'one')])

foo  two    0.289664
bar  one   -0.795296
qux  one    0.932942
baz  one    0.139205
dtype: float64

### Indexação avançada com hierarquização

---

In [67]:
df

Animal,bar,bar,baz,baz,foo,foo,qux,qux
Ordem,one,two,one,two,one,two,one,two
A,0.486469,0.856955,-3.141083,0.335996,-1.324319,0.644449,0.533992,-0.364926
B,-0.670015,-0.453107,-1.497053,-0.864832,0.300417,1.892226,-0.401932,1.083283
C,0.864679,-0.134688,0.37843,0.256251,-0.45858,-0.402177,-0.274435,-0.592052


Fazendo a **Transposta** de df

In [68]:
df = df.T
df

Unnamed: 0_level_0,Unnamed: 1_level_0,A,B,C
Animal,Ordem,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
bar,one,0.486469,-0.670015,0.864679
bar,two,0.856955,-0.453107,-0.134688
baz,one,-3.141083,-1.497053,0.37843
baz,two,0.335996,-0.864832,0.256251
foo,one,-1.324319,0.300417,-0.45858
foo,two,0.644449,1.892226,-0.402177
qux,one,0.533992,-0.401932,-0.274435
qux,two,-0.364926,1.083283,-0.592052


O material a seguir usa o método **".loc"**

In [70]:
df.loc[('bar', 'two'),]

A    0.856955
B   -0.453107
C   -0.134688
Name: (bar, two), dtype: float64

Evite esta forma mais **aberta** de notação. Ela pode ocasionar ambiguidade!

In [71]:
df.loc['bar', 'two']

A    0.856955
B   -0.453107
C   -0.134688
Name: (bar, two), dtype: float64

Aqui é tipo **Batalha Naval**, linha x coluna:

In [73]:
df.loc[('bar', 'two'), 'A']

0.8569549960905171

Eu não preciso dar o caminho completo. Agora eu quero apenas o animal **bar**:

In [76]:
df.loc['bar']

Unnamed: 0_level_0,A,B,C
Ordem,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
one,0.486469,-0.670015,0.864679
two,0.856955,-0.453107,-0.134688


Fatiamento parcial:

In [106]:
df.loc['baz':'foo']

Unnamed: 0_level_0,Unnamed: 1_level_0,A,B,C
Animal,Ordem,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
baz,one,0.675852,-1.191671,-1.839097
baz,two,-0.454042,0.15059,-0.085514
foo,one,-0.028927,1.579148,-0.28839
foo,two,-0.527151,0.081402,0.036511


In [107]:
df.loc[('baz', 'two'):('qux', 'one')]

Unnamed: 0_level_0,Unnamed: 1_level_0,A,B,C
Animal,Ordem,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
baz,two,-0.454042,0.15059,-0.085514
foo,one,-0.028927,1.579148,-0.28839
foo,two,-0.527151,0.081402,0.036511


---

Fatiamento de uma **banda** (range) de valores, fornecendo uma fatia de tuplas:

In [78]:
df.loc[[('bar', 'two'), ('qux', 'one')]]

Unnamed: 0_level_0,Unnamed: 1_level_0,A,B,C
Animal,Ordem,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
bar,two,0.856955,-0.453107,-0.134688
qux,one,0.533992,-0.401932,-0.274435


Observe que a escrita é bastante flexível

In [79]:
df.loc[('baz', 'two'):'foo']

Unnamed: 0_level_0,Unnamed: 1_level_0,A,B,C
Animal,Ordem,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
baz,two,0.335996,-0.864832,0.256251
foo,one,-1.324319,0.300417,-0.45858
foo,two,0.644449,1.892226,-0.402177


---

Fornecer uma lista de **Rótulos** ou **Tuplas** funciona de maneira similar a **Reindexar**:

In [81]:
df.loc[[('bar', 'two'), ('qux', 'one')]]

Unnamed: 0_level_0,Unnamed: 1_level_0,A,B,C
Animal,Ordem,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
bar,two,0.856955,-0.453107,-0.134688
qux,one,0.533992,-0.401932,-0.274435


In [82]:
s = pd.Series([1, 2, 3, 4, 5, 6],
   index=pd.MultiIndex.from_product([["A", "B"], ["c", "d", "e"]]))
s

A  c    1
   d    2
   e    3
B  c    4
   d    5
   e    6
dtype: int64

Posso passar uma **Lista de Tuplas** que eu desejo como resposta:

    [minha lista... (I,i), (I,i)...] <-- os (I,i) são endereços, como na lista de Schindler!

In [86]:
s.loc[[("A", "c"), ("B", "d"), ("A", "e")]]  # list of tuples

A  c    1
B  d    5
A  e    3
dtype: int64

Ou uma **Tupla de Listas**:

    [minha lista... (I,i)] <-- nesse caso eu passei uma única Tupla, mas poderia ter passado mais!
    
    (I,i) <-- só que minha tupla é complexa: (I="A" ou "B", i="c" ou "d")
    
*Apenas a criatividade limita o que pode ser feito com isso...*

In [84]:
s.loc[(["A", "B"], ["c", "d"])]  # tuple of lists

A  c    1
   d    2
B  c    4
   d    5
dtype: int64

---

#### Usando fatiadores

O Python traz várias maneiras simplificadas para escrever as coisas. Como o padrão é que você esteja usando o **eixo X**, ele permite que você escreva o código assim:

    df.loc[(slice('A1','A3'),.....)]
    
Mas **não** faça isso! Escreva seus códigos sempre com **capricho** e evitando ambiguidades. Isso pode ser mal interpretado como uma indexação de **ambos os eixos**. Encontrar e corrigir esses erros bestas pode lhe custar muito caro. Escreva assim:

    df.loc[(slice('A1','A3'),.....), :]
    
*Observação: o elegante não é o curto! O elegante é aquilo que traz toda informação, sem dar margem a dubiedade. Muitas vezes quem **corrige** e **aprimora** um código não é aquele que o escreveu. Portanto, use sempre variáveis claras, funções bem definidas, objetos bem documentados e outras coisas que façam valer o seu **nome** como profissional. Pessoas **malditas** que escrevem código da maneira mais obscura possível para que sejam depois chamados para consertar, normalmente ficam com a carreira **manchada** e uma hora têm que mudar de profissão!*

*Outra coisa: tornar sistemas **obscuros** não lhe garante que você vá continuar sendo chamado para trabalhar nele. Uma hora quem o contratou irá se encher de você e perceber a sua má fé e irá contratar um profissional para **hackear** todas as coisas que você deixou escondidas e fazer uma **engenharia reversa** no seu produto e reescrever tudo de novo de uma maneira simples e clara. No mundo da computação todo mundo se conhece. Os trapaceiros ficam marcados* 

In [103]:
def mklbl(prefix,n):
    return ["%s%s" % (prefix,i)  for i in range(n)] 

miindex = pd.MultiIndex.from_product([mklbl('A',4),
                                      mklbl('B',2),
                                      mklbl('C',4),
                                      mklbl('D',2)]) 

micolumns = pd.MultiIndex.from_tuples([('a','foo'),('a','bar'),
                                       ('b','foo'),('b','bah')],
                                       names=['lvl0', 'lvl1'])
print(micolumns)

dfmi = pd.DataFrame(np.arange(len(miindex)*len(micolumns)).reshape((len(miindex),len(micolumns))),
                     index=miindex,
                     columns=micolumns).sort_index().sort_index(axis=1)

with pd.option_context('display.max_rows',10): #apenas um pedaço do meu dataframe é exibido
    print(dfmi)

MultiIndex(levels=[['a', 'b'], ['bah', 'bar', 'foo']],
           labels=[[0, 0, 1, 1], [2, 1, 2, 0]],
           names=['lvl0', 'lvl1'])
lvl0           a         b     
lvl1         bar  foo  bah  foo
A0 B0 C0 D0    1    0    3    2
         D1    5    4    7    6
      C1 D0    9    8   11   10
         D1   13   12   15   14
      C2 D0   17   16   19   18
...          ...  ...  ...  ...
A3 B1 C1 D1  237  236  239  238
      C2 D0  241  240  243  242
         D1  245  244  247  246
      C3 D0  249  248  251  250
         D1  253  252  255  254

[64 rows x 4 columns]


In [105]:
dfmi.loc[(slice('A1','A3'), slice(None), ['C1', 'C3']), :]

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,lvl0,a,a,b,b
Unnamed: 0_level_1,Unnamed: 1_level_1,Unnamed: 2_level_1,lvl1,bar,foo,bah,foo
A1,B0,C1,D0,73,72,75,74
A1,B0,C1,D1,77,76,79,78
A1,B0,C3,D0,89,88,91,90
A1,B0,C3,D1,93,92,95,94
A1,B1,C1,D0,105,104,107,106
A1,B1,C1,D1,109,108,111,110
A1,B1,C3,D0,121,120,123,122
A1,B1,C3,D1,125,124,127,126
A2,B0,C1,D0,137,136,139,138
A2,B0,C1,D1,141,140,143,142


Para não ter que usar o **slice(None)**, dá para usar o método **.IndexSlice**

In [107]:
idx = pd.IndexSlice
dfmi.loc[idx[:, :, ['C1', 'C3']], idx[:, 'foo']]

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,lvl0,a,b
Unnamed: 0_level_1,Unnamed: 1_level_1,Unnamed: 2_level_1,lvl1,foo,foo
A0,B0,C1,D0,8,10
A0,B0,C1,D1,12,14
A0,B0,C3,D0,24,26
A0,B0,C3,D1,28,30
A0,B1,C1,D0,40,42
A0,B1,C1,D1,44,46
A0,B1,C3,D0,56,58
A0,B1,C3,D1,60,62
A1,B0,C1,D0,72,74
A1,B0,C1,D1,76,78


Fatiamento simultâneo no **Eixo X** e no **Eixo Y**

- no **Eixo X** eu quero apenas o conjunto de dados existentes na categoria **A1**

 - isso é resolvindo com 'A1' <-categoria de linhas: 'A1'

- no **Eixo Y** eu quero as fitas cujas **colunas** sejam **foo**

 - isso é resolvido com uma tupla (slice(None), 'foo') <-linhas: Todas, colunas: 'foo'

In [115]:
dfmi.loc['A1', (slice(None), 'foo')]

Unnamed: 0_level_0,Unnamed: 1_level_0,lvl0,a,b
Unnamed: 0_level_1,Unnamed: 1_level_1,lvl1,foo,foo
B0,C0,D0,64,66
B0,C0,D1,68,70
B0,C1,D0,72,74
B0,C1,D1,76,78
B0,C2,D0,80,82
B0,C2,D1,84,86
B0,C3,D0,88,90
B0,C3,D1,92,94
B1,C0,D0,96,98
B1,C0,D1,100,102


In [110]:
idx = pd.IndexSlice
dfmi.loc[idx[:, :, ['C1', 'C3']], idx[:, 'foo']]

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,lvl0,a,b
Unnamed: 0_level_1,Unnamed: 1_level_1,Unnamed: 2_level_1,lvl1,foo,foo
A0,B0,C1,D0,8,10
A0,B0,C1,D1,12,14
A0,B0,C3,D0,24,26
A0,B0,C3,D1,28,30
A0,B1,C1,D0,40,42
A0,B1,C1,D1,44,46
A0,B1,C3,D0,56,58
A0,B1,C3,D1,60,62
A1,B0,C1,D0,72,74
A1,B0,C1,D1,76,78


**Indexador booleano** provendo a seleção relacionada aos valores

In [111]:
idx = pd.IndexSlice
mask = dfmi[('a', 'foo')] > 200
dfmi.loc[idx[mask, :, ['C1', 'C3']], idx[:, 'foo']]

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,lvl0,a,b
Unnamed: 0_level_1,Unnamed: 1_level_1,Unnamed: 2_level_1,lvl1,foo,foo
A3,B0,C1,D1,204,206
A3,B0,C3,D0,216,218
A3,B0,C3,D1,220,222
A3,B1,C1,D0,232,234
A3,B1,C1,D1,236,238
A3,B1,C3,D0,248,250
A3,B1,C3,D1,252,254


In [115]:
dfmi.loc(axis=0)[:, :, ['C1', 'C3']]

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,lvl0,a,a,b,b
Unnamed: 0_level_1,Unnamed: 1_level_1,Unnamed: 2_level_1,lvl1,bar,foo,bah,foo
A0,B0,C1,D0,9,8,11,10
A0,B0,C1,D1,13,12,15,14
A0,B0,C3,D0,25,24,27,26
A0,B0,C3,D1,29,28,31,30
A0,B1,C1,D0,41,40,43,42
A0,B1,C1,D1,45,44,47,46
A0,B1,C3,D0,57,56,59,58
A0,B1,C3,D1,61,60,63,62
A1,B0,C1,D0,73,72,75,74
A1,B0,C1,D1,77,76,79,78


In [116]:
df2 = dfmi.copy()
df2.loc(axis=0)[:, :, ['C1', 'C3']] = -10
df2

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,lvl0,a,a,b,b
Unnamed: 0_level_1,Unnamed: 1_level_1,Unnamed: 2_level_1,lvl1,bar,foo,bah,foo
A0,B0,C0,D0,1,0,3,2
A0,B0,C0,D1,5,4,7,6
A0,B0,C1,D0,-10,-10,-10,-10
A0,B0,C1,D1,-10,-10,-10,-10
A0,B0,C2,D0,17,16,19,18
A0,B0,C2,D1,21,20,23,22
A0,B0,C3,D0,-10,-10,-10,-10
A0,B0,C3,D1,-10,-10,-10,-10
A0,B1,C0,D0,33,32,35,34
A0,B1,C0,D1,37,36,39,38


In [117]:
df2 = dfmi.copy()
df2.loc[idx[:, :, ['C1', 'C3']], :] = df2 * 1000
df2

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,lvl0,a,a,b,b
Unnamed: 0_level_1,Unnamed: 1_level_1,Unnamed: 2_level_1,lvl1,bar,foo,bah,foo
A0,B0,C0,D0,1,0,3,2
A0,B0,C0,D1,5,4,7,6
A0,B0,C1,D0,9000,8000,11000,10000
A0,B0,C1,D1,13000,12000,15000,14000
A0,B0,C2,D0,17,16,19,18
A0,B0,C2,D1,21,20,23,22
A0,B0,C3,D0,25000,24000,27000,26000
A0,B0,C3,D1,29000,28000,31000,30000
A0,B1,C0,D0,33,32,35,34
A0,B1,C0,D1,37,36,39,38


### Construção de Multi Índices - Parte 3

---

### Seleção cruzada [aqui](http://pandas.pydata.org/pandas-docs/stable/advanced.html)

---

O método **.xs()** é usado neste caso

In [5]:
import pandas as pd
import numpy as np

arrays = [np.array(['bar', 'bar', 'baz', 'baz', 'foo', 'foo', 'qux', 'qux']),
          np.array(['one', 'two', 'one', 'two', 'one', 'two', 'one', 'two'])] 

s = pd.Series(np.random.randn(8), index=arrays)

df = pd.DataFrame(np.random.randn(8, 3), index=arrays)
df.index.names = ['first', 'second']
df

Unnamed: 0_level_0,Unnamed: 1_level_0,0,1,2
first,second,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
bar,one,0.471328,-0.723772,0.823373
bar,two,-0.443791,-0.753098,1.274663
baz,one,-0.077691,-0.226932,-1.350944
baz,two,0.839814,0.272866,-1.577247
foo,one,0.457253,1.053118,0.466596
foo,two,0.863698,-0.370364,-1.426475
qux,one,2.267638,-0.24899,1.220212
qux,two,0.631857,0.947411,-1.226947


O parâmetro **Level** dá conta disso

In [6]:
df.xs('one', level='second')

Unnamed: 0_level_0,0,1,2
first,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
bar,0.471328,-0.723772,0.823373
baz,-0.077691,-0.226932,-1.350944
foo,0.457253,1.053118,0.466596
qux,2.267638,-0.24899,1.220212


---

Agora usando o método **Fatiador**

In [8]:
df.loc[(slice(None),'one'),:]

Unnamed: 0_level_0,Unnamed: 1_level_0,0,1,2
first,second,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
bar,one,0.471328,-0.723772,0.823373
baz,one,-0.077691,-0.226932,-1.350944
foo,one,0.457253,1.053118,0.466596
qux,one,2.267638,-0.24899,1.220212


In [10]:
df.loc[:,(slice(None),'one')]

first,bar,baz,foo,qux
second,one,one,one,one
0,0.471328,-0.077691,0.457253,2.267638
1,-0.723772,-0.226932,1.053118,-0.24899
2,0.823373,-1.350944,0.466596,1.220212


In [12]:
df.loc[:,('bar','one')]

0    0.471328
1   -0.723772
2    0.823373
Name: (bar, one), dtype: float64

---

Uso do parâmetro **Axis**

In [9]:
df = df.T
df.xs('one', level='second', axis=1)

first,bar,baz,foo,qux
0,0.471328,-0.077691,0.457253,2.267638
1,-0.723772,-0.226932,1.053118,-0.24899
2,0.823373,-1.350944,0.466596,1.220212


In [11]:
df.xs(('one', 'bar'), level=('second', 'first'), axis=1)

first,bar
second,one
0,0.471328
1,-0.723772
2,0.823373


---
O método **Drop Level**, para reter o nível selecionado

In [13]:
df.xs('one', level='second', axis=1, drop_level=False)

first,bar,baz,foo,qux
second,one,one,one,one
0,0.471328,-0.077691,0.457253,2.267638
1,-0.723772,-0.226932,1.053118,-0.24899
2,0.823373,-1.350944,0.466596,1.220212


In [14]:
df.xs('one', level='second', axis=1, drop_level=True)

first,bar,baz,foo,qux
0,0.471328,-0.077691,0.457253,2.267638
1,-0.723772,-0.226932,1.053118,-0.24899
2,0.823373,-1.350944,0.466596,1.220212


### Reindexação e alinhamento avançados

---

Uso do argumento **level**, as operações são feitas nos valores através de um nível

Muitas vezes queremos nossos dataframes **alinhados**, ou seja, com a mesma estrutura de índice. Isso facilita diversas funções, como **Merge**. São essas operações que são feitas a seguir

In [49]:
midx = pd.MultiIndex(levels=[['zero', 'one'], ['x','y']],
                      labels=[[1,1,0,0],[1,0,1,0]])

df = pd.DataFrame(np.random.randn(4,2), index=midx)
df

Unnamed: 0,Unnamed: 1,0,1
one,y,-0.532943,-0.477411
one,x,0.208747,-0.713661
zero,y,-0.854472,-1.127627
zero,x,0.81199,-0.023308


In [50]:
df2 = df.mean(level=0)
df2

Unnamed: 0,0,1
one,-0.162098,-0.595536
zero,-0.021241,-0.575467


In [51]:
df2.reindex(df.index, level=0)

Unnamed: 0,Unnamed: 1,0,1
one,y,-0.162098,-0.595536
one,x,-0.162098,-0.595536
zero,y,-0.021241,-0.575467
zero,x,-0.021241,-0.575467


In [52]:
df_aligned, df2_aligned = df.align(df2, level=0)
df_aligned

Unnamed: 0,Unnamed: 1,0,1
one,y,-0.532943,-0.477411
one,x,0.208747,-0.713661
zero,y,-0.854472,-1.127627
zero,x,0.81199,-0.023308


In [53]:
df2_aligned

Unnamed: 0,Unnamed: 1,0,1
one,y,-0.162098,-0.595536
one,x,-0.162098,-0.595536
zero,y,-0.021241,-0.575467
zero,x,-0.021241,-0.575467


#### Comutando níveis com o método .swaplevel()

---

Você pode trocar a ordem de dois níveis

In [56]:
df[:5]

Unnamed: 0,Unnamed: 1,0,1
one,y,-0.532943,-0.477411
one,x,0.208747,-0.713661
zero,y,-0.854472,-1.127627
zero,x,0.81199,-0.023308


In [57]:
df[:5].swaplevel(0, 1, axis=0)

Unnamed: 0,Unnamed: 1,0,1
y,one,-0.532943,-0.477411
x,one,0.208747,-0.713661
y,zero,-0.854472,-1.127627
x,zero,0.81199,-0.023308


#### Reordenando níveis com o método .reorder_levels()

---

É uma generalização de **Swap Level** e permite muito mais coisas

In [58]:
df[:5].reorder_levels([1,0], axis=0)

Unnamed: 0,Unnamed: 1,0,1
y,one,-0.532943,-0.477411
x,one,0.208747,-0.713661
y,zero,-0.854472,-1.127627
x,zero,0.81199,-0.023308


### Ordenando um Multiíndice

---

Imagine um dataframe proveniente de fatiamento ou junção e que precise ser organizado

In [68]:
import random

#Essa parte pega duas séries e a transforma em tuplas
arrays = [['bar', 'bar', 'baz', 'baz', 'foo', 'foo', 'qux', 'qux'],
         ['one', 'two', 'one', 'two', 'one', 'two', 'one', 'two']]
tuples = list(zip(*arrays))

random.shuffle(tuples)
s = pd.Series(np.random.randn(8), index=pd.MultiIndex.from_tuples(tuples))
s

bar  two    0.044655
     one   -0.656834
qux  two   -0.328656
foo  two   -0.133102
baz  two    0.205852
foo  one   -1.311489
baz  one   -1.668766
qux  one    1.211294
dtype: float64

In [69]:
s.sort_index()

bar  one   -0.656834
     two    0.044655
baz  one   -1.668766
     two    0.205852
foo  one   -1.311489
     two   -0.133102
qux  one    1.211294
     two   -0.328656
dtype: float64

In [70]:
s.sort_index(level=0)

bar  one   -0.656834
     two    0.044655
baz  one   -1.668766
     two    0.205852
foo  one   -1.311489
     two   -0.133102
qux  one    1.211294
     two   -0.328656
dtype: float64

In [71]:
s.sort_index(level=1)

bar  one   -0.656834
baz  one   -1.668766
foo  one   -1.311489
qux  one    1.211294
bar  two    0.044655
baz  two    0.205852
foo  two   -0.133102
qux  two   -0.328656
dtype: float64

---
Variante, atribuindo novos nomes

In [73]:
s.index.set_names(['L1', 'L2'], inplace=True)
s.sort_index(level='L1')

L1   L2 
bar  one   -0.656834
     two    0.044655
baz  one   -1.668766
     two    0.205852
foo  one   -1.311489
     two   -0.133102
qux  one    1.211294
     two   -0.328656
dtype: float64

In [74]:
s.sort_index(level='L2')

L1   L2 
bar  one   -0.656834
baz  one   -1.668766
foo  one   -1.311489
qux  one    1.211294
bar  two    0.044655
baz  two    0.205852
foo  two   -0.133102
qux  two   -0.328656
dtype: float64

---

Se eles tiverem um **Multiíndice**, em vários níveis ou eixos

In [76]:
df.T.sort_index(level=1, axis=1)

Unnamed: 0_level_0,one,zero,one,zero
Unnamed: 0_level_1,x,x,y,y
0,0.208747,0.81199,-0.532943,-0.854472
1,-0.713661,-0.023308,-0.477411,-1.127627


---

Atente a possíveis erros em reindexação. Às vezes a operação é tão lenta que o que é retornado é um dataframe novo e não uma **view**

In [77]:
dfm = pd.DataFrame({'jim': [0, 0, 1, 1],
                     'joe': ['x', 'x', 'z', 'y'],
                     'jolie': np.random.rand(4)}) 

dfm = dfm.set_index(['jim', 'joe'])
dfm

Unnamed: 0_level_0,Unnamed: 1_level_0,jolie
jim,joe,Unnamed: 2_level_1
0,x,0.380293
0,x,0.892274
1,z,0.580314
1,y,0.99701


---

E atente a erros de **Lexsort**

In [None]:
dfm.loc[(1, 'z')]

In [None]:
dfm.loc[(0,'y'):(1, 'z')]

Então faça **Try** antes de cair mantando na operação

In [81]:
dfm.index.is_lexsorted()

False

In [80]:
dfm.index.lexsort_depth

1

In [82]:
dfm = dfm.sort_index()
dfm

Unnamed: 0_level_0,Unnamed: 1_level_0,jolie
jim,joe,Unnamed: 2_level_1
0,x,0.380293
0,x,0.892274
1,y,0.99701
1,z,0.580314


E **confira** se deu tudo certo

In [83]:
dfm.index.is_lexsorted()

True

In [84]:
dfm.index.lexsort_depth

2

*Observação: código **bem feito** não é aquele escrito da maneira mais condensada possível e curto. É aquele que apresenta **eficiência**, **testabilidade**, que é **estável** e **bem documentado**. Então quando estiver codificando, crie sempre pontos de teste nas suas funções. E nunca acredite que os seus arquivos de teste resolvem todos os problemas. Às vezes está tudo OK no **caminho feliz** mas se por exemplo, o seu usuário submeteu um .csv cheio de defeitos, os seus problemas estarão apenas começando!*

*Então antes de fazer uma função, use **Try**, se o resultado for **True**, daí sim, faça e prossiga. Teste se o seu resultado foi adequado, se não foi, informe o usuário o que aconteceu. Nem sempre as mensagens de erro do interpretador Python são muito claras. Então conte ao usuário melhor o que aconteceu e onde!*

### Métodos Take

---

Funciona mais ou menos do mesmo jeito que o **Take** do Numpy, Series...

In [85]:
index = pd.Index(np.random.randint(0, 1000, 10))
index

Int64Index([451, 31, 771, 565, 927, 827, 237, 17, 235, 845], dtype='int64')

In [86]:
positions = [0, 9, 3]
index[positions]

Int64Index([451, 845, 565], dtype='int64')

In [87]:
index.take(positions)

Int64Index([451, 845, 565], dtype='int64')

In [88]:
ser = pd.Series(np.random.randn(10))
ser.iloc[positions]

0   -0.469645
9   -0.060358
3    0.510808
dtype: float64

In [89]:
ser.take(positions)

0   -0.469645
9   -0.060358
3    0.510808
dtype: float64

Em dataframes 2D:

In [95]:
frm = pd.DataFrame(np.random.randn(5, 3))
frm

Unnamed: 0,0,1,2
0,0.961565,-0.859402,-1.28654
1,2.162406,0.211015,-1.642699
2,1.285725,0.036576,-0.304463
3,-0.867685,0.253792,0.717283
4,0.709224,1.064106,1.607295


In [96]:
frm.take([1, 4, 3])

Unnamed: 0,0,1,2
1,2.162406,0.211015,-1.642699
4,0.709224,1.064106,1.607295
3,-0.867685,0.253792,0.717283


In [97]:
frm.take([0, 2], axis=1)

Unnamed: 0,0,2
0,0.961565,-1.28654
1,2.162406,-1.642699
2,1.285725,-0.304463
3,-0.867685,0.717283
4,0.709224,1.607295


Observe que isso **não foi** desenhado para índices booleanos e os resultados podem ser estranhos:

In [None]:
arr = np.random.randn(10)
arr.take([False, False, True, True])
arr[[0, 1]]
ser = pd.Series(np.random.randn(10))
ser.take([False, False, True, True])
ser.iloc[[0, 1]]

### Tipos de Índice

---

#### Índice categórico

Isso é legal para suportar indexação com **duplicatas**

Existe um recipiente em torno da categoria que permite a indexação e o armazenamento

In [98]:
from pandas.api.types import CategoricalDtype

df = pd.DataFrame({'A': np.arange(6),
                   'B': list('aabbca')})

df['B'] = df['B'].astype(CategoricalDtype(list('cab')))
df

Unnamed: 0,A,B
0,0,a
1,1,a
2,2,b
3,3,b
4,4,c
5,5,a


In [99]:
df.dtypes

A       int32
B    category
dtype: object

In [100]:
df.B.cat.categories

Index(['c', 'a', 'b'], dtype='object')

Setando quem é o índice, você cria um **Índice Categórico**

In [101]:
df2 = df.set_index('B')
df2.index

CategoricalIndex(['a', 'a', 'b', 'b', 'c', 'a'], categories=['c', 'a', 'b'], ordered=False, name='B', dtype='category')

*Observe que os indexadores precisam estar contidos na **categoria** ou a coisa irá ficar estranha:*

In [102]:
df2.loc['a']

Unnamed: 0_level_0,A
B,Unnamed: 1_level_1
a,0
a,1
a,5


A categorização é **mantida** depois de indexação

In [103]:
df2.loc['a'].index

CategoricalIndex(['a', 'a', 'a'], categories=['c', 'a', 'b'], ordered=False, name='B', dtype='category')

Ordenar **mantém** a ordem das categorias (no nosso caso foi cab)

In [106]:
df2.sort_index()

Unnamed: 0_level_0,A
B,Unnamed: 1_level_1
c,4
a,0
a,1
a,5
b,2
b,3


**Groupby** preserva a natureza do índice

In [107]:
df2.groupby(level=0).sum()

Unnamed: 0_level_0,A
B,Unnamed: 1_level_1
c,4
a,6
b,5


Operações de **Reindexação** se baseiam no tipo do índice original

- lista - um índice plano, tipo antigo

- categórico - um índice categório mantendo as categorias e dtypes

Caso a categoria não exista, ele procede como em qualquer **Reindex** de índice Pandas:

In [108]:
df2.reindex(['a','e'])

Unnamed: 0_level_0,A
B,Unnamed: 1_level_1
a,0.0
a,1.0
a,5.0
e,


In [109]:
df2.reindex(['a','e']).index

Index(['a', 'a', 'a', 'e'], dtype='object', name='B')

In [110]:
df2.reindex(pd.Categorical(['a','e'],categories=list('abcde')))

Unnamed: 0_level_0,A
B,Unnamed: 1_level_1
a,0.0
a,1.0
a,5.0
e,


In [111]:
df2.reindex(pd.Categorical(['a','e'],categories=list('abcde'))).index

CategoricalIndex(['a', 'a', 'a', 'e'], categories=['a', 'b', 'c', 'd', 'e'], ordered=False, name='B', dtype='category')

Observe que **Reshape** e operações de **Comparação** devem possuir as mesmas categorias, ou resultará em mensagem de erro

In [None]:
df3 = pd.DataFrame({'A' : np.arange(6),
                            'B' : pd.Series(list('aabbca')).astype('category')})

df3 = df3.set_index('B')
df3.index

pd.concat([df2, df3]

#### Índices Int64Index e RangeIndex

---

#### Índice Float64

São básicos e muito velozes. Toda implementação **matemática** usa este tipo de índice

In [113]:
indexf = pd.Index([1.5, 2, 3, 4.5, 5])
indexf

Float64Index([1.5, 2.0, 3.0, 4.5, 5.0], dtype='float64')

In [114]:
sf = pd.Series(range(5), index=indexf)
sf

1.5    0
2.0    1
3.0    2
4.5    3
5.0    4
dtype: int64

In [115]:
sf[3]

2

In [116]:
sf[3.0]

2

In [117]:
sf.loc[3]

2

In [121]:
sf.loc[2:4]

2.0    1
3.0    2
dtype: int64

In [122]:
sf.iloc[2:4]

3.0    2
4.5    3
dtype: int64

In [123]:
sf[2.1:4.6]

3.0    2
4.5    3
dtype: int64

In [112]:
dfir = pd.concat([pd.DataFrame(np.random.randn(5,2),
                               index=np.arange(5) * 250.0,
                                columns=list('AB')),
                   pd.DataFrame(np.random.randn(6,2),
                                index=np.arange(4,10) * 250.1,
                                columns=list('AB'))]) 
dfir

Unnamed: 0,A,B
0.0,-1.464215,-0.154654
250.0,-1.647758,1.039616
500.0,-2.036735,0.373181
750.0,-0.933509,-0.230772
1000.0,-1.012117,0.366689
1000.4,-1.082983,1.207367
1250.5,0.8161,0.238158
1500.6,0.78396,0.180781
1750.7,-0.381415,-0.558305
2000.8,-0.2526,2.251874


---

#### Índice IntervalIndex

*Nota: **evite** usar isso. Está prevista reforma neste método e ele pode mudar sua forma de atuação!*

In [None]:
df = pd.DataFrame({'A': [1, 2, 3, 4]},
                    index=pd.IntervalIndex.from_breaks([0, 1, 2, 3, 4]))
df

In [None]:
df.loc[2]
df.loc[[2, 3]]

In [None]:
df.loc[2.5]
df.loc[[2.5, 3.5]]

In [None]:
c = pd.cut(range(4), bins=2)
c
c.categories

In [None]:
pd.cut([0, 3, 5, 1], bins=c.categories)

---

#### Gerando Bandas (Ranges) de intervalos

In [None]:
pd.interval_range(start=0, end=5)
pd.interval_range(start=pd.Timestamp('2017-01-01'), periods=4)
pd.interval_range(end=pd.Timedelta('3 days'), periods=3)

In [None]:
pd.interval_range(start=0, periods=5, freq=1.5)
pd.interval_range(start=pd.Timestamp('2017-01-01'), periods=4, freq='W')
pd.interval_range(start=pd.Timedelta('0 days'), periods=3, freq='9H')

In [None]:
pd.interval_range(start=0, end=4, closed='both')
pd.interval_range(start=0, end=4, closed='neither')

In [None]:
pd.interval_range(start=0, end=6, periods=4)
pd.interval_range(pd.Timestamp('2018-01-01'), pd.Timestamp('2018-02-28'), periods=3)

### Miscelânea em Multiindexação

---

#### Indexação inteira

In [None]:
s = pd.Series(range(5))
s[-1]
df = pd.DataFrame(np.random.randn(5, 4))
df
df.loc[-2:]

#### Índices não-monotônicos requerem correspondências exatas

In [None]:
df = pd.DataFrame(index=[2,3,3,4,5], columns=['data'], data=list(range(5)))

df.index.is_monotonic_increasing

# no rows 0 or 1, but still returns rows 2, 3 (both of them), and 4:
# slice is are outside the index, so empty DataFrame is returned
df.loc[13:15, :]

In [None]:
df = pd.DataFrame(index=[2,3,1,4,3,5], columns=['data'], data=list(range(6)))

df.index.is_monotonic_increasing

# OK because 2 and 4 are in the index
df.loc[2:4, :]

In [None]:
# 0 is not in the index
df.loc[0:4, :]

# 3 is not a unique label
df.loc[2:3, :]

In [None]:
weakly_monotonic = pd.Index(['a', 'b', 'c', 'c'])

weakly_monotonic

weakly_monotonic.is_monotonic_increasing

weakly_monotonic.is_monotonic_increasing & weakly_monotonic.is_unique

#### Endpoints são inclusivos!

In [None]:
s = pd.Series(np.random.randn(6), index=list('abcdef'))
s

In [None]:
s[2:5]

In [None]:
s.loc['c':'e'+1]

In [None]:
s.loc['c':'e']

#### Indexação em alguns casos modifica os dtypes de base da sua Séries

In [None]:
series1 = pd.Series([1, 2, 3])

series1.dtype

res = series1.reindex([0, 4])

res.dtype

res

In [None]:
series2 = pd.Series([True])

series2.dtype

res = series2.reindex_like(series1)

res.dtype

res

## Iterando sobre um dataframe

---

É possível dar um comando **For** combinado com uma chamada da função **.interffows()**

O **Interrows** devolve como resultado uma tupla (índice,linha). Ou se preferir (índice, Série)...

In [16]:
import pandas as pd
import numpy as np

df = pd.DataFrame(data=np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9], [10, 11, 12]]),
                 columns=['A','B','C'])
df                  

Unnamed: 0,A,B,C
0,1,2,3
1,4,5,6
2,7,8,9
3,10,11,12


In [19]:
for indice, linha in df.iterrows():
    print(indice, "Coluna A: {}, Coluna B: {}".format(linha['A'], linha['B']))

0 Coluna A: 1, Coluna B: 2
1 Coluna A: 4, Coluna B: 5
2 Coluna A: 7, Coluna B: 8
3 Coluna A: 10, Coluna B: 11


## Gravando um dataframe em formato Excel

---

Mais informações sobre a ferramenta de I/O do Pandas [aqui](http://pandas.pydata.org/pandas-docs/stable/io.html)

In [None]:
import pandas as pd

df = pd.DataFrame(data=np.array([[34, 1, 2], 
                                 [22, 3, 3], 
                                 [19, 2, 4]]), 
                  index= [0, 1, 2], 
                  columns=["Age", "Seats", "Tickets"]) 

# O caminho é o padrão e o nome do arqivo será meuDataFrame
gravador = pd.ExcelWriter("meuDataFrame.xlsx")

# O nome da minha aba no Excel será DataFrame
df.to_excel(gravador, "DataFrame")
gravador.save()