In [None]:
# Criando dataframes a partir de dicionários

In [6]:
# Uma lista de dicionários em python tem o seguinte formato:
dicionario1 = {'col-a':range(1,7), # de 1 a 6 (no range sempre coloca um número a mais)
               'col-b':['A','B','C','D','E','F'],
               'col-c':[5,3,6,9,2,4] }
# O dicionario1 é um dicionário com as chaves ‘col-a’,’col-b’ e ‘col-c’.
# O elemento da chave ‘a’ é uma lista de valores inteiros de 1 a 6.

In [5]:
dicionario1['col-a'][0] # rótulo e posição

5

In [7]:
dicionario1['col-b'][0] # rótulo e posição

'A'

In [8]:
dicionario1['col-c'][0] # rótulo e posição

5

In [11]:
# Para criar um DataFrame a partir de um dicionário, basta passarmos o dicionário como argumento.
import pandas as pd 
df1 = pd.DataFrame(dicionario1) #atribuir a uma veriável
# Será criado um conjunto de índices inteiros, começando por zero, um para cada linha do nosso DataFrame

In [12]:
# As chaves do dicionário col-a, col-b e col-c tornaram-se nossas colunas
# Foi criado um índice, a lista mais a esquerda do frame, começando em zero e que não tem um nome atribuído: é o índice das linhas
df1

Unnamed: 0,col-a,col-b,col-c
0,1,A,5
1,2,B,3
2,3,C,6
3,4,D,9
4,5,E,2
5,6,F,4


In [14]:
# Também é possível criar um DataFrame com um conjunto de índices diferentes: podemos passar uma lista de índices que ele irá utilizar...
dicionario2 = {'col-a':(1,2,3,5,6),
               'col-b':['A','B','C','E','F'],
               'col-d':[10,20,30,40,50]}

In [15]:
df2 = pd.DataFrame(dicionario2,                   
index=['linha-1','linha-2','linha-3','linha-4','linha-5'])
# A lista que fornecermos como parâmetro para index, será utilizada para indexar as linhas...

In [16]:
df2

Unnamed: 0,col-a,col-b,col-d
linha-1,1,A,10
linha-2,2,B,20
linha-3,3,C,30
linha-4,5,E,40
linha-5,6,F,50


In [18]:
df2['col-a']['linha-1']

1

In [None]:
# Unindo dados
# As operações típicas de consultas SQL podem ser realizadas a partir da criação dos DataFrames: inner join, outer join, left join, right join
# Temos as mesmas funções para juntar nossos dados, unir, concatenar e com diversas funcionalidades adicionais

In [19]:
# Inner merge
# Na sua forma mais simples, irá buscar colunas com o mesmo nome nas duas tabelas e irá unir os resultados a partir dos valores coincidentes…
df3inner = pd.merge(df1,df2)

In [20]:
df3inner
# As colunas col-a e col-b são comuns aos dois dataframes e os seus valores serão utilizados para selecionar os itens que serão trazidos. 
# Onde houver coincidência, serão recuperados os valores e unidas as demais colunas...

Unnamed: 0,col-a,col-b,col-c,col-d
0,1,A,5,10
1,2,B,3,20
2,3,C,6,30
3,5,E,2,40
4,6,F,4,50


In [21]:
# Outer merge
# Podemos especificar a forma de execução do comando de merge, utilizando o parâmetro how (como)
# Ele admite os valores ‘outer’,’left,’right’
df3outer=pd.merge(df1,df2,how='outer')

In [22]:
df3outer
# O outer merge irá trazer os conteúdos de ambas as tabelas preenchendo os elementos que não tiverem valor 
# com NaN - Not A Number, que é o padrão para os objetos pandas

Unnamed: 0,col-a,col-b,col-c,col-d
0,1,A,5,10.0
1,2,B,3,20.0
2,3,C,6,30.0
3,4,D,9,
4,5,E,2,40.0
5,6,F,4,50.0


In [24]:
# Right merge
# Podemos especificar a forma de execução do comando de merge, utilizando o parâmetro how
# Ele admite os valores ‘outer’,’left,’right’
df3right = pd.merge(df1,df2,how='right')

In [25]:
df3right
# O right merge irá recuperar todos os valores a partir do DataFrame da direita, e preencherá os elementos 
# originados no DataFrame da esquerda com NaN

Unnamed: 0,col-a,col-b,col-c,col-d
0,1,A,5,10
1,2,B,3,20
2,3,C,6,30
3,5,E,2,40
4,6,F,4,50


In [26]:
# Selecionando colunas para o merge: on
# é possível definir qual a coluna que deverá ser utilizada para realizar o merge. Isso é muito 
# importante quando queremos ter maior controle sobre o processo de junção:
df3ona = pd.merge(df1,df2, on=("col-a"))

In [27]:
df3ona
# Como a col-b não será considerada agora, os seus valores serão tratados como diferentes e 
# serão duplicados com o acréscimo de um sufixo que por padrão é x,y,z...

Unnamed: 0,col-a,col-b_x,col-c,col-b_y,col-d
0,1,A,5,A,10
1,2,B,3,B,20
2,3,C,6,C,30
3,5,E,2,E,40
4,6,F,4,F,50


In [31]:
# Uso do on com colunas que não são comuns...
# As colunas selecionadas para uso na junção com o uso do on, devem ser comuns aos dois dataframes
# Se não houver uma coluna comum, será emitido um erro...
df3onc = pd.merge(df1,df2, on=("col-c"))

KeyError: 'col-c'

In [29]:
# ou quando não há coincidências de valores...
dicionario1Rev = {
'col-a':reversed(range(1,7)),
                'col-b':['A','B','C','D','E','F'],
                'col-c':[5,3,6,9,2,4]}
df1Rev = pd.DataFrame(dicionario1Rev)
dfcoincidentes1Rev=pd.merge(df1Rev,df2)

In [30]:
df1Rev

Unnamed: 0,col-a,col-b,col-c
0,6,A,5
1,5,B,3
2,4,C,6
3,3,D,9
4,2,E,2
5,1,F,4


In [32]:
# O comando merge irá buscar coincidências simultâneas do valor da coluna col-a e col-b
dfcoincidentesRev = pd.merge(df1Rev, df2)

In [34]:
dfcoincidentesRev
# Como não há coincidência alguma dos dois valores, simultâneamente, ele irá devolver um DataFrame vazio

Unnamed: 0,col-a,col-b,col-c,col-d


In [35]:
# E o uso do on altera os resultados...
dfcoinc1RevA = pd.merge(df1Rev, df2, on=('col-a'))

In [36]:
dfcoinc1RevA

Unnamed: 0,col-a,col-b_x,col-c,col-b_y,col-d
0,6,A,5,F,50
1,5,B,3,E,40
2,3,D,9,C,30
3,2,E,2,B,20
4,1,F,4,A,10


In [37]:
dfcoinc1RevB = pd.merge(df1Rev, df2, on=('col-b'))

In [38]:
dfcoinc1RevB

Unnamed: 0,col-a_x,col-b,col-c,col-a_y,col-d
0,6,A,5,1,10
1,5,B,3,2,20
2,4,C,6,3,30
3,2,E,2,5,40
4,1,F,4,6,50


In [None]:
# Qual a vantagem de utilizar o pandas...
# Na sequência, há um conjunto modelo de dados de um departamento de Recursos Humanos
# A partir desses dados, é possível identificar uma das primeiras vantagens do pandas: os cálculos 
# estatísticos embutidos no seu processamento....

In [39]:
# Dict of lists - Colaboradores
colaboradores = (
    { "Nome" :['Alberto','Luiz','Carlos','Sandra','Ana','Maria'],
      "Sobrenome" : ['Faria','Souza','Silva','Oliveira','Castro','Pereira'],
      "IDCargo" : [5,2,8,3,1,8],
      "IDColaborador" : [3,4,8,9,10,11]
    }
)

In [40]:
# Dict of lists - Cargos
cargos = (
    {
        "IDCargo" : [1,2,3,4,5,6,7,8],
        "Cargo" : ['Diretoria Geral','Diretor Comercial','Diretor Financeiro','Gerente Operacional','Gerente Comercial','Coordenador','Analista','Vendedor']
    }
)

In [41]:
# Dict of lists - Salários
salarios = (
    {
      "Salario" : [1200.00,3800.00,1200.00,3800.00,8000.00,2000.00],
      "IDCargo" : [8,2,8,3,1,5],
      "IDColaborador" : [11,4,8,9,10,3]
    }
)

In [44]:
dfColaboradores = pd.DataFrame(colaboradores)
dfSalarios = pd.DataFrame(salarios)
dfCargos = pd.DataFrame(cargos)
dfSalariosColaboradores = pd.merge(dfColaboradores,dfSalarios)
dfCargosSalariosColaboradores = pd.merge(dfSalariosColaboradores,dfCargos)
dfCargosSalariosColaboradores

Unnamed: 0,Nome,Sobrenome,IDCargo,IDColaborador,Salario,Cargo
0,Alberto,Faria,5,3,2000.0,Gerente Comercial
1,Luiz,Souza,2,4,3800.0,Diretor Comercial
2,Carlos,Silva,8,8,1200.0,Vendedor
3,Maria,Pereira,8,11,1200.0,Vendedor
4,Sandra,Oliveira,3,9,3800.0,Diretor Financeiro
5,Ana,Castro,1,10,8000.0,Diretoria Geral


In [47]:
dfCargosSalariosColaboradores.describe()
# DataFrame.describe() apresenta, para cada coluna reconhecida como numérica:
# O contador de ocorrências, o valor médio, a média padrão, o valor mínimo, a divisão por quartis e o valor máximo.

Unnamed: 0,IDCargo,IDColaborador,Salario
count,6.0,6.0,6.0
mean,4.5,7.5,3333.333333
std,3.016621,3.271085,2572.676946
min,1.0,3.0,1200.0
25%,2.25,5.0,1400.0
50%,4.0,8.5,2900.0
75%,7.25,9.75,3800.0
max,8.0,11.0,8000.0
