# Prática guiada - Join com Pandas.

## PARTE I.

#### Algumas das operações mais interessantes com dados vêm da combinação de diferentes fontes de dados. Elas podem ser:

    1. simples concatenações de dados de conjuntos de dados diferentes
    2. operações mais parecidas com um join ou um merge em um banco de dados

#### Tanto `Series` quanto `DataFrames` foram construídos levando em conta essas operações e incluem funções e métodos para realizá-las de forma rápida e simples.

#### Vamos ver duas operações: [`pd.append()`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.append.html) e [`pd.concat()`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.concat.html).

In [1]:
import pandas as pd
import numpy as np

#### Vamos criar uma função que cria um `DataFrame` para simplificarmos alguns passos:

In [2]:
def make_df(cols, ind):
    """
    Quickly make a DataFrame
    """
    data = {c: [str(c) + str(i) for i in ind] for c in cols}    
    return pd.DataFrame(data, ind)

# example DataFrame
df = make_df('ABC', range(3))
df

Unnamed: 0,A,B,C
0,A0,B0,C0
1,A1,B1,C1
2,A2,B2,C2


In [3]:
' '.join(('Esse', 'é', 'o', 'resultado', 'da', 'função', 'join'))

'Esse é o resultado da função join'

In [4]:
'\n'.join(('Esse', 'é', 'o', 'resultado', 'da', 'função', 'join'))

'Esse\né\no\nresultado\nda\nfunção\njoin'

In [5]:
print('\n'.join(('Esse', 'é', 'o', 'resultado', 'da', 'função', 'join')))

Esse
é
o
resultado
da
função
join


## Concatenação simples com ``pd.concat``

#### A função [`pd.concat()`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.concat.html), permite fazer concatenações simples de diferentes `Series`.

#### Ela tem uma sintaxe semelhante à sua análoga em Numpy [`np.concatenate`](https://numpy.org/doc/stable/reference/generated/numpy.concatenate.html), mas também contém algumas opções adicionais:

```python
pd.concat(objs, axis = 0, join = 'outer', join_axes = None, ignore_index = False,
keys = None, levels = None, names = None, verify_integrity = False, copy = True)
```

In [6]:
df.A

0    A0
1    A1
2    A2
Name: A, dtype: object

In [7]:
df['A']

0    A0
1    A1
2    A2
Name: A, dtype: object

In [8]:
df[['A']]

Unnamed: 0,A
0,A0
1,A1
2,A2


In [9]:
df.loc[:,'A']

0    A0
1    A1
2    A2
Name: A, dtype: object

In [10]:
df.loc[:,['A']]

Unnamed: 0,A
0,A0
1,A1
2,A2


In [11]:
ser1 = pd.Series(['A', 'B', 'C'], index = [1, 2, 3])
#ser1
ser2 = pd.Series(['D', 'E', 'F'], index = [4, 5, 6])
#ser2

pd.concat([ser1, ser2])

1    A
2    B
3    C
4    D
5    E
6    F
dtype: object

#### Ela também permite concatenar objetos de maior dimensionalidade, como `DataFrame`:

In [12]:
df1 = make_df('AB', [1, 2])
df2 = make_df('AB', [3, 4])

print(df1, end='\n\n')
print(df2, end='\n\n')
print(pd.concat([df1, df2], axis='rows'))

    A   B
1  A1  B1
2  A2  B2

    A   B
3  A3  B3
4  A4  B4

    A   B
1  A1  B1
2  A2  B2
3  A3  B3
4  A4  B4


#### Por default, a concatenação é feita no sentido das linhas do ``DataFrame`` (i.e., ``axis=0``), mas é possível especificar o eixo sobre o qual fazer a concatenação:

In [13]:
df3 = make_df('AB', [0, 1])
df4 = make_df('CD', [0, 1])

print(df3, end='\n\n')
print(df4, end='\n\n')

    A   B
0  A0  B0
1  A1  B1

    C   D
0  C0  D0
1  C1  D1



In [14]:
print(pd.concat([df3, df4], axis='columns'))

    A   B   C   D
0  A0  B0  C0  D0
1  A1  B1  C1  D1


In [15]:
print(pd.concat([df3, df4], axis=0))

     A    B    C    D
0   A0   B0  NaN  NaN
1   A1   B1  NaN  NaN
0  NaN  NaN   C0   D0
1  NaN  NaN   C1   D1


In [22]:
df3 = make_df('AB', [0, 1])
df4 = make_df('BD', [2, 3])

print(df3, end='\n\n')
print(df4, end='\n\n')
print(pd.concat([df3, df4], axis=0))

    A   B
0  A0  B0
1  A1  B1

    B   D
2  B2  D2
3  B3  D3

     A   B    D
0   A0  B0  NaN
1   A1  B1  NaN
2  NaN  B2   D2
3  NaN  B3   D3


### Índice duplicados

#### Lembrem que numpy também apresenta um método de concatenação.

#### Uma diferença importante entre `np.concatenate` e `pd.concat` é que a concatenação do Pandas preserva os índices, ainda se o resultado envolver índices duplicados:

In [23]:
x = make_df('AB', [0, 1])
y = make_df('AB', [1, 2])
print(x, y, sep='\n\n')

    A   B
0  A0  B0
1  A1  B1

    A   B
1  A1  B1
2  A2  B2


In [24]:
display(x, y, np.concatenate([x, y]))

Unnamed: 0,A,B
0,A0,B0
1,A1,B1


Unnamed: 0,A,B
1,A1,B1
2,A2,B2


array([['A0', 'B0'],
       ['A1', 'B1'],
       ['A1', 'B1'],
       ['A2', 'B2']], dtype=object)

In [25]:
display(x, y, pd.concat([x, y]))


Unnamed: 0,A,B
0,A0,B0
1,A1,B1


Unnamed: 0,A,B
1,A1,B1
2,A2,B2


Unnamed: 0,A,B
0,A0,B0
1,A1,B1
1,A1,B1
2,A2,B2


#### Embora `DataFrame` permita a existência de índices duplicados é preferível evitar.

#### Verificando a existência de índices duplicados

#### Podemos conferir se há índices solapados no resultado de `pd.concat()` usando uma ``verify_integrity`` flag.

* Colocando True, a concatenação marcará uma exceção se houver algum índice duplicado:

#### O parâmetro `verify_integrity` da função `pd.concat([x, y], verify_integrity = True)` verifica se o novo eixo concatenado contém duplicatas. Por via de regra, para não receber esse comportamento diante de um erro, podemos gerar uma [exceção](https://www.programiz.com/python-programming/exception-handling) para mostrá-lo ao usuário.

In [29]:
try:
    pd.concat([x, y], verify_integrity = True)
except:
    print("Deu erro")

Deu erro


In [30]:
try:
    pd.concat([x, y], verify_integrity = True)
except ValueError as e:
    print("ValueError:", e)

ValueError: Indexes have overlapping values: Int64Index([1], dtype='int64')


### Ignorando o índice:

#### Em alguns casos o índice não tem importância ou é possível ignorá-lo, para isso usamos parâmetro `ignore_index`. Com `ignore_index = True`, a função não usa os valores de índice ao longo do eixo de concatenação.

In [33]:
x

Unnamed: 0,A,B
0,A0,B0
1,A1,B1


In [32]:
print(x, y, pd.concat([x, y], ignore_index = True))

    A   B
0  A0  B0
1  A1  B1     A   B
1  A1  B1
2  A2  B2     A   B
0  A0  B0
1  A1  B1
2  A1  B1
3  A2  B2


In [34]:
display(x, y, pd.concat([x, y], ignore_index = True))

Unnamed: 0,A,B
0,A0,B0
1,A1,B1


Unnamed: 0,A,B
1,A1,B1
2,A2,B2


Unnamed: 0,A,B
0,A0,B0
1,A1,B1
2,A0,B0
3,A1,B1
4,A1,B1
5,A2,B2
6,A1,B1
7,A2,B2


### O método `append`

#### Sendo a concatenação de arrays bem comum, `Series` e `DataFrame` têm um método [`.append()`](https://docs.python.org/3/tutorial/datastructures.html). Por exemplo, em vez de chamar `pd.concat( [df1, df2] )`, é possível chamar `df1.append(df2)`, que é mais simples:

In [35]:
display(df1, df2, df1.append(df2))

Unnamed: 0,A,B
1,A1,B1
2,A2,B2


Unnamed: 0,A,B
3,A3,B3
4,A4,B4


Unnamed: 0,A,B
1,A1,B1
2,A2,B2
3,A3,B3
4,A4,B4


In [None]:
df1.append(df2)

In [None]:
df1

#### **IMPORTANTE:** considere que, diferentemente do método `append` de listas,o `append()` do Pandas não altera o objeto original. Ele gera um novo objeto com os dados combinados.

* Como isso envolve a criação de um novo índice e um novo conjunto de dados, `append` pode não ser o melhor método se o plano for concatenar muitos datasets consecutivos.

* Nesses casos é melhor usar a função `pd.concat()`.

# PARTE II 

## Tipos de relacionamentos

#### Uma das características mais valiosas da biblioteca Pandas é sua funcionalidade para realizar joins em memória de forma eficiente.

#### O método merge() permite trabalhar com objetos que apresentam diferentes tipos de relacionamentos:

    1. Um a um.
    2. Muitos a um.
    3. Muitos a muitos.
 

### 1. Join 1-1 (um para um)

In [None]:
import pandas as pd
group = pd.DataFrame({'employee': ['Bob', 'Jake', 'Lisa', 'Sue'], 
                    'group': ['Accounting', 'Engineering', 'Engineering', 'HR']
                   }
                  )
year = pd.DataFrame({'employee': ['Lisa', 'Bob', 'Jake', 'Sue'], 
                    'hire_year': [2004, 2008, 2012, 2014]
                   }
                  )

display(group, year)

#### Vemos que cada funcionário tem um grupo e um ano de contratação. Combinamos os dataframes usando [`pd.merge()`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.merge.html). 

In [None]:
group_year = pd.merge(group, year)
display(group_year)

#### Observe que a função merge encontrou a única coluna compartilhada por ambos os dataframes `"employee"`. A função exige que a coluna tenha o mesmo nome nos dois df.

### 2. Join '1-N' (um para N)

In [None]:
supervisor = pd.DataFrame({'group': ['Accounting', 'Engineering', 'HR'], 
                    'supervisor': ['Carly', 'Guido', 'Steve']
                   }
                  )
display(supervisor)

#### Observe que cada supervisor pertence a UM grupo. Por sua vez, cada grupo pode ter N funcionários.

#### No join entre funcionários e supervisores, os funcionários aparecerão uma única vez, mas os supervisores podem se repetir.

In [None]:
pd.merge(group_year, supervisor)

### 3. Joint N-N (N para N)

In [None]:
skill = pd.DataFrame({'group': ['Accounting', 'Accounting', 'Engineering', 'Engineering', 'HR', 'HR'], 
                    'skills': ['math', 'spreadsheets', 'coding', 'linux','spreadsheets', 'organization']
                   }
                  )
display(skill, group)

#### Observe que cada grupo tem MUITOS skills associados e que também podem pertencer a ele MUITOS funcionários. Portanto, o join entre a tabela de skills e a de funcionários é de MUITOS a MUITOS. Vamos ver no resultado que tanto os skills quanto os funcionários podem se repetir.

In [None]:
group_skill = pd.merge(group, skill)
display(group_skill)

## Joins por diferentes colunas.

#### Pode acontecer que nos nossos dataframes não tenham uma única coluna com o mesmo nome em ambas as tabelas para poder realizar o join. Para resolver esse problema, o Pandas implementa os parâmetros `on`, `right_on` e `left_on`, onde podemos especificar com quais colunas vamos unir os dados.

### Join com `on`.

In [None]:
pd.merge(group, year, on='employee')

### Join com `left_on` e `right_on`.

In [None]:
salary = pd.DataFrame({'name': ['Bob', 'Jake', 'Lisa', 'Sue'], 
                    'salary': [70000, 80000, 120000, 90000]
                   }
                  )
display(group,salary)

In [None]:
pd.merge(group, salary)

In [None]:
pd.merge(group, salary, left_on = "employee", right_on = "name")

### 3. Join com mais de uma coluna.

In [None]:
tool = pd.DataFrame({'group': ['Accounting', 'Accounting', 'Engineering', 'Engineering', 'HR', 'HR'],
                    'skills': ['math', 'spreadsheets', 'coding', 'linux','spreadsheets', 'organization'],
                    'tools': ['calculator','desktop computer','laptop computer','server','desktop computer','board']
                   }
                  )
display(tools)

#### Agora podemos ver as ferramentas por cada funcionário.

In [None]:
pd.merge(group_skill, 
         tool, 
         left_on = ['group','skills'], 
         right_on = ['group','skills']
        )

#### Como os nomes das colunas são iguais, usar apenas `on` é equivalente.

In [None]:
pd.merge(group_skill,tool,on=['group','skills'])

## Tipos de joins.

In [None]:
import pandas as pd
from IPython.display import display
from IPython.display import Image

### 1. Left joins

In [None]:
raw_data = {
        'subject_id': ['1', '2', '3', '4', '5'],
        'first_name': ['Alex', 'Amy', 'Allen', 'Alice', 'Ayoung'],
        'last_name': ['Anderson', 'Ackerman', 'Ali', 'Aoni', 'Atiches']
}

df_a = pd.DataFrame(raw_data)
df_a

In [None]:
raw_data = {
        'subject_id': ['4', '5', '6', '7', '8'],
        'first_name': ['Billy', 'Brian', 'Bran', 'Bryce', 'Betty'],
        'last_name': ['Bonder', 'Black', 'Balwner', 'Brice', 'Btisan']
}
df_b = pd.DataFrame(raw_data)
df_b

#### Usar o valor `left` na forma do `join` produz uma lista completa das linhas de `df_a` com as linhas coincidentes de `df_b`. Se não houver coincidência, as colunas que vêm de `df_b` serão nulas.

In [None]:
pd.merge(df_a, 
         df_b, 
         on = 'subject_id', 
         how = 'left'
        )

### Check: Qual seria o resultado de trocar left por right?

In [None]:
pd.merge(df_a, 
         df_b, 
         on = 'subject_id', 
         how = 'right'
        )

### 2. `Inner` e `outer join`.

#### Conforme mencionado acima, usar a forma `outer` (`OUTER JOIN`)  produz um conjunto de todas as linhas em `df_a` e `df_b`.  Todas as colunas terão valores se a linha tiver uma correspondente no outro. Se não houver coincidência, as colunas onde não tinha valor são preenchidas com `null`.

In [None]:
pd.merge(df_a, 
         df_b, 
         on = 'subject_id', 
         how = 'outer'
        )

### Check: O que aconteceria se usássemos um inner join?

In [None]:
pd.merge(df_a, 
         df_b, 
         on = 'subject_id', 
         how = 'inner'
        )

### Encontrando os casos que aparecem em um dataframe, mas não no outro, com `left join`.

#### Um problema comum que podemos querer resolver é como encontrar os casos presentes em uma tabela, mas não em outra. É possível fazer isso sem dificuldade com um `left join` pelo(s) campo(s) que compõem a chave. 

In [None]:
df1 = pd.DataFrame(data = {'col1' : [1, 2, 3, 4, 5], 
                           'col2' : [10, 11, 12, 13, 14]
                          }
                  ) 
df2 = pd.DataFrame(data = {'col1' : [1, 2, 3], 
                           'col2' : [10, 11, 12]
                          }
                  )
display(df1,df2)

#### Acrescentem a ambos os dataframes umas chaves que tomam sempre o mesmo valor para poder comparar depois.

In [None]:
df1['key1'] = 1
df2['key2'] = 1
display(df1,df2)

#### Quando fazemos o `left join`, os valores de `key2` são preenchidos com `null` para aqueles valores de `df2` que não existem em `df1`.

In [None]:
df1 = pd.merge(df1, 
               df2, 
               on = ['col1', 'col2'], 
               how = 'left'
              )
df1

#### Podemos fazer um subset do resultado do merge para não ficar com aqueles que aparecem em `df1`, mas não em `df2`.

In [None]:
df3 = df1[~(df1.key2 == df1.key1)]
df3 = df3.drop(['key1','key2'], 
               axis = 1
              )
df3

### Revisão de práticas recomendadas de performance

#### O método `join` tem a mesma sintaxe e as mesmas possibilidades que o método `merge`, mas com a diferença de que ele sempre faz o relacionamento pelo `index`. 

#### Criamos dois Dataframes de tamanho `1,000,000`.

In [None]:
df1 = pd.DataFrame(np.arange(1000000), 
                   columns = ['A']
                  )
df1['B'] = np.random.randint(0, 
                             1000, 
                             (1000000)
                            )
df1.head()

In [None]:
df2 = pd.DataFrame(np.arange(1000000), 
                   columns=['A2']
                  )
df2['B2'] = np.random.randint(0, 
                              1000, 
                              (1000000)
                             )
df2.head()

#### Medimos o tempo de execução do `merge`.

In [None]:
def a():
    x = df1.merge(df2, 
                  how = 'left', 
                  left_on = 'A', 
                  right_on = 'A2'
                 )

In [None]:
%timeit a()

#### Medimos o tempo de execução do `join`.

In [None]:
def b():
    x = df1.set_index('A').join(df2.set_index('A2'), 
                                how = 'left'
                               )

In [None]:
%timeit b()

#### Criamos dois Dataframes de tamanho `1,000,000`.

In [None]:
df1 = pd.DataFrame(np.arange(1000000), 
                   columns = ['A']
                  )
df1['B'] = np.random.randint(0, 
                             1000, 
                             (1000000)
                            )
df2 = pd.DataFrame(np.arange(1000000), 
                   columns = ['A2']
                  )
df2['B2'] = np.random.randint(0, 1000, (1000000)
                             )

In [None]:
def set_indA(df):
     df.set_index('A')

In [None]:
def set_indA2(df):
    df.set_index('A2')

In [None]:
def c():
    df1.join(df2)

In [None]:
%timeit set_indA(df1)

In [None]:
%timeit set_indA2(df2)

In [None]:
%timeit c()

## Trabalho com séries de tempo: calcular variações com shift()

#### No trabalho com séries de tempo, é muito comum acrescentar ao dataframe uma variável que indica o grau de alteração de certo valor desde a última medição.

#### Criamos o dataframe.

In [None]:
df = pd.DataFrame()

#### Acrescentamos as séries de dados.

In [None]:
df['hora'] = ['10:30','10:31','10:38','10:40','10:41']
df['quantidade'] = [20,20,9,12,12]
df

In [None]:
df['quantidadeAnterior'] = df['quantidade']
df

#### O método [`.shift()`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.shift.html) deslocar o índice pelo número desejado de períodos.

In [None]:
df['quantidadeAnterior'] = df['quantidade'].shift(periods = 1)
df

In [None]:
df['variacao'] = df['quantidade'] - df['quantidadeAnterior']

In [None]:
df

### Variações com agrupamento.

#### É muito habitual ter que calcular isso, mas para cada indivíduo ou categoria que seja de interesse estudar.

In [None]:
df = pd.DataFrame()

df['operador'] = ['Q8','Q8','Q8','Q7','Q9','Q9']
df['hora'] = ['10:30','10:31','10:32','10:38','10:40','10:41']
df['quantidade'] = [15,20,10,9,12,12]
df

In [None]:
df['quantidadeAntOperador'] = df.groupby(['operador']
                                          )['quantidade'].transform(lambda x: x.shift()
                                                                   )
df

In [None]:
df['variacao_operador'] = df['quantidade'] - df['quantidadeAntOperador']
df