## Aula 6 - Pandas Parte III (Merge e Join)

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt 
import seaborn as sns
import re

### merge (fundir/juntar)
#### A chave de junção (identificador único) foi inferida a partir do contexto (procurando nas colunas)
#### Também pode ser especificada com o argumento on (Ex.: on='key')

In [None]:
# Considere os seguintes DataFrames
df1 = pd.DataFrame({'key': ['b', 'b', 'a', 'c', 'a', 'a', 'b'], 'data1': range(7)})
df2 = pd.DataFrame({'key': ['a', 'b', 'd'], 'data2': range(3)})

In [None]:
# Mostre o dataframe df1
df1

In [None]:
# Mostre o dataframe df2
df2

In [None]:
# Faça o merge dos dois dataframes usando como chave de junção a coluna 'key'
# O parametro on neste caso é redundante. Funcionaria sem ele.
pd.merge(df1, df2, on='key')

# Por que chamamos esse tipo de merge/join de inner ? R.: Porque ele considera apenas a 
#     intersecção dos dois conjuntos de chaves.
# O argumento how='inner' é o padrão.

In [None]:
# Faça também o merge com o argumento how='outer'
pd.merge(df1, df2, how='outer')

In [None]:
left = pd.DataFrame({"A": [1, 2], "B": [1, 2]})
right = pd.DataFrame({"A": [4, 5, 6], "B": [2, 2, 2]})
print(right)
print(left)
pd.merge(left, right, on="B", how="outer", validate="one_to_one")

### join (fundir/juntar)
#### Semelhante ao merge, mas a chave de junção é o índice do DataFrame

In [None]:
# Considere os seguintes DataFrames
left2 = pd.DataFrame([[1., 2.], [3., 4.], [5., 6.]], index=['a', 'c', 'e'], 
                     columns=['Ohio', 'Nevada'])
right2 = pd.DataFrame([[7., 8.], [9., 10.], [11., 12.], [13, 14]],index=['b', 'c', 'd', 'e'],
                     columns=['Missouri', 'Alabama'])


In [None]:
# Mostre o dataframe left2
left2

In [None]:
# Mostre o dataframe right2
right2

In [None]:
# Faça o join entre os dois DataFrames sem descartar registros que não estejam 
#      nos dois DataFrames
left2.join(right2, how='outer')

In [None]:
# Considerando os dataframes left2 e right2 definidos acima
# Faça o join entre os dois DataFrames sem descartar registros que estejam 
# apenas no dataframe left2, e descartando registros que estejam apenas no right2
left2.join(right2, how='left')

### Reshaping / Pivoting (Pivotar)

In [None]:
# Considere o seguinte DataFrame
table = {
    'Aluno': ['AlunoA', 'AlunoA', 'AlunoA', 'AlunoA', 'AlunoB', 'AlunoB', 'AlunoB', 'AlunoB'],
    'Disciplina': ['Portugues', 'Matematica', 'Geografia', 'História', 'Portugues', 'Matematica', 'Geografia', 'História'],
    'Objetiva': [8.5, 7.5, 9, 10, 8.5, 7.5, 9, 10],
    'Discursiva': [6, 6.5, 7.5, 7, 8.5, 7.5, 9, 10]}
df_provas = pd.DataFrame(table)
df_provas

In [None]:
# Pivote o dataframe df_provas colocando a coluna Aluno como índice, 
# os valores da coluna Disciplina como colunas, e os valores da coluna Objetiva
# como conteúdo do novo dataframe
df_pivoted = df_provas.pivot(index='Aluno', columns='Disciplina', values=['Objetiva', 'Discursiva'])
df_pivoted

In [None]:
df_pivoted['Objetiva'].loc['AlunoA',['Geografia', 'História']]

### E quando houver valores repetidos ?
#### Pivotar com o mesmo método pivot() gera exceção. Neste caso, use o método pivot_table 
#### mean é a métrica padrão de cálculo sobre a de agregação

In [None]:
# Considere o seguinte DataFrame
table2 = {
    'Aluno': ['AlunoA', 'AlunoA', 'AlunoA', 'AlunoA', 'AlunoA', 'AlunoB', 'AlunoB', 'AlunoB', 'AlunoB'],
    'Disciplina': ['Portugues', 'Matematica', 'Geografia', 'Geografia', 'História', 'Portugues', 'Matematica', 'Geografia', 'História'],
    'Objetiva': [8.5, 7.5, 9, 10, 9, 8.5, 7.5, 9, 10],
    'Discursiva': [6, 6.5, 7.5, 7, 8, 8.5, 7.5, 9, 10]}
df_provas2 = pd.DataFrame(table2)
df_provas2

In [None]:
# Pivotar com o mesmo comando gera uma exceção
# df_pivoted2 = df_provas2.pivot(index='Aluno', columns='Disciplina', values='Objetiva')
# Use a funcao pivot_table. O valor padrão do argumento aggfunc é 'mean'
df_pivoted2 = df_provas2.pivot_table(index='Aluno', columns='Disciplina', values='Objetiva',
                                    aggfunc='max')
df_pivoted2


### Reshaping / Pivoting com Índice Hierárquico
#### Método stack/unstack (Pivotar com índice hierárquico)

In [None]:
# Considere o seguinte dataframe
data = pd.DataFrame(np.arange(6).reshape((2, 3)),
                    index=pd.Index(['Ohio', 'Colorado'], name='state'),
                    columns=pd.Index(['one', 'two', 'three'],
                    name='number'))
data

In [None]:
data.T

In [None]:
# Faça uma operação de unpivoting (stack) com o dataframe data e guarde na variavel result
result = data.stack()
result

In [None]:
# Faça uma operação de pivoting (unstack) com o dataframe result
result.unstack()

### Datetime em Python

In [None]:
from datetime import datetime # Esta biblioteca python realiza diversas operações com datas

In [None]:
# Criar data a partir dos números do ano, dia e mês
datetime(2020, 5, 17)

In [None]:
# Crie um objeto datetime a partir da data '18/09/19 01:55:19' usando o método strptime
datetime.strptime('18/09/19 01:55:19', '%d/%m/%y %H:%M:%S')

In [None]:
# Crie novamente o mesmo objeto datetime criado acima, desta vez guardando-o numa variavel d
d = datetime.strptime('18/09/19 01:55:19', '%d/%m/%y %H:%M:%S')
# Converta o datetime guardado em d para um string ANO-MÊS-DIA
d.strftime('%Y-%m-%d')

In [None]:
#Datetime de agora
datetime.now()

In [None]:
# Imprima o ano armazenado na variável datetime d
print(d.day, d.month, d.year, d.hour, d.minute)

In [None]:
# Dia da semana
d.weekday()  


In [None]:
#timedelta  (intervalo de tempo)
from datetime import timedelta
d = timedelta(weeks=2)
d

In [None]:
#Aritmética de datas
datetime.now() + timedelta(days=15)


In [None]:
#Subtração
date1 = datetime(2021, 5, 21, 18, 25, 30)
date2 = datetime(2021, 5, 16, 8, 21, 10)
date1 - date2

In [None]:
long_month_name = "February, 10, 2021"
datetime_object = datetime.strptime(long_month_name, "%B, %d, %Y")
datetime_object

In [None]:
import locale
# Mostra o locale corrente (atual)

locale.setlocale(locale.LC_ALL, 'pt_BR.UTF-8')
locale.getlocale()

### Manipulação de Datas com Pandas

#### Amostras de datas em Intervalos fixos

In [None]:
pd.date_range("2018-01-01", periods=3, freq="H")

In [None]:
# Criar uma série que contenha numeros sequenciais 
# e um índice com datas datas
idx = pd.date_range("2018-01-01", periods=10, freq="H")
ts = pd.DataFrame(range(len(idx)), index=idx)
ts.reset_index()

#### Reamostrar uma Série temporal 

In [None]:
# Reamostrar os valores num intervalo de 2h, 
# aplicando a média como métrica da reamostragem
ts.resample("2H").mean()

#### String para Datetime com Pandas

In [None]:
#Converter uma string
pd.to_datetime("2010/11/12", format="%Y/%m/%d")

In [None]:
# Converter os valores de uma serie
s = pd.Series(['3/11/2000', '3/12/2000', '3/13/2000'])
pd.to_datetime(s, infer_datetime_format=True)