**Tópicos**:
 - **O que é Data Wrangling:**
 - **Definição de Tidy Format** 
 - **Os 5 problemas mais comuns**
     - As Colunas são Valores e Não nomes de Variáveis
     - Múltiplas Unidades Observacionais armazenadas na mesma tabela
     - Múltiplas Variáveis Armazenadas em uma Coluna
     - Variáveis Armazenadas em Colunas e Linhas
     - Uma única unidade Observacional em várias tabelas
 - **Joins**
     - Inner Join
     - Left Join
     - Right Join
     - Outer Join

In [None]:
#Dependencias
import pandas as pd
import numpy as np
!pip install datetime
import datetime



# O que é Data Wrangling

**Data Wrangling** é o processo pelo qual os dados coletados passam por uma transformação para que se tornem mais acionáveis, apropriados e valiosos para uma variedade de finalidades.

Muitas vezes o formato do dado recebido/coletado facilita a visualização e apresentação, mas dificulta a modelagem e exploração. Dessa forma, as operações envolvidas no processo de Data Wrangling tentam justamente resolver esse problema.

# Definição de Tidy Format

Wickham em seu <a href="http://vita.had.co.nz/papers/tidy-data.pdf"> artigo </a> 
definiu o conceito de tidy data de acordo com algumas propriedades que esse tipo de formato possuiria:

* Cada variável forma uma coluna e contém valores
* Cada observação forma uma linha
* Cada tipo de unidade observacional forma uma tabela



* Algumas Outras definições: 

    - Variável: Um atributo (característica). Altura, Peso, Sexo, etc.
    - Valor: Medição de alguma variável (atributo). 152 cm, 80 kg, Feminino etc.
    - Observação: Todas as medidads coletadas de um único evento, usuário, entre outros.


O que é uma unidade observacional?

A unidade observacional é a estrutura mais fundamental da observação. É nossa referência! Veja a tabela abaixo:

Temos medições de temperatura em duas cidades distintas e em semanas distintas.

| Week| Temperatura_Cidade_A | Temperatura_Cidade_B 
| :- | -: | :-: |
| 1 | 35 | 30| 30
| 2 | 40 | 33

Que também poderia ser representada assim:

| Week| 1 | 2 
| :- | -: | :-: |
| Temperatura_Cidade_A | 35 | 30| 30
| Temepratura_Cidade_B | 40 | 33

Contudo ambas são messy. O formato tidy para essa tabela seria esse:

| Week| Cidade | Temperatura 
| :- | -: | :-: |
| 1 | A | 35| 
| 1 | B | 30|
| 2 | A | 40| 
| 2 | B | 33|

Note que nossa referência (unidade observacional) é ```cidade-semana```.

Agora, imagine se estivéssemos coletando também a altitude da cidade. Note que a altitude.

Teríamos uma unidade observacional 1 (cidade-semana) e outra unidade observacional (cidade). Na mesma tabela teríamos informações sobre cidade-semana (temperaturas) e somente sobre as cidades. Do ponto de vista tidy, o ideal é que essas informações fiquem em tabelas diferentes.

Exemplo de um Messy Data (dado com formato não adequado.)

| Nome | Tratamento A | Tratamento B |
| :- | -: | :-: |
| Bruno | 25 | 2.3
| Maurício | 10 | 18.3
| Laura | 4.9 | 40.2



Exemplo de um Tidy Data (dado com formato adequado)

| Nome | Tratamento | Resultado |
| :- | -: | :-: |
| Bruno | A | 25
| Bruno | B | 2.3
| Mauricio | A | 10
| Mauricio | B | 18.3
| Laura | A | 4.9
| Laura | B | 40.2

**OBS**: Um Messy Data é todo aquele conjunto que não é Tidy :))

## Os 5 problemas mais comuns 

Em seu artigo, Wichkam traz alguns dos problemas mais frequentes em conjuntos de dados


* As colunas são valores e não nomes de variáveis
* Múltiplas variáveis armazenadas na mesma coluna
* Variáveis armazenadas nas linhas e nas colunas simultaneamente
* Múltiplos tipos de unidades observacionais armazenadas na mesma tabela
* Uma única unidade observacional representada em mais de uma tabela

Vamos estudar um pouco caso a caso e praticar um poouco a arte de transfomar os dados.

### As Colunas são Valores e Não nomes de Variáveis

Vamos ler o arquivo ```pew-raw.csv```

In [None]:
df_pew_raw = pd.read_csv('pew_raw.csv')

In [None]:
df_pew_raw

Unnamed: 0,religion,<$10k,$10-20k,$20-30k,$30-40k,$40-50k,$50-75k
0,Agnostic,27,34,60,81,76,137
1,Atheist,12,27,37,52,35,70
2,Buddhist,27,21,30,34,33,58
3,Catholic,418,617,732,670,638,1116
4,Dont know/refused,15,14,15,11,10,35
5,Evangelical Prot,575,869,1064,982,881,1486
6,Hindu,1,9,7,9,11,34
7,Historically Black Prot,228,244,236,238,197,223
8,Jehovahs Witness,20,27,24,24,21,30
9,Jewish,19,19,25,25,30,95


A coluna religion é um idenitifcador do registro e as demais colunas representam variáveis (faixas de valores) associadas a receita. Contudo, note que essas colunas poderiam ser condensadas em uma única coluna de receita.
Para fazer isso vamos utilizar a função ```pd.melt()``` do pandas.

```pd.melt(frame, id_vars=None, value_vars=None, var_name=None, value_name='value')```

* ```frame```: Objeto de dados (dataframe)
* ```id_vars```: Coluna identificadora (não será usada na transformação)
* ```value_vars```: Coluna(s) que você queira transformar
* ```var_name```: Nome da variável que será criada na transformação
* ```value_name```: Nome do valor associado a variável criada    

In [None]:
pd.melt(frame=df_pew_raw, id_vars='religion', var_name='faixa_receita', value_name='frequencia')

Unnamed: 0,religion,faixa_receita,frequencia
0,Agnostic,<$10k,27
1,Atheist,<$10k,12
2,Buddhist,<$10k,27
3,Catholic,<$10k,418
4,Dont know/refused,<$10k,15
5,Evangelical Prot,<$10k,575
6,Hindu,<$10k,1
7,Historically Black Prot,<$10k,228
8,Jehovahs Witness,<$10k,20
9,Jewish,<$10k,19


Perceba o que ocorreu:
+ Cada coluna (faixa) foi transformada em uma linha (uma nova linha para cada religião). 
+ O valor contido nas celulas do primeiro data frame foram transferidos para a coluna de frequência, onde há o match exato entre religião e faixa.

In [None]:
df_billboard = pd.read_csv('billboard.csv')

In [None]:
df_billboard

Unnamed: 0,year,artist.inverted,track,time,genre,date.entered,date.peaked,x1st.week,x2nd.week,x3rd.week,...,x67th.week,x68th.week,x69th.week,x70th.week,x71st.week,x72nd.week,x73rd.week,x74th.week,x75th.week,x76th.week
0,2000,Destiny's Child,Independent Women Part I,3:38,Rock,2000-09-23,2000-11-18,78,63.0,49.0,...,,,,,,,,,,
1,2000,Santana,"Maria, Maria",4:18,Rock,2000-02-12,2000-04-08,15,8.0,6.0,...,,,,,,,,,,
2,2000,Savage Garden,I Knew I Loved You,4:07,Rock,1999-10-23,2000-01-29,71,48.0,43.0,...,,,,,,,,,,
3,2000,Madonna,Music,3:45,Rock,2000-08-12,2000-09-16,41,23.0,18.0,...,,,,,,,,,,
4,2000,"Aguilera, Christina",Come On Over Baby (All I Want Is You),3:38,Rock,2000-08-05,2000-10-14,57,47.0,45.0,...,,,,,,,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
312,2000,Ghostface Killah,Cherchez LaGhost,3:04,R&B,2000-08-05,2000-08-05,98,,,...,,,,,,,,,,
313,2000,"Smith, Will",Freakin' It,3:58,Rap,2000-02-12,2000-02-12,99,99.0,99.0,...,,,,,,,,,,
314,2000,Zombie Nation,Kernkraft 400,3:30,Rock,2000-09-02,2000-09-02,99,99.0,,...,,,,,,,,,,
315,2000,"Eastsidaz, The",Got Beef,3:58,Rap,2000-07-01,2000-07-01,99,99.0,,...,,,,,,,,,,


Billboard é um ranking musical lá dos EUA que mostra o ranking semanal das músicas ao longo de 75 semanas, a partir do moomento em que a música entra no TOP 100.
* Problemas:
    - As colunas possuem valores (x1st.week, x2nd.week e etc.)
* O que podemos fazer:
    - Criar uma única coluna com as datas (cada semana irá tornar-se uma linha para cada música do ranking) e usar seu valor para criar a colunad e ranking. No caso de valores missing, deletaremos as linhas referentes às músicas que estiveram fora do ranking por menos de 75 semanas.

In [None]:
id_vars = ['year','artist.inverted', 'track', 'time', 'genre', 'date.entered', 'date.peaked']
df_tidy_billboard = pd.melt(df_billboard, id_vars=id_vars, var_name='semana', value_name='posicao')

In [None]:
df_tidy_billboard.dropna(inplace=True)

In [None]:
df_tidy_billboard

Unnamed: 0,year,artist.inverted,track,time,genre,date.entered,date.peaked,semana,posicao
0,2000,Destiny's Child,Independent Women Part I,3:38,Rock,2000-09-23,2000-11-18,x1st.week,78.0
1,2000,Santana,"Maria, Maria",4:18,Rock,2000-02-12,2000-04-08,x1st.week,15.0
2,2000,Savage Garden,I Knew I Loved You,4:07,Rock,1999-10-23,2000-01-29,x1st.week,71.0
3,2000,Madonna,Music,3:45,Rock,2000-08-12,2000-09-16,x1st.week,41.0
4,2000,"Aguilera, Christina",Come On Over Baby (All I Want Is You),3:38,Rock,2000-08-05,2000-10-14,x1st.week,57.0
...,...,...,...,...,...,...,...,...,...
19663,2000,Lonestar,Amazed,4:25,Country,1999-06-05,2000-03-04,x63rd.week,45.0
19700,2000,Creed,Higher,5:16,Rock,1999-09-11,2000-07-22,x63rd.week,50.0
19980,2000,Lonestar,Amazed,4:25,Country,1999-06-05,2000-03-04,x64th.week,50.0
20017,2000,Creed,Higher,5:16,Rock,1999-09-11,2000-07-22,x64th.week,50.0


* Exercício:
    - Extraia o Número da Semana da coluna semana e armazene em uma nova coluna (tipo inteiro).
    - Extraia a Data referente a semana específica para cada artista e música e armazene em uma nova coluna.

Para o primeiro exercício precisamos usar uma expressão regular (regex) para extrair padrões em cadeias de caracteres (stirngs)

In [None]:
# Expressão regular para extrair digitos das strings 
# Expand = False para criar uma series e não um dataframe
df_tidy_billboard['semana_numero'] = df_tidy_billboard['semana'].str.extract('(\d+)', expand=False).astype(int)

0         1
1         1
2         1
3         1
4         1
         ..
19663    63
19700    63
19980    64
20017    64
20334    65
Name: semana, Length: 5307, dtype: int64

 Temos a data de entrada (que seria a primeira semana).
Então basta contar quantas semanas a frente da primeira semana estamos e adicionar a data de entrada para obter a data atual

In [None]:
 pd.to_datetime(df_tidy_billboard['date.entered'], format='%Y-%m-%d')

0       2000-09-23
1       2000-02-12
2       1999-10-23
3       2000-08-12
4       2000-08-05
           ...    
19663   1999-06-05
19700   1999-09-11
19980   1999-06-05
20017   1999-09-11
20334   1999-09-11
Name: date.entered, Length: 5307, dtype: datetime64[ns]

In [None]:
pd.to_timedelta(df_tidy_billboard['semana_numero'], unit='W')

0         7 days
1         7 days
2         7 days
3         7 days
4         7 days
          ...   
19663   441 days
19700   441 days
19980   448 days
20017   448 days
20334   455 days
Name: semana_numero, Length: 5307, dtype: timedelta64[ns]

A primeira semana se refere a data de entrada. A data segunda semana, se refere a data da primeira semana + 1 semana inteira. E assim por diante.

Data da semana = Data Entrada + Semanas Passadas 

Semanas passadas = Semana atual - 1

In [None]:
df_tidy_billboard['semanas_passadas'] = df_tidy_billboard['semana_numero'] - 1

In [None]:
df_tidy_billboard['semana_data'] = pd.to_datetime(df_tidy_billboard['date.entered']) + pd.to_timedelta(df_tidy_billboard['semanas_passadas'], unit='w')

### Múltiplas Unidades Observacionais armazenadas na mesma tabela

Mesmo já melhorando a estrutura mais bruta do dataset, note que existe muita informação repetida (ano, título da música, artista, tempo de execução e gênero)

Isso ocorre, pois nosso dataset ainda não está de acordo com os princípios tidy em sua totalidade. Há um em especial que está sendo violado.

Veja que temos mais de uma unidade observacional nos nossos dados: (Ranking+Música+Data) e Música, que contém informações descritivas como artista, tempo e gênero. Pelo princípio do tidy data, precisamos separar esas informações em tabelas separadas.

Inicialmente vamos separar as músicas e suas respectivas informações.

In [None]:
# Criando uma tabela separada
info_colunas_musicas = ["year", "artist.inverted", "track", "time", "genre"]
songs = df_tidy_billboard.loc[:, info_colunas_musicas]
# Vamos resetar o índice
songs.reset_index(drop=True) # sem o drop ele cria uma coluna nova com o índice antigo
# vamos criar uma nova coluna de identificador de música
songs['identificador_musica'] = np.arange(1, len(songs)+1)

In [None]:
df_tidy_billboard

Unnamed: 0,year,artist.inverted,track,time,genre,date.entered,date.peaked,semana,posicao,semana_numero,semanas_passadas,semana_data
0,2000,Destiny's Child,Independent Women Part I,3:38,Rock,2000-09-23,2000-11-18,x1st.week,78.0,1,0,2000-09-23
1,2000,Santana,"Maria, Maria",4:18,Rock,2000-02-12,2000-04-08,x1st.week,15.0,1,0,2000-02-12
2,2000,Savage Garden,I Knew I Loved You,4:07,Rock,1999-10-23,2000-01-29,x1st.week,71.0,1,0,1999-10-23
3,2000,Madonna,Music,3:45,Rock,2000-08-12,2000-09-16,x1st.week,41.0,1,0,2000-08-12
4,2000,"Aguilera, Christina",Come On Over Baby (All I Want Is You),3:38,Rock,2000-08-05,2000-10-14,x1st.week,57.0,1,0,2000-08-05
...,...,...,...,...,...,...,...,...,...,...,...,...
19663,2000,Lonestar,Amazed,4:25,Country,1999-06-05,2000-03-04,x63rd.week,45.0,63,62,2000-08-12
19700,2000,Creed,Higher,5:16,Rock,1999-09-11,2000-07-22,x63rd.week,50.0,63,62,2000-11-18
19980,2000,Lonestar,Amazed,4:25,Country,1999-06-05,2000-03-04,x64th.week,50.0,64,63,2000-08-19
20017,2000,Creed,Higher,5:16,Rock,1999-09-11,2000-07-22,x64th.week,50.0,64,63,2000-11-25


In [None]:
info_colunas_ranking = ["posicao","semana_data"]
ranking = df_tidy_billboard.loc[:, info_colunas_ranking]
ranking['identificador_musica'] = songs['identificador_musica']

Agora as duas tabelas podem se comunicar por meio da coluna ```identificador_musica```.

## Múltiplas Variáveis Armazenadas em uma Coluna

Esse datase contém registros de casos de tuberculose. É uma contgagem de casos por País, ano, idade e sexo.

Problemas:
* Algumas colunas contêm múltiplos valores: sexo e idade
* Mistura de 0 e NaN para representar dados faltosos (faz diferença?)

In [None]:
df_tb_raw = pd.read_csv("tb-raw.csv")

In [None]:
df_tb_raw

Unnamed: 0,country,year,m014,m1524,m2534,m3544,m4554,m5564,m65,mu,f014
0,AD,2000,0.0,0.0,1.0,0.0,0,0,0.0,,
1,AE,2000,2.0,4.0,4.0,6.0,5,12,10.0,,3.0
2,AF,2000,52.0,228.0,183.0,149.0,129,94,80.0,,93.0
3,AG,2000,0.0,0.0,0.0,0.0,0,0,1.0,,1.0
4,AL,2000,2.0,19.0,21.0,14.0,24,19,16.0,,3.0
5,AM,2000,2.0,152.0,130.0,131.0,63,26,21.0,,1.0
6,AN,2000,0.0,0.0,1.0,2.0,0,0,0.0,,0.0
7,AO,2000,186.0,999.0,1003.0,912.0,482,312,194.0,,247.0
8,AR,2000,97.0,278.0,594.0,402.0,419,368,330.0,,121.0
9,AS,2000,,,,,1,1,,,


m014 significa Homens entre 0 e 14 anos, m1524 significa Homens entre 15 e 24 anos e assim por diante. Então, note que temos, de fato, mais de uma variável em uma única coluna.

Inicialmente, vamos desfazer as colunas, criando uma coluna chamada sexo_e_idade. Dessa forma, as colunas não existirão e passarão a ser uma única contendo sexo e idade e seus valores serão registros.

In [None]:
# Vamos fixar o pais (country) e o ano (year), vamos dar o nome da nova coluna de sexo_e_idade 
# A coluna com o número de casos se chamará numero_casos
df_tb_raw_tidy = pd.melt(df_tb_raw, id_vars=["country","year"], value_name="numer_casos", var_name="sexo_e_idade")


In [None]:
df_tb_raw_tidy

Unnamed: 0,country,year,sex_and_age,numer_casos
0,AD,2000,m014,0.0
1,AE,2000,m014,2.0
2,AF,2000,m014,52.0
3,AG,2000,m014,0.0
4,AL,2000,m014,2.0
...,...,...,...,...
85,AM,2000,f014,1.0
86,AN,2000,f014,0.0
87,AO,2000,f014,247.0
88,AR,2000,f014,121.0


Até agora OK. Precisamos separar a coluna sexo_e_idade em duas: sexo, idade.
para isso, precisamos extrair o caractere que identifica o sexo (m ou f) e também a faixa de idade que tem 3 ou 4 números seguidos. Para isso vamos utilizar uma velha conhecida: a regex.

Vamos fazer isso por partes:
* Usaremos ```\D``` para dar match com qualquer caractere que não seja um número (importante dizer que depois que o match ocorre, não há uma busca posterior nesse caso.)
* Usaremos 

In [None]:
df_tb_raw_tidy['sexo'] = df_tb_raw_tidy["sexo_e_idade"].str.extract("(\D)")    


In [None]:
df_tb_raw_tidy['faixa'] = df_tb_raw_tidy["sexo_e_idade"].str.extract("(\d+)")    



In [None]:
x = df_tb_raw_tidy['faixa'][35]

In [None]:
def criar_faixas(x):
    if x[0] == '0':
        return x[0]+'-'+x[1:]
    else:
        return x[0:2]+'-'+x[2:]

In [None]:
df_tb_raw_tidy['faixa'] = df_tb_raw_tidy['faixa'].astype('object')

In [None]:
df_tb_raw_tidy['faixa_idade'] = df_tb_raw_tidy['faixa'].map(criar_faixas, na_action='ignore')

In [None]:
df_tb_raw_tidy.drop(['faixa'], axis=1, inplace=True)

In [None]:
df_tb_raw_tidy

Unnamed: 0,country,year,sexo_e_idade,numer_casos,sexo,faixa_idade
0,AD,2000,m014,0.0,m,0-14
1,AE,2000,m014,2.0,m,0-14
2,AF,2000,m014,52.0,m,0-14
3,AG,2000,m014,0.0,m,0-14
4,AL,2000,m014,2.0,m,0-14
...,...,...,...,...,...,...
85,AM,2000,f014,1.0,f,0-14
86,AN,2000,f014,0.0,f,0-14
87,AO,2000,f014,247.0,f,0-14
88,AR,2000,f014,121.0,f,0-14


## Variáveis Armazenadas em Colunas e Linhas

Esse dataset apresenta os registros diários do tempo (temperaturas) na estação MX17004,no Mxico, pelo período de 5 meses em 2010.

Problemas:
* Variáveis armazenadas nas linhas (tmin, tmax) e também colunas (dias)

In [None]:
df_weather_raw = pd.read_csv('weather-raw.csv')

In [None]:
df_weather_raw

Unnamed: 0,id,year,month,element,d1,d2,d3,d4,d5,d6,d7,d8
0,MX17004,2010,1,tmax,,,,,,,,
1,MX17004,2010,1,tmin,,,,,,,,
2,MX17004,2010,2,tmax,,27.3,24.1,,,,,
3,MX17004,2010,2,tmin,,14.4,14.4,,,,,
4,MX17004,2010,3,tmax,,,,,32.1,,,
5,MX17004,2010,3,tmin,,,,,14.2,,,
6,MX17004,2010,4,tmax,,,,,,,,
7,MX17004,2010,4,tmin,,,,,,,,
8,MX17004,2010,5,tmax,,,,,,,,
9,MX17004,2010,5,tmin,,,,,,,,


Para transformar esse dataset precisaremos, a partir das colunas de dia e element (temperatura máxima e mínima). criar as variáveis data, temperatura_máxima e temperatura_mínima.

In [None]:
# vamos começar transformando as colunas de dia em uma única coluna
df_weather_tidy = pd.melt(df_weather_raw, id_vars = ['id', 'year', 'month', 'element'], var_name='dia', value_name='temperatura')


In [None]:
df_weather_tidy

Unnamed: 0,id,year,month,element,dia,temperatura
0,MX17004,2010,1,tmax,d1,
1,MX17004,2010,1,tmin,d1,
2,MX17004,2010,2,tmax,d1,
3,MX17004,2010,2,tmin,d1,
4,MX17004,2010,3,tmax,d1,
...,...,...,...,...,...,...
75,MX17004,2010,3,tmin,d8,
76,MX17004,2010,4,tmax,d8,
77,MX17004,2010,4,tmin,d8,
78,MX17004,2010,5,tmax,d8,


In [None]:
df_weather_tidy["dia_numero"] =  df_weather_tidy["dia"].str.extract("(\d)")   



In [None]:
df_weather_tidy["dia_numero"]

0     1
1     1
2     1
3     1
4     1
     ..
75    8
76    8
77    8
78    8
79    8
Name: dia_numero, Length: 80, dtype: object

Vamos agora criar uma data a partir do mês, ano e dia.

In [None]:
# Primeiramente converter para numerico tudo
df_weather_tidy.loc[:, ['year', 'month', 'dia_numero']] = df_weather_tidy.loc[:, ['year', 'month', 'dia_numero']].astype('int')

In [None]:
def criar_data(x):
    data = datetime.datetime(year=x['year'], month=int(x['month']), day=x['dia_numero'])
    return data

In [None]:
df_weather_tidy['data'] = df_weather_tidy.apply(criar_data, axis=1)

In [None]:
df_weather_tidy

Unnamed: 0,id,year,month,element,dia,temperatura,dia_numero,data
0,MX17004,2010,1,tmax,d1,,1,2010-01-01
1,MX17004,2010,1,tmin,d1,,1,2010-01-01
2,MX17004,2010,2,tmax,d1,,1,2010-02-01
3,MX17004,2010,2,tmin,d1,,1,2010-02-01
4,MX17004,2010,3,tmax,d1,,1,2010-03-01
...,...,...,...,...,...,...,...,...
75,MX17004,2010,3,tmin,d8,,8,2010-03-08
76,MX17004,2010,4,tmax,d8,,8,2010-04-08
77,MX17004,2010,4,tmin,d8,,8,2010-04-08
78,MX17004,2010,5,tmax,d8,,8,2010-05-08


In [None]:
# vamos dropar os NaN
df_weather_tidy.dropna(inplace=True)

# Joins

Joins são operações entre tabelas e servem para unir informações, combiando-as em uma única tabela. Os tipos de joins mais comuns são: left join, right join, inner join e outer join.

Para construir joins no pandas, temos duas formas: ```join``` e ```merge```. O método join funciona com indíces de data frame. O método merge, por sua vez, funciona com colunas, por isso iremos utilizá-lo.

Imagine que queiramos representar em tabelas os produtos de uma loja e as compras de clientes.

In [None]:
produtos=pd.DataFrame({
    'Produto_ID':[101,102,103,104,105,106,107],
    'nome_produto':['Relógio','Mochila','Tênis','Celular','Livro','Xampu','Computador'],
    'categoria':['estilo','estilo','estilo','eletrônicos','estudos','beleza','eletrônicos'],
    'preço':[299.0,1350.50,2999.0,14999.0,145.0,110.0,79999.0],
    'cidade_seller':['Delhi','Mumbai','Chennai','Kolkata','Delhi','Chennai','Bengalore']
})



In [None]:
clientes=pd.DataFrame({
    'id':[1,2,3,4,5,6,7,8,9],
    'name':['Ulrich','Jonas','Claudia','Adan','Eva','Helge','Elisabeth','Martha','Hannah'],
    'age':[20,25,15,10,30,65,35,18,23],
    'Produto_ID':[101,0,106,0,103,104,0,0,107],
    'item':['Relógio','NA','Xampu','NA','Tênis','Celular','NA','NA','Computador'],
    'cidade':['Mumbai','Delhi','Bangalore','Chennai','Chennai','Delhi','Kolkata','Delhi','Mumbai']
})

## Inner Join

Inner join é a operação que nos trará registros das duas tabelas que compartilham pelo menos uma informação em comum.

<img src="https://3.bp.blogspot.com/-MNEsPEb2v6I/UlATX9dcn4I/AAAAAAAAAH0/Jq2KuHPAJZM/s1600/INNER+JOIN.png" height=500 widht=239>

sintaxe: ```df1.merge(df, left_on, right_on, how```

```df1```: dataframe 1 (left)<br>
```df2```: dataframe 2 (right)<br>
```left_on```: Coluna para dar match no df1<br>
```right_on```: Coluna para dar match no df2<br>
```how```: inner, right, left, outer

In [None]:
clientes.merge(produtos, left_on='Produto_ID', right_on='Produto_ID', how='inner')

Unnamed: 0,id,name,age,Produto_ID,item,cidade,nome_produto,categoria,preço,cidade_seller
0,1,Ulrich,20,101,Relógio,Mumbai,Relógio,estilo,299.0,Delhi
1,3,Claudia,15,106,Xampu,Bangalore,Gasolina,combustíveis,110.0,Chennai
2,5,Eva,30,103,Tênis,Chennai,Tênis,estilo,2999.0,Chennai
3,6,Helge,65,104,Celular,Delhi,Celular,eletrônicos,14999.0,Kolkata
4,9,Hannah,23,107,Computador,Mumbai,Computador,eletrônicos,79999.0,Bengalore


In [None]:
clientes

Unnamed: 0,id,name,age,Produto_ID,item,cidade
0,1,Ulrich,20,101,Relógio,Mumbai
1,2,Jonas,25,0,,Delhi
2,3,Claudia,15,106,Xampu,Bangalore
3,4,Adan,10,0,,Chennai
4,5,Eva,30,103,Tênis,Chennai
5,6,Helge,65,104,Celular,Delhi
6,7,Elisabeth,35,0,,Kolkata
7,8,Martha,18,0,,Delhi
8,9,Hannah,23,107,Computador,Mumbai


## Left Join

Nem sempre há correspondência em todas as linhas das duas tabelas. Pode acontecer de um registro da tabela 1 não estar contido na tabela 2 e vice-versa. Mesmo assim, às vezes temos a necessidade de trazer todos os registros de uma tabela específica. No Left Join ele mantém os registros da tabela da esquerda.

<img src="https://upload.wikimedia.org/wikipedia/commons/f/f2/Left_JOIN.png" height=500 width=500>

In [None]:
clientes.merge(produtos, left_on='Produto_ID', right_on='Produto_ID', how='left')

Unnamed: 0,id,name,age,Produto_ID,item,cidade,nome_produto,categoria,preço,cidade_seller
0,1,Ulrich,20,101,Relógio,Mumbai,Relógio,estilo,299.0,Delhi
1,2,Jonas,25,0,,Delhi,,,,
2,3,Claudia,15,106,Xampu,Bangalore,Gasolina,combustíveis,110.0,Chennai
3,4,Adan,10,0,,Chennai,,,,
4,5,Eva,30,103,Tênis,Chennai,Tênis,estilo,2999.0,Chennai
5,6,Helge,65,104,Celular,Delhi,Celular,eletrônicos,14999.0,Kolkata
6,7,Elisabeth,35,0,,Kolkata,,,,
7,8,Martha,18,0,,Delhi,,,,
8,9,Hannah,23,107,Computador,Mumbai,Computador,eletrônicos,79999.0,Bengalore


## Right Join

O Right Join é o contrário do Left Join. Ou seja, quando não houver correspondência, mesmo assim os registros da tabela da direita serão mantidos.

<img src="https://javatutorial.net/wp-content/uploads/2018/02/sql-right-join.png" height=300 width=530>

In [None]:
clientes.merge(produtos, left_on='Produto_ID', right_on='Produto_ID', how='right')

Unnamed: 0,id,name,age,Produto_ID,item,cidade,nome_produto,categoria,preço,cidade_seller
0,1.0,Ulrich,20.0,101,Relógio,Mumbai,Relógio,estilo,299.0,Delhi
1,3.0,Claudia,15.0,106,Xampu,Bangalore,Gasolina,combustíveis,110.0,Chennai
2,5.0,Eva,30.0,103,Tênis,Chennai,Tênis,estilo,2999.0,Chennai
3,6.0,Helge,65.0,104,Celular,Delhi,Celular,eletrônicos,14999.0,Kolkata
4,9.0,Hannah,23.0,107,Computador,Mumbai,Computador,eletrônicos,79999.0,Bengalore
5,,,,102,,,Mochila,estilo,1350.5,Mumbai
6,,,,105,,,Livro,estudos,145.0,Delhi


## Outer Join

Por fim, o outer join traz informações das duas tabelas, mesmo sem correspondência de um lado ou de outro.

In [None]:
clientes.merge(produtos, left_on='Produto_ID', right_on='Produto_ID', how='outer')

Unnamed: 0,id,name,age,Produto_ID,item,cidade,nome_produto,categoria,preço,cidade_seller
0,1.0,Ulrich,20.0,101,Relógio,Mumbai,Relógio,estilo,299.0,Delhi
1,2.0,Jonas,25.0,0,,Delhi,,,,
2,4.0,Adan,10.0,0,,Chennai,,,,
3,7.0,Elisabeth,35.0,0,,Kolkata,,,,
4,8.0,Martha,18.0,0,,Delhi,,,,
5,3.0,Claudia,15.0,106,Xampu,Bangalore,Gasolina,combustíveis,110.0,Chennai
6,5.0,Eva,30.0,103,Tênis,Chennai,Tênis,estilo,2999.0,Chennai
7,6.0,Helge,65.0,104,Celular,Delhi,Celular,eletrônicos,14999.0,Kolkata
8,9.0,Hannah,23.0,107,Computador,Mumbai,Computador,eletrônicos,79999.0,Bengalore
9,,,,102,,,Mochila,estilo,1350.5,Mumbai


In [None]:
# Faz merge apenas com a coluna preço do df produto
clientes.merge(produtos.loc[:, ['Produto_ID', 'preço']], left_on='Produto_ID', right_on='Produto_ID', how='outer')