# Introdução ao Pandas

## Módulo 5: Combinando Dataframes
- Usando `.concat` para combinar dataframes horizontal ou verticalmente
- Introdução à junção de dataframes como tabelas de banco de dados
- Compreendendo os diferentes tipos de junções
- Usando `.merge` para unir dataframes com base em valores de colunas em comum

In [None]:
import pandas as pd

In [None]:
# Concatenação de strings
"con" + "cat" + "e" + "nation"

In [None]:
# Concatenação de lista
["con", "cat"] + ["e", "nation"]

In [None]:
# Concatenação de Dataframe
frutas = pd.DataFrame({
    "nome": ["manga", "goiaba", "laranja"],
    "quantidade": [2, 1, 3]
})

vegetais = pd.DataFrame({
    "nome": ["Couve", "espinafre", "brócolis"],
    "quantidade": [1, 7, 4]
})

In [None]:
# Os argumentos padrão preservam o índice original para cada dataframe
pd.concat([frutas, vegetais])

In [None]:
# Axis=0 é o argumento padrão para concatenar dataframes
# Esta é uma concatenação vertical, já que estamos adicionando linha a linha
pd.concat([frutas, vegetais], axis=0)

In [None]:
pd.concat([frutas, vegetais], ignore_index=True)

In [None]:
# Concatenação de DataFrame
frutas = pd.DataFrame({
    "nome": ["manga", "goiaba", "laranja"],
})

# Observe que esta instância de vegetais não possui uma coluna de quantidade
vegetais = pd.DataFrame({
    "name": ["couve", "espinafre", "brócolis"],
    "quantidade": [2, 3, 4]
})

# Se uma coluna estiver ausente em um dataframe, seus valores também estarão ausentes, portanto, a concatenação será bem-sucedida
pd.concat([frutas, vegetais])

In [None]:
# Axis=1 concatena dataframes horizontalmente
# Esta é uma concatenação em colunas
preco_qualidade = pd.DataFrame({
    "preco": [2.99, 1.99, 3.99],
    "apresentacao": ["congelado", "lavado", "cru"]
})

pd.concat([vegetais, preco_qualidade], axis=1)

In [None]:
# concat pode combinar um número arbitrário de dataframes
# Isso pode ser útil se você tiver muitos dataframes diferentes de várias fontes
pd.concat([vegetais, vegetais, vegetais, vegetais])

## Usando `.merge` para combinar dataframes em valores de colunas comuns
- Junção no estilo de banco de dados para Pandas Dataframes
- O `.join` do Pandas une dataframes em nomes de colunas idênticos que existem em ambos os dataframes
- Usar `.merge` pode ser mais flexível, já que às vezes os nomes das colunas não são idênticos

## Tipos de Junções
- "Inner" retorna registros que possuem valores correspondentes em ambas as tabelas.
- "Left" retorna todos os registros da tabela da esquerda e os registros correspondentes da tabela da direita.
- "Right" retorna todos os registros da tabela da direita e os registros correspondentes da tabela da esquerda.
- "Outer" retorna todos os registros quando há uma correspondência na tabela da esquerda ou da direita.
![diagrama de diferentes tipos de junções](types_of_joins.png)

In [None]:
# Observe como role_id aponta para o id no dataframe de funções
# Observe os dados ausentes
users = pd.DataFrame({
    'user_id': [1, 2, 3, 4, 5, 6],
    'nome': ['bob', 'mary', 'sally', 'adam', 'jane', 'mike'],
    'role_id': [1, 2, 3, 3, None, None]
})

users

In [None]:
# Observe que a coluna id da função é chamada de "id" no dataframe de funções
roles = pd.DataFrame({
    'role_id': [1, 2, 3, 4],
    'role': ['admin', 'autor', 'revisor', 'comentarista']
})

roles

In [None]:
# Uma junção interna retorna membros que existem em ambos os dataframes
users.merge(roles, left_on='role_id', right_on='role_id', how='inner')

In [None]:
# Se o mesmo nome de coluna exato existir em ambos os dataframes, podemos usar o argumento "on"
users.merge(roles, on='role_id', how='inner')

In [None]:
# Observe que a junção à esquerda mantém todos os registros do dataframe dos usuários, mesmo que estejam faltando no dataframe direito
users.merge(roles, on='role_id', how='left')

In [None]:
# Observe que a junção correta mantém todos os registros do dataframe dos usuários, mesmo que estejam faltando no dataframe correto
users.merge(roles, left_on='role_id', right_on='role_id', how='right')

In [None]:
# A junção externa mantém todos os registros de cada dataframe, mas os valores são associados, quando aplicável.
# Junções externas mantêm todos os valores, incluindo valores nulos.
users.merge(roles, on='role_id', how='outer')

In [None]:
# Relação entre a ordem do dataframe e o tipo de junção
# Considere o resultado de começar com os usuários e juntar funções à esquerda
users.merge(roles, on="role_id", how='left')

In [None]:
# Compare com o início com funções e o uso da junção correta com usuários
roles.merge(users, on="role_id", how='right')

## Recursos Adicionais
- https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.concat.html
- https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.join.html
- https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.merge.html
- https://pandas.pydata.org/docs/user_guide/merging.html
- https://pandas.pydata.org/pandas-docs/stable/getting_started/comparison/comparison_with_sql.html#compare-with-sql-join

## Exercícios
- Leia "2020_sales.csv", "2021_sales.csv" e "2022_sales.csv" em dataframes e, em seguida, concatene esses 3 dataframes verticalmente.
- Crie um dataframe `posts` com as seguintes informações.
```
[
    {
        "autor_id": 1,
        "titulo": "Como Aprendi Python"
    },
    {
        "autor_id": 2,
        "titulo": "Como Aprendi a Parar de me Preocupar e a Amar Pandas"
    },
    {
        "autor_id": 2,
        "titulo": "Tutorial Rápido Sobre como Instalar o Anaconda"
    },
    {
        "autor_id": 9,
        "titulo": "Aprendendo Pandas se Você já Trabalha com Planilhas"
    }
]
```
- Execute uma junção interna de `users` e `posts`. *Dica* Pense nos dados que esses dois dataframes compartilham.
- Comece com `users` e faça uma junção à esquerda do dataframe `posts`.
- Comece com `users` e faça uma junção à direita do dataframe `posts`.
- Por fim, execute uma junção externa de `users` e `posts`.

In [None]:
# Use pd.read_csv("", storage_options = {'User-Agent': 'Mozilla/5.0'}) para ler "https://static.anaconda.cloud/shared/lms/data_analysis/Intro_to_pandas_data_analysis/assets/2020_sales.csv", "https://static.anaconda.cloud/shared/lms/data_analysis/Intro_to_pandas_data_analysis/assets/2021_sales.csv" e `"https://static.anaconda.cloud/shared/lms/data_analysis/Intro_to_pandas_data_analysis/assets/2022_sales.csv" em dataframes
# Concatene estes 3 dataframes verticalmente


In [None]:
# Crie um dataframe `posts` dos dados da postagem do blog acima


In [None]:
users

In [None]:
# Execute uma junção interna de `users` e `posts`.
# Dica: Pense em quais dados esses dois dataframes compartilham.


In [None]:
# Comece com `users` e então faça a junção à esquerda do dataframe `posts`


In [None]:
# Comece com `users` e junte à direita o dataframe `posts`


In [None]:
# Por fim, execute uma junção externa de `users` e `posts`
