# Como combinar dados de várias tabelas

Iniciando os pacotes e lendo os arquivos

In [None]:
import pandas as pd

air_quality_no2 = pd.read_csv("data/air_quality_no2_long.csv", parse_dates=True)
air_quality_no2 = air_quality_no2[["date.utc", "location", "parameter", "value"]]
air_quality_no2.head()

In [None]:
air_quality_pm25 = pd.read_csv("data/air_quality_pm25_long.csv", parse_dates=True)
air_quality_pm25 = air_quality_pm25[["date.utc", "location", "parameter", "value"]]
air_quality_pm25.head()

Concatenando objetos  

Quero combinar as medidas de NO2 e PM25, duas tabelas com estrutura semelhante, em uma única tabela.
A função concat(), executa operações de concatenação de várias tabelas ao longo de um dos eixos (linha ou coluna).

In [None]:
air_quality = pd.concat([air_quality_pm25, air_quality_no2], axis=0)
air_quality.head()

Por padrão, a concatenação é feita ao longo do eixo 0, de modo que a tabela resultante combina as linhas das tabelas de entrada.  
Vamos verificar o formato das tabelas original e concatenada para comprovar a operação:

In [None]:
print('Shape of the "air_quality_pm25" table: ', air_quality_pm25.shape)
print('Shape of the "air_quality_no2" table: ', air_quality_no2.shape)
print('Shape of the resulting "air_quality" table: ', air_quality.shape)

Portanto, a tabela resultante tem 3178 = 1110 + 2068 linhas.

O argumento axis retornará em diversos métodos pandas que podem ser aplicados ao longo de um eixo.  
O DataFrame possui dois eixos correspondentes:

* O primeiro, que se estende verticalmente para baixo, através das linhas (eixo 0)
* O segundo, que se estende horizontalmente, através das colunas (eixo 1).  

A maioria das operações, como concatenação ou estatísticas de resumo, são aplicadas, por padrão,  
entre linhas (eixo 0), mas também podem ser aplicadas entre colunas.

A classificação da tabela com base nas informações de data e hora ilustra também a combinação de ambas as tabelas,  
com a parametercoluna definindo a origem da tabela ( no2 da tabela air_quality_no2 ou pm25 da tabela air_quality_pm25):

In [None]:
air_quality = air_quality.sort_values("date.utc")
air_quality.head()

Neste exemplo específico, a coluna *parameter*, fornecida pelos dados, garante que cada uma das tabelas originais possa ser identificada.  
Isso nem sempre acontece. A função *concat*, fornece uma solução conveniente com o argumento *keys*,  
adicionando um índice de linha (hierárquico) adicional.  
Por exemplo:

In [None]:
air_quality_ = pd.concat([air_quality_pm25, air_quality_no2], keys=["PM25", "NO2"])
air_quality_.head()

A existência de múltiplos índices de linha/coluna simultaneamente não foi mencionada nestes tutoriais.  
A indexação hierárquica, ou MultiIndex, é um recurso avançado e poderoso do Pandas para analisar dados de dimensões superiores.

A multiindexação está fora do escopo desta introdução ao Pandas.  
Por enquanto, lembre-se de que a função reset_index pode ser usada para converter qualquer nível de um índice em uma coluna,  
por exemplo air_quality.reset_index(level=0)

# Junte tabelas usando um identificador comum

Adicione as coordenadas da estação, fornecidas pela tabela de metadados das estações, às linhas correspondentes na tabela de medições.

In [None]:
stations_coord = pd.read_csv("../data/air_quality_stations.csv")
stations_coord.head()

As estações usadas neste exemplo (FR04014, BETR801 e London Westminster) são apenas três entradas listadas na tabela de metadados.  
Queremos apenas adicionar as coordenadas dessas três à tabela de medições, cada uma nas linhas correspondentes da air_quality tabela.

In [None]:
air_quality.head()

Usando a função *merge()*, para cada uma das linhas da tabela air_quality, as coordenadas correspondentes são adicionadas air_quality_stations_coord.  
Ambas as tabelas têm a coluna locationem comum, que é usada como chave para combinar as informações.  

Ao escolher a junção *left*, apenas os locais disponíveis na tabela air_quality (à esquerda), ou seja,  
FR04014, BETR801 e London Westminster, são incluídos na tabela resultante.  

A função *merge*, suporta múltiplas opções de junção, semelhantes às operações em estilo de banco de dados.

In [None]:
air_quality = pd.merge(air_quality, stations_coord, how="left", on="location")
air_quality.head()

Adicione a descrição completa e o nome dos parâmetros, fornecidos pela tabela de metadados de parâmetros, à tabela de medições.

In [None]:
air_quality_parameters = pd.read_csv("../data/air_quality_parameters.csv")
air_quality_parameters.head()

In [None]:
air_quality = pd.merge(air_quality, air_quality_parameters, how='left', left_on='parameter', right_on='id')
air_quality.head()

Em comparação com o exemplo anterior, não há um nome de coluna comum.  
No entanto, a coluna *parameter* na tabela air_quality e a idcoluna na tabela air_quality_parameters_name,  
fornecem a variável medida em um formato comum. 

Os argumentos left_one são usados ​​aqui (em vez de apenas ) para fazer a ligação entre as duas tabelas *.right_onon*

**LEMBRAR**

Várias tabelas podem ser concatenadas tanto em colunas quanto em linhas usando a função *concat*.  
Para mesclar/unir tabelas como em um banco de dados, use a merge função .