# Como criar novas colunas derivadas de colunas existentes 

Inicie importando o panda e lendo o arquivo air_quality_no2.csv

In [2]:
import pandas as pd

air_quality = pd.read_csv("../data/air_quality_no2.csv", index_col=0, parse_dates=True)
air_quality.head()

Unnamed: 0_level_0,station_antwerp,station_paris,station_london
datetime,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2019-05-07 02:00:00,,,23.0
2019-05-07 03:00:00,50.5,25.0,19.0
2019-05-07 04:00:00,45.0,27.7,19.0
2019-05-07 05:00:00,,50.4,16.0
2019-05-07 06:00:00,,61.9,


Eu quero expressar a concentração da estação em Londres em mg/m.  
*Se assumirmos uma temperatura de 25 graus Celsius e uma pressão de 1013 hPa, o fator de conversão é 1,882*  

Para criar uma nova coluna, use os colchetes [], com o novo nome da coluna no lado esquerdo da atribuição.

O cálculo dos valores é feito elemento a elemento.  
Isso significa que todos os valores na coluna fornecida são multiplicados pelo valor 1,882 de uma só vez.  
Você não precisa usar um loop para iterar cada uma das linhas!

In [3]:
air_quality["london_mg_per_cubic"] = air_quality["station_london"] * 1.882
air_quality.head()

Unnamed: 0_level_0,station_antwerp,station_paris,station_london,london_mg_per_cubic
datetime,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
2019-05-07 02:00:00,,,23.0,43.286
2019-05-07 03:00:00,50.5,25.0,19.0,35.758
2019-05-07 04:00:00,45.0,27.7,19.0,35.758
2019-05-07 05:00:00,,50.4,16.0,30.112
2019-05-07 06:00:00,,61.9,,


Quero verificar a proporção dos valores em Paris versus Antuérpia e salvar o resultado em uma nova coluna.  
O cálculo é novamente feito por elemento, então a divisão é aplicado aos valores em cada linha.

Outros operadores matemáticos ( +, -, *, /,…) ou operadores lógicos ( <, >, ==,…) também funcionam por elemento.  
Este último já foi usado no tutorial de dados de subconjunto para filtrar linhas de uma tabela usando uma expressão condicional.

Se precisar de lógica mais avançada, você pode usar código Python arbitrário via apply().

In [4]:
air_quality["ratio_paris_antwerp"] = (
    air_quality["station_paris"] / air_quality["station_antwerp"]
)
air_quality.head()

Unnamed: 0_level_0,station_antwerp,station_paris,station_london,london_mg_per_cubic,ratio_paris_antwerp
datetime,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
2019-05-07 02:00:00,,,23.0,43.286,
2019-05-07 03:00:00,50.5,25.0,19.0,35.758,0.49505
2019-05-07 04:00:00,45.0,27.7,19.0,35.758,0.615556
2019-05-07 05:00:00,,50.4,16.0,30.112,
2019-05-07 06:00:00,,61.9,,,


Quero renomear as colunas de dados para os identificadores de estação correspondentes usados ​​pelo OpenAQ.  
A função rename(), pode ser usada tanto para rótulos de linha quanto de coluna.  
Forneça um dicionário com as chaves (os nomes atuais) e os valores (os novos nomes) para atualizar os nomes correspondentes.

In [6]:
air_quality_renamed = air_quality.rename(
    columns={
        "station_antwerp": "BETR801",
        "station_paris": "FR04014",
        "station_london": "London Westminster",
    }
)
air_quality_renamed.head()

Unnamed: 0_level_0,BETR801,FR04014,London Westminster,london_mg_per_cubic,ratio_paris_antwerp
datetime,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
2019-05-07 02:00:00,,,23.0,43.286,
2019-05-07 03:00:00,50.5,25.0,19.0,35.758,0.49505
2019-05-07 04:00:00,45.0,27.7,19.0,35.758,0.615556
2019-05-07 05:00:00,,50.4,16.0,30.112,
2019-05-07 06:00:00,,61.9,,,


O mapeamento não deve se restringir apenas a nomes fixos, mas também pode ser uma função de mapeamento.  
Por exemplo, a conversão dos nomes das colunas para letras minúsculas também pode ser feita usando uma função:

In [7]:
air_quality_renamed = air_quality_renamed.rename(columns=str.lower)
air_quality_renamed.head()

Unnamed: 0_level_0,betr801,fr04014,london westminster,london_mg_per_cubic,ratio_paris_antwerp
datetime,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
2019-05-07 02:00:00,,,23.0,43.286,
2019-05-07 03:00:00,50.5,25.0,19.0,35.758,0.49505
2019-05-07 04:00:00,45.0,27.7,19.0,35.758,0.615556
2019-05-07 05:00:00,,50.4,16.0,30.112,
2019-05-07 06:00:00,,61.9,,,


**LEMBRAR**

* Crie uma nova coluna atribuindo a saída ao DataFrame com um novo nome de coluna entre [].
* As operações são feitas por elemento, não há necessidade de fazer um loop nas linhas.
* Use renamecom um dicionário ou função para renomear rótulos de linhas ou nomes de colunas.