In [2]:
import pandas as pd
air_quality = pd.read_csv("data/air_quality_no2.csv", index_col=0, parse_dates=True)
air_quality.head()

Unnamed: 0_level_0,station_antwerp,station_paris,station_london
datetime,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2019-05-07 02:00:00,,,23.0
2019-05-07 03:00:00,50.5,25.0,19.0
2019-05-07 04:00:00,45.0,27.7,19.0
2019-05-07 05:00:00,,50.4,16.0
2019-05-07 06:00:00,,61.9,


# ¿Cómo crear nuevas columnas derivadas de columnas existentes?

<img src="data/05_newcolumn_1.svg">

### Quiero expresar la concentración de $NO_2$ en la estación de Londres en mg/m

*(Si asumimos una temperatura de 25 grados centígrados y una presión de 1013 hPa, el factor de conversión es 1,882 )*

In [4]:
air_quality["london_mg_per_cubic"] = air_quality["station_london"] * 1.882
air_quality.head()

Unnamed: 0_level_0,station_antwerp,station_paris,station_london,london_mg_per_cubic
datetime,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
2019-05-07 02:00:00,,,23.0,43.286
2019-05-07 03:00:00,50.5,25.0,19.0,35.758
2019-05-07 04:00:00,45.0,27.7,19.0,35.758
2019-05-07 05:00:00,,50.4,16.0,30.112
2019-05-07 06:00:00,,61.9,,


Para crear una nueva columna, use los []corchetes con el nombre de la nueva columna en el lado izquierdo de la tarea.

** Nota: El cálculo de los valores se realiza element_wise. Esto significa que todos los valores en la columna dada se multiplican por el valor 1.882 a la vez. ¡No necesita usar un bucle para iterar cada una de las filas!

<img src="data/05_newcolumn_2.svg">

### Quiero verificar la proporción de los valores en París frente a Amberes y guardar el resultado en una nueva columna

In [7]:
air_quality["ratio_paris_antwerp"] = (
    air_quality["station_paris"] / air_quality["station_antwerp"]
)

air_quality.head()

Unnamed: 0_level_0,station_antwerp,station_paris,station_london,london_mg_per_cubic,ratio_paris_antwerp
datetime,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
2019-05-07 02:00:00,,,23.0,43.286,
2019-05-07 03:00:00,50.5,25.0,19.0,35.758,0.49505
2019-05-07 04:00:00,45.0,27.7,19.0,35.758,0.615556
2019-05-07 05:00:00,,50.4,16.0,30.112,
2019-05-07 06:00:00,,61.9,,,


El cálculo es nuevamente por elementos, por lo que /se aplica para los valores en cada fila.

También otros operadores matemáticos ( +, -, \*, /) u operadores lógicos ( <, >, =, ...) elemento de trabajo inteligente. Este último ya se usó en el tutorial de datos de subconjuntos para filtrar filas de una tabla usando una expresión condicional.

Si necesita una lógica más avanzada, puede usar código Python arbitrario a través de `apply()`.

### Quiero cambiar el nombre de las columnas de datos a los identificadores de estación correspondientes utilizados por openAQ

In [9]:
air_quality_renamed = air_quality.rename(
    columns={
        "station_antwerp": "BETR801",
        "station_paris": "FR04014",
        "station_london": "London Westminster",
    }
)

air_quality_renamed.head()

Unnamed: 0_level_0,BETR801,FR04014,London Westminster,london_mg_per_cubic,ratio_paris_antwerp
datetime,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
2019-05-07 02:00:00,,,23.0,43.286,
2019-05-07 03:00:00,50.5,25.0,19.0,35.758,0.49505
2019-05-07 04:00:00,45.0,27.7,19.0,35.758,0.615556
2019-05-07 05:00:00,,50.4,16.0,30.112,
2019-05-07 06:00:00,,61.9,,,


*Observaciones*

La función `rename()` se puede utilizar tanto para etiquetas de fila y etiquetas de columna. Proporcionar un diccionario con las claves de los nombres actuales y los valores de los nuevos nombres para actualizar los nombres correspondientes.

La asignación no debe limitarse únicamente a nombres fijos, sino que también puede ser una función de asignación. Por ejemplo, también se puede convertir los nombres de las columnas a letras minúsculas usando una función:

In [11]:
air_quality_renamed = air_quality_renamed.rename(columns=str.lower)
air_quality_renamed.head()

Unnamed: 0_level_0,betr801,fr04014,london westminster,london_mg_per_cubic,ratio_paris_antwerp
datetime,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
2019-05-07 02:00:00,,,23.0,43.286,
2019-05-07 03:00:00,50.5,25.0,19.0,35.758,0.49505
2019-05-07 04:00:00,45.0,27.7,19.0,35.758,0.615556
2019-05-07 05:00:00,,50.4,16.0,30.112,
2019-05-07 06:00:00,,61.9,,,


## RECORDAR
* Cree una nueva columna asignando la salida al DataFrame con un nuevo nombre de columna entre [].

* Las operaciones son por elementos, no es necesario recorrer las filas.

* Úse rename con un diccionario o una función para cambiar el nombre de las etiquetas de las filas o los nombres de las columnas.