In [29]:
import numpy as np
import pandas as pd

## Columns
 - Country (String)  - Nombre del país o territorio.
 - Air Quality Network (String) - Identificador de la red de medición de la calidad del aire, proporcionado por el proveedor de datos.
 - Air Quality Network Name (String) - Nombre de la red de medición de la calidad del aire, proporcionado por el proveedor de datos.
 - Air Quality Station EoI Code (String) - Código EoI de la estación de medición de la calidad del aire (como en AirBase).
 - Air Quality Station Name (String) - Nombre de la estación de medición de la calidad del aire (como en AirBase), proporcionado por el proveedor de datos.
 - Sampling Point Id (String) - Identificador del punto de muestreo, proporcionado por el proveedor de datos.
 - Air Pollutant (String) - Sustancia que contamina el aire, cuyo nivel se mide y notifica a la AEMA (consulte la notación en el Diccionario de datos: http://dd.eionet.europa.eu/vocabulary/aq/pollutant).
 - Air Pollutant Description (String) - Descripción de la sustancia que contamina el aire.
 - Data Aggregation Process Id (String) - Identificador de información sobre el proceso de agregación de datos en valores que no sean por hora (consulte el Diccionario de datos: http://dd.eionet.europa.eu/vocabulary/aq/aggregationprocess).
 - Data Aggregation Process (String) - Información sobre el proceso de agregación de datos en valores que no sean por hora (consulte el Diccionario de datos: http://dd.eionet.europa.eu/vocabulary/aq/aggregationprocess).
 - Year (Numeric) - Año para el cual se informaron los datos primarios (y se calcularon las estadísticas anuales).
 - Air Pollution Level (Numeric) - Concentración o nivel de sustancia contaminante del aire, aquí dada como una agregación de valores de concentración de contaminantes del aire de la serie de tiempo de observación primaria.
 - Unit Of Air Pollution Level (String) - Unidad de concentración o nivel de sustancia contaminante del aire (ver en Diccionario de datos: http://dd.eionet.europa.eu/vocabulary/uom/concentration).
 - Data Coverage (Numeric) - Proporción de medición válida incluida en el proceso de agregación dentro del período de promediación, expresada como porcentaje. Si la Cobertura de datos < 75 % durante un período promedio de un año, las estadísticas anuales no deben incluirse en las evaluaciones de la calidad del aire; si la Cobertura de datos < 85 % (en un año), las estadísticas anuales no deben incluirse en las verificaciones de cumplimiento.
 - Verification (Numeric) - Información basada en indicadores de verificación encontrados en series temporales notificadas (ver en Diccionario de datos: http://dd.eionet.europa.eu/vocabulary/aq/observationverification).
 - Air Quality Station Type (String) - Tipo de estación de medición de la calidad del aire: información sobre si está midiendo la contaminación del aire de fondo, industrial o relacionada con el tráfico (consulte el Diccionario de datos: http://dd.eionet.europa.eu/vocabulary/aq/stationclassification).
 - Air Quality Station Area (String) - Área de la estación de medición de la calidad del aire: información sobre si está midiendo la contaminación del aire en un entorno urbano, suburbano, rural (etc.) (consulte el Diccionario de datos: http://dd.eionet.europa.eu/vocabulary/aq/areaclassification).
 - Longitude (Numeric) - Longitud de la estación de medición de la calidad del aire [grados decimales].
 - Latitude (Numeric) - Latitud de la estación de medición de la calidad del aire [grados decimales].
 - Altitude (Numeric) - Altitud de la estación de medición de la calidad del aire [m s.n.m.].
 - City (String) - Nombre de la ciudad.
 - City Code (String) - Identificador de la ciudad.
 - City Population (Numeric) - Población de la ciudad.
 - Source Of Data Flow (String) - Fuente de la información.
 - Calculation Time (String) - Tiempo de calculo.
 - Link to raw data (only E1a/validated data from AQ e-Reporting) (String) - Link de la información, solo para casos restringidos.
 



In [30]:
#Tidy Format
raw_data: pd.DataFrame = pd.read_csv("data.csv", sep=',')
print(raw_data.columns)
print(raw_data.isna().sum())
data: pd.DataFrame = raw_data.drop(columns='Link to raw data (only E1a/validated data from AQ e-Reporting)')

Index(['Country', 'Air Quality Network', 'Air Quality Network Name',
       'Air Quality Station EoI Code', 'Air Quality Station Name',
       'Sampling Point Id', 'Air Pollutant', 'Air Pollutant Description',
       'Data Aggregation Process Id', 'Data Aggregation Process', 'Year',
       'Air Pollution Level', 'Unit Of Air Pollution Level', 'Data Coverage',
       'Verification', 'Air Quality Station Type', 'Air Quality Station Area',
       'Longitude', 'Latitude', 'Altitude', 'City', 'City Code',
       'City Population', 'Source Of Data Flow', 'Calculation Time',
       'Link to raw data (only E1a/validated data from AQ e-Reporting)'],
      dtype='object')
Country                                                               0
Air Quality Network                                                   0
Air Quality Network Name                                              0
Air Quality Station EoI Code                                          0
Air Quality Station Name                 

In [46]:
alpha3: dict = {
    'Spain' : 'ESP'
}

#for index,row in data.iterrows():
  #data.loc[index,'ALPHA3'] = [alpha3[row['Country']] for x in alpha3 if x == row['Country']]

data.loc[:,'ALPHA3'] = data.loc[:,'Country'].apply(lambda x: alpha3[x] if x in alpha3 else np.nan)
data

Unnamed: 0,Country,Air Quality Network,Air Quality Network Name,Air Quality Station EoI Code,Air Quality Station Name,Sampling Point Id,Air Pollutant,Air Pollutant Description,Data Aggregation Process Id,Data Aggregation Process,...,Air Quality Station Area,Longitude,Latitude,Altitude,City,City Code,City Population,Source Of Data Flow,Calculation Time,ALPHA3
0,Spain,NET_ES058A,EMEP/VAG/CAMP,ES0014R,ELS TORMS,SP_25224999_1_38,SO2,Sulphur dioxide (air),P1Y-hr-max-per99.73,1 year 99.73 %ile of hourly values in a given ...,...,Rural,0.7347,41.3939,470.0,,,,E2a/UTD AQ e-Reporting,12/02/2022 21:43:58,ESP
1,Spain,NET_ES131A,Ayto Madrid,ES1193A,CASA DE CAMPO,SP_28079024_10_47,PM10,Particulate matter < 10 µm (aerosol),P1Y-hr-max,1 year hour max,...,Suburban,-3.7492,40.4200,645.0,Madrid ...,ES001C1 ...,3209067.0,E2a/UTD AQ e-Reporting,12/02/2022 21:27:31,ESP
2,Spain,NET_ES131A,Ayto Madrid,ES0118A,ESCUELAS AGUIRRE,SP_28079008_14_6,O3,Ozone (air),P1Y-hr-max,1 year hour max,...,Urban,-3.6822,40.4217,672.0,Madrid ...,ES001C1 ...,3209067.0,E2a/UTD AQ e-Reporting,12/02/2022 21:27:31,ESP
3,Spain,NET_ES131A,Ayto Madrid,ES1941A,ENSANCHE DE VALLECAS,SP_28079054_14_6,O3,Ozone (air),P1Y-hr-max,1 year hour max,...,Urban,-3.6119,40.3728,630.0,Madrid ...,ES001C1 ...,3209067.0,E2a/UTD AQ e-Reporting,12/02/2022 21:27:31,ESP
4,Spain,NET_ES131A,Ayto Madrid,ES1941A,ENSANCHE DE VALLECAS,SP_28079054_14_6,O3,Ozone (air),P1Y-hrsAbove180,1 year hour exceed 180,...,Urban,-3.6119,40.3728,630.0,Madrid ...,ES001C1 ...,3209067.0,E2a/UTD AQ e-Reporting,12/02/2022 21:15:03,ESP
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
35008,Spain,NET_ES212A,CCAA Galicia,ES2063A,LOPE DE VEGA,SP_36057026_14_6,O3,Ozone (air),SOMO10,Sum of Ozone Means Over 10 ppb,...,Urban,-8.7111,42.2224,30.0,Vigo ...,ES022C1 ...,298249.0,E2a/UTD AQ e-Reporting,12/02/2022 22:43:15,ESP
35009,Spain,NET_ES213A,CCAA Madrid,ES1807A,RIVAS-VACIAMADRID,SP_28123002_12_8,NOX as NO2,Nitrogen oxides (air),P1Y,Annual mean / 1 calendar year,...,Suburban,-3.5429,40.3597,610.0,,,,E2a/UTD AQ e-Reporting,12/02/2022 20:31:37,ESP
35010,Spain,NET_ES212A,CCAA Galicia,ES1557A,PAIOSACO,SP_15041001_10_47,PM10,Particulate matter < 10 µm (aerosol),P1Y-day-min,1 year day min,...,Rural,-8.5550,43.2597,210.0,,,,E2a/UTD AQ e-Reporting,12/02/2022 21:25:42,ESP
35011,Spain,NET_ES210A,CCAA Com. Valenciana,ES1970A,VALÈNCIA - BULEVARD SUD,SP_46250050_14_6,O3,Ozone (air),P1Y-hr-min,1 year hour min,...,Urban,-0.3964,39.4503,15.0,Valencia ...,ES003C1 ...,805624.0,E2a/UTD AQ e-Reporting,12/02/2022 22:08:12,ESP
