# EXTRACCIÓN Y LIMPIEZA DE DATOS DE TRÁFICO AÉREO EN BARAJAS

# En este Notebook se va a desarrollar el proceso de estracción y limpieza de datos con información relativa a la actividad aérea diária en el *Aeropuerto Adolfo Suárez Madrid-Barajas* en el periodo comprendido entre el 01-11-2022 y el 31-10-2023, es decir, 1 año completo.

## Estos datos incluyen información de gran relevancia acerca de la congestión aeroportuaria, el número de operaciones diárias, datos numéricos acerca de la puntualidad tanto en salidas como en llegadas.

## La información se va a obtener de la web de [eurocontrol](https://www.eurocontrol.int/Economics/DailyPunctuality-Airports.html)
## De esta web se han descargado dos archivos *.xlsx* con información de los principales aeropuertos europeos para el periodo deseado. Estos dos archivos se han juntado en uno solo con las columnas de mayor interes, que es el que se va a importar más abajo,

Eurocontrol es el nombre abreviado de la «Organización Europea para la Seguridad de la Navegación Aérea».
Se trata de una organización civil y militar de carácter paneuropeo, integrada por 41 Estados miembros y a los que se suman la Conferencia Europea de Aviación Civil (CEAC) y la propia Unión Europea, que se adherirá en 2002 a la misma para asistirla en la consecución de sus fines.1​

Su objetivo fundamental es la armonización e integración de los servicios de navegación aérea en Europa para lograr una mayor seguridad y eficiencia en las operaciones de tránsito aéreo.

In [1]:
import pandas as pd

In [2]:
mad = pd.read_excel("../data/eurocontrol_MAD_data/MAD_daily_data.xlsx")

In [3]:
mad.head()

Unnamed: 0,Date,Airport,Departure Punctuality %,Arrival Punctuality %,Avg Departure Schedule Delay,Avg Arrival Schedule Delay,Avg Departure - Arrival Schedule Delay,Operated Schedules %,Flights,Flights (7-day moving average)
0,2022-01-01,Brussels,0.816327,0.776316,12.70068,12.238487,0.462193,0.89697,,
1,2022-01-02,Brussels,0.701923,0.69898,15.014423,16.865391,-1.850968,0.918103,,
2,2022-01-03,Brussels,0.721154,0.754717,12.394231,11.233884,1.160347,0.941441,,
3,2022-01-04,Brussels,0.807487,0.809524,15.807487,14.900088,0.907398,0.893023,,
4,2022-01-05,Brussels,0.878173,0.825871,9.416244,8.678358,0.737885,0.970732,,


## Filtramos el DataFrame por el aeropuerto deseado

In [5]:
mad = mad[mad.Airport == "Madrid Barajas"]

In [6]:
mad.shape


(365, 10)

## Comprobamos que tenga los 365 registros del periodo de estudio

In [7]:
mad.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 365 entries, 10735 to 11099
Data columns (total 10 columns):
 #   Column                                  Non-Null Count  Dtype         
---  ------                                  --------------  -----         
 0   Date                                    365 non-null    datetime64[ns]
 1   Airport                                 365 non-null    object        
 2   Departure Punctuality %                 365 non-null    float64       
 3   Arrival Punctuality %                   365 non-null    float64       
 4   Avg Departure Schedule Delay            365 non-null    float64       
 5   Avg Arrival Schedule Delay              365 non-null    float64       
 6   Avg Departure - Arrival Schedule Delay  365 non-null    float64       
 7   Operated Schedules %                    365 non-null    float64       
 8   Flights                                 365 non-null    float64       
 9   Flights (7-day moving average)          365 non-

In [8]:
mad.head()

Unnamed: 0,Date,Airport,Departure Punctuality %,Arrival Punctuality %,Avg Departure Schedule Delay,Avg Arrival Schedule Delay,Avg Departure - Arrival Schedule Delay,Operated Schedules %,Flights,Flights (7-day moving average)
10735,2023-10-31,Madrid Barajas,0.725869,0.89391,13.057915,10.658382,2.399533,0.934256,1085.0,1111.1
10736,2023-10-30,Madrid Barajas,0.688192,0.783985,14.534471,11.974519,2.559952,0.944631,1119.0,1111.7
10737,2023-10-29,Madrid Barajas,0.578067,0.721154,21.438662,15.115096,6.323566,0.928453,1101.0,1113.4
10738,2023-10-28,Madrid Barajas,0.626482,0.747036,17.309914,12.38913,4.920784,0.956284,1052.0,1114.7
10739,2023-10-27,Madrid Barajas,0.559715,0.62807,24.789661,20.002222,4.787439,0.932258,1172.0,1114.4


## Añadimos un id a cada uno de los registros

In [None]:
mad['mad_id'] = range(1, len(mad) + 1)
mad = mad.reset_index(drop = True)
mad.head()

## Reordenamos las columnas del DataFrame

In [13]:
reorder = ['mad_id','Date', 'Airport', 'Departure Punctuality %', 'Arrival Punctuality %',
       'Avg Departure Schedule Delay', 'Avg Arrival Schedule Delay',
       'Avg Departure - Arrival Schedule Delay', 'Operated Schedules %',
       'Flights', 'Flights (7-day moving average)']

In [14]:
mad = mad[reorder]

In [16]:
mad.tail()

Unnamed: 0,mad_id,Date,Airport,Departure Punctuality %,Arrival Punctuality %,Avg Departure Schedule Delay,Avg Arrival Schedule Delay,Avg Departure - Arrival Schedule Delay,Operated Schedules %,Flights,Flights (7-day moving average)
360,361,2022-11-05,Madrid Barajas,0.728285,0.832589,16.837416,11.096949,5.740467,0.888046,956.0,1016.1
361,362,2022-11-04,Madrid Barajas,0.393064,0.602339,38.427778,28.114587,10.31319,0.902318,1081.0,1018.0
362,363,2022-11-03,Madrid Barajas,0.762948,0.790419,13.848904,11.379341,2.469563,0.906087,1038.0,1019.1
363,364,2022-11-02,Madrid Barajas,0.816327,0.884298,11.123878,7.19084,3.933037,0.900885,1014.0,1016.6
364,365,2022-11-01,Madrid Barajas,0.828326,0.847458,11.015021,10.358616,0.656406,0.914019,991.0,1020.7


## Exportamos los datos a un archivo *.csv*

In [18]:
mad.to_csv("../data/eurocontrol_MAD_data/MAD_data.csv", index=False)