In [1]:
# Analisis de los datos oficiales otorgados por la ANAC (Administración Nacional de Aviación Civil)

# Fuente: https://datos.gob.ar/dataset/transporte-aterrizajes-despegues-procesados-por-administracion-nacional-aviacion-civil-anac

In [2]:
# Importamos las libreras a utilizar

import pandas as pd
import requests
import io


In [3]:
# Creamos un dic con la lista de las URL de los Datasets.

urls_data = {
    '2019': 'https://datos.transporte.gob.ar/dataset/21038a1a-c3c7-4494-b76a-3a2a8fbb83b5/resource/aa8337de-3565-4ecf-9cd9-6f1c61f8f0ed/download/2019_informe_ministerio.csv',
    '2020': 'https://datos.transporte.gob.ar/dataset/21038a1a-c3c7-4494-b76a-3a2a8fbb83b5/resource/d0e75e7d-e416-470f-bedb-ef2a877cbae3/download/2020_informe_ministerio.csv',
    '2021': 'https://datos.transporte.gob.ar/dataset/21038a1a-c3c7-4494-b76a-3a2a8fbb83b5/resource/1b4f569a-cab0-4560-993c-5bf96c3e7cf0/download/202112_informe_ministerio.csv',
    '2022': 'https://datos.transporte.gob.ar/dataset/21038a1a-c3c7-4494-b76a-3a2a8fbb83b5/resource/11894a35-de36-4579-b084-d1191f551fbe/download/202212-informe-ministerio.csv',
    '2023': 'https://datos.transporte.gob.ar/dataset/21038a1a-c3c7-4494-b76a-3a2a8fbb83b5/resource/e910fead-ade3-40ce-ae8f-cad2017aa007/download/202312-informe-ministerio-actualizado-dic.csv',
    '2024': 'https://datos.transporte.gob.ar/dataset/21038a1a-c3c7-4494-b76a-3a2a8fbb83b5/resource/6004191c-83ca-4a0a-a687-c059bb0a8c8e/download/202404-informe-ministerio.csv'
}

In [4]:
# En base a un bucle FOR creamos los diferentes DF, diferenciadolos por su año.

for anio, url in urls_data.items():
    response = requests.get(url)
    if response.status_code == 200:
        # Delimitamos las columnas de cada DF
        delimiter = ',' if anio == '2021' else ';'
        df = pd.read_csv(io.BytesIO(response.content), delimiter=delimiter)
        # Se crea cada df por año
        vars()[f'df_{anio}'] = df
    else:
        print('Error')

  df = pd.read_csv(io.BytesIO(response.content), delimiter=delimiter)
  df = pd.read_csv(io.BytesIO(response.content), delimiter=delimiter)


In [5]:
# Creamos una lista con todos los DF 

dataframes = [df_2019, df_2020, df_2021, df_2022, df_2023, df_2024]

# Vemos los primeros datos de cada DF

for df in dataframes:
    print(df.head())

      Fecha  Hora UTC Clase de vuelos (todos los vuelos) Clasificacion Vuelo  \
0  1/1/2019  00:01:00                            REGULAR           Doméstico   
1  1/1/2019  00:01:00                            REGULAR       Internacional   
2  1/1/2019  00:03:00                            REGULAR           Doméstico   
3  1/1/2019  00:04:00                            REGULAR       Internacional   
4  1/1/2019  00:06:00                            REGULAR       Internacional   

  Tipo Movimiento Aeropuerto Origen/Destino  \
0      Aterrizaje        EZE            SAL   
1      Aterrizaje        EZE           SBGL   
2      Aterrizaje        AER            SIS   
3      Aterrizaje        EZE           SBGR   
4      Aterrizaje        AER           SBGR   

                           Aerolinea Nombre          Aeronave  Pasajeros  PAX  \
0                  AEROLINEAS ARGENTINAS SA      BO-B-737-76N         88   44   
1           TRANSPORTES AEREOS DEL MERCOSUR               NaN        165  

In [6]:
# Vemos los tipos de datos

for df in dataframes:
    print(df.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 580774 entries, 0 to 580773
Data columns (total 12 columns):
 #   Column                              Non-Null Count   Dtype 
---  ------                              --------------   ----- 
 0   Fecha                               580774 non-null  object
 1   Hora UTC                            580774 non-null  object
 2   Clase de vuelos (todos los vuelos)  580774 non-null  object
 3   Clasificacion Vuelo                 580774 non-null  object
 4   Tipo Movimiento                     580771 non-null  object
 5   Aeropuerto                          580774 non-null  object
 6   Origen/Destino                      580771 non-null  object
 7   Aerolinea Nombre                    398367 non-null  object
 8   Aeronave                            489113 non-null  object
 9   Pasajeros                           580774 non-null  int64 
 10  PAX                                 580774 non-null  int64 
 11  Calidad del dato                    580

In [7]:
# Creamos un dic para guardar todas las columnas de cada DF para analizar que cada columna sea igual.

columnas_df = {}

# Mediante un bucle FOR obtenemos todas las columnas de todos los DF

for anio, df in vars().items(): 
    if anio.startswith('df_'):
        columnas_df[anio] = tuple(df.columns.tolist())

# Vemos las columnas de cada DF

for anio, columnas in columnas_df.items():
    print(f'Columnas {anio}: {columnas}\n')

Columnas df_2019: ('Fecha', 'Hora UTC', 'Clase de vuelos (todos los vuelos)', 'Clasificacion Vuelo', 'Tipo Movimiento', 'Aeropuerto', 'Origen/Destino', 'Aerolinea Nombre', 'Aeronave', 'Pasajeros', 'PAX', 'Calidad del dato')

Columnas df_2020: ('Fecha', 'Hora UTC', 'Clase de Vuelo (todos los vuelos)', 'Clasificación Vuelo', 'Tipo de Movimiento', 'Aeropuerto', 'Origen / Destino', 'Aerolinea Nombre', 'Aeronave', 'Pasajeros', 'PAX', 'Calidad dato')

Columnas df_2021: ('Fecha', 'Hora UTC', 'Clase de Vuelo (todos los vuelos)', 'Clasificación Vuelo', 'Tipo de Movimiento', 'Aeropuerto', 'Origen / Destino', 'Aerolinea Nombre', 'Aeronave', 'Pasajeros', 'PAX', 'Calidad dato')

Columnas df_2022: ('Fecha UTC', 'Hora UTC', 'Clase de Vuelo (todos los vuelos)', 'Clasificación Vuelo', 'Tipo de Movimiento', 'Aeropuerto', 'Origen / Destino', 'Aerolinea Nombre', 'Aeronave', 'Pasajeros', 'PAX', 'Calidad dato')

Columnas df_2023: ('Fecha UTC', 'Hora UTC', 'Clase de Vuelo (todos los vuelos)', 'Clasificación 

In [8]:
# Renombramos las columnas

rename_columna = {
    'Fecha UTC': 'Fecha',
    'Clase de vuelos (todos los vuelos)': 'Clase de Vuelo',
    'Clasificacion Vuelo': 'Clasificación Vuelo',
    'Tipo Movimiento': 'Tipo de Movimiento',
    'Origen/Destino': 'Origen/Destino',
    'Calidad del dato': 'Calidad dato'
}

# Vamos DF por DF cambiando el nombre de las columnas distintas

for df in dataframes:
    df.rename(columns= rename_columna, inplace=True)

# Repetimos el paso anterior para chequear los cambios

columnas_df = {}

for anio, df in vars().items(): 
    if anio.startswith('df_'):
        columnas_df[anio] = tuple(df.columns.tolist())

for anio, columnas in columnas_df.items():
    print(f'Columnas {anio}: {columnas}\n')

Columnas df_2019: ('Fecha', 'Hora UTC', 'Clase de Vuelo', 'Clasificación Vuelo', 'Tipo de Movimiento', 'Aeropuerto', 'Origen/Destino', 'Aerolinea Nombre', 'Aeronave', 'Pasajeros', 'PAX', 'Calidad dato')

Columnas df_2020: ('Fecha', 'Hora UTC', 'Clase de Vuelo (todos los vuelos)', 'Clasificación Vuelo', 'Tipo de Movimiento', 'Aeropuerto', 'Origen / Destino', 'Aerolinea Nombre', 'Aeronave', 'Pasajeros', 'PAX', 'Calidad dato')

Columnas df_2021: ('Fecha', 'Hora UTC', 'Clase de Vuelo (todos los vuelos)', 'Clasificación Vuelo', 'Tipo de Movimiento', 'Aeropuerto', 'Origen / Destino', 'Aerolinea Nombre', 'Aeronave', 'Pasajeros', 'PAX', 'Calidad dato')

Columnas df_2022: ('Fecha', 'Hora UTC', 'Clase de Vuelo (todos los vuelos)', 'Clasificación Vuelo', 'Tipo de Movimiento', 'Aeropuerto', 'Origen / Destino', 'Aerolinea Nombre', 'Aeronave', 'Pasajeros', 'PAX', 'Calidad dato')

Columnas df_2023: ('Fecha', 'Hora UTC', 'Clase de Vuelo (todos los vuelos)', 'Clasificación Vuelo', 'Tipo de Movimiento',

In [9]:
# Vemos que el formato de la columna hora en el df_2019 y en df_2023 es diferente a los demas

print(df_2019['Hora UTC'].head(), df_2020['Hora UTC'].head(), df_2023['Hora UTC'].head())

0    00:01:00
1    00:01:00
2    00:03:00
3    00:04:00
4    00:06:00
Name: Hora UTC, dtype: object 0    00:06
1    00:08
2    00:10
3    00:13
4    00:13
Name: Hora UTC, dtype: object 0    0:01
1    0:10
2    0:15
3    0:17
4    0:19
Name: Hora UTC, dtype: object


In [10]:
# Cambiamos el formato de la hora dentro del df_2019 para que sea igual a los demas

df_2019['Hora UTC'] = df_2019['Hora UTC'].str.slice(0, 5)

# Cambiamos el formato de la hora dentro del df_2023 para que sea igual a los demas

def formato_hora(hora):
    hora_divida = hora.split(':')
    if len(hora_divida[0]) == 1:
        hora_divida[0] = '0' + hora_divida[0]
    return ':'.join(hora_divida)

df_2023['Hora UTC'] = df_2023['Hora UTC'].apply(formato_hora)

# El formato de la hora dentro de el df_2019 es igual a los demas

print(df_2019['Hora UTC'].head(), df_2020['Hora UTC'].head(), df_2023['Hora UTC'].head())

0    00:01
1    00:01
2    00:03
3    00:04
4    00:06
Name: Hora UTC, dtype: object 0    00:06
1    00:08
2    00:10
3    00:13
4    00:13
Name: Hora UTC, dtype: object 0    00:01
1    00:10
2    00:15
3    00:17
4    00:19
Name: Hora UTC, dtype: object


In [11]:
# Concatenamos todos los DF en un solo DF

df = pd.concat(dataframes, ignore_index=True)

In [12]:
# Cantidad de registros totales

print(f"Cantidad de registros totales: {df.shape[0]}")

Cantidad de registros totales: 2346467


In [13]:
# Quitamos espacios en blanco

df = df.map(lambda x: x.strip() if isinstance(x, str) else x)

In [14]:
# Creamos una lista con todas las columnas del DF unico

columnas = [
    'Fecha', 
    'Hora UTC', 
    'Clase de Vuelo', 
    'Clasificación Vuelo', 
    'Tipo de Movimiento', 
    'Aeropuerto', 
    'Origen/Destino', 
    'Aerolinea Nombre', 
    'Aeronave', 
    'Pasajeros', 
    'PAX', 
    'Calidad dato'
]

# Visualizamos todos los valores unicos de todas las columnas

for columna in columnas:
    valores_unicos = df[columna].unique()
    print(f"Valores unicos de la columna '{columna}':")
    print(f"{valores_unicos}\n")

Valores unicos de la columna 'Fecha':
['1/1/2019' '2/1/2019' '3/1/2019' ... '28/04/2024' '29/04/2024'
 '30/04/2024']

Valores unicos de la columna 'Hora UTC':
['00:01' '00:03' '00:04' ... '04:18' '05:16' '06:16']

Valores unicos de la columna 'Clase de Vuelo':
['REGULAR' 'VUELOS PRIVADOS NACIONALES' 'VUELOS OFICIALES NACIONALES'
 'NO REGULAR' 'VUELOS PRIVADO CON MATRICULA EXTRANJERA' 'TRABAJO AEREO'
 'VUELOS DE ADIESTRAMIENTO' 'VUELOS ESCUELA'
 'VUELOS OFICIALES EXTRANJEROS' 'ESCUELA (NO VIGENTE)' nan]

Valores unicos de la columna 'Clasificación Vuelo':
['Doméstico' 'Internacional' 'Dom' 'Inter']

Valores unicos de la columna 'Tipo de Movimiento':
['Aterrizaje' 'Despegue' nan]

Valores unicos de la columna 'Aeropuerto':
['EZE' 'AER' 'TUC' 'MDP' 'DOZ' 'CBA' 'IGU' 'PAL' 'FDO' 'ROS' 'BAR' 'SAL'
 'NEU' 'ECA' 'GRA' 'SVO' 'JUJ' 'TRC' 'GAL' 'POS' 'STR' 'OSA' 'USU' 'BCA'
 'TRE' 'SIS' 'FSA' 'SRA' 'VIE' 'CRV' 'CAT' 'ESQ' 'CHP' 'RTA' 'DRY' 'PAR'
 'JUA' 'CRR' 'SDE' 'MOR' 'UIS' 'LAR' 'MLG' 'DIL' '

In [15]:
# Capitalizamos la letra de los valores

df['Clase de Vuelo (todos los vuelos)'] = df['Clase de Vuelo (todos los vuelos)'].str.title()

# Reemplazamos para obtener valores unicos

replace_valor = {
    'Vuelos Privados Nacionales': 'Vuelo Privado con Matrícula Nacional',
    'Vuelos Privado Con Matricula Extranjera': 'Vuelo Privado con Matrícula Extranjera',
    'Vuelo Privado Con Matricula Extranjera': 'Vuelo Privado con Matrícula Extranjera',
    'Vuelos Oficiales Nacionales': 'Vuelo Oficial Nacional',
    'Vuelos Oficiales Extranjeros': 'Vuelo Oficial Extranjero',
    'Vuelos De Adiestramiento': 'Vuelo de Adiestramiento',
    'Vuelo De Adiestramiento': 'Vuelo de Adiestramiento',
    'Trabajo Aereo': 'Trabajo Aéreo',
    'Vuelos Escuela': 'Vuelo Escuela'
}

df['Clase de Vuelo (todos los vuelos)'] = df['Clase de Vuelo (todos los vuelos)'].replace(replace_valor)

df['Clasificación Vuelo'] = df['Clasificación Vuelo'].replace({'Dom': 'Doméstico', 'Inter': 'Internacional'})

# Visualizamos los valores unicos dentro de las columnas donde se reemplazaron los datos

columnas_cambiadas = {
    'Clase de Vuelo (todos los vuelos)',
    'Clasificación Vuelo'
}

for columna in columnas_cambiadas:
    valores_unicos = df[columna].unique()
    print(f"Valores unicos de la columna '{columna}':")
    print(f"{valores_unicos}\n")

Valores unicos de la columna 'Clasificación Vuelo':
['Doméstico' 'Internacional']

Valores unicos de la columna 'Clase de Vuelo (todos los vuelos)':
[nan 'Regular' 'Vuelo Privado Con Matrícula Nacional' 'No Regular'
 'Vuelo Privado Con Matrícula Extranjera' 'Trabajo Aéreo'
 'Vuelo de Adiestramiento' 'Vuelo Oficial Extranjero'
 'Vuelo Oficial Nacional' 'Vuelo Escuela']



In [16]:
# Analizamos la cantidad de valores NaN

df_nan = df[columnas].isna().sum()

print(df_nan)

Fecha                        0
Hora UTC                     0
Clase de Vuelo         1765693
Clasificación Vuelo          0
Tipo de Movimiento           3
Aeropuerto                   0
Origen/Destino         1765696
Aerolinea Nombre        182407
Aeronave                 91661
Pasajeros                    0
PAX                          0
Calidad dato                 0
dtype: int64


In [17]:
# Visualizamos las filas con valores NaN dentro de las columnas Tipo de Movimiento y Origen / Destino

print(df[df['Tipo de Movimiento'].isna() & df['Origen / Destino'].isna()])

# Los valores NaN de la columna Tipo de Movimiento y Origen / Destino se encuentran en los mismos registros (3)

             Fecha Hora UTC              Clase de Vuelo Clasificación Vuelo  \
110721    8/3/2019    18:05  VUELOS PRIVADOS NACIONALES           Doméstico   
388994   30/8/2019    19:34              VUELOS ESCUELA           Doméstico   
564141  19/12/2019    20:54              VUELOS ESCUELA           Doméstico   

       Tipo de Movimiento Aeropuerto Origen/Destino Aerolinea Nombre  \
110721                NaN        AER            NaN              NaN   
388994                NaN        ROS            NaN      FLYING TIME   
564141                NaN        MOR            NaN              NaN   

            Aeronave  Pasajeros PAX Calidad dato  \
110721      BE-A-100          0   0   DEFINITIVO   
388994  TEA-P2002-JF          0   0   DEFINITIVO   
564141      CE-150-J          0   0   DEFINITIVO   

       Clase de Vuelo (todos los vuelos) Origen / Destino  
110721                               NaN              NaN  
388994                               NaN              NaN  
56414

In [18]:
# Cantidad de registros totales antes de eliminar los registros con valores NaN

print(f"Cantidad de registros totales: {df.shape[0]}")

Cantidad de registros totales: 2346467


In [19]:
# Eliminamos los valores NaN que se encuentran en la columna Tipo de Movimiento y Origen / Destino ya que son solo 3 registros

df = df.dropna(subset=['Tipo de Movimiento'])

# Chequeamos que los registros hayan sido borrados

df_nan = df[columnas].isna().sum()

print(f"{df_nan}")

Fecha                        0
Hora UTC                     0
Clase de Vuelo         1765693
Clasificación Vuelo          0
Tipo de Movimiento           0
Aeropuerto                   0
Origen/Destino         1765693
Aerolinea Nombre        182405
Aeronave                 91661
Pasajeros                    0
PAX                          0
Calidad dato                 0
dtype: int64


In [20]:
# Cantidad de registros totales despues de los cambios

print(f"Cantidad de registros totales: {df.shape[0]}")

Cantidad de registros totales: 2346464


In [21]:
# Cantidad de registros repetidos

registros_repetidos = df.duplicated().sum()

print(f"Cantidad de registros repetidos: {registros_repetidos}")

Cantidad de registros repetidos: 4705


In [22]:
# Visualizamos la filas que contienen los registros repetidos

registros_repetidos = df[df.duplicated()]

print("Filas repetidas:")
print(registros_repetidos)

Filas repetidas:
              Fecha Hora UTC               Clase de Vuelo Clasificación Vuelo  \
1907       2/1/2019    17:26  VUELOS OFICIALES NACIONALES           Doméstico   
14468     10/1/2019    13:29               VUELOS ESCUELA           Doméstico   
14629     10/1/2019    15:01               VUELOS ESCUELA           Doméstico   
18798     12/1/2019    20:45               VUELOS ESCUELA           Doméstico   
24305     16/1/2019    14:34  VUELOS OFICIALES NACIONALES           Doméstico   
...             ...      ...                          ...                 ...   
2345743  30/04/2024    15:32                          NaN       Internacional   
2345785  30/04/2024    15:52                          NaN           Doméstico   
2345878  30/04/2024    16:43                          NaN           Doméstico   
2345991  30/04/2024    17:52                          NaN           Doméstico   
2346088  30/04/2024    19:00                          NaN           Doméstico   

        Ti

In [23]:
# Guardamos el DF

df.to_csv(r'C:\Users\Federico\Desktop\Data\ANAC.csv', index=False)