# Proyecto análisis y gestión de recursos aeroportuarios del Aeroparque Jorge Newbery

### Big Data Bang: explosionando las rutas aéreas para predecir un caos en alto vuelo.
---


Grupos de trabajo:
* Joaquin Barrionuevo
* Sebastián Coca
* Sabrina Gonzalez del Campo


* Francisco Brogiolo
* Miguel Cittadini
* Marcelo Bianchi
* Martín Brogiolo

# 1 Entender el dominio

## a) Abstract

Decidimos elegir este proyecto porque presenta diferentes desafíos como el cruzamiento con otras bases de datos (clima, aeropuertos, etc.) y la posibilidad de aplicar la ciencia de datos al área de logística, afrontando un problema real y que podría ser de utilidad en la práctica. Por otra parte, nos interesa también conocer más de cerca el aeropuerto Jorge Newbery, uno de los que más flujo de pasajeros presenta en toda la Argentina, y poder presentar propuestas de mejora acerca de la saturación del aeropuerto basándonos en datos. Entender la capacidad del aeropuerto y la gestión de sus recursos será clave para afrontar el proyecto.
El período comprendido en nuestra base de datos es desde enero 2019 hasta septiembre 2022 y contiene información a cerca de los arribos al aeropuerto, con datos de fecha, procedencia, aerolínea. Es relevante que contamos con un año completo en la situación pre-pandemia para entender el flujo normal sin restricciones aeroportuarias. El problema se afrontará utilizando Python y una serie de librerías comunes en la Ciencia de Datos, tales como numpy, pandas, sklearn, matplotlib, seaborn, missingo, etc.
El objetivo de este proyecto es entender el volumen de arribos: si hay alguna tendencia de horarios, día, mes o época del año donde se presenten picos, el porcentaje de vuelos con retrasos y entender si provienen mayoritariamente de una aerolínea o aeropuerto en particular (o si tienen correlación con alguna otra variable), y finalmente aplicar machine learning a la base de datos limpia para poder predecir algún pico y proponer de ser posible alguna acción que logre evitar la saturación del aeropuerto.

## b) Contexto comercial/empresarial

Dada la excelente ubicación geográfica (a minutos de Capital Federal), el **Aeropuerto Jorge Newbery** es estretégico para la explotación de empresas aéreas tanto nacionales, como internacionales. Luego de la pandemia del Covid 2020 se decretó que el mismo volvería a ser un aeropuerto internacional (destinos del Mercosur y países de Sudamérica). Es por esto, que se han incrementado exponencialmente sus operaciones, pero su infraestructura para soportar este incremento no ha acompañado. Luego de la epoca de confinamiento, se reconstruyó la única pista que este aeródormo posee. Esta obra no es suficiente, ya que la terminal de pasajeros ha permanecido prácticamente sin grandes incrementos de su capacidad.

Se realizará el estudio de los datos provistos por el explotador aéreo existente a fin de prever los picos de capacidad de todos los subsistemas que integran al aeropuerto en sí, y así evitar saturaciones de los mismos, permitiendo una mejor planificación de los recursos aeroportuarios.




## c) Problema comercial

Se procederá a formatear los datos existentes y proporcionar visualizaciones que respondan las siguientes preguntas:

* Cantidad de arribos por mes
* Cantidad de Pasajeros por mes
* Distribución de arribos por día y frecuencia
* Distribucion de vuelos provenientes de distintos lugares (eg. Brasil)
* ¿Es posible predecir demoras por ruta?
* Durante un año, ¿qué cabecera es la que más se utilizó? ¿En qué posición?
* ¿Hay zonas geográficas que tienden a tener más demoras que otras?
* ¿Cuáles son los horarios picos de pasajeros en la terminal?
* Posibles causas de las demoras
* Se relacionan las demoras al mal clima?




## d) Contexto analítico

Para efectuar el análisis se proporciona un archivo CSV que contiene datos de vuelos entre los años 2019 y septiembre del 2022 inclusive. Este dataset cuenta con informacion de cantidad de pasajeros, horas de arribo y de programación, etc. El problema a resolver es poder predecir las demoras en los distintos vuelos para así poder prever de la mejor manera los recursos aeroportuarios para evitar la saturación de los mismos.


Detalle de las caracteristicas del Dataset:

1. Tipos de datos que posee la tabla (en funcion de las variables)
2. Dimensiones del dataset -> cantidad de observaciones (filas) y atributos (columnas)
3. Posibles unidades de análisis

###  Consideraciones generales del contexto del negocio

Consideramos que la base de datos es útil para entender el negocio, pero no sufuciente. Para ello se recurrirá a otras bases de datos complementarias (por ejemplo con bases de datos de aeropuertos nacionales e internacionales -útiles para complementar con el país y la ciudad de proveniencia de cada vuelo- y bases de datos del clima entre otras).

# Instalación y actualización de librerías a utilizar en el desarrollo del proyecto

In [1]:
!pip --version #verificación de versión y actualización. No es necesario, está en su última versión (32.1.2 @ 2023/06/13)
#!pip install --upgrade pip

pip 22.3.1 from C:\Users\franc\anaconda3\lib\site-packages\pip (python 3.10)



In [2]:
#@title Instalación de librerías externas
!pip install -q pingouin
!pip install --upgrade Pillow           # para que funcione ydata-profiling
!pip install -q -U ydata-profiling

# Recordar reiniciar el runtime para que cargue bien las librerías

ERROR: Invalid requirement: '#'


In [3]:
#@title Actualización de ydata-profiling a la última versión desde GitHub
!pip install https://github.com/ydataai/pandas-profiling/archive/master.zip

Collecting https://github.com/ydataai/pandas-profiling/archive/master.zip
  Downloading https://github.com/ydataai/pandas-profiling/archive/master.zip
     | 22.6 MB 6.8 MB/s 0:00:03
  Preparing metadata (setup.py): started
  Preparing metadata (setup.py): finished with status 'done'
Building wheels for collected packages: ydata-profiling
  Building wheel for ydata-profiling (setup.py): started
  Building wheel for ydata-profiling (setup.py): finished with status 'done'
  Created wheel for ydata-profiling: filename=ydata_profiling-0.0.dev0-py2.py3-none-any.whl size=357406 sha256=6fc4ed90bd8830e71363475c85cfda38c1f76515b78021c8b63cff255a21e493
  Stored in directory: C:\Users\franc\AppData\Local\Temp\pip-ephem-wheel-cache-0xtmhl1h\wheels\f5\4e\04\09011c49d76834ce963a4fe57acc90b11fa8bb282bb9781d97
Successfully built ydata-profiling
Installing collected packages: ydata-profiling
  Attempting uninstall: ydata-profiling
    Found existing installation: ydata-profiling 4.5.1
    Uninstalling 

In [5]:
pip install missingno

Collecting missingno
  Downloading missingno-0.5.2-py3-none-any.whl (8.7 kB)
Installing collected packages: missingno
Successfully installed missingno-0.5.2
Note: you may need to restart the kernel to use updated packages.


In [6]:
#@title Carga de librerias

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import matplotlib as mpl
import seaborn as sns
import sklearn

import missingno as msno
#import pingouin as pg
import plotly.express as px
#from ydata_profiling import ProfileReport

from statsmodels.stats.proportion import proportions_ztest
from scipy import stats
from sklearn.impute import SimpleImputer
from sklearn.preprocessing import MinMaxScaler, Normalizer, LabelEncoder
from sklearn.cluster import KMeans
from sklearn.tree import DecisionTreeClassifier  #arbol de decision
from sklearn import tree #arbol de decision
from sklearn import metrics
from sklearn import datasets, linear_model
from sklearn.metrics import mean_squared_error, r2_score, accuracy_score, confusion_matrix, classification_report
from sklearn.model_selection import train_test_split, KFold, cross_val_score, GridSearchCV, StratifiedKFold, cross_val_score, LeaveOneOut
from sklearn.neighbors import KNeighborsClassifier
from sklearn.linear_model import LinearRegression
from sklearn.ensemble import RandomForestClassifier, RandomForestRegressor
from sklearn.linear_model import LogisticRegression
from sklearn import neighbors


In [7]:
# Carga de parámetros
pd.set_option('display.max_columns', None)
pd.set_option('display.float_format', lambda x: '%.2f' % x)

# 2 Preguntas que nos podemos hacer como data scientist

## a) Importar y analizar el dataset para ver con qué datos contamos, en cantidad y calidad: indagar no sólo el tipo de cada dato (categóricos, numéricos) si no su naturaleza (si son demográficos, económicos, temporales, etc).

In [8]:
#@title Carga del dataset
url = 'https://raw.githubusercontent.com/NoeliaFerrero/Proyecto_MentoriaFAMAF_2023/main/DataSet%20Aeropuerto%20Jorge%20Newery.csv'
df = pd.read_csv(url, sep=";", encoding='latin-1')
df

#dfla = pd.read_csv('https://raw.githubusercontent.com/Fran-Brogiolo/DataScienceDiploma/master/Mentor%C3%ADa%20Big%20Data%20Bang/Aeropuertos.csv')

  df = pd.read_csv(url, sep=";", encoding='latin-1')


Unnamed: 0,Aero,#Vuelo,CShare,Origen,Via,STA,SUG,ETA,ATA,Tipo,Asignar,Pos,Ter,Sec,Rmk,Cin,L&F,Pax,Vip,Mat,Acft,Obs.,Aero.1,#Rot,Cabecera,año,mes,hora
0,DN,6049,,IGR,,1/1/2019 01:50,,,1/1/2019 01:22,1 C P,,31,A,2,ATE,8,,100.00,,LVHQH,738,,DN,6062,31.00,2019,1,1
1,4M,7623,,COR,,1/1/2019 06:17,,05:50,1/1/2019 06:02,1 C P,,9,A,2,ATE,6,,36.00,,LVBFO,320,,4M,7502,31.00,2019,1,6
2,4M,7653,,MDZ,,1/1/2019 07:37,,07:30,1/1/2019 07:30,1 C P,,10,A,2,ATE,8,,153.00,,LVGLP,320,,4M,7550,13.00,2019,1,7
3,AR,1671,,NQN,,1/1/2019 07:40,,07:29,1/1/2019 07:26,1 C P,,7,A,2,ATE,1,,28.00,,LVFUA,738W,,AR,1672,13.00,2019,1,7
4,AR,1611,,MDQ,,1/1/2019 07:55,,07:45,1/1/2019 07:43,1 C P,,26,A,2,ATE,2,,146.00,,LVGVA,738W,,AR,1496,13.00,2019,1,7
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
127924,WJ,3481,,SLA,,30/9/2022 22:08,,22:03,30/9/2022 22:05,1 C P,,17,A,N,ATE,9,,187.00,,LVKDP,320,,WJ,3266,13.00,2022,9,22
127925,JA,1003,,SCL,,30/9/2022 22:15,,,30/9/2022 22:32,1 I P,,68,A,I,ATE,3I,,150.00,,CCAWQ,320N,,JA,1004,13.00,2022,9,22
127926,WJ,3269,,COR,,30/9/2022 22:21,,22:01,30/9/2022 22:02,1 C P,,16,A,N,ATE,7,,163.00,,LVHVT,320,,WJ,3461,13.00,2022,9,22
127927,FO,5225,,TUC,,30/9/2022 23:25,,23:20,30/9/2022 23:15,1 C P,,66,A,N,ATE,8,,178.00,,LVKAY,738W,,FO,5042,13.00,2022,9,23


## Tipos de datos

**Columnas**:
* Nombre_Aerolinea: Aerolinea --> categórico
* Codigo_Vuelo --> categórico, código único por vuelo
* Ruta_Vuelo: Ruta del vuelo --> categórica
* Horario_Prog_Arribo: Horario programado de arribo. Es el horario de arribo al momento de comprar el pasaje. --> categórica temporal.
* Horario_Estimado_Arribo: Estimated Time Arrival.Es el horario de arribo actualizado al momento que el vuelo parte. --> categórica temporal.
* Horario_Actual_Arribo: Actual Time Arrival. Es el horario real de arribo. --> categórica temporal.
* Tipo_Vuelo: Codificación del tipo de vuelo --> categórica
* Posicion_Arribo: Posición asignada al arribo --> categórica
* Terminal_Arribo: Terminal en que opera el arribo --> categórica
* Sector: sector asociado a la terminal --> categórica
* Estado_vuelo: Estado del vuelo --> categórica
* Cinta_equipajes: Cinta asignada para retirar equipajes --> categórica
* Cant_Pasajeros: Cantidad de pasajeros
* Matricula_Aeronave: MAtricula de la aeronave --> categórica
* Tipo_aeronave: Tipo de aeronave --> categórica
* Nombre_Aerolinea_Partida: empresa aerea asociada a la partida --> categórica
* Vuelo_Partida: Vuelo asociado a la partida --> categórica
* Cabecera_Arribo: Cabecera de pista donde operó el arribo --> categórica
* Año_Vuelo: año de operación del vuelo --> categórica temporal
* Mes_Vuelo: mes de operación del vuelo --> categórica

Columnas eliminadas posteriormente por tener muchos o todos los datos vacíos: Via, Obs., L&F, Vip, SUG, CShare, Asignar

In [9]:
from ydata_profiling import ProfileReport
profile = ProfileReport(df, title="Profiling Report")

In [10]:
# Se genera el reporte dentro de la notebook
#profile.to_widgets()
profile.to_notebook_iframe()

Summarize dataset:   0%|          | 0/5 [00:00<?, ?it/s]

Generate report structure:   0%|          | 0/1 [00:00<?, ?it/s]

Render HTML:   0%|          | 0/1 [00:00<?, ?it/s]

Del análisis del reporte podemos descartar las siguientes columnas por no contener datos o estar prácticamente vacías:
* CShare (sin datos)
* Via
* SUG (sin datos)
* Asignar (sin datos)
* L&F
* Vip
* Obs




In [11]:
#gráfico de missing values para todo el dataset
plt.figure(figsize=(10,5))
sns.heatmap(df.isnull(), cbar=False)
plt.show()
msno.bar(df,figsize=(10, 5), fontsize=12, color='steelblue')

  plt.show()


<Axes: >

## c) Consideramos que el objetivo podria ser cumplido con los datos existentes?

Consideramos que sería útil agregar información geográfica sobre los aeropuertos, así como información del tipo de aeronave: su uso más común y su capacidad máxima de pasajeros. Para ello hemos preparado estas bases de datos:

In [12]:
Link_Aeropuertos = 'https://raw.githubusercontent.com/Fran-Brogiolo/DataScienceDiploma/master/Mentor%C3%ADa%20Big%20Data%20Bang/Aeropuertos.csv'
Aeropuertos_df = pd.read_csv(Link_Aeropuertos)# , sep=',')
Aeropuertos_df[:5]

Unnamed: 0,Código_aeropuerto,Nombre_aeropuerto,Pais,Ciudad
0,ABV,Nnamdi Azikiwe International Airport,Nigeria,Abuja
1,AEP,Aeroparque Jorge Newbery,Argentina,Buenos Aires
2,AFA,San Rafael Airport,Argentina,San Rafael
3,ANF,Cerro Moreno International Airport,Chile,Antofagasta
4,ANU,V.C. Bird International Airport,Antigua,St. John's


In [13]:
Link_Aeropuertos2 = 'https://raw.githubusercontent.com/Fran-Brogiolo/DataScienceDiploma/master/Mentor%C3%ADa%20Big%20Data%20Bang/Aeropuertos_ok.csv'
Aeropuertos_df2 = pd.read_csv(Link_Aeropuertos2 , encoding='latin-1')
Aeropuertos_df2[:5]

Unnamed: 0,Código IATA,País,Ciudad,Latitud,Longitud
0,ABV,Nigeria,Abuja,9.01,7.26
1,AEP,Argentina,Buenos Aires,-34.56,-58.42
2,AFA,Argentina,San Rafael,-34.59,-68.4
3,ANF,Chile,Antofagasta,-23.44,-70.45
4,ANU,Antigua y Barbuda,Saint John's,17.14,-61.79


In [14]:
Link_Aeronaves = 'https://raw.githubusercontent.com/Fran-Brogiolo/DataScienceDiploma/master/Mentor%C3%ADa%20Big%20Data%20Bang/Aeronaves.csv'
Aeronaves_df = pd.read_csv(Link_Aeronaves , encoding='latin-1')
Aeronaves_df[:5]

Unnamed: 0,Tipo de Aeronave,Capacidad máxima de pasajeros,Uso más común
0,738,189,Transporte de pasajeros
1,320,180,Transporte de pasajeros
2,738W,189,Transporte de pasajeros
3,E190,114,Transporte de pasajeros
4,737W,189,Transporte de pasajeros


## d) ¿Tenemos forma de identificar de manera única cada registro? ¿Cuántas observaciones?
Si, mediante el codigo de vuelo.

In [15]:
print("Observaciones: ",df.shape[0])

Observaciones:  127929


## e)  ¿Qué periodos de fechas tenemos en el dataset?
Desde enero 2019 hasta septiembre 2022

In [16]:
print("Mínimo ", min(df['STA']))
print("Máximo", max(df['STA']))

Mínimo  1/1/2019 01:50
Máximo 9/9/2022 23:55


## f) Pensando en el histórico de datos, ¿tenemos datos "suficientes" para pensar en realizar un modelo predictivo?
De datos "replicables" tenemos solo un año y medio aproximadamente, que sería el 2019 y 2022, ya que el 2020 y 2021 están fuertemente afectados por las restricciones por la pandemia. Consideramos igualmente que es información suficiente para crear modelo predictivo aunque no tan robusto. Tambien si nuestro objetivo es predecir indicadores de retrasos en los vuelos tenemos 2 columnas de mucha utilidad, una siendo STA la cual nos indica el horario en el cual el avion deberia arribar y ATA que nos indica el horario en el que el avion efectivamente arribo.

## g) ¿Tenemos la columna target (necesaria en problemas de aprendizaje supervisado)?
Podemos crear 3 columnas target como resta de las columnas STA, ETA y ATA tomando de a 2 columnas a la vez, generando columnas de "Demora en minutos"

# 3 Limpieza y Feature Engineering


## a) Revisión, eliminación o imputación de datos Nulos.

In [17]:
def porcentaje_nulos(df):
  porc_null=(df.isnull().sum()/df.shape[0])*100 #porcentaje de nulos por columna
  porc_null=porc_null.sort_values(ascending=False)
  print(porc_null[porc_null>0])
  return

In [18]:
porcentaje_nulos(df)

Asignar    100.00
CShare     100.00
SUG        100.00
Vip         99.92
L&F         99.85
Obs.        99.52
Via         99.39
ETA         21.48
Cin         11.16
Sec          9.73
Pax          1.85
ATA          1.83
#Rot         1.82
Aero.1       1.82
Pos          1.82
Cabecera     1.80
Mat          1.71
Ter          0.09
dtype: float64


In [19]:
#@title Eliminación de columnas vacías y con pocos datos
display(df.shape)
df.dropna(axis=1, how='all', inplace=True)
display(df.shape)
print('Se eliminaron 3 columnas vacías')

(127929, 28)

(127929, 25)

Se eliminaron 3 columnas vacías


Eliminamos las 4 columnas con más del 99% de datos nulos

In [20]:
#columnas a eliminar:
columns_to_drop = ['Via','L&F','Vip','Obs.']

#count de los valores no na de estas columnas:

print('CANTIDAD DE VALORES NO NULOS DE LAS COLUMNAS A ELIMINAR:')
for col in columns_to_drop:
    print(col, df[col].count())
print('')
print('Filas del df: {df.shape[0]}')

#eliminar las columnas
df.drop(columns_to_drop, axis=1, inplace=True)
print('Se eliminaron 4 columnas con pocos datos:', columns_to_drop)

df.shape

CANTIDAD DE VALORES NO NULOS DE LAS COLUMNAS A ELIMINAR:
Via 778
L&F 189
Vip 98
Obs. 620

Filas del df: {df.shape[0]}
Se eliminaron 4 columnas con pocos datos: ['Via', 'L&F', 'Vip', 'Obs.']


(127929, 21)

Renombramos las columnas para que los nombres sean más significativos:

In [21]:
df.rename(columns={'Aero': 'Nombre_Aerolinea', # '4M' '5U' 'A0' 'AJ' 'AR' 'AU' 'DN' 'FAA' 'FO' 'FQ' 'G3' 'H2' 'H8' 'JA', 'LA' 'LP' 'OY' 'PRV' 'USF' 'VH' 'WJ' 'Z7' 'ZP'
           '#Vuelo': 'Codigo_Vuelo',
           'Origen': 'Ruta_Vuelo',
           'STA': 'Horario_Prog_Arribo',
           'ETA': 'Horario_Estimado_Arribo',
           'ATA': 'Horario_Actual_Arribo',
           'Tipo': 'Tipo_Vuelo',                     # que valores que puede contener esta variable?
           'Pos': 'Posicion_Arribo',
           'Ter': 'Terminal_Arribo',
           'Sec': 'Sector',
           'Rmk': 'Estado_Vuelo',                    # Ate: aterrizado (tierra), Can: Cancelado, Alt: Altura (aire)
           'Cin': 'Cinta_Equipajes',
           'Pax': 'Cant_Pasajeros',
           'Mat': 'Matricula_Aeronave',
           'Acft': 'Tipo_Aeronave',                  # que valores que puede contener esta variable?
           'Aero.1': 'Nombre_Aerolinea_Partida',     # 4M' '5U' 'A0' 'AJ' 'AR' 'AU' 'DN' 'FAA' 'FO' 'FQ' 'G3' 'H2' 'H8' 'JA', 'LA' 'LP' 'OY' 'PRV' 'USF' 'VH' 'WJ' 'Z7' 'ZP', etc...
           '#Rot': 'Vuelo_Partida',
           'Cabecera': 'Cabecera_Arribo',
           'año': 'Año_Vuelo',
           'mes': 'Mes_Vuelo',
           'hora': 'Hora_Vuelo'},
           inplace = True)

In [22]:
porcentaje_nulos(df)

Horario_Estimado_Arribo    21.48
Cinta_Equipajes            11.16
Sector                      9.73
Cant_Pasajeros              1.85
Horario_Actual_Arribo       1.83
Nombre_Aerolinea_Partida    1.82
Posicion_Arribo             1.82
Vuelo_Partida               1.82
Cabecera_Arribo             1.80
Matricula_Aeronave          1.71
Terminal_Arribo             0.09
dtype: float64


Para la columna 'Horario actual de arribo' proponemos directamente eliminar esas filas, ya que el horario de arribo es parte de la columna target, y no son muchos datos (menos del 2%) <font color='green'> --> Lo saco, también porque coincide con faltantes en otras columnas. Lo mismo aplica si faltaran muchos datos (20% por ejemplo). Se eliminan.

In [23]:
df = df.dropna(subset=['Horario_Actual_Arribo'])

In [24]:
pd.set_option('display.float_format', lambda x: '%.3f' % x)
porcentaje_nulos(df)

Horario_Estimado_Arribo    20.019
Cinta_Equipajes             9.616
Sector                      9.441
Terminal_Arribo             0.083
Cant_Pasajeros              0.047
Cabecera_Arribo             0.005
Vuelo_Partida               0.004
Nombre_Aerolinea_Partida    0.004
Posicion_Arribo             0.003
Matricula_Aeronave          0.003
dtype: float64


Horario_Estimado_Arribo la vamos a imputar con la columna Horario_Actual_Arribo, ya que es el dato más certero que tenemos. <font color= 'red'> Preguntar cómo utilizamos esta variable siendo que imputamos tantos datos (alguna precaución en particular?) <font color= 'green'>--> Probar variantes, probar algoritmo que imputa con ML. Al momento del modelo ver como performa con uno y como con otro método. Objetivo: minimizar el error.

In [25]:
datos_nulos = df['Horario_Estimado_Arribo'].isnull()

# Imputa los datos nulos con los valores correspondientes de la columna de origen
df.loc[datos_nulos, 'Horario_Estimado_Arribo'] = df.loc[datos_nulos, 'Horario_Actual_Arribo']

# Verifica que los datos nulos se hayan imputado correctamente
print(df['Horario_Estimado_Arribo'].isnull().sum())

0


In [26]:
df[:3]

Unnamed: 0,Nombre_Aerolinea,Codigo_Vuelo,Ruta_Vuelo,Horario_Prog_Arribo,Horario_Estimado_Arribo,Horario_Actual_Arribo,Tipo_Vuelo,Posicion_Arribo,Terminal_Arribo,Sector,Estado_Vuelo,Cinta_Equipajes,Cant_Pasajeros,Matricula_Aeronave,Tipo_Aeronave,Nombre_Aerolinea_Partida,Vuelo_Partida,Cabecera_Arribo,Año_Vuelo,Mes_Vuelo,Hora_Vuelo
0,DN,6049,IGR,1/1/2019 01:50,1/1/2019 01:22,1/1/2019 01:22,1 C P,31,A,2,ATE,8,100.0,LVHQH,738,DN,6062,31.0,2019,1,1
1,4M,7623,COR,1/1/2019 06:17,05:50,1/1/2019 06:02,1 C P,9,A,2,ATE,6,36.0,LVBFO,320,4M,7502,31.0,2019,1,6
2,4M,7653,MDZ,1/1/2019 07:37,07:30,1/1/2019 07:30,1 C P,10,A,2,ATE,8,153.0,LVGLP,320,4M,7550,13.0,2019,1,7


In [27]:
#Definimos función para ayudarnos a visualizar datos
def frecuencia_columna(df_usado, columna_target):

    # Calcula la cantidad de datos con cada valor en la columna especificada
    cantidad_por_valor = df_usado[columna_target].value_counts().reset_index()

    # Renombra las columnas en el DataFrame resultante
    cantidad_por_valor.columns = [columna_target, 'cantidad']

    cantidad_por_valor['porcentaje'] = cantidad_por_valor['cantidad'] / len(df_usado) * 100

    # Calcula el total
    total = cantidad_por_valor['cantidad'].sum()

    # Agrega una fila adicional para el total
    fila_total = pd.DataFrame({columna_target: 'Total', 'cantidad': total, 'porcentaje': total*100/len(df_usado)}, index=[0])
    cantidad_por_valor = pd.concat([cantidad_por_valor, fila_total], ignore_index=True)

    # Muestra la lista con la cantidad de datos por valor y su porcentaje
    print(cantidad_por_valor)
    return

In [28]:
porcentaje_nulos(df)

Cinta_Equipajes            9.616
Sector                     9.441
Terminal_Arribo            0.083
Cant_Pasajeros             0.047
Cabecera_Arribo            0.005
Vuelo_Partida              0.004
Nombre_Aerolinea_Partida   0.004
Matricula_Aeronave         0.003
Posicion_Arribo            0.003
dtype: float64


In [29]:
frecuencia_columna(df, 'Cinta_Equipajes')

   Cinta_Equipajes  cantidad  porcentaje
0                2     17533      13.961
1                3     16169      12.875
2                4     15747      12.539
3                5     15532      12.367
4                6     10519       8.376
5                8      8624       6.867
6                7      7885       6.278
7                9      6009       4.785
8               2I      5126       4.082
9               3I      4242       3.378
10               1      3260       2.596
11              1I      2809       2.237
12              1-        56       0.045
13           Total    113511      90.384


Propuesta: crear nuevo valor "Desconocido" para imputar el caso 10% faltante, ya que tiene una distribución uniforme y faltan muchos datos.
Al 1- decidimos asignarlo a 1, consideramos que es un error de tipeo dado que hay muy pocos datos. <font color='green'> --> Propuesta: agrupar el 1 con 1I, 2 con 2I, etc. para simplificar la cant. de opciones. Faltantes: probar, no hay una forma mejor que otra.

In [30]:
df['Cinta_Equipajes'].fillna('0', inplace=True)
df['Cinta_Equipajes'] = df['Cinta_Equipajes'].str.replace('1-', '1')
df['Cinta_Equipajes'] = df['Cinta_Equipajes'].str.replace('1I', '1')
df['Cinta_Equipajes'] = df['Cinta_Equipajes'].str.replace('2I', '2')
df['Cinta_Equipajes'] = df['Cinta_Equipajes'].str.replace('3I', '3')
frecuencia_columna(df, 'Cinta_Equipajes')

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df['Cinta_Equipajes'].fillna('0', inplace=True)
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df['Cinta_Equipajes'] = df['Cinta_Equipajes'].str.replace('1-', '1')
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df['Cinta_Equipajes'] = df['Cinta_Equipajes'].str.replace('1I', '1')


   Cinta_Equipajes  cantidad  porcentaje
0                2     22659      18.042
1                3     20411      16.252
2                4     15747      12.539
3                5     15532      12.367
4                0     12077       9.616
5                6     10519       8.376
6                8      8624       6.867
7                7      7885       6.278
8                1      6125       4.877
9                9      6009       4.785
10           Total    125588     100.000


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df['Cinta_Equipajes'] = df['Cinta_Equipajes'].str.replace('2I', '2')
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df['Cinta_Equipajes'] = df['Cinta_Equipajes'].str.replace('3I', '3')


In [31]:
vuelos_cancelados = df[df['Estado_Vuelo'] == 'CAN']
print(f'total vuelos cancelados: {vuelos_cancelados.shape[0]}')
vuelos_cancelados.Cabecera_Arribo.value_counts()

total vuelos cancelados: 1


13.000    1
Name: Cabecera_Arribo, dtype: int64

In [32]:
na_cabecera = df[df['Cabecera_Arribo'].isna()]
frecuencia_columna(na_cabecera, 'Estado_Vuelo')

  Estado_Vuelo  cantidad  porcentaje
0          ALT         4      66.667
1          ATE         2      33.333
2        Total         6     100.000


**En el caso de los nulos en cabecera, se trata en su gran mayoría de vuelos CANCELADOS (no habrían aterrizado) por lo que no sería correcto asignarles una cabecera. ¿Eliminar?**

In [33]:
pd.set_option('display.float_format', lambda x: '%.3f' % x)
porcentaje_nulos(df)
frecuencia_columna(df, 'Sector')

Sector                     9.441
Terminal_Arribo            0.083
Cant_Pasajeros             0.047
Cabecera_Arribo            0.005
Vuelo_Partida              0.004
Nombre_Aerolinea_Partida   0.004
Posicion_Arribo            0.003
Matricula_Aeronave         0.003
dtype: float64
  Sector  cantidad  porcentaje
0      N     69010      54.950
1      2     32433      25.825
2      I     12270       9.770
3      A        16       0.013
4      B         2       0.002
5  Total    113731      90.559


Debemos imputar estos datos faltantes, decidir qué método utilizar.
Propuesta: imputar por esa distribución aleatoriamente proporcional a su %. <font color='red'> Consultar si está bien. <font color='green'> --> OK

In [34]:
sector_proportions = df['Sector'].value_counts(normalize=True)
missing_count = df['Sector'].isna().sum()
imputed_values = np.random.choice(sector_proportions.index, size=missing_count, p=sector_proportions.values)
df.loc[df['Sector'].isna(), 'Sector'] = imputed_values
porcentaje_nulos(df)
frecuencia_columna(df, 'Sector')

Terminal_Arribo            0.083
Cant_Pasajeros             0.047
Cabecera_Arribo            0.005
Vuelo_Partida              0.004
Nombre_Aerolinea_Partida   0.004
Posicion_Arribo            0.003
Matricula_Aeronave         0.003
dtype: float64
  Sector  cantidad  porcentaje
0      N     76213      60.685
1      2     35780      28.490
2      I     13575      10.809
3      A        18       0.014
4      B         2       0.002
5  Total    125588     100.000


Hipótesis: N: Nacional, I: Internacional, 2: Carga

In [35]:
frecuencia_columna(df, 'Cant_Pasajeros')

    Cant_Pasajeros  cantidad  porcentaje
0            0.000      6212       4.946
1           96.000      2537       2.020
2          170.000      2487       1.980
3          171.000      1805       1.437
4          172.000      1784       1.421
..             ...       ...         ...
220        225.000         1       0.001
221        200.000         1       0.001
222        224.000         1       0.001
223        205.000         1       0.001
224          Total    125529      99.953

[225 rows x 3 columns]


Proponemos imputar por 0 directamente ya que no hay otro dato que podamos utilizar para completar este valor y es un porcentaje muy bajo, con lo cual creemos que es la forma en la que se cometería menor error, y además el valor 0 es el que más porcentaje tiene en la base de datos

In [36]:
ceros_pax = df[df['Cant_Pasajeros'] == 0]
frecuencia_columna(ceros_pax, 'Tipo_Aeronave')

   Tipo_Aeronave  cantidad  porcentaje
0            L60      1380      22.215
1           E190       715      11.510
2           738W       629      10.126
3            L35       280       4.507
4            320       243       3.912
..           ...       ...         ...
93           AT4         1       0.016
94           AT7         1       0.016
95          C212         1       0.016
96           CC5         1       0.016
97         Total      6212     100.000

[98 rows x 3 columns]



La aeronave que mayor pasajeros nulos contiene es el Learjet 60. Tiene sentido que tenga muchos ceros ya que se trata de un avión mediano, para pocos ocupantes (10). La base de datos de Anac de 2022 valida asimismo el porcentaje *razonable* de ceros para este avión.

Le sigue el Embraer 190 y el Boeing 738. En estos otros dos casos sí llama la atención que no lleven pasajeros ya que se trata de aeronaves grandes.

In [37]:
df['Cant_Pasajeros'].fillna(0, inplace=True)

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df['Cant_Pasajeros'].fillna(0, inplace=True)


In [38]:
porcentaje_nulos(df)

Terminal_Arribo            0.083
Cabecera_Arribo            0.005
Vuelo_Partida              0.004
Nombre_Aerolinea_Partida   0.004
Posicion_Arribo            0.003
Matricula_Aeronave         0.003
dtype: float64


Proponemos para el resto de las columnas imputar por la moda ya que son muy pocos datos en % los que faltan. <font color='red'>Preguntar a Noe a ver si está bien esto. IMPUTAR TODO.<font color='green'> --> MODA, OK.

In [39]:
columnas_con_nulos = df.columns[df.isnull().any()].tolist()
print(columnas_con_nulos)

#porcentaje_limite = 12.5

#columnas_con_pocos_nulos = df.columns[df.isnull().mean() < porcentaje_limite/100].tolist()
#print(columnas_con_pocos_nulos)

for columna in columnas_con_nulos:
  df[columna].fillna(df[columna].mode()[0], inplace=True)


['Posicion_Arribo', 'Terminal_Arribo', 'Matricula_Aeronave', 'Nombre_Aerolinea_Partida', 'Vuelo_Partida', 'Cabecera_Arribo']


A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df[columna].fillna(df[columna].mode()[0], inplace=True)
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df[columna].fillna(df[columna].mode()[0], inplace=True)
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df[columna].fillna(df[columna].mode()[0], inplace=True)
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  

In [40]:
df.shape

(125588, 21)

In [41]:
porcentaje_nulos(df)

Series([], dtype: float64)


In [42]:
# Observamos cómo queda la DB
msno.matrix(df,figsize=(10, 5), fontsize=12, color=[0,0,0.2])
plt.show()

  plt.show()


## b)Análisis de Nulos “no claros” (undefined? ceros? etc)

In [43]:
Ruta = np.unique(df['Ruta_Vuelo'])
print(Ruta)

['#¿NOMBRE?' 'ABV' 'AEP' 'AFA' 'ANF' 'ANU' 'APO' 'ARI' 'ASI' 'ASU' 'BAL'
 'BAQ' 'BCN' 'BHI' 'BLL' 'BLV' 'BOG' 'BPS' 'BRC' 'BSB' 'CBB' 'CCS' 'CDG'
 'CGB' 'CGR' 'CIW' 'CJC' 'CLO' 'CMH' 'CNF' 'CNQ' 'COC' 'COR' 'CPC' 'CPT'
 'CRD' 'CSC' 'CSR' 'CTC' 'CUN' 'CUZ' 'CWB' 'CYR' 'CZM' 'DIA' 'DOT' 'EDP'
 'EHL' 'ELO' 'ENO' 'EPA' 'EQS' 'ESC' 'EWR' 'EZE' 'FDO' 'FLL' 'FLN' 'FMA'
 'FOR' 'FTE' 'FXE' 'GEZ' 'GGY' 'GIG' 'GNR' 'GPO' 'GRU' 'GVA' 'GYE' 'GYN'
 'HAV' 'HLI' 'HOU' 'HPN' 'IAD' 'IAH' 'IBZ' 'IGR' 'IGU' 'IPC' 'IQQ' 'IRJ'
 'IST' 'ITO' 'JFK' 'JUJ' 'KNA' 'LAD' 'LAS' 'LCP' 'LGS' 'LHR' 'LIM' 'LPA'
 'LPB' 'LPG' 'LRM' 'LUQ' 'MAD' 'MAO' 'MCO' 'MDE' 'MDQ' 'MDZ' 'MEX' 'MIA'
 'MJR' 'MLG' 'MOR' 'MPN' 'MVD' 'NAS' 'NAT' 'NCJ' 'NEC' 'NIN' 'NQN' 'OAK'
 'OBE' 'OLA' 'OPF' 'OYA' 'OYO' 'PAL' 'PBI' 'PDI' 'PDP' 'PEH' 'PIO' 'PLS'
 'PMC' 'PMI' 'PMQ' 'PMV' 'PMY' 'PNR' 'PNT' 'POA' 'POS' 'PRA' 'PSS' 'PTY'
 'PUD' 'PUJ' 'PUQ' 'QLV' 'RCQ' 'RCU' 'REC' 'REL' 'RES' 'RGA' 'RGL' 'RHD'
 'RLA' 'RLC' 'RLO' 'ROS' 'RSA' 'RYD' 'RZA' 'SAL' 'S

In [44]:
df['Ruta_Vuelo'].nunique()

215

In [45]:
def ruta_vuelo_error(df):
  sin_nombre= df[(df['Ruta_Vuelo'] == '#¿NOMBRE?')]
  num_filas = sin_nombre.shape[0]
  print("El DataFrame tiene", num_filas, "filas sin aeropuerto.")

  nombre_XXX= df[(df['Ruta_Vuelo'] == 'XXX')]
  num_filas = nombre_XXX.shape[0]
  print("El DataFrame tiene", num_filas, "filas cuyo aeropuerto es XXX.")
  return

In [46]:
ruta_vuelo_error(df)

El DataFrame tiene 293 filas sin aeropuerto.
El DataFrame tiene 1 filas cuyo aeropuerto es XXX.


Para estos 294 registros decidimos crear una nueva categoría "Sin aeropuerto" <font color='green'> Imputado con los % de frecuencia.

In [47]:
frecuencia_columna(df, 'Ruta_Vuelo')

    Ruta_Vuelo  cantidad  porcentaje
0          COR     10271       8.178
1          BRC     10028       7.985
2          MDZ      9230       7.349
3          IGR      7714       6.142
4          SLA      6824       5.434
..         ...       ...         ...
211        SFB         1       0.001
212        TFN         1       0.001
213        CBB         1       0.001
214        ABV         1       0.001
215      Total    125588     100.000

[216 rows x 3 columns]


In [48]:
df['Ruta_Vuelo'] = df['Ruta_Vuelo'].replace(['#¿NOMBRE?', 'XXX'], np.nan)
ruta_vuelo_error(df)

El DataFrame tiene 0 filas sin aeropuerto.
El DataFrame tiene 0 filas cuyo aeropuerto es XXX.


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df['Ruta_Vuelo'] = df['Ruta_Vuelo'].replace(['#¿NOMBRE?', 'XXX'], np.nan)


In [49]:
ruta_proportions = df['Ruta_Vuelo'].value_counts(normalize=True)
missing_count = df['Ruta_Vuelo'].isna().sum()
imputed_values = np.random.choice(ruta_proportions.index, size=missing_count, p=ruta_proportions.values)
df.loc[df['Ruta_Vuelo'].isna(), 'Ruta_Vuelo'] = imputed_values
porcentaje_nulos(df)
frecuencia_columna(df, 'Ruta_Vuelo')

Series([], dtype: float64)
    Ruta_Vuelo  cantidad  porcentaje
0          COR     10297       8.199
1          BRC     10057       8.008
2          MDZ      9244       7.361
3          IGR      7736       6.160
4          SLA      6837       5.444
..         ...       ...         ...
209        SFB         1       0.001
210        TFN         1       0.001
211        CBB         1       0.001
212        ABV         1       0.001
213      Total    125588     100.000

[214 rows x 3 columns]


In [50]:
ruta_vuelo_error(df)

El DataFrame tiene 0 filas sin aeropuerto.
El DataFrame tiene 0 filas cuyo aeropuerto es XXX.


Controlamos si hay ceros en alguna otra columna:

In [51]:
print(df.eq(0).sum())

Nombre_Aerolinea               0
Codigo_Vuelo                   0
Ruta_Vuelo                     0
Horario_Prog_Arribo            0
Horario_Estimado_Arribo        0
Horario_Actual_Arribo          0
Tipo_Vuelo                     0
Posicion_Arribo                0
Terminal_Arribo                0
Sector                         0
Estado_Vuelo                   0
Cinta_Equipajes                0
Cant_Pasajeros              6271
Matricula_Aeronave             0
Tipo_Aeronave                  0
Nombre_Aerolinea_Partida       0
Vuelo_Partida                  0
Cabecera_Arribo                0
Año_Vuelo                      0
Mes_Vuelo                      0
Hora_Vuelo                  4135
dtype: int64


Cant_pasajeros y hora vuelo es lógico que tengan ceros. Ok.

In [52]:
frecuencia_columna(df,"Tipo_Aeronave")

    Tipo_Aeronave  cantidad  porcentaje
0            738W     48236      38.408
1            E190     30886      24.593
2             320     16965      13.508
3            737W      6352       5.058
4             7M8      4128       3.287
..            ...       ...         ...
118           312         1       0.001
119           ER3         1       0.001
120          PA28         1       0.001
121          TBM8         1       0.001
122         Total    125588     100.000

[123 rows x 3 columns]


In [53]:
import matplotlib.pyplot as plt
from collections import Counter

# Calcular frecuencias y ordenar las categorías por frecuencia
frecuencias = Counter(df['Tipo_Aeronave'])
categorias_ordenadas, frecuencias_ordenadas = zip(*frecuencias.most_common(10))

# Graficar el histograma
plt.bar(categorias_ordenadas, frecuencias_ordenadas)

# Etiquetas de frecuencias en el eje y
plt.ylabel('Frecuencia')

# Título del gráfico
plt.title('Vuelos por tipo de Aeronave')

# Mostrar el gráfico
plt.show()

  plt.show()


In [54]:
df_filtrado_Aeronaves = Aeronaves_df[Aeronaves_df['Tipo de Aeronave'].isin(categorias_ordenadas)]
df_filtrado_Aeronaves

Unnamed: 0,Tipo de Aeronave,Capacidad máxima de pasajeros,Uso más común
0,738,189,Transporte de pasajeros
1,320,180,Transporte de pasajeros
2,738W,189,Transporte de pasajeros
3,E190,114,Transporte de pasajeros
4,737W,189,Transporte de pasajeros
6,7M8,180,Transporte de pasajeros
7,CR2,50,Transporte de pasajeros
9,L60,15,Privado
10,737,189,Transporte de pasajeros
11,M81,105,Transporte de pasajeros


La mayoría de las aeronaves que están en el top 15 de vuelos tienen un máximo de pasajeros de 180+, lo cual es lógico.

## c)Evaluación de datos de outliers y análisis de los mismos, para decidir qué acción tomar.


No hay outliers de pasajeros

In [55]:
print("Máximo", max(df['Cant_Pasajeros']))

Máximo 225.0


<font color='red'> Agregar lo de outliers en tiempos

## d)Transformación de fechas, strings a numéricos y/o categórico y otras, en caso de ser necesario.

In [56]:
df.shape

(125588, 21)

In [57]:
# Corrijo tipos de datos que necesito para analizar
df.Horario_Prog_Arribo = pd.to_datetime(df.Horario_Prog_Arribo,dayfirst=True)
df.Horario_Estimado_Arribo = pd.to_datetime(df.Horario_Estimado_Arribo)
df.Horario_Actual_Arribo = pd.to_datetime(df.Horario_Actual_Arribo,dayfirst=True)
df.Cant_Pasajeros = pd.to_numeric(df.Cant_Pasajeros)
#Faltan?

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df.Horario_Prog_Arribo = pd.to_datetime(df.Horario_Prog_Arribo,dayfirst=True)
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df.Horario_Estimado_Arribo = pd.to_datetime(df.Horario_Estimado_Arribo)
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df.Horario_Actual_Arribo = pd.to_datetime(df.Horario_Ac

In [58]:
df.shape

(125588, 21)

In [59]:
#df[['Fecha_Actual_Arribo','Hora_Actual_Arribo']]=df['Horario_Actual_Arribo'].str.split(' ',expand=True) # ver si conviene separar las variables para trabajar con el formato de fecha corta y hora?

In [60]:
df.dtypes # Verifico los cambios realizados

Nombre_Aerolinea                    object
Codigo_Vuelo                        object
Ruta_Vuelo                          object
Horario_Prog_Arribo         datetime64[ns]
Horario_Estimado_Arribo     datetime64[ns]
Horario_Actual_Arribo       datetime64[ns]
Tipo_Vuelo                          object
Posicion_Arribo                     object
Terminal_Arribo                     object
Sector                              object
Estado_Vuelo                        object
Cinta_Equipajes                     object
Cant_Pasajeros                     float64
Matricula_Aeronave                  object
Tipo_Aeronave                       object
Nombre_Aerolinea_Partida            object
Vuelo_Partida                       object
Cabecera_Arribo                    float64
Año_Vuelo                            int64
Mes_Vuelo                            int64
Hora_Vuelo                           int64
dtype: object

In [61]:
df[:3]

Unnamed: 0,Nombre_Aerolinea,Codigo_Vuelo,Ruta_Vuelo,Horario_Prog_Arribo,Horario_Estimado_Arribo,Horario_Actual_Arribo,Tipo_Vuelo,Posicion_Arribo,Terminal_Arribo,Sector,Estado_Vuelo,Cinta_Equipajes,Cant_Pasajeros,Matricula_Aeronave,Tipo_Aeronave,Nombre_Aerolinea_Partida,Vuelo_Partida,Cabecera_Arribo,Año_Vuelo,Mes_Vuelo,Hora_Vuelo
0,DN,6049,IGR,2019-01-01 01:50:00,2019-01-01 01:22:00,2019-01-01 01:22:00,1 C P,31,A,2,ATE,8,100.0,LVHQH,738,DN,6062,31.0,2019,1,1
1,4M,7623,COR,2019-01-01 06:17:00,2023-08-26 05:50:00,2019-01-01 06:02:00,1 C P,9,A,2,ATE,6,36.0,LVBFO,320,4M,7502,31.0,2019,1,6
2,4M,7653,MDZ,2019-01-01 07:37:00,2023-08-26 07:30:00,2019-01-01 07:30:00,1 C P,10,A,2,ATE,8,153.0,LVGLP,320,4M,7550,13.0,2019,1,7


## e)Limpieza de datos duplicados

Eliminamos duplicados (no hay)

In [62]:
df=df.drop_duplicates() # Borro duplicados
print(df.shape) # Verifico líneas al final para saber si hubo cambios

(125588, 21)


## f)Eliminación de datos innecesarios

Por ahora no detectamos datos innecesarios.

##Adicional: unir las bases de datos de aeropuertos y aeronaves a nuestra base:

In [63]:
#pd.set_option('display.float_format', '{:,.4f}'.format)
df_final = pd.merge(df, Aeropuertos_df2, left_on='Ruta_Vuelo', right_on='Código IATA',how='left')
df_final = pd.merge(df_final, Aeronaves_df, left_on='Tipo_Aeronave', right_on='Tipo de Aeronave',how='left')
df_final

Unnamed: 0,Nombre_Aerolinea,Codigo_Vuelo,Ruta_Vuelo,Horario_Prog_Arribo,Horario_Estimado_Arribo,Horario_Actual_Arribo,Tipo_Vuelo,Posicion_Arribo,Terminal_Arribo,Sector,Estado_Vuelo,Cinta_Equipajes,Cant_Pasajeros,Matricula_Aeronave,Tipo_Aeronave,Nombre_Aerolinea_Partida,Vuelo_Partida,Cabecera_Arribo,Año_Vuelo,Mes_Vuelo,Hora_Vuelo,Código IATA,País,Ciudad,Latitud,Longitud,Tipo de Aeronave,Capacidad máxima de pasajeros,Uso más común
0,DN,6049,IGR,2019-01-01 01:50:00,2019-01-01 01:22:00,2019-01-01 01:22:00,1 C P,31,A,2,ATE,8,100.000,LVHQH,738,DN,6062,31.000,2019,1,1,IGR,Argentina,Puerto Iguazú,-25.737,-54.473,738,189,Transporte de pasajeros
1,4M,7623,COR,2019-01-01 06:17:00,2023-08-26 05:50:00,2019-01-01 06:02:00,1 C P,9,A,2,ATE,6,36.000,LVBFO,320,4M,7502,31.000,2019,1,6,COR,Argentina,Córdoba,-31.313,-64.209,320,180,Transporte de pasajeros
2,4M,7653,MDZ,2019-01-01 07:37:00,2023-08-26 07:30:00,2019-01-01 07:30:00,1 C P,10,A,2,ATE,8,153.000,LVGLP,320,4M,7550,13.000,2019,1,7,MDZ,Argentina,Mendoza,-32.831,-68.793,320,180,Transporte de pasajeros
3,AR,1671,NQN,2019-01-01 07:40:00,2023-08-26 07:29:00,2019-01-01 07:26:00,1 C P,7,A,2,ATE,1,28.000,LVFUA,738W,AR,1672,13.000,2019,1,7,NQN,Argentina,Neuquén,-38.949,-68.155,738W,189,Transporte de pasajeros
4,AR,1611,MDQ,2019-01-01 07:55:00,2023-08-26 07:45:00,2019-01-01 07:43:00,1 C P,26,A,2,ATE,2,146.000,LVGVA,738W,AR,1496,13.000,2019,1,7,MDQ,Argentina,Mar del Plata,-37.934,-57.573,738W,189,Transporte de pasajeros
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
125583,WJ,3481,SLA,2022-09-30 22:08:00,2023-08-26 22:03:00,2022-09-30 22:05:00,1 C P,17,A,N,ATE,9,187.000,LVKDP,320,WJ,3266,13.000,2022,9,22,SLA,Argentina,Salta,-24.007,-65.449,320,180,Transporte de pasajeros
125584,JA,1003,SCL,2022-09-30 22:15:00,2022-09-30 22:32:00,2022-09-30 22:32:00,1 I P,68,A,I,ATE,3,150.000,CCAWQ,320N,JA,1004,13.000,2022,9,22,SCL,Chile,Santiago de Chile,-33.393,-70.786,320N,180,Transporte de pasajeros
125585,WJ,3269,COR,2022-09-30 22:21:00,2023-08-26 22:01:00,2022-09-30 22:02:00,1 C P,16,A,N,ATE,7,163.000,LVHVT,320,WJ,3461,13.000,2022,9,22,COR,Argentina,Córdoba,-31.313,-64.209,320,180,Transporte de pasajeros
125586,FO,5225,TUC,2022-09-30 23:25:00,2023-08-26 23:20:00,2022-09-30 23:15:00,1 C P,66,A,N,ATE,8,178.000,LVKAY,738W,FO,5042,13.000,2022,9,23,TUC,Argentina,San Miguel de Tucumán,-26.841,-65.104,738W,189,Transporte de pasajeros


In [64]:
df_final = df_final.drop('Código IATA', axis=1)
df_final = df_final.drop('Tipo de Aeronave', axis=1)
df_final.rename(columns={'País': 'Pais_Aeropuerto', # '4M' '5U' 'A0' 'AJ' 'AR' 'AU' 'DN' 'FAA' 'FO' 'FQ' 'G3' 'H2' 'H8' 'JA', 'LA' 'LP' 'OY' 'PRV' 'USF' 'VH' 'WJ' 'Z7' 'ZP'
           'Ciudad': 'Ciudad_Aeropuerto',
            'Latitud': 'Latitud_Aeropuerto',
            'Longitud': 'Longitud_Aeropuerto',
           'Capacidad máxima de pasajeros': 'Capacidad_Max_Aeronave',
           'Uso más común': 'Uso_Aeronave'},
           inplace = True)
df_final

Unnamed: 0,Nombre_Aerolinea,Codigo_Vuelo,Ruta_Vuelo,Horario_Prog_Arribo,Horario_Estimado_Arribo,Horario_Actual_Arribo,Tipo_Vuelo,Posicion_Arribo,Terminal_Arribo,Sector,Estado_Vuelo,Cinta_Equipajes,Cant_Pasajeros,Matricula_Aeronave,Tipo_Aeronave,Nombre_Aerolinea_Partida,Vuelo_Partida,Cabecera_Arribo,Año_Vuelo,Mes_Vuelo,Hora_Vuelo,Pais_Aeropuerto,Ciudad_Aeropuerto,Latitud_Aeropuerto,Longitud_Aeropuerto,Capacidad_Max_Aeronave,Uso_Aeronave
0,DN,6049,IGR,2019-01-01 01:50:00,2019-01-01 01:22:00,2019-01-01 01:22:00,1 C P,31,A,2,ATE,8,100.000,LVHQH,738,DN,6062,31.000,2019,1,1,Argentina,Puerto Iguazú,-25.737,-54.473,189,Transporte de pasajeros
1,4M,7623,COR,2019-01-01 06:17:00,2023-08-26 05:50:00,2019-01-01 06:02:00,1 C P,9,A,2,ATE,6,36.000,LVBFO,320,4M,7502,31.000,2019,1,6,Argentina,Córdoba,-31.313,-64.209,180,Transporte de pasajeros
2,4M,7653,MDZ,2019-01-01 07:37:00,2023-08-26 07:30:00,2019-01-01 07:30:00,1 C P,10,A,2,ATE,8,153.000,LVGLP,320,4M,7550,13.000,2019,1,7,Argentina,Mendoza,-32.831,-68.793,180,Transporte de pasajeros
3,AR,1671,NQN,2019-01-01 07:40:00,2023-08-26 07:29:00,2019-01-01 07:26:00,1 C P,7,A,2,ATE,1,28.000,LVFUA,738W,AR,1672,13.000,2019,1,7,Argentina,Neuquén,-38.949,-68.155,189,Transporte de pasajeros
4,AR,1611,MDQ,2019-01-01 07:55:00,2023-08-26 07:45:00,2019-01-01 07:43:00,1 C P,26,A,2,ATE,2,146.000,LVGVA,738W,AR,1496,13.000,2019,1,7,Argentina,Mar del Plata,-37.934,-57.573,189,Transporte de pasajeros
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
125583,WJ,3481,SLA,2022-09-30 22:08:00,2023-08-26 22:03:00,2022-09-30 22:05:00,1 C P,17,A,N,ATE,9,187.000,LVKDP,320,WJ,3266,13.000,2022,9,22,Argentina,Salta,-24.007,-65.449,180,Transporte de pasajeros
125584,JA,1003,SCL,2022-09-30 22:15:00,2022-09-30 22:32:00,2022-09-30 22:32:00,1 I P,68,A,I,ATE,3,150.000,CCAWQ,320N,JA,1004,13.000,2022,9,22,Chile,Santiago de Chile,-33.393,-70.786,180,Transporte de pasajeros
125585,WJ,3269,COR,2022-09-30 22:21:00,2023-08-26 22:01:00,2022-09-30 22:02:00,1 C P,16,A,N,ATE,7,163.000,LVHVT,320,WJ,3461,13.000,2022,9,22,Argentina,Córdoba,-31.313,-64.209,180,Transporte de pasajeros
125586,FO,5225,TUC,2022-09-30 23:25:00,2023-08-26 23:20:00,2022-09-30 23:15:00,1 C P,66,A,N,ATE,8,178.000,LVKAY,738W,FO,5042,13.000,2022,9,23,Argentina,San Miguel de Tucumán,-26.841,-65.104,189,Transporte de pasajeros


In [65]:
df_final.shape

(125588, 27)

## Final, guardar database

In [66]:
#Control de que todas las columnas agregadas tengan datos:
porcentaje_nulos(df_final)

Series([], dtype: float64)


In [67]:
frecuencia_columna(df_final, "Ciudad_Aeropuerto")

           Ciudad_Aeropuerto  cantidad  porcentaje
0                    Córdoba     10297       8.199
1    San Carlos de Bariloche     10057       8.008
2                    Mendoza      9244       7.361
3              Puerto Iguazú      7736       6.160
4                      Salta      6837       5.444
..                       ...       ...         ...
188                    Natal         1       0.001
189                   Toluca         1       0.001
190                  Oakland         1       0.001
191                    Abuja         1       0.001
192                    Total    125588     100.000

[193 rows x 3 columns]


In [68]:
df_final.columns

Index(['Nombre_Aerolinea', 'Codigo_Vuelo', 'Ruta_Vuelo', 'Horario_Prog_Arribo',
       'Horario_Estimado_Arribo', 'Horario_Actual_Arribo', 'Tipo_Vuelo',
       'Posicion_Arribo', 'Terminal_Arribo', 'Sector', 'Estado_Vuelo',
       'Cinta_Equipajes', 'Cant_Pasajeros', 'Matricula_Aeronave',
       'Tipo_Aeronave', 'Nombre_Aerolinea_Partida', 'Vuelo_Partida',
       'Cabecera_Arribo', 'Año_Vuelo', 'Mes_Vuelo', 'Hora_Vuelo',
       'Pais_Aeropuerto', 'Ciudad_Aeropuerto', 'Latitud_Aeropuerto',
       'Longitud_Aeropuerto', 'Capacidad_Max_Aeronave', 'Uso_Aeronave'],
      dtype='object')

In [69]:
df_final['Pais_Aeropuerto'].unique()

array(['Argentina', 'Arabia Saudita', 'Brasil', 'Uruguay', 'Chile',
       'Paraguay', 'Bolivia', 'Venezuela', 'Alemania', 'Portugal',
       'Estados Unidos', 'Cabo Verde', 'Suecia', 'Australia', 'Perú',
       'El Salvador', 'Reino Unido', 'Costa Rica', 'España',
       'República Dominicana', 'Noruega', 'Suiza', 'Colombia',
       'Trinidad y Tobago', 'México', 'Antigua y Barbuda', 'Italia',
       'Panamá', 'Indonesia', 'Bahamas', 'Dinamarca', 'Rusia', 'Lituania',
       'Sint Maarten', 'Puerto Rico', 'Ecuador', 'Islas Turcas y Caicos',
       'Seychelles', 'Francia', 'Honduras', 'Turquía', 'Sudáfrica',
       'Angola', 'Cuba', 'Nigeria'], dtype=object)

In [70]:
df_final.to_csv("Base_Final_TP1.csv", index=None)
from IPython.display import FileLink
FileLink("Base_Final_TP1.csv")