In [20]:
# Importamos la data necesaria para el proceso
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

## AEROLINEAS

In [21]:
aerolineas = pd.read_csv('carriers.csv')
aeropuertos = pd.read_csv('airports.csv')

In [22]:
# Cambiando el nombre de la columna AIRLINE por Aerrolinea e IATA_CODE por ID_Aerolinea
aerolineas.rename(columns={'Code': 'ID_Aerolinea'}, inplace=True)
aerolineas.rename(columns={'Description': 'Aerolinea'}, inplace=True)

# Estableciendo a IATA_CODE como índice
aerolineas.set_index('ID_Aerolinea', inplace=True)
# Eliminando la fila que contiene los valores nulos
aerolineas.dropna(inplace=True)

In [23]:
# Exportando la data a un archivo csv
aerolineas.to_csv('aerolineas.csv')

In [24]:
aerolineas.head()

Unnamed: 0_level_0,Aerolinea
ID_Aerolinea,Unnamed: 1_level_1
02Q,Titan Airways
04Q,Tradewind Aviation
05Q,"Comlux Aviation, AG"
06Q,Master Top Linhas Aereas Ltd.
07Q,Flair Airlines Ltd.


### Verificando que no existan valores nulos

In [29]:
# Importamos el csv de aerolineasEXP(Valores unicos de ID_aeropuertos de la tabla vuelos) y poner como nombre 
# de la columna a ID_Aerolinea
aerolineasEXP = pd.read_csv('aerolineasEXP.csv', names=['ID_Aero'])

In [30]:
# Mostramos que valores de la columna ID_Aerolinea no se encuentran en la columna ID_Aero
aerolineasEXP[~aerolineasEXP['ID_Aero'].isin(aerolineas.index)]

Unnamed: 0,ID_Aero


## AEROPUERTOS

In [21]:
# Eliminando las filas cuyo COUNTRY no sea USA
aeropuertos = aeropuertos[aeropuertos['country'] == 'USA']
# Eliminando la columna COUNTRY
aeropuertos.drop(columns=['country'], inplace=True)


aeropuertos.rename(columns={'iata': 'ID_Aeropuerto'}, inplace=True)
aeropuertos.rename(columns={'airport': 'Aeropuerto'}, inplace=True)
aeropuertos.rename(columns={'city': 'Ciudad'}, inplace=True)
aeropuertos.rename(columns={'state': 'Estado'}, inplace=True)
aeropuertos.rename(columns={'lat': 'Latitud'}, inplace=True)
aeropuertos.rename(columns={'long': 'Longitud'}, inplace=True)

### Agregando aeropuertos que faltaban en la base de datos

In [22]:
# ID_Aeropuerto: UTM
aeropuertos = pd.concat([aeropuertos, pd.DataFrame({'ID_Aeropuerto': ['UTM'], 'Aeropuerto': ['Tunica Municipal Airport'], 'Ciudad': ['Tunica'], 'Estado': ['MS'], 'Latitud': [34.6833], 'Longitud': [-90.35]})], ignore_index=True)

In [23]:
# Agregando los 7 aeropuertos que no se encuentran en la data de aeropuertos usando el metodo de concatenacion
# ID_Aeropuerto: AZA
aeropuertos = pd.concat([aeropuertos, pd.DataFrame({'ID_Aeropuerto': ['AZA'], 'Aeropuerto': ['Phoenix-Mesa Gateway'], 'Ciudad': ['Mesa'], 'Estado': ['AZ'], 'Latitud': [33.3078], 'Longitud': [-111.655]})], ignore_index=True)
# ID_Aeropuerto: BKG
aeropuertos = pd.concat([aeropuertos, pd.DataFrame({'ID_Aeropuerto': ['BKG'], 'Aeropuerto': ['Branson LLC'], 'Ciudad': ['Branson'], 'Estado': ['MO'], 'Latitud': [36.5317], 'Longitud': [-93.2000]})], ignore_index=True)
# ID_Aeropuerto: ECP
aeropuertos = pd.concat([aeropuertos, pd.DataFrame({'ID_Aeropuerto': ['ECP'], 'Aeropuerto': ['Northwest Florida Beaches International'], 'Ciudad': ['Panama City'], 'Estado': ['FL'], 'Latitud': [30.3419], 'Longitud': [-85.7978]})], ignore_index=True)
# ID_Aeropuerto: PBG
aeropuertos = pd.concat([aeropuertos, pd.DataFrame({'ID_Aeropuerto': ['PBG'], 'Aeropuerto': ['Plattsburgh International'], 'Ciudad': ['Plattsburgh'], 'Estado': ['NY'], 'Latitud': [44.6500], 'Longitud': [-73.4689]})], ignore_index=True)
# ID_Aeropuerto: SPN
aeropuertos = pd.concat([aeropuertos, pd.DataFrame({'ID_Aeropuerto': ['SPN'], 'Aeropuerto': ['Francisco C. Ada Saipan International'], 'Ciudad': ['Saipan'], 'Estado': ['MP'], 'Latitud': [15.1197], 'Longitud': [145.729]})], ignore_index=True)
# ID_Aeropuerto: USA
aeropuertos = pd.concat([aeropuertos, pd.DataFrame({'ID_Aeropuerto': ['USA'], 'Aeropuerto': ['Concord Regional'], 'Ciudad': ['Concord'], 'Estado': ['NC'], 'Latitud': [35.3878], 'Longitud': [-80.7097]})], ignore_index=True)  
# ID_Aeropuerto: UST
aeropuertos = pd.concat([aeropuertos, pd.DataFrame({'ID_Aeropuerto': ['UST'], 'Aeropuerto': ['St. Augustine'], 'Ciudad': ['St. Augustine'], 'Estado': ['FL'], 'Latitud': [29.9592], 'Longitud': [-81.3394]})], ignore_index=True)

### Probamos si aun hay error de valores faltantes

In [None]:
# importamos la data de aeropuertosD y no tiene encabezado
aeropuertosD = pd.read_csv('aeropuertosD.csv', header=None)
# Cambiando los nombres de las columnas 0 por ID_Aeropuerto
aeropuertosD.rename(columns={0: 'ID_Aeropuerto'}, inplace=True)

In [None]:
# importamos la data de aeropuertosO y no tiene encabezado
aeropuertosO = pd.read_csv('aeropuertosO.csv', header=None)
# Cambiando los nombres de las columnas 0 por ID_Aeropuerto
aeropuertosO.rename(columns={0: 'ID_Aeropuerto'}, inplace=True)

### Continuamos con el analisis

In [24]:
# Eliminando las filas cuyo ID_Aeropuerto sea nulo
aeropuertos.dropna(subset=['ID_Aeropuerto'], inplace=True)

# Estableciendo a ID_Aeropuerto como índice
aeropuertos.set_index('ID_Aeropuerto', inplace=True)

In [25]:
# Exportando la data de aeropuertos a un archivo CSV
aeropuertos.to_csv('aeropuertos.csv')