## Analisis de Vuelos Norteamericanos 1992-2016

- Análisis de puntualidad y retrasos
- Análisis de cancelaciones y desvíos
- Análisis de rendimiento de las aerolíneas
- Análisis geográfico
- Análisis de factores de influencia


#### Fuente https://www.kaggle.com/datasets/mmetter/flights

In [41]:
import pandas as pd

In [42]:
# Se carga el Dataset
flights = pd.read_csv('../../data/flights.txt', sep= "|")

In [43]:
# Configuraraciones
pd.set_option('display.max_columns', None)

### Variables 

- FLIGHTDATE: Es la fecha del vuelo.
- AIRLINECODE: Es el código de la aerolínea.
- AIRLINENAME: Es el nombre de la aerolínea.
- TAILNUM: Es el número de cola de la aeronave, que identifica de manera única a una aeronave específica.
- FLIGHTNUM: Es el número de vuelo.
- ORIGINAIRPORTCODE: Es el código del aeropuerto de origen.
- ORIGAIRPORTNAME: Es el nombre del aeropuerto de origen.
- ORIGINCITYNAME: Es el nombre de la ciudad donde está ubicado el aeropuerto de origen.
- ORIGINSTATE: Es el estado donde está ubicado el aeropuerto de origen.
- ORIGINSTATENAME: Se refiere al nombre completo del estado donde está ubicado el aeropuerto de origen del vuelo
- DESTAIRPORTCODE: Este es el código del aeropuerto de destino al que se dirige el vuelo. 
- DESTAIRPORTNAME: Es el nombre del aeropuerto de destino al que se dirige el vuelo.
- DESTCITYNAME: Es el nombre de la ciudad donde está ubicado el aeropuerto de destino.
- DESTSTATE: Es el código del estado donde está ubicado el aeropuerto de destino.
- DESTSTATENAME: Es el nombre completo del estado donde está ubicado el aeropuerto de destino.
- CRSDEPTIME: Es la hora planificada de salida del vuelo. "CRS" significa "Computerized Reservation System".
- DEPTIME: Es la hora real de salida del vuelo.
- DEPDELAY: Es el retraso en la salida del vuelo, medido en minutos. Puede ser negativo si el vuelo sale antes de la hora programada.
- TAXIOUT: Es la duración del tiempo transcurrido desde el momento en que el avión se retira de la puerta de embarque hasta que despega. Es parte del tiempo de rodaje y preparación para el despegue.
- WHEELSON: Es el momento en que las ruedas del avión tocan el suelo al llegar a su destino.
- TAXIIN: Es la duración del tiempo transcurrido desde el momento en que las ruedas del avión tocan el suelo (wheels on) hasta que llega a la puerta del aeropuerto de destino.
- CRSARRTIME: Es la hora planificada de llegada del vuelo.
- ARRTIME: Es la hora real de llegada del vuelo.
- ARRDELAY: Es el retraso en la llegada del vuelo, medido en minutos.
- CRSELAPSEDTIME: Es el tiempo de vuelo planificado.
- ACTUALELAPSEDTIME: Es el tiempo de vuelo real.
- CANCELLED: Indica si el vuelo fue cancelado 
- DIVERTED: Indica si el vuelo fue desviado a otro aeropuerto  
- DISTANCE: Es la distancia del vuelo en millas.

In [44]:
flights.shape

(1191805, 31)

In [45]:
lista_variables = flights.columns.tolist()
lista_variables

['TRANSACTIONID',
 'FLIGHTDATE',
 'AIRLINECODE',
 'AIRLINENAME',
 'TAILNUM',
 'FLIGHTNUM',
 'ORIGINAIRPORTCODE',
 'ORIGAIRPORTNAME',
 'ORIGINCITYNAME',
 'ORIGINSTATE',
 'ORIGINSTATENAME',
 'DESTAIRPORTCODE',
 'DESTAIRPORTNAME',
 'DESTCITYNAME',
 'DESTSTATE',
 'DESTSTATENAME',
 'CRSDEPTIME',
 'DEPTIME',
 'DEPDELAY',
 'TAXIOUT',
 'WHEELSOFF',
 'WHEELSON',
 'TAXIIN',
 'CRSARRTIME',
 'ARRTIME',
 'ARRDELAY',
 'CRSELAPSEDTIME',
 'ACTUALELAPSEDTIME',
 'CANCELLED',
 'DIVERTED',
 'DISTANCE']

In [46]:
flights.sample(3)

Unnamed: 0,TRANSACTIONID,FLIGHTDATE,AIRLINECODE,AIRLINENAME,TAILNUM,FLIGHTNUM,ORIGINAIRPORTCODE,ORIGAIRPORTNAME,ORIGINCITYNAME,ORIGINSTATE,ORIGINSTATENAME,DESTAIRPORTCODE,DESTAIRPORTNAME,DESTCITYNAME,DESTSTATE,DESTSTATENAME,CRSDEPTIME,DEPTIME,DEPDELAY,TAXIOUT,WHEELSOFF,WHEELSON,TAXIIN,CRSARRTIME,ARRTIME,ARRDELAY,CRSELAPSEDTIME,ACTUALELAPSEDTIME,CANCELLED,DIVERTED,DISTANCE
885037,118576000,20110904,EV,ExpressJet Airlines Inc.: EV,N659CA,5154,DTW,DetroitMI: Detroit Metro Wayne County,Detroit,MI,Michigan,ORF,NorfolkVA: Norfolk International,Norfolk,VA,Virginia,1022,1017.0,-5.0,14.0,1031.0,1148.0,2.0,1209,1150.0,-19.0,107.0,93.0,False,F,529 miles
1065307,34103400,19980531,AA,American Airlines Inc.: AA,N455AA,2221,PVD,ProvidenceRI: Theodore Francis Green State,Providence,RI,Rhode Island,ORD,ChicagoIL: Chicago O'Hare International,Chicago,IL,Illinois,852,849.0,-3.0,20.0,909.0,1028.0,6.0,1020,1034.0,14.0,148.0,165.0,False,False,849 miles
203631,27857100,19970123,WN,Southwest Airlines Co.: WN,N622,537,OAK,OaklandCA: Metropolitan Oakland International,Oakland,CA,California,LAX,Los AngelesCA: Los Angeles International,Los Angeles,CA,California,1230,1230.0,0.0,13.0,1243.0,1345.0,12.0,1345,1357.0,12.0,75.0,87.0,False,False,337 miles


In [47]:
# se eliminan las columnas innecesarias
flights = flights.drop(columns=['TRANSACTIONID'])

In [48]:
# se modifican los valores a enteros
columas = ['WHEELSON', 'TAXIIN', 'ARRDELAY', 'CRSELAPSEDTIME' , 'ACTUALELAPSEDTIME', 'ARRTIME', 'DEPDELAY', 'TAXIOUT', 'WHEELSOFF', 'WHEELSOFF', 'DEPTIME']

for column in columas:
    flights[column] = flights[column].astype(str).str.replace('.0', '', regex=False)

In [49]:
# se transforma la columna de fecha a formato fecha
flights['FLIGHTDATE'] = pd.to_datetime(flights['FLIGHTDATE'], format='%Y%m%d')

In [51]:
flights.sample(3)

Unnamed: 0,FLIGHTDATE,AIRLINECODE,AIRLINENAME,TAILNUM,FLIGHTNUM,ORIGINAIRPORTCODE,ORIGAIRPORTNAME,ORIGINCITYNAME,ORIGINSTATE,ORIGINSTATENAME,DESTAIRPORTCODE,DESTAIRPORTNAME,DESTCITYNAME,DESTSTATE,DESTSTATENAME,CRSDEPTIME,DEPTIME,DEPDELAY,TAXIOUT,WHEELSOFF,WHEELSON,TAXIIN,CRSARRTIME,ARRTIME,ARRDELAY,CRSELAPSEDTIME,ACTUALELAPSEDTIME,CANCELLED,DIVERTED,DISTANCE
39183,1997-09-13,DL,Delta Air Lines Inc.: DL,N503DA,1296,ATL,AtlantaGA: Hartsfield-Jackson Atlanta Internat...,Atlanta,GA,Georgia,SLC,Salt Lake CityUT: Salt Lake City International,Salt Lake City,UT,Utah,1545,1545,0,22,1607,1723,5,1739,1728,-11,234,223,F,False,1589 miles
1060752,1997-01-14,DL,Delta Air Lines Inc.: DL,N641DL,985,RDU,Raleigh/DurhamNC: Raleigh-Durham International,Raleigh/Durham,NC,North Carolina,ATL,AtlantaGA: Hartsfield-Jackson Atlanta Internat...,Atlanta,GA,Georgia,600,738,98,12,750,900,8,721,908,107,81,90,False,False,356 miles
751896,2001-09-03,NW,Northwest Airlines Inc.: NW,N89125,763,DTW,DetroitMI: Detroit Metro Wayne County,Detroit,MI,Michigan,MSP,MinneapolisMN: Minneapolis-St Paul International,Minneapolis,MN,Minnesota,1225,1225,0,16,1241,1259,3,1322,1302,-20,117,97,0,0,528 miles


In [60]:
# Se visualizan las ciudades
origen_ciudades = flights['ORIGINAIRPORTCODE'].unique()
print(origen_ciudades)

['ABQ' 'ABY' 'ALB' 'ABI' 'CAK' 'ATL' 'BHM' 'BIL' 'BGM' 'RDM' 'BET' 'BTR'
 'BPT' 'BLI' 'BJI' 'BRW' 'BGR' 'BWI' 'AUS' 'MDW' 'ORD' 'AMA' 'ACV' 'AGS'
 'ACY' 'ANC' 'ATW' 'ANI' 'AVL' 'APN' 'ABE' 'BFL' 'ASE' 'HTS' 'CLT' 'CRW'
 'CPR' 'CDC' 'CHS' 'CID' 'CMI' 'CLD' 'BTM' 'BTV' 'BUR' 'BQN' 'ADK' 'ABR'
 'AEX' 'TRI' 'BRO' 'BUF' 'BQK' 'BZN' 'BRD' 'BKG' 'BOS' 'BIS' 'BOI' 'DFW'
 'TYS' 'EYW' 'ILE' 'MCI' 'LMT' 'GRK' 'AKN' 'ISO' 'KTN' 'ADQ' 'LAS' 'LRD'
 'LAN' 'LAR' 'LCH' 'LNY' 'LFT' 'LSE' 'KOA' 'OTZ' 'ROR' 'LIH' 'LEX' 'LWS'
 'LAW' 'LWB' 'LBE' 'LIT' 'LNK' 'LGB' 'LAX' 'GGG' 'FCA' 'IAH' 'HOU' 'OGG'
 'AZO' 'JNU' 'JAX' 'JMS' 'JLN' 'OAJ' 'HSV' 'ISP' 'JAN' 'JAC' 'IND' 'ITH'
 'IYK' 'IMT' 'INL' 'IDA' 'HYA' 'EFD' 'SDF' 'MHT' 'MSN' 'MMH' 'LBB' 'LYH'
 'MCN' 'MFR' 'MQT' 'MVY' 'MAZ' 'RSW' 'MHK' 'MEM' 'MLB' 'HNL' 'MKK' 'BDL'
 'HLN' 'HDN' 'GSP' 'GSO' 'MSP' 'ITO' 'HOB' 'PIB' 'HIB' 'HYS' 'LGA' 'JFK'
 'MSY' 'EWR' 'ORF' 'OME' 'PHF' 'IAG' 'SWF' 'OAK' 'OTH' 'OKC' 'OMA' 'ONT'
 'MCO' 'BNA' 'HVN' 'EWN' 'MRY' 'MYR' 'CWA' 'MKG' 'A

In [59]:
# Se visualizan las ciudades
origen_estados = flights['ORIGINSTATENAME'].unique()
print(origen_estados)

['New Mexico' 'Georgia' 'New York' 'Texas' 'Ohio' 'Alabama' 'Montana'
 'Oregon' 'Alaska' 'Louisiana' 'Washington' 'Minnesota' 'Maine' 'Maryland'
 'Illinois' 'California' 'New Jersey' 'Wisconsin' 'North Carolina'
 'Michigan' 'Pennsylvania' 'Colorado' 'West Virginia' 'Wyoming' 'Utah'
 'South Carolina' 'Iowa' 'Vermont' 'Puerto Rico' 'South Dakota'
 'Tennessee' 'Missouri' 'Massachusetts' 'North Dakota' 'Idaho' 'Florida'
 'Nevada' 'Hawaii' 'U.S. Pacific Trust Territories and Possessions'
 'Kentucky' nan 'Arkansas' 'Nebraska' 'Mississippi' 'Indiana'
 'New Hampshire' 'Virginia' 'Connecticut' 'Arizona' 'Delaware'
 'Rhode Island' 'U.S. Virgin Islands']


In [58]:
# Se realiza una tabla de frecuencia de los estados.

ciudades_frecuencia = pd.DataFrame(flights['ORIGINSTATENAME'].value_counts())
ciudades_frecuencia.columns = ['Frecuencia']
ciudades_frecuencia.reset_index(inplace=True)
ciudades_frecuencia.columns = ['Categoria', 'Frecuencia']

ciudades_frecuencia.head(10)

Unnamed: 0,Categoria,Frecuencia
0,California,141852
1,Texas,137592
2,Illinois,78413
3,Florida,78338
4,Georgia,67182
5,New York,51653
6,Pennsylvania,39624
7,Colorado,39422
8,North Carolina,39249
9,Arizona,39024


In [55]:
flights.sample(3)

Unnamed: 0,FLIGHTDATE,AIRLINECODE,AIRLINENAME,TAILNUM,FLIGHTNUM,ORIGINAIRPORTCODE,ORIGAIRPORTNAME,ORIGINCITYNAME,ORIGINSTATE,ORIGINSTATENAME,DESTAIRPORTCODE,DESTAIRPORTNAME,DESTCITYNAME,DESTSTATE,DESTSTATENAME,CRSDEPTIME,DEPTIME,DEPDELAY,TAXIOUT,WHEELSOFF,WHEELSON,TAXIIN,CRSARRTIME,ARRTIME,ARRDELAY,CRSELAPSEDTIME,ACTUALELAPSEDTIME,CANCELLED,DIVERTED,DISTANCE
669169,2009-01-11,AA,American Airlines Inc.: AA,N219AA,482,DFW,Dallas/Fort WorthTX: Dallas/Fort Worth Interna...,Dallas/Fort Worth,TX,Texas,IND,IndianapolisIN: Indianapolis International,Indianapolis,IN,Indiana,1020,1026,6,13,1039,1310,10,1325,1320,-5,125,114,False,False,762 miles
645049,1997-01-15,WN,Southwest Airlines Co.: WN,N605,47,DAL,DallasTX: Dallas Love Field,Dallas,TX,Texas,HOU,HoustonTX: William P Hobby,Houston,TX,Texas,1800,1828,28,5,1833,1913,3,1855,1916,21,55,48,False,False,239 miles
124020,1996-05-01,DL,Delta Air Lines Inc.: DL,N977DL,899,DFW,Dallas/Fort WorthTX: Dallas/Fort Worth Interna...,Dallas/Fort Worth,TX,Texas,SAT,San AntonioTX: San Antonio International,San Antonio,TX,Texas,1517,1517,0,11,1528,1607,4,1615,1611,-4,58,54,0,0,247 miles


In [56]:
fecha_mas_antigua = flights['FLIGHTDATE'].min()
fecha_mas_antigua

Timestamp('1992-01-01 00:00:00')

In [57]:
fecha_mas_reciente = flights['FLIGHTDATE'].max()
fecha_mas_reciente

Timestamp('2016-05-31 00:00:00')