In [1]:
import pandas as pd

In [2]:
# Se carga el Dataset
flights = pd.read_csv('../../data/flights.txt', sep= "|")

### Variables 

- FLIGHTDATE: Es la fecha del vuelo.
- AIRLINECODE: Es el código de la aerolínea.
- AIRLINENAME: Es el nombre de la aerolínea.
- TAILNUM: Es el número de cola de la aeronave, que identifica de manera única a una aeronave específica.
- FLIGHTNUM: Es el número de vuelo.
- ORIGINAIRPORTCODE: Es el código del aeropuerto de origen.
- ORIGAIRPORTNAME: Es el nombre del aeropuerto de origen.
- ORIGINCITYNAME: Es el nombre de la ciudad donde está ubicado el aeropuerto de origen.
- ORIGINSTATE: Es el estado donde está ubicado el aeropuerto de origen.
- WHEELSON: Es el momento en que las ruedas del avión tocan el suelo al llegar a su destino.
- TAXIIN: Es la duración del tiempo transcurrido desde el momento en que las ruedas del avión tocan el suelo (wheels on) hasta que llega a la puerta del aeropuerto de destino.
- CRSARRTIME: Es la hora planificada de llegada del vuelo.
- ARRTIME: Es la hora real de llegada del vuelo.
- ARRDELAY: Es el retraso en la llegada del vuelo, medido en minutos.
- CRSELAPSEDTIME: Es el tiempo de vuelo planificado.
- ACTUALELAPSEDTIME: Es el tiempo de vuelo real.
- CANCELLED: Indica si el vuelo fue cancelado 
- DIVERTED: Indica si el vuelo fue desviado a otro aeropuerto  
- DISTANCE: Es la distancia del vuelo en millas.

In [3]:
flights.shape

(1191805, 31)

In [4]:
flights.sample(3)

Unnamed: 0,TRANSACTIONID,FLIGHTDATE,AIRLINECODE,AIRLINENAME,TAILNUM,FLIGHTNUM,ORIGINAIRPORTCODE,ORIGAIRPORTNAME,ORIGINCITYNAME,ORIGINSTATE,...,WHEELSON,TAXIIN,CRSARRTIME,ARRTIME,ARRDELAY,CRSELAPSEDTIME,ACTUALELAPSEDTIME,CANCELLED,DIVERTED,DISTANCE
77920,104890300,20090508,OH,Comair Inc.: OH (1),N920CA,6927,BOS,BostonMA: Logan International,Boston,MA,...,1430.0,8.0,1439,1438.0,-1.0,94.0,93.0,F,False,370 miles
647710,133020800,20140113,DL,Delta Air Lines Inc.: DL,N906DA,1610,DEN,DenverCO: Denver International,Denver,CO,...,1150.0,9.0,1209,1159.0,-10.0,174.0,160.0,0,0,1123 miles
1188099,34042800,19980510,US,US Airways Inc.: US (Merged with America West ...,N424US,229,CLT,CharlotteNC: Charlotte Douglas International,Charlotte,NC,...,1253.0,7.0,1301,1300.0,-1.0,116.0,109.0,0,0,599 miles


In [5]:
# se eliminan las columnas innecesarias
flights = flights.drop(columns=['TRANSACTIONID'])

In [6]:
# se modifican los valores a enteros
columas = ['WHEELSON', 'TAXIIN','ARRDELAY', 'CRSELAPSEDTIME' , 'ACTUALELAPSEDTIME', 'ARRTIME']

for column in columas:
    flights[column] = flights[column].astype(str).str.replace('.0', '', regex=False)

In [7]:
# se transforma la columna de fecha a formato fecha
flights['FLIGHTDATE'] = pd.to_datetime(flights['FLIGHTDATE'], format='%Y%m%d')

In [8]:
flights.sample(3)

Unnamed: 0,FLIGHTDATE,AIRLINECODE,AIRLINENAME,TAILNUM,FLIGHTNUM,ORIGINAIRPORTCODE,ORIGAIRPORTNAME,ORIGINCITYNAME,ORIGINSTATE,ORIGINSTATENAME,...,WHEELSON,TAXIIN,CRSARRTIME,ARRTIME,ARRDELAY,CRSELAPSEDTIME,ACTUALELAPSEDTIME,CANCELLED,DIVERTED,DISTANCE
451502,1999-09-23,DL,Delta Air Lines Inc.: DL,N8873Z,951,ATL,AtlantaGA: Hartsfield-Jackson Atlanta Internat...,Atlanta,GA,Georgia,...,53,3,109,56,-13,224,217,F,False,1589 miles
221708,2015-05-26,WN,Southwest Airlines Co.: WN,N210WN,2590,MSY,New OrleansLA: Louis Armstrong New Orleans Int...,New Orleans,LA,Louisiana,...,1248,13,1240,1301,21,150,144,False,F,969 miles
716227,1998-05-11,DL,Delta Air Lines Inc.: DL,N302DL,2408,IND,IndianapolisIN: Indianapolis International,Indianapolis,IN,Indiana,...,1802,5,1815,1807,-8,130,125,0,0,828 miles


In [9]:
# Se visualizan las ciudades
origen_ciudades = flights['ORIGINAIRPORTCODE'].unique()
print(origen_ciudades)

['ABQ' 'ABY' 'ALB' 'ABI' 'CAK' 'ATL' 'BHM' 'BIL' 'BGM' 'RDM' 'BET' 'BTR'
 'BPT' 'BLI' 'BJI' 'BRW' 'BGR' 'BWI' 'AUS' 'MDW' 'ORD' 'AMA' 'ACV' 'AGS'
 'ACY' 'ANC' 'ATW' 'ANI' 'AVL' 'APN' 'ABE' 'BFL' 'ASE' 'HTS' 'CLT' 'CRW'
 'CPR' 'CDC' 'CHS' 'CID' 'CMI' 'CLD' 'BTM' 'BTV' 'BUR' 'BQN' 'ADK' 'ABR'
 'AEX' 'TRI' 'BRO' 'BUF' 'BQK' 'BZN' 'BRD' 'BKG' 'BOS' 'BIS' 'BOI' 'DFW'
 'TYS' 'EYW' 'ILE' 'MCI' 'LMT' 'GRK' 'AKN' 'ISO' 'KTN' 'ADQ' 'LAS' 'LRD'
 'LAN' 'LAR' 'LCH' 'LNY' 'LFT' 'LSE' 'KOA' 'OTZ' 'ROR' 'LIH' 'LEX' 'LWS'
 'LAW' 'LWB' 'LBE' 'LIT' 'LNK' 'LGB' 'LAX' 'GGG' 'FCA' 'IAH' 'HOU' 'OGG'
 'AZO' 'JNU' 'JAX' 'JMS' 'JLN' 'OAJ' 'HSV' 'ISP' 'JAN' 'JAC' 'IND' 'ITH'
 'IYK' 'IMT' 'INL' 'IDA' 'HYA' 'EFD' 'SDF' 'MHT' 'MSN' 'MMH' 'LBB' 'LYH'
 'MCN' 'MFR' 'MQT' 'MVY' 'MAZ' 'RSW' 'MHK' 'MEM' 'MLB' 'HNL' 'MKK' 'BDL'
 'HLN' 'HDN' 'GSP' 'GSO' 'MSP' 'ITO' 'HOB' 'PIB' 'HIB' 'HYS' 'LGA' 'JFK'
 'MSY' 'EWR' 'ORF' 'OME' 'PHF' 'IAG' 'SWF' 'OAK' 'OTH' 'OKC' 'OMA' 'ONT'
 'MCO' 'BNA' 'HVN' 'EWN' 'MRY' 'MYR' 'CWA' 'MKG' 'A

In [10]:
# Se visualizan las ciudades
origen_estados = flights['ORIGINSTATENAME'].unique()
print(origen_estados)

['New Mexico' 'Georgia' 'New York' 'Texas' 'Ohio' 'Alabama' 'Montana'
 'Oregon' 'Alaska' 'Louisiana' 'Washington' 'Minnesota' 'Maine' 'Maryland'
 'Illinois' 'California' 'New Jersey' 'Wisconsin' 'North Carolina'
 'Michigan' 'Pennsylvania' 'Colorado' 'West Virginia' 'Wyoming' 'Utah'
 'South Carolina' 'Iowa' 'Vermont' 'Puerto Rico' 'South Dakota'
 'Tennessee' 'Missouri' 'Massachusetts' 'North Dakota' 'Idaho' 'Florida'
 'Nevada' 'Hawaii' 'U.S. Pacific Trust Territories and Possessions'
 'Kentucky' nan 'Arkansas' 'Nebraska' 'Mississippi' 'Indiana'
 'New Hampshire' 'Virginia' 'Connecticut' 'Arizona' 'Delaware'
 'Rhode Island' 'U.S. Virgin Islands']


In [11]:
# Se realiza una tabla de frecuencia de las ciudades.

ciudades_frecuencia = pd.DataFrame(flights['ORIGINSTATENAME'].value_counts())
ciudades_frecuencia.columns = ['Frecuencia']
ciudades_frecuencia.reset_index(inplace=True)
ciudades_frecuencia.columns = ['Categoria', 'Frecuencia']

ciudades_frecuencia.head(10)

Unnamed: 0,Categoria,Frecuencia
0,California,141852
1,Texas,137592
2,Illinois,78413
3,Florida,78338
4,Georgia,67182
5,New York,51653
6,Pennsylvania,39624
7,Colorado,39422
8,North Carolina,39249
9,Arizona,39024


In [12]:
flights.sample(3)

Unnamed: 0,FLIGHTDATE,AIRLINECODE,AIRLINENAME,TAILNUM,FLIGHTNUM,ORIGINAIRPORTCODE,ORIGAIRPORTNAME,ORIGINCITYNAME,ORIGINSTATE,ORIGINSTATENAME,...,WHEELSON,TAXIIN,CRSARRTIME,ARRTIME,ARRDELAY,CRSELAPSEDTIME,ACTUALELAPSEDTIME,CANCELLED,DIVERTED,DISTANCE
90208,2009-01-04,WN,Southwest Airlines Co.: WN,N450WN,805,LAS,Las VegasNV: McCarran International,Las Vegas,NV,Nevada,...,917,16,935,933,-2,70,68,F,False,236 miles
579502,1996-01-14,UA,United Air Lines Inc.: UA,N942UA,1486,ORD,ChicagoIL: Chicago O'Hare International,Chicago,IL,Illinois,...,1045,3,1000,1048,48,117,109,0,0,738 miles
87847,2000-05-18,UA,United Air Lines Inc.: UA,N925UA,2309,LAS,Las VegasNV: McCarran International,Las Vegas,NV,Nevada,...,1337,3,1335,1340,5,87,81,False,F,414 miles
