In [2]:
import pandas as pd

In [4]:
# Se carga el Dataset
flights = pd.read_csv('../data/flights.txt', sep= "|")

### Variables 

- FLIGHTDATE: Es la fecha del vuelo.
- AIRLINECODE: Es el código de la aerolínea.
- AIRLINENAME: Es el nombre de la aerolínea.
- TAILNUM: Es el número de cola de la aeronave, que identifica de manera única a una aeronave específica.
- FLIGHTNUM: Es el número de vuelo.
- ORIGINAIRPORTCODE: Es el código del aeropuerto de origen.
- ORIGAIRPORTNAME: Es el nombre del aeropuerto de origen.
- ORIGINCITYNAME: Es el nombre de la ciudad donde está ubicado el aeropuerto de origen.
- ORIGINSTATE: Es el estado donde está ubicado el aeropuerto de origen.
- WHEELSON: Es el momento en que las ruedas del avión tocan el suelo al llegar a su destino.
- TAXIIN: Es la duración del tiempo transcurrido desde el momento en que las ruedas del avión tocan el suelo (wheels on) hasta que llega a la puerta del aeropuerto de destino.
- CRSARRTIME: Es la hora planificada de llegada del vuelo.
- ARRTIME: Es la hora real de llegada del vuelo.
- ARRDELAY: Es el retraso en la llegada del vuelo, medido en minutos.
- CRSELAPSEDTIME: Es el tiempo de vuelo planificado.
- ACTUALELAPSEDTIME: Es el tiempo de vuelo real.
- CANCELLED: Indica si el vuelo fue cancelado 
- DIVERTED: Indica si el vuelo fue desviado a otro aeropuerto  
- DISTANCE: Es la distancia del vuelo en millas.

In [6]:
flights.shape

(1191805, 31)

In [7]:
flights.sample(3)

Unnamed: 0,TRANSACTIONID,FLIGHTDATE,AIRLINECODE,AIRLINENAME,TAILNUM,FLIGHTNUM,ORIGINAIRPORTCODE,ORIGAIRPORTNAME,ORIGINCITYNAME,ORIGINSTATE,...,WHEELSON,TAXIIN,CRSARRTIME,ARRTIME,ARRDELAY,CRSELAPSEDTIME,ACTUALELAPSEDTIME,CANCELLED,DIVERTED,DISTANCE
833123,58647200,20020917,NW,Northwest Airlines Inc.: NW,N501US,103,MSP,MinneapolisMN: Minneapolis-St Paul International,Minneapolis,MN,...,1254.0,4.0,1305,1258.0,-7.0,202.0,194.0,F,False,1276 miles
508448,36057900,19980906,DL,Delta Air Lines Inc.: DL,N322DL,2461,BOS,BostonMA: Logan International,Boston,MA,...,1155.0,5.0,1200,1200.0,0.0,180.0,180.0,False,False,1121 miles
313954,55439000,20020127,MQ,Envoy Air: MQ,-N259M,3542,SJT,San AngeloTX: San Angelo Regional/Mathis Field,San Angelo,TX,...,919.0,12.0,941,931.0,-10.0,81.0,79.0,False,F,228 miles


In [8]:
# se eliminan las columnas innecesarias
flights = flights.drop(columns=['TRANSACTIONID'])

In [9]:
# se modifican los valores a enteros
columas = ['WHEELSON', 'TAXIIN','ARRDELAY', 'CRSELAPSEDTIME' , 'ACTUALELAPSEDTIME', 'ARRTIME']

for column in columas:
    flights[column] = flights[column].astype(str).str.replace('.0', '', regex=False)

In [15]:
flights['FLIGHTDATE'] = pd.to_datetime(flights['FLIGHTDATE'], format='%Y%m%d')

In [16]:
flights.sample(3)

Unnamed: 0,FLIGHTDATE,AIRLINECODE,AIRLINENAME,TAILNUM,FLIGHTNUM,ORIGINAIRPORTCODE,ORIGAIRPORTNAME,ORIGINCITYNAME,ORIGINSTATE,ORIGINSTATENAME,...,WHEELSON,TAXIIN,CRSARRTIME,ARRTIME,ARRDELAY,CRSELAPSEDTIME,ACTUALELAPSEDTIME,CANCELLED,DIVERTED,DISTANCE
628852,2002-01-05,NW,Northwest Airlines Inc.: NW,N89085,700,DTW,DetroitMI: Detroit Metro Wayne County,Detroit,MI,Michigan,...,1159,9,1201,1208,7,96,96,0,0,501 miles
762656,1996-01-18,WN,Southwest Airlines Co.: WN,N509,758,DTW,DetroitMI: Detroit Metro Wayne County,Detroit,MI,Michigan,...,1728,5,1735,1733,-2,60,58,0,0,229 miles
96095,2010-09-19,MQ,Envoy Air: MQ,N941MQ,3925,LEX,LexingtonKY: Blue Grass,Lexington,KY,Kentucky,...,1513,15,1520,1528,8,80,87,False,False,323 miles


In [17]:
# Se visualizan las ciudades
origen_ciudades = flights['ORIGINAIRPORTCODE'].unique()
print(origen_ciudades)

['ABQ' 'ABY' 'ALB' 'ABI' 'CAK' 'ATL' 'BHM' 'BIL' 'BGM' 'RDM' 'BET' 'BTR'
 'BPT' 'BLI' 'BJI' 'BRW' 'BGR' 'BWI' 'AUS' 'MDW' 'ORD' 'AMA' 'ACV' 'AGS'
 'ACY' 'ANC' 'ATW' 'ANI' 'AVL' 'APN' 'ABE' 'BFL' 'ASE' 'HTS' 'CLT' 'CRW'
 'CPR' 'CDC' 'CHS' 'CID' 'CMI' 'CLD' 'BTM' 'BTV' 'BUR' 'BQN' 'ADK' 'ABR'
 'AEX' 'TRI' 'BRO' 'BUF' 'BQK' 'BZN' 'BRD' 'BKG' 'BOS' 'BIS' 'BOI' 'DFW'
 'TYS' 'EYW' 'ILE' 'MCI' 'LMT' 'GRK' 'AKN' 'ISO' 'KTN' 'ADQ' 'LAS' 'LRD'
 'LAN' 'LAR' 'LCH' 'LNY' 'LFT' 'LSE' 'KOA' 'OTZ' 'ROR' 'LIH' 'LEX' 'LWS'
 'LAW' 'LWB' 'LBE' 'LIT' 'LNK' 'LGB' 'LAX' 'GGG' 'FCA' 'IAH' 'HOU' 'OGG'
 'AZO' 'JNU' 'JAX' 'JMS' 'JLN' 'OAJ' 'HSV' 'ISP' 'JAN' 'JAC' 'IND' 'ITH'
 'IYK' 'IMT' 'INL' 'IDA' 'HYA' 'EFD' 'SDF' 'MHT' 'MSN' 'MMH' 'LBB' 'LYH'
 'MCN' 'MFR' 'MQT' 'MVY' 'MAZ' 'RSW' 'MHK' 'MEM' 'MLB' 'HNL' 'MKK' 'BDL'
 'HLN' 'HDN' 'GSP' 'GSO' 'MSP' 'ITO' 'HOB' 'PIB' 'HIB' 'HYS' 'LGA' 'JFK'
 'MSY' 'EWR' 'ORF' 'OME' 'PHF' 'IAG' 'SWF' 'OAK' 'OTH' 'OKC' 'OMA' 'ONT'
 'MCO' 'BNA' 'HVN' 'EWN' 'MRY' 'MYR' 'CWA' 'MKG' 'A

In [18]:
# Se visualizan las ciudades
origen_estados = flights['ORIGINSTATENAME'].unique()
print(origen_estados)

['New Mexico' 'Georgia' 'New York' 'Texas' 'Ohio' 'Alabama' 'Montana'
 'Oregon' 'Alaska' 'Louisiana' 'Washington' 'Minnesota' 'Maine' 'Maryland'
 'Illinois' 'California' 'New Jersey' 'Wisconsin' 'North Carolina'
 'Michigan' 'Pennsylvania' 'Colorado' 'West Virginia' 'Wyoming' 'Utah'
 'South Carolina' 'Iowa' 'Vermont' 'Puerto Rico' 'South Dakota'
 'Tennessee' 'Missouri' 'Massachusetts' 'North Dakota' 'Idaho' 'Florida'
 'Nevada' 'Hawaii' 'U.S. Pacific Trust Territories and Possessions'
 'Kentucky' nan 'Arkansas' 'Nebraska' 'Mississippi' 'Indiana'
 'New Hampshire' 'Virginia' 'Connecticut' 'Arizona' 'Delaware'
 'Rhode Island' 'U.S. Virgin Islands']


In [19]:
# Se realiza una tabla de frecuencia de las ciudades.

ciudades_frecuencia = pd.DataFrame(flights['ORIGINSTATENAME'].value_counts())
ciudades_frecuencia.columns = ['Frecuencia']
ciudades_frecuencia.reset_index(inplace=True)
ciudades_frecuencia.columns = ['Categoria', 'Frecuencia']

ciudades_frecuencia.head(10)

Unnamed: 0,Categoria,Frecuencia
0,California,141852
1,Texas,137592
2,Illinois,78413
3,Florida,78338
4,Georgia,67182
5,New York,51653
6,Pennsylvania,39624
7,Colorado,39422
8,North Carolina,39249
9,Arizona,39024


In [20]:
flights.sample(3)

Unnamed: 0,FLIGHTDATE,AIRLINECODE,AIRLINENAME,TAILNUM,FLIGHTNUM,ORIGINAIRPORTCODE,ORIGAIRPORTNAME,ORIGINCITYNAME,ORIGINSTATE,ORIGINSTATENAME,...,WHEELSON,TAXIIN,CRSARRTIME,ARRTIME,ARRDELAY,CRSELAPSEDTIME,ACTUALELAPSEDTIME,CANCELLED,DIVERTED,DISTANCE
169425,2013-05-12,MQ,Envoy Air: MQ,N645MQ,3916,BDL,HartfordCT: Bradley International,Hartford,CT,Connecticut,...,1155,15,1225,1210,-15,160,153,0,0,783 miles
184823,2014-05-24,DL,Delta Air Lines Inc.: DL,N3752,2187,JFK,New YorkNY: John F. Kennedy International,New York,NY,New York,...,1942,2,1933,1944,11,363,377,False,F,2454 miles
578502,1998-05-15,CO,Continental Air Lines Inc.: CO,N17345,191,CLE,ClevelandOH: Cleveland-Hopkins International,Cleveland,OH,Ohio,...,1110,17,1115,1127,12,305,318,False,F,2053 miles
