In [2]:
import pandas as pd
import glob

In [3]:
# Carica il CSV in un DataFrame
df = pd.read_csv('dataset/flights.csv')

In [4]:
df.head()

Unnamed: 0,FL_DATE,OP_CARRIER,OP_CARRIER_FL_NUM,ORIGIN,DEST,CRS_DEP_TIME,DEP_TIME,DEP_DELAY,TAXI_OUT,WHEELS_OFF,...,CRS_ELAPSED_TIME,ACTUAL_ELAPSED_TIME,AIR_TIME,DISTANCE,CARRIER_DELAY,WEATHER_DELAY,NAS_DELAY,SECURITY_DELAY,LATE_AIRCRAFT_DELAY,Unnamed: 27
0,2009-01-01,WN,2497,TUS,LAS,1100.0,1056.0,-4.0,6.0,1102.0,...,80.0,67.0,59.0,365.0,,,,,,
1,2009-01-01,DL,1590,ATL,BHM,1555.0,1602.0,7.0,13.0,1615.0,...,53.0,46.0,28.0,134.0,,,,,,
2,2009-01-01,US,1968,SJU,BOS,1445.0,1439.0,-6.0,20.0,1459.0,...,245.0,253.0,229.0,1674.0,,,,,,
3,2009-01-01,CO,559,IAH,SNA,925.0,925.0,0.0,13.0,938.0,...,221.0,204.0,187.0,1347.0,,,,,,
4,2009-01-01,FL,373,CMH,MCO,804.0,759.0,-5.0,10.0,809.0,...,136.0,130.0,113.0,802.0,,,,,,


In [5]:
print(df.columns)
print(len(df.columns))

Index(['FL_DATE', 'OP_CARRIER', 'OP_CARRIER_FL_NUM', 'ORIGIN', 'DEST',
       'CRS_DEP_TIME', 'DEP_TIME', 'DEP_DELAY', 'TAXI_OUT', 'WHEELS_OFF',
       'WHEELS_ON', 'TAXI_IN', 'CRS_ARR_TIME', 'ARR_TIME', 'ARR_DELAY',
       'CANCELLED', 'CANCELLATION_CODE', 'DIVERTED', 'CRS_ELAPSED_TIME',
       'ACTUAL_ELAPSED_TIME', 'AIR_TIME', 'DISTANCE', 'CARRIER_DELAY',
       'WEATHER_DELAY', 'NAS_DELAY', 'SECURITY_DELAY', 'LATE_AIRCRAFT_DELAY',
       'Unnamed: 27'],
      dtype='object')
28


# ETL

### Definizione chiavi

In [6]:
# Conta e stampa il numero di duplicati
num_duplicati = df.duplicated().sum()
print(f"Il dataset contiene {num_duplicati} duplicati.")

Il dataset contiene 0 duplicati.


In [7]:
# Oppure, per modificare il DataFrame originale direttamente, puoi usare inplace=True
df.drop_duplicates(inplace=True)

# Controlla se ci sono ancora duplicati
if not df.duplicated().any():
    print("Tutti i duplicati sono stati rimossi.")

Tutti i duplicati sono stati rimossi.


In [8]:
print(f"Il dataset contiene {len(df)} elementi")

Il dataset contiene 119271 elementi


In [9]:
candidate_columns = [
    'FL_DATE',
    'OP_CARRIER',
    'OP_CARRIER_FL_NUM',
    'ORIGIN',
    'DEST'
]

if not df[candidate_columns].duplicated().any():
    print(f"La colonna '{candidate_columns}' potrebbe essere una chiave primaria.")
else:
    print(f"La colonna '{candidate_columns}' contiene duplicati e non può essere una chiave primaria.")

La colonna '['FL_DATE', 'OP_CARRIER', 'OP_CARRIER_FL_NUM', 'ORIGIN', 'DEST']' potrebbe essere una chiave primaria.


## Analisi NaN

In [10]:
# Calcola la percentuale di NaN per ciascuna colonna
soglia_nan = 0  # soglia del 50% di valori NaN
colonne_more_0_nan = df.columns[df.isna().mean() > soglia_nan]

# Per ogni colonna che ha più del 50% di NaN, calcola la percentuale di NaN e non NaN
for col in colonne_more_0_nan:
    nan_percent = df[col].isna().mean() * 100  # Percentuale di NaN
    non_nan_percent = 100 - nan_percent  # Percentuale di non NaN
    print(f"Colonna: {col} | NaN: {nan_percent:.2f}% | Non-NaN: {non_nan_percent:.2f}%")


Colonna: DEP_TIME | NaN: 1.54% | Non-NaN: 98.46%
Colonna: DEP_DELAY | NaN: 1.55% | Non-NaN: 98.45%
Colonna: TAXI_OUT | NaN: 1.58% | Non-NaN: 98.42%
Colonna: WHEELS_OFF | NaN: 1.58% | Non-NaN: 98.42%
Colonna: WHEELS_ON | NaN: 1.63% | Non-NaN: 98.37%
Colonna: TAXI_IN | NaN: 1.63% | Non-NaN: 98.37%
Colonna: ARR_TIME | NaN: 1.63% | Non-NaN: 98.37%
Colonna: ARR_DELAY | NaN: 1.84% | Non-NaN: 98.16%
Colonna: CANCELLATION_CODE | NaN: 98.41% | Non-NaN: 1.59%
Colonna: ACTUAL_ELAPSED_TIME | NaN: 1.84% | Non-NaN: 98.16%
Colonna: AIR_TIME | NaN: 1.84% | Non-NaN: 98.16%
Colonna: CARRIER_DELAY | NaN: 81.55% | Non-NaN: 18.45%
Colonna: WEATHER_DELAY | NaN: 81.55% | Non-NaN: 18.45%
Colonna: NAS_DELAY | NaN: 81.55% | Non-NaN: 18.45%
Colonna: SECURITY_DELAY | NaN: 81.55% | Non-NaN: 18.45%
Colonna: LATE_AIRCRAFT_DELAY | NaN: 81.55% | Non-NaN: 18.45%
Colonna: Unnamed: 27 | NaN: 100.00% | Non-NaN: 0.00%


### Analisi delay

In [11]:
# Lista delle colonne *_DELAY che ti interessano (quelle nel tuo output)
delay_columns = [
    'CARRIER_DELAY',
    'WEATHER_DELAY',
    'NAS_DELAY',
    'SECURITY_DELAY',
    'LATE_AIRCRAFT_DELAY'
]

# Ci sono dei valori di Arr_Delay che hanno i valori di delay specifici settati a NAN
# Filtra le righe che hanno almeno un valore x_delay non NaN
delay_rows_non_nan = df.dropna(subset=delay_columns)

# Verifica se ci sono righe dove almeno un *_DELAY è non NaN e altre colonne sono NaN
mask_non_nan = delay_rows_non_nan[delay_columns].notna().all(axis=1)  # Righe con tutti i *_DELAY non NaN

print("Se un delay specifico è non nan allora tutti gli altri pure non lo saranno:" + str(mask_non_nan.all()))

# Trova le righe che non soddisfano il criterio
inconsistent_rows = delay_rows_non_nan[~mask_non_nan]

# Stampa le righe con inconsistenze
if not inconsistent_rows.empty:
    # nel caso un tipo di delay specifico è NaN anche tutti gli altri tipi specifici devono essere NaN
    for index in inconsistent_rows.index:
        print(f"Riga {index} ha NaN in una colonna *_DELAY mentre altre sono non NaN.")
else:
    # Alcuni valori di ARR_DELAY sono dati dalla somma degli altri valori delay
    condition = (delay_rows_non_nan[delay_columns].sum(axis=1) == delay_rows_non_nan['ARR_DELAY'])
    df_invalid = delay_rows_non_nan[~condition]

    if df_invalid.empty:
        print("Non ci sono inconsistenze nelle colonne di DELAY con i valori di DELAY specifi non NaN.")
        print("I valori di ARR_DELAY sono dati dalla somma degli altri valori delay specifi nel caso questi fossero non NaN")
    else:
        print("Ci sono inconsistenze")
        print(df_invalid[['ARR_DELAY'] + delay_columns])



delay_rows_non_nan[['ARR_DELAY'] + delay_columns ]


Se un delay specifico è non nan allora tutti gli altri pure non lo saranno:True


Non ci sono inconsistenze nelle colonne di DELAY con i valori di DELAY specifi non NaN.
I valori di ARR_DELAY sono dati dalla somma degli altri valori delay specifi nel caso questi fossero non NaN


Unnamed: 0,ARR_DELAY,CARRIER_DELAY,WEATHER_DELAY,NAS_DELAY,SECURITY_DELAY,LATE_AIRCRAFT_DELAY
10,60.0,60.0,0.0,0.0,0.0,0.0
32,37.0,25.0,0.0,12.0,0.0,0.0
34,30.0,0.0,0.0,30.0,0.0,0.0
35,33.0,0.0,0.0,0.0,0.0,33.0
38,36.0,36.0,0.0,0.0,0.0,0.0
...,...,...,...,...,...,...
119230,21.0,4.0,0.0,0.0,0.0,17.0
119241,21.0,7.0,0.0,9.0,0.0,5.0
119246,40.0,11.0,0.0,29.0,0.0,0.0
119264,901.0,862.0,0.0,32.0,0.0,7.0


In [12]:
delay_rows_non_nan[(delay_rows_non_nan['ARR_DELAY'] > 0) & (delay_rows_non_nan[delay_columns].sum(axis=1) == 0)]


Unnamed: 0,FL_DATE,OP_CARRIER,OP_CARRIER_FL_NUM,ORIGIN,DEST,CRS_DEP_TIME,DEP_TIME,DEP_DELAY,TAXI_OUT,WHEELS_OFF,...,CRS_ELAPSED_TIME,ACTUAL_ELAPSED_TIME,AIR_TIME,DISTANCE,CARRIER_DELAY,WEATHER_DELAY,NAS_DELAY,SECURITY_DELAY,LATE_AIRCRAFT_DELAY,Unnamed: 27


In [13]:
delay_rows_with_nan = df[df[delay_columns].isna().any(axis=1)]

# Ci sono riche che hanno ARR
if delay_rows_with_nan[delay_columns].isna().all(axis=1).all():
    # Verifica se ci sono sia valori positivi che negativi in ARR_DELAY
    positive_arr_delay = (delay_rows_with_nan['ARR_DELAY'] > 0).any()
    negative_arr_delay = (delay_rows_with_nan['ARR_DELAY'] < 0).any()

    if positive_arr_delay and negative_arr_delay:
        # ci sono righe che hanno tutti nan in delay specifici ed hanno sia arr_delay positivi che positivi
        print("Ci sono righe che hanno tutti nan in delay specifici ed hanno sia arr_delay negativi che positivi")


Ci sono righe che hanno tutti nan in delay specifici ed hanno sia arr_delay negativi che positivi


In [14]:
# Filtra ed elimina le righe con dep_delay > 0 e valori NaN nelle colonne specificate
df = df[~((df['DEP_DELAY'] > 0) & 
           (df[['CARRIER_DELAY', 'WEATHER_DELAY', 'NAS_DELAY', 'SECURITY_DELAY', 'LATE_AIRCRAFT_DELAY']].isna().any(axis=1)))]

# Imposta a zero i valori delle colonne specificate se dep_delay <= 0
cols_to_zero = ['CARRIER_DELAY', 'WEATHER_DELAY', 'NAS_DELAY', 'SECURITY_DELAY', 'LATE_AIRCRAFT_DELAY']
df.loc[df['DEP_DELAY'] <= 0, cols_to_zero] = 0

print(f"Il dataset contiene {len(df)} elementi")

Il dataset contiene 95763 elementi


In [15]:
# Stampa e elimina le colonne
df = df.drop(columns=['Unnamed: 27'] + delay_columns)

### Analisi su cancelled e diverted

In [16]:
# Calcola la percentuale di 0 e 1 per le colonne "diverted" e "canceled"
percentuali = df[['DIVERTED', 'CANCELLED']].apply(lambda x: x.value_counts(normalize=True) * 100)
print(percentuali)

      DIVERTED  CANCELLED
0.0  99.852762  98.047263
1.0   0.147238   1.952737


In [24]:
# Conta le righe dove CANCELLED è 1.0
count_cancelled = df[df['CANCELLED'] == 1.0].shape[0]

# Conta le righe dove DIVERTED è 1.0 e CANCELLED è diverso da 1.0
count_diverted = df[(df['DIVERTED'] == 1.0)].shape[0]

print("Numero di righe con CANCELLED = 1.0:", count_cancelled)
print("Numero di righe con solo DIVERTED = 1.0:", count_diverted)


Numero di righe con CANCELLED = 1.0: 1870
Numero di righe con solo DIVERTED = 1.0: 141


In [17]:
# Filtra il dataframe per le righe in cui 'CANCELLED' è uguale a 1.0
riga_cancellata = df[df['CANCELLED'] == 1.0]

# Verifica quali colonne contengono valori NaN in quella riga
nan_colonne = riga_cancellata.isna().sum()
nan_colonne = nan_colonne[nan_colonne > 0]

# Stampa le colonne che contengono NaN
print(nan_colonne)

DEP_TIME               1836
DEP_DELAY              1836
TAXI_OUT               1856
WHEELS_OFF             1856
WHEELS_ON              1870
TAXI_IN                1870
ARR_TIME               1870
ARR_DELAY              1870
ACTUAL_ELAPSED_TIME    1870
AIR_TIME               1870
dtype: int64


In [18]:
# Filtra il dataframe per le righe in cui 'CANCELLED' è 1 e 'ARR_DELAY' non è NaN
righe_filtrate = df[(df['CANCELLED'] == 1.0) & (df['ARR_DELAY'].notna())]

# Stampa le righe filtrate
righe_filtrate

# LE COLONNE CHE SOPRA HANNO 1870 SONO TUTTI SETTATI A NAN

Unnamed: 0,FL_DATE,OP_CARRIER,OP_CARRIER_FL_NUM,ORIGIN,DEST,CRS_DEP_TIME,DEP_TIME,DEP_DELAY,TAXI_OUT,WHEELS_OFF,...,CRS_ARR_TIME,ARR_TIME,ARR_DELAY,CANCELLED,CANCELLATION_CODE,DIVERTED,CRS_ELAPSED_TIME,ACTUAL_ELAPSED_TIME,AIR_TIME,DISTANCE


In [19]:
# Filtra le righe dove "CANCELLED" è 1 e visualizza solo la colonna "CANCELLATION_CODE"
righe_canceled_1 = df.loc[df['CANCELLED'] == 1, 'CANCELLATION_CODE']


# Verifica se ci sono valori NaN nella colonna
if righe_canceled_1.isna().any():
    print("\nCi sono valori NaN nella colonna 'CANCELLATION_CODE' nelle righe dei voli cancellati, quindi che hanno CANCELED pari a 1.0")
else:
    print("\nTutti i valori nella colonna 'CANCELLATION_CODE' sono non NaN nelle righe dei voli cancellati, quindi che hanno CANCELED pari a 1.0.")

print("\nRighe con canceled = 1:")
righe_canceled_1

# Visualizza la frequenza di ciascun valore nella colonna "CANCELLATION_CODE"
print("\nValori unici nella colonna 'CANCELLATION_CODE' con la loro frequenza:")
righe_canceled_1.value_counts()

# A	Carrier	
# B	Weather	
# C	National Air System	
# D	Security


Tutti i valori nella colonna 'CANCELLATION_CODE' sono non NaN nelle righe dei voli cancellati, quindi che hanno CANCELED pari a 1.0.

Righe con canceled = 1:

Valori unici nella colonna 'CANCELLATION_CODE' con la loro frequenza:


CANCELLATION_CODE
B    878
A    628
C    361
D      3
Name: count, dtype: int64

In [23]:
righe_canceled_2 = df.loc[df['CANCELLED'] == 0, 'CANCELLATION_CODE']

# Verifica se tutti i valori sono NaN
if righe_canceled_2.isna().all():
    print("\nTutti i valori nella colonna 'CANCELLATION_CODE' sono NaN nelle righe dei voli NON cancellati, quindi che hanno CANCELED pari a 0.0.")
else:
    print("\nNon tutti i valori nella colonna 'CANCELLATION_CODE' sono NaN nelle righe dei voli NON cancellati, quindi che hanno CANCELED pari a 0.0.")

print("\nRighe con canceled = 2:")
righe_canceled_2

KeyError: 'CANCELLATION_CODE'

In [20]:
# SOSTITUIRE CANCELLATION_CODE CON CANCELLATION_REASON

# Mappa dei codici ai rispettivi motivi di cancellazione
cancellation_reasons = {
    'A': 'carrier',
    'B': 'weather',
    'C': 'national air system',
    'D': 'security'
}

# Trova l'indice della colonna CANCELLATION_CODE
col_index = df.columns.get_loc('CANCELLATION_CODE')

# Inserisce la nuova colonna CANCELLATION_REASON nello stesso punto
df.insert(col_index, 'CANCELLATION_REASON', df['CANCELLATION_CODE'].map(cancellation_reasons))

# Rimozione della colonna originale CANCELLATION_CODE
df = df.drop(columns=['CANCELLATION_CODE'])

In [None]:
df[df['CANCELLED'] == 1]


Unnamed: 0,FL_DATE,OP_CARRIER,OP_CARRIER_FL_NUM,ORIGIN,DEST,CRS_DEP_TIME,DEP_TIME,DEP_DELAY,TAXI_OUT,WHEELS_OFF,...,CRS_ELAPSED_TIME,ACTUAL_ELAPSED_TIME,AIR_TIME,DISTANCE,CARRIER_DELAY,WEATHER_DELAY,NAS_DELAY,SECURITY_DELAY,LATE_AIRCRAFT_DELAY,Unnamed: 27
149,2012-01-01,MQ,4323,JFK,ORF,1700.0,,,,,...,95.0,,,290.0,,,,,,
390,2012-01-01,OO,6451,LAX,SMX,2235.0,,,,,...,59.0,,,134.0,,,,,,
405,2012-01-01,OO,5657,LAX,SBA,2245.0,,,,,...,47.0,,,89.0,,,,,,
475,2012-01-01,OO,4568,SAN,LAX,615.0,,,,,...,55.0,,,109.0,,,,,,
487,2012-01-01,OO,5644,SFO,PSC,2120.0,,,,,...,112.0,,,620.0,,,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
6092772,2012-12-31,OO,6490,SFO,PSP,1246.0,,,,,...,88.0,,,421.0,,,,,,
6094204,2012-12-31,WN,117,BOS,STL,1125.0,,,,,...,195.0,,,1047.0,,,,,,
6096586,2012-12-31,YV,2763,PHX,TUS,1445.0,,,,,...,45.0,,,110.0,,,,,,
6096621,2012-12-31,YV,2703,TUS,PHX,1610.0,,,,,...,48.0,,,110.0,,,,,,


In [None]:
# Filtra le righe dove "diverted" è 1
righe_diverted_1 = df[df['DIVERTED'] == 1]

# Stampa o visualizza i risultati
print("Righe con diverted = 1:")
righe_diverted_1.head()

Righe con diverted = 1:


Unnamed: 0,FL_DATE,OP_CARRIER,OP_CARRIER_FL_NUM,ORIGIN,DEST,CRS_DEP_TIME,DEP_TIME,DEP_DELAY,TAXI_OUT,WHEELS_OFF,...,CRS_ELAPSED_TIME,ACTUAL_ELAPSED_TIME,AIR_TIME,DISTANCE,CARRIER_DELAY,WEATHER_DELAY,NAS_DELAY,SECURITY_DELAY,LATE_AIRCRAFT_DELAY,Unnamed: 27
661,2009-01-01,XE,2980,IAH,TYS,1315,1312.0,-3.0,8.0,1320.0,...,122.0,,,772.0,,,,,,
818,2009-01-01,YV,2637,CLT,BHM,2230,2315.0,45.0,8.0,2323.0,...,85.0,,,351.0,,,,,,
1936,2009-01-01,OO,4490,MCI,ATL,1520,1523.0,3.0,11.0,1534.0,...,125.0,,,692.0,,,,,,
1994,2009-01-01,OO,4665,SLC,ACV,1115,1112.0,-3.0,16.0,1128.0,...,115.0,,,635.0,,,,,,
2192,2009-01-01,OO,4878,SLC,BTM,1059,1053.0,-6.0,15.0,1108.0,...,81.0,,,357.0,,,,,,


In [22]:
# Filtra il dataframe per le righe in cui 'CANCELLED' è uguale a 1.0
riga_cancellata = df[df['DIVERTED'] == 1.0]

# Verifica quali colonne contengono valori NaN in quella riga
nan_colonne = riga_cancellata.isna().sum()
nan_colonne = nan_colonne[nan_colonne > 0]

# Stampa le colonne che contengono NaN
print(nan_colonne)

WHEELS_ON               11
TAXI_IN                 11
ARR_TIME                11
ARR_DELAY              141
CANCELLATION_REASON    141
ACTUAL_ELAPSED_TIME    141
AIR_TIME               141
dtype: int64
