In [2]:
import pandas as pd
import numpy as np

# Carica i dataset
dataset_x = [pd.read_csv(f'dataset/{x}.csv') for x in range(2009, 2019)]

In [3]:
# Inizializza un dizionario per contare i voli
route_counts = {}

for df in dataset_x:
    # Raggruppa per rotta e conta i voli
    yearly_counts = df.groupby(['ORIGIN', 'DEST']).size()
    
    # Aggiorna il conteggio globale
    for route, count in yearly_counts.items():
        if route in route_counts:
            route_counts[route] += count
        else:
            route_counts[route] = count

# Converti i dati aggregati in un DataFrame
final_grouped_data = (
    pd.DataFrame(route_counts.items(), columns=['ROUTE', 'NUM_FLIGHTS'])
    .assign(ORIGIN=lambda df: df['ROUTE'].str[0], DEST=lambda df: df['ROUTE'].str[1])
    .drop(columns=['ROUTE'])
)

# Trova la rotta con il maggior numero di voli
best_route_overall = final_grouped_data.sort_values(by='NUM_FLIGHTS', ascending=False).iloc[0]

# Salva tutti i voli della migliore rotta
best_route_data = []
for df in dataset_x:
    # Filtra solo i voli della migliore rotta
    best_route_data.append(
        df[(df['ORIGIN'] == best_route_overall['ORIGIN']) & 
           (df['DEST'] == best_route_overall['DEST'])]
    )

# Combina i dati della rotta migliore
final_route_data = pd.concat(best_route_data, ignore_index=True)

# Salva su file
final_route_data.to_csv('dataset/best_route_flights.csv', index=False)

# Stampa il risultato
print("La migliore rotta in assoluto è:")
print(best_route_overall)

La migliore rotta in assoluto è:
NUM_FLIGHTS    148348
ORIGIN            SFO
DEST              LAX
Name: 4117, dtype: object
