# Τερματική Μιζέρια


* Αρχική έμπνευση από τη σειρά [Modern Pandas](https://tomaugspurger.github.io/modern-1-intro) του [Tom Augspurger](https://tomaugspurger.github.io/).

---

> Πάνος Λουρίδας, Αναπληρωτής Καθηγητής<br />
> Τμήμα Διοικητικής Επιστήμης και Τεχνολογίας <br />
> Οικονομκό Πανεπιστήμιο Αθηνών <br />

* To pandas υποστηρίζει πολυδιάστατα ευρετήρια, δηλαδή ευρετήρια τα οποία στην ουσία είναι ιεραρχικές δομές.

* Αυτό μας δίνει την ευελιξία να κάνουμε αναζητήσεις ανά διαστάσεις.

* Ως παράδειγμα θα πάρουμε τα στοιχεία [Επιδόσεων Ακρίβειας Δρομολογίων (Airline On-Time Performance Data)](https://www.transtats.bts.gov/Tables.asp?DB_ID=120&DB_Name=Airline%20On-Time%20Performance%20Data&DB_Short_Name=On-Time#), τα οποία συγκεντρώνονται από το [Γραφείο Στατιστικής Μεταφορών (Bureau of Transportation Statistics, BTS)](https://www.bts.gov/) του Υπουργείου Μεταφορών των ΗΠΑ.

* Περιέχει μηνιαία δεδομένα των αεροπορικών εταιριών που κατέχουν τουλάχιστον ένα τοις εκατό των εσόδων από προγραμματισμένες πτήσεις εσωτερικού.

* Θα πάρουμε τα δεδομένα για το 2019 (γιατί το 2020 κάτι πολύ κακό συνέβη και οι πτήσεις μειώθηκαν σημαντικά).

In [1]:
import pandas as pd

flights = pd.read_csv('flights.csv.zip', dtype={'DEP_DELAY': float}, parse_dates=['FL_DATE'])

print(flights.shape)
flights.sample(5)

(7422037, 20)


Unnamed: 0,FL_DATE,TAIL_NUM,CARRIER,ORIGIN,ORIGIN_CITY_NAME,DEST,DEST_CITY_NAME,DEP_TIME,DEP_DELAY,ARR_TIME,ARR_DELAY,CANCELLED,CANCELLATION_CODE,DIVERTED,CARRIER_DELAY,WEATHER_DELAY,NAS_DELAY,SECURITY_DELAY,LATE_AIRCRAFT_DELAY,Unnamed: 19
6720474,2019-11-26,N447SW,OO,ABR,"Aberdeen, SD",MSP,"Minneapolis, MN",458.0,-2.0,601.0,-19.0,0.0,,0.0,,,,,,
57289,2019-01-03,N722YX,YX,EWR,"Newark, NJ",DCA,"Washington, DC",605.0,5.0,730.0,8.0,0.0,,0.0,,,,,,
5783776,2019-10-11,N662NK,NK,LAX,"Los Angeles, CA",IAH,"Houston, TX",1132.0,95.0,1717.0,124.0,0.0,,0.0,0.0,0.0,124.0,0.0,0.0,
2436446,2019-05-04,N7864B,WN,LIT,"Little Rock, AR",DAL,"Dallas, TX",750.0,0.0,857.0,-3.0,0.0,,0.0,,,,,,
6775708,2019-11-30,N295WN,WN,ONT,"Ontario, CA",DAL,"Dallas, TX",1650.0,50.0,2122.0,32.0,0.0,,0.0,4.0,0.0,0.0,0.0,28.0,


* Προσέξτε ότι υπάρχει μια στήλη στο τέλος δεξιά η οποία ονομάζεται `Unnamed: 19`.

* Αυτό συμβαίνει γιατί κάθε γραμμή τελειώνει σε κόμμα, οπότε `read_csv()` τη διαχειρίζεται ως μία άδεια στήλη.

* Μπορούμε να τη διαγράψουμε (με `drop()`).

In [2]:
flights.drop('Unnamed: 19', axis=1, inplace=True)
flights.sample(5)

Unnamed: 0,FL_DATE,TAIL_NUM,CARRIER,ORIGIN,ORIGIN_CITY_NAME,DEST,DEST_CITY_NAME,DEP_TIME,DEP_DELAY,ARR_TIME,ARR_DELAY,CANCELLED,CANCELLATION_CODE,DIVERTED,CARRIER_DELAY,WEATHER_DELAY,NAS_DELAY,SECURITY_DELAY,LATE_AIRCRAFT_DELAY
190452,2019-01-10,N404SY,OO,SMF,"Sacramento, CA",SAN,"San Diego, CA",1453.0,-7.0,1616.0,-14.0,0.0,,0.0,,,,,
4405578,2019-08-06,N245NN,MQ,DFW,"Dallas/Fort Worth, TX",AMA,"Amarillo, TX",1229.0,-2.0,1338.0,-6.0,0.0,,0.0,,,,,
6991112,2019-12-10,N995NN,AA,ORD,"Chicago, IL",LGA,"New York, NY",1422.0,-8.0,1719.0,-18.0,0.0,,0.0,,,,,
5997889,2019-10-22,N596NN,OH,BHM,"Birmingham, AL",PHL,"Philadelphia, PA",1120.0,31.0,1427.0,30.0,0.0,,0.0,0.0,0.0,0.0,0.0,30.0
2220280,2019-04-24,N963DL,DL,ATL,"Atlanta, GA",ECP,"Panama City, FL",930.0,3.0,932.0,3.0,0.0,,0.0,,,,,


* Τώρα ας φτιάξουμε ένα ιεραρχικό ευρετήριο χρησιμοποιώντας τα παρακάτω πεδία:
    * `CARRIER`
    * `ORIGIN`
    * `DEST`
    * `TAIL_NUM`
    * `FL_DATE`

In [3]:
hierarchical_flights = flights.set_index(['CARRIER', 'ORIGIN', 
                                          'DEST', 'TAIL_NUM', 
                                          'FL_DATE'])

hierarchical_flights = hierarchical_flights.sort_index(level=['CARRIER', 'ORIGIN', 
                                                              'DEST', 'TAIL_NUM', 
                                                              'FL_DATE'])

hierarchical_flights

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,Unnamed: 3_level_0,Unnamed: 4_level_0,ORIGIN_CITY_NAME,DEST_CITY_NAME,DEP_TIME,DEP_DELAY,ARR_TIME,ARR_DELAY,CANCELLED,CANCELLATION_CODE,DIVERTED,CARRIER_DELAY,WEATHER_DELAY,NAS_DELAY,SECURITY_DELAY,LATE_AIRCRAFT_DELAY
CARRIER,ORIGIN,DEST,TAIL_NUM,FL_DATE,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1
9E,ABE,ATL,N131EV,2019-02-22,"Allentown/Bethlehem/Easton, PA","Atlanta, GA",1319.0,9.0,1545.0,21.0,0.0,,0.0,9.0,0.0,12.0,0.0,0.0
9E,ABE,ATL,N131EV,2019-04-19,"Allentown/Bethlehem/Easton, PA","Atlanta, GA",1308.0,2.0,1546.0,25.0,0.0,,0.0,0.0,0.0,25.0,0.0,0.0
9E,ABE,ATL,N131EV,2019-07-10,"Allentown/Bethlehem/Easton, PA","Atlanta, GA",1754.0,-1.0,1951.0,-15.0,0.0,,0.0,,,,,
9E,ABE,ATL,N132EV,2019-02-28,"Allentown/Bethlehem/Easton, PA","Atlanta, GA",1745.0,-8.0,1957.0,-17.0,0.0,,0.0,,,,,
9E,ABE,ATL,N132EV,2019-04-09,"Allentown/Bethlehem/Easton, PA","Atlanta, GA",1841.0,43.0,2148.0,94.0,0.0,,0.0,0.0,0.0,51.0,0.0,43.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
YX,XNA,PHL,N440YX,2019-11-09,"Fayetteville, AR","Philadelphia, PA",1552.0,-6.0,1956.0,11.0,0.0,,0.0,,,,,
YX,XNA,PHL,N442YX,2019-09-04,"Fayetteville, AR","Philadelphia, PA",1553.0,-2.0,2016.0,27.0,0.0,,0.0,0.0,0.0,27.0,0.0,0.0
YX,XNA,PHL,N442YX,2019-11-20,"Fayetteville, AR","Philadelphia, PA",1551.0,-7.0,1926.0,-19.0,0.0,,0.0,,,,,
YX,XNA,PHL,N445YX,2019-09-16,"Fayetteville, AR","Philadelphia, PA",1547.0,-7.0,1935.0,-13.0,0.0,,0.0,,,,,


* Ένα ιεραρχικό ευρετήριο είναι ένα αντικείμενο τύπου `MultiIndex`. 

* Τα επίπεδα ενός`MultiIndex` είναι τα ονόματα των στηλών που χρησιμοποιήσαμε για να το φτιάξουμε.

* Σε αυτά μπορούμε να αναφερθούμε είτε με τα ίδια τα ονόματα είτε με τη θέση τους (ξεκινώντας από το 0 για το πρώτο από αριστερά).

* Αν λοιπόν θέλουμε να μετρήσουμε τις πτήσεις ανά εταιρεία θα δώσουμε:

In [4]:
hierarchical_flights.index.get_level_values('CARRIER').value_counts()

CARRIER
WN    1363946
DL     991986
AA     946776
OO     836445
UA     625910
YX     329149
MQ     327007
B6     297411
OH     289304
AS     264816
9E     257132
YV     227888
NK     204845
F9     135543
EV     134683
G4     105305
HA      83891
Name: count, dtype: int64

* Ή ισοδύναμα:

In [5]:
hierarchical_flights.index.get_level_values(0).value_counts()

CARRIER
WN    1363946
DL     991986
AA     946776
OO     836445
UA     625910
YX     329149
MQ     327007
B6     297411
OH     289304
AS     264816
9E     257132
YV     227888
NK     204845
F9     135543
EV     134683
G4     105305
HA      83891
Name: count, dtype: int64

* Ας βρούμε τα πιο πολυσύχναστα αεροδρόμια ως προς τις αναχωρήσεις:

In [6]:
hierarchical_flights.index.get_level_values('ORIGIN').value_counts()[:10] 

ORIGIN
ATL    395009
ORD    339606
DFW    304344
DEN    252026
CLT    235496
LAX    219952
IAH    179688
PHX    175328
LGA    171665
SFO    170918
Name: count, dtype: int64

* Ως προς τις αφίξεις:

In [7]:
hierarchical_flights.index.get_level_values('DEST').value_counts()[:10] 

DEST
ATL    395026
ORD    339569
DFW    304346
DEN    252064
CLT    235490
LAX    219996
IAH    179682
PHX    175343
LGA    171665
SFO    170966
Name: count, dtype: int64

* Το πεδίο `DEP_DELAY` έχει και θετικές και αρνητικές τιμές. Εμείς θέλουμε να δούμε τι γίνεται με τις θετικές.

In [8]:
delayed_flights = hierarchical_flights.loc[hierarchical_flights['DEP_DELAY'] > 0]
delayed_flights['DEP_DELAY']

CARRIER  ORIGIN  DEST  TAIL_NUM  FL_DATE   
9E       ABE     ATL   N131EV    2019-02-22      9.0
                                 2019-04-19      2.0
                       N132EV    2019-04-09     43.0
                       N133EV    2019-04-25     10.0
                                 2019-12-23     49.0
                                               ...  
YX       XNA     PHL   N138HQ    2019-09-06    107.0
                                 2019-12-13     36.0
                       N416YX    2019-09-28      3.0
                       N428YX    2019-10-16     22.0
                       N433YX    2019-12-01    116.0
Name: DEP_DELAY, Length: 2521492, dtype: float64

* Από τα παραπάνω μπορούμε να φτιάξουμε μια «κατάταξη μιζέριας», δηλαδή τα αεροδρόμια τα οποία φαίνονται να είναι πρωταθλητές στις καθυστερήσεις.

In [9]:
delayed_flights_by_origin = delayed_flights.groupby(level='ORIGIN')['DEP_DELAY']\
    .agg(['median', 'mean', 'count'])\
    .sort_values(by='median', ascending=False)
delayed_flights_by_origin[:10]

Unnamed: 0_level_0,median,mean,count
ORIGIN,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
DVL,77.0,141.301587,126
SLN,59.0,110.613546,251
SHD,57.0,116.976608,171
HYS,51.0,117.920266,301
VEL,50.0,88.461538,130
UIN,48.0,90.852071,169
ATY,48.0,113.4,105
OTH,47.0,89.480519,154
ACV,46.0,91.72621,599
CMX,46.0,112.664894,188


* Καλό θα είναι να δούμε και το ποσοστό των πτήσεων που καθυστερούν.

* Οπότε ας πάρουμε τις συνολικές πτήσεις.

In [10]:
airport_traffic = hierarchical_flights.groupby(level='ORIGIN').size().to_frame(name='total_departures')
airport_traffic.sort_values(by='total_departures', ascending=False)[:10]

Unnamed: 0_level_0,total_departures
ORIGIN,Unnamed: 1_level_1
ATL,395009
ORD,339606
DFW,304344
DEN,252026
CLT,235496
LAX,219952
IAH,179688
PHX,175328
LGA,171665
SFO,170918


* Ενώνοντας τα δύο `DataFrame`s μπορούμε να έχουμε όλη την πληροφορία σε ένα.

In [11]:
delayed_flights_by_origin = pd.merge(delayed_flights_by_origin,
                                     airport_traffic, left_index=True, right_index=True)
delayed_flights_by_origin

Unnamed: 0_level_0,median,mean,count,total_departures
ORIGIN,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
DVL,77.0,141.301587,126,625
SLN,59.0,110.613546,251,938
SHD,57.0,116.976608,171,708
HYS,51.0,117.920266,301,1251
VEL,50.0,88.461538,130,626
...,...,...,...,...
HNL,9.0,23.155992,15597,52139
LIH,9.0,30.815107,3548,14063
AKN,8.0,11.916667,12,61
EKO,8.0,62.831325,83,676


* Και τώρα μπορούμε να υπολογίσουμε το ποσοστό των καθυστερημένων πτήσεων (ως προς την αναχώρηση).

In [12]:
delayed_flights_by_origin['pct_delayed'] = \
    100 * delayed_flights_by_origin['count'] / delayed_flights_by_origin['total_departures']
delayed_flights_by_origin

Unnamed: 0_level_0,median,mean,count,total_departures,pct_delayed
ORIGIN,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
DVL,77.0,141.301587,126,625,20.160000
SLN,59.0,110.613546,251,938,26.759062
SHD,57.0,116.976608,171,708,24.152542
HYS,51.0,117.920266,301,1251,24.060751
VEL,50.0,88.461538,130,626,20.766773
...,...,...,...,...,...
HNL,9.0,23.155992,15597,52139,29.914268
LIH,9.0,30.815107,3548,14063,25.229325
AKN,8.0,11.916667,12,61,19.672131
EKO,8.0,62.831325,83,676,12.278107


* Με ένα ιεραρχικό ευρετήριο μπορούμε να φιλτράρουμε τα δεδομένα μας εύκολα, χωρίς να χρειάζεται να χρησιμοποιούμε λογικές συνθήκες σύγκρισης.

* Αν θέλουμε να βρούμε τις πτήσεις που έγιναν από Southwest Airlines (`WN`), Delta (`DL`), και American Airlines (`AA`) αρκεί να δώσουμε:

In [13]:
hierarchical_flights.loc[['WN', 'DL', 'AA'], ['DEP_TIME', 'DEP_DELAY']]

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,Unnamed: 3_level_0,Unnamed: 4_level_0,DEP_TIME,DEP_DELAY
CARRIER,ORIGIN,DEST,TAIL_NUM,FL_DATE,Unnamed: 5_level_1,Unnamed: 6_level_1
WN,ABQ,AUS,N204WN,2019-09-01,1204.0,-6.0
WN,ABQ,AUS,N205WN,2019-08-03,1519.0,4.0
WN,ABQ,AUS,N211WN,2019-02-10,1950.0,5.0
WN,ABQ,AUS,N212WN,2019-03-03,811.0,71.0
WN,ABQ,AUS,N219WN,2019-07-21,1920.0,20.0
...,...,...,...,...,...,...
AA,XNA,ORD,N871NN,2019-06-07,1541.0,-10.0
AA,XNA,ORD,N878NN,2019-06-07,1737.0,-6.0
AA,XNA,ORD,N988NN,2019-06-04,1606.0,15.0
AA,XNA,PHL,N824AW,2019-06-03,710.0,80.0


* Χάρη στο ιεραρχικό ευρετήριο μπορούμε να κάνουμε εύκολα και πιο περίπλοκα ερωτήματα.

* θα επιλέξουμε τις πτήσεις που έγιναν από Southwest Airlines (`WN`), Delta (`DL`), και American Airlines (`AA`) με αναχώρηση από New York JFK (`JFK`) ή New York La Guardia (`LGA`).

In [14]:
hierarchical_flights.loc[(['WN', 'DL', 'AA'], ['JFK', 'LGA']), 
                         ['DEP_TIME', 'DEP_DELAY']]

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,Unnamed: 3_level_0,Unnamed: 4_level_0,DEP_TIME,DEP_DELAY
CARRIER,ORIGIN,DEST,TAIL_NUM,FL_DATE,Unnamed: 5_level_1,Unnamed: 6_level_1
WN,LGA,ATL,N200WN,2019-02-27,556.0,-4.0
WN,LGA,ATL,N200WN,2019-05-31,1727.0,32.0
WN,LGA,ATL,N200WN,2019-07-21,1654.0,-1.0
WN,LGA,ATL,N200WN,2019-07-23,1735.0,40.0
WN,LGA,ATL,N201LV,2019-07-13,617.0,17.0
...,...,...,...,...,...,...
AA,LGA,RDU,N967UW,2019-12-09,1738.0,28.0
AA,LGA,RDU,N967UW,2019-12-15,1952.0,-8.0
AA,LGA,RDU,N967UW,2019-12-18,1820.0,10.0
AA,LGA,RDU,N967UW,2019-12-19,956.0,-3.0


* Ας πούμε ότι μας ενδιαφέρει το υποσύνολο των παραπάνω με άφιξη στο San Francisco (`SFO`):

In [15]:
hierarchical_flights.loc[(['WN', 'DL', 'AA'], ['JFK', 'LGA'], 'SFO'), 
                         ['DEP_TIME', 'DEP_DELAY']]

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,Unnamed: 3_level_0,Unnamed: 4_level_0,DEP_TIME,DEP_DELAY
CARRIER,ORIGIN,DEST,TAIL_NUM,FL_DATE,Unnamed: 5_level_1,Unnamed: 6_level_1
DL,JFK,SFO,N152DL,2019-03-10,718.0,18.0
DL,JFK,SFO,N152DL,2019-04-12,1723.0,8.0
DL,JFK,SFO,N154DL,2019-08-16,2240.0,90.0
DL,JFK,SFO,N155DL,2019-04-26,957.0,17.0
DL,JFK,SFO,N156DL,2019-07-29,810.0,-5.0
...,...,...,...,...,...,...
AA,JFK,SFO,N117AN,2019-12-14,652.0,-8.0
AA,JFK,SFO,N117AN,2019-12-16,1058.0,-2.0
AA,JFK,SFO,N117AN,2019-12-21,1718.0,9.0
AA,JFK,SFO,N117AN,2019-12-31,1706.0,-3.0


* Και αν θέλουμε να βρούμε όλες τις πτήσεις μεταξύ αυτών των αεροδρομίων, ανεξαρτήτως εταιρείας;

* Αυτό μπορούμε να το κάνουμε εύκολα χρησιμοποιώντας ένα `IndexSlice`.

In [16]:
hierarchical_flights.loc[pd.IndexSlice[:, ['JFK', 'LGA'], 'SFO'], 
                         ['DEP_TIME', 'DEP_DELAY']]

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,Unnamed: 3_level_0,Unnamed: 4_level_0,DEP_TIME,DEP_DELAY
CARRIER,ORIGIN,DEST,TAIL_NUM,FL_DATE,Unnamed: 5_level_1,Unnamed: 6_level_1
AA,JFK,SFO,N101NN,2019-01-06,1252.0,112.0
AA,JFK,SFO,N101NN,2019-01-13,1833.0,3.0
AA,JFK,SFO,N101NN,2019-01-18,1823.0,-7.0
AA,JFK,SFO,N101NN,2019-01-22,1857.0,27.0
AA,JFK,SFO,N101NN,2019-01-25,1823.0,-7.0
...,...,...,...,...,...,...
DL,JFK,SFO,N844MH,2019-02-15,924.0,-6.0
DL,JFK,SFO,N845MH,2019-01-09,1100.0,90.0
DL,JFK,SFO,N845MH,2019-02-13,924.0,-6.0
DL,JFK,SFO,N845MH,2019-02-24,925.0,-5.0


* Ή μπορεί να θέλουμε να βρούμε το υποσύνολο των παραπάνω πτήσεων που έγιναν το πρώτο δεκαπενθήμερο του Ιανουαρίου.

* Θυμηθείτε ότι το τελευταίο επίπεδο του ευρετηρίου ήταν η ημερομηνία της πτήσης.

In [30]:
# Create a boolean mask for each condition
mask = (
    hierarchical_flights.index.get_level_values(1).isin(['JFK', 'LGA']) &
    (hierarchical_flights.index.get_level_values(2) == 'SFO') &
    (hierarchical_flights.index.get_level_values(4) >= '2019-01-01') &
    (hierarchical_flights.index.get_level_values(4) <= '2019-01-15')
)

hierarchical_flights[mask].loc[:, ['DEP_TIME', 'DEP_DELAY', 'ARR_TIME', 'ARR_DELAY']]

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,Unnamed: 3_level_0,Unnamed: 4_level_0,DEP_TIME,DEP_DELAY,ARR_TIME,ARR_DELAY
CARRIER,ORIGIN,DEST,TAIL_NUM,FL_DATE,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
AA,JFK,SFO,N101NN,2019-01-06,1252.0,112.0,1702.0,141.0
AA,JFK,SFO,N101NN,2019-01-13,1833.0,3.0,2128.0,-49.0
AA,JFK,SFO,N102NN,2019-01-08,1057.0,-3.0,1507.0,26.0
AA,JFK,SFO,N102NN,2019-01-10,1053.0,-7.0,1423.0,-18.0
AA,JFK,SFO,N103NN,2019-01-10,656.0,-4.0,1031.0,-9.0
...,...,...,...,...,...,...,...,...
DL,JFK,SFO,N842MH,2019-01-09,1551.0,-4.0,1921.0,-42.0
DL,JFK,SFO,N842MH,2019-01-10,1939.0,14.0,2336.0,11.0
DL,JFK,SFO,N843MH,2019-01-13,923.0,-7.0,1238.0,-49.0
DL,JFK,SFO,N843MH,2019-01-15,1158.0,148.0,1529.0,122.0
