 # Opis notatnika
 Zmierzamy do końca analizy danych, które zostały nam udostępnione. Ten krok dodaje jeszcze więcej informacji do naszego wyjściowego zbioru. Tym razem sprawdzimy między innymi to, czy opóźnienia lotów zależne są od trasy czy warunków pogodowych.

 Zanim jednak do tego przejdziemy, należy, podobnie jak w poprzednich krokach, skonfigurować odpowiednio notatnik.
 
 W tej części warsztatu ponownie wcielasz się w rolę Analiyka Danych, którego zadaniem jest wykonanie analizy eksplotacyjnej zbioru danych - jedno z wymagań dostarczonych przez klienta.

 Tutaj zaimportuj wymagane biblioteki

In [1]:
import pandas as pd
from psycopg2 import connect
from sqlalchemy import create_engine
from sqlalchemy.engine import URL
import plotly.express as px
from datetime import datetime

 ## Połączenie z bazą danych
 Tutaj uzupełnij konfigurację połączenia

In [2]:
username = 'postgres'
password = '123188523'

host = 'localhost'
database = 'airlines'
port = None


 Tutaj stwórz zmienną engine, która zostanie użyta do połączenia z bazą danych

In [3]:
url = URL.create(
    "postgresql",
    username = 'postgres',
    password = '123188523',
    host = 'localhost',
    database = 'airlines')
    
engine = create_engine(url)

 Tutaj uzupełnij implementację metody `read_sql_table`

In [4]:
def load_table_from_db(table_name):
    table_data = pd.read_sql_table(table_name, 
                             con=engine, 
                             index_col=None, 
                             coerce_float=True, 
                             parse_dates=None, 
                             columns=None, 
                             chunksize=None) #if chunksize is set it returns a generator object, not a df
    return table_data

 Tutaj zaczytaj zapisaną wcześniej ramkę danych `flight_df` do zmniennej o takiej samej nazwie

In [5]:
flight_df = pd.read_csv(r'..\data\processed\flight_df_02.csv')
flight_df.shape

(1057391, 32)

 # Wzbogacenie o `airport_list`
 Wczytaj do obszaru roboczego tabelę `airport_list` używając procedury `read_sql_table`. Wykonaj poniższe ćwiczenia:  
 1. Sprawdź, czy klucz `origin_airport_id` jest unikalny, tj. nie ma dwóch takich samych wartości w kolumnie `origin_airport_id`.  
 1. Jeżeli duplikaty występują, usuń je w najdogodniejszy dla Ciebie sposób.  
 1. Jeśli duplikaty nie występują, złącz ramki `airport_list_df` wraz z aktualną `flight_df`, używając kolumny `origin_airport_id` oraz złączenia typu `LEFT JOIN`. Z ramki `airport_list_df` interesuje nas dodanie kolumny `origin_city_name`.  
 1. Dodatkowo dokonaj jeszcze raz złączenia ramki `flight_df` z `airport_list_df`, tym razem jednak złącz kolumnę `destination_airport_id` wraz z `origin_airport_id`. Podobnie jak wcześniej, interesuje nas kolumna `origin_city_name`, jedank ona powinna zostać wyświetlona jako `destination_city_name`

 Tutaj wczytaj ramkę `airport_list_df`

In [6]:
airport_list_df = load_table_from_db('airport_list')
airport_list_df.head()

Unnamed: 0,id,origin_airport_id,display_airport_name,origin_city_name,name
0,0,11638,Fresno Air Terminal,"Fresno, CA","FRESNO YOSEMITE INTERNATIONAL, CA US"
1,1,13342,General Mitchell Field,"Milwaukee, WI","MILWAUKEE MITCHELL AIRPORT, WI US"
2,2,13244,Memphis International,"Memphis, TN","MEMPHIS INTERNATIONAL AIRPORT, TN US"
3,3,15096,Syracuse Hancock International,"Syracuse, NY","SYRACUSE HANCOCK INTERNATIONAL AIRPORT, NY US"
4,4,10397,Atlanta Municipal,"Atlanta, GA",ATLANTA HARTSFIELD JACKSON INTERNATIONAL AIRPO...


 Tutaj sprawdż, czy występują duplikaty dla kolumny `origin_airport_id`

In [7]:
duplicates = airport_list_df.duplicated(subset='origin_airport_id').sum()
duplicates

0

 Tutaj usuń duplikaty – jeśli występują

In [None]:
# nie występują

 Tutaj dokonaj złączenia ramki `flight_df` oraz `airport_list_df` używając `origin_airport_id`

In [8]:
# złącz ramki airport_list_df wraz z aktualną flight_df, 
# używając kolumny origin_airport_id oraz złączenia typu LEFT JOIN. 
# Z ramki airport_list_df interesuje nas dodanie kolumny origin_city_name.

tmp_flight_df = pd.merge(flight_df, airport_list_df[['origin_airport_id', 'origin_city_name']], on='origin_airport_id', how='left')
tmp_flight_df.columns

Index(['id', 'month', 'day_of_month', 'day_of_week', 'op_unique_carrier',
       'tail_num', 'op_carrier_fl_num', 'origin_airport_id', 'dest_airport_id',
       'crs_dep_time', 'dep_time', 'dep_delay', 'dep_time_blk', 'crs_arr_time',
       'arr_time', 'arr_delay_new', 'arr_time_blk', 'cancelled',
       'crs_elapsed_time', 'actual_elapsed_time', 'distance', 'distance_group',
       'carrier_delay', 'weather_delay', 'nas_delay', 'security_delay',
       'late_aircraft_delay', 'year', 'is_delayed', 'is_weekend',
       'distance_agg', 'manufacture_year', 'origin_city_name'],
      dtype='object')

 Tutaj dokonaj złączenia ramki `flight_df` oraz `airport_list_df` używając `destination_airport_id`

In [9]:
# dokonaj jeszcze raz złączenia ramki flight_df z airport_list_df, 
# tym razem jednak złącz kolumnę destination_airport_id wraz z origin_airport_id. 
# Podobnie jak wcześniej, interesuje nas kolumna origin_city_name, 
# jedank ona powinna zostać wyświetlona jako destination_city_name

# Merge the DataFrames based on 'dest_airport_id' and 'origin_airport_id'
merged_df = tmp_flight_df.merge(airport_list_df[['origin_airport_id', 'origin_city_name']], 
                                left_on='dest_airport_id', 
                                right_on='origin_airport_id', 
                                how='left')

# Rename the 'origin_city_name_y' column to 'destination_city_name'
merged_df = merged_df.rename(columns={'origin_city_name_y': 'destination_city_name', 
                                      'origin_airport_id_x': 'origin_airport_id', 
                                      'origin_city_name_x' : 'origin_city_name'})

merged_df = merged_df.drop('origin_airport_id_y', axis=1)
merged_df

Unnamed: 0,id,month,day_of_month,day_of_week,op_unique_carrier,tail_num,op_carrier_fl_num,origin_airport_id,dest_airport_id,crs_dep_time,...,nas_delay,security_delay,late_aircraft_delay,year,is_delayed,is_weekend,distance_agg,manufacture_year,origin_city_name,destination_city_name
0,0,1,5,6,DL,N3752,1901,10299,14747,1548,...,,,,2019,False,False,"(1400, 1500]",2001.0,"Anchorage, AK","Seattle, WA"
1,1,1,5,6,DL,N3752,2020,10299,14747,600,...,22.0,0.0,0.0,2019,False,False,"(1400, 1500]",2001.0,"Anchorage, AK","Seattle, WA"
2,2,1,26,6,AS,N282AK,52,10299,14747,1450,...,,,,2019,False,False,"(1400, 1500]",2017.0,"Anchorage, AK","Seattle, WA"
3,3,1,26,6,AS,N307AS,88,10299,14747,600,...,,,,2019,False,False,"(1400, 1500]",2001.0,"Anchorage, AK","Seattle, WA"
4,4,1,26,6,AS,N318AS,92,10299,14747,1305,...,,,,2019,False,False,"(1400, 1500]",2003.0,"Anchorage, AK","Seattle, WA"
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1057386,1384259,12,30,1,WN,N413WN,225,15304,10397,1005,...,,,,2019,True,True,"(400, 500]",2001.0,"Tampa, FL","Atlanta, GA"
1057387,1384260,12,30,1,WN,N742SW,758,15304,10397,1950,...,,,,2019,False,True,"(400, 500]",1998.0,"Tampa, FL","Atlanta, GA"
1057388,1384261,12,30,1,WN,N774SW,877,15304,10397,600,...,,,,2019,False,True,"(400, 500]",2000.0,"Tampa, FL","Atlanta, GA"
1057389,1384262,12,30,1,WN,N8671D,1189,15304,10397,1620,...,,,,2019,False,True,"(400, 500]",2015.0,"Tampa, FL","Atlanta, GA"


In [10]:
flight_df = merged_df.copy(deep=True)

### Sprawdzenie
Uruchom kod poniżej, aby sprawdzić, czy ta część została poprawnie wykonana

In [11]:
assert 'origin_city_name' in flight_df.columns, 'Brak kolumny `origin_city_name` w ramce flight_df'
assert 'destination_city_name' in flight_df.columns, 'Brak kolumny `destination_city_name` w ramce flight_df'

flight_df_expected_rows_amount = 1057391
assert flight_df.shape[0] == flight_df_expected_rows_amount, 'Ups, zmieniła się liczba wierszy...'

 ## Analiza według lotnisk oraz tras
 Wykonaj poniższe polecenia:  
 1. Wyznacz lotniska, z których **odlatywało** najwięcej samolotów. Wynik zapisz do ramki `top_airports_origin_df`.
 1. Wyznacz lotnika, na których najwięcej lotów **się kończyło**. Wynik zapisz do ramki `top_airports_destination_df`.  
 1. Wyznacz najczęściej uczęszczaną trasę, wynik zapisz do ramki `top_route_df`.  
 1. Przy założeniu, że reprezentatywna liczba lotów na trasie wynosi ponad 500, wyznacz dodatkowo top 10:  
     - tras z **najmniejszym odsetkiem opóźnień**, wynik zapisz do ramki `least_route_delays_df`.  
     - tras z **największym odsetkiem opóźnień**, wynik zapisz do ramki `top_route_delays_df`.

 Tutaj wyznacz ramkę `top_airports_origin_df`

In [27]:
flight_df.head()

Unnamed: 0,id,month,day_of_month,day_of_week,op_unique_carrier,tail_num,op_carrier_fl_num,origin_airport_id,dest_airport_id,crs_dep_time,...,nas_delay,security_delay,late_aircraft_delay,year,is_delayed,is_weekend,distance_agg,manufacture_year,origin_city_name,destination_city_name
0,0,1,5,6,DL,N3752,1901,10299,14747,1548,...,,,,2019,False,False,"(1400, 1500]",2001.0,"Anchorage, AK","Seattle, WA"
1,1,1,5,6,DL,N3752,2020,10299,14747,600,...,22.0,0.0,0.0,2019,False,False,"(1400, 1500]",2001.0,"Anchorage, AK","Seattle, WA"
2,2,1,26,6,AS,N282AK,52,10299,14747,1450,...,,,,2019,False,False,"(1400, 1500]",2017.0,"Anchorage, AK","Seattle, WA"
3,3,1,26,6,AS,N307AS,88,10299,14747,600,...,,,,2019,False,False,"(1400, 1500]",2001.0,"Anchorage, AK","Seattle, WA"
4,4,1,26,6,AS,N318AS,92,10299,14747,1305,...,,,,2019,False,False,"(1400, 1500]",2003.0,"Anchorage, AK","Seattle, WA"


In [12]:
#group origin airport id by count of op_carrier_fl
top_airports_origin_df = flight_df.groupby('origin_airport_id')['op_carrier_fl_num'].count().reset_index()

top_airports_origin_df = top_airports_origin_df.sort_values(by='op_carrier_fl_num', ascending=False).head(10).reset_index(drop=True)

top_airports_origin_df

Unnamed: 0,origin_airport_id,op_carrier_fl_num
0,10397,123162
1,13930,105437
2,12892,87849
3,11292,64525
4,12953,57708
5,10721,55989
6,14747,50465
7,14771,50124
8,11298,39511
9,12889,38456


 Tutaj wyznacz ramkę `top_airports_destination_df`

In [13]:
#group origin airport id by count of op_carrier_fl
top_airports_destination_df = flight_df.groupby('dest_airport_id')['op_carrier_fl_num'].count().reset_index()

top_airports_destination_df = top_airports_destination_df.sort_values(by='op_carrier_fl_num', ascending=False).head(10).reset_index(drop=True)

top_airports_destination_df

Unnamed: 0,dest_airport_id,op_carrier_fl_num
0,10397,122945
1,13930,100333
2,12892,87776
3,11292,64602
4,12953,57686
5,10721,56057
6,14747,50230
7,14771,49999
8,11298,39488
9,12889,38494


 ### Sprawdzenie dla `top_airport_origin`

### Sprawdzenie dla `top_airport_destination`

In [14]:
top_airports_destination_head = (top_airports_destination_df
                                 .sort_values(by='op_carrier_fl_num', ascending=False) ##added by
                                 .head()
                                 ['op_carrier_fl_num'] ##added column name
                                 .tolist() ##changed tolist() instead of to_list
                                 )
top_airports_destination_head = tuple(top_airports_destination_head)
top_airports_destination_head_expected = (122945, 100333, 87776, 64602, 57686)

assert top_airports_destination_head == top_airports_destination_head_expected, f"Nie zgadza się top 5 wierszy, oczekiwano wyników: {top_airports_destination_head_expected} otrzymano: {top_airports_destination_head}"


 # Wzbogacenie o dane pogodowe
 Używając procedury `read_sql_table`, wczytaj tabelę `airport_weather` do ramki `airport_weather_df`. Następnie wykonaj następujące polecenia:  
 1. Pozostaw w ramce tylko następujące kolumny: `['station', 'name', 'date', 'prcp', 'snow', 'snwd', 'tmax', 'awnd']`.  
 1. Połącz ramki `airport_list_df` wraz z `airport_weather_df` po odpowiedniej kolumnie używając takiego złączenia, aby w wyniku usunąć te wiersze (lotniska), które nie posiadają danych pogodowych. Dodatkowo, upewnij się, że zostanie tylko dodana kolumna `origin_airport_id`.

 Tutaj wczytaj ramkę `airport_weather`

In [15]:
airport_weather_df = load_table_from_db('airport_weather')
airport_weather_df.head()

Unnamed: 0,id,station,name,date,awnd,pgtm,prcp,snow,snwd,tavg,...,wt09,wesd,wt10,psun,tsun,sn32,sx32,tobs,wt11,wt18
0,0,USW00013874,ATLANTA HARTSFIELD JACKSON INTERNATIONAL AIRPO...,2019-01-01,4.7,,0.14,0.0,0.0,64.0,...,,,,,,,,,,
1,1,USW00013874,ATLANTA HARTSFIELD JACKSON INTERNATIONAL AIRPO...,2019-01-02,4.92,,0.57,0.0,0.0,56.0,...,,,,,,,,,,
2,2,USW00013874,ATLANTA HARTSFIELD JACKSON INTERNATIONAL AIRPO...,2019-01-03,5.37,,0.15,0.0,0.0,52.0,...,,,,,,,,,,
3,3,USW00013874,ATLANTA HARTSFIELD JACKSON INTERNATIONAL AIRPO...,2019-01-04,12.08,,1.44,0.0,0.0,56.0,...,,,,,,,,,,
4,4,USW00013874,ATLANTA HARTSFIELD JACKSON INTERNATIONAL AIRPO...,2019-01-05,13.42,,0.0,0.0,0.0,49.0,...,,,,,,,,,,


 Tutaj oczyść ramkę `airport_weather_df` z nadmiarowych kolumn

In [16]:
airport_weather_df = airport_weather_df[['station', 'name', 'date', 'prcp', 'snow', 'snwd', 'tmax', 'awnd']]
airport_weather_df.head(2)

Unnamed: 0,station,name,date,prcp,snow,snwd,tmax,awnd
0,USW00013874,ATLANTA HARTSFIELD JACKSON INTERNATIONAL AIRPO...,2019-01-01,0.14,0.0,0.0,66.0,4.7
1,USW00013874,ATLANTA HARTSFIELD JACKSON INTERNATIONAL AIRPO...,2019-01-02,0.57,0.0,0.0,59.0,4.92


 Tutaj połącz ramki `airport_list_df` oraz `airport_weather_df` aktualizując `airport_weather_df`

In [17]:
# Połącz ramki airport_list_df wraz z airport_weather_df po odpowiedniej kolumnie używając takiego złączenia, 
# aby w wyniku usunąć te wiersze (lotniska), które nie posiadają danych pogodowych. 
# Dodatkowo, upewnij się, że zostanie tylko dodana kolumna origin_airport_id.

airport_weather_df = pd.merge(airport_list_df[['origin_airport_id', 'name']], airport_weather_df, on='name', how='inner')
airport_weather_df

Unnamed: 0,origin_airport_id,name,station,date,prcp,snow,snwd,tmax,awnd
0,11638,"FRESNO YOSEMITE INTERNATIONAL, CA US",USW00093193,2019-01-01,0.00,0.0,0.0,50.0,3.13
1,11638,"FRESNO YOSEMITE INTERNATIONAL, CA US",USW00093193,2019-01-02,0.00,0.0,0.0,55.0,1.12
2,11638,"FRESNO YOSEMITE INTERNATIONAL, CA US",USW00093193,2019-01-03,0.00,0.0,0.0,59.0,2.01
3,11638,"FRESNO YOSEMITE INTERNATIONAL, CA US",USW00093193,2019-01-04,0.00,0.0,0.0,64.0,2.68
4,11638,"FRESNO YOSEMITE INTERNATIONAL, CA US",USW00093193,2019-01-05,0.30,0.0,0.0,57.0,7.38
...,...,...,...,...,...,...,...,...,...
43389,10693,"NORTH MYRTLE BEACH, SC US",USW00093718,2020-03-27,0.00,,,75.0,12.30
43390,10693,"NORTH MYRTLE BEACH, SC US",USW00093718,2020-03-28,0.00,,,77.0,13.87
43391,10693,"NORTH MYRTLE BEACH, SC US",USW00093718,2020-03-29,0.00,,,80.0,13.87
43392,10693,"NORTH MYRTLE BEACH, SC US",USW00093718,2020-03-30,0.00,,,80.0,5.82


 ### Sprawdzenie
 Uruchom kod poniżej, aby sprawdzić, czy ta część została poprawnie wykonana

In [18]:
airport_weather_df_expected_shape = (43394, 9)
airport_weather_df_shape = airport_weather_df.shape

assert airport_weather_df_expected_shape == airport_weather_df_shape, \
  f'Nieodpowiedni wymiar ramki airport_weather_df, oczekiwano (wierszy, kolumn): {airport_weather_df_expected_shape}'


 ## Połączenie `airport_weather_df` oraz `flight_df`
 W celu złączenia ramek `airport_weather_df` oraz `flight_df` wykonaj następujące kroki:  
 1. w ramce `aiport_weather_df` występuje kolumna `date`, zrzutuj ją na typ `DATETIME`.  
 1. w ramce `flight_df` należy stworzyć nową kolumnę o nazwie `date`. W tym celu:  
 	- złącz kolumny `month`, `day_of_month` oraz `year` razem, użyj następującego formatu daty: `YYYY-MM-DD`.
 	- zrzutuj kolumnę `date` na typ `DATETIME`.  
 1. złącz ramki używając odpowiedniego klucza, wynik złączenia zapisz do ramki `flight_df`. Użyj złącznia typu `LEFT JOIN`.

 > Dlaczego istotne jest zachowanie typów przy złączeniu?

W trakcie pracy możesz posłużyć się następującymi artykułami z `LMS`:
 - `Python - analiza danych > Dzień 6 - Pandas > Merge`
 - `Python - analiza danych > Dzień 6 - Pandas > Praca z datetime`
 - Dokumentacje metody `to_datetime`: [klik](https://pandas.pydata.org/docs/reference/api/pandas.to_datetime.html)
 - Dostępne formaty dat: [klik](https://www.programiz.com/python-programming/datetime/strftime) - sekcja `Format Code List`

 Tutaj zrzutuj kolumnę `date` na `DATETIME` w ramce `airport_weather_df`

In [19]:
airport_weather_df['date'] = pd.to_datetime(airport_weather_df['date'])
type(airport_weather_df.loc[0, 'date'])

pandas._libs.tslibs.timestamps.Timestamp

 Tutaj stwórz kolumnę `date` w ramce `flight_df`. Pamiętaj, aby była ona również typu `DATETIME`.

In [20]:
# w ramce flight_df należy stworzyć nową kolumnę o nazwie date. W tym celu:
# złącz kolumny month, day_of_month oraz year razem, użyj następującego formatu daty: YYYY-MM-DD.
# zrzutuj kolumnę date na typ DATETIME.

flight_df['date'] = flight_df['year'].astype(str) + '-' + flight_df['month'].astype(str) + '-' + flight_df['day_of_month'].astype(str)
flight_df['date'] = pd.to_datetime(flight_df['date'], format='%Y-%m-%d')
flight_df.head()


Unnamed: 0,id,month,day_of_month,day_of_week,op_unique_carrier,tail_num,op_carrier_fl_num,origin_airport_id,dest_airport_id,crs_dep_time,...,security_delay,late_aircraft_delay,year,is_delayed,is_weekend,distance_agg,manufacture_year,origin_city_name,destination_city_name,date
0,0,1,5,6,DL,N3752,1901,10299,14747,1548,...,,,2019,False,False,"(1400, 1500]",2001.0,"Anchorage, AK","Seattle, WA",2019-01-05
1,1,1,5,6,DL,N3752,2020,10299,14747,600,...,0.0,0.0,2019,False,False,"(1400, 1500]",2001.0,"Anchorage, AK","Seattle, WA",2019-01-05
2,2,1,26,6,AS,N282AK,52,10299,14747,1450,...,,,2019,False,False,"(1400, 1500]",2017.0,"Anchorage, AK","Seattle, WA",2019-01-26
3,3,1,26,6,AS,N307AS,88,10299,14747,600,...,,,2019,False,False,"(1400, 1500]",2001.0,"Anchorage, AK","Seattle, WA",2019-01-26
4,4,1,26,6,AS,N318AS,92,10299,14747,1305,...,,,2019,False,False,"(1400, 1500]",2003.0,"Anchorage, AK","Seattle, WA",2019-01-26


In [21]:
airport_weather_df.head()

Unnamed: 0,origin_airport_id,name,station,date,prcp,snow,snwd,tmax,awnd
0,11638,"FRESNO YOSEMITE INTERNATIONAL, CA US",USW00093193,2019-01-01,0.0,0.0,0.0,50.0,3.13
1,11638,"FRESNO YOSEMITE INTERNATIONAL, CA US",USW00093193,2019-01-02,0.0,0.0,0.0,55.0,1.12
2,11638,"FRESNO YOSEMITE INTERNATIONAL, CA US",USW00093193,2019-01-03,0.0,0.0,0.0,59.0,2.01
3,11638,"FRESNO YOSEMITE INTERNATIONAL, CA US",USW00093193,2019-01-04,0.0,0.0,0.0,64.0,2.68
4,11638,"FRESNO YOSEMITE INTERNATIONAL, CA US",USW00093193,2019-01-05,0.3,0.0,0.0,57.0,7.38


 Tutaj złącz tabeli `airport_weather_df` oraz `flight_df`

In [22]:
# złącz ramki używając odpowiedniego klucza, wynik złączenia zapisz do ramki flight_df. Użyj złącznia typu LEFT JOIN.
# Dlaczego istotne jest zachowanie typów przy złączeniu?

merged = pd.merge(flight_df, airport_weather_df, on='origin_airport_id', how= 'left')
merged.head()

MemoryError: Unable to allocate 3.53 GiB for an array with shape (473502716,) and data type int64

 ### Sprawdzenie
 Uruchom kod poniżej, aby sprawdzić, czy ta część została poprawnie wykonana

In [None]:
flight_df_expected_rows_amount = 1057391
assert flight_df.shape[0] == flight_df_expected_rows_amount, 'Ups, zmieniła się liczba wierszy...'


# Praca samodzielna
Używając `flight_df` zbadaj hipotezę o tym, że temperatura maksymalna wpływa na **odsetek** opóźnień lotów (kolumna `tmax`).  

Przy wykonywaniu tego zadania masz pełną dowolność, jednak powinno składać się conajmniej z następujących elementów:
- sprawdzenie, czy zmienna posiada obserwacje odstające,
- oczyszczenie danych o ile konieczne,
- przedstawienie w formie tabeli czy wzrost danej zmiennej powoduje zmianę w odsetku opóźnień lotów,
- wizualizację stworzonej wcześniej tabeli w formie wykresu,
- krótkiego opisu wyników w komórce markdown.

 ## Analiza dla kolumny `tmax`

## Miejsce na Twój komentarz

# Podsumowanie
W tej części warsztatu dokonaliśmy kompleksowej analizy posiadanego zbioru danych. Eksploracja
pozwoliła nam na zapoznanie się z cechami charakterystycznymi lotów - wiemy już, które 
zmienne mogą mieć wpływ na opóźnienia lotów, a które nie. Co warto podkreślić, skupiliśmy się na wielu
aspektach tej analizy, co otwiera potencjalnie również inne możliwości dalszej pracy nad tą bazą.

W tym momencie przejdziemy do kolejnego kroku, w którym, na podstawie tej analizy, przygotujemy 
system raportowy. Zanim jednak stworzymy dashboard, potrzebujemy zaktualizować naszą bazę danych.