 # Opis notatnika
 W poprzednich krokach pobraliśmy dane oraz przygotowaliśmy bazę `Postgres` na import. Głównym celem w tym notatniku jest  odpowiednie dostosowanie struktury danych z plików źródłowych do formatu zgodnego z `Postgres`, a następnie wgranie ich na nasz serwer. Dzięki temu w późniejszych krokach możemy niezależnie użyć danych do analizy czy raportowania.

 Przy wykonywaniu tego notebooka przydadzą się poniższe elementy kursu oraz materiały dodatkowe:
 * `SQL - analiza danych > Zjazd 1 - materiały dodatkowe > Export danych z DB > Python` - w celu użycia połączenia razem z `Pandas`,
 * https://docs.sqlalchemy.org/en/14/core/engines.html - w celu uzupełnienia konfiguracji `Pandas` do `PostgerSQL`,
 * https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.to_sql.html - eksport danych z `Pandas` na bazę danych.

 > Uwaga: Ze względu na wolumen danych zawarty w pliku `flight.csv`, wykonanie tego notatnika może zająć nawet kilkadziesiąt minut lub więcej!

Tutaj zaimportuj wymagane biblioteki

In [1]:
import pandas as pd
from sqlalchemy import create_engine, text

import os
from time import time

 ## Połączenie z bazą danych
 Tutaj uzupełnij konfigurację połączenia

In [2]:
# Poniżej
user = 'postgres'
password = 'master'
host = '127.0.0.1'
db_name = 'Airlines'

 Z pomocą artykułu [click](https://docs.sqlalchemy.org/en/14/core/engines.html) stwórz zmienną `engine` oraz `url`. Zgodnie z dokumentacją `Pandas`, zmienna `engine`, będzie potrzebna, by możliwe było wyeksportowanie danych na serwer `SQL`.

 W tym miejscu stwórz zmienne `url` oraz `engine`

In [3]:
url = f'postgresql://{user}:{password}@{host}/{db_name}'
engine = create_engine(url)

 # Załadowanie ramek do obszaru roboczego
 Uzupełnij implementację funkcji `load_raw_data`, która przyjmuje jeden parametr:
 * `file_name` - nazwa pliku do zaczytania
 Jej zadaniem jest wczytanie surowego pliku, zmodyfikowanie nazw kolumn z `NAZWA_KOLUMNY` na `nazwa_kolumny` oraz zwrócenie tak zmodyfikowanej ramki danych.

Mogą się przydać poniższe elementy kursu:
 - `Python-Analiza danych -> Dzień 5 - Pandas -> Obróbka danych - częsć 1`
 - `Python-Analiza danych -> Przygotowanie do zjazdu 3 -> Wstęp do Pandas -> Wczytywanie danych do Pandas` - jakie kodowanie mają pliki?

In [4]:
def load_raw_data(file_name):
    raw_data = pd.read_csv(file_name, sep=';')
    modified_columns = [column.lower() for column in raw_data.columns]
    raw_data.columns = modified_columns
    return raw_data

 # Zaczytanie poszczególnych plików do ramek

In [5]:
table_names = ['aircraft', 'airport_weather', 'flight', 'airport_list']

In [6]:
# Tworzę scieżki do plików

CURRENT_DIR = os.getcwd()
PARENT_DIR = os.path.abspath(os.path.join(CURRENT_DIR, os.pardir))
file_paths = {}
for table_name in table_names:
    file_path = f'{PARENT_DIR}\\data\\raw\\{table_name}.csv'
    file_paths[table_name] = file_path

In [7]:
#sprawdzam powstałe ścieżki
file_paths

{'aircraft': 'C:\\Users\\miejs\\Desktop\\CodersLab Exam\\data\\raw\\aircraft.csv',
 'airport_weather': 'C:\\Users\\miejs\\Desktop\\CodersLab Exam\\data\\raw\\airport_weather.csv',
 'flight': 'C:\\Users\\miejs\\Desktop\\CodersLab Exam\\data\\raw\\flight.csv',
 'airport_list': 'C:\\Users\\miejs\\Desktop\\CodersLab Exam\\data\\raw\\airport_list.csv'}

In [8]:
raw_data = {}
for table_name, file_path in file_paths.items():
    raw_data[table_name] = load_raw_data(file_path)

 # Eksport danych na bazę
 Zapoznaj się z dokumentacją metody `Pandas` - [to_sql](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.to_sql.html), której zadaniem jest wyeksportowanie ramki na bazę danych.
 Zwróć szczególną uwagę na poniższe parametry:
 * `if_exists` - jak ma się zachować metoda, gdy ładuje dane na bazę,
 * `con` - połączenie do bazy,
 * `name` - nazwa tabeli, do której ramka ma zostać wgrana,
 * `index` - czy dodawać index z ramki jako kolumnę,
 * `chunksize` - maksymalna liczba wierszy wgrywana za jednym razem.

 > **Uwaga:** 
 > Przed eksportem upewnij się, że tabela jest pusta. Zwróć uwagę na pewną subtelną różnicę pomiędzy wyglądem ramki oraz tabeli docelowej na bazie danych.

Następnie uzupełnij implementację metody `export_table_to_db`, która przyjmuje dwa argumenty:
 * `df` - ramka danych do eksportu,
 * `table_name` - nazwa ramki na bazie.

Zalecamy, aby dodać do metody informację, która ramka jest aktualnie ładowana np.:
 `Loading data into {table_name}...`
 > Ze względu na rozmiar ramki `flight_df`, proces ten może potrwać nawet kilkadziesiąt minut! Z tego względu, na potrzeby testów, zalecamy przekazanie do procedury `export_table_to_db` np. pierwszych 5 wierszy, aby sprawdzić, czy działa, a potem wgrać cały zestaw danych - pamiętając o upszednim usunięciu tamtych.

In [9]:
def export_table_to_db(df, table_name, engine):
    df.to_sql(name=table_name, con=engine, chunksize=100, if_exists='replace', index=False)

 ## Wgrywanie danych

 ### Wgranie `aircraft_df` do tabeli `aircraft`

In [10]:
# Wgrywam wszystkie tabele od razu

for table_name, raw_data_df in raw_data.items():
    start = time()
    print(f'Uploading {raw_data_df.shape[0]} rows to table {table_name}.')
    export_table_to_db(raw_data_df, table_name, engine)
    end = time()
    print(f'Uploaded {raw_data_df.shape[0]} rows to table {table_name} took {end - start}s.')

Uploading 7383 rows to table aircraft.
Uploaded 7383 rows to table aircraft took 0.15983963012695312s.
Uploading 46226 rows to table airport_weather.
Uploaded 46226 rows to table airport_weather took 2.498711109161377s.
Uploading 9251880 rows to table flight.
Uploaded 9251880 rows to table flight took 500.53441166877747s.
Uploading 97 rows to table airport_list.
Uploaded 97 rows to table airport_list took 0.16103434562683105s.


 ### Wgranie `airport_weather_df` do tabeli `airport_weather`

In [11]:
# j.w

 ### Wgranie `flight_df` do tabeli `flight`
 > Wykonanie tej komórki będzie czasochłonne za względu na ilość danych w ramce.

In [12]:
# j.w

 ### Wgranie `airport_list_df` do tabeli `airport_list`

In [13]:
# j.w

 # Sprawdzenie poprawności wykonania notatnika
 Uruchom kod poniżej, aby sprawdzić, czy ta część została poprawnie wykonana

In [14]:
def test_data_export(table_name, expected_count, expected_schema):
    real_count = pd.read_sql(f"SELECT COUNT(*) as cnt FROM {table_name}", engine).iloc[0][0]
    
    real_schema = pd.read_sql(f"SELECT * FROM {table_name} LIMIT 0", engine)
    real_schema = set(real_schema.columns)

    expected_schema = set(expected_schema)

    diff = real_schema.symmetric_difference(expected_schema)

    assert len(diff) == 0, ('Nie zgadzają się kolumny tabel....'
    f'\tOczekiwano: {expected_schema}'
    f'\tOtrzymano: {real_schema}'
    f'\tRóżnica: {diff}')

    assert expected_count == real_count, f'Nie zgadza się liczba wierszy, oczekiwano {expected_count}, otrzymano {real_count}'

 ## Sprawdzenie tabeli `aircraft`
 Uruchom kod poniżej, aby sprawdzić, czy ta część została poprawnie wykonana

In [15]:
aircraft_expected_count = 7383
aircraft_expected_schema = ['manufacture_year', 'tail_num', 'number_of_seats']

test_data_export('aircraft', aircraft_expected_count, aircraft_expected_schema)

 ## Sprawdzenie tabeli `airport_weather`
 Uruchom kod poniżej, aby sprawdzić, czy ta część została poprawnie wykonana

In [16]:
airport_weather_expected_count = 46226
airport_weather_expected_schema = ['station', 'name', 'date', 'awnd', 'prcp', 'snow', 'snwd', 'tavg', 'tmax', 'tmin', 'wdf2', 'wdf5', 'wsf2', 'wsf5', 'wt01', 'wt08', 'wt02',
       'wt03', 'wt04', 'wt09', 'wt06', 'wt05', 'pgtm', 'wt10', 'wesd', 'sn32',
       'sx32', 'psun', 'tsun', 'tobs', 'wt07', 'wt11', 'wt18']

test_data_export('airport_weather', airport_weather_expected_count, airport_weather_expected_schema)

 ## Sprawdzenie tabeli `flight`
 Uruchom kod poniżej, aby sprawdzić, czy ta część została poprawnie wykonana

In [17]:
flight_expected_count = 9251880
flight_expected_schema = ['month', 'day_of_month', 'day_of_week', 'op_unique_carrier', 'tail_num',
       'op_carrier_fl_num', 'origin_airport_id', 'dest_airport_id',
       'crs_dep_time', 'dep_time', 'dep_delay_new', 'dep_time_blk',
       'crs_arr_time', 'arr_time', 'arr_delay_new', 'arr_time_blk',
       'cancelled', 'crs_elapsed_time', 'actual_elapsed_time', 'distance',
       'distance_group', 'year', 'carrier_delay', 'weather_delay', 'nas_delay',
       'security_delay', 'late_aircraft_delay']

test_data_export('flight', flight_expected_count, flight_expected_schema)

 ## Sprawdzenie tabeli `airport_list`
 Uruchom kod poniżej, aby sprawdzić, czy ta część została poprawnie wykonana

In [18]:
aircraft_list_expected_count = 97
aircraft_list_expected_schema = ['origin_airport_id', 'display_airport_name', 'origin_city_name', 'name']

test_data_export('airport_list', aircraft_list_expected_count, aircraft_list_expected_schema)


In [19]:
msg = "Wszystko wygląda OK :) Możesz przejść do kolejnego kroku."
print(msg)

Wszystko wygląda OK :) Możesz przejść do kolejnego kroku.


 # Podsumowanie
 W tym notatniku załadowaliśmy pobrane wcześniej pliki na bazę danych. Dzięki temu stworzyliśmy centralne miejsce ich magazynowania, co wykorzystamy zarówno przy analizie danych, jak i przy późniejszej budowie systemu raportowego.