 # Opis notatnika

 Ten notatnik inicjuje naszą pracę nad warsztatem końcowym. Naszym zadaniem tutaj jest pobranie udostępnionych nam danych do obszaru roboczego, które w następnym kroku wgramy na naszą bazę danych. Ich obróbka oraz analiza zostanie przeprowadzona w specjalnie do tego celu przygotowanych kolejnych notatnikach.

 Na potrzeby tego warsztatu został stworzony dedykowany serwis API, który dostępny jest pod adresem: https://api-datalab.coderslab.com/api/. Dodatkowo udostępniona została dokumentacja, z którą można zapoznać się tutaj: [klik](https://api-datalab.coderslab.com/docs/).

 > Dokumentacja jest czysto techniczna i ma na celu prezentację dostępnych endpointów wraz ze zwracanym typem. W celu przetestowania należy kliknąć przysisk `Authorize`, podać token (dostępny poniżej), a następnie `Try it out!` oraz uzupełnić wymagane pola (parametry requesta).

 Zgodnie z dokumentacją stwierdzamy, że udostępnione zostały nam 4 endpointy:
 - `airport` - dane o lotnisku,
 - `weather` - informacje o zarejestrowaniej pogodzie na lotnisku danego dnia,
 - `aircraft` - dane o samolotach
 - `flights` - dane o wylotach z danego lotniska per dzień.

 Wszystkie te źródła musimy pobrać, aby być w stanie wykonać całość warsztatu. W celu pobrania informacji, gdzie wymagany jest paramatr `airportId`, posłużymy się listą z pliku `airports.csv`.

 Przy wykonywaniu tego zadania możesz posłużyć się tym tokenem: `WpzDMZeeCq6tbPdsTHUX8W9mecuUVwXAnmcorefr`.

 ### Uwagi
 - Ze względów ćwiczeniowych, konstrukcja poszczególnych endpointów jest różna – w trakcie pracy dokładnie przyjrzyj się, w jaki sposób należy wykonać zapytanie, aby otrzymać odpowiedź.
 - Pamiętaj o dodaniu `sleep` pomiędzy poszczególnymi wywołaniami endpoint.
 - Limit wywołań API to 500/min, zadbaj o nieprzekroczenie tego limitu – w przeciwnym wypadku będzie zwracany błąd 429.

 # Konfiguracja notatnika

 Tutaj zaimportuj wymagane biblioteki

In [1]:
import requests as r
import json
import pandas as pd
import time

 Tutaj zdefiniuj parametry połączenia do API

In [2]:
base_url = 'https://api-datalab.coderslab.com/api/'
token = 'WpzDMZeeCq6tbPdsTHUX8W9mecuUVwXAnmcorefr'

Tutaj wczytaj plik `airports.csv` i dostosuj do dalszych kroków w celu pobierania z kolejnych endpointów. Lista lotnisk jest dostępna w kolumnie `origin_airport_id`.

In [3]:
airports_df = pd.read_csv(r'C:\Users\pawgolen\Desktop\Pliki_do_projektu_koncowego\data\airports.csv')

airport_id = airports_df[ "origin_airport_id" ].tolist()
print(airport_id)

[10874, 11233, 13360, 15008, 11638, 14150, 15323, 14814, 12007, 11337, 13342, 15070, 13244, 12280, 15096, 11641, 13832, 10268, 10397, 15041, 10529, 12119, 11537, 11092, 10581, 13829, 15389, 10140, 12389, 11648, 15023, 11982, 10967, 11525, 10792, 14259, 11637, 10466, 10599, 10208, 15841, 14831, 12898, 13241, 13367, 11481, 14108, 13931, 13873, 10157, 10245, 11146, 13277, 11292, 11109, 13459, 11775, 16218, 14698, 14252, 13256, 13139, 12250, 11259, 11468, 14952, 12402, 14574, 11996, 11977, 11867, 11203, 11995, 15016, 10747, 14905, 12012, 14783, 14730, 10431, 10434, 16869, 10408, 12264, 11618, 15304, 13577, 12954, 11624, 13541, 13422, 14057, 13232, 10800, 14689, 12391, 10868, 14711, 10257, 11067, 10562, 11695, 13796, 14109, 13970, 14193, 11076, 14092, 11122, 11288, 11308, 10754, 12884, 15376, 14588, 11884, 12915, 13851, 14843, 11603, 14457, 12206, 11252, 11905, 15412, 14120, 11980, 14025, 11150, 14709, 15897, 14107, 14006, 14747, 12902, 13061, 12016, 14794, 11921, 10731, 14828, 12889, 12441

 # Pobieranie `Airport`
 Zapoznaj się z dokumentacją endpointu `airport`, a następnie pobierz dane dot. poszczególnych lotnisk. Wyniki tego kroku zapisz do ramki `airport_df`, a następnie zapisz do pliku `csv`.

 ### Wskazówki
 - Nie wszystkie lotniska dostępne w pliku `airports.csv`, są dostępne w endpoint. Zadbaj o odpowiednie obsłużenie takiej sytuacji,
 - Do skonwertowania wyników przydatna może okazać się metoda `Pandas` - [from_records](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.from_records.html),
 - Artykuł LMS: `Python - analiza danych > Dzień 4 - API > Uwierzytelnianie`
 - Artykuł LMS: `Python - analiza danych > Przygotowanie do zjazdu 2`

 Tutaj pobierz dane z endpoint'u `airport`

In [4]:
def get_airports(airport_lst):
    airports = []
    for each_airport in airport_lst:
        response = r.get(f'https://api-datalab.coderslab.com/api/airport/{each_airport}', headers = {'Authorization':token})
        if response.status_code == 200:
            airports.append(response.json())
        time.sleep(0.1)
    return airports


airport_df = pd.DataFrame.from_records(get_airports(airport_id))

 ## Sprawdzenie
 Uruchom kod poniżej, aby sprawdzić, czy ta część została poprawnie wykonana.

In [5]:
airport_df_expected_shape = (97, 4)
assert airport_df_expected_shape == airport_df.shape

 Tutaj zapisz ramkę `airport_df` do pliku `airport_list.csv`.

In [6]:
airport_df.to_csv(r'C:\Users\pawgolen\Desktop\Pliki_do_projektu_koncowego\data\raw\airport_list.csv', index = False)

 # Pobieranie `Weather`
 Zapoznaj się z dokumentacją endpotu `Weather`, następnie pobierz dane dotyczące zarejestrowanej pogody na poszczególnych lotniskach. Wyniki zapisz do ramki `weather_df`, a później do pliku `airport_weather.csv`.

 Wskazówki:
 - Ze względu na wolumen danych, które tutaj się pobiorą, odradzamy zapisywanie danych bezpośrednio do ramki. Rekomendujemy podejście podobne do tego z warsztatu na kursie `Python - analiza danych` - `Dzień 10 - Warsztat > Warsztat > Scrapowanie danych`, czyli stworzenie listy, a następnie przekonwertowanie jej w postać ramki.
 - Data początkowa danych to `2019-01-01`, zaś data końcowa to `2020-03-31`, czyli 15 miesięcy,
 - Ze względu na czas, jaki ten krok będzie się wykonywał, warto dodać w pętli instrukcję (lub kilka) `print`, aby monitorować przebieg wykonywania tego kroku.
 - Przy dodawaniu miesięcy do daty może przydać się metoda [relativedelta](https://www.geeksforgeeks.org/python-get-month-from-year-and-weekday/).

In [7]:
# date_list = pd.date_range(start="2019-01-01",end="2020-03-31")
# #date_list

# links_lst = []

# for i in date_list:
#     links = f'https://api-datalab.coderslab.com/api/airportWeather?date={i}'
#     links_lst.append(links)

# links_lst

In [8]:
# from datetime import datetime

# date_list = pd.date_range(start="2019-01-01",end="2020-03-31")

# links_lst = []

# for i in date_list:
#     links = f'https://api-datalab.coderslab.com/api/airportWeather?date={i}'
#     links_lst.append(links)

# #links_lst

# def get_weather(links_lst):
#     for link in links_lst:
#         response = r.get(f'{link}', headers = {'Authorization':token})
#         if response.status_code == 200:
#             response.json()          
#         time.sleep(0.1)
#     return response.json()

# weather_df = pd.DataFrame(get_weather(links_lst))

In [9]:
from datetime import datetime

date_range = pd.date_range(start="2019-01-01",end="2020-03-31", freq='M')


def get_weather(date_range):
    weather = []
    for date in date_range:
        print(date)
        response = r.get(f'https://api-datalab.coderslab.com/api/airportWeather?date={date}', headers = {'Authorization':token})
        if response.status_code == 200:
            weather.extend(response.json())
        time.sleep(0.1)
    return weather

weather_df = pd.DataFrame.from_records(get_weather(date_range))

2019-01-31 00:00:00
2019-02-28 00:00:00
2019-03-31 00:00:00
2019-04-30 00:00:00
2019-05-31 00:00:00
2019-06-30 00:00:00
2019-07-31 00:00:00
2019-08-31 00:00:00
2019-09-30 00:00:00
2019-10-31 00:00:00
2019-11-30 00:00:00
2019-12-31 00:00:00
2020-01-31 00:00:00
2020-02-29 00:00:00
2020-03-31 00:00:00


In [10]:
weather_df


Unnamed: 0,WT18,STATION,NAME,DATE,AWND,PRCP,SNOW,SNWD,TAVG,TMAX,...,PGTM,WT10,WESD,SN32,SX32,PSUN,TSUN,TOBS,WT07,WT11
0,,USW00013874,ATLANTA HARTSFIELD JACKSON INTERNATIONAL AIRPO...,2019-01-01,4.70,0.14,0.0,0.0,64.0,66.0,...,,,,,,,,,,
1,,USW00013874,ATLANTA HARTSFIELD JACKSON INTERNATIONAL AIRPO...,2019-01-02,4.92,0.57,0.0,0.0,56.0,59.0,...,,,,,,,,,,
2,,USW00013874,ATLANTA HARTSFIELD JACKSON INTERNATIONAL AIRPO...,2019-01-03,5.37,0.15,0.0,0.0,52.0,55.0,...,,,,,,,,,,
3,,USW00013874,ATLANTA HARTSFIELD JACKSON INTERNATIONAL AIRPO...,2019-01-04,12.08,1.44,0.0,0.0,56.0,66.0,...,,,,,,,,,,
4,,USW00013874,ATLANTA HARTSFIELD JACKSON INTERNATIONAL AIRPO...,2019-01-05,13.42,0.00,0.0,0.0,49.0,59.0,...,,,,,,,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
46221,,USW00014762,"PITTSBURGH ALLEGHENY CO AIRPORT, PA US",2020-03-27,3.58,0.21,,,,59.0,...,146.0,,,,,,,,,
46222,,USW00014762,"PITTSBURGH ALLEGHENY CO AIRPORT, PA US",2020-03-28,6.93,1.29,,,,77.0,...,1535.0,,,,,,,,,
46223,,USW00014762,"PITTSBURGH ALLEGHENY CO AIRPORT, PA US",2020-03-29,16.55,0.02,,,,78.0,...,1408.0,,,,,,,,,
46224,,USW00014762,"PITTSBURGH ALLEGHENY CO AIRPORT, PA US",2020-03-30,13.42,0.00,,,,57.0,...,817.0,,,,,,,,,


 ## Sprawdzenie
 Uruchom kod poniżej, aby sprawdzić, czy ta część została poprawnie wykonana.

In [11]:
weather_df_expected_shape = (46226, 33)
assert weather_df_expected_shape == weather_df.shape

 ## Zapis do pliku
 Tutaj zapisz ramkę `weather_df` do pliku `airport_weather.csv` w katalogu `data/raw`.

In [12]:
weather_df.to_csv(r'C:\Users\pawgolen\Desktop\Pliki_do_projektu_koncowego\data\raw\airport_weather.csv', index = False)

 # Pobranie `Aircraft`
 Zapoznaj się z dokumentacją endpointu `aircraft` a następnie pobierz dane produkcyjne samolotów. Wyniki zapisz do ramki `aircraft_df`, a następnie zapisz do pliku `aircraft.csv`.


In [13]:
def get_aircraft(url, token):
    response = r.get(url, headers={'Authorization': token})
    print(response)
    return response.json()

aircraft_api_response = get_aircraft(f'{base_url}aircraft', token)
aircraft_df = pd.DataFrame.from_records(aircraft_api_response)
aircraft_df

<Response [200]>


Unnamed: 0,MANUFACTURE_YEAR,TAIL_NUM,NUMBER_OF_SEATS
0,1944,N54514,0.0
1,1945,N1651M,0.0
2,1953,N100CE,0.0
3,1953,N141FL,0.0
4,1953,N151FL,0.0
...,...,...,...
7378,2019,N14011,337.0
7379,2019,N16008,337.0
7380,2019,N16009,337.0
7381,2019,N2250U,276.0


 ## Sprawdzenie
 Uruchom kod poniżej, aby sprawdzić, czy ta część została poprawnie wykonana.

In [14]:
aircraft_df_expected_shape = (7383, 3)
assert aircraft_df_expected_shape == aircraft_df.shape

 ## Zapis do pliku
 Tutaj zapisz ramkę `aircraft_df` do pliku `aircraft.csv` w katalogu `data/raw`.

In [15]:
aircraft_df.to_csv(r'C:\Users\pawgolen\Desktop\Pliki_do_projektu_koncowego\data\raw\aircraft.csv', index = False)

 # Pobranie `Flight`
 Zapoznaj się z dokumentacją endpointu `flights`, następnie pobierz dane dotyczące ruchu lotniczego. Wyniki zapisz do ramki `flight_df`, a później do pliku `flight.csv`.

 Wskazówki:
 - Zwróć szczególną uwagę na konstrukcję endpointa,
 - Ze względu na wolumen danych, które tutaj się pobiorą, odradzamy zapisywanie danych bezpośrednio do ramki. Rekomendujemy podejście podobne do tego, z warsztatu na kursie `Python - analiza danych` - `Dzień 10 - Warsztat > Warsztat > Scrapowanie danych`,
 - Data początkowa danych to `2019-01-01`, zaś końcowa to `2020-03-31`, czyli 456 dni,
 - Ze względu na czas, jaki ten krok będzie się wykonywał, warto dodać w pętli instrukcję (lub kilka) `print`, aby monitorować przebieg wykonywania tego kroku.

In [16]:
airport_lst_part = [10874, 11233, 13360, 15008, 11638, 14150, 15323, 14814, 12007,
                    11337, 13342, 15070, 13244, 12280, 15096, 11641, 13832, 10268,
                    10397, 15041, 10529, 12119, 11537, 11092, 10581, 13829, 15389,
                    10140, 12389, 11648, 15023, 11982, 10967, 11525, 10792, 14259,
                    11637, 10466, 10599, 10208, 15841, 14831, 12898, 13241, 13367,
                    11481, 14108, 13931, 13873, 10157, 10245, 11146, 13277, 11292,
                    11109, 13459, 11775, 16218, 14698, 14252, 13256, 13139, 12250,
                    11259, 11468, 14952, 12402, 14574, 11996, 11977, 11867, 11203,
                    11995, 15016, 10747, 14905, 12012, 14783, 14730, 10431, 10434,
                    16869, 10408, 12264, 11618, 15304, 13577, 12954, 11624, 13541,
                    13422, 14057, 13232, 10800, 14689, 12391, 10868, 14711, 10257,
                    11067, 10562, 11695, 13796, 14109, 13970, 14193, 11076, 14092,
                    11122, 11288, 11308, 10754, 12884, 15376, 14588, 11884, 12915,
                    13851, 14843, 11603, 14457, 12206, 11252, 11905, 15412, 14120,
                    11980, 14025, 11150, 14709, 15897, 14107, 14006, 14747, 12902,
                    13061, 12016, 14794, 11921, 10731, 14828, 12889, 12441, 14802,
                    13230, 10631, 14492, 10141, 13204, 12992, 13184, 10643, 10333,
                    12255, 14487, 12129, 10551, 13871, 14256, 11066, 13377, 13487,
                    10627, 12335, 14633, 11274, 14543, 10299, 10158, 12951, 14004,
                    12544, 10739, 10165, 13964, 14314, 10990, 14812, 12339, 10561,
                    10146, 12451, 15991, 11423, 15401, 11587, 14520, 11042, 10185,
                    11278, 14534, 14100, 14321, 11111]


# airport_lst_part = [15024, 12917, 12124, 12523, 10821, 10721, 11630, 10170, 12448,
#                     12953, 10918, 15356, 13344, 10676, 10926, 14307, 14635, 12156,
#                     12244, 10666, 11612, 13476, 13029, 11267, 15411, 14986, 11471,
#                     12758, 14576, 10155, 13486, 14716, 13296, 11283, 10732, 12266,
#                     12892, 11003, 12094, 14685, 13158, 13121, 11540, 14877, 12217,
#                     11697, 10372, 13264, 10469, 11336, 14683, 14112, 13502, 14524,
#                     15027, 11973, 12173, 10361, 13388, 13891, 10577, 11433, 13290,
#                     11298, 14771, 11577, 11140, 11057, 15048, 14960, 15295, 11865,
#                     14893, 11049, 13495, 11953, 12223, 14254, 11823, 15380, 11447,
#                     12003, 14489, 14908, 11986, 14082, 12191, 14113, 12891, 15249,
#                     12819, 14570, 12323, 14679, 12343, 13076, 11503, 11617, 10728,
#                     10785, 14869, 14027, 14674, 12197, 14696, 13485, 10781, 10849,
#                     14955, 13433, 15074, 13127, 11013, 14122, 10154, 10980, 14098,
#                     12982, 14512, 12278, 15919, 12478, 13830, 13933, 13930, 11997,
#                     11027, 15582, 11721, 12896, 10279, 11778, 12888, 14262, 11415,
#                     10685, 14842, 14761, 11193, 12265, 14288, 10713, 12397, 15624,
#                     10994, 10409, 12519, 10136, 15607, 14237, 10779, 11898, 11413,
#                     13983, 10558, 10620, 14222, 13198, 10423, 11097, 15454, 15370,
#                     12899, 10135, 12177, 13303, 13795, 10693, 12945, 12511]



def get_data(url, token, query_params={}):
    response = r.get(url, headers = {'Authorization': token}, params = query_params)
    #print(response.status_code)
    if response.status_code == 200:
        return response.json()


def get_flights(airport_lst_part, date_range):
    flight = []
    for each_airport in airport_lst_part:
        for each_date in date_range:
            print(f"Getting flights for date: {each_date.strftime('%Y-%m')}")
            flights_data = get_data(f'https://api-datalab.coderslab.com/api/flight', token, query_params = {'airportId': each_airport, 'date': each_date})
            if flights_data is not None:
                flight.extend(flights_data)
                #print("Response converted to json")
                #time.sleep(0.01)
    return flight

# df = pd.json_normalize(get_flights(airport_id, date_range))
# flights_df = df.to_csv(r'C:\Users\pawgolen\Desktop\Pliki_do_projektu_koncowego\data\raw\flight.csv', sep=';', encoding='UTF-8', index=False)

flights = get_flights(airport_lst_part, date_range)
flights_df = pd.DataFrame.from_records(flights)
flights_df.shape

Getting flights for date: 2019-01
Getting flights for date: 2019-02
Getting flights for date: 2019-03
Getting flights for date: 2019-04
Getting flights for date: 2019-05
Getting flights for date: 2019-06
Getting flights for date: 2019-07
Getting flights for date: 2019-08
Getting flights for date: 2019-09
Getting flights for date: 2019-10
Getting flights for date: 2019-11
Getting flights for date: 2019-12
Getting flights for date: 2020-01
Getting flights for date: 2020-02
Getting flights for date: 2020-03
Getting flights for date: 2019-01
Getting flights for date: 2019-02
Getting flights for date: 2019-03
Getting flights for date: 2019-04
Getting flights for date: 2019-05
Getting flights for date: 2019-06
Getting flights for date: 2019-07
Getting flights for date: 2019-08
Getting flights for date: 2019-09
Getting flights for date: 2019-10
Getting flights for date: 2019-11
Getting flights for date: 2019-12
Getting flights for date: 2020-01
Getting flights for date: 2020-02
Getting flight

KeyboardInterrupt: 

 ## Sprawdzenie
 Uruchom kod poniżej, aby sprawdzić, czy ta część została poprawnie wykonana.

In [None]:
flight_df_expected_shape = (9251880, 27)
assert flight_df_expected_shape == flight_df.shape

 ## Zapis do pliku
 Tutaj zapisz ramkę `flight_df` do pliku `flight.csv` w katalogu `data/raw`.

In [None]:
# flight_df.to_csv(r'C:\Users\pawgolen\Desktop\Pliki_do_projektu_koncowego\data\raw\flight.csv', index=False)

 # Podsumowanie
 W tym notatniku wykonaliśmy podstawowy krok w analizie danych - pozyskaliśmy je. Są gotowe do dalszej pracy, czyli możemy załadować je na bazę danych, a następnie zapoznać się z tym, jakie informacje ze sobą niosą. Kolejne notatniki będą służyły właśnie tym celom.

In [None]:
msg = "Wszystko wygląda OK :) Możesz przejść do kolejnego kroku."
print(msg)