 # Opis notatnika

 Ten notatnik inicjuje naszą pracę nad warsztatem końcowym. Naszym zadaniem tutaj jest pobranie udostępnionych nam danych do obszaru roboczego, które w następnym kroku wgramy na naszą bazę danych. Ich obróbka oraz analiza zostanie przeprowadzona w specjalnie do tego celu przygotowanych kolejnych notatnikach.

 Na potrzeby tego warsztatu został stworzony dedykowany serwis API, który dostępny jest pod adresem: https://api-datalab.coderslab.com/api/v2. Dodatkowo udostępniona została dokumentacja, z którą można zapoznać się tutaj: [klik](https://api-datalab.coderslab.com/v2/docs/).

 > Dokumentacja jest czysto techniczna i ma na celu prezentację dostępnych endpointów wraz ze zwracanym typem. W celu przetestowania należy kliknąć przysisk `Authorize`, podać token (dostępny poniżej), a następnie `Try it out!` oraz uzupełnić wymagane pola (parametry requesta).

 Zgodnie z dokumentacją stwierdzamy, że udostępnione zostały nam 4 endpointy:
 - `airport` - dane o lotnisku,
 - `weather` - informacje o zarejestrowaniej pogodzie na lotnisku danego dnia,
 - `aircraft` - dane o samolotach
 - `flights` - dane o wylotach z danego lotniska per dzień.

 Wszystkie te źródła musimy pobrać, aby być w stanie wykonać całość warsztatu. W celu pobrania informacji, gdzie wymagany jest paramatr `airportId`, posłużymy się listą z pliku `airports.csv`.

 Przy wykonywaniu tego zadania możesz posłużyć się tym tokenem: `iKRsQ8vdqgT903o2vH1rsejOeQ0F7YC9TvutH6Wk`.

 ### Uwagi
 - Ze względów ćwiczeniowych, konstrukcja poszczególnych endpointów jest różna – w trakcie pracy dokładnie przyjrzyj się, w jaki sposób należy wykonać zapytanie, aby otrzymać odpowiedź.
 - Pamiętaj o dodaniu `sleep` pomiędzy poszczególnymi wywołaniami endpoint.
 - Limit wywołań API to 1000/min, zadbaj o nieprzekroczenie tego limitu – w przeciwnym wypadku będzie zwracany błąd 429.

 # Konfiguracja notatnika

 Tutaj zaimportuj wymagane biblioteki

In [25]:
import json
import pandas as pd
import requests
from time import sleep
from datetime import datetime, timedelta
from dateutil.relativedelta import relativedelta

 Tutaj zdefiniuj paramatry połączenia do API

In [3]:
API_KEY = "iKRsQ8vdqgT903o2vH1rsejOeQ0F7YC9TvutH6Wk"
API_URL = "https://api-datalab.coderslab.com/api/v2"

AUTH = {'authorization': API_KEY}

SLEEP = 60/950  # czas pomiędzy kolejnymi żądaniami w sekundach

 Tutaj wczytaj plik `airports.csv` i dostosuj do dalszych kroków w celu pobierania z kolejnych endpointów. Lista lotnisk jest dostępna w kolumnie `origin_airport_id`.

In [5]:
file_path = "C:/Users/User/OneDrive - AEI/Pulpit/Pliki_do_Portfolio_Lab/data/airports.csv"  #ścieżka do pliku
df = pd.read_csv(file_path)
df.head(5)

Unnamed: 0,origin_airport_id
0,10874
1,11233
2,13360
3,15008
4,11638


 # Pobieranie `Airport`
 Zapoznaj się z dokumentacją endpointu `airport`, a następnie pobierz dane dot. poszczególnych lotnisk. Wyniki tego kroku zapisz do ramki `airport_df`, a następnie zapisz do pliku `csv`.

 ### Wskazówki
 - Nie wszystkie lotniska dostępne w pliku `airports.csv`, są dostępne w endpoint. Zadbaj o odpowiednie obsłużenie takiej sytuacji,
 - Do skonwertowania wyników przydatna może okazać się metoda `Pandas` - [from_records](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.from_records.html),
 - Artykuł LMS: `Python - analiza danych > Dzień 4 - API > Uwierzytelnianie`
 - Artykuł LMS: `Python - analiza danych > Przygotowanie do zjazdu 2`

 Tutaj pobierz dane z endpoint'u `airport`

In [6]:
# Zamień DataFrame na listę
lista = df.values.tolist()

# Rozpakowanie do listy jednowymiarowej
flat_list = [item for sublist in lista for item in sublist]
  
# Pusta lista na dane o lotniskach
airport_data = []

# Pobieranie danych dla każdego identyfikatora
for airport_id in flat_list:
    url = f"{API_URL}/airport/{airport_id}"
    response = requests.get(url, headers={'authorization': API_KEY})
    if response.status_code == 200:
        airport_data.append(response.json())
    else:
        print(f"Błąd pobierania danych dla lotniska o ID {airport_id}")

# Tworzenie ramki danych z wyników
airport_df = pd.DataFrame.from_records(airport_data)


Błąd pobierania danych dla lotniska o ID 10874
Błąd pobierania danych dla lotniska o ID 11233
Błąd pobierania danych dla lotniska o ID 13360
Błąd pobierania danych dla lotniska o ID 15008
Błąd pobierania danych dla lotniska o ID 14150
Błąd pobierania danych dla lotniska o ID 15323
Błąd pobierania danych dla lotniska o ID 14814
Błąd pobierania danych dla lotniska o ID 12007
Błąd pobierania danych dla lotniska o ID 11337
Błąd pobierania danych dla lotniska o ID 15070
Błąd pobierania danych dla lotniska o ID 12280
Błąd pobierania danych dla lotniska o ID 11641
Błąd pobierania danych dla lotniska o ID 13832
Błąd pobierania danych dla lotniska o ID 10268
Błąd pobierania danych dla lotniska o ID 15041
Błąd pobierania danych dla lotniska o ID 12119
Błąd pobierania danych dla lotniska o ID 11537
Błąd pobierania danych dla lotniska o ID 11092
Błąd pobierania danych dla lotniska o ID 10581
Błąd pobierania danych dla lotniska o ID 13829
Błąd pobierania danych dla lotniska o ID 15389
Błąd pobieran

Błąd pobierania danych dla lotniska o ID 14877
Błąd pobierania danych dla lotniska o ID 12217
Błąd pobierania danych dla lotniska o ID 10372
Błąd pobierania danych dla lotniska o ID 13264
Błąd pobierania danych dla lotniska o ID 10469
Błąd pobierania danych dla lotniska o ID 11336
Błąd pobierania danych dla lotniska o ID 14112
Błąd pobierania danych dla lotniska o ID 13502
Błąd pobierania danych dla lotniska o ID 15027
Błąd pobierania danych dla lotniska o ID 11973
Błąd pobierania danych dla lotniska o ID 10361
Błąd pobierania danych dla lotniska o ID 13388
Błąd pobierania danych dla lotniska o ID 10577
Błąd pobierania danych dla lotniska o ID 13290
Błąd pobierania danych dla lotniska o ID 11577
Błąd pobierania danych dla lotniska o ID 11140
Błąd pobierania danych dla lotniska o ID 15048
Błąd pobierania danych dla lotniska o ID 14960
Błąd pobierania danych dla lotniska o ID 15295
Błąd pobierania danych dla lotniska o ID 11865
Błąd pobierania danych dla lotniska o ID 11049
Błąd pobieran

In [7]:
airport_df

Unnamed: 0,ORIGIN_AIRPORT_ID,DISPLAY_AIRPORT_NAME,ORIGIN_CITY_NAME,NAME
0,11638,Fresno Air Terminal,"Fresno, CA","FRESNO YOSEMITE INTERNATIONAL, CA US"
1,13342,General Mitchell Field,"Milwaukee, WI","MILWAUKEE MITCHELL AIRPORT, WI US"
2,13244,Memphis International,"Memphis, TN","MEMPHIS INTERNATIONAL AIRPORT, TN US"
3,15096,Syracuse Hancock International,"Syracuse, NY","SYRACUSE HANCOCK INTERNATIONAL AIRPORT, NY US"
4,10397,Atlanta Municipal,"Atlanta, GA",ATLANTA HARTSFIELD JACKSON INTERNATIONAL AIRPO...
...,...,...,...,...
92,13198,Kansas City International,"Kansas City, MO","KANSAS CITY INTERNATIONAL AIRPORT, MO US"
93,10423,Austin - Bergstrom International,"Austin, TX","AUSTIN BERGSTROM INTERNATIONAL AIRPORT, TX US"
94,15370,Tulsa International,"Tulsa, OK","OKLAHOMA CITY WILL ROGERS WORLD AIRPORT, OK US"
95,13303,Miami International,"Miami, FL","MIAMI INTERNATIONAL AIRPORT, FL US"


 ## Sprawdzenie
 Uruchom kod poniżej, aby sprawdzić czy ta część została poprawnie wykonana

In [8]:
airport_df_expected_shape = (97, 4)
assert airport_df_expected_shape == airport_df.shape

 Tutaj zapisz ramkę `airport_df` do pliku `airport_list.csv`

In [9]:
# Zapisz ramkę danych do pliku CSV
airport_df.to_csv('C:/Users/User/OneDrive - AEI/Pulpit/Pliki_do_Portfolio_Lab/data/raw/airport_list.csv', index=False)

 # Pobieranie `Weather`
 Zapoznaj się z dokumentacją endpotu `Weather`, następnie pobierz dane dotyczące zarejestrowanej pogody na poszczególnych lotniskach. Wyniki zapisz do ramki `weather_df`, a później do pliku `airport_weather.csv`.

 Wskazówki:
 - Ze względu na wolumen danych, które tutaj się pobiorą, odradzamy zapisywanie danych bezpośrednio do ramki. Rekomendujemy podejście podobne do tego z warsztatu na kursie `Python - analiza danych` - `Dzień 10 - Warsztat > Warsztat > Scrapowanie danych`, czyli stworzenie listy, a następnie przekonwertowanie jej w postać ramki.
 - Data początkowa danych to `2019-01-01`, zaś data końcowa to `2020-03-31`, czyli 15 miesięcy,
 - Ze względu na czas, jaki ten krok będzie się wykonywał, warto dodać w pętli instrukcję (lub kilka) `print`, aby monitorować przebieg wykonywania tego kroku.
 - Przy dodawaniu miesięcy do daty może przydać się metoda [relativedelta](https://www.geeksforgeeks.org/python-get-month-from-year-and-weekday/).

In [32]:
endpoint = "/airportWeather"
# Ustawienie dat początkowej i końcowej
start_date = datetime(2019, 1, 1)
end_date = datetime(2020, 3, 31)
# Lista, która będzie przechowywać dane
weather_data = []
current_date = start_date
# Pętla przez okres czasu
while current_date <= end_date:
    # Formatowanie daty
    formatted_date = current_date.strftime("%Y-%m-%d")
    # Tworzenie URL-a z odpowiednią datą
    url = f"{API_URL}{endpoint}?date={formatted_date}"
    # Wykonanie zapytania HTTP
    response = requests.get(url, headers={'authorization': API_KEY})
    # Sprawdzenie poprawności odpowiedzi
    if response.status_code == 200:
        data = response.json()
        weather_data.extend(data)
        print(f"Pobrano dane dla {formatted_date}")
    else:
        print(f"Błąd pobierania danych dla {formatted_date}")
    # Przejście do kolejnego miesiąca
    current_date += relativedelta(months=1)
    sleep(0.5)

# Przekształcenie słownika w ramkę danych
weather_df = pd.DataFrame.from_records(weather_data)

# Wyświetlenie ramki danych
weather_df

Pobrano dane dla 2019-01-01
Pobrano dane dla 2019-02-01
Pobrano dane dla 2019-03-01
Pobrano dane dla 2019-04-01
Pobrano dane dla 2019-05-01
Pobrano dane dla 2019-06-01
Pobrano dane dla 2019-07-01
Pobrano dane dla 2019-08-01
Pobrano dane dla 2019-09-01
Pobrano dane dla 2019-10-01
Pobrano dane dla 2019-11-01
Pobrano dane dla 2019-12-01
Pobrano dane dla 2020-01-01
Pobrano dane dla 2020-02-01
Pobrano dane dla 2020-03-01


Unnamed: 0,WT18,STATION,NAME,DATE,AWND,PRCP,SNOW,SNWD,TAVG,TMAX,...,PGTM,WT10,WESD,SN32,SX32,PSUN,TSUN,TOBS,WT07,WT11
0,,USW00013874,ATLANTA HARTSFIELD JACKSON INTERNATIONAL AIRPO...,2019-01-01,4.70,0.14,0.0,0.0,64.0,66.0,...,,,,,,,,,,
1,,USW00013874,ATLANTA HARTSFIELD JACKSON INTERNATIONAL AIRPO...,2019-01-02,4.92,0.57,0.0,0.0,56.0,59.0,...,,,,,,,,,,
2,,USW00013874,ATLANTA HARTSFIELD JACKSON INTERNATIONAL AIRPO...,2019-01-03,5.37,0.15,0.0,0.0,52.0,55.0,...,,,,,,,,,,
3,,USW00013874,ATLANTA HARTSFIELD JACKSON INTERNATIONAL AIRPO...,2019-01-04,12.08,1.44,0.0,0.0,56.0,66.0,...,,,,,,,,,,
4,,USW00013874,ATLANTA HARTSFIELD JACKSON INTERNATIONAL AIRPO...,2019-01-05,13.42,0.00,0.0,0.0,49.0,59.0,...,,,,,,,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
46221,,USW00014762,"PITTSBURGH ALLEGHENY CO AIRPORT, PA US",2020-03-27,3.58,0.21,,,,59.0,...,146.0,,,,,,,,,
46222,,USW00014762,"PITTSBURGH ALLEGHENY CO AIRPORT, PA US",2020-03-28,6.93,1.29,,,,77.0,...,1535.0,,,,,,,,,
46223,,USW00014762,"PITTSBURGH ALLEGHENY CO AIRPORT, PA US",2020-03-29,16.55,0.02,,,,78.0,...,1408.0,,,,,,,,,
46224,,USW00014762,"PITTSBURGH ALLEGHENY CO AIRPORT, PA US",2020-03-30,13.42,0.00,,,,57.0,...,817.0,,,,,,,,,


 ## Sprawdzenie
 Uruchom kod poniżej, aby sprawdzić, czy ta część została poprawnie wykonana

In [34]:
airport_weather_df_expected_shape = (46226, 33)
assert airport_weather_df_expected_shape == weather_df.shape

 ## Zapis do pliku
 Tutaj zapisz ramkę `weather_df` do pliku `airport_weather.csv` w katalogu `data/raw`

In [35]:
weather_df.to_csv('C:/Users/User/OneDrive - AEI/Pulpit/Pliki_do_Portfolio_Lab/data/raw/airport_weather.csv', index=False)

 # Pobranie `Aircraft`
 Zapoznaj się z dokumentacją endpointu `aircraft`, a następnie pobierz dane produkcyjne samolotów. Wyniki zapisz do ramki `aircraft_df`, a następnie zapisz do pliku `aircraft.csv`.


In [27]:
# Endpoint
endpoint = "/aircraft"

# Lista, która będzie przechowywać dane
aircraft_data = []

# Tworzenie URL-a
url = f"{API_URL}{endpoint}"

# Wykonanie zapytania HTTP
response = requests.get(url, headers={'authorization': API_KEY})

# Sprawdzenie poprawności odpowiedzi
if response.status_code == 200:
    data = response.json()
    # Zachowanie danych w liście
    aircraft_data.extend(data)
    print("Dane zostały pobrane i zapisane w liście.")
else:
    print("Błąd podczas pobierania danych")
sleep(0.01)

# Przekształcenie listy w ramkę danych
aircraft_df = pd.DataFrame.from_dict(aircraft_data)

# Wyświetlenie ramki danych
aircraft_df

Dane zostały pobrane i zapisane w liście.


Unnamed: 0,MANUFACTURE_YEAR,TAIL_NUM,NUMBER_OF_SEATS
0,1944,N54514,0.0
1,1945,N1651M,0.0
2,1953,N100CE,0.0
3,1953,N141FL,0.0
4,1953,N151FL,0.0
...,...,...,...
7378,2019,N14011,337.0
7379,2019,N16008,337.0
7380,2019,N16009,337.0
7381,2019,N2250U,276.0


 ## Sprawdzenie
 Uruchom kod poniżej, aby sprawdzić, czy ta część została poprawnie wykonana

In [28]:
aircraft_df_expected_shape = (7383, 3)
assert aircraft_df_expected_shape == aircraft_df.shape

 ## Zapis do pliku
 Tutaj zapisz ramkę `aircraft_df` do pliku `aircraft.csv` w katalogu `data/raw`

In [29]:
aircraft_df.to_csv('C:/Users/User/OneDrive - AEI/Pulpit/Pliki_do_Portfolio_Lab/data/raw/aircraft.csv', index=False)

 # Pobranie `Flight`
 Zapoznaj się z dokumentacją endpointu `flights`, następnie pobierz dane dotyczące ruchu lotniczego. Wyniki zapisz do ramki `flight_df`, a później do pliku `flight.csv`.

 Wskazówki:
 - Zwróć szczególną uwagę na konstrukcję endpointa,
 - Ze względu na wolumen danych, które tutaj się pobiorą, odradzamy zapisywanie danych bezpośrednio do ramki. Rekomendujemy podejście podobne do tego, z warsztatu na kursie `Python - analiza danych` - `Dzień 10 - Warsztat > Warsztat > Scrapowanie danych`,
 - Data początkowa danych to `2019-01-01`, zaś końcowa to `2020-03-31`, czyli 456 dni,
 - Ze względu na czas, jaki ten krok będzie się wykonywał, warto dodać w pętli instrukcję (lub kilka) `print`, aby monitorować przebieg wykonywania tego kroku,
 - W przypadku, gdy nie ma dostępnych danych dla danego lotniska, API zwraca kod [204](https://developer.mozilla.org/en-US/docs/Web/HTTP/Status/204), w ten sposób możesz pominąć lotniska, dla których dane nie są dostępne,
 - Pobranie całości danych zajmuje dłuższą chwilę, zanim włączysz pętle dla wszystkich danych, sprawdź pobieranie danych dla jednego, dwóch lotnisk aby uniknąć frustracji.

In [None]:
# Otwarcie pliku csv z apirpots_id
file_folder= "C:/Users/User/OneDrive - AEI/Pulpit/Pliki_do_Portfolio_Lab/data/airports.csv"  #ścieżka do pliku
df_airports_id = pd.read_csv(file_folder)

# Zamień DataFrame na listę
origin_airport_ids = df_airports_id['origin_airport_id'].tolist()

endpoint_ft = '/flight'

# Lista do przechowywania danych o pogodzie na lotniskach
flight_data_list = []

# Data początkowa i końcowa
start_date = datetime(2019, 1, 1)

current_date = start_date
# Pobranie danych dla każdego lotniska
for airport_id in origin_airport_ids:
    # Pętla przez okres czasu
    current_date = start_date
    for i in range(15):
        # Formatowanie daty
        formatted_date = current_date.strftime("%Y-%m")
        # Tworzenie URL-a
        url = f"{API_URL}{endpoint_ft}?date={formatted_date}&airportId={airport_id}"
        # Wykonanie zapytania HTTP
        response = requests.get(url, headers={'authorization': API_KEY})
        # Sprawdzenie poprawności odpowiedzi
        if response.status_code == 200:
            data = response.json()
            if data:  # Sprawdzenie, czy dane istnieją
                flight_data_list.extend(data)
                print(f"Data downloaded for airport {airport_id} on {formatted_date}")
            else:
                print(f"No data available for the airport {airport_id} on {formatted_date}")
        elif response.status_code == 204:
            print(f"No data available for the airport {airport_id} on {formatted_date}")
            break
    # Przejście do kolejnej daty
        current_date += relativedelta(months=1)

# Przekształcenie słownika w ramkę danych
flight_df = pd.DataFrame.from_records(flight_data_list)

# Wyświetlenie ramki danych
flight_df

In [21]:
flight_df

Unnamed: 0,MONTH,DAY_OF_MONTH,DAY_OF_WEEK,OP_UNIQUE_CARRIER,TAIL_NUM,OP_CARRIER_FL_NUM,ORIGIN_AIRPORT_ID,DEST_AIRPORT_ID,CRS_DEP_TIME,DEP_TIME,...,CRS_ELAPSED_TIME,ACTUAL_ELAPSED_TIME,DISTANCE,DISTANCE_GROUP,YEAR,CARRIER_DELAY,WEATHER_DELAY,NAS_DELAY,SECURITY_DELAY,LATE_AIRCRAFT_DELAY
0,1,20,7,WN,N204WN,682,10397,11292,605,602.0,...,205,204.0,1199,5,2019,,,,,
1,1,20,7,WN,N8682B,2622,10397,11292,2120,2114.0,...,210,205.0,1199,5,2019,,,,,
2,1,20,7,WN,N717SA,2939,10397,11292,1800,1807.0,...,210,220.0,1199,5,2019,4.0,0.0,10.0,0.0,3.0
3,1,20,7,WN,N709SW,3848,10397,11292,1355,1354.0,...,205,204.0,1199,5,2019,,,,,
4,1,20,7,WN,N7864B,1352,10397,11697,1125,1125.0,...,120,124.0,581,3,2019,,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1386115,3,26,4,DL,N350DN,1982,13303,12953,1956,1944.0,...,183,169.0,1096,5,2020,,,,,
1386116,3,26,4,DL,N908DE,1987,13303,10397,1120,1117.0,...,121,109.0,594,3,2020,,,,,
1386117,3,26,4,DL,,1998,13303,10397,1817,,...,125,,594,3,2020,,,,,
1386118,3,26,4,DL,N352NW,2025,13303,10397,1937,1928.0,...,123,107.0,594,3,2020,,,,,


 ## Sprawdzenie
 Uruchom kod poniżej, aby sprawdzić, czy ta część została poprawnie wykonana

In [22]:
flight_df_expected_shape = (1386120, 27)
assert flight_df_expected_shape == flight_df.shape

 ## Zapis do pliku
 Tutaj zapisz ramkę `flight_df` do pliku `flight.csv` w katalogu `data/raw`

In [23]:
flight_df.to_csv('C:/Users/User/OneDrive - AEI/Pulpit/Pliki_do_Portfolio_Lab/data/raw/flight.csv', index=False)

 # Podsumowanie
 W tym notatniku wykonaliśmy podstawowy krok w analizie danych - pozyskaliśmy je. Są gotowe do dalszej pracy, czyli możemy załadować je na bazę danych, a następnie zapoznać się z tym, jakie informacje ze sobą niosą. Kolejne notatniki będą służyły właśnie tym celom.

In [36]:
msg = "Wszystko wygląda OK :) Możesz przejść do kolejnego kroku."
print(msg)

Wszystko wygląda OK :) Możesz przejść do kolejnego kroku.
