 # Opis notatnika

 Ten notatnik inicjuje naszą pracę nad warsztatem końcowym. Naszym zadaniem tutaj jest pobranie udostępnionych nam danych do obszaru roboczego, które w następnym kroku wgramy na naszą bazę danych. Ich obróbka oraz analiza zostanie przeprowadzona w specjalnie do tego celu przygotowanych kolejnych notatnikach.

 Na potrzeby tego warsztatu został stworzony dedykowany serwis API, który dostępny jest pod adresem: https://api-datalab.coderslab.com/api/. Dodatkowo udostępniona została dokumentacja, z którą można zapoznać się tutaj: [klik](https://api-datalab.coderslab.com/docs/).

 > Dokumentacja jest czysto techniczna i ma na celu prezentację dostępnych endpointów wraz ze zwracanym typem. W celu przetestowania należy kliknąć przysisk `Authorize`, podać token (dostępny poniżej), a następnie `Try it out!` oraz uzupełnić wymagane pola (parametry requesta).

 Zgodnie z dokumentacją stwierdzamy, że udostępnione zostały nam 4 endpointy:
 - `airport` - dane o lotnisku,
 - `weather` - informacje o zarejestrowaniej pogodzie na lotnisku danego dnia,
 - `aircraft` - dane o samolotach
 - `flights` - dane o wylotach z danego lotniska per dzień.

 Wszystkie te źródła musimy pobrać, aby być w stanie wykonać całość warsztatu. W celu pobrania informacji, gdzie wymagany jest paramatr `airportId`, posłużymy się listą z pliku `airports.csv`.

 Przy wykonywaniu tego zadania możesz posłużyć się tym tokenem: `WpzDMZeeCq6tbPdsTHUX8W9mecuUVwXAnmcorefr`.

 ### Uwagi
 - Ze względów ćwiczeniowych, konstrukcja poszczególnych endpointów jest różna – w trakcie pracy dokładnie przyjrzyj się, w jaki sposób należy wykonać zapytanie, aby otrzymać odpowiedź.
 - Pamiętaj o dodaniu `sleep` pomiędzy poszczególnymi wywołaniami endpoint.
 - Limit wywołań API to 500/min, zadbaj o nieprzekroczenie tego limitu – w przeciwnym wypadku będzie zwracany błąd 429.

 # Konfiguracja notatnika

 Tutaj zaimportuj wymagane biblioteki

In [1]:
import requests
import pandas as pd
import numpy as np
import json
import datetime
from dateutil.relativedelta import relativedelta

 Tutaj zdefiniuj parametry połączenia do API

In [2]:
# headers={'Authorization': 'WpzDMZeeCq6tbPdsTHUX8W9mecuUVwXAnmcorefr'}
base_api_url = 'https://api-datalab.coderslab.com/api/'
token = 'WpzDMZeeCq6tbPdsTHUX8W9mecuUVwXAnmcorefr'

Tutaj wczytaj plik `airports.csv` i dostosuj do dalszych kroków w celu pobierania z kolejnych endpointów. Lista lotnisk jest dostępna w kolumnie `origin_airport_id`.

In [4]:
df = pd.read_csv('airports.csv')
df.head(10)

Unnamed: 0,origin_airport_id
0,10874
1,11233
2,13360
3,15008
4,11638
5,14150
6,15323
7,14814
8,12007
9,11337


In [5]:
df.shape

(364, 1)

In [6]:
#check if there are empty values in Dataframe
df['origin_airport_id'].isnull().sum()

0

 # Pobieranie `Airport`
 Zapoznaj się z dokumentacją endpointu `airport`, a następnie pobierz dane dot. poszczególnych lotnisk. Wyniki tego kroku zapisz do ramki `airport_df`, a następnie zapisz do pliku `csv`.

 ### Wskazówki
 - Nie wszystkie lotniska dostępne w pliku `airports.csv`, są dostępne w endpoint. Zadbaj o odpowiednie obsłużenie takiej sytuacji,
 - Do skonwertowania wyników przydatna może okazać się metoda `Pandas` - [from_records](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.from_records.html),
 - Artykuł LMS: `Python - analiza danych > Dzień 4 - API > Uwierzytelnianie`
 - Artykuł LMS: `Python - analiza danych > Przygotowanie do zjazdu 2`

 Tutaj pobierz dane z endpoint'u `airport`

In [7]:
airports_data = []
airports_ids = df['origin_airport_id'].tolist()

for airport_id in airports_ids: 
    r = requests.get(f'{base_api_url}airport/{airport_id}', headers={'Authorization': token})
    data = r.json()

    if 'error' not in data.keys():
        airports_data.append(data)

airports_data

[{'ORIGIN_AIRPORT_ID': 11638,
  'DISPLAY_AIRPORT_NAME': 'Fresno Air Terminal',
  'ORIGIN_CITY_NAME': 'Fresno, CA',
  'NAME': 'FRESNO YOSEMITE INTERNATIONAL, CA US'},
 {'ORIGIN_AIRPORT_ID': 13342,
  'DISPLAY_AIRPORT_NAME': 'General Mitchell Field',
  'ORIGIN_CITY_NAME': 'Milwaukee, WI',
  'NAME': 'MILWAUKEE MITCHELL AIRPORT, WI US'},
 {'ORIGIN_AIRPORT_ID': 13244,
  'DISPLAY_AIRPORT_NAME': 'Memphis International',
  'ORIGIN_CITY_NAME': 'Memphis, TN',
  'NAME': 'MEMPHIS INTERNATIONAL AIRPORT, TN US'},
 {'ORIGIN_AIRPORT_ID': 15096,
  'DISPLAY_AIRPORT_NAME': 'Syracuse Hancock International',
  'ORIGIN_CITY_NAME': 'Syracuse, NY',
  'NAME': 'SYRACUSE HANCOCK INTERNATIONAL AIRPORT, NY US'},
 {'ORIGIN_AIRPORT_ID': 10397,
  'DISPLAY_AIRPORT_NAME': 'Atlanta Municipal',
  'ORIGIN_CITY_NAME': 'Atlanta, GA',
  'NAME': 'ATLANTA HARTSFIELD JACKSON INTERNATIONAL AIRPORT, GA US'},
 {'ORIGIN_AIRPORT_ID': 10529,
  'DISPLAY_AIRPORT_NAME': 'Bradley International',
  'ORIGIN_CITY_NAME': 'Hartford, CT',
  'NA

In [7]:
airport_df = pd.DataFrame.from_records(airports_data)
airport_df.head(5)

Unnamed: 0,ORIGIN_AIRPORT_ID,DISPLAY_AIRPORT_NAME,ORIGIN_CITY_NAME,NAME
0,11638,Fresno Air Terminal,"Fresno, CA","FRESNO YOSEMITE INTERNATIONAL, CA US"
1,13342,General Mitchell Field,"Milwaukee, WI","MILWAUKEE MITCHELL AIRPORT, WI US"
2,13244,Memphis International,"Memphis, TN","MEMPHIS INTERNATIONAL AIRPORT, TN US"
3,15096,Syracuse Hancock International,"Syracuse, NY","SYRACUSE HANCOCK INTERNATIONAL AIRPORT, NY US"
4,10397,Atlanta Municipal,"Atlanta, GA",ATLANTA HARTSFIELD JACKSON INTERNATIONAL AIRPO...


In [8]:
airport_df.isnull().sum()

ORIGIN_AIRPORT_ID       0
DISPLAY_AIRPORT_NAME    0
ORIGIN_CITY_NAME        0
NAME                    0
dtype: int64

 ## Sprawdzenie
 Uruchom kod poniżej, aby sprawdzić, czy ta część została poprawnie wykonana.

In [9]:
airport_df_expected_shape = (97, 4)
assert airport_df_expected_shape == airport_df.shape

 Tutaj zapisz ramkę `airport_df` do pliku `airport_list.csv`.

In [10]:
airport_df.to_csv('airport_list.csv')

 # Pobieranie `Weather`
 Zapoznaj się z dokumentacją endpotu `Weather`, następnie pobierz dane dotyczące zarejestrowanej pogody na poszczególnych lotniskach. Wyniki zapisz do ramki `weather_df`, a później do pliku `airport_weather.csv`.

 Wskazówki:
 - Ze względu na wolumen danych, które tutaj się pobiorą, odradzamy zapisywanie danych bezpośrednio do ramki. Rekomendujemy podejście podobne do tego z warsztatu na kursie `Python - analiza danych` - `Dzień 10 - Warsztat > Warsztat > Scrapowanie danych`, czyli stworzenie listy, a następnie przekonwertowanie jej w postać ramki.
 - Data początkowa danych to `2019-01-01`, zaś data końcowa to `2020-03-31`, czyli 15 miesięcy,
 - Ze względu na czas, jaki ten krok będzie się wykonywał, warto dodać w pętli instrukcję (lub kilka) `print`, aby monitorować przebieg wykonywania tego kroku.
 - Przy dodawaniu miesięcy do daty może przydać się metoda [relativedelta](https://www.geeksforgeeks.org/python-get-month-from-year-and-weekday/).

 ## Sprawdzenie
 Uruchom kod poniżej, aby sprawdzić, czy ta część została poprawnie wykonana.

In [11]:
def convert_date_to_string(given_date):
    return given_date.strftime('%Y-%m')

airport_weather_data = []
starting_date = datetime.datetime(2019, 1, 1)
current_date = starting_date
current_date_str = convert_date_to_string(current_date)

while current_date_str != '2020-04':
    r = requests.get(f'{base_api_url}airportWeather?date={current_date_str}', headers={'Authorization': token})
    retrieved_data = r.json()
    airport_weather_data = airport_weather_data + retrieved_data
    current_date = current_date + relativedelta(months=+1)
    current_date_str = convert_date_to_string(current_date)

In [12]:
airport_weather_df = pd.DataFrame.from_records(airport_weather_data)
airport_weather_df.head(5)

Unnamed: 0,WT18,STATION,NAME,DATE,AWND,PRCP,SNOW,SNWD,TAVG,TMAX,...,PGTM,WT10,WESD,SN32,SX32,PSUN,TSUN,TOBS,WT07,WT11
0,,USW00013874,ATLANTA HARTSFIELD JACKSON INTERNATIONAL AIRPO...,2019-01-01,4.7,0.14,0.0,0.0,64.0,66.0,...,,,,,,,,,,
1,,USW00013874,ATLANTA HARTSFIELD JACKSON INTERNATIONAL AIRPO...,2019-01-02,4.92,0.57,0.0,0.0,56.0,59.0,...,,,,,,,,,,
2,,USW00013874,ATLANTA HARTSFIELD JACKSON INTERNATIONAL AIRPO...,2019-01-03,5.37,0.15,0.0,0.0,52.0,55.0,...,,,,,,,,,,
3,,USW00013874,ATLANTA HARTSFIELD JACKSON INTERNATIONAL AIRPO...,2019-01-04,12.08,1.44,0.0,0.0,56.0,66.0,...,,,,,,,,,,
4,,USW00013874,ATLANTA HARTSFIELD JACKSON INTERNATIONAL AIRPO...,2019-01-05,13.42,0.0,0.0,0.0,49.0,59.0,...,,,,,,,,,,


In [13]:
airport_weather_df.shape 

(46226, 33)

In [14]:
airport_weather_df_expected_shape = (46226, 33)
assert airport_weather_df_expected_shape == airport_weather_df.shape

 ## Zapis do pliku
 Tutaj zapisz ramkę `weather_df` do pliku `airport_weather.csv` w katalogu `data/raw`.

In [16]:
airport_weather_df.to_csv('data/raw/airport_weather.csv')

 # Pobranie `Aircraft`
 Zapoznaj się z dokumentacją endpointu `aircraft` a następnie pobierz dane produkcyjne samolotów. Wyniki zapisz do ramki `aircraft_df`, a następnie zapisz do pliku `aircraft.csv`.


In [18]:
r = requests.get(f'{base_api_url}aircraft', headers={'Authorization': token})
retrieved_data= r.json()
aircraft_df = pd.DataFrame.from_dict(retrieved_data)
aircraft_df

Unnamed: 0,MANUFACTURE_YEAR,TAIL_NUM,NUMBER_OF_SEATS
0,1944,N54514,0.0
1,1945,N1651M,0.0
2,1953,N100CE,0.0
3,1953,N141FL,0.0
4,1953,N151FL,0.0
...,...,...,...
7378,2019,N14011,337.0
7379,2019,N16008,337.0
7380,2019,N16009,337.0
7381,2019,N2250U,276.0


In [19]:
aircraft_df.shape

(7383, 3)

 ## Sprawdzenie
 Uruchom kod poniżej, aby sprawdzić, czy ta część została poprawnie wykonana.

In [20]:
aircraft_df_expected_shape = (7383, 3)
assert aircraft_df_expected_shape == aircraft_df.shape

 ## Zapis do pliku
 Tutaj zapisz ramkę `aircraft_df` do pliku `aircraft.csv` w katalogu `data/raw`.

In [21]:
aircraft_df.to_csv('data/raw/aircraft.csv')

 # Pobranie `Flight`
 Zapoznaj się z dokumentacją endpointu `flights`, następnie pobierz dane dotyczące ruchu lotniczego. Wyniki zapisz do ramki `flight_df`, a później do pliku `flight.csv`.

 Wskazówki:
 - Zwróć szczególną uwagę na konstrukcję endpointa,
 - Ze względu na wolumen danych, które tutaj się pobiorą, odradzamy zapisywanie danych bezpośrednio do ramki. Rekomendujemy podejście podobne do tego, z warsztatu na kursie `Python - analiza danych` - `Dzień 10 - Warsztat > Warsztat > Scrapowanie danych`,
 - Data początkowa danych to `2019-01-01`, zaś końcowa to `2020-03-31`, czyli 456 dni,
 - Ze względu na czas, jaki ten krok będzie się wykonywał, warto dodać w pętli instrukcję (lub kilka) `print`, aby monitorować przebieg wykonywania tego kroku.

In [None]:
def convert_date_to_string(given_date):
    return given_date.strftime('%Y-%m')

airport_flights_data = []

for airport_id in airport_df['ORIGIN_AIRPORT_ID']:
    starting_date = datetime.datetime(2019, 1, 1)
    current_date = starting_date
    current_date_str = convert_date_to_string(current_date)
    while current_date_str != '2020-04':
        print(airport_id, current_date_str)
        r = requests.get(f'{base_api_url}flight?airportId={airport_id}&date={current_date_str}', headers={'Authorization': token})
        retrieved_data = r.json()
        airport_flights_data = airport_flights_data + retrieved_data
        current_date = current_date + relativedelta(months=+1)
        current_date_str = convert_date_to_string(current_date)

11638 2019-01
11638 2019-02
11638 2019-03
11638 2019-04
11638 2019-05
11638 2019-06
11638 2019-07
11638 2019-08
11638 2019-09
11638 2019-10
11638 2019-11
11638 2019-12
11638 2020-01
11638 2020-02
11638 2020-03
13342 2019-01
13342 2019-02
13342 2019-03
13342 2019-04
13342 2019-05
13342 2019-06
13342 2019-07
13342 2019-08
13342 2019-09
13342 2019-10
13342 2019-11
13342 2019-12
13342 2020-01
13342 2020-02
13342 2020-03
13244 2019-01
13244 2019-02
13244 2019-03
13244 2019-04
13244 2019-05
13244 2019-06
13244 2019-07
13244 2019-08
13244 2019-09
13244 2019-10
13244 2019-11
13244 2019-12
13244 2020-01
13244 2020-02
13244 2020-03
15096 2019-01
15096 2019-02
15096 2019-03
15096 2019-04
15096 2019-05
15096 2019-06
15096 2019-07
15096 2019-08
15096 2019-09
15096 2019-10
15096 2019-11
15096 2019-12
15096 2020-01
15096 2020-02
15096 2020-03
10397 2019-01
10397 2019-02
10397 2019-03
10397 2019-04
10397 2019-05
10397 2019-06
10397 2019-07
10397 2019-08
10397 2019-09
10397 2019-10
10397 2019-11
10397 

13871 2019-02
13871 2019-03
13871 2019-04
13871 2019-05
13871 2019-06
13871 2019-07
13871 2019-08
13871 2019-09
13871 2019-10
13871 2019-11
13871 2019-12
13871 2020-01
13871 2020-02
13871 2020-03
11066 2019-01
11066 2019-02
11066 2019-03
11066 2019-04
11066 2019-05
11066 2019-06
11066 2019-07
11066 2019-08
11066 2019-09
11066 2019-10
11066 2019-11
11066 2019-12
11066 2020-01
11066 2020-02
11066 2020-03
13487 2019-01
13487 2019-02
13487 2019-03
13487 2019-04
13487 2019-05
13487 2019-06
13487 2019-07
13487 2019-08
13487 2019-09
13487 2019-10
13487 2019-11
13487 2019-12
13487 2020-01
13487 2020-02
13487 2020-03
10299 2019-01
10299 2019-02
10299 2019-03
10299 2019-04
10299 2019-05
10299 2019-06
10299 2019-07
10299 2019-08
10299 2019-09
10299 2019-10
10299 2019-11
10299 2019-12
10299 2020-01
10299 2020-02
10299 2020-03
12339 2019-01
12339 2019-02
12339 2019-03
12339 2019-04
12339 2019-05
12339 2019-06
12339 2019-07
12339 2019-08
12339 2019-09
12339 2019-10
12339 2019-11
12339 2019-12
12339 

14869 2019-03
14869 2019-04
14869 2019-05
14869 2019-06
14869 2019-07
14869 2019-08
14869 2019-09
14869 2019-10
14869 2019-11
14869 2019-12
14869 2020-01
14869 2020-02
14869 2020-03
14027 2019-01
14027 2019-02
14027 2019-03
14027 2019-04
14027 2019-05
14027 2019-06
14027 2019-07
14027 2019-08
14027 2019-09
14027 2019-10
14027 2019-11
14027 2019-12
14027 2020-01
14027 2020-02
14027 2020-03
13485 2019-01
13485 2019-02
13485 2019-03
13485 2019-04
13485 2019-05
13485 2019-06
13485 2019-07
13485 2019-08
13485 2019-09
13485 2019-10
13485 2019-11
13485 2019-12
13485 2020-01
13485 2020-02
13485 2020-03
14122 2019-01
14122 2019-02
14122 2019-03
14122 2019-04
14122 2019-05
14122 2019-06
14122 2019-07
14122 2019-08
14122 2019-09
14122 2019-10
14122 2019-11
14122 2019-12
14122 2020-01
14122 2020-02
14122 2020-03
12982 2019-01
12982 2019-02
12982 2019-03
12982 2019-04
12982 2019-05
12982 2019-06
12982 2019-07
12982 2019-08
12982 2019-09
12982 2019-10
12982 2019-11
12982 2019-12
12982 2020-01
12982 

In [24]:
flights_df = pd.DataFrame.from_records(airport_flights_data)
flights_df

Unnamed: 0,MONTH,DAY_OF_MONTH,DAY_OF_WEEK,OP_UNIQUE_CARRIER,TAIL_NUM,OP_CARRIER_FL_NUM,ORIGIN_AIRPORT_ID,DEST_AIRPORT_ID,CRS_DEP_TIME,DEP_TIME,...,CRS_ELAPSED_TIME,ACTUAL_ELAPSED_TIME,DISTANCE,DISTANCE_GROUP,CARRIER_DELAY,WEATHER_DELAY,NAS_DELAY,SECURITY_DELAY,LATE_AIRCRAFT_DELAY,YEAR
0,1,1,2,OO,N709SK,3096,12511,11298,600,551.0,...,97,134.0,327,2,0.0,0.0,28.0,0.0,0.0,2019
1,1,1,2,OO,N760EV,3150,12511,11298,1213,1159.0,...,96,95.0,327,2,,,,,,2019
2,1,2,3,OO,N751EV,3096,12511,11298,600,551.0,...,97,114.0,327,2,,,,,,2019
3,1,2,3,OO,N760EV,3150,12511,11298,1213,1232.0,...,96,114.0,327,2,0.0,0.0,18.0,0.0,19.0,2019
4,1,3,4,OO,N760EV,3096,12511,11298,600,551.0,...,97,94.0,327,2,,,,,,2019
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
51914,3,30,1,MQ,N240NN,3535,12511,11298,620,612.0,...,83,93.0,327,2,,,,,,2020
51915,3,30,1,MQ,N673AE,3744,12511,13930,1410,1400.0,...,106,79.0,484,2,,,,,,2020
51916,3,31,2,MQ,,3979,12511,13930,540,,...,106,,484,2,,,,,,2020
51917,3,31,2,MQ,,4160,12511,11298,1616,,...,87,,327,2,,,,,,2020


In [25]:
flights_df.shape

(51919, 27)

 ## Sprawdzenie
 Uruchom kod poniżej, aby sprawdzić, czy ta część została poprawnie wykonana.

In [None]:
print()

In [None]:
flight_df_expected_shape = (9251880, 27)
assert flight_df_expected_shape == flight_df.shape

 ## Zapis do pliku
 Tutaj zapisz ramkę `flight_df` do pliku `flight.csv` w katalogu `data/raw`.

 # Podsumowanie
 W tym notatniku wykonaliśmy podstawowy krok w analizie danych - pozyskaliśmy je. Są gotowe do dalszej pracy, czyli możemy załadować je na bazę danych, a następnie zapoznać się z tym, jakie informacje ze sobą niosą. Kolejne notatniki będą służyły właśnie tym celom.

In [None]:
msg = "Wszystko wygląda OK :) Możesz przejść do kolejnego kroku."
print(msg)