# Etape 1 : Acquisition des données et découverte

## Les objectifs

 - Définir le contexte et le périmètre du projet. 
 - Prise en main des différentes sources de données(explorer les API fournis, les pages webs dont nous allons appliquer le webscraping (il faudra observer leur structure)).
 - Livrable attendu:  Fournir un rapport expliquant les différentes sources de données accompagné des exemples de données collectées.

## Sommaire
### I. Contexte et périmètre 
### II. Sources de données
    a. API Lufthansa (https://developer.lufthansa.com/docs)
    b. API Airlbas (https://airlabs.co/)



### III. Draft pipeline

## I. Contexte et périmètre 

De nos jours, on est capable d’avoir des informations sur les **vols** dans le monde entier et de **traquer** la trajectoire de ces derniers en **temps réel**.
L'objectif de ce projet est de **concevoir** et d'**implémenter** un **pipeline** de données qui permet la démonstration des possibilités sus-mentionnées notamment en **récoltant**,en **stockant** et en **consommant** ces données et les rendant disponibles sur un **Dashboard** avec un moteur de recherche sous **Elasticsearch**



L'idée finale est de se rapprocher de l'exemple suivant https://flightaware.com/live/flight/DLH1028/history/20220708/0640Z/EDDF/LFPG 

### to-do périmètre

## II. Sources de données et collecte

Le but de cette section est d'explorer les différentes sources de données et d'en déduire les données que nous voulons utiliser et les moyens d'y accéder (POC à travers des exemples).


L'idée est d'utiliser l'API Lufthansa pour avoir ce genre d'informations :
https://flightaware.com/live/flight/DLH1028/history/20220708/0640Z/EDDF/LFPG

- Code IATA de départ et d'arrivée (ex : FRA - CDG)
- Nom de l'aéroport de départ et d'arrivée (ex : Francfort-sur-le-Main DE - Paris, France)
- porte de départ et terminal d'arrivée ( ex : quitte Porte A13 - arrivé à  Terminal 2B)
- le code de l'avion et nom de la compagnie (par ex : LH1028 - Lufthansa)
- Nom de l'aéroport de départ et d'arrivée (ex : Francfort - FRA / Paris-Charles-de-Gaulle - CDG) 
- Jour et heure de décollage/arrivée (ex : vendredi 08-07-2022 / vendredi 08-07-2022)
- Durée totale du trajet (ex : Durée totale du trajet de 1h 15m)
- Durée restante (si l'avion et en cours de vol) (ex : reste 30 minutes, décollé depuis 1 heure)
- Présence d'un retard ou non (ex : 08:50AM CEST(à l'heure)  ou (en retard de 20 minutes) )


Il serait également intéressant d'avoir une carte où l'on pourrait voir le déplacement de l'avion en temps réel. 

Pour ce faire, il faut récolter, en temps réel, la latitude, longitude et vitesse de l'avion. A notre connaissance, l'API Lufthansa ne possède pas ce genre de données. C'est pourquoi nous avons décidé de récolter ces données via l'API airlabs.

    a. API Lufthansa (https://developer.lufthansa.com/docs)

Tout d'abord, il est important de noter que l'utilisation gratuite de la **Lufthansa Open API** est limitée en terme de nombre de requêtes mais s'averera suffisant dans le but de notre démonstration.

Pour pouvoir consommer l'API, il faut avoir un token. Pour obtenir ce dernier, il suffit de faire une requête au token end-point en utilisant la paire `client_key, client_secret` fournie à l'inscription.

In [76]:
import requests as r

client_key = "exzk4xtp9pr3txzssb2zqqd4"
client_secret = "PfMrRRe6AyyB4kTJWdSx"
end_point = "https://api.lufthansa.com/v1/oauth/token"
data = {'client_id': client_key, 'client_secret':client_secret , 'grant_type': 'client_credentials'}
token_request = r.post(end_point, data)



In [77]:
token = token_request.json()['access_token']
headers = {'Accept': 'application/json', 'Authorization':'Bearer ' +token}

Le header récupéré va nous permettre de faire des requêtes pour un temps limité.

In [78]:
#Contenu du header
print(headers)

{'Accept': 'application/json', 'Authorization': 'Bearer ywnc2p4m7wxbhxxsmgjtr7ez'}


Dans l'exemple suivant nous allons récupérer le schedule du vol en prevenance de FRA et a destination de JFK le 7/7/2022

In [79]:
base_url = "https://api.lufthansa.com/"
pays_source = "FRA"
pays_destination = "JFK"
date = "2022-07-07"
city="BER"
url = base_url + "v1/operations/flightstatus/route/" + pays_source +'/'+ pays_destination+'/' + date
schedule = r.get(url, headers=headers)

In [80]:
#verification de la reussite de la requete
print(schedule.status_code)

200


In [81]:
schedule.json()

{'FlightStatusResource': {'Flights': {'Flight': [{'Departure': {'AirportCode': 'FRA',
      'ScheduledTimeLocal': {'DateTime': '2022-07-07T08:35'},
      'ScheduledTimeUTC': {'DateTime': '2022-07-07T06:35Z'},
      'ActualTimeLocal': {'DateTime': '2022-07-07T09:08'},
      'ActualTimeUTC': {'DateTime': '2022-07-07T07:08Z'},
      'TimeStatus': {'Code': 'DL', 'Definition': 'Flight Delayed'},
      'Terminal': {'Name': '1', 'Gate': 'B46'}},
     'Arrival': {'AirportCode': 'JFK',
      'ScheduledTimeLocal': {'DateTime': '2022-07-07T11:10'},
      'ScheduledTimeUTC': {'DateTime': '2022-07-07T15:10Z'},
      'ActualTimeLocal': {'DateTime': '2022-07-07T11:37'},
      'ActualTimeUTC': {'DateTime': '2022-07-07T15:37Z'},
      'TimeStatus': {'Code': 'DL', 'Definition': 'Flight Delayed'},
      'Terminal': {'Name': '4'}},
     'MarketingCarrier': {'AirlineID': 'SQ', 'FlightNumber': '026'},
     'OperatingCarrier': {'AirlineID': 'SQ', 'FlightNumber': '026'},
     'Equipment': {'AircraftCode': '38


    b. API Airlabs (https://airlabs.co/) 

L'api Airlabs est limitée en terme de requêtes (1000 / mois ). Ce sera une contrainte à prendre compte.
Cette API est assez complète et fournit de nombreuses informations en temps réel sur les vols. Ce qui nous interesse tout particulièrement sont les données de vol en temps réel afin d'avoir accès à la vitesse ainsi que la longitude et latitude. Ces données nous permettront de faire une carte où l'on pourra voir l'avion se déplacer en temps réel. 

Pour se connecter à l'api via le package request, c'est simple, toutes les informations sont disponibles ici dans la rubrique Python : https://airlabs.co/docs/#docs_Examples

import requests
import json

params = {
  'api_key': 'YOUR-API-KEY',
  'params1': 'value1'
}
method = 'ping'
api_base = 'http://airlabs.co/api/v9/'
api_result = requests.get(api_base+method, params)
api_response = api_result.json()

print(json.dumps(api_response, indent=4, sort_keys=True))

Il suffit ensuite d'adapter le code. Nous souhaitons accéder à ce chemin : https://airlabs.co/api/v9/flight?flight_iata=AA6&api_key=YOUR-API-KEY
Il faut donc indiquer le code iata (params1) ainsi que la clé api (api_key).

La variable method désigne le chemin. En l'occurrence se sera "flight"
L'api base est la base de tous les chemin : https://airlabs.co/api/v9/

api_result permet de réunir api_base, method ainsi que params
Enfin, api_reponse permet de récolter le résultat du chemin requêté sous forme de json.

Mettons tout cela en pratique :

In [3]:
import requests
import json

params = {
  'api_key': 'fdab6336-d852-468d-8045-fb8350748f74',
  'flight_iata': 'LH1706'
}
method = 'flight'
api_base = 'http://airlabs.co/api/v9/'
api_result = requests.get(api_base+method, params)
api_response = api_result.json()

print(json.dumps(api_response, indent=4, sort_keys=True))

{
    "request": {
        "client": {
            "agent": {},
            "connection": {
                "isp_code": 5410,
                "isp_name": "Bouygues Telecom ISP"
            },
            "device": {},
            "geo": {
                "continent": "Europe",
                "country": "France",
                "country_code": "FR",
                "lat": 46,
                "lng": 2,
                "timezone": "Europe/Paris"
            },
            "ip": "2001:861:3007:a310:40a2:401:b04a:330d",
            "karma": {
                "is_blocked": false,
                "is_bot": false,
                "is_crawler": false,
                "is_friend": false,
                "is_regular": true
            }
        },
        "currency": "EUR",
        "host": "airlabs.co",
        "id": "a2r9zwxwwu0",
        "key": {
            "api_key": "fdab6336-d852-468d-8045-fb8350748f74",
            "expired": "2022-08-07T22:00:00.000Z",
            "id": 18999,
         

Les informations qui nous interessent sont la latitude, longitude et speed. Nous remarquons, que la donnée speed n'est pas présente puisque l'avion a atterri.
