# Etape 1 : Acquisition des données et découverte

## Les objectifs

 - Définir le contexte et le périmètre du projet. 
 - Prise en main des différentes sources de données(explorer les API fournis, les pages webs dont nous allons appliquer le webscraping (il faudra observer leur structure)).
 - Livrable attendu:  Fournir un rapport expliquant les différentes sources de données accompagné des exemples de données collectées.

## Sommaire
### I. Contexte et périmètre 
### II. Sources de données et collecte
    a. API Lufthansa (https://developer.lufthansa.com/docs)
    b. API Airlbas (https://airlabs.co/)


## I. Contexte et périmètre 

De nos jours, on est capable d’avoir des informations sur les **vols** dans le monde entier et de **traquer** la trajectoire de ces derniers en **temps réel**.
L'objectif de ce projet est de **concevoir** et d'**implémenter** un **pipeline** de données qui permet la démonstration des possibilités sus-mentionnées notamment en **récoltant**,en **stockant** et en **consommant** ces données et les rendant disponibles sur un **Dashboard** avec un moteur de recherche sous **Elasticsearch**.

Pour ce faire, nous allons nous intéresser aux différentes sources de données en passant par des API de **Lufthansa** pour récupérer des données **fixes** comme les informations sur les aéroports, pays, villes etc., et des données **variables** comme les informations sur les vols. Nous allons aussi utiliser l'API **Airlabs** afin de récupérer des données en temps réel.

L'idée finale est de se rapprocher de l'exemple suivant https://flightaware.com/live/flight/DLH1028/history/20220708/0640Z/EDDF/LFPG 

## II. Sources de données et collecte

Le but de cette section est d'explorer les différentes sources de données et d'en déduire les données que nous voulons utiliser et les moyens d'y accéder (POC à travers des exemples).


L'idée est d'utiliser l'API Lufthansa pour avoir ce genre d'informations :
https://flightaware.com/live/flight/DLH1028/history/20220708/0640Z/EDDF/LFPG

- Code IATA de départ et d'arrivée (ex : FRA - CDG)
- Nom de l'aéroport de départ et d'arrivée (ex : Francfort-sur-le-Main DE - Paris, France)
- porte de départ et terminal d'arrivée ( ex : quitte Porte A13 - arrivé à  Terminal 2B)
- le code de l'avion et nom de la compagnie (par ex : LH1028 - Lufthansa)
- Nom de l'aéroport de départ et d'arrivée (ex : Francfort - FRA / Paris-Charles-de-Gaulle - CDG) 
- Jour et heure de décollage/arrivée (ex : vendredi 08-07-2022 / vendredi 08-07-2022)
- Durée totale du trajet (ex : Durée totale du trajet de 1h 15m)
- Durée restante (si l'avion et en cours de vol) (ex : reste 30 minutes, décollé depuis 1 heure)
- Présence d'un retard ou non (ex : 08:50AM CEST(à l'heure)  ou (en retard de 20 minutes) )


Il serait également intéressant d'avoir une carte où l'on pourrait voir le déplacement de l'avion en temps réel. 

Pour ce faire, il faut récolter, en temps réel, la latitude, longitude et vitesse de l'avion. A notre connaissance, l'API Lufthansa ne possède pas ce genre de données. C'est pourquoi nous avons décidé de récolter ces données via l'API Airlabs.

    a. API Lufthansa (https://developer.lufthansa.com/docs)

Tout d'abord, il est important de noter que l'utilisation gratuite de la **Lufthansa Open API** est limitée en terme de nombre de requêtes mais s'averera suffisant dans le but de notre démonstration.

Pour pouvoir consommer l'API, il faut avoir un token. Pour obtenir ce dernier, il suffit de faire une requête au token end-point en utilisant la paire `client_key, client_secret` fournie à l'inscription.

In [1]:
import requests as r
import json 

client_key = "exzk4xtp9pr3txzssb2zqqd4"
client_secret = "PfMrRRe6AyyB4kTJWdSx"
end_point = "https://api.lufthansa.com/v1/oauth/token"
data = {'client_id': client_key, 'client_secret':client_secret , 'grant_type': 'client_credentials'}
token_request = r.post(end_point, data)

In [2]:
token = token_request.json()['access_token']
headers = {'Accept': 'application/json', 'Authorization':'Bearer ' +token}

Le header récupéré va nous permettre de faire des requêtes pour un temps limité.

In [3]:
#Contenu du header
print(headers)

{'Accept': 'application/json', 'Authorization': 'Bearer a25btrmfrt786fkxgcssy8q4'}


Nous pouvons maintenant faire des requêtes sur l'API Lufthansa afin de récolter les données (fixes et variables) susmentionnées.

Dans l'exemple suivant nous allons récupérer des informations pertinentes sur le vol en provenance de France et à destination de l'aéroport international de New York(John F. Kennedy International Airport) le 7/7/2022.

In [4]:
base_url = "https://api.lufthansa.com/"
pays_source = "FRA"
pays_destination = "JFK"
date = "2022-07-13"
city="BER"
url = base_url + "v1/operations/flightstatus/route/" + pays_source +'/'+ pays_destination+'/' + date
schedule = r.get(url, headers=headers)

In [5]:
#verification de la reussite de la requete
print(schedule.status_code)

200


In [6]:
pretty_response = json.dumps(schedule.json(), indent=4, sort_keys=True)
print(pretty_response)

{
    "FlightStatusResource": {
        "Flights": {
            "Flight": [
                {
                    "Arrival": {
                        "ActualTimeLocal": {
                            "DateTime": "2022-07-13T11:37"
                        },
                        "ActualTimeUTC": {
                            "DateTime": "2022-07-13T15:37Z"
                        },
                        "AirportCode": "JFK",
                        "ScheduledTimeLocal": {
                            "DateTime": "2022-07-13T11:10"
                        },
                        "ScheduledTimeUTC": {
                            "DateTime": "2022-07-13T15:10Z"
                        },
                        "Terminal": {
                            "Name": "4"
                        },
                        "TimeStatus": {
                            "Code": "DL",
                            "Definition": "Flight Delayed"
                        }
                    },
   

Comme vous pouvez le remarquer cette requête nous a permis d'avoir toutes les informations nécessaires sur le vol en question (codes IATA, Pays de destination etc.). Voici un descriptif complet des données obtenus: https://developer.lufthansa.com/docs/api_details/operations/Flight_Status_Response

Nous allons passer maintenant aux données fixes et notamment des informations sur un ou ou plusieurs pays.

Donnons l'exemple d'un pays spécifique l'Allemagne "de".

In [7]:
url = "https://api.lufthansa.com/v1/mds-references/countries/de"
#Pour une liste de pays :
#url = "https://api.lufthansa.com/v1/mds-references/countries"  

schedule = r.get(url, headers=headers)

pretty_response = json.dumps(schedule.json(), indent=4, sort_keys=True)
print(pretty_response)


{
    "CountryResource": {
        "Countries": {
            "Country": {
                "CountryCode": "DE",
                "Names": {
                    "Name": [
                        {
                            "$": "Deutschland",
                            "@LanguageCode": "DE"
                        },
                        {
                            "$": "\u0393\u03b5\u03c1\u03bc\u03b1\u03bd\u03af\u03b1",
                            "@LanguageCode": "EL"
                        },
                        {
                            "$": "Germany",
                            "@LanguageCode": "EN"
                        },
                        {
                            "$": "Alemania",
                            "@LanguageCode": "ES"
                        },
                        {
                            "$": "Germany",
                            "@LanguageCode": "FI"
                        },
                        {
                        

Affichons maintenant les données sur les aéroports.

In [8]:
url = "https://api.lufthansa.com/v1/mds-references/airports" 

schedule = r.get(url, headers=headers)

pretty_response = json.dumps(schedule.json(), indent=4, sort_keys=True)
print(pretty_response)

{
    "AirportResource": {
        "Airports": {
            "Airport": [
                {
                    "AirportCode": "AAA",
                    "CityCode": "AAA",
                    "CountryCode": "PF",
                    "LocationType": "Airport",
                    "Names": {
                        "Name": [
                            {
                                "$": "Anaa",
                                "@LanguageCode": "BG"
                            },
                            {
                                "$": "Anaa",
                                "@LanguageCode": "CS"
                            },
                            {
                                "$": "Anaa",
                                "@LanguageCode": "DE"
                            },
                            {
                                "$": "Anaa",
                                "@LanguageCode": "EN"
                            },
                            {
    

Nous pouvons faire de même pour les villes, airlines, aircrafts etc en ajustant nos requêtes.


    b. API Airlabs (https://airlabs.co/) 

L'API Airlabs est limitée en terme de requêtes (1000 / mois ). Ce sera une contrainte à prendre en compte.
Cette API est assez complète et fournit de nombreuses informations en temps réel sur les vols. Ce qui nous intéresse tout particulièrement sont les données de vol en temps réel afin d'avoir accès à la vitesse ainsi que la longitude et latitude. Ces données nous permettront de faire une carte où l'on pourra voir l'avion se déplacer en temps réel. 

Pour se connecter à l'API via le package requests, c'est simple, toutes les informations sont disponibles ici dans la rubrique Python : https://airlabs.co/docs/#docs_Examples

Voici un exemple de code avec l'api request à adapter en fonction des données que l'on souhaite récolter :

import requests

import json

params = {

  'api_key': 'YOUR-API-KEY',

  'params1': 'value1'

}
method = 'ping'

api_base = 'http://airlabs.co/api/v9/'

api_result = requests.get(api_base+method, params)

api_response = api_result.json()

print(json.dumps(api_response, indent=4, sort_keys=True))

Pour récolter la latitude, longitude et vitesse en temps réel, il faut accéder à ce chemin : https://airlabs.co/api/v9/flight?flight_iata=AA6&api_key=YOUR-API-KEY
Il faut donc indiquer le code iata (params1) ainsi que la clé api (api_key).

La variable method désigne le chemin. En l'occurrence se sera "flight"
api_base est la base de tous les chemin : https://airlabs.co/api/v9/

api_result permet de réunir api_base, method ainsi que params
Enfin, api_reponse permet de récolter le résultat du chemin requêté sous forme de json.

Mettons tout cela en pratique :

In [3]:
import requests
import json

params = {
  'api_key': 'fdab6336-d852-468d-8045-fb8350748f74',
  'flight_iata': 'LH1706'
}
method = 'flight'
api_base = 'http://airlabs.co/api/v9/'
api_result = requests.get(api_base+method, params)
api_response = api_result.json()

print(json.dumps(api_response, indent=4, sort_keys=True))

{
    "request": {
        "client": {
            "agent": {},
            "connection": {
                "isp_code": 5410,
                "isp_name": "Bouygues Telecom ISP"
            },
            "device": {},
            "geo": {
                "continent": "Europe",
                "country": "France",
                "country_code": "FR",
                "lat": 46,
                "lng": 2,
                "timezone": "Europe/Paris"
            },
            "ip": "2001:861:3007:a310:40a2:401:b04a:330d",
            "karma": {
                "is_blocked": false,
                "is_bot": false,
                "is_crawler": false,
                "is_friend": false,
                "is_regular": true
            }
        },
        "currency": "EUR",
        "host": "airlabs.co",
        "id": "a2r9zwxwwu0",
        "key": {
            "api_key": "fdab6336-d852-468d-8045-fb8350748f74",
            "expired": "2022-08-07T22:00:00.000Z",
            "id": 18999,
         

NB : Les informations qui nous intéressent sont la latitude, longitude et la vitesse. Ces données ne seront probablement plus présente puisque l'exemple de requête a été réalisée sur un avion qui a atterri depuis. 