##  Plan 

### I - Architecture 

### II - Implémentation 
    1. Acquisition des données
    2. API => S3 
    3. S3 => MongoDB 
    4. MongoBD => SQL 
### III - Améliorations à venir

## I - Architecture

Vu que l'objectif de ce document est de décrire l'organisation générale de notre travail et que, de fait, nous nous basons sur notre architecture pour ce faire, il était tout à fait naturel de lui accorder un chapitre. Voici donc le schéma de pipline de données dont découle notre raisonnement pour la suite du document : 

![Architecture.png](attachment:Architecture.png)

## II - Implémentation
### 1. Acquisition des données 

#### 1.1 Les sources de données
Nous avons décidé de diversifier nos sources de données pour récolter un maximum d'informations pour fournir notre base de données (quitte à en filtrer plus loin dans le pipeline) tout cela va de soi car les deux sources de données sont complémentaires.

* Lufthansa OPEN API 
    * La lufthansa OPEN API nous permet essentiellement de récupérer les données statiques et variables (dont nous verrons des exemples plus bas quand nous testerons les API correspondants).
* airlabs API 
    * L'avantage de l'API airlabs est qu'elle nous fourni des données en temps réel, nottamment sur les vols en cours.


### 1.2 Organisation du code source

* Regroupement des opérations de même type (script d'utilisation des API, script de création des BDD (SQL et NoSQL), scripts connexion et d'insertion des données dans les BDD).

* Organisation des différents scripts dans une structure de fichiers claires sur Github.

* Création d'un notebook d'explication et de démonstration des utilisations des différents scripts.

```
├── 0_consignes
│   └── Fiche Projet DST Airlines.pdf
├── 1_data_source_acquisition
│   └── Etape1.ipynb
├── 2_explication_et_demonstration_d_utilisation_des_scripts
│   └── Etape2.ipynb
├── README.md
└── src
    ├── dst_nosql
    │   ├── download_file_from_s3.py
    │   ├── mongodb.py
    │   ├── purge_temp_folder.py
    │   ├── read_file_from_s3.py
    │   └── store_json_S3.py
    ├── dst_source
    │   ├── AirlabsStatic.py
    │   ├── AirlabsVariable.py
    │   ├── DstRealTime.py
    │   ├── LufthansaStatic.py
    │   ├── LufthansaVariable.py
    │   ├── dst_utils.py
    │   └── test.py
    └── dst_sql
        ├── create_sqlbdd_and_table.py
        ├── inject_data.py
        └── sql_queries.py
```

Dans la branche `main` de notre repo `git`, au sein du répertoire `src`, qui contient comme son nom l'indique tout notre code source réparti selon 3 répertoires : 
- le répertoire `dst_nosql` va contenir le code se rapportant au stockage de données sur s3 et sur mongoDB.
- le répertoire `dst_sql` va contenir tout le code qui nous permet la création, l'injection et les requête de notre base de données relationnelle.
- le répertoire `dst_source` va quand à lui contient le code python qui implémente notre api qui permet de requêter nos deux sources de données efficacement (détaillée dans la partie suivante).

### 1.3 Récupération des données
Ici, nous allons détailler et donner des exemples d'utilisation de notre API.

In [40]:
import dst_utils
import requests
import LufthansaStatic 
import LufthansaVariable 
import AirlabsStatic
import AirlabsVariable
import DstRealTime

Pour pouvoir utiliser la lufthansa OPEN API,  il faut tout d'abord nous identifier auprès du endpoint d'authentification. Pour ce faire, nous avons implémenté une classe Authentification (dans le module dst_utils).

In [28]:
auth = dst_utils.Authentication(client_key = "bnagmhp63tmy78hfpa3v2bgw", client_secret = "MVZHkTAMqc4y4Esz2ye5")

Ceci nous permet de récupérer un header qui nous permet de requêter l'API.

In [29]:
header = auth.get_header()

Ensuite, il faut instancier la classe `RequestFactory` qui elle implémente la méthode de création de la requête à l'aide du header sus récupéré.

In [30]:
rf = lu.RequestFactory(header)

Nous pouvons maintenant instancier nos classes `LufthansaVariable` et `LufthansaStatic` dont les constructeurs prennent notre factory qui sera utiles aux differents appels au méthodes de ces classes. Les deux classes permettent respectivement de récupérer les données variables et statiques depuis la Lufthansa OPEN API.

In [31]:
lufstat = LufthansaStatic.LufthansaStatic(rf)
lufvar  = LufthansaVariable.LufthansaVariable(rf)

Exemples d'appels aux deux classes :

In [51]:
#affichage des donnees du vol en provenance de New York et a destination de France en date du 01/08/2022
lufvar.get_flight_route("JFK", "FRA",  "2022-08-01")

https://api.lufthansa.com/v1/operations/flightstatus/route/JFK/FRA/2022-08-01::200
Writing file : /Users/houda.el-mir/DST-airlines/src/dst_source/tmp_json/get_flight_route_lufJFK_FRA_2022-08-01.json


{'FlightStatusResource': {'Flights': {'Flight': [{'Departure': {'AirportCode': 'JFK',
      'ScheduledTimeLocal': {'DateTime': '2022-08-01T16:05'},
      'ScheduledTimeUTC': {'DateTime': '2022-08-01T20:05Z'},
      'ActualTimeLocal': {'DateTime': '2022-08-01T16:20'},
      'ActualTimeUTC': {'DateTime': '2022-08-01T20:20Z'},
      'TimeStatus': {'Code': 'OT', 'Definition': 'Flight On Time'},
      'Terminal': {'Name': '1', 'Gate': '005'}},
     'Arrival': {'AirportCode': 'FRA',
      'ScheduledTimeLocal': {'DateTime': '2022-08-02T05:45'},
      'ScheduledTimeUTC': {'DateTime': '2022-08-02T03:45Z'},
      'ActualTimeLocal': {'DateTime': '2022-08-02T05:26'},
      'ActualTimeUTC': {'DateTime': '2022-08-02T03:26Z'},
      'TimeStatus': {'Code': 'FE', 'Definition': 'Flight Early'},
      'Terminal': {'Name': '1', 'Gate': 'Z62'}},
     'MarketingCarrier': {'AirlineID': 'LH', 'FlightNumber': '401'},
     'OperatingCarrier': {'AirlineID': 'LH', 'FlightNumber': '401'},
     'Equipment': {'Aircr

In [None]:
#affichage des vols (plusieurs vols a la fois pour une periode) du 01 au 29 juillet 2022 
lufvar.get_flights(write_json=False,startDate="01JUL22",endDate="29JUL22",daysOfOperation="1234567", timeMode = "UTC", flightType="passenger")

Pour ce qui est de la classe LufthansaStatic, il est important de noter que les méthodes de récupération en "bulk" vont faire plusieurs requêtes (grace à une méthode privée de la classe) pour récupérer toutes les données. La lufthansa OPEN API nous oblige à faire ainsi car très limitante sur le nombre d'éléments dans la response (100 à la fois au maximum). 

In [13]:
# Recuperation des donnees de toutes les villes
import json
json.dumps(lufstat.get_cities_data_luf())


https://api.lufthansa.com/v1/mds-references/cities/?lang=EN&limit=100&offset=0::200
https://api.lufthansa.com/v1/mds-references/cities/?lang=EN&limit=100&offset=100::200
https://api.lufthansa.com/v1/mds-references/cities/?lang=EN&limit=100&offset=200::200
https://api.lufthansa.com/v1/mds-references/cities/?lang=EN&limit=100&offset=300::200
https://api.lufthansa.com/v1/mds-references/cities/?lang=EN&limit=100&offset=400::200
https://api.lufthansa.com/v1/mds-references/cities/?lang=EN&limit=100&offset=500::200
https://api.lufthansa.com/v1/mds-references/cities/?lang=EN&limit=100&offset=600::200
https://api.lufthansa.com/v1/mds-references/cities/?lang=EN&limit=100&offset=700::200
https://api.lufthansa.com/v1/mds-references/cities/?lang=EN&limit=100&offset=800::200
https://api.lufthansa.com/v1/mds-references/cities/?lang=EN&limit=100&offset=900::200
https://api.lufthansa.com/v1/mds-references/cities/?lang=EN&limit=100&offset=1000::200
https://api.lufthansa.com/v1/mds-references/cities/?lan

'{"CityResource":{"Cities":{"City":[{"CityCode":"AAA","CountryCode":"PF","Names":{"Name":{"@LanguageCode":"EN","$":"Anaa"}},"UtcOffset":"-10:00","TimeZoneId":"Pacific/Tahiti","Airports":{"AirportCode":"AAA"}},{"CityCode":"AAB","CountryCode":"AU","Names":{"Name":{"@LanguageCode":"EN","$":"Arrabury"}},"UtcOffset":"+10:00","TimeZoneId":"Australia/Brisbane","Airports":{"AirportCode":"AAB"}},{"CityCode":"AAC","CountryCode":"EG","Names":{"Name":{"@LanguageCode":"EN","$":"El Arish"}},"UtcOffset":"+02:00","TimeZoneId":"Africa/Cairo","Airports":{"AirportCode":"AAC"}},{"CityCode":"AAD","CountryCode":"SO","Names":{"Name":{"@LanguageCode":"EN","$":"Adado"}},"UtcOffset":"+03:00","TimeZoneId":"Africa/Mogadishu","Airports":{"AirportCode":"AAD"}},{"CityCode":"AAE","CountryCode":"DZ","Names":{"Name":{"@LanguageCode":"EN","$":"Annaba"}},"UtcOffset":"+01:00","TimeZoneId":"Africa/Algiers","Airports":{"AirportCode":"AAE"}},{"CityCode":"AAF","CountryCode":"US","Names":{"Name":{"@LanguageCode":"EN","$":"Apal

In [37]:
# Recuperation des donnees de tous les pays
lufstat.get_countries_data_luf()

https://api.lufthansa.com/v1/mds-references/countries/?lang=EN&limit=100&offset=0::200
https://api.lufthansa.com/v1/mds-references/countries/?lang=EN&limit=100&offset=100::200
https://api.lufthansa.com/v1/mds-references/countries/?lang=EN&limit=100&offset=200::200


'{"CountryResource":{"Countries":{"Country":[{"CountryCode":"AD","Names":{"Name":{"@LanguageCode":"EN","$":"Andorra"}}},{"CountryCode":"AE","Names":{"Name":{"@LanguageCode":"EN","$":"United Arab Emirates"}}},{"CountryCode":"AF","Names":{"Name":{"@LanguageCode":"EN","$":"Afghanistan"}}},{"CountryCode":"AG","Names":{"Name":{"@LanguageCode":"EN","$":"Antigua And Barbuda, Leeward Islands"}}},{"CountryCode":"AI","Names":{"Name":{"@LanguageCode":"EN","$":"Anguilla, Leeward Islands"}}},{"CountryCode":"AL","Names":{"Name":{"@LanguageCode":"EN","$":"Albania"}}},{"CountryCode":"AM","Names":{"Name":{"@LanguageCode":"EN","$":"Armenia"}}},{"CountryCode":"AO","Names":{"Name":{"@LanguageCode":"EN","$":"Angola"}}},{"CountryCode":"AQ","Names":{"Name":{"@LanguageCode":"EN","$":"Antarctica"}}},{"CountryCode":"AR","Names":{"Name":{"@LanguageCode":"EN","$":"Argentina"}}},{"CountryCode":"AS","Names":{"Name":{"@LanguageCode":"EN","$":"American Samoa"}}},{"CountryCode":"AT","Names":{"Name":{"@LanguageCode":"E

Testons maintenant les classes `DstRealTime`, `AirlabsStatic` et `AirlabsVariables` pour récupérer les données de notre seconde source.

In [41]:
#Pour avoir acces au endpoint airlabs c'est moins complique, il suffit d'utiliser une api_key
api_key = "12de9152-83be-44ae-a711-958190764930"

rltime = DstRealTime.DstRealTime(api_key)
airstat = AirlabsStatic.AirlabsStatic(api_key)
airvar = AirlabsVariable.AirlabsVariable(api_key)

Quelques exemples d'utilisation :

In [42]:
# Affichage des donnees de tous les vols Lufthansa en temps reel
rltime.get_flights_by_airline_iata('LH')

{'request': {'lang': 'en',
  'currency': 'EUR',
  'time': 3,
  'id': 'b20a656cw3c',
  'server': 'z',
  'host': 'airlabs.co',
  'pid': 3514195,
  'key': {'id': 19373,
   'api_key': '12de9152-83be-44ae-a711-958190764930',
   'type': 'free',
   'expired': '2022-09-03T22:00:00.000Z',
   'registered': '2022-08-02T17:28:08.000Z',
   'limits_by_hour': 2500,
   'limits_by_minute': 250,
   'limits_by_month': 1000,
   'limits_total': 870},
  'params': {'airline_iata': 'LH', 'lang': 'en'},
  'version': 9,
  'method': 'flights',
  'client': {'ip': '213.245.54.192',
   'geo': {'country_code': 'FR',
    'country': 'France',
    'continent': 'Europe',
    'city': 'Torcy',
    'lat': 48.85,
    'lng': 2.65,
    'timezone': 'Europe/Paris'},
   'connection': {'type': 'cable/dsl',
    'isp_code': 21502,
    'isp_name': 'NUMERICABLE is a cable network operator in France, offering TV,VOICE and Internet services'},
   'device': {},
   'agent': {},
   'karma': {'is_blocked': False,
    'is_crawler': False,
 

In [43]:
# affichage des delays de tous les vols concernés par un retard
rltime.get_delays('40', 'departures', 'LH', False)

{'request': {'lang': 'en',
  'currency': 'EUR',
  'time': 8,
  'id': 'csxcjm9gn2o',
  'server': 'z',
  'host': 'airlabs.co',
  'pid': 3514195,
  'key': {'id': 19373,
   'api_key': '12de9152-83be-44ae-a711-958190764930',
   'type': 'free',
   'expired': '2022-09-03T22:00:00.000Z',
   'registered': '2022-08-02T17:28:08.000Z',
   'limits_by_hour': 2500,
   'limits_by_minute': 250,
   'limits_by_month': 1000,
   'limits_total': 869},
  'params': {'delay': '40',
   'type': 'departures',
   'airline_iata': 'LH',
   'lang': 'en'},
  'version': 9,
  'method': 'delays',
  'client': {'ip': '213.245.54.192',
   'geo': {'country_code': 'FR',
    'country': 'France',
    'continent': 'Europe',
    'city': 'Torcy',
    'lat': 48.85,
    'lng': 2.65,
    'timezone': 'Europe/Paris'},
   'connection': {'type': 'cable/dsl',
    'isp_code': 21502,
    'isp_name': 'NUMERICABLE is a cable network operator in France, offering TV,VOICE and Internet services'},
   'device': {},
   'agent': {},
   'karma': {'i

In [44]:
#Information sur toutes les fleets
airvar.get_fleets_airlabs('LH')

{'request': {'lang': 'en',
  'currency': 'EUR',
  'time': 18,
  'id': 'ag8wi5qyfqw',
  'server': 'z',
  'host': 'airlabs.co',
  'pid': 3514195,
  'key': {'id': 19373,
   'api_key': '12de9152-83be-44ae-a711-958190764930',
   'type': 'free',
   'expired': '2022-09-03T22:00:00.000Z',
   'registered': '2022-08-02T17:28:08.000Z',
   'limits_by_hour': 2500,
   'limits_by_minute': 250,
   'limits_by_month': 1000,
   'limits_total': 869},
  'params': {'airline_iata': 'LH', 'lang': 'en'},
  'version': 9,
  'method': 'fleets',
  'client': {'ip': '213.245.54.192',
   'geo': {'country_code': 'FR',
    'country': 'France',
    'continent': 'Europe',
    'city': 'Torcy',
    'lat': 48.85,
    'lng': 2.65,
    'timezone': 'Europe/Paris'},
   'connection': {'type': 'cable/dsl',
    'isp_code': 21502,
    'isp_name': 'NUMERICABLE is a cable network operator in France, offering TV,VOICE and Internet services'},
   'device': {},
   'agent': {},
   'karma': {'is_blocked': False,
    'is_crawler': False,
 

In [45]:
#Recuperation de tous les aeroports depuis airlabs
airstat.get_airports_airlabs()

{'request': {'lang': 'en',
  'currency': 'EUR',
  'time': 5087,
  'id': '73j3fwuu804',
  'server': 'z',
  'host': 'airlabs.co',
  'pid': 3514195,
  'key': {'id': 19373,
   'api_key': '12de9152-83be-44ae-a711-958190764930',
   'type': 'free',
   'expired': '2022-09-03T22:00:00.000Z',
   'registered': '2022-08-02T17:28:08.000Z',
   'limits_by_hour': 2500,
   'limits_by_minute': 250,
   'limits_by_month': 1000,
   'limits_total': 868},
  'params': {'_fields': 'name,iata_code,icao_code,lat,lng,alt,city,city_code,un_locode,timezone,country_code',
   'lang': 'en'},
  'version': 9,
  'method': 'airports',
  'client': {'ip': '213.245.54.192',
   'geo': {'country_code': 'FR',
    'country': 'France',
    'continent': 'Europe',
    'city': 'Torcy',
    'lat': 48.85,
    'lng': 2.65,
    'timezone': 'Europe/Paris'},
   'connection': {'type': 'cable/dsl',
    'isp_code': 21502,
    'isp_name': 'NUMERICABLE is a cable network operator in France, offering TV,VOICE and Internet services'},
   'device

N.B : Vu que le but de l'API est de permettre, dans un premier temps, le stockage des résultats des diverses requêtes dans `S3`, il est nécessaire de pouvoir exporter des fichiers `.json` dans un répértoire temporaire. Pour ce faire, toutes les méthodes de toutes nos classes prennent un paramètre optionnel `write_json`, qui, quand il est mis à `True` va faire que la fonction génère le `json` correspondant dans ledit répértoire. 

### 2. API => S3 

In [None]:
#intérrogations de l’api airlabs et créer les fichiers json

api_flights = requests.get("https://airlabs.co/api/v9/flights?airline_iata=LH&api_key=fdab6336-d852-468d-8045-fb8350748f74")
api_flights_response = api_flights.json()

api_airports = requests.get("https://airlabs.co/api/v9/airports?api_key=fdab6336-d852-468d-8045-fb8350748f74")
api_airports_response = api_airports.json()

api_airlines = requests.get("https://airlabs.co/api/v9/airlines?api_key=fdab6336-d852-468d-8045-fb8350748f74")
api_airlines_response = api_airlines.json()

api_cities = requests.get("https://airlabs.co/api/v9/cities?api_key=fdab6336-d852-468d-8045-fb8350748f74")
api_cities_response = api_cities.json()

api_countries = requests.get("https://airlabs.co/api/v9/countries?api_key=fdab6336-d852-468d-8045-fb8350748f74")
api_countries_response = api_countries.json()

api_delays = requests.get("https://airlabs.co/api/v9/delays?delay=30&type=departures&airline_iata=LH&api_key=fdab6336-d852-468d-8045-fb8350748f74")
api_delays_response = api_delays.json()

api_fleet = requests.get("https://airlabs.co/api/v9/fleets?airline_iata=LH&api_key=fdab6336-d852-468d-8045-fb8350748f74")
api_fleet_response = api_fleet.json()



with open('flights_airlabs.json', 'w') as f:
    json.dump(api_flights_response['response'], f)
    
with open('airports_airlabs.json', 'w') as f:
    json.dump(api_airports_response['response'], f)
    
with open('airlines_airlabs.json', 'w') as f:
    json.dump(api_airlines_response['response'], f)
    
with open('cities_airlabs.json', 'w') as f:
    json.dump(api_cities_response['response'], f)
    
with open('countries_airlabs.json', 'w') as f:
    json.dump(api_countries_response['response'], f)
    
with open('delays_airlabs.json', 'w') as f:
    json.dump(api_delays_response['response'], f)
    
with open('fleet_airlabs.json', 'w') as f:
    json.dump(api_fleet_response['response'], f)

In [None]:
#Chargement des fichiers json sur S3
def upload_file_airlabs(bucket, folder, prefix, file_to_upload):
    
    s3_client = boto3.client('s3', aws_access_key_id='AKIAUBEGQUNAZW3YUCNW' , aws_secret_access_key='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')
    
    now = datetime.now()
    file_name = prefix+"_"+now.strftime("%d%m%Y_%H%M%S")+".json"
    
    key = folder+"/"+file_name
    try:
        response = s3_client.upload_file(file_to_upload, bucket, key)
    except FileNotFoundError as e:
        print(e)
        return False
    return True

### 3. S3 => MongoDB 

In [None]:
#Récupération des fichiers depuis s3

def read_latest_file(bucket, folder, file_prefix=""):
    s3_client = boto3.client('s3', aws_access_key_id='AKIAUBEGQUNAZW3YUCNW',aws_secret_access_key='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')
    response = s3_client.list_objects_v2(Bucket=bucket, Prefix=folder+file_prefix)
    objects = sorted(response['Contents'], key=lambda obj: obj['LastModified'])
    latest_object = objects[-1]['Key']
    filename = latest_object[latest_object.rfind('/') + 1:]
    FILE_TO_READ = folder+filename
    result = s3_client.get_object(Bucket=bucket, Key=FILE_TO_READ)
    text = result["Body"].read().decode()
    json_content = json.loads(text)
    return json_content

In [None]:
#Connexion à la db et et aux collections

db = client['data_airlines']
col_flights = db['airlabs_real_time_flights']
col_flights_landed = db['airlabs_flights_landed']
col_fleets = db['fleet']
col_airports = db['airports']
col_airlines = db['airlines']
col_cities = db['cities']
col_countries = db['countries']
col_delays = db['airlabs_delays']

In [None]:
#Purge des collections
col_flights.delete_many({})
col_flights_landed.delete_many({})
col_fleets.delete_many({})
col_airports.delete_many({})
col_airlines.delete_many({})
col_cities.delete_many({})
col_countries.delete_many({})
col_delays.delete_many({})

In [None]:
#Insertion des données dans les collections

col_flights.insert_many(data_flights_en_route)
col_flights_landed.insert_many(data_flights_landed)
col_fleets.insert_many(data_fleets)
col_airports.insert_many(data_airports)
col_airlines.insert_many(data_airlines)
col_cities.insert_many(data_cities)
col_countries.insert_many(data_countries)
col_delays.insert_many(data_delays2)

### 4. MongoDB => SQL

L'ocjectif de cette étape est de faire passer les données qui sont sous le format json/mongodb à une BDD sql. Pourquoi ?
- Les màj des vols fréquentes s'apparentent à des transactions. Il est plus judicieux d'utiliser SQL lorsqu'il s'agit de transactions.
- La BDD mongodb sera davantage utilisée pour faire des transform sur les documents json. 
- Pour intégrer les données sur dash, il est plus simple d'avoir nos données sous format dataframe. Les dataframes seront plus simples à créer à partir de table sql qui contiennent déjà du lien entre elles. Le dataframe sera directement utilisable sur dash après une simple conversion de la requête sql en dataframe.
- Notre objectif final sera d'afficher simplement les informations d'un vol en cours ou non. Un objcectif d'analyse des données n'est pas encore envisagé mais reste toutefois une possibilité.

In [5]:
! python create_sqlbdd_and_table.py

2022-08-05 14:35:38,117 INFO sqlalchemy.engine.Engine BEGIN (implicit)
2022-08-05 14:35:38,117 INFO sqlalchemy.engine.Engine PRAGMA main.table_info("airports")
2022-08-05 14:35:38,117 INFO sqlalchemy.engine.Engine [raw sql] ()
2022-08-05 14:35:38,117 INFO sqlalchemy.engine.Engine PRAGMA temp.table_info("airports")
2022-08-05 14:35:38,117 INFO sqlalchemy.engine.Engine [raw sql] ()
2022-08-05 14:35:38,117 INFO sqlalchemy.engine.Engine 
CREATE TABLE airports (
	iata_code VARCHAR NOT NULL, 
	country_code VARCHAR, 
	icao_code VARCHAR, 
	lat FLOAT, 
	lng FLOAT, 
	name VARCHAR, 
	PRIMARY KEY (iata_code)
)


2022-08-05 14:35:38,117 INFO sqlalchemy.engine.Engine [no key 0.00005s] ()
2022-08-05 14:35:38,118 INFO sqlalchemy.engine.Engine COMMIT
2022-08-05 14:35:38,119 INFO sqlalchemy.engine.Engine BEGIN (implicit)
2022-08-05 14:35:38,119 INFO sqlalchemy.engine.Engine PRAGMA main.table_info("airports")
2022-08-05 14:35:38,119 INFO sqlalchemy.engine.Engine [raw sql] ()
2022-08-05 14:35:38,119 INFO 

Le script create_sqlbdd_and_table.py permet de créer la base de données sql nommée "dst-airlines.db" puis de créer les différentes tables qui composeront cette BDD. A savoir :
- Une table airports (iata_code PK)
- Une table countries (code PK)
- Une table cities (city_code PK / country_code FK de la table countries)
- Une table aircraft (hex PK)
- Une table real_time_flights (flight_number PK / dep_iata FK de la table airports / arr_iata FK de la table airports)
- Une table delays_flights (id autoincrementé PK / flight_number_date FK de la table real_time_flights / dep_iata FK de la table airports / arr_iata FK de la table airports)
- Une table test (uniquement pour faire des tests)





In [6]:
! python inject_data.py

Le fichier inject_data.py permet d'automatiser l'injection les données issues de mongodb dans les tables de la BDD sql créée précédemment (fichier create_sqlbdd_and_table.py).
Les principales étapes du script inject_data.py sont les suivantes :
- Importer dans le fichier la BDD mongodb qui  sont stockées sur le cloud
- Importer les différentes collections de la BDD mongodb
- Importer la BDD sql qui a précédemment été créée et qui se nomme "dst_airlines.db"
- Automatiser l'injection de données pour chaque tables

Note : Nous avons un problème de valeur manquantes pour automatiser la création de toutes nos tables (c'est un problème que nous n'avons pas encore réussi à résoudre). Dans ce notebook, nous allons montrer uniquement l'automatisation de création d'une table "test" à partir de champs non manquants. 

In [7]:
! python sql_queries.py

[('0', 7840, 'en-route'), ('1', 2209, 'en-route'), ('2', 10675, 'en-route'), ('3', 10066, 'en-route'), ('4', 12192, 'en-route'), ('5', 10058, 'en-route'), ('6', 9753, 'en-route'), ('7', 10058, 'en-route'), ('8', 10965, 'en-route'), ('9', 7597, 'en-route'), ('10', 3680, 'en-route'), ('11', 11277, 'en-route'), ('12', 9448, 'en-route'), ('13', 11887, 'en-route'), ('14', 10972, 'en-route'), ('15', 11582, 'en-route'), ('16', 10668, 'en-route'), ('17', 10363, 'en-route'), ('18', 10363, 'en-route'), ('19', 12192, 'en-route'), ('20', 10972, 'en-route'), ('21', 10972, 'en-route'), ('22', 10668, 'en-route'), ('23', 10668, 'en-route'), ('24', 10363, 'en-route'), ('25', 10370, 'en-route'), ('26', 10363, 'en-route'), ('27', 10073, 'en-route'), ('28', 10066, 'en-route'), ('29', 9761, 'en-route'), ('30', 9753, 'en-route'), ('31', 7924, 'en-route'), ('32', 6705, 'en-route'), ('33', 5844, 'en-route'), ('34', 0, 'en-route'), ('35', 10972, 'en-route'), ('36', 10668, 'en-route'), ('37', 10363, 'en-route')

Le script sql_queries.py permet de faire des requêtes sql.
En l'occurence, la requête suivante a été effectuées :
"SELECT * FROM test;"

La table test est celle dont les données ont été injectées automatiquement depuis la BDD mongodb. Cela prouve qu'il est possible d'automatiser l'injection des données pour toutes nos tables. Il faut juste que l'on arrive à gérer les valeurs manquantes afin de créer automatiquement toutes nos tables. 

## III - Améliorations à venir

Le but de cette section est de décrire les futures modifications nécessaire pour améliorer notre code.

Problématiques liées à la récupération des données : 
* La lufthansa OPEN API, parfois ne repond pas correctement aux requêtes : zones mortes de données.
* La lufthansa OPEN API a une limitation en nombre de requête par période de temps, ce qu'il faut prendre en compte dans l'implémentation.
* Dans l'API airlabs il y'a une grande différence entre response décrites dans leur documentation et celles récupérées ; il faudra faire le tri entre le endpoints pour savoir lesquels sont réelement utilisables.
* L'API airlabs fourni des données incomplètes / données manquantes.

Amélioration du code de notre API : 

* Implémentation du fichier main.py pour organiser les taches cycliques.
* Centraliser les appels aux classes statiques dans un seul fichier pour n'avoir qu'un endroit qui fait ces requêtes là.
* Ajout des tests unitaires.



Partie mongobd => sql :
- gérer données manquantes dans les json
- ajout autimatique de la date du jour de la requête dans la table real_time_flight
- voir pour la mise à jour des champs dans la BDD sql
- uen fois qu'on aura toutes nos tables sql : tester la cohérence du lien entre nos table avec des jointures