## Initialisation

In [1]:
%load_ext sql

In [2]:
%sql mysql+mysqldb://root:root@some-mysql:3306/world_x

In [3]:
%config SqlMagic.style = '_DEPRECATED_DEFAULT'

## Exploration de la base

In [4]:
%%sql 
DESCRIBE countryinfo;


Field,Type,Null,Key,Default,Extra
doc,json,YES,,,
_id,varbinary(32),NO,PRI,,STORED GENERATED
_json_schema,json,YES,,,VIRTUAL GENERATED


Quelques fonctions intéressantes :

*   `JSON_KEYS(doc)` retourne les propriétés (de premier niveau) de `doc`.
*   `JSON_KEYS(doc, path)` retourne les propriétés (de premier niveau) du composant de `doc` au bout du chemin `path`.
*   `JSON_EXTRACT(doc, path)` extrait le composant de `doc` au bout du chemin `path`.
*   `JSON_PRETTY(doc)` retourne une chaîne de caractères permettant un affichage agréable de `doc`.
*   `JSON_UNQUOTE(doc)` retourne `doc` sous la forme d'une chaîne de caractères sans guillemets.

Quel est le type de l'attribut `doc` ? 

In [5]:
%%sql 
DESCRIBE countryinfo;

Field,Type,Null,Key,Default,Extra
doc,json,YES,,,
_id,varbinary(32),NO,PRI,,STORED GENERATED
_json_schema,json,YES,,,VIRTUAL GENERATED


Quelles sont ses propriétés ? 

In [6]:
%%sql

UsageError: %%sql is a cell magic, but the cell body is empty. Did you mean the line magic %sql (single %)?


Quelles sont les propriétés d'une `geography` ? 

In [None]:
%%sql

Afficher toutes les régions distinctes

In [None]:
%%sql

Combien y a-t-il de régions ? 

In [None]:
%%sql

## De SQL à JSON

Ecrire, à partir des relations `city` et `country` une requête qui retourne cinq villes et leur pays (sous la forme de simples chaînes de caractères).

Le résultat est une table (un multi-ensemble de tuples).

In [None]:
%%sql

Réécrire la requête afin de retourner des documents JSON.

Quelques fonctions intéressantes :

*   `JSON_OBJECT(key, val[, key, val] ...])` retourne un objet JSON défini par les paires `key: val` fournies en paramètre (la notation avec des crochets et les points de suspension indique que les deux paramètres peuvent être répétés).
*   `JSON_ARRAY(val [, val] ...)` retourne un tableau JSON selon le même principe.

In [None]:
%%sql

## De JSON à SQL (optionnel)

Ecrire une requête qui retourne une table donnant la superficie de chacune des régions répertoriées dans la relation `countryinfo`, classée par superficie croissante.

Une fonction intéressante : 

* `JSON_TABLE(doc, path COLUMNS (name type PATH path[, name type PATH path] ...)) [AS] alias` retourne à partir du composant de `doc` au bout du chemin `path` une table nommée `alias` dont les colonnes sont spécifiées à l'aide des paramètres de `COLUMNS` (le chemin `path` des colonnes complète le chemin initial).

Conseil:

*   faire un produit de `countryinfo` et `JSON_TABLE(doc...)` pour obtenir le document associé à chaque tuple de `countryinfo` ;
*   commencer par simplement construire une table reprenant les régions et les superficies de chaque tuple/pays.

In [None]:
%%sql

In [None]:
%%sql

## MongoDB

En premier, exécutez le tutoriel présent à cette adresse : https://www.mongodb.com/docs/manual/tutorial/getting-started/.
Ceci vous permettra d'avoir une vue sur les principales commandes de MongoDB :
- find()
- delete()
- insertMany()

Des liens utiles pour la suite :
- https://www.mongodb.com/docs/manual/crud/
- https://pymongo.readthedocs.io/en/stable/api/pymongo/collection.html
- https://www.mongodb.com/docs/manual/reference/sql-comparison/ 

### Insérer World X dans MongoDB

Vous allez copier le contenu de la table `countryinfo` (champ `doc` bien sûr) dans MongoDB à l'aide de la bibliothèque [pymongo](https://pymongo.readthedocs.io/en/stable/).
Lisez le tutoriel [Pymongo](https://pymongo.readthedocs.io/en/stable/tutorial.html) pour avoir une idée générale du fonctionnement.

Conseils:

* utilisez les DataFrame de Pandas
* utilisez `json.loads` et `to_numpy()` ("Convert the DataFrame to a NumPy array") pour transformer la base en tableau de dictionnaires
* connectez-vous à la base `mongo` (regardez dans le `docker-compose.yml` comment c'est configuré) créez la base "world_x" et la collection "doc"
* utilisez `insert_many` de `pymongo`

In [22]:
from pymongo import MongoClient
import pandas as pd
import seaborn as sns
import json 

In [None]:
result = %sql SELECT doc FROM countryinfo;
print(result) # type non exploitable en l'état

In [24]:
df = pd.DataFrame(result) # on passe par les DataFrame Pandas
print(df)
print(df["doc"])

In [25]:
ar_docs = [json.loads(x) for x in df["doc"].to_numpy()] # on transforme en array NumPy
print(ar_docs)

In [26]:

client = MongoClient("mongodb://root:example@mongo:27017/")
db =client["world_x"]
collection = db["doc"]
print(collection)

In [None]:
collection.insert_many(ar_docs) # on peut directement insérer un array NumPy

Verifiez que vous avez toutes les données (239 documents), vous pouvez également le constater à l'aide du plugin.

### Requêtes Mongo

Afficher le premier document (élément) de la collection.

Récupérez la liste de régions distinctes.

Vérifiez bien que vous obtenez autant qu'avec MySQL (239 documents). 

Affichez la liste (limitée à 5 résultats) indiquant le nom, l'année d'indépendance et les informations démographiques pour les pays dont l'année d'indépendance est supérieure à 1980.

Regardez la [fonction `find`](https://www.mongodb.com/docs/manual/tutorial/query-documents/)

Affichez la liste (limitée à 5 résultats) indiquant le nom, l'année d'indépendance et la population pour les pays dont le nombre d'habitant est supérieure à 3 millions.

Ecrivez une requête affichant la somme des superficies pour chacune des régions. Pour cela il faut grouper les pays de la même région du monde. 

Regardez du côté de la [commande `aggregate`](https://www.mongodb.com/docs/manual/aggregation/).

Complétez la requête précédente en classant par superficie croissante.

Affichez les superficies par région avec Seaborn (utilisez `catplot` en mode `bar`). 

Pour transformer le tableau de résultats en DataFrame, vous pouvez utiliser `pd.json_normalize`.

In [None]:
df = pd.json_normalize(...)

In [None]:
import seaborn as sns 
sns.catplot(...)

Testez d'autres requêtes et affichages.