# Exercice: Modélisation orientée requête (Cassandra)

<table><tr>
    <td><img src="image/esi-sba.png" width="100" height="100"></td>
    <td><img src="image/cassandra.png" width="100" height="100"></td>
    </tr></table>



### Dans ce notebook, nous allons travailler sur la modélisation orientée requête sous la BDD No-SQL Cassandra, en particulier nous traitons les points suivants :

* Dénormaliser une BDD relationnelle en partant du principe 1 table per query 
* Définir la partie Primary Key pour chaque requête
* Optimiser vos modèles en choisissant la bonne Partition Key & Clustering Column
* Valider vos modèles 
* Tester quelques requêtes particulières


#### installer cassandra-driver afin de se connecter au cluster cassandra
! pip install cassandra-driver
#### More documentation can be found here:  https://datastax.github.io/python-driver/

#### Import Apache Cassandra python package

In [1]:
import cassandra

### créer une connection au cluster cassandra

In [2]:
from cassandra.cluster import Cluster

try: 
    cluster = Cluster(['127.0.0.1']) # si cassandra est installé localement avec le port par défaut 9042
    session = cluster.connect()
except Exception as e:
    print(e)

### créer maintenant un keyspace nommé "iot_esi"

In [14]:
try:
    
    session.execute("""
    CREATE KEYSPACE IF NOT EXISTS iot 
    WITH REPLICATION = {'class':'SimpleStrategy','replication_factor':1}
    """);
 

except Exception as e:
    print(e)

### connecter à votre Keyspace  iot_esi 


In [15]:
try:
    
    session.set_keyspace("iot")
   
    
except Exception as e:
    print(e)

### Supposons qu'on a un système IoT qui stocke les données capturées par les différents Sensors en utilisant un modèle RELATIONNEL, tel que est décrit dans le schéma ER ci-dessous:

<table><tr>
    <td><img src="image/ex1_IoT_ER_model.png" width="500" height="500"></td>
      </tr></table>

### imaginons  que nous souhaitons analyser ces données à  travers 3 requêtes analytiques:
* `Query1= retourner les informations(name, nbSensors) de tous les networks d'une région donnée`
* `Query2= retourner les informations (name,type,localisation, characteristics) de tous les Sensors d'un Network donné.`
* `Query3= retourner le AVG_measurements par sensor,  par année et par mois.  Ordonner le résultat par  année(desc) et par mois(asc)`

#### Créer les trois tables qui correspondent aux requêtes précédentes, en indiquant pour chacune:
* Primary Key
* Partition Key
* Clustering Column

In [17]:
try:
    
    ### select name,nbSensors from ... where region = ''
    query1 = "CREATE TABLE IF NOT EXISTS network_by_region "
    query1 = query1 + "(name text , nbSensors int , region text , primary key (region , name))"
    session.execute(query1)

   
    
except Exception as e:
        print(e)

In [24]:
try:
    
    ### select name,type , location , charcteristics where networkName = ''
    query2="CREATE TABLE IF NOT EXISTS sensor_by_network" 
    query2 = query2 + "(nameS text , nameNt text ,type text , longtitude float , latitude float, characteristics Map<text,text>"
    query2 = query2 + ", primary key (nameNt,nameS) )"
    session.execute(query2)
    
    
except Exception as e:
        print(e)

In [36]:
try:
    
    
    ### select AVG_measurements  from ... group by annee , mois order by annee desc , mois asc ;
    query3="CREATE TABLE IF NOT EXISTS avg_measurement_by_sensor_annee_mois"
    query3 = query3 + "(nameS text , annee int , mois int , avg_measurement int"
    query3 = query3 + " , primary key ( (avg_measurement) ,annee,mois)  )" 
    query3 = query3 + "WITH CLUSTERING ORDER BY (annee desc , mois asc) "
    session.execute(query3) 
    
except Exception as e:
        print(e)

### Une fois vous créez les différentes tables, essayez de les peupler en se basant sur le contenu de la BDD relationnelle.

<table><tr>
    <td><img src="image/data_tables.png" width="600" height="500"></td></tr>
  
</table>

### Insertion des données dans Table1

In [38]:
query = "INSERT INTO   network_by_region (name,nbSensors,region)"
query = query + " VALUES (%s,%s,%s)"


try:
    session.execute(query, ('esi-net',2,'ouest'))
    session.execute(query, ('udl-net',1,'ouest'))
    session.execute(query, ('alger-net',2,'centre'))
    
except Exception as e:
        print(e)  

### Insertion des données dans Table2

In [41]:
query = "INSERT INTO sensor_by_network(nameS,type,longtitude,latitude,nameNt,characteristics)"
query = query + " VALUES (%s,%s,%s,%s,%s,%s)"

try:
    session.execute(query, ('temp-11','temp',31,-96,'esi-net',{"accuracy":"medium","sensitivity":"high"}))
    session.execute(query, ('temp-12','temp',31,-97,'esi-net',{"accuracy":"high","sensitivity":"high"}))
    session.execute(query, ('temp-21','temp',32,-97,'udl-net',{"accuracy":"low","sensitivity":"medium"}))
    session.execute(query, ('temp-31','temp',44,-111,'alger-net',{"accuracy":"medium","sensitivity":"medium"}))
    session.execute(query, ('temp-32','temp',45,-111,'alger-net',{"accuracy":"high","sensitivity":"low"}))
    
   
except Exception as e :
        print(e)     

### Insertion des données dans Table3

In [8]:
query = "INSERT INTO  avg_measurement_by_sensor_annee_mois (avg_measurement,nameS,annee,mois)"
query = query + " VALUES (%s,%s,%s,%s)"

try:
    session.execute(query, (9.5,'temp-11',))
    
    
except Exception as e :
        print(e)   

'ellipsis' object is not iterable


### Valider votre modèle en exécutant les requêtes suivantes

* Retourner le nombre de sensors dans la région ouest"

* Retourner les sensors qui sont placés dans le network "esi-net"

* Retourner la température maximale enregistrée par le sensor "temp-11" pendant l'année 2021

In [9]:
# query1: Retourner le nombre de sensors dans la région ouest
query = "..."

try:
    rows = session.execute(query)
    for row in rows:
          print (row)
except Exception as e:
        print(e)           

<Error from server: code=2000 [Syntax error in CQL query] message="line 1:0 no viable alternative at input '..' ([..]...)">


In [10]:
# query2: Retourner les sensors qui sont placés dans le network "esi-net"
query = "... "

try:
    rows = session.execute(query)
    for row in rows:
          print (row)
except Exception as e:
        print(e)    

<Error from server: code=2000 [Syntax error in CQL query] message="line 1:0 no viable alternative at input '..' ([..]...)">


In [33]:
# query3: Retourner la température maximale enregistrée par le sensor "temp-11" pendant l'année 2021
query = "...."

try:
    rows = session.execute(query)
    for row in rows:
          print (row)
except Exception as e:
        print(e)         

Row(system_max_avg_measurements=11.0)


### Essayons d'autres requêtes 

* `Retourner la température maximale enregistrée par le sensor "temp-11"  pendant le  mois d'octobre de toutes les années` 

In [34]:
# query4
query = "...."



try:
    rows = session.execute(query)
    for row in rows:
          print (row)
except Exception as e:
        print(e)      

Error from server: code=2200 [Invalid query] message="PRIMARY KEY column "mois" cannot be restricted as preceding column "annee" is not restricted"


### Proposer une solution pour optimiser cette requête

In [35]:
### make your solution 
## table creation
### Create the table that corresponds to the Query4


In [39]:
# query4
query = "..."



try:
    rows = session.execute(query)
    for row in rows:
          print (row)
except Exception as e:
        print(e)  

Row(system_max_avg_measurements=16.0)


###  drop  tables. 

In [40]:
query = "drop table IF EXISTS ..."
rows = session.execute(query)

query = "drop table IF EXISTS ... "
rows = session.execute(query)

query = "drop table IF EXISTS ....  "
rows = session.execute(query)



query = "drop table IF EXISTS ... "
rows = session.execute(query)

### close the session and cluster connection

In [None]:
session.shutdown()
cluster.shutdown()