# Projet Traitement et Données Large Échelle

Zoé MARQUIS & Charlotte KRUZIC

## Comparaison de Performances entre Systèmes Relationnels et NoSQL : Étude de Cas avec le Catalogue Netflix

Dans ce projet, nous comparons les performances entre un système de base de données relationnel (SQLite) et un système NoSQL (Cassandra), en utilisant le **catalogue Netflix** comme jeu de données. Ce dataset, disponible en Open Data, offre une structure réaliste et adaptée pour explorer les différences entre ces deux approches de gestion de données. L'objectif principal est d'évaluer les performances pour des opérations d'insertion, mise à jour et requêtes complexes, tout en analysant les spécificités du système NoSQL choisi.

### Jeu de données

Le jeu de données utilisé contient des informations sur les films et séries disponibles sur Netflix, avec les attributs suivants :
    - `show_id` : Id unique pour chaque enregistrement
    - `title` : Le titre
    - `release_year` : L'année de sortie
    - `rating` : La classification
    - `duration` : La durée ou nombre de saisons (pour les séries)
    - `listed_in` : Les catégories

TODO : pourquoi ce choix

### Schéma de données

#### Structure relationnelle (SQLite)

Dans SQLite, nous utilisons une structure relationnelle classique avec les attributs définis dans une table principale, où chaque colonne correspond à un type de donnée bien spécifié. Des index sont également créés sur des colonnes clés pour optimiser les performances des requêtes fréquentes.

TODO : remplir correctement les tables par rappotr à la suite
```sql
CREATE TABLE netflix (
    show_id VARCHAR(255) PRIMARY KEY,
    title VARCHAR(255),
    release_year INT,
    rating VARCHAR(50),
    duration VARCHAR(50),
    listed_in VARCHAR(255)
);
```


#### Structure NoSQL (Cassandra)

Pour Cassandra, nous adoptons une approche orientée colonnes, en structurant les données pour des accès rapides et efficaces selon les cas d'utilisation spécifiques.
La structure NoSQL sera définie comme suit :

```sql
CREATE TABLE netflix (
    show_id TEXT PRIMARY KEY,
    title TEXT,
    release_year INT,
    rating TEXT,
    duration TEXT,
    listed_in TEXT
);
```


TODO ; checker qu'on fait bien ça par la suite



### Comparaison des schémas
Le schéma relationnel est rigide et suit une normalisation stricte pour assurer la cohérence des données, tandis que Cassandra offre plus de flexibilité dans la structure des colonnes, permettant une meilleure scalabilité horizontale.

TODO : expliciter ça

TODO : véifier

---

### Modèle de données de Cassandra

Cassandra repose sur un modèle basé sur des colonnes plutôt que sur des documents (comme MongoDB) ou des paires clé-valeur (comme Redis).

#### Keyspace
Un Keyspace dans Cassandra peut être vu comme un espace de noms, similaire à une base de données dans les systèmes relationnels. Il permet de regrouper plusieurs tables (ou Column Families). Chaque Keyspace définit des propriétés de réplication, comme le nombre de répliques des données.

#### Column Family
Les Column Families dans Cassandra ressemblent aux tables en SQL, mais avec une flexibilité accrue dans la structure des données. Une Column Family contient plusieurs colonnes, mais contrairement aux tables relationnelles, les colonnes ne doivent pas nécessairement être définies à l'avance. Elles peuvent être ajoutées dynamiquement avec des noms et des valeurs.

#### Key
Chaque ligne dans une Column Family est identifiée par une clé unique (par exemple, show_id dans votre jeu de données Netflix). Cela permet d'identifier rapidement les enregistrements sans avoir à faire de jointures complexes comme dans une base de données relationnelle.

#### Colonnes
Dans Cassandra, les données sont stockées sous forme de colonnes avec 3 composants essentiels :

- Nom : le nom de la colonne  
- Valeur : la donnée elle-même  
- Timestamp : un marqueur temporel qui permet de gérer les versions des données (utile pour les mises à jour et les conflits de réplication).  
Chaque colonne dans Cassandra est un enregistrement indépendant et peut être insérée, mise à jour ou supprimée sans affecter les autres colonnes dans la même ligne.

#### Super Colonnes
Les Super Colonnes permettent une structure encore plus flexible et imbriquée, un peu comme les données hiérarchiques. Une Super Colonne est une collection de colonnes et peut être vue comme une ligne composée de plusieurs colonnes nommées. Ce mécanisme est particulièrement utile pour des cas d'utilisation complexes où plusieurs attributs doivent être regroupés sous une même clé.

TODO : à vérifier

### Choix de Cassandra pour ce projet

Cassandra est un système de gestion de base de données NoSQL particulièrement adapté aux applications nécessitant une haute disponibilité et une scalabilité horizontale. Voici les principaux points qui justifient son choix pour ce projet, en comparaison avec d'autres systèmes NoSQL comme MongoDB ou Redis :

- **Scalabilité horizontale**  
Cassandra est conçu pour être hautement scalable, ce qui signifie qu'il peut facilement gérer de grandes quantités de données en ajoutant simplement plus de nœuds à son cluster, sans interruption de service. Contrairement à des bases comme MongoDB, qui peut rencontrer des limitations de scalabilité avec des configurations complexes de réplication et de sharding, Cassandra simplifie cette gestion.

- **Haute disponibilité et tolérance aux pannes**  
Cassandra offre une réplication native des données sur plusieurs nœuds, ce qui assure une disponibilité continue même en cas de panne de serveur ou de nœud. Ce mécanisme de réplication est essentiel dans les applications à grande échelle où la perte de données ou l'indisponibilité du service n'est pas acceptable. Ce niveau de résilience n'est pas aussi robuste dans des systèmes comme Redis, qui est plus adapté pour les caches en mémoire.

- **Modèle de données flexible**  
Cassandra adopte un modèle de données basé sur des colonnes plutôt que sur des documents (MongoDB) ou des paires clé-valeur (Redis), ce qui le rend particulièrement adapté pour les cas où la structure des données peut évoluer au fil du temps. De plus, bien que non relationnel, Cassandra permet une organisation des données en tables et index, offrant plus de structure que des systèmes comme CouchDB.

TODO : explication plus détaillée dans la cellule précédente

- **Performances optimisées pour les écritures massives**  
Cassandra est optimisé pour des opérations d'écriture à grande échelle, ce qui en fait un excellent choix pour des applications générant de grandes quantités de données en continu (comme les logs, les événements ou les analyses de séries temporelles). Contrairement à MongoDB, qui peut être plus performant pour les lectures complexes, Cassandra excelle dans les insertions et les mises à jour rapides.

- **Adapté aux cas d'utilisation distribués**
Étant un système distribué par nature, Cassandra est idéal pour des architectures distribuées et géographiquement décentralisées. Son approche de la gestion des données et de la réplication est particulièrement utile lorsque les données doivent être distribuées sur des data centers multiples, un point que d'autres bases NoSQL, comme Couchbase, ne gèrent pas aussi efficacement.

**En résumé :**
Cassandra est un excellent choix pour ce projet en raison de sa capacité à gérer des volumes de données massifs, sa scalabilité horizontale, sa tolérance aux pannes, et ses performances exceptionnelles pour les écritures. Ces caractéristiques en font un candidat idéal pour des applications nécessitant des performances de lecture/écriture rapides et une disponibilité continue, contrairement à d'autres systèmes NoSQL comme MongoDB ou Redis qui peuvent avoir des avantages dans d'autres cas d'usage.



**optimisé pour les opérations d'insertion massives.**

---
## Installer les outils

In [45]:
!pip install plotly


[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m A new release of pip is available: [0m[31;49m24.2[0m[39;49m -> [0m[32;49m24.3.1[0m
[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m To update, run: [0m[32;49mpip install --upgrade pip[0m


In [46]:
!pip install pandas
# pour manipuler des dataframes et charger les données de kaggle


[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m A new release of pip is available: [0m[31;49m24.2[0m[39;49m -> [0m[32;49m24.3.1[0m
[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m To update, run: [0m[32;49mpip install --upgrade pip[0m


In [None]:
!pip install cassandra-driver

Found existing installation: cassandra-driver 3.29.2
Uninstalling cassandra-driver-3.29.2:
  Successfully uninstalled cassandra-driver-3.29.2
Collecting cassandra-driver
  Using cached cassandra_driver-3.29.2-cp311-cp311-macosx_11_0_arm64.whl.metadata (6.2 kB)
Using cached cassandra_driver-3.29.2-cp311-cp311-macosx_11_0_arm64.whl (364 kB)
Installing collected packages: cassandra-driver
Successfully installed cassandra-driver-3.29.2

[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m A new release of pip is available: [0m[31;49m24.2[0m[39;49m -> [0m[32;49m24.3.1[0m
[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m To update, run: [0m[32;49mpip install --upgrade pip[0m


In [48]:
# # 🚨 sur linux 
# !apt-get update
# !apt-get install -y openjdk-11-jdk
# !apt-get install libev-dev


# # 🚨 sur mac
# !brew install openjdk@17
# !brew install libev


In [49]:
# !wget https://downloads.apache.org/cassandra/5.0.2/apache-cassandra-5.0.2-bin.tar.gz

In [50]:
# !tar -xzf apache-cassandra-5.0.2-bin.tar.gz

In [51]:
# %cd apache-cassandra-5.0.2

In [52]:
# !java -version

In [53]:
# !export JAVA_HOME="/usr/local/opt/openjdk@11"
# !export PATH="$JAVA_HOME/bin:$PATH"
# !source ~/.zshrc

In [54]:
# !java -version

In [55]:
# !bin/cassandra -R

In [56]:
# !bin/nodetool status

In [57]:
# !pip install --upgrade astrapy

In [58]:
!pip install kagglehub
# installer kagglehub pour récupérer le dataset


[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m A new release of pip is available: [0m[31;49m24.2[0m[39;49m -> [0m[32;49m24.3.1[0m
[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m To update, run: [0m[32;49mpip install --upgrade pip[0m


In [59]:
!pip install tabulate


[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m A new release of pip is available: [0m[31;49m24.2[0m[39;49m -> [0m[32;49m24.3.1[0m
[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m To update, run: [0m[32;49mpip install --upgrade pip[0m


## Importation des données

In [60]:
import kagglehub

path = kagglehub.dataset_download("shivamb/netflix-shows")
print("Chemin vers le fichier du dataset : ", path)

Chemin vers le fichier du dataset :  /Users/zoemarquis/.cache/kagglehub/datasets/shivamb/netflix-shows/versions/5


In [61]:
import os
files = os.listdir(path)
print("Nom du fichier : ", files)

Nom du fichier :  ['netflix_titles.csv']


In [62]:
import pandas as pd

filename = f"{path}/{files[0]}"
df_initial = pd.read_csv(filename)

In [63]:
from tabulate import tabulate

print(tabulate(df_initial.head(10), headers='keys', tablefmt='psql'))

+----+-----------+---------+----------------------------------+-------------------------------+-----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------+-----------------------------------------------------------------------+--------------------+----------------+----------+------------+---------------------------------------------------------------+-----------------------------------------------------------------------------------------------------------------------------------------------------------+
|    | show_id   | type    | title                            | director                      | cast                                                                                                                                                

In [64]:
# afficher le nombre de lignes dans le dataset
print(f"Nombre de lignes : {len(df_initial)}")

Nombre de lignes : 8807


In [65]:
# types des colonnes
print(df_initial.dtypes)

show_id         object
type            object
title           object
director        object
cast            object
country         object
date_added      object
release_year     int64
rating          object
duration        object
listed_in       object
description     object
dtype: object


In [66]:
# Convertir la colonne show_id en int en enlevant le préfixe 's' (plus simple pour gérer exactement le meme type de données en Cassandra et MySQL)
df_initial['show_id'] = df_initial['show_id'].str.replace('s', '').astype(int).astype(int)

df_initial['show_id'] = df_initial['show_id'].astype(int)
df_initial['release_year'] = df_initial['release_year'].astype(int)

df_initial['type'] = df_initial['title'].astype(str)
df_initial['title'] = df_initial['title'].astype(str)
df_initial['director'] = df_initial['director'].astype(str)
df_initial['cast'] = df_initial['cast'].astype(str)
df_initial['country'] = df_initial['country'].astype(str)
df_initial['date_added'] = df_initial['date_added'].astype(str)
df_initial['rating'] = df_initial['rating'].astype(str)
df_initial['duration'] = df_initial['duration'].astype(str)
df_initial['listed_in'] = df_initial['listed_in'].astype(str)
df_initial['description'] = df_initial['description'].astype(str)

In [67]:
# types des colonnes
print(df_initial.dtypes)

show_id          int64
type            object
title           object
director        object
cast            object
country         object
date_added      object
release_year     int64
rating          object
duration        object
listed_in       object
description     object
dtype: object


In [68]:
# # est ce qu'il y a des valeurs manquantes ?
# print(df_initial.isna().sum())

In [69]:
# # remplir les valeurs manquantes : TODO supprimer cette cellule ?
# df_initial['director'] = df_initial['director'].fillna('')
# df_initial['cast'] = df_initial['cast'].fillna('')
# df_initial['country'] = df_initial['country'].fillna('')
# df_initial['date_added'] = df_initial['date_added'].fillna('')
# df_initial['rating'] = df_initial['rating'].fillna('')
# df_initial['duration'] = df_initial['duration'].fillna('')

# print(df_initial.isna().sum())
# TODO : vraiment utile ?

## CRUD : Create, Read, Update, Delete
- Create (*Insert*) : Insérer des données dans la base de données.
- Read (*Select*) : Récupérer des données.
- Update (*Update*) : Modifier des données existantes.
- Delete (*Delete*) : Effacer des données.

In [70]:
schema = """
CREATE TABLE IF NOT EXISTS shows (
    show_id INT PRIMARY KEY,
    title TEXT,
    type TEXT,
    director TEXT,
    cast TEXT,
    country TEXT,
    date_added TEXT,
    release_year INT,
    rating TEXT,
    duration TEXT,
    listed_in TEXT,
    description TEXT
);
"""

In [71]:
data_zoe_charlotte = {
    'show_id': [0],
    'title': ['Zoé & Charlotte'],
    'type': ['Movie'],
    'director': ['Christopher Nolan'],
    'cast': ['Leonardo DiCaprio, Joseph Gordon-Levitt'],
    'country': ['USA'],
    'date_added': ['2021-01-01'],
    'release_year': [2001],
    'rating': ['PG-13'],
    'duration': ['148 min'],
    'listed_in': ['Action, Sci-Fi'],
    'description': ['A thief who steals corporate secrets through the use of dream-sharing technology is given the inverse task of planting an idea into the mind of a CEO.']
}
df_zoe_charlotte = pd.DataFrame(data_zoe_charlotte)

### SQLite

In [72]:
import sqlite3

# Créer une base de données SQLite en mémoire
conn = sqlite3.connect(':memory:')
cursor = conn.cursor()

# Supprime la table si elle existe déjà
cursor.execute("DROP TABLE IF EXISTS shows")

# Créer une table pour les tests CRUD
cursor.execute(schema)


<sqlite3.Cursor at 0x112f49e40>

In [73]:
import time

# --- CREATE ---
def sqlite_insert(df):
    columns = ', '.join(df.columns)
    placeholders = ', '.join(['?'] * len(df.columns))
    insert_query = f"INSERT INTO shows ({columns}) VALUES ({placeholders})"

    start_time = time.time()
    for _, row in df.iterrows():
      cursor.execute(insert_query, tuple(row))
    conn.commit()

    create_time_sqlite = time.time() - start_time
    print(f"Create Time: {create_time_sqlite:.6f} seconds")
    return create_time_sqlite

# --- READ ---
def sqlite_read():
    start_time = time.time()
    cursor.execute("SELECT * FROM shows WHERE release_year > 2000")
    result = cursor.fetchall()
    read_time_sqlite = time.time() - start_time
    print(f"Read Time: {read_time_sqlite:.6f} seconds")
    print(f"Queried {len(result)} records")
    return read_time_sqlite

# --- UPDATE ---
def sqlite_update():
    start_time = time.time()
    cursor.execute("UPDATE shows SET rating='PG' WHERE release_year > 2000")
    conn.commit()
    update_time_sqlite = time.time() - start_time
    print(f"Update Time: {update_time_sqlite:.6f} seconds")
    return update_time_sqlite

# --- DELETE ---
def sqlite_delete():
    start_time = time.time()
    cursor.execute("DELETE FROM shows WHERE release_year > 2000")
    conn.commit()
    delete_time_sqlite = time.time() - start_time
    print(f"Delete Time: {delete_time_sqlite:.6f} seconds")
    return delete_time_sqlite

In [74]:
# --- CREATE ---
create_sqlite = sqlite_insert(df_zoe_charlotte)

# Vérifier le nombre de lignes insérées
cursor.execute('SELECT COUNT(*) FROM shows')
row = cursor.fetchone()
print(f"Total rows in 'shows' table: {row[0]}")

# --- READ ---
read_sqlite = sqlite_read()

# --- UPDATE ---
update_sqlite = sqlite_update()

# --- DELETE ---
delete_sqlite = sqlite_delete()

Create Time: 0.000538 seconds
Total rows in 'shows' table: 1
Read Time: 0.000150 seconds
Queried 1 records
Update Time: 0.000025 seconds
Delete Time: 0.000050 seconds


TODO rédaction : on le fait sur plus de données

In [75]:
# --- CREATE MASSIVE ---
create_sqlite_massive = sqlite_insert(df_initial)

# Vérifier le nombre de lignes insérées
cursor.execute('SELECT COUNT(*) FROM shows')
row = cursor.fetchone()
print(f"Total rows in 'shows' table: {row[0]}")

# --- READ MASSIVE ---
read_sqlite_massive = sqlite_read()

# --- UPDATE MASSIVE ---
update_sqlite_massive = sqlite_update()

# --- DELETE MASSIVE ---
delete_sqlite_massive = sqlite_delete()


Create Time: 0.108552 seconds
Total rows in 'shows' table: 8807
Read Time: 0.011816 seconds
Queried 8245 records
Update Time: 0.003998 seconds
Delete Time: 0.002974 seconds


### Cassandra

In [87]:
!nodetool status


Datacenter: datacenter1
Status=Up/Down
|/ State=Normal/Leaving/Joining/Moving
--  Address    Load        Tokens  Owns (effective)  Host ID                               Rack 
UN  127.0.0.1  136,32 KiB  16      100,0%            11c2e131-3642-40ab-a44b-5d5e95f42edb  rack1



In [93]:
from cassandra.cluster import Cluster

# Connexion à Cassandra
cluster = Cluster(['127.0.0.1'])
session = cluster.connect()

# Supprime la table avec keyspace si elle existe
session.execute("""
DROP TABLE IF EXISTS netflix.shows;
""")

# Créer un Keyspace avec un facteur de réplication de 3
session.execute("""
CREATE KEYSPACE IF NOT EXISTS netflix
WITH replication = {'class': 'SimpleStrategy', 'replication_factor': 1};
""")

# Changer le Keyspace courant pour 'netflix'
session.set_keyspace('netflix')

session.execute(schema)


<cassandra.cluster.ResultSet at 0x11459f250>

TODO : pour l'instant on crée pas d'index mais on le fait après pour comparer

In [94]:
# --- CREATE ---
def cassandra_insert(df):
    insert_query = session.prepare("INSERT INTO shows (show_id, title, director, cast, country, date_added, release_year, rating, duration, listed_in, description) VALUES (?, ?, ?, ?, ?, ?, ?, ?, ?, ?, ?)")

    start_time = time.time()
    for _, row in df.iterrows():
        session.execute(insert_query, (row['show_id'], row['title'], row['director'], row['cast'], row['country'], row['date_added'], row['release_year'], row['rating'], row['duration'], row['listed_in'], row['description']))
    create_time = time.time() - start_time

    print(f"Create Time: {create_time:.6f} seconds")

    return create_time

# --- READ ---
def cassandra_read():
    start_time = time.time()
    # On utilise ici ALLOW FILTERING car release_year ne fait pas partie de la clef primaire
    result = session.execute("SELECT * FROM shows WHERE release_year > 2000 ALLOW FILTERING")
    read_time = time.time() - start_time
    print(f"Read Time: {read_time:.6f} seconds")
    num_records = sum(1 for _ in result)  # Count rows using a generator expression
    print(f"Queried {num_records} records")
    return read_time

# --- UPDATE ---
def cassandra_update():
    # On doit faire select et update car realease_year ne fait pas partie de la clef primaire
    start_time = time.time()

    select_query = "SELECT show_id FROM shows WHERE release_year > 2000 ALLOW FILTERING;"
    result = session.execute(select_query)
    show_ids_to_update = [row.show_id for row in result]

    for show_id in show_ids_to_update:
        update_query = f"UPDATE shows SET rating = 'PG' WHERE show_id = {show_id};"
        session.execute(update_query)

    update_time = time.time() - start_time
    print(f"Update Time: {update_time:.6f} seconds")
    return update_time

# --- DELETE ---
def cassandra_delete():
  # Comme pour update
    start_time = time.time()

    select_query = "SELECT show_id FROM shows WHERE release_year > 2000 ALLOW FILTERING;"
    result = session.execute(select_query)
    show_ids_to_delete = [row.show_id for row in result]

    for show_id in show_ids_to_delete:
        delete_query = f"DELETE FROM shows WHERE show_id = {show_id};"
        session.execute(delete_query)

    delete_time = time.time() - start_time
    print(f"Delete Time: {delete_time:.6f} seconds")
    return delete_time

In [95]:
# --- CREATE ---
create_cassandra = cassandra_insert(df_zoe_charlotte)

# Vérifier le nombre de lignes insérées
result = session.execute('SELECT COUNT(*) FROM shows')
row = result.one()
print(f"Total rows in 'shows' table: {row[0]}")

# --- READ ---
read_cassandra = cassandra_read()

# --- UPDATE ---
update_cassandra = cassandra_update()

# --- DELETE ---
delete_cassandra = cassandra_delete()

Create Time: 0.014043 seconds
Total rows in 'shows' table: 1
Read Time: 0.005073 seconds
Queried 1 records
Update Time: 0.002210 seconds
Delete Time: 0.001830 seconds


In [96]:
# --- CREATE MASSIVE ---
create_cassandra_massive = cassandra_insert(df_initial)

# Vérifier le nombre de lignes insérées
result = session.execute('SELECT COUNT(*) FROM shows')
row = result.one()
print(f"Total rows in 'shows' table: {row[0]}")

# --- READ MASSIVE ---
read_cassandra_massive = cassandra_read()

# --- UPDATE MASSIVE ---
update_cassandra_massive = cassandra_update()

# --- DELETE MASSIVE ---
delete_cassandra_massive = cassandra_delete()


Create Time: 2.236082 seconds
Total rows in 'shows' table: 8807
Read Time: 0.075292 seconds
Queried 8245 records
Update Time: 1.531350 seconds
Delete Time: 1.478490 seconds


### Visualisation

TODO : rédiger

 pour faire de réelles stats on va faire les CRUD sur un nombre plus important de donnéer : insérer / lire / update / supprimer sur les données kaggle précédemment chargées

On a réalisé tout cela avec un seul replicaSet et sans index.

In [97]:
from re import X
import plotly.graph_objects as go

def affiche_times(set_1, barname_1, set_2, barname_2, titre):
  crud_operations = ['Insert', 'Read', 'Update', 'Delete']

  fig_simple = go.Figure(data=[
      go.Bar(name=barname_1, y=crud_operations, x=set_1, orientation='h'),
      go.Bar(name=barname_2, y=crud_operations, x=set_2, orientation='h')
  ])

  fig_simple.update_layout(barmode='group',
                          title=titre,
                          xaxis_title="Opération CRUD",
                          yaxis_title="Temps d'exécution (secondes)")

  fig_simple.show()

In [98]:
# enregistrer

sqlite_times_simple = [create_sqlite, read_sqlite, update_sqlite, delete_sqlite]
cassandra_times_simple = [create_cassandra, read_cassandra, update_cassandra, delete_cassandra]
sqlite_times_massive = [create_sqlite_massive, read_sqlite_massive, update_sqlite_massive, delete_sqlite_massive]
cassandra_times_massive = [create_cassandra_massive, read_cassandra_massive, update_cassandra_massive, delete_cassandra_massive]


In [99]:
affiche_times(sqlite_times_simple, 'SQLite', cassandra_times_simple, 'Cassandra', 'Comparaison des performances SQLite et Cassandra (Requêtes simples)' )

In [100]:
affiche_times(sqlite_times_massive, 'SQLite', cassandra_times_massive, 'Cassandra', 'Comparaison des performances SQLite et Cassandra (Requêtes massive)' )

TODO : rédiger commentairte sur le temps

pourquoi c'est peut etre normal ?

dire que ici cassandra c'est 1 replica set

et que y a pas d'index

# TODO

## Comparaison des temps de Cassandra avec plusieurs replicaSet

In [101]:
def create_cassandra_with_replication(replication_factor):
    session.execute("DROP KEYSPACE IF EXISTS netflix")
    session.execute("DROP TABLE IF EXISTS netflix.shows")

    # TODO : Tester d'autres stratégies de réplication
    session.execute(f"""
    CREATE KEYSPACE netflix
    WITH REPLICATION = {{
        'class': 'SimpleStrategy',
        'replication_factor': {replication_factor}
    }};
    """)
    session.set_keyspace('netflix')
    session.execute(schema)
    print(f"Keyspace créé avec replication_factor = {replication_factor}")

In [102]:
replication_factors = [ 1, 2, 3, 4, 5, ] # 6, 7, 8, 9, 10]
results = []

for rf in replication_factors:
    print(f"\nTest avec replication_factor = {rf} :")
    create_cassandra_with_replication(rf)

    cassandra_time_create = cassandra_insert(df_initial)
    cassandra_time_read = cassandra_read()
    cassandra_time_update = cassandra_update()
    cassandra_time_delete = cassandra_delete()

    results.append({
        'Replication Factor': rf,
        'Insertion Time': cassandra_time_create,
        'Read Time': cassandra_time_read,
        'Update Time': cassandra_time_update,
        'Delete Time': cassandra_time_delete
    })

results_df = pd.DataFrame(results)


Test avec replication_factor = 1 :
Keyspace créé avec replication_factor = 1
Create Time: 1.923357 seconds
Read Time: 0.060337 seconds
Queried 8245 records
Update Time: 1.478866 seconds
Delete Time: 1.393551 seconds

Test avec replication_factor = 2 :
Keyspace créé avec replication_factor = 2
Create Time: 1.761164 seconds
Read Time: 0.066438 seconds
Queried 8245 records
Update Time: 1.365010 seconds
Delete Time: 1.468697 seconds

Test avec replication_factor = 3 :
Keyspace créé avec replication_factor = 3
Create Time: 1.764215 seconds
Read Time: 0.051154 seconds
Queried 8245 records
Update Time: 1.387906 seconds
Delete Time: 1.419303 seconds

Test avec replication_factor = 4 :
Keyspace créé avec replication_factor = 4
Create Time: 1.761627 seconds
Read Time: 0.059737 seconds
Queried 8245 records
Update Time: 1.455057 seconds
Delete Time: 1.376357 seconds

Test avec replication_factor = 5 :
Keyspace créé avec replication_factor = 5
Create Time: 1.758973 seconds
Read Time: 0.059049 seco

In [103]:
crud_operations = ['Insert', 'Read', 'Update', 'Delete']

fig = go.Figure(data=[
    go.Bar(name='SQLite', y=crud_operations, x=sqlite_times_massive, orientation='h')  # SQLite bar
])

for rf in results_df['Replication Factor'].unique():
    rf_data = results_df[results_df['Replication Factor'] == rf]
    fig.add_trace(go.Bar(
        name=f"Cassandra (RF={rf})",
        y=crud_operations,
        x=[rf_data['Insertion Time'].values[0],
           rf_data['Read Time'].values[0],
           rf_data['Update Time'].values[0],
           rf_data['Delete Time'].values[0]],
        orientation='h'
    ))

fig.update_layout(barmode='group',
                  title="Comparaison des performances SQLite et Cassandra (Replica Sets)",
                  xaxis_title="Temps d'exécution (secondes)",
                  yaxis_title="Opération CRUD")

fig.show()

In [104]:
# Create Time: 0.665758 seconds
# Total rows in 'shows' table: 8807
# Read Time: 0.039449 seconds
# Queried 8245 records
# Update Time: 0.012738 seconds
# Delete Time: 0.014593 seconds

In [105]:
# TODO : faire avec plusieurs replicat

In [106]:
# # Fermer la connexion
# cursor.close()
# conn.close()

In [107]:
# TODO : BATCH

# CHARLOTTE

## Augmentation de la taille du jeu de données

TODO rédaction

Création d'un dataset plus grand pour voir une réelle différence sur les opérations CRUD.  
Création nous même car les sites de création de dataset ne permettent de télécharger que 1000 lignes avec un compte gratuit.

In [108]:
# more_data = False

# if more_data:
#     original_df = df_initial

#     num_rows = 30000

#     def generate_large_column(original_column, size):
#         return [random.choice(original_column) for _ in range(size)]

#     def generate_show_id(size):
#         return [f"{i+1}" for i in range(size)]

#     generated_data = {}
#     generated_data = original_df.to_dict(orient='list')

#     for column in original_df.columns:
#         if column == "show_id":
#             generated_data[column].extend(generate_show_id(num_rows - len(original_df)))
#         else:
#             generated_data[column].extend(generate_large_column(original_df[column].tolist(), num_rows - len(original_df)))


#     large_df = pd.DataFrame(generated_data)
#     df = large_df.drop_duplicates()

#     output_file = "netflix_titles_large.csv"
#     large_df.to_csv(output_file, index=False)
#     print(f"Dataset généré avec {num_rows} lignes (lignes dupliquées supprimées) et exporté dans {output_file}.")
# else:
#     df = df_initial

In [None]:
# plt.figure(figsize=(10, 6))
# plt.plot(cassandra_times_update, label="Cassandra Update", marker='o')
# plt.plot(mysql_times_update, label="MySQL Update", marker='x')
# plt.xlabel("Itérations")
# plt.ylabel("Temps (secondes)")
# plt.title("Benchmark des mises à jour (Update) entre Cassandra et MySQL")
# plt.legend()
# plt.grid()
# plt.show()

### 4. Delete

In [None]:
# nb_runs = 10

# def cassandra_delete_benchmark_with_reset_from_df():

#     # Sauvegarde des données pour réinitialisation
#     delete_query = cassandra_session.prepare("DELETE FROM shows WHERE show_id = ?")
#     insert_query = cassandra_session.prepare("INSERT INTO shows (show_id, release_year, title, rating) VALUES (?, ?, ?, ?)")

#     data_to_insert = [
#         (row['show_id'], row['release_year'], row['title'], row['rating'])
#         for _, row in df.iterrows()
#     ]

#     times = []
#     for _ in range(nb_runs):
#         for data in data_to_insert:
#             cassandra_session.execute(insert_query, data)

#         select_query = "SELECT show_id FROM shows WHERE release_year = 2015 ALLOW FILTERING;"
#         rows = cassandra_session.execute(select_query)

#         start_time = time.time()
#         for row in rows:
#             cassandra_session.execute(delete_query, [row.show_id])
#         elapsed_time = time.time() - start_time
#         times.append(elapsed_time)

#     avg_time = sum(times) / len(times)
#     print(f"Temps moyen de suppression Cassandra : {avg_time:.5f} secondes")
#     return times

# def mysql_delete_benchmark_with_reset():
#     delete_query_mysql = "DELETE FROM shows WHERE release_year = :release_year;"
#     insert_query_mysql = """
#     INSERT INTO shows (show_id, release_year)
#     VALUES (:show_id, :release_year)
#     ON DUPLICATE KEY UPDATE release_year = VALUES(release_year);
#     """

#     select_query_mysql = "SELECT * FROM shows WHERE release_year = 2015;"
#     with mysql_engine.connect() as conn:
#         conn.execute(text("USE TDLE;"))
#         rows = conn.execute(text(select_query_mysql)).mappings().all()
#         data_to_reset = [dict(row) for row in rows]

#     times = []
#     for _ in range(nb_runs):
#         with mysql_engine.connect() as conn:
#             conn.execute(text("USE TDLE;"))
#             for data in data_to_reset:
#                 conn.execute(text(insert_query_mysql), {"show_id": data["show_id"], "release_year": 2015})

#         start_time = time.time()
#         with mysql_engine.connect() as conn:
#             conn.execute(text(delete_query_mysql), {"release_year": 2015})
#         elapsed_time = time.time() - start_time
#         times.append(elapsed_time)

#     avg_time = sum(times) / len(times)
#     print(f"Temps moyen de suppression MySQL : {avg_time:.5f} secondes")
#     return times


In [None]:
# plt.figure(figsize=(10, 6))
# plt.plot(cassandra_times_delete, label="Cassandra Delete", marker='o')
# plt.plot(mysql_times_delete, label="MySQL Delete", marker='x')
# plt.xlabel("Itérations")
# plt.ylabel("Temps (secondes)")
# plt.title("Benchmark des suppressions (Delete) entre Cassandra et MySQL")
# plt.legend()
# plt.grid()
# plt.show()


### Résultats CRUD

Les opérations CRUD sur mySQL sont toujours plus rapide que sur Cassandra.

In [None]:
# TODO : Mieux expliquer les résultats

## Optimisation par indexation (TODO : Peut-être supprimer cette partie)

### 1. Ajout d'index

TODO : index secondaire ?

In [None]:
def cassandra_create_indexes(columns):
    start_time = time.time()
    for column in columns:
        index_query = f"CREATE INDEX {column}_idx ON shows ({column});"
        cassandra_session.execute(index_query)
    cassandra_time = time.time() - start_time
    return cassandra_time

def mysql_create_indexes(columns):
    start_time = time.time()
    with mysql_engine.connect() as conn:
        conn.execute(text("USE TDLE;"))
        for column in columns:
            if column == "rating":
                index_query = f"CREATE INDEX {column}_idx ON shows ({column}(10));"
            elif column == "title":
                index_query = f"CREATE INDEX {column}_idx ON shows ({column}(50));"
            else:
                index_query = f"CREATE INDEX {column}_idx ON shows ({column});"
            #index_query = f"CREATE INDEX {column}_idx ON shows ({column});"
            conn.execute(text(index_query))
    mysql_time = time.time() - start_time
    return mysql_time

TODO : Mettre les colonnes qu'on utilise pour être indexés.

Nous indexons les colonnes que nous utilisons dans les requêtes.
La colonne show_id est déjà indexé implicitement comme c'est la clé primaire.

In [None]:
# TODO : Revoir les colonnes à indexer si on change les fonctions du CURL
# Toutes les colonnes : ["show_id", "title", "director", "cast", "country", "date_added", "release_year", "rating", "duration", "listed_in", "description"]
columns_to_index = ["release_year", "rating", "title"]
cassandra_time_index = cassandra_create_indexes(columns_to_index)
mysql_time_index = mysql_create_indexes(columns_to_index)

print(f"Indexation time: Cassandra {cassandra_time_index:.5f}s, MySQL {mysql_time_index:.5f}s")

Indexation des colonnes utilisées dans les filtres, jointures et ordonnancement (ORDER BY).  
Seulement ces colonnes sinon le coût de stockage est trop élevé pour rien.

### 2. Opérations CRUD après indexation

In [None]:
# Recréation des tables pour avoir toutes les données
# TODO : Peut être indexer après l'ajout
def recreate_tables_with_indexes():
    create_table_cassandra()
    cassandra_create_indexes(columns_to_index)

    global mysql_engine
    mysql_engine = create_table_mysql()
    mysql_create_indexes(columns_to_index)

    cassandra_time_create = cassandra_insert(df)
    mysql_time_create = mysql_insert(df)

    return cassandra_time_create, mysql_time_create

In [None]:
cassandra_time_create_idx, mysql_time_create_idx = recreate_tables_with_indexes()
print(f"Create time: Cassandra {cassandra_time_create_idx:.5f}s, MySQL {mysql_time_create_idx:.5f}s")

In [None]:
# Vérification des index
index_query = "SELECT * FROM system_schema.indexes WHERE keyspace_name = 'netflix';"
rows = cassandra_session.execute(index_query)
print("Index existants dans Cassandra :")
for row in rows:
    print(row)

index_query_mysql = "SHOW INDEX FROM shows;"
with mysql_engine.connect() as conn:
    conn.execute(text("USE TDLE;"))
    result = conn.execute(text(index_query_mysql))
    print("Index existants dans MySQL :")
    for row in result:
        print(row)

In [None]:
cassandra_time_read_idx = cassandra_read_benchmark()
mysql_time_read_idx = mysql_read_benchmark()
#print(f"Read time after indexing: Cassandra {sum(cassandra_time_read_idx)/len(cassandra_read_benchmark):.5f}s")#, MySQL {mysql_time_read:.5f}s")

cassandra_time_update_idx = cassandra_update_benchmark()
mysql_time_update_idx = mysql_update_benchmark()
#print(f"Update time after indexing: Cassandra {cassandra_time_update_idx:.5f}s")#, MySQL {mysql_time_update:.5f}s")

cassandra_time_delete_idx = cassandra_delete_benchmark_with_reset_from_df()
mysql_time_delete_idx = mysql_delete_benchmark_with_reset()
#print(f"Delete time after indexing: Cassandra {cassandra_time_delete_idx:.5f}s")#, MySQL {mysql_time_delete:.5f}s")


### Résultats CRUD après indexation

In [None]:
crud_operations = ['Create', 'Read', 'Update', 'Delete']

cassandra_times_after = [
    cassandra_time_create_idx,
    sum(cassandra_times_read) / len(cassandra_times_read),
    sum(cassandra_times_update) / len(cassandra_times_update),
    sum(cassandra_times_delete) / len(cassandra_times_delete),
]

mysql_times_after = [
    mysql_time_create_idx,
    sum(mysql_times_read) / len(mysql_times_read),
    sum(mysql_times_update) / len(mysql_times_update),
    sum(mysql_times_delete) / len(mysql_times_delete),
]

fig = go.Figure()
fig.add_trace(go.Bar(x=crud_operations, y=cassandra_times_after, name='Cassandra (Après Indexation)', text=[f"{t:.2f}s" for t in cassandra_times_after], textposition='auto'))
fig.add_trace(go.Bar(x=crud_operations, y=mysql_times_after, name='MySQL (Après Indexation)', text=[f"{t:.2f}s" for t in mysql_times_after], textposition='auto'))

fig.update_layout(title="Comparaison des performances CRUD après indexation entre Cassandra et MySQL", xaxis_title="Opérations CRUD", yaxis_title="Temps d'exécution (secondes)", barmode='group', template='plotly_white', legend=dict(title="Système de base de données"))

fig.show()


In [None]:
crud_operations = ['Create', 'Read', 'Update', 'Delete']

cassandra_times = [
    cassandra_time_create,
    sum(cassandra_times_read) / len(cassandra_times_read),
    sum(cassandra_times_update) / len(cassandra_times_update),
    sum(cassandra_times_delete) / len(cassandra_times_delete),
]

cassandra_times_after = [
    cassandra_time_create_idx,
    sum(cassandra_time_read_idx) / len(cassandra_time_read_idx),
    sum(cassandra_time_update_idx) / len(cassandra_time_update_idx),
    sum(cassandra_time_delete_idx) / len(cassandra_time_delete_idx),
]

mysql_times = [
    mysql_time_create,
    sum(mysql_times_read) / len(mysql_times_read),
    sum(mysql_times_update) / len(mysql_times_update),
    sum(mysql_times_delete) / len(mysql_times_delete),
]

mysql_times_after = [
    mysql_time_create_idx,
    sum(mysql_time_read_idx) / len(mysql_time_read_idx),
    sum(mysql_time_update_idx) / len(mysql_time_update_idx),
    sum(mysql_time_delete_idx) / len(mysql_time_delete_idx),
]

# Cassandra
fig_cassandra = go.Figure()

fig_cassandra.add_trace(go.Bar(x=crud_operations, y=cassandra_times, name='Cassandra (Avant Indexation)', text=[f"{t:.2f}s" for t in cassandra_times], textposition='auto'))
fig_cassandra.add_trace(go.Bar(x=crud_operations, y=cassandra_times_after, name='Cassandra (Après Indexation)', text=[f"{t:.2f}s" for t in cassandra_times_after], textposition='auto'))

fig_cassandra.update_layout(title="Comparaison des performances CRUD de Cassandra (Avant vs Après Indexation)", xaxis_title="Opérations CRUD", yaxis_title="Temps d'exécution (secondes)", barmode='group', template='plotly_white')
fig_cassandra.show()

# MySQL
fig_mysql = go.Figure()

fig_mysql.add_trace(go.Bar(x=crud_operations, y=mysql_times, name='MySQL (Avant Indexation)', text=[f"{t:.2f}s" for t in mysql_times], textposition='auto'))
fig_mysql.add_trace(go.Bar(x=crud_operations, y=mysql_times_after, name='MySQL (Après Indexation)', text=[f"{t:.2f}s" for t in mysql_times_after], textposition='auto'))

fig_mysql.update_layout( title="Comparaison des performances CRUD de MySQL (Avant vs Après Indexation)", xaxis_title="Opérations CRUD", yaxis_title="Temps d'exécution (secondes)", barmode='group', template='plotly_white')
fig_mysql.show()


In [None]:

# TODO :  Analyser les résultats


# TODO : Tester avec des requêtes plus complexes
# TODO : Utiliser un dataset plus grand
# TODO : Ajouter des colonnes à indexer
# Tous ces TODO n'ont rien changé.

## Optimisation par réplication/partitionnement

In [None]:
# Recréation des tables pour avoir toutes les données
def recreate_tables():
    create_table_cassandra()

    global mysql_engine
    mysql_engine = create_table_mysql()

    cassandra_time_create = cassandra_insert(df)
    mysql_time_create = mysql_insert(df)

    return cassandra_time_create#, mysql_time_create

cassandra_time_create = recreate_tables()#, mysql_time_create

### Cassandra - Réplication

In [None]:
# ZOE OK
# def create_keyspace_with_replication(replication_factor):
#     cassandra_session.execute(f"DROP KEYSPACE IF EXISTS netflix;")

#     # TODO : Tester d'autres stratégies de réplication
#     cassandra_session.execute(f"""
#     CREATE KEYSPACE netflix
#     WITH REPLICATION = {{
#         'class': 'SimpleStrategy',
#         'replication_factor': {replication_factor}
#     }};
#     """)
#     cassandra_session.set_keyspace('netflix')
#     print(f"Keyspace créé avec replication_factor = {replication_factor}")

### Cassandra - Test du CRUD

In [None]:
# ZOE OK
# replication_factors = [1, 2, 3] #,4, 5, 6, 7, 8, 9, 10]
# results = []

# for rf in replication_factors:
#     print(f"\nTest avec replication_factor = {rf} :")
#     create_keyspace_with_replication(rf)
#     create_table_cassandra()
#     cassandra_time_create = cassandra_insert(df)
#     print(f"Insertion time: {cassandra_time_create:.5f}s")
#     cassandra_time_read = cassandra_read_benchmark()
#     #print(f" - Read time: {cassandra_time_read:.5f}s")
#     cassandra_time_update = cassandra_update_benchmark()
#     #print(f" - Update time: {cassandra_time_update:.5f}s")
#     cassandra_time_delete = cassandra_delete_benchmark_with_reset_from_df()
#     #print(f" - Delete time: {cassandra_time_delete:.5f}s")

#     results.append({
#         'Replication Factor': rf,
#         'Insertion Time': cassandra_time_create,
#         'Read Time': cassandra_time_read,
#         'Update Time': cassandra_time_update,
#         'Delete Time': cassandra_time_delete
#     })

# results_df = pd.DataFrame(results)

### Cassandra - Résultats

In [None]:
average_times = results_df.iloc[:, 1:].mean()

for col in ['Insertion Time', 'Read Time', 'Update Time', 'Delete Time']:
    results_df[col] = results_df[col].apply(lambda x: sum(x)/len(x) if isinstance(x, list) else x)

average_times = results_df.iloc[:, 1:].mean()

fig = go.Figure()


for rf in results_df['Replication Factor']:
    values = results_df[results_df['Replication Factor'] == rf].iloc[0, 1:].values
    values = [float(v) for v in values]

    fig.add_trace(go.Bar(x=['Insertion Time', 'Read Time', 'Update Time', 'Delete Time'], y=values, name=f'Replication Factor {rf}', text=[f"{v:.3f}s" for v in values], textposition='auto'))

fig.update_layout(title="Temps d'exécution des opérations CRUD par facteur de réplication", xaxis_title="Opérations CRUD", yaxis_title="Temps d'exécution (secondes)", barmode='group', template='plotly_white', legend=dict(title="Replication Factor"))

fig.show()

# Fin du notebook

In [None]:
# Tout fermer proprement
cassandra_session.shutdown() # Fermer la connexion Cassandra
cluster.shutdown() # Fermer la connexion Cassandra
mysql_engine.dispose() # Fermer la connexion MySQL

# Sources

- http://www-igm.univ-mlv.fr/~dr/XPOSE2010/Cassandra/modele.html

In [None]:
AstraD

