![image](https://upload.wikimedia.org/wikipedia/commons/f/f9/Universit%C3%A9_de_Strasbourg.svg)

# Projet Benchmarking TDLE - Nicolas MARRA | Eddine NASRI

## Présentation du schéma

Le schéma utilisé pour ce projet repose sur un jeu de données OpenData disponible sur [data.gouv.fr](https://www.data.gouv.fr/fr/datasets/points-de-vente-sncf/#/community-reuses). Ce jeu de données décrit les points de vente SNCF, les informations suivantes sont présentes :

- Pays
- Adresse
- Ville
- Région
- Gare - code UIC
- Gare
- Type de point de vente
- Code Postal
- Modes de paiement acceptés (CB, Espèces, Chèque)


Exemple de données :
```csv
Pays        Adresse                   Ville         Région              Gare - code uic Gare                  Type de point de vente CodePostal CB  Espèces Chèque
FRANCE	275 AVENUE DE LA BOISSE	CHAMBERY	AUVERGNE- RHONE ALPES	87262386	SCR CHAMBERY	Poste de vente guichet	73000	Oui	Oui	Oui
FRANCE	1, PLACE DE L'ANCIENNE GARE	VALLON-PONT-D'ARC	AUVERGNE- RHONE ALPES	87392688	VALLON PONT D ARC O.T.	Poste de vente guichet	7150	Oui	Oui	Oui
FRANCE	PLACE HECTOR BERLIOZ	COTE-SAINT-ANDRE	AUVERGNE- RHONE ALPES	87392704	LA COTE ST ANDRE O.T.	Poste de vente guichet	38260	Oui	Oui	Oui
FRANCE	VALLON GARE GARE SNCF DE VALLON EN SULLY	HÉRISSON	AUVERGNE- RHONE ALPES	87641357	VALLON-EN-SULLY	Automates TER	3190	Oui	Non	Non
FRANCE	20 BD EUGENE DERUELLE	LYON	AUVERGNE- RHONE ALPES	87129650	CENTRE ETUDE MATERIEL VOYAGEUR	Poste de vente guichet	69003	Oui	Oui	Oui
FRANCE	70 RUE MAURICE FLANDIN	LYON	AUVERGNE- RHONE ALPES	87702480	CELLULE ALPHA LYON	Poste de vente guichet	69003	Oui	Oui	Oui
FRANCE	9 PLACE DE LA GARE	LUXEMBOURG	AUVERGNE- RHONE ALPES	87132449	LUXEMBOURG GARE	Poste de vente guichet	1616	Oui	Oui	Oui
FRANCE	AVENUE DU 2EME SPAHIS	SAINT-GERMAIN-AU-MONT-D'OR	AUVERGNE- RHONE ALPES	87721282	ST GERMAIN AU MONT D'OR	Poste de vente guichet	69650	Oui	Oui	Oui

```

## Présentation des SGBD choisis

Pour notre projet, nous avons choisi les systèmes de gestion de base de données suivants :

Comme système de gestion de base de données relationnelle, nous avons choisi PostgreSQL.

Comme système de gestion de base de données NoSQL, nous avons choisi **CouchDB**.

CouchDB est une base de données NoSQL orientée document qui stocke les données sous forme de documents JSON. Elle permet une gestion flexible des données sans schéma fixe et offre des fonctionnalités de réplication et de scalabilité.

### **Avantages et inconvénients**

#### - Avantages :

a) Flexibilité des données : Pas de schéma fixe, facilite l’ajout/modification de données.**

b) Réplication et scalabilité : Réplication facile et gestion distribuée des données.

#### - Inconvénients :

a) Performances limitées pour les requêtes complexes.

b) Consommation mémoire : La gestion des index peut être coûteuse.

c) Moins populaire que d’autres systèmes NoSQL.






# Préparation des SGBD



### Importation des bibliothèques

In [4]:
import time
import psycopg2
import requests
import csv

## Configuration des SGBD

### PostgreSQL

In [11]:
pg_config = {
    'dbname' : 'db_postgre',
    'user': 'admin',
    'password' : 'admin',
    'host': 'postgres',
    'port': 5432
}

### CouchDB

In [3]:
couchdb_url = "http://admin:password@localhost:5984"
couchdb_db_name = "db_couch"

## Chargement des données à partir de fichier CSV

In [5]:

def read_csv(file_path):
    """Lit un fichier CSV et retourne une liste de dictionnaires."""
    data = []
    with open(file_path, newline='', encoding='utf-8-sig') as csvfile:
        reader = csv.DictReader(csvfile, delimiter=';')
        for row in reader:
            data.append(row)
    return data


In [6]:
try:
    csv_file_path = '/home/points-vente.csv'
    data = read_csv(csv_file_path)
    print(f"{len(data)} enregistrements chargés depuis le fichier CSV.")
except Exception as e:
    print("Erreur lors du chargement du fichier CSV :", e)

3123 enregistrements chargés depuis le fichier CSV.


## Insertion des données dans PostgreSQL

In [12]:
def insert_postgres(data):
    """Insère les données dans PostgreSQL et mesure le temps d'exécution."""
    try:
        conn = psycopg2.connect(**pg_config)
        cur = conn.cursor()

        # Création de la table si elle n'existe pas
        cur.execute("""
            CREATE TABLE IF NOT EXISTS vente_sncf (
                pays TEXT,
                adresse TEXT,
                ville TEXT,
                region TEXT,
                gare_code_uic TEXT,
                gare TEXT,
                type_point_vente TEXT,
                code_postal TEXT,
                cb BOOLEAN,
                especes BOOLEAN,
                cheque BOOLEAN
            );
        """)
        conn.commit()

        start_time = time.time()
        for row in data:
            print(row)
            cur.execute("""
                INSERT INTO vente_sncf (pays, adresse, ville, region, gare_code_uic, gare, type_point_vente, code_postal, cb, especes, cheque)
                VALUES (%s, %s, %s, %s, %s, %s, %s, %s, %s, %s, %s)
            """, (
                row['Pays'], row['Adresse'], row['Ville'], row['Région'], row['Gare - code uic'], row['Gare'],
                row['Type de point de vente'], row['CodePostal'], row['CB'] == "Oui", row['Espèces'] == "Oui", row['Chèque'] == "Oui"
            ))
        conn.commit()
        elapsed_time = time.time() - start_time
        cur.close()
        conn.close()
        return elapsed_time
    except Exception as e:
        print("Erreur PostgreSQL :", e)

### Mesure du temps d'insertion pour PostgreSQL

In [13]:
time_postgres = insert_postgres(data)
print(f"Temps d'insertion PostgreSQL : {time_postgres:.2f} secondes")


{'Pays': 'FRANCE', 'Adresse': '275 AVENUE DE LA BOISSE', 'Ville': 'CHAMBERY', 'Région': 'AUVERGNE- RHONE ALPES', 'Gare - code uic': '87262386', 'Gare': 'SCR CHAMBERY', 'Type de point de vente': 'Poste de vente guichet', 'CodePostal': '73000', 'CB': 'Oui', 'Espèces': 'Oui', 'Chèque': 'Oui'}
{'Pays': 'FRANCE', 'Adresse': "1, PLACE DE L'ANCIENNE GARE", 'Ville': "VALLON-PONT-D'ARC", 'Région': 'AUVERGNE- RHONE ALPES', 'Gare - code uic': '87392688', 'Gare': 'VALLON PONT D ARC O.T.', 'Type de point de vente': 'Poste de vente guichet', 'CodePostal': '7150', 'CB': 'Oui', 'Espèces': 'Oui', 'Chèque': 'Oui'}
{'Pays': 'FRANCE', 'Adresse': 'PLACE HECTOR BERLIOZ', 'Ville': 'COTE-SAINT-ANDRE', 'Région': 'AUVERGNE- RHONE ALPES', 'Gare - code uic': '87392704', 'Gare': 'LA COTE ST ANDRE O.T.', 'Type de point de vente': 'Poste de vente guichet', 'CodePostal': '38260', 'CB': 'Oui', 'Espèces': 'Oui', 'Chèque': 'Oui'}
{'Pays': 'FRANCE', 'Adresse': 'VALLON GARE GARE SNCF DE VALLON EN SULLY', 'Ville': 'HÉRISSO

## Insertion des données dans CouchDB

In [34]:
def insert_couchdb(data):
    """Insère les données dans CouchDB et mesure le temps d'exécution."""
    try:
        # Création de la base si elle n'existe pas
        requests.put(f"{couchdb_url}/{couchdb_db_name}")

        start_time = time.time()
        for row in data:
            doc = {
                'pays': row['Pays'],
                'adresse': row['Adresse'],
                'ville': row['Ville'],
                'region': row['Région'],
                'gare_code_uic': row['Gare - code uic'],
                'gare': row['Gare'],
                'type_point_vente': row['Type de point de vente'],
                'code_postal': row['CodePostal'],
                'cb': row['CB'] == "Oui",
                'especes': row['Espèces'] == "Oui",
                'cheque': row['Chèque'] == "Oui"
            }
            response = requests.post(f"{couchdb_url}/{couchdb_db_name}", json=doc)
            if response.status_code not in [200, 201]:
                print("Erreur CouchDB :", response.text)
        elapsed_time = time.time() - start_time
        return elapsed_time
    except Exception as e:
        print("Erreur CouchDB :", e)

### Mesure du temps pour CouchDB

In [35]:
time_couchdb = insert_couchdb(data)
print(f"Temps d'insertion CouchDB : {time_couchdb:.2f} secondes")


Erreur CouchDB : name 'couchdb_url' is not defined


TypeError: unsupported format string passed to NoneType.__format__

## Comparaison des temps d'insertion entre les deux SGBD

In [None]:
print(f"PostgreSQL : {time_postgres:.2f} secondes")
print(f"CouchDB : {time_couchdb:.2f} secondes")
