In [6]:
import sqlite3
import csv
import re  

In [7]:
con = sqlite3.connect("projet.db")
cur = con.cursor()

In [8]:
cur.execute("""CREATE TABLE IF NOT EXISTS entreprise (
                    entreprise_id INTEGER NOT NULL,
                    nom VARCHAR,
                    domaine VARCHAR,
                    nombre_avis INTEGER,
                    note_trustscore FLOAT,
                    PRIMARY KEY (entreprise_id)
               )""")

res = cur.execute("SELECT name FROM sqlite_master")
res.fetchone()

('entreprise',)

In [9]:


# Ouverture du fichier CSV (remplacez "votre_fichier.csv" par le nom de votre fichier CSV)
with open("DonneesOverViewSQL.csv", "r") as csvfile:
    # Création d'un objet DictReader pour lire le fichier CSV
    csvreader = csv.DictReader(csvfile)
    
    # Initialisation de l'entreprise_id à 1
    entreprise_id = 1
    
    # Itération à travers chaque ligne du fichier CSV
    for row in csvreader:
        # Extraction des données de chaque colonne
        nom = row["Nom"]
        domaine = row["Domaine"]
        
        # Utilisation d'une expression régulière pour extraire le nombre d'avis
        nombre_avis_texte = row["Avis"]
        nombre_avis_match = re.search(r'\d+(?:,\d+)?', nombre_avis_texte)
        if nombre_avis_match:
            nombre_avis = int(nombre_avis_match.group().replace(',', ''))
        else:
            nombre_avis = 0  # Valeur par défaut si aucun nombre n'est trouvé
        note_trustscore = row["Note"]
        
        # Requête SQL d'insertion des données dans la table
        cur.execute("INSERT INTO entreprise (entreprise_id, nom, domaine, nombre_avis, note_trustscore) VALUES (?, ?, ?, ?, ?)",
                       (entreprise_id, nom, domaine, nombre_avis, note_trustscore))
        
        # Incrémentation de l'entreprise_id pour la prochaine itération
        entreprise_id += 1


In [10]:
cur.execute("SELECT * FROM entreprise LIMIT 20")
resultats = cur.fetchall()
for row in resultats:
    print(row)

(1, 'Boomerang Pet ID Tags', 'Pet Supply Store', 10985, 4.9)
(2, 'Dog Tag Art', 'Pet Store', 4052, 4.9)
(3, 'Paw Print Genetics', 'Veterinarian', 3471, 4.9)
(4, 'TadiBrothers', 'Truck Parts Supplier', 1748, 4.9)
(5, 'Champlain Valley Organics LLC - Vermont Pure CBD', 'Herbalist', 997, 4.9)
(6, 'Bluegrass Hemp Oil', 'Animal Hospital', 861, 4.9)
(7, 'CollarTags', 'Animals & Pets', 844, 4.9)
(8, 'PopArtYou', 'Gift Shop', 576, 4.9)
(9, 'Healing Harbors', 'Wellness Center', 489, 4.9)
(10, 'Wag + Tail', 'Pet Store', 254, 4.9)
(11, 'Oaktree Memorials', 'Decoration and Interior Design Store', 145, 4.9)
(12, 'The Doting Dog Company', 'Pet Supply Store', 103, 4.9)
(13, "Life's Abundance", 'Pet Store', 9956, 4.8)
(14, 'Nomador', 'Pet Sitter', 7924, 4.8)
(15, 'Pawrade', 'Pet Adoption Service', 3804, 4.8)
(16, 'TrainPetDog', 'Dog Trainer', 3294, 4.8)
(17, 'DogWatch Hidden Fences', 'Pet Store', 3212, 4.8)
(18, 'ValuePetSupplies', 'Animal Feed Store', 2896, 4.8)
(19, 'Keystone Puppies', 'Pet Store', 

In [11]:
cur.execute("""CREATE TABLE IF NOT EXISTS categorie (
                    categorie_id INTEGER NOT NULL,
                    nom VARCHAR,
                    PRIMARY KEY (categorie_id)
               )""")

res = cur.execute("SELECT name FROM sqlite_master")
res.fetchall()

[('entreprise',), ('categorie',)]

In [12]:
# Ouverture du fichier CSV (remplacez "votre_fichier.csv" par le nom de votre fichier CSV)
with open("DonneesOverViewSQL.csv", "r") as csvfile:
    # Création d'un objet DictReader pour lire le fichier CSV
    csvreader = csv.DictReader(csvfile)
    
    # Ensemble pour stocker temporairement les catégories uniques
    categories_uniques = set()
    
    # Itération à travers chaque ligne du fichier CSV
    for row in csvreader:
        # Extraction de la catégorie de chaque ligne
        categorie = row["Categorie"].strip()  # Utilisez la colonne appropriée
        
        # Ajout de la catégorie à l'ensemble
        categories_uniques.add(categorie)

# Initialisation de l'entreprise_id à 1
categorie_id = 1

# Itération à travers chaque catégorie triée
for categorie in categories_uniques:
    # Requête SQL d'insertion sans doublon dans la table categorie
    cur.execute("INSERT INTO categorie (categorie_id, nom) VALUES (?,?)", (categorie_id, categorie))
    categorie_id += 1

In [13]:
cur.execute("SELECT * FROM categorie LIMIT 30")
resultats = cur.fetchall()
for row in resultats:
    print(row)


(1, 'animals_pets')
(2, 'restaurants_bars')
(3, 'vehicles_transportation')
(4, 'home_services')
(5, 'travel_vacation')
(6, 'shopping_fashion')
(7, 'health_medical')
(8, 'money_insurance')
(9, 'electronics_technology')
(10, 'legal_services_government')
(11, 'events_entertainment')
(12, 'business_services')
(13, 'education_training')
(14, 'media_publishing')
(15, 'hobbies_crafts')
(16, 'utilities')
(17, 'public_local_services')
(18, 'sports')
(19, 'home_garden')


In [14]:
cur.execute("""CREATE TABLE IF NOT EXISTS entreprise_categorie (
                    entreprise_id INTEGER NOT NULL,
                    categorie_id INTEGER NOT NULL,
                    FOREIGN KEY (entreprise_id) REFERENCES entreprise (entreprise_id),
                    FOREIGN KEY (categorie_id) REFERENCES categorie (categorie_id)
               )""")

res = cur.execute("SELECT name FROM sqlite_master")
res.fetchall()

[('entreprise',), ('categorie',), ('entreprise_categorie',)]

In [15]:
# Ouverture du fichier CSV (remplacez "votre_fichier.csv" par le nom de votre fichier CSV)
with open("DonneesOverViewSQL.csv", "r") as csvfile:
    # Création d'un objet DictReader pour lire le fichier CSV
    csvreader = csv.DictReader(csvfile)
    
    # Itération à travers chaque ligne du fichier CSV
    for row in csvreader:
        # Extraction des données de chaque colonne
        nom_entreprise = row["Nom"]
        categorie = row["Categorie"].strip()  # Utilisez la colonne appropriée
        
        # Obtention de l'ID de l'entreprise en fonction du nom
        cur.execute("SELECT entreprise_id FROM entreprise WHERE nom = ?", (nom_entreprise,))
        entreprise_id = cur.fetchone()
        
        # Obtention de l'ID de la catégorie en fonction du nom
        cur.execute("SELECT categorie_id FROM categorie WHERE nom = ?", (categorie,))
        categorie_id = cur.fetchone()
        
        # Vérification si les IDs ont été trouvés
        if entreprise_id and categorie_id:
            # Insertion dans la table entreprise_categorie
            cur.execute("INSERT INTO entreprise_categorie (entreprise_id, categorie_id) VALUES (?, ?)", (entreprise_id[0], categorie_id[0]))

In [16]:
cur.execute("SELECT * FROM entreprise_categorie LIMIT 30")
resultats = cur.fetchall()
for row in resultats:
    print(row)

(1, 1)
(2, 1)
(3, 1)
(4, 1)
(5, 1)
(6, 1)
(7, 1)
(8, 1)
(9, 1)
(10, 1)
(11, 1)
(12, 1)
(13, 1)
(14, 1)
(15, 1)
(16, 1)
(17, 1)
(18, 1)
(19, 1)
(20, 1)
(1, 1)
(2, 1)
(3, 1)
(4, 1)
(5, 1)
(6, 1)
(7, 1)
(8, 1)
(9, 1)
(10, 1)


In [20]:
query = '''
    SELECT COUNT(a.entreprise_id) AS nombre_entreprises_plusieurs_categories
    FROM (
        SELECT entreprise_id, COUNT(categorie_id) AS nombre_categories
        FROM entreprise_categorie
        GROUP BY entreprise_id
        HAVING nombre_categories > 1
    ) AS a
'''

# Exécution de la requête
cur.execute(query)
result = cur.fetchone()

# Affichage du résultat
if result:
    nombre_entreprises = result[0]
    print(f"Nombre d'entreprises avec plus d'une catégorie : {nombre_entreprises}")

Nombre d'entreprises avec plus d'une catégorie : 308


In [119]:
con.commit()
con.close()