In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import sqlite3 as sql

In [None]:
### Define the path to the file (a string in a variable 'db_file')
# if the data directory label is at the same level as the notebook,
# then the path is 'data/peace_import_auto.db'
db_file_address = '../data/peace_import_auto.db'

In [None]:
# Connexion à la base de données
try:
    cn = sql.connect(db_file_address)
    print("Connexion à la base de données réussie.")
except Exception as e:
    # En cas d'échec de la connexion
    print("Erreur lors de la connexion à la base de données :", e)
    raise


In [None]:
# Requête SQL pour extraire les 10 occurrences les plus fréquentes dans la colonne 'name'
query = """
SELECT name, COUNT(*) as occurrence
FROM dbp_occupation
GROUP BY name
ORDER BY occurrence DESC
LIMIT 10;
"""

In [None]:
# Exécuter la requête et charger les données dans un DataFrame
df = pd.read_sql_query(query, cn)
cn.close()

In [None]:
# Inspecter les premières lignes des données
print("Top 10 des noms les plus fréquents :")
print(df)

In [None]:
# Visualiser les 10 occurrences les plus fréquentes
plt.figure(figsize=(10, 6))
sns.barplot(x=df['occurrence'], y=df['name'], palette="viridis")
plt.title("Distribution des 10 occurrences les plus fréquentes dans la colonne 'name'")
plt.xlabel("Nombre d'occurrences")
plt.ylabel("Noms")
plt.tight_layout()

In [None]:
# Sauvegarder la visualisation en PNG
output_file = "top_10_name_distribution.png"
plt.savefig(output_file)
print(f"La visualisation a été sauvegardée sous : {output_file}")