In [4]:
# Import des librairies
import pandas as pd
from sqlalchemy import (create_engine, MetaData, Table, Column, Integer,
                        String, Float, ForeignKey)
from sqlalchemy_schemadisplay import create_schema_graph

## 1. Création de la BD

In [6]:
# Chargement des fichiers csv en DF pandas
dataframes = {
    'clients.csv': pd.read_csv('data/Clients.csv', sep=';'),
    'employes.csv': pd.read_csv('data/Employes.csv', sep=';'),
    'fournisseurs.csv': pd.read_csv('data/Fournisseurs.csv', sep=';'),
    'produits.csv': pd.read_csv('data/Produits.csv', sep=';'),
    'ventes.csv': pd.read_csv('data/Ventes.csv', sep=';'),
    }

In [8]:
# Connection à la BD PostgreSQL : 
# nom_utilisateurr:mdp@adresse:port/nom_du_projet
engine = create_engine(
    'postgresql://laurent:test22@localhost:5432/test1',)

In [9]:
# Création d'un objet Metadata : 
# il va agir comme un conteneur pour organiser la structure de mon entrepôt 
# de données
metadata = MetaData()

In [10]:
# Création de la table des faits sur les ventes
# (données numériques qu'on peut agréger)
sales_fact = Table(
    'sales_fact', metadata,
    Column('VenteID', String, primary_key=True),
    Column('DateVente', String),
    Column('ClientID', String, ForeignKey('customers_dim.ClientID')),
    Column('EmployeID', String, ForeignKey('employes_dim.EmployeID')),
    Column('ProduitID', String, ForeignKey('products_dim.ProduitID')),
    Column('QuantiteVendue', Integer),
    Column('MontantTotal', Float),
)

In [11]:
# Création de la table de dimension sur les clients
customers_dim = Table(
    'customers_dim', metadata,
    Column('ClientID', String, primary_key=True),
    Column('Nom', String),
    Column('Prenom', String),
    Column('Adresse', String),
    Column('Email', String),
    Column('NumeroTelephone', String)
)

In [12]:
# Création de la table de dimension sur les employés
employes_dim = Table(
    'employes_dim', metadata,
    Column('EmployeID', String, primary_key=True),
    Column('Nom', String),
    Column('Prenom', String),
    Column('Fonction', String),
    Column('Email', String),
    Column('NumeroTelephone', String),
)

In [13]:
# Création de la table de dimension sur les produits
products_dim = Table(
    'products_dim', metadata,
    Column('ProduitID', String, primary_key=True),
    Column('NomProduit', String),
    Column('Description', String),
    Column('PrixUnitaire', Integer),
    Column('FournisseurID', String, ForeignKey('suppliers_dim.FournisseurID')),
)

In [14]:
# Création de la table de dimension sur les fournisseurs
suppliers_dim = Table(
    'suppliers_dim', metadata,
    Column('FournisseurID', String, primary_key=True),
    Column('NomFournisseur', String),
    Column('Adresse', String),
    Column('Email', String),
    Column('NumeroTelephone', String),
)

In [15]:
# Création des tables dans la BD, y compris les relations entre les tables
metadata.create_all(engine)

In [16]:
# Chargement des données dans l'entrepôt des données
with engine.connect() as conn:
    
    # Association des DF pandas avec les tables correspondantes à l'entrepôt
    df_to_table = {
        ''
        'clients.csv': customers_dim,
        'employes.csv': employes_dim,
        'fournisseurs.csv': suppliers_dim,
        'produits.csv': products_dim,
        'ventes.csv': sales_fact,
    }
    
    # Boucle parcourant chaque DF du dictionnaire 'dataframes'
    for table_name, df in dataframes.items():
        
        # Récupération de la table SQLAlchemy correspondante depuis le
        # dictionnaire 'dataframes'
        table_obj = df_to_table[table_name]
        
        # Insertion du contenu de la DF dans la table en ajoutant les données
        # si la table existe déjà, sans inclure l'index de la DF
        df.to_sql(table_obj.name, conn, if_exists='append', index=False)

In [17]:
# Création du diagramme ERD (schéma des tables et de leurs relations)
graph = create_schema_graph(
    engine=engine,
    metadata=metadata,
    show_datatypes=True, # type affecté à chaque colonne
    show_indexes=True,
    rankdir='LR', # orientation du schéma ('LR' = de gauche à droite)
    concentrate=False, # pas de fusion entre les relations des tables
)

In [18]:
# Exportation du schéma sous format png
graph.write_png('files/erd_schema.png')