<div style="text-align: center;">
   <h1>Analyse d'un Grand Ensemble de Donn√©es de Ventes </h1>
</div>

## Importation des biblioth√®ques n√©cessaires
Le code importe plusieurs biblioth√®ques Python utilis√©es pour la gestion des fichiers, la manipulation des donn√©es et la gestion des types :

- **`h5py`** : Permet de travailler avec des fichiers HDF5, un format utilis√© pour stocker des donn√©es num√©riques complexes.
- **`os`** : Fournit une interface pour interagir avec le syst√®me d'exploitation (par exemple, manipulation des fichiers).
- **`time`** : Utilis√© pour mesurer le temps d'ex√©cution des op√©rations.
- **`typing`** : Permet de sp√©cifier les types de donn√©es dans le code (facilite la lisibilit√© et la gestion du code).
- **`sqlite3`** : Utilis√© pour interagir avec une base de donn√©es SQLite.
- **`pandas`** : Biblioth√®que essentielle pour la manipulation de donn√©es sous forme de DataFrame (tableaux bidimensionnels).
- **`modin.pandas`** : C'est une version parall√®le de pandas qui peut acc√©l√©rer les op√©rations sur les DataFrames en tirant parti de plusieurs c≈ìurs de CPU ou d'un cluster de machines. 


In [35]:
import h5py as hdf5
import os
import time
from typing import Optional
import sqlite3
import pandas as pd
# import modin.pandas as mpd

# üìÇ Chemin du fichier CSV et colonnes √† utiliser
path_file: str = "sales_data.csv"  
use_cols: list[str] = ['customer_id', 'product_id', 'quantity', 'price'] 

# ‚öôÔ∏è Types de donn√©es pour une gestion efficace de la m√©moire
dtypes: dict[str, str] = {
    'customer_id': 'uint32',  
    'product_id': 'uint16',   
    'quantity': 'uint8',      
    'price': 'float32',       
}

# üîß Configuration de la taille des chunks pour le traitement par lot
fraction: float = 0.01 
chunk_size_rows: int = 100000 

# üìä DataFrames globaux pour stocker les donn√©es
data: pd.DataFrame = pd.DataFrame()  
data_transaction: pd.DataFrame = pd.DataFrame()  


## les d√©corateurs :


## üõ°Ô∏è Gestion des erreurs avec le d√©corateur `check_fun_error`
>Ce d√©corateur est utilis√© pour capturer et g√©rer les erreurs qui surviennent lors de l'ex√©cution d'une fonction. Si une exception est lev√©e dans la fonction d√©cor√©e, elle sera intercept√©e, et un message d'erreur personnalis√© sera affich√©, suivi de l'arr√™t du programme.

In [36]:
# üõ°Ô∏è D√©corateur pour la gestion des erreurs
def check_fun_error(fun):
    def wrapper(*args, **kwargs):
        try:
            return fun(*args, **kwargs)
        except Exception as e:
            print(f"‚ùå An error occurred in function '{fun.__name__}': {str(e)}")
            exit(1)
    return wrapper

## ‚è≥ Mesure du temps d'ex√©cution avec le d√©corateur `timing`
>Ce d√©corateur mesure et affiche le temps d'ex√©cution d'une fonction. Il est utile pour analyser les performances des fonctions qui peuvent √™tre co√ªteuses en termes de temps de calcul, en particulier lors du traitement de grandes quantit√©s de donn√©es.

In [37]:
# ‚è≥ D√©corateur pour mesurer le temps d'ex√©cution d'une fonction
def timing(func):
    def wrapper(*args, **kwargs):
        start_time: float = time.time()
        result = func(*args, **kwargs)
        end_time: float = time.time()
        print(f"‚è±Ô∏è Temps d'ex√©cution de {func.__name__}: {end_time - start_time:.4f} secondes")
        return result
    return wrapper

## üõ†Ô∏è Connexion √† une base de donn√©es avec le d√©corateur `connect_to_db`
>Ce d√©corateur facilite la gestion de la connexion √† une base de donn√©es SQLite. Il cr√©e une connexion, passe cette connexion et le curseur de la base de donn√©es aux fonctions qui en ont besoin, puis ferme la connexion √† la fin de l'ex√©cution de la fonction

In [39]:

# üîå D√©corateur pour g√©rer la connexion √† la base de donn√©es SQLite
def connect_to_db(func):
    def wrapper(*args, **kwargs):
        try:
            # √âtablissement de la connexion √† la base de donn√©es
            connection = sqlite3.connect('sales.db')
            cursor = connection.cursor()
            kwargs['connection'] = connection  
            kwargs['cursor'] = cursor  
            print("üîå Connexion √† la base de donn√©es r√©ussie")
            
            return func(*args, **kwargs)
        
        except Exception as e:
            # Gestion des erreurs
            print(f"‚ùå Une erreur est survenue dans la fonction '{func.__name__}': {str(e)}")
        
        finally:
            # Fermeture de la connexion √† la base de donn√©es
            if 'connection' in locals():
                print("üîå Fermeture de la connexion √† la base de donn√©es")
                connection.commit()  
                connection.close() 
    return wrapper


## 1. √âchantillonnage et Sous-ensemble de Donn√©es
- T√¢che :
    - Charger un √©chantillon al√©atoire de `1 %` des lignes du fichier `sales_data.csv`.
    - S√©lectionner uniquement les colonnes `customer_id`, `product_id`, `quantity`, et `price`.
    - Sp√©cifier les types de donn√©es appropri√©s pour r√©duire la consommation de m√©moire.

In [None]:
# üì• Chargement du fichier CSV en chunks (morceaux)
@check_fun_error
def load_file_with_chunks(path_file : str) -> None:
    global data
    data = pd.DataFrame()
    try:
        for ch in pd.read_csv(path_file, usecols=use_cols, dtype=dtypes ,  chunksize=10000):
            sampled_chunk = ch.sample(frac=fraction, random_state=4)
            data = pd.concat([data, sampled_chunk], ignore_index=True)
    finally:
        if len(data) > 0:
            print("‚úÖ Les donn√©es ont √©t√© charg√©es avec succ√®s.")
        else:
             print("‚ö†Ô∏è Un probl√®me est survenu, les donn√©es sont vides.")
            
if len(data) == 0:
    load_file_with_chunks(path_file=path_file)
    
print("Taille des donn√©es: ", data.info())

‚úÖ Les donn√©es ont √©t√© charg√©es avec succ√®s.
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10000 entries, 0 to 9999
Data columns (total 4 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   customer_id  10000 non-null  uint32 
 1   product_id   10000 non-null  uint16 
 2   quantity     10000 non-null  uint8  
 3   price        10000 non-null  float32
dtypes: float32(1), uint16(1), uint32(1), uint8(1)
memory usage: 107.6 KB
Taille des donn√©es:  None


## 2. Conversion en Formats de Fichiers Efficaces
- T√¢che :
    - Convertir l'√©chantillon de donn√©es en formats Feather et Parquet.
    - Comparer la taille des fichiers et mesurer le temps de chargement pour chaque format.

In [41]:

# üîÑ Convertir les donn√©es en format Feather ou Parquet
@check_fun_error
@timing
def convert_to_feather_or_parquet(type_convert: str) -> None:
    global data
    type_convert = type_convert.lower()
    if type_convert == "feather":
        print("üì¶ Conversion au format Feather")
        return data.to_feather('data.feather')
    elif type_convert == "parquet":
        print("üì¶ Conversion au format Parquet")
        return data.to_parquet('data.parquet')
    else:
        print("‚ö†Ô∏è Format non pris en charge. Veuillez choisir entre 'feather' ou 'parquet'.")


# üìñ Lire les fichiers en diff√©rents formats (Feather, Parquet, CSV)
@check_fun_error
@timing
def read_files_feather_parquet_csv(type_file: str) -> Optional[pd.DataFrame]:
    type_file = type_file.lower()
    data.to_csv('data.csv', index=False)  
    if type_file == "feather":
        print("üìñ Lecture d'un fichier Feather")
        return pd.read_feather("data.feather")
    elif type_file == "parquet":
        print("üìñ Lecture d'un fichier Parquet")
        return pd.read_parquet("data.parquet")
    elif type_file == "csv":
        print("üìñ Lecture d'un fichier CSV")
        return pd.read_csv("data.csv")
    else:
        print("‚ö†Ô∏è Type de fichier non pris en charge. Choisissez parmi 'feather', 'parquet', ou 'csv'.")
        return None

# üìä Comparer les tailles de fichiers
@check_fun_error
def compare_size_files() -> None:

    data.to_csv('data.csv', index=False)
    file_size_csv = os.path.getsize('data.csv')
    file_size_feather = os.path.getsize('data.feather')
    file_size_parquet = os.path.getsize('data.parquet')

    print(f"üìè Taille du fichier CSV: {file_size_csv:.2f} octets")
    print(f"üìè Taille du fichier Feather: {file_size_feather:.2f} octets")
    print(f"üìè Taille du fichier Parquet: {file_size_parquet:.2f} octets")

    # Comparaison des tailles des fichiers
    if file_size_csv > file_size_feather and file_size_csv > file_size_parquet:
        print("üìÅ Le fichier CSV est le plus grand.")
    elif file_size_feather > file_size_csv and file_size_feather > file_size_parquet:
        print("üìÅ Le fichier Feather est le plus grand.")
    elif file_size_parquet > file_size_csv and file_size_parquet > file_size_feather:
        print("üìÅ Le fichier Parquet est le plus grand.")
    else:
        print("üìÅ Plusieurs fichiers ont des tailles √©quivalentes.")

# Utilisation des fonctions
print("#" * 60)
df = read_files_feather_parquet_csv("csv")
df = read_files_feather_parquet_csv("parquet")
df = read_files_feather_parquet_csv("feather")

print("#" * 60)
convert_to_feather_or_parquet("feather")

print("#" * 60)
convert_to_feather_or_parquet("parquet")

print("#" * 60)
compare_size_files()


############################################################
üìñ Lecture d'un fichier CSV
‚è±Ô∏è Temps d'ex√©cution de read_files_feather_parquet_csv: 0.0778 secondes
üìñ Lecture d'un fichier Parquet
‚è±Ô∏è Temps d'ex√©cution de read_files_feather_parquet_csv: 0.0336 secondes
üìñ Lecture d'un fichier Feather
‚è±Ô∏è Temps d'ex√©cution de read_files_feather_parquet_csv: 0.0242 secondes
############################################################
üì¶ Conversion au format Feather
‚è±Ô∏è Temps d'ex√©cution de convert_to_feather_or_parquet: 0.0032 secondes
############################################################
üì¶ Conversion au format Parquet
‚è±Ô∏è Temps d'ex√©cution de convert_to_feather_or_parquet: 0.0075 secondes
############################################################
üìè Taille du fichier CSV: 205935.00 octets
üìè Taille du fichier Feather: 110730.00 octets
üìè Taille du fichier Parquet: 159180.00 octets
üìÅ Le fichier CSV est le plus grand.


## 3. Utilisation de HDF5
- T√¢che :
    - Cr√©er un fichier HDF5 et stocker l'√©chantillon de donn√©es dans une table appel√©e `sales_sample`.
    - Ajouter une autre table contenant les transactions dont le prix est sup√©rieur √† `100 DH`.
    - Lire les 5 premi√®res lignes de la table `sales_sample`.

In [42]:

# üíæ Sauvegarder les donn√©es dans un fichier HDF5
@check_fun_error
def file_hdf5(file_name: str, data_transaction_supp_100: pd.DataFrame) -> None:

    try:
        # Ouverture du fichier HDF5 en mode √©criture
        with hdf5.File(file_name, "w") as hd5_file:
            # Cr√©ation des datasets dans le fichier HDF5
            hd5_file.create_dataset('sales_sample', data=data)
            hd5_file.create_dataset('sales_high_transaction', data=data_transaction_supp_100)
        
        print("‚úÖ Donn√©es sauvegard√©es avec succ√®s dans le fichier HDF5.")
    
    except Exception as e:
        # En cas d'erreur, afficher un message et sortir
        print(f"‚ùå Une erreur est survenue : {str(e)}")

# üìñ Lire les cinq premi√®res lignes du fichier HDF5
@check_fun_error
def read_first_five_rows_from_hdf5(file_name: str) -> None:
    try:
        # Ouverture du fichier HDF5 en mode lecture
        with hdf5.File(file_name, 'r') as hdf:
            
            sales_sample_data = hdf['sales_sample'][0:5]
            print(sales_sample_data)
            print('#' * 60)
            df = pd.DataFrame(sales_sample_data , columns=data.columns)
            print(df.head())
    
    except KeyError:
        # Si le dataset n'existe pas dans le fichier
        print("‚ùå Cl√© 'sales_sample' non trouv√©e dans le fichier HDF5.")
    except Exception as e:
        # En cas d'erreur g√©n√©rale
        print(f"‚ùå Une erreur est survenue lors de la lecture du fichier HDF5 : {str(e)}")


data_transaction_supp_100 = data[data.price > 100]

# Sauvegarde des donn√©es dans le fichier HDF5
file_hdf5('sales_data.h5', data_transaction_supp_100=data_transaction_supp_100)

# Lecture des cinq premi√®res lignes du fichier HDF5
read_first_five_rows_from_hdf5('sales_data.h5')


‚úÖ Donn√©es sauvegard√©es avec succ√®s dans le fichier HDF5.
[[7.39730000e+04 9.20000000e+02 3.00000000e+00 4.11279999e+02]
 [8.43620000e+04 2.06000000e+02 1.00000000e+01 2.34100006e+02]
 [2.46190000e+04 7.11200000e+03 5.00000000e+00 3.37130005e+02]
 [5.21000000e+03 3.92000000e+03 7.00000000e+00 1.04580002e+02]
 [7.42710000e+04 4.99200000e+03 2.00000000e+00 9.20000000e+01]]
############################################################
   customer_id  product_id  quantity       price
0      73973.0       920.0       3.0  411.279999
1      84362.0       206.0      10.0  234.100006
2      24619.0      7112.0       5.0  337.130005
3       5210.0      3920.0       7.0  104.580002
4      74271.0      4992.0       2.0   92.000000


## 4. Lecture par Morceaux
- T√¢che :
    - Lire le fichier `sales_data.csv` par morceaux de `100 000` lignes.
    - Filtrer les transactions ayant une quantit√© sup√©rieure √† `10` pour chaque morceau.
    - Combiner les r√©sultats filtr√©s dans un seul DataFrame et calculer la valeur totale des ventes `(quantit√© * prix)`.

In [43]:

# üîÑ Traitement du fichier CSV par morceaux et renvoi des r√©sultats
@check_fun_error
def read_file_from_rows(file_path: str, chunk_size: int) -> pd.DataFrame:
    for chunk in pd.read_csv(file_path, chunksize=chunk_size): 
        yield chunk

# üßÆ Combiner les transactions et calculer la valeur totale
@check_fun_error
def combine_and_calcul_total(min_qt: int) -> None:
    global data_transaction
    data_transaction = pd.DataFrame()

    # Lecture du fichier par morceaux et filtrage
    for chunk in read_file_from_rows('sales_data.csv', chunk_size=chunk_size_rows):
     
        data_transaction = pd.concat([data_transaction, chunk[chunk.quantity > min_qt]], ignore_index=False)

    # Calcul de la valeur totale des transactions
    data_transaction['total_value'] = data_transaction['price'] * data_transaction['quantity']
    total = data_transaction['total_value'].sum()

    # Affichage des 10 premi√®res lignes et du total
    print(f"üìä Donn√©es (Premi√®res {chunk_size_rows} lignes) : \n", data_transaction.head(10))
    print("üíµ Valeur totale:", total)


# Exemple d'utilisation avec une quantit√© minimale de 5
combine_and_calcul_total(5)

üìä Donn√©es (Premi√®res 100000 lignes) : 
     transaction_id  customer_id  product_id  quantity   price  \
0                1        15796         111         7  336.48   
4                5         6266        7572         7   39.62   
5                6        82387        9041         6   60.97   
10              11        16024        7658         8   26.89   
11              12        41091        3227         9  290.79   
14              15          770        3597        10  149.93   
16              17        62956        9581         7  380.04   
21              22        53708        4655         8  376.55   
23              24        28694        9645         7  338.83   
25              26        93017        1958         7   81.08   

   transaction_date         region  total_value  
0        2023-10-03  North America      2355.36  
4        2023-07-04  North America       277.34  
5        2021-11-26  North America       365.82  
10       2021-08-11      Australia     

## 5. Chargement dans une Base de Donn√©es SQLite
- T√¢che :
    - Cr√©er une base de donn√©es SQLite et charger l'int√©gralit√© du fichier `sales_data.csv` dans une table appel√©e `sales`.
    - Ex√©cuter une requ√™te SQL pour extraire les transactions dans la r√©gion `Europe` avec un prix sup√©rieur √† `50 DH`.
    - Calculer la valeur totale des ventes pour ces transactions.

In [44]:
import pandas as pd
import sqlite3
from typing import Optional

# üõ¢Ô∏è Convertir un fichier CSV en base de donn√©es SQL
@check_fun_error
@connect_to_db
def convert_csv_to_sql_db(connection: sqlite3.Connection, cursor: Optional[sqlite3.Cursor] = None) -> None:

    # Conversion des donn√©es en base de donn√©es SQL (Table 'sales')
    data_transaction.to_sql('sales', connection, if_exists='replace', index=False)
    print("‚úÖ Donn√©es CSV converties en base de donn√©es SQL avec succ√®s!")


# üîç S√©lectionner des transactions sp√©cifiques depuis la base de donn√©es
@check_fun_error
@connect_to_db
def select_transaction_group_by_eur(cursor: sqlite3.Cursor, connection: Optional[sqlite3.Connection] = None) -> pd.DataFrame:

    # Ex√©cution de la requ√™te SQL pour filtrer les transactions par r√©gion Europe
    stm = cursor.execute("""SELECT * FROM sales WHERE region='Europe' """)
    # R√©cup√©ration des r√©sultats et conversion en DataFrame
    rows = pd.DataFrame(stm.fetchall(), columns=data_transaction.columns)
    return rows


# Conversion du fichier CSV en base de donn√©es SQL
convert_csv_to_sql_db()

# S√©lectionner et afficher les transactions de la r√©gion 'Europe'
rows = select_transaction_group_by_eur()
print(rows.head())


üîå Connexion √† la base de donn√©es r√©ussie
‚úÖ Donn√©es CSV converties en base de donn√©es SQL avec succ√®s!
üîå Fermeture de la connexion √† la base de donn√©es
üîå Connexion √† la base de donn√©es r√©ussie
üîå Fermeture de la connexion √† la base de donn√©es
   transaction_id  customer_id  product_id  quantity   price transaction_date  \
0              59        67122        5281         9   23.44       2020-11-08   
1              79        40398        5476         7   37.09       2022-10-01   
2              83        55592        1249         9  336.71       2022-01-19   
3              84        89813        7023        10   79.86       2023-05-26   
4              94        39100        1501        10  318.90       2022-05-17   

   region  total_value  
0  Europe       210.96  
1  Europe       259.63  
2  Europe      3030.39  
3  Europe       798.60  
4  Europe      3189.00  


# R√©ponses aux Questions du TP
### 1. √âchantillonnage et Sous-ensemble de Donn√©es
- Pourquoi est-il utile de charger un √©chantillon al√©atoire de donn√©es plut√¥t que l'ensemble complet ?
  - Permet d‚Äô√©conomiser la m√©moire.
  - Acc√©l√®re les analyses.
  - Permet de tester les scripts sur un sous-ensemble repr√©sentatif avant de travailler sur l‚Äôensemble des donn√©es.

- Comment la sp√©cification des types de donn√©es peut-elle r√©duire la consommation de m√©moire ?
  - En choisissant des types de donn√©es plus petits, comme int32, float32 ou category.

---

### 2. Conversion en Formats de Fichiers Efficaces
- Quels sont les avantages des formats Feather et Parquet par rapport au format CSV ?
  - **`Efficacit√© en taille`** : Feather et Parquet compressent les donn√©es, r√©duisant ainsi la taille des fichiers.
  - **`Rapidit√©`** : Ces formats permettent une lecture et une √©criture plus rapides.
  - **`Structure binaire`** : Mieux adapt√©s pour manipuler des donn√©es complexes avec des m√©tadonn√©es, contrairement au CSV, qui est un format texte.

- Quand pr√©f√©rer Feather √† Parquet?
  - **`Feather`** : Id√©al pour un usage rapide en Python, particuli√®rement avec pandas pour des manipulations en m√©moire.
  - **`Parquet`** : Pr√©f√©r√© pour les projets n√©cessitant une compatibilit√© avec plusieurs outils (Hadoop, Spark) et une meilleure compression pour les donn√©es volumineuses.

---

### 3. Utilisation de HDF5
-Qu'est-ce qu'un fichier HDF5 et comment est-il structur√© ?
  - Un fichier HDF5 est un format binaire hi√©rarchique con√ßu pour organiser et stocker de grandes quantit√©s de donn√©es.
  - Structure :
    - **`Groupes`** : Similaires √† des dossiers.
    - **`Datasets`** : Similaires √† des fichiers.

-Pourquoi utiliser HDF5 plut√¥t qu'un fichier CSV ?
  - **`Efficacit√©`** : Lecture/√©criture plus rapides pour de grands volumes de donn√©es.
  - **`Compression`** : R√©duction de la taille des fichiers.
  - **`Flexibilit√©`** : Supporte des structures complexes et permet d‚Äôacc√©der √† des parties sp√©cifiques sans charger tout le fichier.

---

### 4. Lecture par Morceaux
- Pourquoi lire un fichier volumineux par morceaux ?
  - Pour √©viter de d√©passer la capacit√© de la m√©moire vive (RAM).
  - Permet un traitement progressif des donn√©es volumineuses.

- Comment filtrer et combiner des donn√©es provenant de morceaux ?
  - Utiliser une boucle avec pandas.read_csv() et le param√®tre chunksize.
  - Appliquer des filtres sur chaque morceau.
  - Combiner les r√©sultats √† l‚Äôaide de pd.concat().

---

### 5. Chargement dans une Base de Donn√©es
- Quels sont les avantages de stocker des donn√©es dans une base de donn√©es SQLite plut√¥t que dans un fichier CSV ?
  - **`Requ√™tes complexes`** : Permet d‚Äôex√©cuter des requ√™tes SQL pour analyser efficacement les donn√©es.
  - **`Structure`** : Organisation claire avec des types d√©finis.
  - **`Performances`** : Acc√®s et filtrage des donn√©es sp√©cifiques plus rapides.

- Comment ex√©cuter des requ√™tes SQL sur une base de donn√©es SQLite √† partir de Python ?
  - Utiliser la biblioth√®que sqlite3 :
    ```python
    import sqlite3
    
    connection = sqlite3.connect('nom_base_donne.db')
    cursor = connection.cursor()
    cursor.execute("Requete")
    connection.commit()
    connection.close()

<div style="text-align: center;">
   <h2>Mohamed BELANNAB </h2>
</div>