In [None]:
!pip install opendatasets --upgrade --quiet
!pip install pandas --upgrade --quiet
!pip install polars --upgrade --quiet

In [None]:
import polars as pl
import pandas as pd
import opendatasets as od
import time
import os

In [None]:
dataset = 'https://www.kaggle.com/datasets/mkechinov/ecommerce-behavior-data-from-multi-category-store'


In [None]:
data_oct = './ecommerce-behavior-data-from-multi-category-store/2019-Oct.csv'
data_nov = './ecommerce-behavior-data-from-multi-category-store/2019-Nov.csv'
timing_path = '../stats/timings.csv' 

In [None]:
if not(os.path.exists(data_oct) and os.path.exists(data_nov)):
    od.download(dataset)

In [None]:
if os.path.exists(timing_path):
    timing = pd.read_csv(timing_path, index_col=0)
else:
    timing = pd.DataFrame(columns=['Timing_Pandas', 'Timing_Polars'])

1. Lecture des deux jeux de données et concatenation dans un seul dataset

In [None]:
ex = 1

start_time = time.time()

data_raw_oct = pl.read_csv(data_oct)
data_raw_nov = pl.read_csv(data_nov)

data = pl.concat([data_raw_oct, data_raw_nov])

end_time = time.time()

execution_time = round(end_time - start_time, 2)

timing.loc[ex, 'Timing_Polars'] = execution_time

print(f"Temps d'exécution de l'exercise {ex} : {execution_time} secondes")

2.	Affichage des informations basiques du jeu de données : quantité de lignes, colonnes, types des données, etc.

In [None]:
ex = 2

start_time = time.time()

print(f"Quantité de lignes : {data.height}")

print(data.head())

print(data.describe())

print(data.dtypes)

end_time = time.time()

execution_time = round(end_time - start_time, 2)

timing.loc[ex, 'Timing_Polars'] = execution_time

print(f"Temps d'exécution de l'exercise {ex} : {execution_time} secondes")

3.	Affichage de la quantité de produits, marques et utilisateurs dans le dataset, sans répétitions

In [None]:
ex = 3

start_time = time.time()

print(f"Quantité de produits uniques dans le dataset :")
print(data.select(['product_id']).unique().height)
print(f"Quantité de marques uniques dans le dataset :")
print(data.select(['brand']).unique().height)
print(f"Quantité d'utilisateurs uniques dans le dataset :")
print(data.select(['user_id']).unique().height)

end_time = time.time()

execution_time = round(end_time - start_time, 2)

timing.loc[ex, 'Timing_Polars'] = execution_time

print(f"Temps d'exécution de l'exercise {ex} : {execution_time} secondes")

4. Affichage du top 5 de marques et catégories avec le prix moyen le plus élevé

In [None]:
ex = 4

start_time = time.time()

result_brand = data.group_by('brand').agg(avg_price = pl.col('price').mean().round(2))
result_brand = result_brand.sort(by='avg_price', descending=True)
print(result_brand.head())

result_category = data.group_by('category_id').agg(avg_price = pl.col('price').mean().round(2))
result_category = result_category.sort(by='avg_price', descending=True)
print(result_category.head())

end_time = time.time()

execution_time = round(end_time - start_time, 2)

timing.loc[ex, 'Timing_Polars'] = execution_time

print(f"Temps d'exécution de l'exercise {ex} : {execution_time} secondes")

5.	Calcul du min, max et moyenne de prix par marque et par catégorie

In [None]:
ex = 5

start_time = time.time()

result_brand = data.group_by('brand').agg(
    min_price = pl.col('price').min().round(2),
    max_price = pl.col('price').max().round(2),
    avg_price = pl.col('price').mean().round(2)
)
print(result_brand.head())

result_category = data.group_by('category_id').agg(
    min_price = pl.col('price').min().round(2),
    max_price = pl.col('price').max().round(2),
    avg_price = pl.col('price').mean().round(2)
)
print(result_category.head())


end_time = time.time()

execution_time = round(end_time - start_time, 2)

timing.loc[ex, 'Timing_Polars'] = execution_time

print(f"Temps d'exécution de l'exercise {ex} : {execution_time} secondes")

6.	Affichage des 5 prix les plus élevés

In [None]:
ex = 6

start_time = time.time()

result_price = data.select(['price']).unique().sort(by='price', descending=True)
print(result_price.head())

end_time = time.time()

execution_time = round(end_time - start_time, 2)

timing.loc[ex, 'Timing_Polars'] = execution_time

print(f"Temps d'exécution de l'exercise {ex} : {execution_time} secondes")

7.	Affichage de la quantité d’articles par marque et par catégorie, en utilisant une fonction d’agrégation

In [None]:
ex = 7

start_time = time.time()

result_brand = data.group_by('brand').agg(qty_articles = pl.col('product_id').count())
print(result_brand.head())

result_category = data.group_by('category_id').agg(qty_articles = pl.col('product_id').count())
print(result_category.head())

end_time = time.time()

execution_time = round(end_time - start_time, 2)

timing.loc[ex, 'Timing_Polars'] = execution_time

print(f"Temps d'exécution de l'exercise {ex} : {execution_time} secondes")

  8. Affichage de la quantité d’événements par type, en utilisant une fonction d’agrégation

In [None]:
ex = 8

start_time = time.time()

result = data.group_by('event_type').agg(qty_events = pl.col('event_time').count())
print(result.head())

end_time = time.time()

execution_time = round(end_time - start_time, 2)

timing.loc[ex, 'Timing_Polars'] = execution_time

print(f"Temps d'exécution de l'exercise {ex} : {execution_time} secondes")

9.	Création et affichage d'un tableau qui contient la quantité d’événements de chaque type par marque

In [None]:
ex = 9

start_time = time.time()

result = data.group_by(['event_type', 'brand']).agg(qty_events = pl.col('event_time').count())
print(result.head())

end_time = time.time()

execution_time = round(end_time - start_time, 2)

timing.loc[ex, 'Timing_Polars'] = execution_time

print(f"Temps d'exécution de l'exercise {ex} : {execution_time} secondes")

10. Création et affichage d'un tableau qui contient la quantité d’événements de chaque type par marque et utilisateur

In [None]:
ex = 10

start_time = time.time()

result = data.group_by(['event_type', 'brand', 'user_id']).agg(qty_events = pl.col('event_time').count())
print(result.head())

end_time = time.time()

execution_time = round(end_time - start_time, 2)

timing.loc[ex, 'Timing_Polars'] = execution_time

print(f"Temps d'exécution de l'exercise {ex} : {execution_time} secondes")

11. Affichage du percentage de données vides ou nulles par colonne

In [None]:
ex = 11

start_time = time.time()

print(data.null_count() * 100 / data.height)

end_time = time.time()

execution_time = round(end_time - start_time, 2)

timing.loc[ex, 'Timing_Polars'] = execution_time

print(f"Temps d'exécution de l'exercise {ex} : {execution_time} secondes")

12. Suppression de lignes vides si le total par colonne ne dépasse pâs 15%

In [None]:
ex = 12

start_time = time.time()

total = data.height
print(f"Total de lignes : {total}")

col_to_del = []

for col in data.columns:
    is_na = (data.select(pl.col(col)).null_count()*100/total).item()
    if 0<is_na<15:
        col_to_del.append(col)

filtered_data = data.drop_nulls(subset=col_to_del)

total = filtered_data.height
print(f"Total de lignes : {total}")
    
end_time = time.time()

execution_time = round(end_time - start_time, 2)

timing.loc[ex, 'Timing_Polars'] = execution_time

print(f"Temps d'exécution de l'exercise {ex} : {execution_time} secondes")

In [None]:
timing

In [None]:
timing.to_csv(timing_path)