In [None]:
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt

In [None]:
customers = pd.read_csv('customers.csv')
products = pd.read_csv('products.csv')
transactions = pd.read_csv('transactions.csv')

# premier graphique

In [None]:
plt.figure(figsize=(7, 6))
ax = gender.plot(kind='bar', rot=0, color=["tab:pink", "tab:blue"])
ax.set_title("Ratio Hommes / Femmes", y = 1)
ax.set_xlabel('Gender')
ax.set_ylabel('Nombre')
ax.set_xticklabels(('Female', 'Male'))

for rect in ax.patches:
    y_value = rect.get_height()
    x_value = rect.get_x() + rect.get_width() / 2
    space = 1
    label = format(y_value)
    ax.annotate(label, (x_value, y_value), xytext=(0, space), textcoords="offset points", ha='center', va='bottom')    
plt.show()


In [None]:
customers_by_sex_birth = customers.groupby(['sex', 'birth']).size().reset_index(name='count')
pivot_customers = customers_by_sex_birth.pivot(index='birth', columns='sex', values='count').fillna(0)
pivot_customers['Total'] = pivot_customers.sum(axis=1)
pivot_customers_sorted = pivot_customers.sort_values(by='Total')
sns.set(style="whitegrid")
plt.figure(figsize=(15, 6))
pivot_customers[['f', 'm']].plot(kind='bar', stacked=True, color=['#ff9999', '#9999ff'], figsize=(15, 6))
plt.title('Nombre de Clients par Année de Naissance avec Distinction des Sexes')
plt.xlabel('Année de Naissance')
plt.ylabel('Nombre de Clients')
plt.xticks(rotation=45)
plt.legend(title='Sexe', labels=['Féminin', 'Masculin'])
plt.tight_layout()
plt.show()

In [None]:
current_year = pd.Timestamp('now').year
customers['age'] = current_year - customers['birth']
merged_data = transactions_clean.merge(customers, on='client_id')
merged_data = merged_data.merge(products, on='id_prod')
clients_agg = merged_data.groupby(['client_id', 'sex', 'age']).agg(
    frequency=('session_id', pd.Series.nunique),  
    total_revenue=('price', 'sum') 
).reset_index()
clients_agg['average_basket'] = clients_agg['total_revenue'] / clients_agg['frequency']
categ_revenue = merged_data.pivot_table(
    index='client_id', 
    columns='categ', 
    values='price', 
    aggfunc='sum', 
    fill_value=0
)
final_table = clients_agg.join(categ_revenue, on='client_id')
final_table

# Product nettoyé

In [None]:
product_clean = products[products["price"] >= 0]
print(product_clean)

# Transactions nettoyé

In [None]:
transactions_clean = transactions[~transactions["date"].str.startswith('test')]
print(transactions_clean)

# Graphique

In [None]:
genre_deux= customers["sex"]
custom_palette = {'m': 'blue', 'f': 'pink'}
plt.figure(figsize=(10, 6))
sns.countplot(data=product_clean, x='categ', hue=genre_deux, palette=custom_palette)
plt.title('Nombre d\'achats de livres par catégorie en fonction du genre')
plt.xlabel('Catégorie')
plt.ylabel('Nombre d\'achats')
plt.legend(title='Genre')
plt.xticks(rotation=45)
plt.tight_layout()

# Produits non vendus

In [None]:
jointure_outer = pd.merge(transactions, products, on='id_prod', how='outer')
non_vendus = jointure_outer[jointure_outer['session_id'].isna()]
non_vendus_final =non_vendus["id_prod"].count()
print("Nombre de produits non vendus :", non_vendus_final)

# Clients sans transactions

In [None]:
nombre_de_clients_sans_achat = 0
clients_sans_achat = set(customers['client_id']) - set(transactions['client_id'])
for client in clients_sans_achat:
    nombre_de_clients_sans_achat += 1
print("Nombre de clients n'ayant pas effectué d'achat :", nombre_de_clients_sans_achat)

# En prenant la variable nettoyée

In [None]:
nombre_de_clients_sans_test = 0
clients_sans_test = set(transactions['date'].str.startswith('test'))
for client in clients_sans_test:
    nombre_de_clients_sans_test += 1
print("Nombre de clients n'ayant pas effectué d'achat :", nombre_de_clients_sans_test)

In [None]:
nombre_de_clients_sans_achat_clean = 0
clients_sans_achat_clean = set(customers['client_id']) - set(transactions_clean['client_id'])

print("Noms des clients n'ayant pas effectué d'achat :")
for client_id in clients_sans_achat_clean:
    nombre_de_clients_sans_achat_clean += 1
    client_name = customers.loc[customers['client_id'] == client_id, 'client_id'].iloc[0]
    print(f"- {client_name}")

print("Nombre de clients n'ayant pas effectué d'achat :", nombre_de_clients_sans_achat_clean)

# Médiane des livres de toutes les catégories

In [None]:
median_prix_tous_livres = product_clean['price'].median()
print("Médiane des prix de tous les livres:", median_prix_tous_livres)

# Changement du produit sans prix

In [None]:
nouveau_produit = pd.DataFrame([{'id_prod': '0_2245', 'price': median_prix_tous_livres, 'categ': pd.NA}])
products_df_modifie = pd.concat([products, nouveau_produit], ignore_index=True)
produit_0_2245_ajoute = products_df_modifie[products_df_modifie['id_prod'] == '0_2245']
produit_0_2245_ajoute
products_df_modifie.loc[products_df_modifie['id_prod'] == '0_2245', 'categ'] = 0
produit_0_2245_mis_a_jour = products_df_modifie[products_df_modifie['id_prod'] == '0_2245']
produit_0_2245_mis_a_jour

# Corrélations

In [None]:
correlation_matrix = final_table[['age', 'frequency', 'total_revenue', 'average_basket', 0, 1, 2]].corr()
correlation_matrix