In [None]:
import pandas as pd
from collections import Counter

# Lire le CSV
df = pd.read_csv("users.csv")

# Fonction pour nettoyer les colonnes string en listes
def clean_list(x):
    # Enlever les crochets, quotes, espaces, np.str_
    x = str(x).replace("np.str_", "")
    return [i.strip(" []'\"") for i in x.split(",") if i.strip(" []'\"")]

# Nettoyer les colonnes
df['interests'] = df['interests'].apply(clean_list)
df['activity_log'] = df['activity_log'].apply(clean_list)

# Vérification
print(df.head())

# -------------------------------
# Analyse simple
# -------------------------------

# Âge moyen et médiane
mean_age = df['age'].mean()
median_age = df['age'].median()
print(f"Âge moyen : {mean_age:.2f}, Médiane : {median_age}")

# Distribution des intérêts
all_interests = [interest for sublist in df['interests'] for interest in sublist]
interest_counts = Counter(all_interests)
print("Distribution des intérêts :", interest_counts)

# Distribution des activités
all_activities = [act for sublist in df['activity_log'] for act in sublist]
activity_counts = Counter(all_activities)
print("Distribution des activités :", activity_counts)

# Top 5 activités les plus fréquentes
print("Top 5 activités :", activity_counts.most_common(5))


In [None]:
  
# 2️⃣ Convertir les colonnes de type np.str_ en str normal
df['interests'] = df['interests'].apply(lambda x: [str(i) for i in x])

# 3️⃣ Analyse des âges
mean_age = df['age'].mean()
median_age = df['age'].median()
print(f"Âge moyen : {mean_age:.2f}, Médiane : {median_age}")

# 4️⃣ Distribution des centres d’intérêt
all_interests = sum(df['interests'].tolist(), [])
unique, counts = np.unique(all_interests, return_counts=True)
interest_counts = dict(zip(unique, counts))
print("Distribution des intérêts :", interest_counts)

# Chi-square pour vérifier uniformité
chi2_stat, p_val = stats.chisquare(counts)
print(f"Chi-square: {chi2_stat:.2f}, p-value: {p_val:.4f}")

# 5️⃣ Analyse des activités
# Nombre d'activités par utilisateur
df['num_activities'] = df['activity_log'].apply(len)

# Activité la plus fréquente pour chaque utilisateur
df['top_activity'] = df['activity_log'].apply(lambda x: max(set(x), key=x.count))

# Top 5 activités globales
all_activities = [act for sublist in df['activity_log'] for act in sublist]
from collections import Counter
top_activities_global = Counter(all_activities).most_common(5)

# 6️⃣ Affichage résumé
print("\nNombre d'activités par utilisateur :")
print(df[['name', 'num_activities', 'top_activity']])
print("\nTop 5 activités globales :", top_activities_global)

In [None]:
df.head()
