In [4]:
import pandas as pd
from mlxtend.preprocessing import TransactionEncoder
from mlxtend.frequent_patterns import apriori

# 1. Laden des Datensatzes
data = pd.read_csv('shopping.csv')

# 2. Daten erkunden
print(data.head())  # Anzeigen der ersten fünf Zeilen des Datensatzes
print(data.info())  # Überblick über den Datensatz


             Item 1               Item 2          Item 3  \
0      citrus fruit  semi-finished bread       margarine   
1    tropical fruit               yogurt          coffee   
2        whole milk                  NaN             NaN   
3         pip fruit               yogurt    cream cheese   
4  other vegetables           whole milk  condensed milk   

                     Item 4 Item 5 Item 6 Item 7 Item 8 Item 9 Item 10  ...  \
0               ready soups    NaN    NaN    NaN    NaN    NaN     NaN  ...   
1                       NaN    NaN    NaN    NaN    NaN    NaN     NaN  ...   
2                       NaN    NaN    NaN    NaN    NaN    NaN     NaN  ...   
3              meat spreads    NaN    NaN    NaN    NaN    NaN     NaN  ...   
4  long life bakery product    NaN    NaN    NaN    NaN    NaN     NaN  ...   

  Item 23 Item 24 Item 25 Item 26 Item 27 Item 28 Item 29 Item 30 Item 31  \
0     NaN     NaN     NaN     NaN     NaN     NaN     NaN     NaN     NaN   
1     NaN 

In [7]:
  import pandas as pd

# Laden der CSV-Datei
df = pd.read_csv('shopping.csv')

# Entfernen der NaN-Werte und Umwandeln in eine Liste von Listen
baskets = df.apply(lambda x: [item for item in x if pd.notna(item)], axis=1).tolist()

# Beispielausgabe der ersten paar Warenkörbe
for i, basket in enumerate(baskets[:5]):
    print(f"Warenkorb {i + 1}: {basket}")




Warenkorb 1: ['citrus fruit', 'semi-finished bread', 'margarine', 'ready soups']
Warenkorb 2: ['tropical fruit', 'yogurt', 'coffee']
Warenkorb 3: ['whole milk']
Warenkorb 4: ['pip fruit', 'yogurt', 'cream cheese', 'meat spreads']
Warenkorb 5: ['other vegetables', 'whole milk', 'condensed milk', 'long life bakery product']


In [10]:
# 1 .Wie oft wird ein Produkt relativ zur Anzahl aller Transaktionen gekauft 
# Flatten der Liste von Listen, um alle Produkte zu erhalten
all_items = [item for sublist in baskets for item in sublist]

# Zählen der Käufe pro Produkt
item_counts = pd.Series(all_items).value_counts()

# Berechnung der relativen Häufigkeit
total_transactions = len(baskets)
relative_frequency = item_counts / total_transactions
# Ausgabe der Ergebnisse
print("Häufigkeit der Produkte relativ zu den Transaktionen:")
print(relative_frequency)



Häufigkeit der Produkte relativ zu den Transaktionen:
whole milk               0.255516
other vegetables         0.193493
rolls/buns               0.183935
soda                     0.174377
yogurt                   0.139502
                           ...   
bags                     0.000407
kitchen utensil          0.000407
preservation products    0.000203
baby food                0.000102
sound storage medium     0.000102
Name: count, Length: 169, dtype: float64


In [16]:
# Welche Kombinationen von Produkten werden am häufigsten zusammen gekauft (filtern Sie Warenkörbe der Größe eins heraus)?

# mlxtend-Bibliothek für die Häufigkeit 
from mlxtend.frequent_patterns import apriori

# One-Hot-Encoding der Warenkörbe  Jede Spalte entspricht ein Produkt und jede Zeile ein Warenkorb 
basket_encoded = pd.get_dummies(pd.DataFrame(baskets).stack()).groupby(level=0).sum()

# # Apriori-Analyse zur Identifikation häufiger Kombinationen
frequent_itemsets = apriori(basket_encoded, min_support=0.01, use_colnames=True)

# Filtern der häufigen Itemsets mit mehr als einem Produkt
frequent_itemsets = frequent_itemsets[frequent_itemsets['itemsets'].apply(lambda x: len(x) > 1)]

# Ausgabe der häufigen Kombinationen von Produkten
print("Häufige Produktkombinationen:")
print(frequent_itemsets)

print(f"Anzahl der Warenkörbe: {len(baskets)}")





Häufige Produktkombinationen:
      support                                       itemsets
88   0.019725                       (beef, other vegetables)
89   0.013625                             (beef, rolls/buns)
90   0.017387                        (beef, root vegetables)
91   0.021251                             (beef, whole milk)
92   0.011693                                 (beef, yogurt)
..        ...                                            ...
328  0.011998  (tropical fruit, root vegetables, whole milk)
329  0.014540          (yogurt, root vegetables, whole milk)
330  0.010473                     (yogurt, soda, whole milk)
331  0.015150           (tropical fruit, yogurt, whole milk)
332  0.010880       (yogurt, whole milk, whipped/sour cream)

[245 rows x 2 columns]
Anzahl der Warenkörbe: 9835
