# Importieren der Pandas-Bibliothek

In [5]:
import pandas as pd

# Laden des Datensatzes

In [8]:
df = pd.read_csv(r"C:\Users\peguy\Downloads\shopping.csv")

# Berechnen der relativen Häufigkeit der Produkte

In [11]:
# Berechnung der Gesamtanzahl der Transaktionen im DataFrame
total_transactions = len(df)

# Zählen der Vorkommen jedes Produkts in allen Spalten
product_counts = df.stack().value_counts()

# Berechnung der relativen Häufigkeit jedes Produkts in Prozent
relative_frequency = (product_counts / total_transactions) * 100

# Erstellen eines DataFrames aus den Vorkommen und relativen Häufigkeiten
df2 = pd.DataFrame({
    'Occurences': product_counts,  # Hinzufügen der Vorkommen
    'Relative Frequency (%)': relative_frequency  # Hinzufügen der relativen Häufigkeit
}).reset_index()  # Zurücksetzen des Index, um ihn zu einer Spalte zu machen

# Umbenennen der Spalten im DataFrame zur besseren Klarheit
df2.columns = ['Product', 'Occurences', 'Relative Frequency']

#Anzeige der DataFrame 
df2


Unnamed: 0,Product,Occurences,Relative Frequency
0,whole milk,2513,25.551601
1,other vegetables,1903,19.349263
2,rolls/buns,1809,18.393493
3,soda,1715,17.437722
4,yogurt,1372,13.950178
...,...,...,...
164,bags,4,0.040671
165,kitchen utensil,4,0.040671
166,preservation products,2,0.020336
167,baby food,1,0.010168


#  Kombinationen von Produkten am Häufigsten gekauft (Warenkörbe)

In [13]:
# Importiert den TransactionEncoder, um Transaktionsdaten zu transformieren.
from mlxtend.preprocessing import TransactionEncoder  
# Importiert die apriori-Funktion, um häufige Artikelsets zu extrahieren.
from mlxtend.frequent_patterns import apriori  

# Konvertiert den DataFrame in eine Liste von Transaktionen, indem NaN-Werte entfernt werden.
transactions = df.apply(lambda x: x.dropna().tolist(), axis=1).tolist()  

# Initialisiert den TransactionEncoder, um eine binäre Darstellung zu erstellen.
te = TransactionEncoder()  

# Wandelt die Transaktionen in eine binäre Matrix um.
te_ary = te.fit(transactions).transform(transactions)  

# Erstellt einen DataFrame aus der binären Matrix, wobei die Spalten nach den Artikeln benannt werden.
df = pd.DataFrame(te_ary, columns=te.columns_)  

# Wendet den Apriori-Algorithmus an, um häufige Artikelsets mit einem minimalen Support von 1% zu extrahieren.
frequent_itemsets = apriori(df, min_support=0.01, use_colnames=True)  

# Filtert die häufigen Artikelsets, um nur die Sets mit mehr als einem Artikel zu behalten.
frequent_itemsets = frequent_itemsets[frequent_itemsets['itemsets'].apply(len) > 1] 



In [15]:
frequent_itemsets

Unnamed: 0,support,itemsets
88,0.019725,"(beef, other vegetables)"
89,0.013625,"(beef, rolls/buns)"
90,0.017387,"(beef, root vegetables)"
91,0.021251,"(beef, whole milk)"
92,0.011693,"(beef, yogurt)"
...,...,...
328,0.011998,"(tropical fruit, root vegetables, whole milk)"
329,0.014540,"(yogurt, root vegetables, whole milk)"
330,0.010473,"(yogurt, whole milk, soda)"
331,0.015150,"(tropical fruit, yogurt, whole milk)"
