# Veri temizliği-veriyi anlamak

In [2]:
import pandas as pd

In [4]:
df = pd.read_csv("dataset.csv")
df = df.drop("Date", axis=1)
df = df.rename(columns={"Member_number":"member","itemDescription": "item"})

In [6]:
df

Unnamed: 0,member,item
0,1808,tropical fruit
1,2552,whole milk
2,2300,pip fruit
3,1187,other vegetables
4,3037,whole milk
...,...,...
38760,4471,sliced cheese
38761,2022,candy
38762,1097,cake bar
38763,1510,fruit/vegetable juice


In [7]:
print("Unique member sayısı: ",len(df["member"].unique()))
print("Unique item sayısı: ", len(df["item"].unique()))

Unique member sayısı:  3898
Unique item sayısı:  167


# Item'ların gruplanması

In [16]:
data = df.groupby("member")["item"].apply(lambda x: ",".join(x)).reset_index()
data["item"] = data["item"].apply(lambda x: sorted(x.split(',')))
data = data.drop("member", axis=1)

In [43]:
liste = data["item"].apply(len)
liste = liste.to_list()

In [48]:
liste.sort(reverse=True)

In [50]:
sum(liste)/len(liste)

9.944843509492047

### Hazırlanmış verisetinin kaydedilmesi

data.to_csv("item_data.csv", index=False)

# Brute force mantığı
-Önce olası tüm item kombinasyonları belirlenmeli

bir perakende mağazasının satış verilerinde elma öğesi 1000 kez görüldüyse, elma öğesi için support değeri 1000 olur.

"eğer bir müşteri elma satın alırsa, o müşterinin portakal da satın alma olasılığı yüksektir" gibi bir ilişki kuralında, confident değeri, elma satın alan müşterilerin portakal da satın alma olasılığını gösterir. Confident değeri, 0 ile 1 arasında bir değer alır, ve 1'e ne kadar yakınsarsa ilişki kuralının doğruluğu o kadar yüksektir.

In [51]:
from itertools import chain, combinations

# Veri kümesi
data = [('MILK', 'BREAD', 'BISCUIT'),        ('BREAD', 'MILK', 'BISCUIT', 'CORNFLAKES'),        ('BREAD', 'TEA', 'BISCUIT'),        ('JAM', 'BREAD', 'TEA', 'MILK'),        ('TEA', 'MILK', 'BISCUIT')]

# Öğe listelerini oluştur
item_lists = []
for basket in data:
  item_lists.append(list(basket))

# Tüm olası öğe kümelerini oluştur
item_sets = []
for items in item_lists:
  for i in range(1, len(items)+1):
    item_sets.extend(list(combinations(items, i)))

# Öğe kümelerinin sıklıklarını say
frequencies = {}
for item_set in item_sets:
  if item_set in frequencies:
    frequencies[item_set] += 1
  else:
    frequencies[item_set] = 1

# En sık tekrar eden öğe kümelerini bul
max_frequency = max(frequencies.values())
frequent_itemsets = [item_set for item_set, frequency in frequencies.items() if frequency == max_frequency]

# Sonuçları yazdır
print("En sık tekrar eden öğe kümeleri:")
for itemset in frequent_itemsets:
  print(itemset)


En sık tekrar eden öğe kümeleri:
('MILK',)
('BREAD',)
('BISCUIT',)


In [53]:
baskets = []

for b in range(1, 101):
    basket = []
    for i in range(1, 101):
        if b % i == 0:
            basket.append(i)
            baskets.append(basket)

baskets


[[1],
 [1, 2],
 [1, 2],
 [1, 3],
 [1, 3],
 [1, 2, 4],
 [1, 2, 4],
 [1, 2, 4],
 [1, 5],
 [1, 5],
 [1, 2, 3, 6],
 [1, 2, 3, 6],
 [1, 2, 3, 6],
 [1, 2, 3, 6],
 [1, 7],
 [1, 7],
 [1, 2, 4, 8],
 [1, 2, 4, 8],
 [1, 2, 4, 8],
 [1, 2, 4, 8],
 [1, 3, 9],
 [1, 3, 9],
 [1, 3, 9],
 [1, 2, 5, 10],
 [1, 2, 5, 10],
 [1, 2, 5, 10],
 [1, 2, 5, 10],
 [1, 11],
 [1, 11],
 [1, 2, 3, 4, 6, 12],
 [1, 2, 3, 4, 6, 12],
 [1, 2, 3, 4, 6, 12],
 [1, 2, 3, 4, 6, 12],
 [1, 2, 3, 4, 6, 12],
 [1, 2, 3, 4, 6, 12],
 [1, 13],
 [1, 13],
 [1, 2, 7, 14],
 [1, 2, 7, 14],
 [1, 2, 7, 14],
 [1, 2, 7, 14],
 [1, 3, 5, 15],
 [1, 3, 5, 15],
 [1, 3, 5, 15],
 [1, 3, 5, 15],
 [1, 2, 4, 8, 16],
 [1, 2, 4, 8, 16],
 [1, 2, 4, 8, 16],
 [1, 2, 4, 8, 16],
 [1, 2, 4, 8, 16],
 [1, 17],
 [1, 17],
 [1, 2, 3, 6, 9, 18],
 [1, 2, 3, 6, 9, 18],
 [1, 2, 3, 6, 9, 18],
 [1, 2, 3, 6, 9, 18],
 [1, 2, 3, 6, 9, 18],
 [1, 2, 3, 6, 9, 18],
 [1, 19],
 [1, 19],
 [1, 2, 4, 5, 10, 20],
 [1, 2, 4, 5, 10, 20],
 [1, 2, 4, 5, 10, 20],
 [1, 2, 4, 5, 10, 20],
 [1, 2,