# Importing Libraries

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from sklearn.preprocessing import OneHotEncoder
import itertools

from apyori import apriori

# Importing Data
> Artificially created data in excel (based on what was given in class)
> - Pão     - Bread
> - Leite   - Milk
> - Fraldas - Diepers
> - Cerveja - Beer
> - Cola    - Glue
> - Ovos    - Eggs

In [2]:
df = pd.read_table(r'Apriori_Lista_itens.csv', sep = ";")
df.head()

Unnamed: 0,TID,Itens
0,1,"Pão, Leite"
1,2,"Pão, Fraldas, Cerveja, Ovos"
2,3,"Leite, Fraldas, Cerveja, Cola"
3,4,"Pão, Leite, Fraldas, Cerveja"
4,5,"Pão, Leite, Fraldas, Cola"


In [3]:
df['Itens'] = df['Itens'].replace('[,]','',regex=True) # Removing the commas

In [4]:
df.Itens.unique()

array(['Pão Leite', 'Pão Fraldas Cerveja Ovos',
       'Leite Fraldas Cerveja Cola', 'Pão Leite Fraldas Cerveja',
       'Pão Leite Fraldas Cola'], dtype=object)

In [5]:
# Removing any extra space that may be in the data
df['Itens'] = df['Itens'].str.strip()
df

Unnamed: 0,TID,Itens
0,1,Pão Leite
1,2,Pão Fraldas Cerveja Ovos
2,3,Leite Fraldas Cerveja Cola
3,4,Pão Leite Fraldas Cerveja
4,5,Pão Leite Fraldas Cola


In [6]:
num_registros = len(df)
num_registros

5

In [7]:
registros = []

for i in range(0, num_registros):
    registros.append([str(df.values[i,j]) for j in range(1,2)])

In [8]:
registros

[['Pão Leite'],
 ['Pão Fraldas Cerveja Ovos'],
 ['Leite Fraldas Cerveja Cola'],
 ['Pão Leite Fraldas Cerveja'],
 ['Pão Leite Fraldas Cola']]

In [9]:
df['Lista'] = registros # Creating an Auxiliary column that contains the values of the records in a LIST form

In [10]:
df

Unnamed: 0,TID,Itens,Lista
0,1,Pão Leite,[Pão Leite]
1,2,Pão Fraldas Cerveja Ovos,[Pão Fraldas Cerveja Ovos]
2,3,Leite Fraldas Cerveja Cola,[Leite Fraldas Cerveja Cola]
3,4,Pão Leite Fraldas Cerveja,[Pão Leite Fraldas Cerveja]
4,5,Pão Leite Fraldas Cola,[Pão Leite Fraldas Cola]


## Criando um novo DataFrame que contenha as possibilidades de Permutação existentes entre os itens

In [11]:
lista_itens = [] # listing Itens
for lista in df['Itens']:
    for item in lista.split():
        lista_itens.append(item)

lista_itens = list(set(lista_itens))
lista_itens

['Fraldas', 'Pão', 'Leite', 'Cerveja', 'Cola', 'Ovos']

In [12]:
# List of possible Item combinations
lista_completa = []
lista_completa_str = []

for L in range(0, len(lista_itens)+1):
    for subset in itertools.combinations(lista_itens, L):
        subset= list(subset)
        item = ' '.join(subset)
        lista_completa.append(subset)
        lista_completa_str.append(item)

In [13]:
lista_completa = lista_completa[1:len(lista_completa)]
lista_completa_str = lista_completa_str[1:len(lista_completa_str)]

In [14]:
df_lista_completa = pd.DataFrame() # New and empty DataFrame to enter the data
df_lista_completa

In [15]:
pd.options.display.max_rows = 63
df_lista_completa['Conjuntos'] = lista_completa_str
df_lista_completa['ListaItens'] = lista_completa
df_lista_completa

Unnamed: 0,Conjuntos,ListaItens
0,Fraldas,[Fraldas]
1,Pão,[Pão]
2,Leite,[Leite]
3,Cerveja,[Cerveja]
4,Cola,[Cola]
5,Ovos,[Ovos]
6,Fraldas Pão,"[Fraldas, Pão]"
7,Fraldas Leite,"[Fraldas, Leite]"
8,Fraldas Cerveja,"[Fraldas, Cerveja]"
9,Fraldas Cola,"[Fraldas, Cola]"


## Criando colunas de suporte com os valores possíveis de cada Item e suas combinações

In [16]:
# function to combine possibilities! It can be used in the step I already did
def combina(lista):
    aux = []
    for L in range(0, len(lista)+1):
        for subset in itertools.combinations(lista, L):
            subset= list(subset)
            item = ' '.join(subset)
            aux.append(subset)
            
    return aux

In [17]:
# function to permute the values
def permuta(lista):
    aux = []
    if len(lista) > 1:
        permutations = list(itertools.permutations(lista))
    else:
        permutations = lista
          
    return permutations

In [18]:
y = df_lista_completa['ListaItens'][10] # permutation test
y

['Fraldas', 'Ovos']

In [19]:
x = permuta(y)# permutation test
x

# Result with Tuple! Modify!!

[('Fraldas', 'Ovos'), ('Ovos', 'Fraldas')]

In [20]:
lista_possibilidade = []

for item in df_lista_completa['ListaItens']:
    x = list(permuta(item))
    lista_possibilidade.append(x)

In [21]:
df_lista_completa['ListaPossibilidade'] = lista_possibilidade
#df_lista_completa

In [22]:
# Modifying Tuples in Lists
lista_possibilidade = []
lista_aux = []

for item in df_lista_completa['ListaPossibilidade']:
    if len(item) > 1:
        for i in item:
            x = list(i)
            lista_aux.append(x)
        lista_possibilidade.append(lista_aux)
        lista_aux = []
    else:
        lista_possibilidade.append(item)
        

In [23]:
lista_possibilidade;

In [24]:
df_lista_completa['ListaPossibilidade'] = lista_possibilidade # DF with the items and their permutations
df_lista_completa;

# Contando o número de aparições de cada item e de suas combinações

In [25]:
contador = 0
contagem = []

for item in df_lista_completa['ListaPossibilidade']:
    try:# Can change to if len(df()) < 1
        for i in item:
            #print(i)
            #print("")
            for j in df['Itens']:
                #print(j)
                #print(i)
                #print("")
                if i in j:
                    #print(j)
                    contador += 1 
        contagem.append(contador)
    except:# ELSE
        for i in item:
            i = ' '.join(i)
            #print(i)
            #print("")
            for j in df['Itens']:
                #print(j)
                #print(i)
                #print("")
                if i in j:
                    #print(j)
                    contador += 1 
        contagem.append(contador)
        
    contador = 0

# Counting

In [27]:
df_lista_completa['Contagem'] = contagem
df_lista_completa;

# Cleaning the DataFrame

In [28]:
df_lista_completa = df_lista_completa[['Conjuntos', 'Contagem']]
df_lista_completa;

# Calculating Support

In [29]:
lista_aux = []
for item in df_lista_completa['Contagem']:
    lista_aux.append(item/len(df['Itens']))

df_lista_completa['Suporte'] = lista_aux
df_lista_completa

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_lista_completa['Suporte'] = lista_aux


Unnamed: 0,Conjuntos,Contagem,Suporte
0,Fraldas,4,0.8
1,Pão,4,0.8
2,Leite,4,0.8
3,Cerveja,3,0.6
4,Cola,2,0.4
5,Ovos,1,0.2
6,Fraldas Pão,1,0.2
7,Fraldas Leite,3,0.6
8,Fraldas Cerveja,3,0.6
9,Fraldas Cola,1,0.2


# Filtering only items and combinations with support greater than 0.5

In [30]:
df_suport_min = df_lista_completa[df_lista_completa.Suporte >= 0.5]
df_suport_min

Unnamed: 0,Conjuntos,Contagem,Suporte
0,Fraldas,4,0.8
1,Pão,4,0.8
2,Leite,4,0.8
3,Cerveja,3,0.6
7,Fraldas Leite,3,0.6
8,Fraldas Cerveja,3,0.6
11,Pão Leite,3,0.6


# Conclusion
> Milk is bought with Bread  
> Diaper and Milk are purchased together too  
> **Diaper and Beer is another combination that sells a lot**  