# &#9658; Import

In [1]:
import pandas as pd
import numpy as np

In [2]:
# - Pyspark
import pyspark
from pyspark.sql import SparkSession
from pyspark import SparkContext
from pyspark.sql.types import * 
from pyspark.ml.fpm import FPGrowth

In [3]:
# - Mlextend
from mlxtend.preprocessing import TransactionEncoder
from mlxtend.frequent_patterns import fpgrowth
from mlxtend.frequent_patterns import apriori
from mlxtend.frequent_patterns import association_rules

In [4]:
import ipywidgets as widgets
from IPython.display import display
from IPython.display import clear_output
from ipywidgets import interact, interact_manual

In [5]:
'''
Imports para visualização
'''
import seaborn as sns
import squarify
from seaborn import countplot
# -- Matplotlib --
import matplotlib
import matplotlib.pyplot as plt
from matplotlib.pyplot import figure, show
import matplotlib.dates as dates

In [6]:
#import findspark
#findspark.init()
#findspark.find()

In [7]:
# nbi:hide_in
# nbi:hide_out
# - Modifica formato de todos os gráficos
sns.set(rc={'figure.figsize':(11.7,8.27)})

# &#9658; Funções

In [8]:
def arquivos_to_lista():
    '''
    Abre os arquivos dim, originais, e realiza transformações
    
    Retorna:
        Lista de compras organizada

    '''
    print("Abre Arquivo de Categorias...")
    df_categorias = pd.read_csv('raw/CategoriasFinal.csv')

    print("Abre Arquivo de Compras...")
    df_compras = pd.read_csv('raw/dim_compra_produto.csv')

    # - Merge das categorias dos produtos ao Dataframe de compras de acordo com o match das descrições
    print('Merge dos arquivos...')
    df_apriori = pd.merge(
        df_compras,
        df_categorias,
        left_on='descricao',
        right_on='Descrição',
        how='left')

    # - Transforma coluna de Categorias para string object
    df_apriori.Categoria = df_apriori.Categoria.astype(str)

    # - Remover produtos com Categoria nan
    df_apriori = df_apriori[df_apriori.Categoria != 'nan']

    # - Cria uma series  de compras das categorias
    print('Cria Lista de Compras...')
    series_compras = df_apriori.groupby('compra_id')['Categoria'].apply(list)    
    return series_compras

## <span style="color:red">&#9658;</span> Funções de Regra de Associação

### <span style="color:purple">&#9658;</span> Spark

In [9]:
def spark_fp_grotwh(df_entrada,sup):
    #sc = SparkContext()
    #spark = SparkSession(sc)
    df_spark = spark.createDataFrame(df_entrada)

    # - Cria um modelo
    fpGrowth = FPGrowth(
        itemsCol="Categoria",
        minSupport=sup,
        minConfidence=0.4)

    print("Cria Modelo Spark FpGrowth...")
    model = fpGrowth.fit(df_spark)

    print("Gera Arquivos...")

    # - Gera arquivo de regras de associação
    nome_arquivo = 'Spark_FpGrotwh_Regras_Support' + str(sup) + '.csv'
    model.associationRules.toPandas().to_csv(nome_arquivo)

    # - Gera arquivo de grupos frequentes
    nome_arquivo = 'Spark_FpGrotwh_Frequente_Support' + str(sup) + '.csv'
    model.freqItemsets.toPandas().to_csv(nome_arquivo)

    # - Gera recomendações
    # Transform(): Examina todo os produtos input contra todas as regras de associação
    # e resume consequentes previsões de produtos para os carrinhos originais.
    nome_arquivo = 'Spark_FpGrotwh_Recomendações_Support' + str(sup) + '.csv'
    model.transform(df_spark).toPandas().to_csv(nome_arquivo)

    return

### <span style="color:purple">&#9658;</span> MLextend

In [10]:
def formata_ml_extend(lista_aux):
    te = TransactionEncoder()
    te_ary = te.fit(lista_aux).transform(lista_aux)
    df = pd.DataFrame(te_ary, columns=te.columns_)

    return df

In [11]:
def mlextend_apriori(lista_entrada,sup_aux,conf_aux):
    '''
    Recebe a lista de compras de entrada e cria um conjunto de regras de associação atráves do algoritmo Apriori

    Args:
        lista_entrada: Lista de compras inicial
        sup_aux: Suporte mínimo 
        conf_aux: Confidência mínima

    Retorna:
        Conjunto de regras de associação

    '''
    
    df_aux = formata_ml_extend(lista_entrada)
    print("Cria Modelo Mlextend Apriori...")
    regras = apriori(
        df_aux, 
        min_support=sup_aux,
        use_colnames=True,
        verbose=0)
    
    # - Expande o conjunto de métricas
    regras_expandido = association_rules(regras, metric="confidence", min_threshold=conf_aux)
    
     # - Print de demonstração
    print(regras_expandido.head(10))
    
    # - Cria arquivo
    #nome_arquivo = 'Mlextend_Apriori_Regras_Support' + str(sup_aux) + 'Confidence' + str(conf_aux) + '.csv'
    #regras_expandido.to_csv(nome_arquivo)

    return regras_expandido

In [12]:
def mlextend_fpgrowth(lista_entrada,sup_aux,conf_aux):
    '''
    Recebe a lista de compras de entrada e cria um conjunto de regras de associação atráves do algoritmo Fpgrowth

    Args:
        lista_entrada: Lista de compras inicial
        sup_aux: Suporte mínimo 
        conf_aux: Confidência mínima

    Retorna:
        Conjunto de regras de associação

    '''
    
    df_aux = formata_ml_extend(lista_entrada)
    print("Cria Modelo Mlextend FpGrowth...")
    regras = fpgrowth(
        df_aux,
        min_support=sup_aux,
        use_colnames=True,
        verbose=0)
    
    # - Expande o conjunto de métricas
    regras_expandido = association_rules(regras, metric="confidence", min_threshold=conf_aux)
    
    # - Print de demonstração
    print(regras_expandido.head(10))
    
    # - Cria arquivo
    nome_arquivo = 'Mlextend_Regras_Fpgrowth_Support' + str(sup_aux) + 'Confidence' + str(conf_aux) + '.csv'
    regras_expandido.to_csv(nome_arquivo)
    
    return

# &#9658; Main

In [13]:
lista_compras = arquivos_to_lista()

Abre Arquivo de Categorias...


FileNotFoundError: [Errno 2] File b'preprocessed/CategoriasFinal.csv' does not exist: b'preprocessed/CategoriasFinal.csv'

## <span style="color:red">&#9658;</span> Mlextend
- Utiliza o formato de entrada
    - Listas

In [19]:
lista_aux = list(lista_compras.values)

In [20]:
print('Remove Produtos Repetidos em Compras...')
lista_sem_repetidos = []
for item in lista_aux:
    lista_sem_repetidos.append(list(dict.fromkeys(item)))

Remove Produtos Repetidos em Compras...


In [1]:
# -Algoritmos de Regras de Associação
print('Aplica Fpgrowth Mlextend...')
#mlextend_fpgrowth(lista_sem_repetidos,0.05,0.4)

Aplica Fpgrowth Mlextend...


In [181]:
print('Aplica Fpgrowth Apriori...')
#regras = mlextend_apriori(lista_sem_repetidos,0.05,0.4)

Aplica Fpgrowth Apriori...
Cria Modelo Mlextend Apriori...


MemoryError: 

In [190]:
def print_regra():
    print(regras[regras.antecedents == menu_regra.value].drop('antecedents',axis=1))
    return

def on_button_clicked(_):
    # - Click do botão
    # Função de linkagem
    with out_regra:
        # - Caso o botão seja apertado
        clear_output()
        regras = mlextend_apriori(lista_sem_repetidos,menu_regra.value,0.4)
        print(regras)

# - Menu Regras
menu_regra = widgets.Dropdown(
    options=[0.5,0.7,0.9],
    value=0.5,
    description='Suporte')


button_regra = widgets.Button(description='Cria Regras')
out_regra = widgets.Output()

# - Linkando o botão e a função utilizando o método "button's"
button_regra.on_click(on_button_clicked)

# - Cria box que contém os dois. Mostrar o botão e o output juntos
box_regra = widgets.VBox(
    [menu_regra, button_regra, out_regra])

In [191]:
box_regra

VBox(children=(Dropdown(description='Suporte', options=(0.5, 0.7, 0.9), value=0.5), Button(description='Cria R…

In [37]:
@interact 
def sup_func(Suporte = 'support',x =(0.005,0.15,0.01)):
    return regras.loc[regras[Suporte]>x]

interactive(children=(Text(value='support', description='Suporte'), FloatSlider(value=0.07500000000000001, des…

In [180]:
@interact 
def lift_func(Lift = 'lift',x =(1,10,0.5)):
    return regras.loc[regras[Lift]>x]

interactive(children=(Text(value='lift', description='Lift'), FloatSlider(value=5.0, description='x', max=10.0…

In [46]:
regras[regras.antecedents == menu_regras.value]

Unnamed: 0,antecedents,consequents,antecedent support,consequent support,support,confidence,lift,leverage,conviction
0,(CEBOLA),(CARNE),0.16291,0.255632,0.079639,0.488851,1.91232,0.037994,1.456263
3,(CEBOLA),(CENOURA),0.16291,0.104528,0.071309,0.43772,4.187594,0.05428,1.592574
5,(CEBOLA),(TOMATE),0.16291,0.149475,0.098101,0.602183,4.028649,0.073751,2.137978


In [186]:
def print_regra():
    print(regras[regras.antecedents == menu_regra.value].drop('antecedents',axis=1))
    return

def pie_chart(df_aux, coluna_index, coluna_value):
    # Pie chart
    labels = df_aux[coluna_index].unique()
    sizes = df_aux[coluna_value]

    # Define Cores
    # colors = ['#ff9999','#66b3ff','#99ff99','#ffcc99']
    color = [plt.cm.Spectral(i/float(len(labels)))
             for i in range(len(labels))]

    fig1, ax1 = plt.subplots()
    ax1.pie(sizes, colors=color,
            labels=labels, autopct='%1.1f%%', startangle=180)

    # - Desenha Donut
    centre_circle = plt.Circle((0, 0), 0.70, fc='white')
    fig = plt.gcf()
    fig.gca().add_artist(centre_circle)

    # - 'Equal' o 'aspect ratio' para garantir que a torta tenha um formato de círculo
    ax1.axis('equal')
    leg = ax1.legend()
    plt.tight_layout()
    plt.show()
    return

def plot_associacao(df_aux,coluna_index,coluna_value):
    label = (regras[regras.antecedents == menu_regra.value].consequents)
    lift_aux = regras[regras.antecedents == menu_regra.value].lift
    index = np.arange(len(label))
    
    
    barlist = plt.bar(index, lift_aux)
    for item in range(len(barlist)):
        barlist[item].set_color(plt.cm.Spectral(item/float(len(label))))
    plt.xlabel('Produtos', fontsize=12)
    plt.ylabel('Lift', fontsize=12)
    plt.xticks(index, label, fontsize=12, rotation=25)
    plt.title('Produtos Associados')
    plt.show()
    return

def on_button_clicked(_):
    # - Click do botão
    # Função de linkagem
    with out_associacao:
        # - Caso o botão seja apertado
        clear_output()
        plot_bar_x(regras[regras.antecedents == menu_regra.value],'consequents','lift')
        #pie_chart(regras[regras.antecedents == menu_regra.value],'consequents','lift')
        #print_regra()


# - Menu Regras
menu_associacao = widgets.Dropdown(
    options=regras.antecedents.unique(),
    value=regras.antecedents.unique()[0],
    description='Produto')


button_associacao = widgets.Button(description='Produtos Associados')
out_associacao = widgets.Output()

# - Linkando o botão e a função utilizando o método "button's"
button_associacao.on_click(on_button_clicked)

# - Cria box que contém os dois. Mostrar o botão e o output juntos
box_associacao = widgets.VBox(
    [menu_associacao, button_associacao, out_associacao])

In [187]:
box_associacao

VBox(children=(Dropdown(description='Produto', options=(frozenset({'CEBOLA'}), frozenset({'TOMATE'}), frozense…

## <span style="color:red">&#9658;</span> PySpark
- Utiliza o formato de entrada
    - DataFrame Spark

In [19]:
# - Cria um DataFrame de lista de compras
#df_lista_compras = pd.DataFrame(lista_compras)

In [20]:
# - Remove produtos repetidos nas listas
#print('Remove Produtos Repetidos em Compras...')
#for index, row in df_lista_compras.iterrows():
#    row['Categoria'] = list(dict.fromkeys(row['Categoria']))

Remove Produtos Repetidos em Compras...


In [14]:
# - Cria contexto Spark
#sc = SparkContext()
#spark = SparkSession(sc)

In [19]:
# -Algoritmos de Regras de Associação
#print('Aplica FpGrowth Spark...')
#spark_fp_grotwh(df_lista_compras,0.1)

Aplica FpGrowth Spark...


ERROR:py4j.java_gateway:An error occurred while trying to connect to the Java server (127.0.0.1:53768)
Traceback (most recent call last):
  File "C:\Users\rodrigo.sarmento\AppData\Local\Continuum\anaconda2\envs\Python\lib\site-packages\py4j\java_gateway.py", line 929, in _get_connection
    connection = self.deque.pop()
IndexError: pop from an empty deque

During handling of the above exception, another exception occurred:

Traceback (most recent call last):
  File "C:\Users\rodrigo.sarmento\AppData\Local\Continuum\anaconda2\envs\Python\lib\site-packages\py4j\java_gateway.py", line 1067, in start
    self.socket.connect((self.address, self.port))
ConnectionRefusedError: [WinError 10061] Nenhuma conexão pôde ser feita porque a máquina de destino as recusou ativamente


Py4JNetworkError: An error occurred while trying to connect to the Java server (127.0.0.1:53768)

# &#9658; Referências

## <span style="color:red">&#9658;</span> Mlextend
- http://rasbt.github.io/mlxtend/user_guide/frequent_patterns/association_rules/

## <span style="color:red">&#9658;</span> PySpark
- https://spark.apache.org/docs/latest/ml-frequent-pattern-mining.html