In [None]:
# Imports
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import pyspark
from pyspark.sql import SparkSession
from pyspark.ml.fpm import FPGrowth
from pyspark.sql import SQLContext
from pyspark.sql.functions import col, round
from pyspark.ml import Pipeline
from pyspark.ml.classification import DecisionTreeClassifier
from pyspark.ml.feature import StringIndexer, VectorIndexer
from pyspark.ml.evaluation import MulticlassClassificationEvaluator
from pyspark.ml.linalg import Vectors
from pyspark.ml.feature import VectorAssembler

## Etapa 1 - Análise Exploratória

### Carregando os Dados

In [None]:
# Carrega os dados
dados = pd.read_csv("dados/DataCoSupplyChainDataset.csv", encoding = 'latin1')

In [None]:
# Shape
dados.shape

In [None]:
# Colunas
dados.columns

In [None]:
# Amostra de dados
dados.head()

In [None]:
# Info
dados.info()

In [None]:
# Verificando valores ausentes
dados.apply(lambda x: sum(x.isnull()))

In [None]:
# Criação de uma nova coluna para o nome do cliente adicionando colunas de nome e sobrenome do cliente
dados['Customer Name'] = dados['Customer Fname'].astype(str) + dados['Customer Lname'].astype(str)

In [None]:
# Amostra de dados
dados.head()

In [None]:
# Removendo colunas que parecem não ser necessárias
dados = dados.drop(['Product Status',
                    'Customer Password',
                    'Customer Email',
                    'Customer Street',
                    'Customer Fname',
                    'Customer Lname',
                    'Latitude',
                    'Longitude',
                    'Product Image',
                    'Product Description',
                    'Order Zipcode',
                    'shipping date (DateOrders)'],
                   axis = 1)

In [None]:
# Shape
dados.shape

In [None]:
# Vamos atribuir o valor zero para os valores ausentes da coluna 'Customer Zipcode'
dados['Customer Zipcode'] = dados['Customer Zipcode'].fillna(0)

In [None]:
# Verificando valores ausentes
dados.apply(lambda x: sum(x.isnull()))

In [None]:
# Tipos de dados
dados.dtypes

In [None]:
# Seleciona apenas colunas numéricas
df_numerico = dados.select_dtypes(include=['number'])



In [None]:
# Gerar o heatmap
fig, ax = plt.subplots(figsize=(18, 8))
sns.heatmap(df_numerico.corr(), annot=True, linewidths=.5, fmt='.1g', cmap='Purples')
plt.show()

> De acordo com a Matriz de Correlação, podemos ver que o preço do produto tem uma alta correlação com as vendas, total do item do pedido e vendas por cliente. Vamos explorar melhor os dados.

### Vendas Por Região

In [None]:
# Agrupa os dados por continente
grupo_mercado = dados.groupby('Market')

In [None]:
# Plot
plt.figure(1)
grupo_mercado['Sales per customer'].sum().sort_values(ascending = False).plot.bar(figsize = (18,8), 
                                                                                  color  = ['blue'], 
                                                                                  title = "Vendas Por Continente")

Pelo gráfico acima podemos observar que o mercado europeu tem o maior número de vendas enquanto que a África apresenta o menor número de vendas.

In [None]:
# Agrupa por Order Region
grupo_regiao = dados.groupby('Order Region')

In [None]:
# Plot
plt.figure(2)
grupo_regiao['Sales per customer'].sum().sort_values(ascending = False).plot.bar(figsize = (18,8), 
                                                                                 color = ['green'], 
                                                                                 title = "Vendas Por Região")

No gráfico acima podemos ver que a região da Europa Ocidental e a região da América Central registraram o maior volume de vendas, enquanto a Ásia Central registrou o menor volume de vendas.

### Vendas Por Produto

In [None]:
# Agrupa os dados por categoria
categoria = dados.groupby('Category Name')

In [None]:
# Plot
plt.figure(1)
categoria['Sales per customer'].sum().sort_values(ascending = False).plot.bar(figsize = (18,8), 
                                                                              color = ['magenta'], 
                                                                              title = "Vendas por Categoria")

Pelo gráfico acima podemos verificar que material de pesca tem o maior número de vendas seguido de chuteiras.

In [None]:
# Vejamos a média de vendas por categoria
plt.figure(2)
categoria['Sales per customer'].mean().sort_values(ascending = False).plot.bar(figsize = (18,8), 
                                                                               color = ['brown'],
                                                                               title = "Média de Vendas Por Categoria")

In [None]:
# Preço Médio de venda por categoria
plt.figure(3)
categoria['Product Price'].mean().sort_values(ascending = False).plot.bar(figsize = (18,8), 
                                                                          color = ['cyan'], 
                                                                          title = "Preço Médio Por Categoria")

Podemos observar que os produtos com os preços mais altos, em média, são os que têm, em média, maior volume de vendas. Os computadores vendem cerca de 1.400 unidades, apesar do preço médio de um computador estar perto de US$ 1.500.

Qual será a relação entre preço do produto e unidades vendidas? Vamos descobrir.

In [None]:
# Plot
dados.plot(x = 'Product Price', 
           y = 'Sales per customer',
           linestyle = 'dotted',
           markerfacecolor = 'blue', 
           markersize = 12, 
           color = ['green'], 
           figsize = (18,8)) 
plt.title('Preço do Produto x Unidades Vendidas')
plt.xlabel('Preço do Produto')
plt.ylabel('Unidades Vendidas') 
plt.show()

Como você pode ver no gráfico acima, o preço do produto tem uma relação linear com as unidades vendidas.

In [None]:
# Vamos salvar os dados processados até aqui
dados.to_csv("dados/DataCoSupplyChainDatasetProcessados.csv")

## Etapa 2 - Regras de Associação

As Regras de Associação representam um dos conceitos mais importantes de aprendizado de máquina usado principalmente na análise de cesta de compras. Ou seja, precisamoos de dados de vendas de produtos.

Em uma loja (ou portal de e-commerce), todos os vegetais são colocados no mesmo corredor, todos os laticínios são colocados juntos e os cosméticos formam outro conjunto desses grupos. 

Investir tempo e recursos em posicionamentos deliberados de produtos não apenas reduz o tempo de compra do cliente, mas também lembra o cliente de quais itens relevantes ele pode estar interessado em comprar, ajudando assim as lojas a fazerem vendas cruzadas no processo. Outra vantagem é na cadeia de suprimentos, pois os sistemas de entrega podem ser adaptados e personalizados ao padrão de compra dos clientes.

As Regras de Associação ajudam a descobrir todas essas relações entre itens de bancos de dados imensos. Uma coisa importante a se notar é que as Regras de Associação não extraem a preferência de um indivíduo, em vez disso, encontram relações entre um conjunto de elementos de cada transação distinta. Isso é o que os torna diferentes da filtragem colaborativa, por exemplo.

In [None]:
# Carregamos os dados processados e seguimos com o trabalho de análise
dados = pd.read_csv("dados/DataCoSupplyChainDatasetProcessados.csv", encoding = 'latin1')

In [None]:
# Visualiza
dados.tail()

In [None]:
# Clientes únicos
dados['Customer Name'].unique()

In [None]:
# Vamos associar clientes e produtos
df = dados.copy()
df = df[['Customer Name', 'Product Name']]
df = df.drop_duplicates(['Customer Name', 'Product Name'])
df = df.groupby('Customer Name')['Product Name'].apply(list).reset_index(name = "Products")

In [None]:
# Visualiza
df.head()

Vamos converter o dataframe pandas para dataframe Spark.

In [None]:
type(df)

In [None]:
# Cria sessão Spark
spark = SparkSession.builder.master("local").appName("DSA").config('spark.ui.port', '4050').getOrCreate()

In [None]:
# Sessão
spark

In [None]:
# Cria o SQL Context
sqlContext = SQLContext(spark)

In [None]:
# Converte o dataframe
df_spark_frame = sqlContext.createDataFrame(df)

In [None]:
type(df_spark_frame)

In [None]:
df_spark_frame

In [None]:
df_spark_frame.show(5)

### Aplicando o Algoritmo Frequent Pattern Mining

https://spark.apache.org/docs/latest/ml-frequent-pattern-mining.html

In [None]:
# Crie o objeto fpGrowth instanciando o construtor FPGrowth com os parâmetros necessários
fpGrowth = FPGrowth(itemsCol = "Products", minSupport = 0.015, minConfidence = 0.35)

In [None]:
# Ajusta o dataframe no objeto fpGrowth para preparar o modelo
modelo = fpGrowth.fit(df_spark_frame)

In [None]:
modelo

In [None]:
# Exibir os itens que ocorrem com mais frequência
modelo.freqItemsets.sort('freq', ascending = False).show(truncate = False)

In [None]:
# Mostra as regras de associação geradas
modelo.associationRules\
.withColumn("confidence", round(col("confidence"), 3))\
.withColumn("lift", round(col("lift"), 3))\
.withColumn("support", round(col("support"),10))\
.sort('confidence', ascending = False)\
.show(truncate = True)

**Support** (Suporte)

Esta medida dá uma ideia da frequência de um conjunto de itens em todas as transações. Exemplo:

Considere itemset1 = {Pão, Manteiga} e itemset2 = {Pão, Shampoo}. 

Haverá muito mais transações contendo Pão e Manteiga do que contendo Pão e Shampoo. Logo, itemset1 geralmente terá um suporte maior do que itemset2. 

Matematicamente, o suporte é a fração do número total de transações nas quais o conjunto de itens ocorre. O valor do suporte nos ajuda a identificar as regras que vale a pena considerar para uma análise posterior. 

![title](imagens/support.png)

Por exemplo, pode-se querer considerar apenas os conjuntos de itens que ocorrem pelo menos 50 vezes de um total de 10.000 transações, ou seja, nesse caso suporte = 0,005. 

Se um conjunto de itens tiver um suporte muito baixo, não temos informações suficientes sobre a relação entre seus itens e, portanto, nenhuma conclusão pode ser tirada de tal regra.

**Confidence** (Confiança)

Essa medida define a probabilidade de ocorrência de consequentes no carrinho, uma vez que o carrinho já possui os antecedentes. 

Essa medida é usada para responder à pergunta: De todas as transações contendo {Manteiga}, quantas também tinham {Pão}? Podemos dizer que é de conhecimento comum que {Manteiga} → {Pão} deve ser uma regra de alta confiança. 

Tecnicamente, a confiança é a probabilidade condicional de ocorrência do consequente dado o antecedente. 

Matematicamente:

![title](imagens/confidence.png)

Não importa o que você tenha no antecedente para um consequente tão frequente. A confiança para uma regra de associação com um consequente muito frequente sempre será alta.

**Lift** (Elevação)

O lift é o controle para o suporte (frequência) do consequente enquanto calcula a probabilidade condicional de ocorrência de {Y} dado {X}. Pense nisso como o *aumento* que {X} proporciona à nossa confiança por ter {Y} no carrinho. 

Para reformular, lift é o aumento na probabilidade de ter {Y} no carrinho com o conhecimento de {X} estar presente sobre a probabilidade de ter {Y} no carrinho sem nenhum conhecimento sobre a presença de {X}.

Matematicamente:

![title](imagens/lift.png)

Nos casos em que {X} realmente leva a {Y} no carrinho, o valor do lift será maior que 1. Um valor de lift menor que 1 mostra que ter X no carrinho não aumenta as chances de ocorrência de Y no carrinho, apesar da regra mostrar um alto valor de confiança. 

Um valor de lift maior que 1 atesta a alta associação entre {Y} e {X}. Maior o valor do lift, maiores são as chances para comprar {Y} se o cliente já comprou {X}. O lift é a medida que ajudará os gerentes a decidir a colocação de produtos no corredor ou site de e-commerce.

## Etapa 3 - Modelagem Preditiva

In [None]:
del(dados)

In [None]:
# Carregamos os dados processados e seguimos com o trabalho de análise
dados = pd.read_csv("dados/DataCoSupplyChainDatasetProcessados.csv", encoding = 'latin1')

In [None]:
# Shape
dados.shape

In [None]:
# Colunas
dados.columns

In [None]:
# Total de registros pelo tipo de pagamento usado na compra
dados['Type'].value_counts()

In [None]:
# Total de registros pelo risco de atraso na entrega (variável target)
dados['Late_delivery_risk'].value_counts()

In [None]:
# Total de compras por cliente
dados['Customer Name'].value_counts() 

In [None]:
# Total de registros pelo número de dias de envio
dados['Days for shipment (scheduled)'].value_counts()

In [None]:
# Total de registros por região
dados['Order Region'].value_counts()

In [None]:
# Total de registros pelo modo de envio
dados['Shipping Mode'].value_counts()

In [None]:
# Removemos colunas que não serão usadas
dados = dados.drop(['Product Price',
                    'Category Id',
                    'Order Id',
                    'Product Category Id',
                    'Order Item Id',
                    'Product Card Id',
                    'Order Item Cardprod Id',
                    'Customer Id',
                    'Order Customer Id',
                    'Department Id',
                    'Customer Zipcode'],
                   axis = 1)

In [None]:
# Shape
dados.shape

In [None]:
# Visualiza
dados.head()

In [None]:
# Correlação
dados_numericos = dados.select_dtypes(include=['number'])

In [None]:
fig, ax = plt.subplots(figsize = (18,8))    
sns.heatmap(dados_numericos.corr(), annot=True, linewidths=.5, fmt='.1g', cmap='Purples')

In [None]:
# Drop de colunas
dados = dados.drop(['Unnamed: 0', 'Order Item Discount Rate'], axis = 1)

In [None]:
# Correlação
dados_numericos = dados.select_dtypes(include=['number'])

In [None]:
# Correlação
fig, ax = plt.subplots(figsize = (18,8))    
sns.heatmap(dados_numericos.corr(), annot = True, linewidths = .5, fmt = '.1g', cmap = 'Reds') 

### Criação e Avaliação do Modelo

In [None]:
# Sessão
spark = SparkSession.builder.appName("Modelo_DSA").getOrCreate()

In [None]:
# Converte o dataframe do pandas para dataframe do Spark
df_suppply_chain = spark.createDataFrame(dados) 

In [None]:
# Visualiza
df_suppply_chain.show(5)

In [None]:
# Tipos de dados
df_suppply_chain.dtypes

In [None]:
# Cria uma lista para converter as strings para o tipo double (encoding) e criar o indexador 
indexers = [StringIndexer(inputCol = "Delivery Status", outputCol = "Status"), 
            StringIndexer(inputCol = "Type", outputCol = "type"), 
            StringIndexer(inputCol = "Category Name", outputCol = "Category_Name"), 
            StringIndexer(inputCol = "Customer Segment", outputCol = "Customer_Segment"), 
            StringIndexer(inputCol = "Department Name", outputCol = "Department_Name"),
            StringIndexer(inputCol = "Late_delivery_risk", outputCol = "Risk", stringOrderType = 'frequencyAsc'),
            StringIndexer(inputCol = "Order Region", outputCol = "region"),
            StringIndexer(inputCol = "Market", outputCol = "market")]

In [None]:
type(indexers)

In [None]:
# Cria o pipeline
pipeline = Pipeline(stages = indexers)

In [None]:
type(pipeline)

In [None]:
# Fit e transform do pipeline
indexed_df_suppply_chain = pipeline.fit(df_suppply_chain).transform(df_suppply_chain) 

In [None]:
type(indexed_df_suppply_chain)

In [None]:
# Visualiza
indexed_df_suppply_chain.show(5, False)

In [None]:
# Cria a coluna de features (atributos) que serão indexadas
# Nota: Essas são as variáveis de entrada
vectorAssembler = VectorAssembler(inputCols = ['type',
                                               'Days for shipping (real)',
                                               'region',
                                               'Customer_Segment',
                                               'Department_Name'],
                                  outputCol = "features")

In [None]:
type(vectorAssembler)

In [None]:
# Cria o dataframe
vindexed_df_suppply_chain = vectorAssembler.transform(indexed_df_suppply_chain)

In [None]:
# Visualiza
vindexed_df_suppply_chain.show(5, False)

In [None]:
# Drop de colunas não usadas
vindexed_df_suppply_chain = vindexed_df_suppply_chain.drop('type',
                                                           'Days for shipping (real)',
                                                           'Days for shipment (scheduled)',
                                                           'Sales per customer',
                                                           'Benefit per order',
                                                           'Status',
                                                           'ship_mode',
                                                           'Customer Segment',
                                                           'Customer City',
                                                           'Delivery Status',
                                                           'Category Name',
                                                           'Category_Name',
                                                           'Customer_Segment',
                                                           'Department_Name',
                                                           'market')

In [None]:
# Visualiza
vindexed_df_suppply_chain.show(5, False)

In [None]:
vindexed_df_suppply_chain.columns

In [None]:
# Prepara o dataset final
dataset_final = vindexed_df_suppply_chain.drop('Customer Country',
                                               'Customer State',
                                               'Department Name',
                                               'Order City',
                                               'region',
                                               'Order Country',
                                               'order date (DateOrders)',
                                               'Order Item Discount',
                                               'Late_delivery_risk',
                                               'Order Item Product Price',
                                               'Order Item Profit Ratio',
                                               'Order Item Quantity',
                                               'Sales',
                                               'Order Item Total',
                                               'Order Profit Per Order',
                                               'Order Region',
                                               'Order State',
                                               'Order Status',
                                               'Product Name',
                                               'Shipping Mode',
                                               'Customer Name')

In [None]:
# Visualiza
dataset_final.show(5, False)

A coluna Risk é a variável target e a coluna features é um vetor contendo a indexação das variáveis de entrada.

### Treinamento do Modelo

https://spark.apache.org/docs/latest/ml-classification-regression.html#decision-tree-classifier

In [None]:
# Divide os dados em treino e teste
(dados_treino, dados_teste) = dataset_final.randomSplit([0.8, 0.2], 42)

In [None]:
dados_treino

In [None]:
dados_treino.printSchema()

In [None]:
# Cria o modelo
obj_modelo = DecisionTreeClassifier(labelCol = "Risk", 
                                    featuresCol = "features", 
                                    impurity = 'gini')

In [None]:
# Treina o modelo
modelo_v1 = obj_modelo.fit(dados_treino)

In [None]:
# Previsões com dados de teste
previsoes = modelo_v1.transform(dados_teste)

In [None]:
# Visualiza
previsoes.show(10, False)

### Avaliação do Modelo

https://spark.apache.org/docs/latest/api/python/reference/api/pyspark.ml.evaluation.MulticlassClassificationEvaluator.html

In [None]:
# Cria o avaliador
avaliador = MulticlassClassificationEvaluator(labelCol = "Risk", 
                                              predictionCol = "prediction", 
                                              metricName  = "accuracy")

In [None]:
# Calcula a acurácia
acc = avaliador.evaluate(previsoes)

In [None]:
print("Acurácia do Modelo = %g " % (acc))

In [None]:
print('Árvore do Modelo de Classificação:\n')
print(modelo_v1.toDebugString)

# Fim