# Projeto #1 - Análise Exploratória de Dados

Antes de começar, leia as [Instruções](https://github.com/thvmm/pos-ds-ia/tree/master/projeto_1#instru%C3%A7%C3%B5es) e os [Critérios de Avaliação](https://github.com/thvmm/pos-ds-ia/tree/master/projeto_1#crit%C3%A9rios-de-avalia%C3%A7%C3%A3o)


### 1) **(5%)** Qual a base escolhida e qual seu interesse nela?

*Indique o link da base no Kaggle e explique em um parágrafo curto por que essa base é interessante para você.*

A base escolhida é o resultado de vários "*merges*" das bases da Olist no brasil sobre comércio eletrônico "*e-commerces*", pelo meu interesse em trabalhar com desenvolvimento e venda de aplicações "*WEB*".<br />
Disponíveis em https://www.kaggle.com/olistbr/marketing-funnel-olist, baixado no dia 10/11/2019 com o objetivo de identificar o comportamento dos contratantes "*Deals*" e dos consumidores.<br />
Poderão ser analisados pelo tempo do 1º contato até a data da compra, o meio pelo qual o "*lead*" foi captado,  pela região que tem a maior quantidade de compras e pelos tipos de produtos que serão ofertados pela plataforma.<br />
As plataformas poderão ser analisadas pela satisfação do cliente de acordo com as "*reviews*" e recorrência de compras pelo mesmo cliente.


### 2) **(5%)** Descrição básica do conjunto de dados escolhido pelo aluno (1 parágrafo).
- Identificação da variável a serem trabalhadas
- Classificação das variáveis como: contínua ou discreta.


*Descrição da base e suas variáveis*

As variáveis que serão utilizadas são:
1. Contínuas:
  * Média de tempo entre contato e conversão **(media_intervalo)**
  * Média de faturamento por categoria **(media_venda)**

2. Discretas:
  * Itervalo de tempo entre cada contato até a conversão do "*lead*" **(Intervalo)**
  * Quantidade de "*leads*" captados, e "*leads*" por cada categoria **(Qtd Leads)**
  * Quantidade de "*leads*" convertidos, e "*leads*" por cada categoria **(Qtd Conversões)**
  * Porcetagem de "*leads*" convertidos, e "*leads*" por cada categoria **(Conversao(%))**
  * Quantidade de produtos vendidos por categoria **(Qtd Vendidos)**
  * Quantidade de produtos vendidos mensalmente por categoria **(Qtd Vendas mes)**
  * Quantidade de produtos por categoria **(Qtd Produtos)**
  * Total do faturamento por categoria de produtos **(Total Faturamento)**

### 2) **(15%)** Faça uma avaliação descritiva da sua base. Quantas linhas ela possui? Quais os tipos de dados? Quantas e quais features possuem?

Cada variável escolhida pelo aluno precisa passar por ao menos 1 pré-processamento. O pré-processamento pode ser (mas não está limitado a):
- Checagem se os valores estão dentro de um limite permitido ou razoável.
- Tratamento de valores ausentes por eliminação ou substituição.
- Conversão do tipo de dados.


In [1]:
#@title Importação das bibliotecas e leitura dos arquivos utilizados
#Importando as bibliotecas usadas
import numpy as np
import pandas as pd
import os
import matplotlib.pyplot as plt
import plotly.offline as py
import plotly.graph_objs as go
# generate random integer values
from random import seed
from random import randint 
from plotly.subplots import make_subplots
import datetime as dt
from google.colab import drive
drive.mount('/content/drive', force_remount=True)

# Importando leads contatados
arquivo = "/content/drive/My Drive/Colab Notebooks/CSVs/marketing-funnel-olist/olist_closed_deals_dataset.csv"
# Lendo a base de leads
df_deals = pd.read_csv(arquivo)

# Importando leads qualificados
arquivo = "/content/drive/My Drive/Colab Notebooks/CSVs/marketing-funnel-olist/olist_marketing_qualified_leads_dataset.csv"
# Lendo a base de leads qualificados
df_leads = pd.read_csv(arquivo)

# Importando vendedores
arquivo = "/content/drive/My Drive/Colab Notebooks/CSVs/brazilian-ecommerce/olist_sellers_dataset.csv"
# Lendo a base de vendedores
df_sellers = pd.read_csv(arquivo)

# Importando dados dos clientes
arquivo = "/content/drive/My Drive/Colab Notebooks/CSVs/brazilian-ecommerce/olist_customers_dataset.csv"
# Lendo dados dos clientes
df_clientes = pd.read_csv(arquivo)

# Importando localização dos clientes
arquivo = "/content/drive/My Drive/Colab Notebooks/CSVs/brazilian-ecommerce/olist_geolocation_dataset.csv"
# Lendo localização dos clientes
df_geo_locations = pd.read_csv(arquivo)

# Importando ordens de compra dos clientes
arquivo = "/content/drive/My Drive/Colab Notebooks/CSVs/brazilian-ecommerce/olist_orders_dataset.csv"
# Lendo ordens de compras
df_orders = pd.read_csv(arquivo)

# Importando itens das ordens de compras
arquivo = "/content/drive/My Drive/Colab Notebooks/CSVs/brazilian-ecommerce/olist_order_items_dataset.csv"
# Lendo itens das ordens de compras
df_itens_order = pd.read_csv(arquivo)

# Mesclando base de leads com leads qualificados
df = df_leads.merge(df_deals, on='mql_id', how='left')

# Mesclando base de leads com vendedores
df = df.merge(df_sellers, on='seller_id', how='left')

# Mesclando base de leads com itens das ordens de compra
df = df.merge(df_itens_order, on='seller_id', how='left')

# Mesclando base de leads com ordens de compra
df = df.merge(df_orders, on='order_id', how='left')

# Mesclando base de leads com ordens de compra
df = df.merge(df_clientes, on='customer_id', how='left')

# Deletando colunas irrelevantes
df.drop(['landing_page_id','seller_id','sdr_id','sr_id','lead_behaviour_profile','has_company','has_gtin','average_stock','declared_product_catalog_size','declared_monthly_revenue','seller_zip_code_prefix','seller_city','seller_state','order_item_id','shipping_limit_date','order_status','order_purchase_timestamp','order_approved_at','order_delivered_carrier_date','order_delivered_customer_date','order_estimated_delivery_date','order_status','order_purchase_timestamp'], inplace=True, axis=1)

# Traduzindo os nomes das colunas
df.columns = ['Cliente ID','Data contato','Origem Captação','Data venda','Segmento Negócio','Tipo lead','Tipo negócio','Compra ID','Produto ID','Preco item','Valor Frete','Consumidor ID','Consumidor ID único','geolocation_zip_code_prefix','Consumidor cidade','Consumidor estado']

# Mesclando base de leads com localização
df = df.merge(df_geo_locations, on='geolocation_zip_code_prefix', how='left')

# Deletando colunas irrelevantes da base de leads
df.drop(['geolocation_city','geolocation_state'], inplace=True, axis=1)

# Deletando linhas duplicadas da base de leads
df = df.drop_duplicates(['Cliente ID'])

# Importando base de produtos
arquivo = "/content/drive/My Drive/Colab Notebooks/CSVs/brazilian-ecommerce/olist_products_dataset.csv"
# Lendo itens das ordens de compras
df_produtos = pd.read_csv(arquivo)

# Importando a base de 'reviews'
arquivo = "/content/drive/My Drive/Colab Notebooks/CSVs/brazilian-ecommerce/olist_order_reviews_dataset.csv"
# Lendo 'reviews'
df_reviews = pd.read_csv(arquivo)

# Mesclando base de vendas com itens comprados
df_vendas = df_produtos.merge(df_itens_order, on='product_id', how='left')

# Mesclando base de vendas com ordens de compras
df_vendas = df_vendas.merge(df_orders, on='order_id', how='left')

# Mesclando base de consumidores com localização
df_vendas = df_vendas.merge(df_reviews, on='order_id', how='left')

# Deletando colunas irrelevantes da base de vendas
df_vendas.drop(['product_weight_g', 'product_length_cm', 'product_height_cm', 'product_width_cm', 'shipping_limit_date', 'order_status', 'order_approved_at', 'order_delivered_carrier_date', 'order_delivered_customer_date', 'order_delivered_customer_date', 'order_estimated_delivery_date', 'review_id', 'review_creation_date', 'review_answer_timestamp'], inplace=True, axis=1)

# Renomeando as colunas da base de vendas
df_vendas.columns = ['Produto ID',	'Categoria Produto',	'Tamanho do nome',	'Tamanaho da Descrição',	'Qtd Fotos',	'Compra ID',	'Compra item ID',	'Vendedor ID',	'Preço(R$)',	'Valor Frete(R$)',	'Consumidor ID',	'Data da Compra',	'Avaliação da venda',	'Título comentário',	'Comentário']

# Renomeando as colunas de Geolocalização
df_geo_locations.columns = ['CEP_Prefixo', 'lat',	'lng',	'Cidade',	'Estado']

Mounted at /content/drive


In [2]:
#@title Checagem dos valores da base de "*Leads*"
"""
Avaliação descritiva da base.
Quantas linhas ela possui?
Quais os tipos de dados?
Quantas e quais features possuem?
"""
# Avaliação descritiva da base.
df.describe()

Unnamed: 0,Preco item,Valor Frete,geolocation_zip_code_prefix,geolocation_lat,geolocation_lng
count,380.0,380.0,380.0,380.0,380.0
mean,175.842079,23.742158,32024.639474,-21.62946,-46.019381
std,319.300706,21.674639,28984.237225,5.000702,3.736845
min,8.9,0.0,1024.0,-30.243655,-67.803398
25%,39.98,13.3625,9222.75,-23.594819,-47.464777
50%,84.9,18.37,21350.5,-23.015772,-46.589749
75%,159.225,23.695,44204.0,-20.696712,-43.821986
max,2749.0,203.38,98200.0,-1.339796,-34.83693


In [3]:
#@title Checagem dos valores da base de Vendas pelos "*E-commerces*"
df_vendas.describe()

Unnamed: 0,Tamanho do nome,Tamanaho da Descrição,Qtd Fotos,Compra item ID,Preço(R$),Valor Frete(R$),Avaliação da venda
count,111710.0,111710.0,111710.0,113322.0,113322.0,113322.0,113322.0
mean,48.777459,786.88104,2.206857,1.198514,120.481328,19.979641,4.015469
std,10.024601,651.745733,1.719464,0.706993,183.277636,15.782926,1.400166
min,5.0,4.0,1.0,1.0,0.85,0.0,1.0
25%,42.0,348.0,1.0,1.0,39.9,13.08,4.0
50%,52.0,601.0,1.0,1.0,74.9,16.26,5.0
75%,57.0,985.0,3.0,1.0,134.9,21.15,5.0
max,76.0,3992.0,20.0,21.0,6735.0,409.68,5.0


In [4]:
#@title Checagem das dimensões da base de "Leads" (Linhas x Colunas)
# Identificando dimensões da base
df.shape

(8000, 18)

In [5]:
#@title Checagem das dimensões da base de Vendas pelos "*E-commerces*" (Linhas x Colunas)
# df_itens_order
df_vendas.shape

(113322, 15)

In [6]:
#@title Checagem dos tipos de dados da base de "*Leads*"
# Verificando tipos de dados da base
df.dtypes

Cliente ID                      object
Data contato                    object
Origem Captação                 object
Data venda                      object
Segmento Negócio                object
Tipo lead                       object
Tipo negócio                    object
Compra ID                       object
Produto ID                      object
Preco item                     float64
Valor Frete                    float64
Consumidor ID                   object
Consumidor ID único             object
geolocation_zip_code_prefix    float64
Consumidor cidade               object
Consumidor estado               object
geolocation_lat                float64
geolocation_lng                float64
dtype: object

In [7]:
#@title Checagem dos tipos de dados da base de Vendas pelos "*E-commerces*"
df_vendas.dtypes

Produto ID                object
Categoria Produto         object
Tamanho do nome          float64
Tamanaho da Descrição    float64
Qtd Fotos                float64
Compra ID                 object
Compra item ID             int64
Vendedor ID               object
Preço(R$)                float64
Valor Frete(R$)          float64
Consumidor ID             object
Data da Compra            object
Avaliação da venda         int64
Título comentário         object
Comentário                object
dtype: object

In [8]:
#@title Checagem e tratamento de valores nulos da base de '*leads*'
# Tratando valores nulos da base
valores_nulos = ['Origem Captação',
                 'Data venda',
                 'Segmento Negócio',
                 'Tipo lead',
                 'Tipo negócio',
                 'Compra ID',
                 'Produto ID',
                 'Preco item',
                 'Valor Frete',
                 'Consumidor ID',
                 'Consumidor ID único',
                 'geolocation_zip_code_prefix',
                 'Consumidor cidade',
                 'Consumidor estado',
                 'geolocation_lat',
                 'geolocation_lng'
]
# Se for a coluna for a coluna de data da venda, insere a primeira data permitida de 1970
for val in valores_nulos:
  if val == "Origem Captação":
    dado = 'unknown'
  elif val == 'Tipo lead':
    dado == 'other'
  elif val == "Data venda":
    dado = pd.to_datetime(0, infer_datetime_format=True)
  else:
    dado = 0
  df.update(df[val].fillna(dado))

df.isnull().sum()

Cliente ID                     0
Data contato                   0
Origem Captação                0
Data venda                     0
Segmento Negócio               0
Tipo lead                      0
Tipo negócio                   0
Compra ID                      0
Produto ID                     0
Preco item                     0
Valor Frete                    0
Consumidor ID                  0
Consumidor ID único            0
geolocation_zip_code_prefix    0
Consumidor cidade              0
Consumidor estado              0
geolocation_lat                0
geolocation_lng                0
dtype: int64

In [9]:
#@title Checagem e tratamento de valores nulos da base de Vendas pelos "*E-commerces*"
# Tratando valores nulos da base
valores_nulos = ['Categoria Produto',	
                 'Tamanho do nome',
                 'Tamanaho da Descrição',
                 'Qtd Fotos',
                 'Título comentário',
                 'Comentário'
]

for val in valores_nulos:
  if val == 'Categoria Produto':
    dado = "unknown"
  elif val == 'Título comentário' or val == 'Comentário':
    dado = "nenhum"
  else:
    dado = 0
  df_vendas.update(df_vendas[val].fillna(dado))

df_vendas.isnull().sum()

Produto ID               0
Categoria Produto        0
Tamanho do nome          0
Tamanaho da Descrição    0
Qtd Fotos                0
Compra ID                0
Compra item ID           0
Vendedor ID              0
Preço(R$)                0
Valor Frete(R$)          0
Consumidor ID            0
Data da Compra           0
Avaliação da venda       0
Título comentário        0
Comentário               0
dtype: int64

In [10]:
#@title Cálculo da porcentagem de conversões por '*leads*' e contagem dos '*leads*' e conversões
"""Realação captação de leads/Conversao"""

# Contando quantidade de leads na base
leads = df['Cliente ID'].value_counts()
qtd_leads = leads.count()

# Contando quantidade de conversões na base
conversao = df_deals.mql_id.value_counts()
qtd_conversao = conversao.count()

# Calculando a porcentagem de conversões por leads
porcentagem = qtd_conversao / qtd_leads * 100

# Arredondando e limitando o decimal a 2 dígitos
porcentagem = round(porcentagem, 2)

# Substituindo o ponto por vírgula
porcentagem = str(porcentagem).replace(".", ",")

# Exibindo o resultado
print('Total de leads =', qtd_leads,'\nTotal de conversões =', qtd_conversao,'\nPorcentagem de converção =', porcentagem,"%\nIlustrado no gráfico 'Relação contato / conversão' no final deste documento")

Total de leads = 8000 
Total de conversões = 842 
Porcentagem de converção = 10,52 %
Ilustrado no gráfico 'Relação contato / conversão' no final deste documento


In [11]:
#@title Conversão das colunas de datas e cálculo do intervalo entre contato e conversão
# Convertendo tipo da coluna 'won_date' de objeto para datetime
df_deals['won_date'] = pd.to_datetime(df_deals['won_date'], infer_datetime_format=True)

# Agrupando e contando as datas das vendas
dt_compra = df_deals.groupby(['won_date']).count()

# Convertendo tipo da coluna 'data_contato' de objeto para datetime
df['Data contato'] =  pd.to_datetime(df['Data contato'], infer_datetime_format=True)

# Agrupando e contando as datas dos contatos
dt_contato = df.groupby(['Data contato']).count()

# Criando um Tabela com os dados necessários para identificar o intervalo médio entre o contato e a conversão
df_contato_compra = pd.DataFrame({'Cliente ID':[]})

# Declarando o contador para ID genérico
qtd_item = 0

# Inserindo os valores na Tabela
for lead, row in df.iterrows():

  # Criando condição para inserir os valores na tabela
  if row['Cliente ID'] in list(df_deals['mql_id']) and row['Cliente ID'] not in list(df_contato_compra['Cliente ID']):
    df_contato_compra.loc[qtd_item, 'Cliente ID'] = row['Cliente ID']
    df_contato_compra.loc[qtd_item, 'Data do Contato'] = row['Data contato']
    data_venda = str(row['Data venda']).split(" ")
    df_contato_compra.loc[qtd_item, 'Data da Convesão'] = pd.to_datetime(data_venda[0], infer_datetime_format=True)
    df_contato_compra.loc[qtd_item, 'ID'] = df_contato_compra['Cliente ID'].nunique()
    df_contato_compra.loc[qtd_item, 'Intervalo'] = abs(df_contato_compra['Data da Convesão'][qtd_item] - df_contato_compra['Data do Contato'][qtd_item])
    qtd_item = qtd_item + 1

# Convertendo o tipo do ID genérico de float para integer
df_contato_compra['ID'] = np.array([int(x) if int(x) == x else x for x in df_contato_compra['ID']], dtype=object)

# Calcula a média entre o contato e a conversão
media_intervalo = abs(df_contato_compra['Intervalo']).mean()

# Formatando e traduzindo o formato do intervalo
tempo = str(media_intervalo).split(':')
day = tempo[0].split(" ")

# Exibindo o resultado
print('A média de intervalo entre o contato e a compra é de', day[0], "dias,", day[2], "horas", tempo[1], "min e", round(float(tempo[2])), "seg\nIlustrado no gráfico 'Intervalo de tempo entre 1º contato e conversão' no final deste documento")

A média de intervalo entre o contato e a compra é de 48 dias, 10 horas 41 min e 20 seg
Ilustrado no gráfico 'Intervalo de tempo entre 1º contato e conversão' no final deste documento


In [12]:
#@title Exibe a tabela criada com o intervalo das datas de contato e conversão.
# Exibindo parte da tabela criada acima
df_contato_compra.head(5)

Unnamed: 0,Cliente ID,Data do Contato,Data da Convesão,ID,Intervalo
0,5420aad7fec3549a85876ba1c529bd84,2018-02-21,2018-02-26,1,5 days
1,a555fb36b9368110ede0f043dfc3b9a0,2018-04-04,2018-05-08,2,34 days
2,327174d3648a2d047e8940d7d15204ca,2018-04-03,2018-06-05,3,63 days
3,f5fee8f7da74f4887f5bcae2bafb6dd6,2018-01-14,2018-01-17,4,3 days
4,ffe640179b554e295c167a2f6be528e0,2017-10-09,2018-07-03,5,267 days


### 4) **(60%)** Nos blocos seguintes construa análises que vão justificar suas conclusões.

#### 4.1) **(20%)** Análise 1 -  Distribuição dos valores para cada uma das variáveis
- Exemplo para variável contínua: se o conjunto de dados possui a variável "idade". Quantos % possui a idade entre 0 e 30 anos? 31 a 59? 60+?

- Exemplo para variável discreta: se o conjunto de dados possui a variável "gênero", quantos % do conjunto de dados é do sexo feminino, quantos % é masculino? Inclua outros gêneros se houver.


In [13]:
#@title Distribuição dos valores das variáveis por Origem de captação
"""
Origem dos leads qualificados?
E quais e quantos foram convertidos?
"""
# Criando tabela simplificada das origens de captação dos leads convertidos
df_leads_origem = pd.DataFrame({'Cliente ID':[]})

# Declarando contador para percorrer a base e inserir os valores necessários na tabela nova
qtd_item = 0

# Percorrendo a base
for lead, row in df.iterrows():

  # Criando condição para inserção somente dos valores de leads convertidos
  if row['Cliente ID'] in list(df_deals['mql_id']) and row['Cliente ID'] not in list(df_leads_origem['Cliente ID']):
      df_leads_origem.loc[qtd_item, 'Cliente ID'] = row['Cliente ID']
      df_leads_origem.loc[qtd_item, 'Origem Captação'] = row['Origem Captação'].upper().replace("_", " ")
      qtd_item += 1

# Categorizando os leads convertidos pela origem de captação
qtd_origem = df_leads_origem.groupby(['Origem Captação']).count()

# Criando tabela simplificada das origens de captação dos leads NÃO convertidos
df_leads_null = pd.DataFrame({'Cliente ID':[]})

# Declarando contador para percorrer a base e inserir os valores necessários na tabela nova
qtd_item = 0

# Percorrendo a base
for lead, row in df.iterrows():

  # Criando condição para inserção somente dos valores de leads NÃO convertidos
  if row['Cliente ID'] not in list(df_deals['mql_id']) and row['Cliente ID'] not in list(df_leads_null['Cliente ID']):
      df_leads_null.loc[qtd_item, 'Cliente ID'] = row['Cliente ID']
      df_leads_null.loc[qtd_item, 'Origem Captação'] = row['Origem Captação'].upper().replace("_", " ")
      qtd_item += 1

# Contando a quantidade de leads NÃO convertidos por Origem de captação 
qtd_origem_null = df_leads_null.groupby(['Origem Captação']).count()

# Criando tabela para distibuição dos valores das variáveis leads, conversões e porcentagem de conversões
df_distribui_leads = pd.DataFrame()

# Declarando o contador para enumerar as origens
qtd_item = 0

# Inserindo os valores na tabela
for dado in qtd_origem.index:
  df_distribui_leads.loc[qtd_item, 'Origem Captação'] = qtd_origem.index[qtd_item].upper().replace("_", " ")
  df_distribui_leads.loc[qtd_item, 'Qtd. Leads'] = qtd_origem_null['Cliente ID'][qtd_item]
  df_distribui_leads.loc[qtd_item, 'Qtd. Conversões'] = qtd_origem['Cliente ID'][qtd_item]
  df_distribui_leads.loc[qtd_item, 'Conversões(%)'] = round(qtd_origem['Cliente ID'][qtd_item] / qtd_origem_null['Cliente ID'][qtd_item] * 100, 2)
  #print(count,'-', qtd_origem.index[d],'\nLeads:', qtd_origem_null['cliente_id'][d], '\nConversões:', qtd_origem['cliente_id'][d], '\nLeads convertidos:', porcent[d],'%\n')
  qtd_item += 1

# Convertendo os valores 'Qtd. Leads' e 'Qtd. Conversões' de decimais para inteiros
df_distribui_leads['Qtd. Leads'] = np.array([int(x) if int(x) == x else x for x in df_distribui_leads['Qtd. Leads']], dtype=object)
df_distribui_leads['Qtd. Conversões'] = np.array([int(x) if int(x) == x else x for x in df_distribui_leads['Qtd. Conversões']], dtype=object)

df_distribui_leads.head(10)

Unnamed: 0,Origem Captação,Qtd. Leads,Qtd. Conversões,Conversões(%)
0,DIRECT TRAFFIC,443,56,12.64
1,DISPLAY,112,6,5.36
2,EMAIL,478,15,3.14
3,ORGANIC SEARCH,2025,271,13.38
4,OTHER,146,4,2.74
5,OTHER PUBLICITIES,62,3,4.84
6,PAID SEARCH,1391,195,14.02
7,REFERRAL,260,24,9.23
8,SOCIAL,1275,75,5.88
9,UNKNOWN,966,193,19.98


In [14]:
#@title Distribuição dos valores das variáveis por tipo de Segmento do negócio

qtd_origem_null = df_leads_null.groupby(['Origem Captação']).count()

# Agrupando as conversões por segmento do negócio
qtd_segmento = df.groupby(['Segmento Negócio']).count()

# Criando tabela de distribuição dos valores das variáveis
df_segmento = pd.DataFrame()

# Declarando o contado para percorrer a tabela
qtd_item = 0

# Percorrendo a tabela para inserir os valores
for deal, row in qtd_segmento.iterrows():

  # Criando condição para inserir os valores na tabela
  if deal != 0:
    df_segmento.loc[qtd_item, 'Segmento'] = deal.upper().replace("_", " ")
    df_segmento.loc[qtd_item, 'Qtd Conversões'] = row['Data venda']
    df_segmento.loc[qtd_item, 'Conversões(%)'] = round(df_segmento['Qtd Conversões'][qtd_item] / qtd_conversao * 100, 2)
    qtd_item += 1

# Convertendo a Qtd Conversões de decimais para inteiros
df_segmento['Qtd Conversões'] = np.array([int(x) if int(x) == x else x for x in df_segmento['Qtd Conversões']], dtype=object)
df_segmento.head(10)

Unnamed: 0,Segmento,Qtd Conversões,Conversões(%)
0,AIR CONDITIONING,3,0.36
1,AUDIO VIDEO ELECTRONICS,64,7.6
2,BABY,10,1.19
3,BAGS BACKPACKS,22,2.61
4,BED BATH TABLE,22,2.61
5,BOOKS,9,1.07
6,CAR ACCESSORIES,77,9.14
7,COMPUTERS,34,4.04
8,CONSTRUCTION TOOLS HOUSE GARDEN,69,8.19
9,FASHION ACCESSORIES,19,2.26


In [210]:
#@title Calcula a quantidade de produtos e quantos deles foram vendidos, o total do faturamento e a média de faturamento por categoria de produtos.
"""qtd_vendas = df_vendas.groupby('Categoria Produto').count()
qtd_categ_prod = df_vendas.groupby('Categoria Produto')['Produto ID'].nunique()
df_fatura = pd.DataFrame()
qtd_item = 0
for venda, row in qtd_vendas.iterrows():
  df_fatura.loc[qtd_item, 'Categoria'] = venda.upper().replace("_", " ")
  df_fatura.loc[qtd_item, 'Qtd Produtos'] = qtd_categ_prod[qtd_item]
  df_fatura.loc[qtd_item, 'Qtd Vendidos'] = row['Produto ID']
  media_preco = 0
  for preco, linha in df_vendas.iterrows():
    if venda == linha['Categoria Produto']:
      media_preco = media_preco + linha['Preço(R$)']
  df_fatura.loc[qtd_item, 'Total faturamento(R$)'] = media_preco
  media_preco = media_preco / row['Produto ID']
  df_fatura.loc[qtd_item, 'Média faturamento/venda(R$)'] = round(media_preco, 2)
  qtd_item += 1

df_fatura['Qtd Vendidos'] = np.array([int(x) if int(x) == x else x for x in df_fatura['Qtd Vendidos']], dtype=object)
df_fatura['Qtd Produtos'] = np.array([int(x) if int(x) == x else x for x in df_fatura['Qtd Produtos']], dtype=object)"""

# Importando faturamento por categoria
arquivo = "/content/drive/My Drive/Colab Notebooks/CSVs/df_fatura.csv"
# Lendo a base de  faturamento por categoria
df_fatura = pd.read_csv(arquivo)
df_fatura.drop(['Unnamed: 0','Unnamed: 0.1'], inplace=True, axis=1)
df_fatura.head(5)

Unnamed: 0,Categoria,Qtd Produtos,Qtd Vendidos,Total faturamento(R$),Média faturamento/venda(R$)
0,AGRO INDUSTRIA E COMERCIO,74,212,72530.47,342.12
1,ALIMENTOS,82,510,29393.41,57.63
2,ALIMENTOS BEBIDAS,104,280,15270.47,54.54
3,ARTES,55,209,24202.64,115.8
4,ARTES E ARTESANATO,19,24,1814.01,75.58


In [16]:
#@title Distribuição dos valores das variáveis por Tipo de negócio
# Agrupando as conversões por modelo do negócio
qtd_tp_negocio = df.groupby(['Tipo negócio']).count()

# Criando tabela de distribuição dos valores das variáveis
df_tp_negocio = pd.DataFrame()

# Declarando o contado para percorrer a tabela
qtd_item = 0

# Percorrendo a tabela para inserir os valores
for deal, row in qtd_tp_negocio.iterrows():

  # Criando condição para inserir os valores na tabela
  if deal != 0:
    df_tp_negocio.loc[qtd_item, 'Tipo negócio'] = deal.upper()
    df_tp_negocio.loc[qtd_item, 'Qtd Conversões'] = row['Data venda']    
    df_tp_negocio.loc[qtd_item, 'Conversões(%)'] = round(df_tp_negocio['Qtd Conversões'][qtd_item] / qtd_conversao * 100, 2)
    qtd_item += 1

# Convertendo a Qtd Conversões de decimais para inteiros
df_tp_negocio['Qtd Conversões'] = np.array([int(x) if int(x) == x else x for x in df_tp_negocio['Qtd Conversões']], dtype=object)

df_tp_negocio.head(10)

Unnamed: 0,Tipo negócio,Qtd Conversões,Conversões(%)
0,MANUFACTURER,242,28.74
1,OTHER,3,0.36
2,RESELLER,587,69.71


In [17]:
#@title Distribuição dos valores das variáveis por Tipo de lead
# Agrupando as conversões por tipo de lead
qtd_tp_lead = df.groupby(['Tipo lead']).count()

# Criando tabela de distribuição dos valores das variáveis
df_tp_lead = pd.DataFrame()

# Declarando o contado para percorrer a tabela
qtd_item = 0

# Percorrendo a tabela para inserir os valores
for deal, row in qtd_tp_lead.iterrows():

  # Criando condição para inserir os valores na tabela
  if deal != 0:
    df_tp_lead.loc[qtd_item, 'Tipo lead'] = deal.upper().replace("_"," ")
    df_tp_lead.loc[qtd_item, 'Qtd Conversões'] = row['Data venda']
    df_tp_lead.loc[qtd_item, 'Conversões(%)'] = round(df_tp_lead['Qtd Conversões'][qtd_item] / qtd_conversao * 100, 2)
    qtd_item += 1

# Convertendo a Qtd Conversões de decimais para inteiros
df_tp_lead['Qtd Conversões'] = np.array([int(x) if int(x) == x else x for x in df_tp_lead['Qtd Conversões']], dtype=object)

df_tp_lead.head(10)

Unnamed: 0,Tipo lead,Qtd Conversões,Conversões(%)
0,INDUSTRY,123,14.61
1,OFFLINE,104,12.35
2,ONLINE BEGINNER,57,6.77
3,ONLINE BIG,126,14.96
4,ONLINE MEDIUM,332,39.43
5,ONLINE SMALL,77,9.14
6,ONLINE TOP,14,1.66
7,OTHER,3,0.36


In [18]:
#@title Conta a quantidade de compras de cada consumidor e mescla a base de compras com a base de localização com CEP, cidade e estado dos consumidores.
"""qtd_compras_deal = df_vendas.groupby(['Consumidor ID']).count()

df_retorno_deal = pd.DataFrame({"Consumidor ID":[]})
i = 0
ind = 0
for compra_deal, row in qtd_compras_deal.iterrows():
    if compra_deal not in list(df_retorno_deal['Consumidor ID']):
      df_retorno_deal.loc[ind, 'Consumidor ID'] = compra_deal
      df_retorno_deal.loc[ind, 'Qtd Compras'] = row['Compra ID']
      ind += 1
    i += 1
df_retorno_deal['Qtd Compras'] = np.array([int(x) if int(x) == x else x for x in df_retorno_deal['Qtd Compras']], dtype=object)
df_clientes.columns = ['Consumidor ID',	'ID_Unico',	'CEP_Prefixo',	'Cidade',	'Estado']

df_retorno_deal = df_retorno_deal.merge(df_clientes, on='Consumidor ID', how='left')
df_retorno_deal = df_retorno_deal.drop_duplicates(['Consumidor ID'])

# Mesclando base de leads com localização
df_retorno_deal = df_retorno_deal.merge(df_geo_locations, on='CEP_Prefixo', how='left')
df_retorno_deal.drop(['Cidade_y',	'Estado_y'], inplace=True, axis=1)
df_retorno_deal.columns = ['Consumidor ID',	'Qtd Compras',	'ID_Unico',	'CEP_Prefixo',	'Cidade',	'Estado',	'lat',	'lng']

# Deletando linhas duplicadas da base de retorno
df_retorno_deal = df_retorno_deal.drop_duplicates(['Consumidor ID'])

for cidade, row in df_retorno_deal.iterrows():
  row['Cidade'] = row['Cidade'].upper().replace("_", " ")"""

# Importando leads contatados
arquivo = "/content/drive/My Drive/Colab Notebooks/CSVs/df_retorno_deal.csv"
# Lendo a base de leads
df_retorno_deal = pd.read_csv(arquivo)
df_retorno_deal.shape

(98666, 10)

In [19]:
#@title Copia as bases de faturamento e retorno de 'deals' geradas no processamentos acima para o drive
"""df_fatura.to_csv('df_fatura.csv')
!cp df_fatura.csv drive/My\ Drive/Colab\ Notebooks/CSVs/
df_retorno_deal.to_csv('df_retorno_deal.csv')
!cp df_retorno_deal.csv drive/My\ Drive/Colab\ Notebooks/CSVs/"""

"df_fatura.to_csv('df_fatura.csv')\n!cp df_fatura.csv drive/My\\ Drive/Colab\\ Notebooks/CSVs/\ndf_retorno_deal.to_csv('df_retorno_deal.csv')\n!cp df_retorno_deal.csv drive/My\\ Drive/Colab\\ Notebooks/CSVs/"

In [30]:
#@title Cria a base de vendas mensal por categoria
"""df_vendas['Data da Compra'] = df_vendas['Data da Compra'].astype('datetime64')
array_ano_mes = df_vendas['Data da Compra'].map(lambda x:100*x.year + x.month)
array_ano_mes = sorted(set(array_ano_mes))
array_colunas = []
df_vendas_categ_mes = pd.DataFrame()
for categ, row in df_fatura.iterrows():
  array_colunas.append(row['Categoria'])
df_vendas_categ_mes = pd.DataFrame(columns=[array_colunas], index=[array_ano_mes])
for categoria in list(array_colunas):
  for mes in list(array_ano_mes):
    qtd_vendas_categ = 0
    for venda, row in df_vendas.iterrows():
      mes_ano = str(row['Data da Compra']).split("-")
      if categoria == row['Categoria Produto'].upper().replace("_"," ") and str(mes) == str(mes_ano[0])+str(mes_ano[1]):
        qtd_vendas_categ = qtd_vendas_categ + 1
    df_vendas_categ_mes.loc[mes, categoria] = qtd_vendas_categ
df_vendas_categ_mes.to_csv('df_vendas_categ_mes.csv')
!cp df_vendas_categ_mes.csv drive/My\ Drive/Colab\ Notebooks/CSVs/"""

'df_vendas[\'Data da Compra\'] = df_vendas[\'Data da Compra\'].astype(\'datetime64\')\narray_ano_mes = df_vendas[\'Data da Compra\'].map(lambda x:100*x.year + x.month)\narray_ano_mes = sorted(set(array_ano_mes))\narray_colunas = []\ndf_vendas_categ_mes = pd.DataFrame()\nfor categ, row in df_fatura.iterrows():\n  array_colunas.append(row[\'Categoria\'])\ndf_vendas_categ_mes = pd.DataFrame(columns=[array_colunas], index=[array_ano_mes])\nfor categoria in list(array_colunas):\n  for mes in list(array_ano_mes):\n    qtd_vendas_categ = 0\n    for venda, row in df_vendas.iterrows():\n      mes_ano = str(row[\'Data da Compra\']).split("-")\n      if categoria == row[\'Categoria Produto\'].upper().replace("_"," ") and str(mes) == str(mes_ano[0])+str(mes_ano[1]):\n        qtd_vendas_categ = qtd_vendas_categ + 1\n    df_vendas_categ_mes.loc[mes, categoria] = qtd_vendas_categ\ndf_vendas_categ_mes.to_csv(\'df_vendas_categ_mes.csv\')\n!cp df_vendas_categ_mes.csv drive/My\\ Drive/Colab\\ Notebooks/C

In [0]:
#@title Formata tabela de venda mensal por categoria
df_vendas['Data da Compra'] = df_vendas['Data da Compra'].astype('datetime64')
array_ano_mes = df_vendas['Data da Compra'].map(lambda x:100*x.year + x.month)
array_ano_mes = sorted(set(array_ano_mes))
# Importando leads contatados
arquivo = "/content/drive/My Drive/Colab Notebooks/CSVs/df_vendas_categ_mes.csv"
# Lendo a base de leads
df_vendas_categ_mes = pd.read_csv(arquivo)
df_vendas_categ_mes.index = index=[array_ano_mes]
df_vendas_categ_mes.drop(['Unnamed: 0'], inplace=True, axis=1)

In [0]:
#@title Agrupa colunas similares e deleta as obsoletas
df_vendas_categ_mes['ALIMENTOS BEBIDAS'] = df_vendas_categ_mes['ALIMENTOS'] + df_vendas_categ_mes['ALIMENTOS BEBIDAS'] + df_vendas_categ_mes['BEBIDAS']
df_vendas_categ_mes['ARTES E ARTESANATO'] = df_vendas_categ_mes['ARTES E ARTESANATO'] + df_vendas_categ_mes['ARTES']
df_vendas_categ_mes['CASA CONFORTO'] = df_vendas_categ_mes['CASA CONFORTO'] + df_vendas_categ_mes['CASA CONFORTO 2']
df_vendas_categ_mes['CONSTRUCAO FERRAMENTAS CONSTRUCAO'] = df_vendas_categ_mes['CONSTRUCAO FERRAMENTAS CONSTRUCAO'] + df_vendas_categ_mes['CASA CONSTRUCAO'] + df_vendas_categ_mes['CONSTRUCAO FERRAMENTAS FERRAMENTAS'] + df_vendas_categ_mes['CONSTRUCAO FERRAMENTAS ILUMINACAO'] + df_vendas_categ_mes['CONSTRUCAO FERRAMENTAS JARDIM'] + df_vendas_categ_mes['CONSTRUCAO FERRAMENTAS SEGURANCA'] + df_vendas_categ_mes['FERRAMENTAS JARDIM']
df_vendas_categ_mes['ELETRODOMESTICOS'] = df_vendas_categ_mes['ELETRODOMESTICOS'] + df_vendas_categ_mes['ELETRODOMESTICOS 2']
df_vendas_categ_mes['FASHION BOLSAS E ACESSORIOS'] = df_vendas_categ_mes['FASHION BOLSAS E ACESSORIOS'] + df_vendas_categ_mes['FASHION CALCADOS'] + df_vendas_categ_mes['FASHION ESPORTE'] + df_vendas_categ_mes['FASHION ROUPA FEMININA'] + df_vendas_categ_mes['FASHION ROUPA INFANTO JUVENIL'] + df_vendas_categ_mes['FASHION ROUPA MASCULINA'] + df_vendas_categ_mes['FASHION UNDERWEAR E MODA PRAIA']
df_vendas_categ_mes['LIVROS IMPORTADOS'] = df_vendas_categ_mes['LIVROS IMPORTADOS'] + df_vendas_categ_mes['LIVROS INTERESSE GERAL'] + df_vendas_categ_mes['LIVROS TECNICOS']
df_vendas_categ_mes['MOVEIS DECORACAO'] = df_vendas_categ_mes['MOVEIS DECORACAO'] + df_vendas_categ_mes['MOVEIS COLCHAO E ESTOFADO'] + df_vendas_categ_mes['MOVEIS COZINHA AREA DE SERVICO JANTAR E JARDIM'] + df_vendas_categ_mes['MOVEIS ESCRITORIO'] + df_vendas_categ_mes['MOVEIS QUARTO'] + df_vendas_categ_mes['MOVEIS SALA']
df_vendas_categ_mes['PORTATEIS CASA FORNO E CAFE'] = df_vendas_categ_mes['PORTATEIS CASA FORNO E CAFE'] + df_vendas_categ_mes['PORTATEIS COZINHA E PREPARADORES DE ALIMENTOS']
df_vendas_categ_mes['TELEFONIA'] = df_vendas_categ_mes['TELEFONIA'] + df_vendas_categ_mes['TELEFONIA FIXA']
df_vendas_categ_mes['PCS'] = df_vendas_categ_mes['PCS'] + df_vendas_categ_mes['PC GAMER']

df_vendas_categ_mes.drop(['ALIMENTOS','BEBIDAS','ARTES','ARTIGOS DE NATAL','CASA CONFORTO 2','CASA CONSTRUCAO','FERRAMENTAS JARDIM','CONSTRUCAO FERRAMENTAS FERRAMENTAS','CONSTRUCAO FERRAMENTAS ILUMINACAO','CONSTRUCAO FERRAMENTAS JARDIM','CONSTRUCAO FERRAMENTAS SEGURANCA','ELETRODOMESTICOS 2','FERRAMENTAS JARDIM','FASHION CALCADOS','FASHION ESPORTE','FASHION ROUPA FEMININA','FASHION ROUPA INFANTO JUVENIL','FASHION ROUPA MASCULINA','FASHION UNDERWEAR E MODA PRAIA','LIVROS INTERESSE GERAL','LIVROS TECNICOS','MOVEIS SALA','MOVEIS QUARTO','MOVEIS ESCRITORIO','MOVEIS COZINHA AREA DE SERVICO JANTAR E JARDIM','MOVEIS COLCHAO E ESTOFADO','PC GAMER','PORTATEIS COZINHA E PREPARADORES DE ALIMENTOS','TELEFONIA FIXA'], inplace=True, axis=1)

In [0]:
#@title Formata a data da venda
data_mes = []
date_ano_mes = []
for mes in array_ano_mes:
  data_mes.append(str(mes)[0]+str(mes)[1]+str(mes)[2]+str(mes)[3]+", "+str(mes)[4]+str(mes)[5])
for ano_mes in data_mes:
  ano = int(ano_mes[0]+ano_mes[1]+ano_mes[2]+ano_mes[3])
  mes = int(ano_mes[6]+ano_mes[7])
  x = dt.datetime(ano, mes, 1)
  date_ano_mes.append(x)

#### 4.2) **(20%)** Análise 2 - Dependência entre variáveis
O aluno deve apresentar as mesmas distribuições para cada valor da variável dependente. Exemplo: Em um conjunto de dados em que as variáveis independentes são idade e sexo, e a variável dependente é renda. O aluno pode dividir a renda em 3 "grupos", <1000 reais, entre 1000 e 10000 reais e >1000 reais. Para cada um desses grupos, é necessário apresentar a distribuição das variáveis "idade" e "sexo".


In [20]:
#@title Distribuição da variável dependente(Conversões), entre variáveis independentes(Origem da captição)
# Declarando as etiquetas das fatias dos gráficos 'Pizza / Torta'
labels = qtd_origem.index
labels = labels
# Definindo a quantidade de linhas e colunas do gráfico
fig = make_subplots(rows=1, cols=2, specs=[[{'type':'domain'},{'type':'domain'}]])

# Declarando os valores de cada gráfico
# Gráfico 1
fig.add_trace(go.Pie(labels=labels, values=qtd_origem['Cliente ID'], name='Qtd. Conversões'), 1,1)

# Gráfico 2
fig.add_trace(go.Pie(labels=labels, values=df_distribui_leads['Conversões(%)'], name='Eficácia origem'), 1,2)

# Declarando as informações do POP UP no ponteiro do mouse
fig.update_traces(hole=.1, hoverinfo='value+label+percent+name')

# Definindo o layout do gráfico de Pizza
fig.update_layout(
    title_text="Porcentagem: 1 - Conversões por origem   /   2 - Correlação entre a Origem da captação e Conversão",
    annotations=[dict(text='1', x=0, y=1, font_size=20, showarrow=False),
                    dict(text='2', x=0.55, y=1, font_size=20, showarrow=False)])

# Plotando o gráfico
fig.show()

In [21]:
#@title Distribuição da variável dependente(Conversões), entre variáveis independentes(Tipo de Lead e Tipo de negócio)
labels1 = df_tp_lead['Tipo lead']
labels2 = df_tp_negocio['Tipo negócio']

fig = make_subplots(rows=1, cols=2, specs=[[{'type':'domain'},{'type':'domain'}]])
fig.add_trace(go.Pie(labels=labels1, values= df_tp_lead['Qtd Conversões'], name='Classe lead'), 1,1)
fig.add_trace(go.Pie(labels=labels2, values= df_tp_negocio['Qtd Conversões'], name='Modelo'), 1,2)
fig.update_traces(hole=.1, hoverinfo='label+value+percent+name')

fig.update_layout(
    title_text="Público: 1 - Conversões por Tipo de 'lead'   /   2 - Conversões por Tipo de negócio",
    annotations=[dict(text='1', x=0, y=1, font_size=20, showarrow=False),
                    dict(text='2', x=0.55, y=1, font_size=20, showarrow=False)])
fig.show()

In [22]:
#@title Distribuição  da variável dependente(Conversões), entre variáveis independentes(Segmento do Negócio)
# Definindo os valores para cada eixo do gráfico de barras
trace8 = go.Bar(x = df_segmento['Segmento'],
               y = df_segmento['Qtd Conversões'])

# Definindo o layout do gráfico
layout3 = go.Layout(title = 'Quantidade de conversões por segmento do negócio',
                   yaxis = {'title': 'Quantidade'})
data3 = [trace8]
fig = go.Figure(data=data3, layout=layout3)

# Plotando o gráfico
py.iplot(fig)

In [23]:
#@title Distribuição  da variáveis dependentes (Faturamento em R$) definida por: n x 1000 e (Média por venda) em R$, entre variáveis independentes (Categorias)
# Definindo os valores para cada eixo do gráfico de barras
trace2 = go.Bar(x = df_fatura['Categoria'],
               y = df_fatura['Total faturamento(R$)'] / 1000,
                   marker = {'color':'rgba(50, 171, 96, 0.6)'},
                   name = '1 - Faturamento (n / 1000)')

trace5 = go.Scatter(x = df_fatura['Categoria'],
               y = df_fatura['Média faturamento/venda(R$)'],
                   marker = {'color':'green'},
                   line = {'color':'red'},
                   name = '2 - Média venda',
                   mode = 'lines+markers')

# Definindo o layout do gráfico
layout5 = go.Layout(title = 'Quantidade de conversões por segmento do negócio',
                   yaxis = {'title': '1 - (n x 1000) | 2 - Média venda(R$)'},
                   barmode = 'stack')
data5 = [trace5, trace2]
fig = go.Figure(data=data5, layout=layout5)

# Plotando o gráfico
py.iplot(fig)



In [0]:
#@title Distribuição da variáveis dependentes(Conversões e Vendas), entre variáveis independentes(Cidade/Estado)

# Declarando contador para percorrer a tabela
qtd_item = 0

# Criando a tabela de leads com localização
df_deals_loc = pd.DataFrame()

# Percorrendo a base para inserir os valores na nova tabela
for loc, row in df.iterrows():

  # Criando condição para inserir os valores
  if row['geolocation_zip_code_prefix'] > 0:
    if row['Cliente ID'] in list(df_deals['mql_id']):
      df_deals_loc.loc[qtd_item, 'Cliente ID'] = row['Cliente ID']
      df_deals_loc.loc[qtd_item, 'ZIP'] = row['geolocation_zip_code_prefix']      
      df_deals_loc.loc[qtd_item, 'lng'] = row['geolocation_lng']
      df_deals_loc.loc[qtd_item, 'lat'] = row['geolocation_lat']
      df_deals_loc.loc[qtd_item, 'Cidade'] = row['Consumidor cidade'].upper()
      df_deals_loc.loc[qtd_item, 'Estado'] = row['Consumidor estado']
    qtd_item += 1

# Agrupando os leads por Cidade e por Estado para fazer a contagem de cada grupo
qtd_deal_cidade = df_deals_loc.groupby(['Cidade']).count()
qtd_deal_estado = df_deals_loc.groupby(['Estado']).count()

# Declarando contador para percorrer a nova tabela de leads com localização
qtd_item = 0

# Percorrendo a nova tabela para inserir os valores
for uf in df_deals_loc['Cidade']:

  # Declarando contador para percorrer o grupo de cidades
  i = 0

  # Percorrendo o grupo de cidades para identificar a quantidade de conversões
  for item in qtd_deal_cidade.index:

    # Criando condição para inserir os valores
    if uf == item:

      # Criando nova coluna na tabela de leads com localização e inserindo os valores
      df_deals_loc.loc[qtd_item, 'Grupo Cidade'] = qtd_deal_cidade['ZIP'][i]
    i += 1
  qtd_item += 1

# Declarando contador para percorrer a nova tabela de leads com localização
qtd_item = 0

# Declarando contador para percorrer o grupo de estados
for uf in df_deals_loc['Estado']:

  # Declarando contador para percorrer o grupo de estados
  i = 0

  # Percorrendo o grupo de estados para identificar a quantidade de conversões
  for item in qtd_deal_estado.index:
    if uf == item:

      # Criando nova coluna na tabela de leads com localização e inserindo os valores
      df_deals_loc.loc[qtd_item, 'Grupo UF'] = qtd_deal_estado['ZIP'][i]
    i += 1
  qtd_item += 1

# Convertendo os tipos de dados das colunas 'Grupo Cidade' e 'Grupo Estado' de floar para integer
df_deals_loc['Grupo Cidade'] = np.array([int(x) if int(x) == x else x for x in df_deals_loc['Grupo Cidade']], dtype=object)
df_deals_loc['Grupo UF'] = np.array([int(x) if int(x) == x else x for x in df_deals_loc['Grupo UF']], dtype=object)



In [25]:
#@title Cria o gráfico de localização, "*Deals*" / Consumidores para distribuições das variáveis acima

# Declarando os valores para alimentar o gráfico geográfico
# Variáveis dos leads convertidos
fig = make_subplots(rows=1, cols=2)
fig.add_trace(go.Scattergeo(
                     locationmode = 'country names',
                     lon = df_deals_loc['lng'],
                     lat = df_deals_loc['lat'],
                     text = df_deals_loc['Cidade'] + " / " + df_deals_loc['Estado'] + " (" + df_deals_loc['Grupo Cidade'].astype(str) + " / " + df_deals_loc['Grupo UF'].astype(str) + ")",
                     marker = dict(
                            size = 10,
                            color = 'rgba(239, 0, 60, 0.3)', #e74c3c',
                            line = {'width': 0.5, 
                                    'color': '#2c3e50'},
                            sizemode = 'area'),
                    name = 'Leads Convertidos'
                    ))

# Variáveis dos consumidores
fig.add_trace(go.Scattergeo(
                     locationmode = 'country names',
                     lon = df_retorno_deal['lng'],
                     lat = df_retorno_deal['lat'],
                     text = df_retorno_deal['Cidade'] + " / " + df_retorno_deal['Estado'], # + " (" + df_deals_loc['Grupo Cidade'].astype(str) + " / " + df_deals_loc['Grupo UF'].astype(str) + ")"
                     marker = dict(
                            size = 3,
                            color = 'rgba(0, 175, 239, 0.3)', #'#00AFEF'
                            line = {'width': 0.1, 
                                    'color': '#2c3e50'},
                            sizemode = 'area'),
                    name = 'Consumidores'
                    ))
# Declarando o layout do gráfico
fig.update_layout(go.Layout(
        title = '<b>Localização dos <i>"leads"</i> convertidos e consumidores</b>',
        titlefont = {'family': 'Arial',
                     'size': 24},
        geo =  {'scope': 'south america',
                'projection': {'type': 'natural earth'},
                'landcolor': '#2ecc71'
                }
        ))

# data9 = [fig]
fig.show() # = go.Figure(fig, layout=layout9)

# Plotando o gráfico geográfico
#py.iplot(fig)

In [204]:
#@title Distribuição da variável dependente (Qtd Vendas Mês), pelas variáveis independentes (Categorias)
x = date_ano_mes
y = df_vendas_categ_mes
y_transpose = y.values.transpose()
fig = go.Figure()
for i, coluna in enumerate(y_transpose):
  fig.add_trace(go.Scatter(x=x, y=y.values.transpose()[i],
                      line_shape='spline',
                      mode='lines+markers',
                      name=y.columns[i],
                      line = dict(color = 'rgb('+str(randint(0, 255))+', '+str(randint(0, 255))+', '+str(randint(0, 255))+')')))
fig.show()

#### 4.3) **(20%)** Análise 3 - Correlação entre variáveis

O aluno deve apresentar 3 análises de correlação entre variáveis do conjunto de dados trabalhado. Exemplo: Em um conjunto de dados com as informações de temperatura e ocorrência de incêndios, eu gostaria de saber a incidência de correlação entre as duas variáveis.



In [26]:
#@title Correlação entre a quantidade de contatos e quantidade de conversões
# Definindo a linha Data/Contato
trace = go.Scatter(x = dt_contato.index,
                    y = dt_contato['Cliente ID'],
                    mode = 'lines',
                    name = 'Quant contato')

# Definindo a linha Data/Conversão
trace1 = go.Scatter(x = dt_compra.index,
                    y = dt_compra['mql_id'],
                    mode = 'lines',
                    name = 'Quant conversões')

# Definindo o  layout do gráfico de linhas
layout = go.Layout(title = 'Quantidade de contatos e conversões por data',
                   xaxis = {'title': 'Data dos contatos/conversões'},
                   yaxis = {'title': 'Quantidade de contatos/conversão'})

data = [trace, trace1]
fig = go.Figure(data=data, layout=layout)

# Plotando o gráfico Relação contato / conversão
py.iplot(fig)

In [27]:
#@title Correlação entre os intervalos de tempo do primeiro contato até a conversão dos leads
# Definindo a primeira data da base
min_data = min(df['Data contato'])

# Definindo a última data da base
max_data = max(df_deals['won_date'])

# Criando a barra do primeiro contato com o lead
trace3 = go.Bar(x = df_contato_compra['ID'],
                y =(df['Data contato']),
                name = 'Contato 1',
                marker = {'color': 'orange'})

# Criando o ponto da data de conversão
trace4 = go.Scatter(x = df_contato_compra['ID'],
                y = df_deals['won_date'],
                name = 'Data compra',
                mode = 'markers',
                marker = {'color': 'red', 'size': 4.5})

# Definindo o  layout do gráfico misto (Barras/Marcas)
layout1 = go.Layout(title = 'Intervalo de tempo entre 1º contato e conversão',
                   xaxis = {'title': 'Cliente', 'zeroline': True},
                   yaxis = {'range': (min_data, max_data), 'fixedrange': True, 'type':'date', 'constrain': 'range'},
                   barmode = 'stack')

data1 = [trace3, trace4]
fig = go.Figure(data=data1, layout=layout1)

# Plotando o gráfico Intervalo de tempo Contato/Conversão
py.iplot(fig)

In [28]:
#@title Correlação entre quantidade de leads e quantidade de conversões, distribuidos pelas origens de captação
# Definindo a quantidade de conversões por origem de captação
trace6 = go.Bar(x = df_distribui_leads['Origem Captação'],
                y = qtd_origem['Cliente ID'],
                name = 'Conversão',
                marker = {'color': 'green'})

# Definindo a quantidade de leads por origem de captação
trace7 = go.Bar(x = df_distribui_leads['Origem Captação'],
                y = qtd_origem_null['Cliente ID'],
                name = 'Leads',
                marker = {'color': 'yellow'})

# Definindo o layout do báfico de barras empilhadas
layout2 = go.Layout(title = 'Quantidade de leads e conversões por origem de captação',
                   xaxis = {'title': 'Origem da captação'},
                   yaxis = {'title': 'Quantidade'},
                   barmode = 'stack')

data2 = [trace6, trace7]
fig = go.Figure(data=data2, layout=layout2)

# Plotando o gráfico de Correlação entre origem de captação e conversão
py.iplot(fig)

In [29]:
#@title Correlação entre quantidade de produtos e vendas, distribuidos pelas categorias
# Definindo a quantidade de produtos por categoria
trace11 = go.Bar(x = df_fatura['Categoria'],
                y = df_fatura['Qtd Produtos'],
                name = 'Produtos categoria',
                marker = {'color': 'red'})

# Definindo a quantidade de produtos vendidos por categoria
trace12 = go.Bar(x = df_fatura['Categoria'],
                y = df_fatura['Qtd Vendidos'],
                name = 'Produtos vendidos',
                marker = {'color': 'orange'})

# Definindo o layout do báfico de barras empilhadas
layout4 = go.Layout(title = 'Quantidade de produtos e vendas por categoria de produtos',
                   yaxis = {'title': 'Quantidade'},
                   barmode = 'stack')

data4 = [trace11, trace12]
fig = go.Figure(data=data4, layout=layout4)

# Plotando o gráfico de Correlação entre quantidade de produtos e vendas por categoria de produtos
py.iplot(fig)

### 5) Conclusões **15%**

*O que é possível concluir com os dados que você analisou? Se fosse fazer uma apresentação, o que levaria como os maiores destaques e por que?*