# Meeting Pattern

O objetivo deste projeto é identificar qual o padrão dos leads para que haja conexão e agendamento, ou seja, geração de oportunidade.

Abordaremos desta maneira devido ao objetivo de melhorar a taxa de conversão entre um lead gerado e qualificado por marketing até a oportunidade gerada. Além disso, o volume é muito maior quando se comparado com o número de clientes, dando uma possibilidade de um estudo ainda mais consistente.

## Libs

In [1]:
import requests
import urllib3
import numpy as np
import pandas as pd
import json
import datetime
import tqdm
import collections

## Bases

In [2]:
rd = pd.read_csv('data/rdstation.csv', low_memory=False)

In [3]:
events = pd.read_csv('data/conversoes.csv', sep="\t")

In [4]:
exact = pd.read_csv('data/exact.csv', sep=';', encoding='utf-8')

### Tratamento das bases

1) RD Station

In [5]:
#Dropar todas as colunas que não possuem nenhuma informação
rd = rd.dropna(axis=1, how='all')

#selecionar todas as colunas que possuem + 300 eventos registrados
rd = rd[rd.columns[rd.count()>300]]

#dropar as colunas que não utilizamos para analisar os dados
rd.drop(labels=['Celular', 'Cidade', 'Estado', 'Pais', 'Mercado', 'Produto', 'Dadoscoletados', 'Origem.1', 'Company', \
                    'Id', 'Trialstart', 'Trialend', 'Import token', 'Submit-om', 'Possui-sistema-de-atendimento', \
                    'Newsletter', 'Form url', 'Siteempresa','Created at', 'Page title', 'Conversion page', 'Istest', 'Tags', \
                    'Octadesksubdomain', 'Octadeskemail', 'Istrial', 'Hascreatedaccount', 'Traffic Source', \
                    'Sh0uldn07ch4ng3', 'Custom fields[274]', 'Custom fields[14137]', \
                    'Custom fields[28126]', 'Custom fields[28308]', 'Custom fields[266]', \
                    'Custom fields[270]', 'Custom fields[44611]', 'Custom fields[44612]', \
                    'Custom fields[265]', 'Custom fields[268]', 'Qual seu maior problema?', \
                    'Custom fields[148136]', 'Vertical', 'Já utiliza sistema de atendimento?', \
                    'Custom fields[98378]', 'Custom fields[15144]', 'Custom fields[16314]', \
                    'Dores', 'Motivodescarte', 'Etapadescarte', 'Prevendedor', 'Emailprevendedor',\
                    'Qualificacaofiltro1','Qualificacaofiltro2', 'Qualificacaofeedbackvisita', 'Etapaatual','Vendedor'], axis=1, inplace=True)

#Splitar a Origem e criar duas colunas
#medium
rd['rd_medium'] = rd['Origem'].str.split('|').str[0]
rd['rd_medium'] = rd['rd_medium'].str.strip()

#source
rd['rd_source'] = rd['Origem'].str.split('|').str[1]
rd['rd_source'] = rd['rd_source'].str.strip()

#drop Origem
rd.drop(labels=['Origem'], axis=1, inplace=True)


In [6]:
#Normalizar a data de conversão
rd['conv_date'] = pd.DatetimeIndex(rd['Data da Conversão']).normalize()
conv_date = rd['conv_date']
rd.drop(labels=['conv_date', 'Data da Conversão'], axis=1,inplace = True)
rd.insert(0, 'conv_date', conv_date)

In [7]:
#renomear as colunas
rd = rd.rename(index=str, columns={'Identificador': 'event', 'Nome': 'name', \
                                  'Telefone': 'phone', 'Utm campaign': 'utm_campaign', \
                                  'Utm medium': 'utm_medium', 'Utm source':'utm_source', \
                                  'Email lead': 'email', 'Website': 'site', \
                                  'Qual é o seu cargo?': 'job_title', 'Departamento': 'department',
                                  'Numero-de-funcionarios': 'n_employees', 'Gerenciamento': 'management',
                                  'Utm content': 'utm_content', 'Utm term': 'utm_term',
                                  'Número de funcionários': 'n_employees 2', 'Empresa': 'company_name'})

In [8]:
#Juntar as colunas de número de funcionários
rd['n_employees'] = rd[['n_employees', 'n_employees 2']].apply(lambda x: ','.join(x.dropna().astype(str)),axis=1)
rd.drop('n_employees 2', axis=1, inplace = True)

#Juntar as colunas de cargo
rd['job_title'] = rd[['Cargo', 'job_title']].apply(lambda x: ','.join(x.dropna().astype(str)),axis=1)
rd.drop('Cargo', axis=1, inplace = True)


In [9]:
#employee
rd['n_employees'].replace('1 a 10', 'de 1 a 10', inplace=True)
rd['n_employees'].replace('11 a 30', 'de 11 a 30', inplace=True)
rd['n_employees'].replace('de 11 a 30 ', 'de 11 a 30', inplace=True)
rd['n_employees'].replace('de 6 a 10', 'de 1 a 10', inplace=True)
rd['n_employees'].replace('de 6 a 10 ', 'de 1 a 10', inplace=True)
rd['n_employees'].replace('6 a 10', 'de 1 a 10', inplace=True)
rd['n_employees'].replace('1 a 5', 'de 1 a 10', inplace=True)
rd['n_employees'].replace('de 1 a 5', 'de 1 a 10', inplace=True)
rd['n_employees'].replace('31 a 50', 'de 31 a 50', inplace=True)
rd['n_employees'].replace('51 a 100', 'de 51 a 100', inplace=True)
rd['n_employees'].replace('acima de 1001', 'acima de 100', inplace=True)
rd['n_employees'].replace('251 a 500', 'acima de 100', inplace=True)
rd['n_employees'].replace('de 251 a 500', 'acima de 100', inplace=True)
rd['n_employees'].replace('de 101 a 250', 'acima de 100', inplace=True)
rd['n_employees'].replace('500 a 1000', 'acima de 100', inplace=True)
rd['n_employees'].replace('101 a 250', 'acima de 100', inplace=True)
rd['n_employees'].replace('de 501 a 1000', 'acima de 100', inplace=True)
rd['n_employees'].replace('1-5', 'de 1 a 10', inplace=True)
rd['n_employees'].replace('6-10', 'de 1 a 10', inplace=True)
rd['n_employees'].replace('11-20', 'de 11 a 30', inplace=True)
rd['n_employees'].replace('Mais de 20', 'de 11 a 30', inplace=True)
rd['n_employees'].replace('undefined', np.nan, inplace=True)

In [10]:
#outros cargos
rd['job_title'].replace('CONSULTOR', 'Outros Cargos', inplace=True)
rd['job_title'].replace('Consultor', 'Outros Cargos', inplace=True)
rd['job_title'].replace('Assistente Comercial', 'Outros Cargos', inplace=True)
rd['job_title'].replace('Administração', 'Outros Cargos', inplace=True)
rd['job_title'].replace('Representante', 'Outros Cargos', inplace=True)
rd['job_title'].replace('Consultor Empresarial', 'Outros Cargos', inplace=True)
rd['job_title'].replace('Representante Comercial', 'Outros Cargos', inplace=True)
rd['job_title'].replace('Outros cargos', 'Outros Cargos', inplace=True)
rd['job_title'].replace('Outro', 'Outros Cargos', inplace=True)
rd['job_title'].replace('undefined', 'Outros Cargos', inplace=True)


#coordenador
rd['job_title'].replace('Supervisor(a) / Coordenador(a)', 'Supervisor', inplace=True)
rd.loc[rd['job_title'].str.contains('supervisor'), 'job_title'] = 'Supervisor'
rd.loc[rd['job_title'].str.contains('Supervisor'), 'job_title'] = 'Supervisor'
rd.loc[rd['job_title'].str.contains('SUPERVISOR'), 'job_title'] = 'Supervisor'

#socio
rd['job_title'].replace('Empresário / CEO', 'Sócio / CEO', inplace=True)
rd['job_title'].replace('Executivo', 'Sócio / CEO', inplace=True)
rd['job_title'].replace('propietario', 'Sócio / CEO', inplace=True)
rd['job_title'].replace('Presidência', 'Sócio / CEO', inplace=True)
rd['job_title'].replace('CEO', 'Sócio / CEO', inplace=True)
rd.loc[rd['job_title'].str.contains('ceo'), 'job_title'] = 'Sócio / CEO'
rd.loc[rd['job_title'].str.contains('Ceo'), 'job_title'] = 'Sócio / CEO'
rd.loc[rd['job_title'].str.contains('CEO'), 'job_title'] = 'Sócio / CEO'
rd.loc[rd['job_title'].str.contains('Sócio'), 'job_title'] = 'Sócio / CEO'
rd.loc[rd['job_title'].str.contains('sócio'), 'job_title'] = 'Sócio / CEO'
rd.loc[rd['job_title'].str.contains('SÓCIO'), 'job_title'] = 'Sócio / CEO'
rd.loc[rd['job_title'].str.contains('Socio'), 'job_title'] = 'Sócio / CEO'
rd.loc[rd['job_title'].str.contains('socio'), 'job_title'] = 'Sócio / CEO'
rd.loc[rd['job_title'].str.contains('SOCIO'), 'job_title'] = 'Sócio / CEO'
rd.loc[rd['job_title'].str.contains('SÛcio'), 'job_title'] = 'Sócio / CEO'
rd.loc[rd['job_title'].str.contains('Dono'), 'job_title'] = 'Sócio / CEO'
rd.loc[rd['job_title'].str.contains('Owner'), 'job_title'] = 'Sócio / CEO'
rd.loc[rd['job_title'].str.contains('Founder'), 'job_title'] = 'Sócio / CEO'
rd.loc[rd['job_title'].str.contains('founder'), 'job_title'] = 'Sócio / CEO'
rd.loc[rd['job_title'].str.contains('Proprietário'), 'job_title'] = 'Sócio / CEO'
rd.loc[rd['job_title'].str.contains('Propietário'), 'job_title'] = 'Sócio / CEO'
rd.loc[rd['job_title'].str.contains('Presidente'), 'job_title'] = 'Sócio / CEO'
rd.loc[rd['job_title'].str.contains('presidente'), 'job_title'] = 'Sócio / CEO'

#Diretor
rd['job_title'].replace('Diretor Comercial', 'Diretor', inplace=True)
rd.loc[rd['job_title'].str.contains('Diretor'), 'job_title'] = 'Diretor'
rd.loc[rd['job_title'].str.contains('DIRETOR'), 'job_title'] = 'Diretor'
rd.loc[rd['job_title'].str.contains('diretor'), 'job_title'] = 'Diretor'

#gerente
rd['job_title'].replace('Gerente de Vendas', 'Gerente', inplace=True)
rd['job_title'].replace('Gestor de Vendas', 'Gerente', inplace=True)
rd['job_title'].replace('Gestor de Marketing', 'Gerente', inplace=True)
rd.loc[rd['job_title'].str.contains('Gerente'), 'job_title'] = 'Gerente'
rd.loc[rd['job_title'].str.contains('gerente'), 'job_title'] = 'Gerente'
rd.loc[rd['job_title'].str.contains('GERENTE'), 'job_title'] = 'Gerente'
rd.loc[rd['job_title'].str.contains('Responsável'), 'job_title'] = 'Gerente'
rd.loc[rd['job_title'].str.contains('GESTOR'), 'job_title'] = 'Gerente'
rd.loc[rd['job_title'].str.contains('gestor'), 'job_title'] = 'Gerente'
rd.loc[rd['job_title'].str.contains('Gestor'), 'job_title'] = 'Gerente'


#vendedor / atendente
rd['job_title'].replace('vendedor', 'Vendedor / atendente', inplace=True)
rd['job_title'].replace('Atendente', 'Vendedor / atendente', inplace=True)
rd['job_title'].replace('Vendedor Externo', 'Vendedor / atendente', inplace=True)
rd['job_title'].replace('Vendedor Interno', 'Vendedor / atendente', inplace=True)

#analista
rd.loc[rd['job_title'].str.contains('Analista'), 'job_title'] = 'Analista'
rd.loc[rd['job_title'].str.contains('analista'), 'job_title'] = 'Analista'
rd.loc[rd['job_title'].str.contains('ANALISTA'), 'job_title'] = 'Analista'

#Coordenador
rd.loc[rd['job_title'].str.contains('Coordenador'), 'job_title'] = 'Coordenador'
rd.loc[rd['job_title'].str.contains('coordenador'), 'job_title'] = 'Coordenador'
rd.loc[rd['job_title'].str.contains('COORDENADOR'), 'job_title'] = 'Coordenador'

In [11]:
#Somar Todos os valores abaixo de 15 para Outros Cargos
g = rd.groupby('job_title')
g.filter(lambda x: len(x) <= 15)
rd.loc[g['job_title'].transform(lambda x: len(x) <= 15).astype(bool), 'job_title'] = 'Outros Cargos'

In [12]:
#remover '/' dos eventos
rd.event.replace(regex=True,inplace=True,to_replace=r'/',value=r'')

In [13]:
#Substituir medium de Social para Facebook ou LinkedIn
rd.rd_medium.replace('Social', rd.rd_source, inplace=True)

#Substituir Desconhecido para utm_medium
rd.rd_medium.replace('Desconhecido', rd.utm_medium, inplace=True)

In [14]:
#substituir valores de utm_medium para o padrão RD
rd.rd_medium.replace('social', rd.utm_source, inplace=True)

In [15]:
#substituir valores para grupos maiores
rd.rd_medium.replace('cpc', 'Busca Paga', inplace=True)
rd.rd_medium.replace('organic', 'Busca Orgânica', inplace=True)
rd.rd_medium.replace('email', 'Email', inplace=True)
rd.rd_medium.replace('cpc', 'Busca Paga', inplace=True)
rd.rd_medium.replace('facebook', 'Facebook', inplace=True)
rd.rd_medium.replace('referral', 'Referência', inplace=True)
rd.rd_medium.replace('linkedin', 'LinkedIn', inplace=True)
rd.rd_medium.replace('Facebook Ads', 'Facebook', inplace=True)
rd.rd_medium.replace('n/a', 'Desconhecido', inplace=True)
rd.rd_medium.replace('none', 'Desconhecido', inplace=True)
rd.rd_medium.replace('banner-blog', 'Desconhecido', inplace=True)
rd.rd_medium.replace('blog', 'Desconhecido', inplace=True)
rd.rd_medium.replace('Instagram', 'Desconhecido', inplace=True)
rd.rd_medium.replace('link-site', 'Desconhecido', inplace=True)
rd.rd_medium.replace('button-site', 'Desconhecido', inplace=True)
rd.rd_medium.replace('Twitter', 'Desconhecido', inplace=True)
rd.rd_medium.replace('Pinterest', 'Desconhecido', inplace=True)
rd.rd_medium.replace('Partner', 'Email', inplace=True)
rd.rd_medium.replace('link-blog', 'Email', inplace=True)
rd.rd_medium.replace('Blogger', 'Email', inplace=True)

In [16]:
rd.rd_medium.fillna('Desconhecido', inplace=True)

1) a) Eventos

In [17]:
events = pd.read_excel('events 2.xlsx')

In [18]:
#dropar a coluna ID
events.drop('ID', axis=1, inplace=True)

In [19]:
#criar uma coluna na base RD com a classificação dos materiais
rd = rd.merge(events, how='left', on="event")

2) Exact Sales

In [20]:
#Dropar todas as colunas que não possuem nenhuma informação
exact = exact.dropna(axis=1, how='all')

#Dropar as colunas que não necessitam para a análise
exact.drop(labels=['Nome da Empresa', 'Dt. Venda', 'Dt. Última Atualização',\
       'Mercado', 'Produto', 'Site', 'Data Descarte', 'LinkMarketing', 'Motivo descarte',\
       'País', 'Estado', 'Cidade', 'Telefone 1', 'Telefone 2', 'Observação',\
       'utm_campaign', 'utm_source', 'utm_medium',\
       'Dores Lead', 'Produtos Sugeridos', 'Produtos Vendidos','Cargo Contato 1',\
       'Telefone 1 Contato 1', 'Telefone 2 Contato 1', 'Nome Contato 2',\
       'E-mail Contato 2', 'Cargo Contato 2', 'Telefone 1 Contato 2',\
       'Telefone 2 Contato 2', 'Nome Contato 3', 'E-mail Contato 3','Nome Contato 1',\
       'Cargo Contato 3', 'Telefone 1 Contato 3', 'E-mail Pré-vendedor', \
        'Telefone 2 Contato 3', 'Dt. Último Resgate'], axis=1, inplace=True)

In [21]:
## Ajuste das datas para padrão d/m/Y

#create date
exact['Data de Criação'] = pd.to_datetime(exact['Data de Criação'], format='%d/%m/%Y')

#booking date
exact['Dt. Agend. reunião'] = exact['Dt. Agend. reunião'].str.split(' ').str[0]
exact['Dt. Agend. reunião'] = pd.to_datetime(exact['Dt. Agend. reunião'], format='%d/%m/%Y')

#meeting date
exact['Dt. Reunião'] = exact['Dt. Reunião'].str.split(' ').str[0]
exact['Dt. Reunião'] = pd.to_datetime(exact['Dt. Reunião'], format='%d/%m/%Y')

#feedback date
exact['Dt. Preenc. Feedback'] = exact['Dt. Preenc. Feedback'].str.split(' ').str[0]
exact['Dt. Preenc. Feedback'] = pd.to_datetime(exact['Dt. Preenc. Feedback'], format='%d/%m/%Y')

#filter 1 date
exact['Dt. Filtro 1'] = exact['Dt. Filtro 1'].str.split(' ').str[0]
exact['Dt. Filtro 1'] = pd.to_datetime(exact['Dt. Filtro 1'], format='%d/%m/%Y')

#filter 2 date
exact['Dt. Filtro 2'] = exact['Dt. Filtro 2'].str.split(' ').str[0]
exact['Dt. Filtro 2'] = pd.to_datetime(exact['Dt. Filtro 2'], format='%d/%m/%Y')

In [22]:
#Renomear as colunas
#renomear as colunas
exact = exact.rename(index=str, columns={'Data de Criação':'qualified_date', 'Origem': 'type',\
                                        'Sub-Origem': 'sub_type', 'Etapa Atual': 'stage', \
                                        'Pontuação': 'score', 'Dt. Agend. reunião': 'scheduling_date',\
                                        'Dt. Reunião': 'meeting_date', 'Qualificação Feedback': 'feedback_score',\
                                        'Dt. Preenc. Feedback': 'feedback_date', 'Etapa Descarte': 'lost_stage',\
                                        'Data Descarte': 'lost_date', \
                                        'Nome do Vendedor': 'salesperson', 'Nome Pré-Vendedor':'sdr',\
                                        'E-mail Contato 1': 'email', 'Qualificação Filtro 1': 'filter1_score',\
                                        'Qualificação Filtro 2': 'filter2_score', 'Dt. Filtro 1' : 'filter1_date',\
                                        'Dt. Filtro 2': 'filter2_date'})

In [23]:
##replaces de salespearson e sdr
exact.salesperson.replace('Artur Mendes', 'artur', inplace=True)
exact.salesperson.replace('Juliana Brito', 'juliana', inplace=True)
exact.salesperson.replace('Daniela Degaspare', 'outros', inplace=True)
exact.salesperson.replace('Rodrigo Ricco', 'outros', inplace=True)

#sdr
exact.sdr.replace('Israel Rodrigues', 'israel', inplace=True)
exact.sdr.replace('Artur Pré-Venda', 'artur', inplace=True)
exact.sdr.replace('Juliana Pré-Vendas', 'juliana', inplace=True)
exact.sdr.replace('Alessandra Dias', 'outros', inplace=True)
exact.sdr.replace('Flavia Lima', 'flavia', inplace=True)
exact.sdr.replace('Daniela Pré-Vendas', 'outros', inplace=True)

In [24]:
##normalizar as datas
exact['qualified_date'] = pd.DatetimeIndex(exact['qualified_date']).normalize()
exact['scheduling_date'] = pd.DatetimeIndex(exact['scheduling_date']).normalize()
exact['meeting_date'] = pd.DatetimeIndex(exact['meeting_date']).normalize()
exact['feedback_date'] = pd.DatetimeIndex(exact['feedback_date']).normalize()
exact['filter1_date'] = pd.DatetimeIndex(exact['filter1_date']).normalize()
exact['filter2_date'] = pd.DatetimeIndex(exact['filter2_date']).normalize()

In [25]:
##Score em números para facilitar o dataset

#feedbackscore
exact.feedback_score.replace('Muito Quente', 4, inplace=True)
exact.feedback_score.replace('Quente', 3, inplace=True)
exact.feedback_score.replace('Morna', 2, inplace=True)
exact.feedback_score.replace('Fria', 1, inplace=True)
exact.feedback_score.replace('Congelada', 0, inplace=True)

#filter1
exact.filter1_score.replace('Muito Quente', 4, inplace=True)
exact.filter1_score.replace('Quente', 3, inplace=True)
exact.filter1_score.replace('Morna', 2, inplace=True)
exact.filter1_score.replace('Fria', 1, inplace=True)
exact.filter1_score.replace('Congelada', 0, inplace=True)

#filter2
exact.filter2_score.replace('Muito Quente', 4, inplace=True)
exact.filter2_score.replace('Quente', 3, inplace=True)
exact.filter2_score.replace('Morna', 2, inplace=True)
exact.filter2_score.replace('Fria', 1, inplace=True)
exact.filter2_score.replace('Congelada', 0, inplace=True)

In [26]:
#Criar colunas para identificar até qual etapa de vendas o lead foi

#entry, filter_one, filter_two, meeting, sales
exact['entry'] = 1
exact['filter_one'] = np.where(np.logical_or(np.isnan(exact.filter1_score),np.isnat(exact.filter1_date)), 0,1 )
exact['filter_two'] = np.where(np.logical_or(np.isnan(exact.filter2_score),np.isnat(exact.filter2_date)), 0,1 )
exact['meeting'] = np.where((np.isnan(exact.feedback_score)) & (np.isnat(exact.meeting_date)) & \
                            (np.isnat(exact.feedback_date)),0,1)

In [27]:
#dropar os estágios
exact.drop(labels=['stage', 'lost_stage'], axis=1, inplace=True)

In [28]:
#tempo entre etapas até o agendamento
exact['time_to_filter1'] = ((exact.filter1_date - exact.qualified_date) / np.timedelta64(1, 'D'))
exact.time_to_filter1 = exact.time_to_filter1.fillna(0)
exact['time_to_filter2'] = ((exact.filter2_date - exact.filter1_date) / np.timedelta64(1, 'D'))
exact.time_to_filter2 = exact.time_to_filter2.fillna(0)
exact['time_to_meeting'] = ((exact.meeting_date - exact.filter2_date) / np.timedelta64(1, 'D'))
exact.time_to_meeting = exact.time_to_meeting.fillna(0)
exact['time_qualified_to_meeting'] = ((exact.meeting_date - exact.qualified_date) / np.timedelta64(1, 'D'))
exact.time_qualified_to_meeting = exact.time_qualified_to_meeting.fillna(0)

In [29]:
#dropar as datas
exact.drop(labels=['scheduling_date', 'meeting_date', 'feedback_date', 'filter1_date', 'filter2_date'], axis=1, inplace=True)

In [30]:
#Organizar as colunas na melhor ordem de trabalho
exact = exact[['email', 'qualified_date', 'type', 'sub_type', 'sdr', \
              'salesperson', 'score', 'filter1_score', 'filter2_score', \
              'feedback_score', 'entry', 'filter_one','time_to_filter1',\
               'filter_two','time_to_filter2', 'meeting', 'time_to_meeting', 'time_qualified_to_meeting']]

In [31]:
#dropar linhas que não possuem emails
exact.dropna(subset=['email'], inplace=True)

3) Dataset

In [32]:
#hard time: criar coluna de tofu, mofu e bofu antes de virar MQL

#etapa 1: subir uma coluna com a data de envio do lead para o time de vendas
#etapa 2: criar uma tabela separada da 'rd' com os e-mails únicos
#etapa 3: conseguir filtrar, para cada lead, a data de corte para contagem das conversões

#etapa 1
exact_create_date = exact[['email', 'qualified_date', 'type']]

es_qualified_date = exact_create_date.drop_duplicates('email', keep='first').set_index('email')['qualified_date']
rd['qualified_date'] = rd['email'].map(es_qualified_date)

es_type = exact_create_date.drop_duplicates('email', keep='first').set_index('email')['type']
rd['type'] = rd['email'].map(es_type)


#etapa 1a) criar dummies
rd = pd.get_dummies(rd, columns=['funnel'], drop_first=False)

#etapa 2
rd2 = rd.copy()

# filtrar conversões acima da data de qualificação
rd2['qualified-conv-date'] = ((rd2.qualified_date - rd2.conv_date) / np.timedelta64(1, 'D'))
rd2['qualified-conv-date'] = rd2['qualified-conv-date'].fillna(0)

#base
rd2 = rd2[rd2['qualified-conv-date'] >= 0]
rd2 = rd2[rd2['event'] != 'IntegracaoExact']

#somar conversões por etapa do funil
rd2['freq_tofu'] = rd2.groupby('email')['funnel_ToFu'].transform('sum')
rd2['freq_mofu'] = rd2.groupby('email')['funnel_MoFu'].transform('sum')
rd2['freq_bofu'] = rd2.groupby('email')['funnel_BoFu'].transform('sum')

#drop nas colunas que não interessam (mantendo as colunas que interessam)
rd2 = rd2[['email', 'freq_tofu', 'freq_mofu', 'freq_bofu']]

#incluir os dados na tabela rd
rd_tofu = rd2.drop_duplicates('email', keep='first').set_index('email')['freq_tofu']
rd['freq_tofu'] = rd['email'].map(rd_tofu)

rd_mofu = rd2.drop_duplicates('email', keep='first').set_index('email')['freq_mofu']
rd['freq_mofu'] = rd['email'].map(rd_mofu)

rd_bofu = rd2.drop_duplicates('email', keep='first').set_index('email')['freq_bofu']
rd['freq_bofu'] = rd['email'].map(rd_bofu)

#excluindo eventos de integraçãoExact
rd = rd[rd['event'] != 'IntegracaoExact']
rd['qualified-conv-date'] = ((rd.qualified_date - rd.conv_date) / np.timedelta64(1, 'D'))
rd['qualified-conv-date'] = rd['qualified-conv-date'].fillna(0)

In [33]:
#colunas de management, job_title e outras classificações que podem vir em outras conversões
rd3 = rd.copy()
rd3 = rd3.sort_values(by=['conv_date'], ascending=True)

#site
rd_site = rd3[['email', 'site']]
rd_site.dropna(axis=0, how='any', inplace=True)
rd_site = rd_site.drop_duplicates('email', keep='first').set_index('email')['site']
rd['site'] = rd['email'].map(rd_site)

#utm_campaign
rd_utm_campaign = rd3[['email', 'utm_campaign']]
rd_utm_campaign.dropna(axis=0, how='any', inplace=True)
rd_utm_campaign = rd_utm_campaign.drop_duplicates('email', keep='first').set_index('email')['utm_campaign']
rd['utm_campaign'] = rd['email'].map(rd_utm_campaign)

#utm_medium
rd_utm_medium = rd3[['email', 'utm_medium']]
rd_utm_medium.dropna(axis=0, how='any', inplace=True)
rd_utm_medium = rd_utm_medium.drop_duplicates('email', keep='first').set_index('email')['utm_medium']
rd['utm_medium'] = rd['email'].map(rd_utm_medium)

#utm_source
rd_utm_source = rd3[['email', 'utm_source']]
rd_utm_source.dropna(axis=0, how='any', inplace=True)
rd_utm_source = rd_utm_source.drop_duplicates('email', keep='first').set_index('email')['utm_source']
rd['utm_source'] = rd['email'].map(rd_utm_source)

#rd_medium
rd_rd_medium = rd3[['email', 'rd_medium']]
rd_rd_medium.dropna(axis=0, how='any', inplace=True)
rd_rd_medium = rd_rd_medium.drop_duplicates('email', keep='first').set_index('email')['rd_medium']
rd['rd_medium'] = rd['email'].map(rd_rd_medium)

#rd_source
rd_rd_source = rd3[['email', 'rd_source']]
rd_rd_source.dropna(axis=0, how='any', inplace=True)
rd_rd_source = rd_rd_source.drop_duplicates('email', keep='first').set_index('email')['rd_source']
rd['rd_source'] = rd['email'].map(rd_rd_source)

#department
rd_department = rd3[['email', 'department']]
rd_department.dropna(axis=0, how='any', inplace=True)
rd_department = rd_department.drop_duplicates('email', keep='first').set_index('email')['department']
rd['department'] = rd['email'].map(rd_department)

#n_employees
rd_n_employees = rd3[['email', 'n_employees']]
rd_n_employees.dropna(axis=0, how='any', inplace=True)
rd_n_employees = rd_n_employees.drop_duplicates('email', keep='first').set_index('email')['n_employees']
rd['n_employees'] = rd['email'].map(rd_n_employees)

#management
rd_management = rd3[['email', 'management']]
rd_management.dropna(axis=0, how='any', inplace=True)
rd_management = rd_management.drop_duplicates('email', keep='first').set_index('email')['management']
rd['management'] = rd['email'].map(rd_management)

#job_title
rd_job_title = rd3[['email', 'job_title']]
rd_job_title.dropna(axis=0, how='any', inplace=True)
rd_job_title = rd_job_title.drop_duplicates('email', keep='first').set_index('email')['job_title']
rd['job_title'] = rd['email'].map(rd_job_title)

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy
  import sys
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy
  del sys.path[0]
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy
A value is trying to be 

In [34]:
#validação do email (corporativo ou não)

#load da base
free_domain = pd.read_csv('data/free_domain_list.csv', sep=',')

#criar coluna categórica (0 para free e 1 para diferente da free)
free_domain['domain_type'] = 0

In [35]:
#criar uma coluna com domain
rd['email_domain'] = rd['email'].str.split('@').str[1]
rd['email_domain'] = rd['email_domain'].str.strip()

In [36]:
#puxar os dados da tabela free_domain
rd_free_domain = free_domain.drop_duplicates('domain', keep='first').set_index('domain')['domain_type']
rd['email_domain_type'] = rd['email_domain'].map(rd_free_domain)

In [37]:
#preencher com 1 os valores vazios
rd.email_domain_type.fillna(1, inplace=True)

In [38]:
#finalizando o dataset
final = rd.copy()
final = final.sort_values(by=['conv_date'], ascending=True)

In [39]:
#dropar colnunas que não entrarão na análise
final.drop(labels=['company_name', 'name', 'phone', 'utm_campaign', 'utm_medium', \
                  'utm_source', 'utm_content', 'utm_term', 'rd_source', 'funnel_BoFu', \
                  'funnel_MoFu', 'funnel_ToFu', 'funnel_outros', 'site'], axis=1, inplace=True)

In [40]:
#etapa 5: criar uma tabela com e-mails únicos
df = final.drop_duplicates(subset='email', keep='first').reset_index()
df.drop(labels=['index'], axis=1, inplace=True)

### Tratar missing

In [41]:
#iteração para entender quais classes possuem uma porcentagem grande de NaN. Usamos como corte, 10% da base.
for i in range(0,len(df.columns)):
    name = df.columns[i]
    percentage = ((df[df.columns[i]].isnull().sum() / (df[df.columns[i]].count() + df[df.columns[i]].isnull().sum()) ) * 100)
    if percentage > 10:
        print(name)
        print('%f' % ((df[df.columns[i]].isnull().sum() / (df[df.columns[i]].count() + df[df.columns[i]].isnull().sum()) ) * 100))

department
78.241335
management
87.195122
qualified_date
84.682743
type
84.682743


In [None]:
#função para preencher dados com knn
%run knn_impute.py

In [None]:
#tratar management e department pq são campos que ainda são recentes e potenciais ajustes podem melhorar o modelo
knn_impute(target=df['department'], attributes=df.drop(['department', 'management', 'qualified_date', 'type'], 1),
                                    aggregation_method="mode", k_neighbors=5, numeric_distance='euclidean',
                                    categorical_distance='hamming', missing_neighbors_threshold=0.8)

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy
  self._update_inplace(new_data)


In [None]:
#tratar management e department pq são campos que ainda são recentes e potenciais ajustes podem melhorar o modelo
knn_impute(target=df['management'], attributes=df.drop(['department', 'management', 'qualified_date', 'type'], 1),
                                    aggregation_method="mode", k_neighbors=5, numeric_distance='euclidean',
                                    categorical_distance='hamming', missing_neighbors_threshold=0.8)