# DATA CLEANING

In [134]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import missingno as msno

In [135]:
# reading the dataset
df = pd.read_csv('dataset_kaizen.csv')
pd.set_option('display.max_columns', None)

  df = pd.read_csv('dataset_kaizen.csv')


In [136]:
# Droping unusable variables
df.drop(columns=['CHAVE','Coluna1','Coluna2','ID_ROW','DATA_IMPORT','MES_REF','DATA_IMPORT','NOME','RECUPERACAO','PRODUTO_CERTO'],inplace=True)

In [137]:
# Converting date variables to date type
columns_to_convert = ['DATA_DO_HOTZAP', '1O_CONTATO', '2O_CONTATO', '3O_CONTATO', '4O_CONTATO']
df[columns_to_convert] = df[columns_to_convert].apply(pd.to_datetime, errors='coerce')

In [138]:
# Checking null columns
df[columns_to_convert].isnull().sum()

DATA_DO_HOTZAP         4
1O_CONTATO          1176
2O_CONTATO         92477
3O_CONTATO        114877
4O_CONTATO        121183
dtype: int64

In [139]:
# Drop rows that does not content information at the variables DATA_DO_HOTZAP and 1O_CONTATO
df.dropna(subset=['DATA_DO_HOTZAP','1O_CONTATO'], inplace=True)

In [140]:
# Creating new variable called N_contatos, that being the sum of how many contacts the company did including the HOTZAP
columns_to_count = ['DATA_DO_HOTZAP', '1O_CONTATO', '2O_CONTATO', '3O_CONTATO', '4O_CONTATO']
df['N_contatos'] = df[columns_to_count].notnull().sum(axis=1)

In [141]:
# Detecting missing values
df.isnull().sum()                    

STATUS_ATUAL         447
PRODUTO             1301
STATUS_INICIAL       878
CONSULTOR              0
DATA_DO_HOTZAP         0
1O_CONTATO             0
2O_CONTATO         91301
3O_CONTATO        113701
4O_CONTATO        120007
FATURAMENTO       117402
DDD                    4
TIPO_SERVICO        1560
TX_COMISSAO         2829
CLIENTE                4
N_contatos             0
dtype: int64

In [142]:
# Since the size of Null Arguments are so small considering the size of the dataset, we can just delete it

df.dropna(subset=['STATUS_ATUAL','TIPO_SERVICO','TX_COMISSAO','DDD'], inplace=True)

In [143]:
# Detecting missing values
df.isnull().sum()

STATUS_ATUAL           0
PRODUTO                1
STATUS_INICIAL         5
CONSULTOR              0
DATA_DO_HOTZAP         0
1O_CONTATO             0
2O_CONTATO         88403
3O_CONTATO        110446
4O_CONTATO        116752
FATURAMENTO       114151
DDD                    0
TIPO_SERVICO           0
TX_COMISSAO            0
CLIENTE                0
N_contatos             0
dtype: int64

In [144]:
# Columns FATURAMENTO fix to be a float variable, so we can use the values
df['FATURAMENTO'] = df['FATURAMENTO'].str.replace('R$ ', '').str.replace(',', '').astype(float)

In [145]:
df.CONSULTOR.unique()

array(['Sandra Teixeira', 'Enaile Carla', 'Juliana Lemos', 'Bruno Xavier',
       'Stephanie dos Santos', 'Glaucia Guarino', 'Malena Gama',
       'Isa Gabriela', 'Carolina Macedo', 'Anna Berger', 'Bianca Benda',
       'Priscila Lima', 'Malena', 'Lucas Delfino', 'Paula Bartoline',
       'Meiriele Lemos', 'Adriana Taveira', 'Gleidson BrandÃ£o',
       'Carla Yara', 'Juliana Sarantakos', 'Luis Conegundes',
       'Renato Silveira', 'Gabriel Papi', 'Iago Chicralla',
       'Igor Gabriel', 'RaÃ\xadssa Rodrigues', 'Giovani Abreu',
       'Giovani Abreu ', 'Gabriel Pereira', 'Glaucia Ank', 'Giovani Papi',
       'Alex Sander', 'Felipe Durso'], dtype=object)

In [146]:
df['CONSULTOR'] = df['CONSULTOR'].replace('RaÃ\xadssa Rodrigues', 'Raíssa Rodrigues')
df['CONSULTOR'] = df['CONSULTOR'].replace('Gleidson BrandÃ£o', 'Gleidson Brandão')
df['CONSULTOR'] = df['CONSULTOR'].replace('Giovani Abreu ', 'Giovani Abreu')

In [147]:
genero = {
    'Sandra Teixeira': 1,
    'Enaile Carla': 1,
    'Juliana Lemos': 1,
    'Bruno Xavier': 0,
    'Stephanie dos Santos': 1,
    'Glaucia Guarino': 1,
    'Malena Gama': 1,
    'Isa Gabriela': 1,
    'Carolina Macedo': 1,
    'Anna Berger': 1,
    'Bianca Benda': 1,
    'Priscila Lima': 1,
    'Lucas Delfino': 0,
    'Paula Bartoline': 1,
    'Meiriele Lemos': 1,
    'Adriana Taveira': 1,
    'Gleidson Brandão': 0,
    'Carla Yara': 1,
    'Juliana Sarantakos': 1,
    'Malena': 1,
    'Luis Conegundes': 0,
    'Renato Silveira': 0,
    'Gabriel Papi': 0,
    'Iago Chicralla': 0,
    'Igor Gabriel': 0,
    'Raíssa Rodrigues': 1,
    'Giovani Abreu': 0,
    'Gabriel Pereira': 0,
    'Giovani Papi': 0,
    'Alex Sander': 0
}

#Maping 1 for women, 0 for men
df['mulher'] = df['CONSULTOR'].map(genero)

In [148]:
df.sample(3)

Unnamed: 0,STATUS_ATUAL,PRODUTO,STATUS_INICIAL,CONSULTOR,DATA_DO_HOTZAP,1O_CONTATO,2O_CONTATO,3O_CONTATO,4O_CONTATO,FATURAMENTO,DDD,TIPO_SERVICO,TX_COMISSAO,CLIENTE,N_contatos,mulher
50520,4- Sem whats,Mapa Astral Digitalizado,Abandono,Carolina Macedo,2021-12-22 11:11:00,2021-12-22 15:17:00,NaT,NaT,NaT,,NU,PerpÃ©tuo,10.00%,Claudia Lisboa,2,1.0
60844,3- Sem resposta,Academia da Mente,Abandono,Priscila Lima,2022-01-11 17:18:00,2022-01-11 17:19:00,2022-01-12,NaT,2022-01-13,,91,LanÃ§amento,5.00%,Maura de Albanesi,4,1.0
11245,3- Sem resposta,BiomecÃ¢nica Funcional na Alta Performance,Lista,Lucas Delfino,2021-11-12 15:40:00,2021-11-12 15:39:00,NaT,NaT,NaT,,88,Lista,10.00%,Rafael Winicki,2,0.0


In [149]:
df.isnull().sum()

STATUS_ATUAL           0
PRODUTO                1
STATUS_INICIAL         5
CONSULTOR              0
DATA_DO_HOTZAP         0
1O_CONTATO             0
2O_CONTATO         88403
3O_CONTATO        110446
4O_CONTATO        116752
FATURAMENTO       114151
DDD                    0
TIPO_SERVICO           0
TX_COMISSAO            0
CLIENTE                0
N_contatos             0
mulher              3412
dtype: int64

# Feature Engeneering

In [150]:
# Calculating the minutes between the first human contact and the date of the bot message
df['tempo_contato'] = df['1O_CONTATO'] - df['DATA_DO_HOTZAP']

# Dele
negative_diff_rows = df[df['tempo_contato'] < pd.Timedelta(0)]
df = df[df['tempo_contato'] > pd.Timedelta(0)]

df['minutos_1contato'] = df['tempo_contato'].apply(lambda x: x.total_seconds() / 60)

df.drop(columns='tempo_contato')

# Creating a new variable called SUCESSO that is 1 if the buy was successful and 0 otherwise
df['SUCESSO'] = df['STATUS_ATUAL'].apply(lambda x: 1 if x in ['7- Positivo', '8- Positivo (Trackeado)'] else 0)

# droping 5 rows that contain missing values in STATUS_INICIAL
df.dropna(subset=['STATUS_INICIAL'], inplace=True)

In [151]:
df['DDD'] = pd.to_numeric(df['DDD'], errors='coerce')
df.dropna(subset=['DDD'], inplace=True)
df['DDD'] = df['DDD'].astype(int)

ddd_estado = {61: 'DF', 62: 'GO', 64: 'GO', 65: 'MT', 66: 'MT', 67: 'MS',
              82: 'AL', 71: 'BA', 73: 'BA', 74: 'BA', 75: 'BA', 77: 'BA',
              85: 'CE', 88: 'CE', 98: 'MA', 99: 'MA', 83: 'PB', 81: 'PE',
              87: 'PE', 86: 'PI', 89: 'PI', 84: 'RN', 79: 'SE', 68: 'AC',
              96: 'AP', 92: 'AM', 97: 'AM', 91: 'PA', 93: 'PA', 94: 'PA',
              69: 'RO', 95: 'RR', 63: 'TO', 27: 'ES', 28: 'ES', 31: 'MG',
              32: 'MG', 33: 'MG', 34: 'MG', 35: 'MG', 37: 'MG', 38: 'MG',
              21: 'RJ', 22: 'RJ', 24: 'RJ', 11: 'SP', 12: 'SP', 13: 'SP',
              14: 'SP', 15: 'SP', 16: 'SP', 17: 'SP', 18: 'SP', 19: 'SP',
              41: 'PR', 42: 'PR', 43: 'PR', 44: 'PR', 45: 'PR', 46: 'PR',
              51: 'RS', 53: 'RS', 54: 'RS', 55: 'RS', 47: 'SC', 48: 'SC',
              49: 'SC'}
# Making it set the state based on the DDD information, if it doesn't match, look up the closest number
def find_closest_area_code(area_code):
    closest = min(ddd_estado.keys(), key=lambda x: abs(x - area_code))
    return ddd_estado[closest]
df['ESTADO'] = df['DDD'].apply(lambda x: ddd_estado.get(x, find_closest_area_code(x)))

In [152]:
df.isnull().sum()

STATUS_ATUAL            0
PRODUTO                 1
STATUS_INICIAL          0
CONSULTOR               0
DATA_DO_HOTZAP          0
1O_CONTATO              0
2O_CONTATO          37969
3O_CONTATO          53696
4O_CONTATO          59591
FATURAMENTO         57658
DDD                     0
TIPO_SERVICO            0
TX_COMISSAO             0
CLIENTE                 0
N_contatos              0
mulher                  0
tempo_contato           0
minutos_1contato        0
SUCESSO                 0
ESTADO                  0
dtype: int64

In [153]:
# "Since only the dates informations are missing because it were never present, replace it with zero."
df.fillna(0, inplace=True)

In [154]:
df.isnull().sum()

STATUS_ATUAL        0
PRODUTO             0
STATUS_INICIAL      0
CONSULTOR           0
DATA_DO_HOTZAP      0
1O_CONTATO          0
2O_CONTATO          0
3O_CONTATO          0
4O_CONTATO          0
FATURAMENTO         0
DDD                 0
TIPO_SERVICO        0
TX_COMISSAO         0
CLIENTE             0
N_contatos          0
mulher              0
tempo_contato       0
minutos_1contato    0
SUCESSO             0
ESTADO              0
dtype: int64

In [157]:
df.FATURAMENTO.value_counts()


FATURAMENTO
0.00       57694
297.00      1782
997.00      1582
1231.70      999
1997.00      840
           ...  
708.00         1
134.95         1
132.50         1
10.00          1
199.99         1
Name: count, Length: 147, dtype: int64

In [156]:
df.to_csv('DadosTratados.csv', index=False)