# **TON CRM Analytics**

**Impotando bibliotecas necessárias**

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import datetime

import warnings
warnings.filterwarnings('ignore')

pd.set_option('display.max_columns', 50)

## Data Cleaning

**Importando CSVs para o Jupyter Notebook**

In [2]:
cases = pd.read_csv('data/cases.csv', date_parser = ['date_ref']) # Cases
creds = pd.read_csv('data/creds.csv', date_parser = ['cred_date']) # Credenciamento

### Limpeza do dataset `cases`

In [3]:
cases.head(5)

Unnamed: 0.1,Unnamed: 0,accountid,date_ref,channelid,waitingtime,missed,pesquisa_de_satisfa_o__c,assunto,Id
0,0,,,,,,,,
1,1,,,,,,,,
2,2,,,,,,,,
3,3,,,,,,,,
4,4,0013j00002z0CeEAAU,2020-07-31,2.0,15.0,False,,Aplicativo:Dúvidas funcionalidades App:Primeir...,0013j00002z0CeEAAU


**O dataset `cases` não está no melhor formato para a análise.**

Para a limpeza dos dados serão necessários os seguintes passos:

1. Dropar coluna `Unnamed: 0`;
2. Renomear colunas para facilitar o manuseio da base;
3. Remover entradas onde todos os valores são nulos;
4. Parsear a coluna `date_ref` para o formato datetime;
5. Organiar entradas por `data_ref`, em ordem crescente;
6. Checar se as colunas `accountid` (PK) e `Id` são redundantes e, caso forem, eliminar `Id`;
7. Estudar valores em `channelid` e `wairingtime`, e, caso necessário, transformá-los em `int`;
8. Checar se existem entradas duplicada e, em caso positivo, remover redundancias;
9. Estudar coluna `assunto` e entender a melhor maneira de guardar informação de maneira estruturada e aplicar;

#### Renomeando colunas

In [4]:
# Renomeando colunas:
cases.columns = ['unnamed',
                 'account_id', 
                 'date_ref',
                 'channel_id',
                 'waiting_time',
                 'missed', 
                 'pesq_satisfacao', 
                 'assunto', 
                 'id']

cases.head(3)

Unnamed: 0,unnamed,account_id,date_ref,channel_id,waiting_time,missed,pesq_satisfacao,assunto,id
0,0,,,,,,,,
1,1,,,,,,,,
2,2,,,,,,,,


#### Dropando `unnamed`

In [5]:
# Drop "Unnamed: 0"
cases.duplicated('unnamed').sum() # Confirmando se foram criados valores duplicados 
                                     # no índice na criação do dataset
cases = cases.drop('unnamed', axis = 1)

#### Removendo nulos

Removendo entradas (linhas) com _todos_ os valores nulos:

In [6]:
cases['account_id'].isna().sum() # PK Cases faltantes

49500

In [7]:
# Removendo nulos
ccases = cases.dropna(how = 'all', axis = 0) # ccases = cleaned cases
ccases.shape

# Reportando alterações
print("Qtd entradas dataset original:        ", len(cases), 
      "\nQtd entradas dataset sem NaNs:         ", len(ccases), 
      "\nQtd entradas descartadas após dropna:  ", (len(cases)-len(ccases)))

Qtd entradas dataset original:         126989 
Qtd entradas dataset sem NaNs:          77489 
Qtd entradas descartadas após dropna:   49500


In [8]:
# Checando valores nulos remanescentes
ccases.isna().sum()

account_id             0
date_ref               0
channel_id             0
waiting_time           0
missed                 0
pesq_satisfacao    65904
assunto                0
id                     0
dtype: int64

#### Investigando `accountid`

**Dúvida: `accountid` atende os requisitos para ser Primary Key do dataset?**

Conforme dicionário dos dados, a coluna `accountid` deveria ser a chave primária (Primary Key, PK) da tabela, para atender a esse requisito, ela deve ser única em cada uma das linhas.

No entando, parece razoavel pensar que no espaço temporal compreendido neste dataset, um mesmo cliente (cada um com um account id único, pode ter realizado varios chamados na central de relacionamento (CR).

Vamos verificar:

In [9]:
# Checando duplicidade de 'accountid' no dataset
cases.duplicated('account_id').value_counts()

True     95559
False    31430
dtype: int64

**31430 valores _False_** indica que, conforme intuido anteriormente, varias contas chamaram à CR mais de uma vez. Portanto, essa não pode ser a chave primária da tabela.

Como não há uma outra que possa ocupar essa posição, manteremos o index do dataset como chave primária, em que cada linha representa um chamado junto à empresa.

#### Ordenando dataset a partir de `date_ref`

In [10]:
# Ordenando dataset
ccases = ccases.sort_values('date_ref')

#### Checando redundancia
Verificando se informação das colunas `accountid` (PK) e `Id` é a mesma.

In [11]:
# Checando se existem valores diferentes em account_id e id
(ccases['account_id'] != ccases['id']).sum()

0

In [12]:
# Dropando coluna redundante 'id'
ccases = ccases.drop('id', axis = 1)
# ccases.head(3)

#### Revisando `channel_id`
Estudar valores em `channelid` e parsear para `int`, se for o caso.

In [13]:
ccases['channel_id'].value_counts() # Apenas um valor encontrado; De acordo com o dicionário de dados este canal
                                    # são chamados recebidos via telefone. A coluna pode ser descartada, pois
                                    # a análise agora é especifica para esse canal.

2.0    77489
Name: channel_id, dtype: int64

In [14]:
# Dropando coluna "channel_id"
ccases.drop('channel_id', axis = 1, inplace = True)
# ccases.head(3)

#### Checando entradas duplicadas

In [15]:
ccases.duplicated().sum() # Não existem entradas duplicadas.

0

In [16]:
ccases = ccases.reset_index(drop = True)
ccases.head(5)

Unnamed: 0,account_id,date_ref,waiting_time,missed,pesq_satisfacao,assunto
0,0011L00002ZbpnlQAB,2020-02-23,19.0,False,Enviado,Produto:mPOS:Dúvidas mpos
1,0011L00002dbBg5QAE,2020-02-25,15.0,False,Enviado,Aplicativo:Problema:
2,0011L00002WdgbcQAB,2020-02-26,15.0,False,Enviado,Aplicativo:Dúvidas funcionalidades App:Redefin...
3,0011L00002WdJgjQAF,2020-02-26,13.0,False,Enviado,Produto:mPOS:Problema POS - revertido
4,0011L00002We7cjQAB,2020-02-26,72.0,False,Enviado,Aplicativo::


In [17]:
# ccases.tail(5)

#### Parseando `date_ref` 
Mudando dados da colunas para formato datetime

In [18]:
# Formatando data type da coluna "date_ref"
ccases['date_ref'] = pd.to_datetime(ccases['date_ref'])
# ccases.info()

#### Feature engineering dados temporais
Transformando coluna `waiting_time` (medido em segundos) para dtype `int` e `timedelta` (para operações com data e hora)

In [19]:
ccases['waiting_time'] = ccases['waiting_time'].astype(int)

In [20]:
ccases['waiting_time'] = ccases['waiting_time'].astype(int)
ccases['waiting_timedelta'] = pd.to_timedelta(ccases['waiting_time'], unit = 'S')

In [21]:
def explode_date(df, date_column, language_ptbr = True):
    '''Generates year, month, day and weekday from a single date column.
        
    :::::::
    
    df:            DataFrame containing the date column to be exploded.
    date_column:   Date column (Series) to be used as base for the transformation.
    language_ptbr: If True, parse weekday names to Brazilian Portuguese. 
                      False, weekdays will be parsed to English.
    
    :::::::

    '''
    df[date_column] = pd.to_datetime(df[date_column])
    df['year'] = df[date_column].dt.year 
    df['month'] = df[date_column].dt.month
    df['day'] = df[date_column].dt.day
    df['weekday'] = df[date_column].dt.weekday
    
    if language_ptbr:
        df['weekday_str'] = df['weekday'].map({
                                    0: 'Seg',
                                    1: 'Ter',
                                    2: 'Qua',
                                    3: 'Qui',
                                    4: 'Sex',
                                    5: 'Sab',
                                    6: 'Dom'
                            })
    else:
        df['weekday_str'] = df[date_column].dt.day_name().str[0:3]

    return df

In [22]:
ccases = explode_date(ccases, 'date_ref', language_ptbr = True)
ccases.head(3)

Unnamed: 0,account_id,date_ref,waiting_time,missed,pesq_satisfacao,assunto,waiting_timedelta,year,month,day,weekday,weekday_str
0,0011L00002ZbpnlQAB,2020-02-23,19,False,Enviado,Produto:mPOS:Dúvidas mpos,00:00:19,2020,2,23,6,Dom
1,0011L00002dbBg5QAE,2020-02-25,15,False,Enviado,Aplicativo:Problema:,00:00:15,2020,2,25,1,Ter
2,0011L00002WdgbcQAB,2020-02-26,15,False,Enviado,Aplicativo:Dúvidas funcionalidades App:Redefin...,00:00:15,2020,2,26,2,Qua


#### Estrutundo dados em `assunto`

In [23]:
# Separando os tópicos encadeados e guardando em uma lista
ccases['assunto'] = ccases['assunto'].str.split(':')

In [24]:
# Criando colunas especificas para cada um dos tópicos
ccases[['node_1','node_2', 'node_3']] = pd.DataFrame(ccases['assunto'].tolist(), index = ccases.index)

# Preenchendo colunas nulas com NaNs
ccases[['node_1', 'node_2', 'node_3']] = ccases[['node_1', 'node_2', 'node_3']].replace('', np.nan)
ccases.head(3)

Unnamed: 0,account_id,date_ref,waiting_time,missed,pesq_satisfacao,assunto,waiting_timedelta,year,month,day,weekday,weekday_str,node_1,node_2,node_3
0,0011L00002ZbpnlQAB,2020-02-23,19,False,Enviado,"[Produto, mPOS, Dúvidas mpos]",00:00:19,2020,2,23,6,Dom,Produto,mPOS,Dúvidas mpos
1,0011L00002dbBg5QAE,2020-02-25,15,False,Enviado,"[Aplicativo, Problema, ]",00:00:15,2020,2,25,1,Ter,Aplicativo,Problema,
2,0011L00002WdgbcQAB,2020-02-26,15,False,Enviado,"[Aplicativo, Dúvidas funcionalidades App, Rede...",00:00:15,2020,2,26,2,Qua,Aplicativo,Dúvidas funcionalidades App,Redefinição de senha


### Limpeza do dataset `creds`.

In [25]:
creds.head(3)

Unnamed: 0.1,Unnamed: 0,cred_date,shipping_address_city,shipping_address_state,max_machine,accountid
0,0,2020-04-18,Feira de Santana,BA,T1,
1,1,2020-10-16,Bacuri,MA,T1,
2,2,2020-09-01,Bernardo Sayão,TO,T1,


In [26]:
creds.columns = ['unnamed', 'cred_date', 'ship_city', 'ship_state', 'max_machine', 'account_id']
creds.head(3)

Unnamed: 0,unnamed,cred_date,ship_city,ship_state,max_machine,account_id
0,0,2020-04-18,Feira de Santana,BA,T1,
1,1,2020-10-16,Bacuri,MA,T1,
2,2,2020-09-01,Bernardo Sayão,TO,T1,


In [27]:
creds = creds.drop('unnamed', axis = 1)
creds.head(3)

Unnamed: 0,cred_date,ship_city,ship_state,max_machine,account_id
0,2020-04-18,Feira de Santana,BA,T1,
1,2020-10-16,Bacuri,MA,T1,
2,2020-09-01,Bernardo Sayão,TO,T1,


In [28]:
explode_date(creds, 'cred_date', language_ptbr = True)

Unnamed: 0,cred_date,ship_city,ship_state,max_machine,account_id,year,month,day,weekday,weekday_str
0,2020-04-18,Feira de Santana,BA,T1,,2020,4,18,5,Sab
1,2020-10-16,Bacuri,MA,T1,,2020,10,16,4,Sex
2,2020-09-01,Bernardo Sayão,TO,T1,,2020,9,1,1,Ter
3,2020-08-29,Rio de Janeiro,RJ,T3,,2020,8,29,5,Sab
4,2020-07-28,São Gonçalo,RJ,T3,0013j00002z0CeEAAU,2020,7,28,1,Ter
5,2020-07-28,São Gonçalo,RJ,T3,0013j00002z0CeEAAU,2020,7,28,1,Ter
6,2020-07-28,São Gonçalo,RJ,T3,0013j00002z0CeEAAU,2020,7,28,1,Ter
7,2020-08-28,Itaboraí,RJ,T1,0013j00002zQgldAAC,2020,8,28,4,Sex
8,2020-08-28,Itaboraí,RJ,T1,0013j00002zQgldAAC,2020,8,28,4,Sex
9,2020-08-28,Itaboraí,RJ,T1,0013j00002zQgldAAC,2020,8,28,4,Sex


In [45]:
creds

Unnamed: 0,cred_date,ship_city,ship_state,max_machine,account_id,year,month,day,weekday,weekday_str
0,2020-04-18,Feira de Santana,BA,T1,,2020,4,18,5,Sab
1,2020-10-16,Bacuri,MA,T1,,2020,10,16,4,Sex
2,2020-09-01,Bernardo Sayão,TO,T1,,2020,9,1,1,Ter
3,2020-08-29,Rio de Janeiro,RJ,T3,,2020,8,29,5,Sab
4,2020-07-28,São Gonçalo,RJ,T3,0013j00002z0CeEAAU,2020,7,28,1,Ter
5,2020-07-28,São Gonçalo,RJ,T3,0013j00002z0CeEAAU,2020,7,28,1,Ter
6,2020-07-28,São Gonçalo,RJ,T3,0013j00002z0CeEAAU,2020,7,28,1,Ter
7,2020-08-28,Itaboraí,RJ,T1,0013j00002zQgldAAC,2020,8,28,4,Sex
8,2020-08-28,Itaboraí,RJ,T1,0013j00002zQgldAAC,2020,8,28,4,Sex
9,2020-08-28,Itaboraí,RJ,T1,0013j00002zQgldAAC,2020,8,28,4,Sex


---

In [29]:
creds.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 126989 entries, 0 to 126988
Data columns (total 10 columns):
cred_date      126989 non-null datetime64[ns]
ship_city      126989 non-null object
ship_state     126989 non-null object
max_machine    126989 non-null object
account_id     77489 non-null object
year           126989 non-null int64
month          126989 non-null int64
day            126989 non-null int64
weekday        126989 non-null int64
weekday_str    126989 non-null object
dtypes: datetime64[ns](1), int64(4), object(5)
memory usage: 9.7+ MB


# TO INCLUDE IN THE ANALYSIS

In [30]:
# Contando quantidade de tópicos por node
print('Qtd. tópicos no node_1:  ', ccases['node_1'].nunique(dropna = False))
print('Qtd. tópicos no node_2:  ', ccases['node_2'].nunique(dropna = False))
print('Qtd. tópicos no node_3: ', ccases['node_3'].nunique(dropna = False), '\n')

print('Qtd. valores faltantes no node_1:   ', ccases['node_1'].isna().sum(), '<-- What are those?')
print('Qtd. valores faltantes no node_2:  ', ccases['node_2'].isna().sum())
print('Qtd. valores faltantes no node_3: ', ccases['node_3'].isna().sum())

# Transformando tópicos em sets para avaliar se são subsets uns dos outros
topics_node_1 = set(ccases['node_1'].value_counts(dropna = False).index.tolist())
topics_node_2 = set(ccases['node_2'].value_counts(dropna = False).index.tolist())
topics_node_3 = set(ccases['node_3'].value_counts(dropna = False).index.tolist())

Qtd. tópicos no node_1:   16
Qtd. tópicos no node_2:   48
Qtd. tópicos no node_3:  108 

Qtd. valores faltantes no node_1:    106 <-- What are those?
Qtd. valores faltantes no node_2:   1719
Qtd. valores faltantes no node_3:  11925


In [31]:
# Checando se sets são subsets uns dos outros
topics_node_2.issubset(topics_node_1), \
topics_node_3.issubset(topics_node_2), \
topics_node_3.issubset(topics_node_1)   

(False, False, False)

In [32]:
ccases[ccases['node_1'].isna()].head(10)

Unnamed: 0,account_id,date_ref,waiting_time,missed,pesq_satisfacao,assunto,waiting_timedelta,year,month,day,weekday,weekday_str,node_1,node_2,node_3
7086,0011L00002ZdlooQAB,2020-06-03,7,False,,"[, , ]",00:00:07,2020,6,3,2,Qua,,,
7164,0013j00002u26qOAAQ,2020-06-03,15,False,,"[, , ]",00:00:15,2020,6,3,2,Qua,,,
8229,0013j00002u3MSdAAM,2020-06-09,14,False,,"[, , ]",00:00:14,2020,6,9,1,Ter,,,
8276,0013j00002u39oXAAQ,2020-06-09,8,False,,"[, , ]",00:00:08,2020,6,9,1,Ter,,,
8495,0013j00002txEiSAAU,2020-06-10,5,False,,"[, , ]",00:00:05,2020,6,10,2,Qua,,,
9376,0013j00002tvWXUAA2,2020-06-15,16,False,,"[, , ]",00:00:16,2020,6,15,0,Seg,,,
9851,0013j00002y78b5AAA,2020-06-16,13,False,,"[, , ]",00:00:13,2020,6,16,1,Ter,,,
10133,0013j00002y9LZpAAM,2020-06-17,8,False,,"[, , ]",00:00:08,2020,6,17,2,Qua,,,
10728,0013j00002tgZb2AAE,2020-06-19,12,False,,"[, , ]",00:00:12,2020,6,19,4,Sex,,,
10950,0013j00002u44OLAAY,2020-06-20,12,False,,"[, , ]",00:00:12,2020,6,20,5,Sab,,,


In [33]:
# assunto = ccases.copy()
# assunto['assunto'] = assunto['assunto'].str.split(':')

# chain_count = []
# for i in range(len(assunto)):
#     count = len(assunto['assunto'][i])
#     chain_count.append(count)

In [34]:
# assunto['chain_count'] = chain_count

In [35]:
# assunto['chain_count'].value_counts()

In [36]:
# empty_last_chain = 0
# idx = []
# for i, index in enumerate(range(len(assunto))):
#     if assunto['assunto'][i][-1] == '':
#         empty_last_chain += 1
#         idx.append(i)

In [37]:
# assunto.iloc[idx, :]

In [38]:
# empty_last_chain

In [39]:
# assunto['chain_count'].value_counts()

In [40]:
# cases['missed'].value_counts()

In [41]:
# sns.boxplot(ccases.loc[ccases['missed'] == False, 'waiting_time']);

In [42]:
# ccases[ccases['missed'] == True]

In [43]:
# creds.head()

In [44]:
# creds['cred_date'] = pd.to_datetime(creds['cred_date'])
# creds.info()