In [None]:
import pandas as pd
import seaborn as sns
import numpy as np
import matplotlib.pyplot as plt

path = '/home/miguel.filho/Documents/rnd-sac-emails/'

# path = '/content/gdrive/MyDrive/DataScience/Sac Emails/'
# from google.colab import drive
# drive.mount('/content/gdrive')

In [None]:
df = pd.read_parquet(f'{path}/data/poc_sac.parquet')

In [None]:
df.head(3)

In [None]:
df.info()

In [None]:
df.created_date = pd.to_datetime(df.created_date)

In [None]:
df.shape

## EDA

### Message

In [None]:
##Remover emails sem mensagem definida
df = df[~df['message'].isnull()]
df = df.reset_index(drop=True)

In [None]:
df['message_size'] = df.message.apply(len)

In [None]:
df['message_size'].hist(bins=200)
plt.grid(alpha=0)
plt.ylabel('Número de frases')
plt.xlabel('Número de caracteres')

In [None]:
df[df.message_size < 3 * df.message_size.std()]['message_size'].hist(bins=200)

In [None]:
df = df[df.message_size < 3 * df.message_size.std()]

### Customer Voice

In [None]:
df.sac_customer_voice.value_counts().head(30)

In [None]:
group_cv = [
    'Ainda não devolvi meu produto e quero saber sobre processo de troca / devolução',
    'Estou arrependido, quero cancelar/trocar o produto',
    'Ainda não recebi meu produto e quero saber sobre processo de cancelamento'
]
df['customer_voice_grouped'] = df['sac_customer_voice'].apply(lambda x: 'Arrependimento' if x in group_cv else x)


### Problem

In [None]:
print('{:.1%} dos emails criados tem o problema definido'.format(df.count()['problem']/df.shape[0]))

In [None]:
df['problem'].value_counts()[:30]

In [None]:
problems_list = [
  'Problemas com a entrega',
  'Outros',
  'Trocar, cancelar ou devolver',
  'Andamento da minha troca',
  'Vales e Reembolso',
  'Dúvida sobre o andamento do meu pedido',
  'Vales e reembolsos',
  'Pagamento',
  'Cadastro',
  'Nota Fiscal',
  'Promoções'
]
df['problem'] = df['problem'].apply(lambda x: x if x in problems_list else np.nan)
df['problem'].replace('Vales e reembolsos', 'Vales e Reembolso', inplace=True)

In [None]:
df['problem'].value_counts().plot(kind='barh', figsize=(14,6))

In [None]:
pv1 = df.pivot_table(values='sac_subject', index='sac_category', columns='problem', aggfunc='count')
pv1.div(pv1.sum())

In [None]:
pv2 = df.pivot_table(values='sac_subject', index='sac_customer_voice', columns='problem', aggfunc='count', margins=True).sort_values(by='All', ascending=False).iloc[1:, :-1]
# pv2
pv2.div(pv2.sum(axis=1),axis=0)[:20]

In [None]:
df.pivot_table(values='sac_subject', index=['problem', 'sac_customer_voice'], aggfunc='count').reset_index()\
.sort_values('sac_subject', ascending = False).groupby('problem').head(3).sort_values(by=['problem', 'sac_subject'], ascending=[True, False])

### Detail

In [None]:
print('{:.1%} dos emails criados tem o Detalhe definido'.format(df.count()['detail']/df.shape[0]))

### Created Date

In [None]:
df.groupby(['created_date']).count()['message'].plot()

## Model

### Imports

In [None]:
# !pip install unidecode
# # !pip install imblearn
# # !pip install scikit-learn
# !pip install catboost
# # !pip install spacy
# # nltk.download('rslp')

# !pip install spacy -U
# !python -m spacy download pt_core_news_md

In [None]:
import re
import nltk
nltk.download('stopwords')
from nltk.corpus import stopwords
from unidecode import unidecode
import pickle
import spacy

from collections import Counter
from sklearn.preprocessing import LabelEncoder
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.model_selection import train_test_split
from sklearn.metrics import confusion_matrix, classification_report, f1_score
from sklearn.ensemble import RandomForestClassifier
from catboost import CatBoostClassifier, Pool

### Definindo as Classes

In [None]:
# vozes que queremos responder
cv_list = [
  'Ainda não devolvi meu produto e quero saber sobre processo de troca / devolução',
  'Estou arrependido, quero cancelar/trocar o produto',
  'Como utilizar o cupom/vale',
  'Qual o prazo para devolução do valor que paguei?',
  # 'Como me cadastrar/como comprar?',
  'Como recupero meu login e senha de acesso'
]

In [None]:
df['cv'] = df.apply(lambda x: x['sac_customer_voice'] if x['sac_customer_voice'] in (cv_list) else 'Outro', axis=1)

In [None]:
df['cv'].value_counts(normalize=True)

In [None]:
# problemas que estao bem relacionados as vozes que queremos classificar 
filter_problems = [
  'Andamento da minha troca',
  # 'Outros',
  'Cadastro',
  'Promoções',
  'Trocar, cancelar ou devolver',
  'Vales e Reembolso'
]

In [None]:
df[df['problem'].isin(filter_problems)].cv.value_counts(normalize=True)

In [None]:
# Porcentagem de mensagem restantes em cada classe pós filtro
df[df['problem'].isin(filter_problems)].cv.value_counts(normalize=False).div(df['cv'].value_counts(normalize=False))

In [None]:
df = df[df['problem'].isin(filter_problems)]

In [None]:
# Encode da coluna de target

map_cv= {
    'Ainda não devolvi meu produto e quero saber sobre processo de troca / devolução': 0,
    'Estou arrependido, quero cancelar/trocar o produto': 1,
    'Como utilizar o cupom/vale': 2,
    'Qual o prazo para devolução do valor que paguei?': 3,
    'Como recupero meu login e senha de acesso': 4,
    'Outro': 5
}

inv_map = {v: k for k, v in map_cv.items()}

df['cv_encoded'] = df['cv'].map(map_cv)

### Manipulação do Texto

In [None]:
df_backup = df.copy()

#### Lower Case

In [None]:
df = df_backup
df['original_message'] = df.message
# Lower case
df.message = df.message.apply(str.lower)

#### Stop Words

In [None]:
def stopword_remover(text):
  remove_from_stopword_list = ['não', 'mais', 'foi', 'será', 'quando', 'tive', 'mas', 'até'] # são stopwords, mas contribuem para o sentido do texto
  add_to_stopword_list = ['pois']
  stop_words = nltk.corpus.stopwords.words('portuguese')
  stop_words.extend(add_to_stopword_list)
  
  for i in remove_from_stopword_list:
      stop_words.remove(i)

  words = [w for w in text.split() if not w in stop_words]
  text = ' '.join(words)

  return text

In [None]:
df.message = df.message.apply(stopword_remover)

#### Duplicated spaces and special characters

In [None]:
df.message =  df.message.str.replace(r'\n', ' ', regex=True)
df.message =  df.message.str.replace(r'\t', ' ', regex=True)
df.message =  df.message.str.replace(r' +', ' ', regex=True)
df.message =  df.message.str.replace('r$', '', regex=False)
df.message =  df.message.str.replace(r'[^a-zÀ-ÿ ]+', '', regex=True) # only allow letters and whitespaces

#### Termos inúteis

In [None]:
def useless_terms_remover(text):
  '''
  Usar após stopword_remover
  '''
  useless_terms = ['bom dia', 'boa tarde', 'boa noite', 'tudo bem', 'olá', 'td bem']

  for term in useless_terms:
    text = re.sub(term, '', text)

  return text

In [None]:
df.message = df.message.apply(useless_terms_remover)

#### Substituições extras

Para evitar clusters desnecessários

In [None]:
dictionary = {
  ' n ': ' não ',
  ' q ': ' que ', 
  'ngm': 'ninguém',
  'mto': 'muito',
  'vcs': 'vocês',
  'certinho': 'certo',
  ' pro ': ' para o ',
  ' mail ': ' email ',
  'emails': 'email',
  'markt': 'market',
  'nesse site': 'dafiti',
  'nessa loja': 'dafiti',
  'informar que': 'dizer que',
  'https www reclameaqui br': 'reclame aqui',
  'vcs': 'voces',
  ' pra ': ' para ',
  'mercadoria': 'pedido',
  'mais deu': 'mas deu',
  'saber do': 'saber sobre',
  'empresa ': 'dafiti ',
  ' ver comentarios': ' ler comentarios',
  'produto': 'pedido',
  ' compra ': ' pedido ',
  'fazer compra': 'fazer pedido',
  'mudar': 'trocar',
  'receber': 'chegar',
  'entregar': 'chegar',          
  'até hoje': 'até agora',
  'mandar': 'enviar',
  'obg': 'obrigado',
  'obrigada': 'obrigado'
}

In [None]:
def subs(text):
  for key in dictionary.keys():
    text = text.replace(key, dictionary[key])
  return text

In [None]:
df.message = df.message.apply(subs)

#### Lematizacao

In [None]:
# df = df.reset_index(drop=True) # obrigatório para os índices se manterem corretos na criação da Series ao final

# nlp = spacy.load('pt_core_news_md')
# nlp.max_length = 5000000

# docs = df.message.to_list()

# lemmatized_docs = []
# print('Starting Pipe')
# for doc in nlp.pipe(docs, batch_size=8, n_process=8, disable=["parser", "ner"]):
#   sentece = []
#   for word in doc:
#     if ((word.pos_ == 'VERB') or (word.pos_ == 'ADJ')):
#       sentece.append(word.lemma_) # lemma
#     else:
#       sentece.append(word.orth_) # original
#   sent = ' '.join(sentece)    
#   lemmatized_docs.append(sent)

# df['message'] = pd.Series(lemmatized_docs) # back to series

In [None]:
# # Stemming
# print('Stemming')
# stemmer = nltk.stem.RSLPStemmer() 
# stemmed_docs = []
# for sentence in lemmatized_docs:
#   new_sentence = []
#   for word in sentence.split():
#     new_sentence.append(stemmer.stem(word))
#   stemmed_docs.append(' '.join(new_sentence))

# df['message_lemma'] = pd.Series(stemmed_docs) # back to series

#### Unidecode

In [None]:
df.message = df.message.apply(unidecode)

### Save/Load Dataframe

In [None]:
pickle.dump(df, open(f'{path}/data/nltk_data.pkl', "wb"))

In [None]:
#nltk_data - sem lemma
#nltk_data_2 - com lemma
df = pickle.load(open(f'{path}/data/nltk_data_2.pkl', "rb"))

### Modelagem

In [None]:
# df = pd.read_parquet('data/poc_sac_nltk2.parquet')

In [None]:
df2 = df.copy()
# df2 = df2[df2['problem'].isin(['Trocar, cancelar ou devolver', 'Vales e Reembolso'])]
# df2 = df2[df2.created_date >= '2021-01-01']
df2 = df2.sample(frac=0.3).reset_index()
print(df.shape[0], df2.shape[0])

X = df2['message']
y = df2[['cv_encoded', 'sac_customer_voice']]
X_train, X_test, y_train, y_test = train_test_split(X, y, train_size=0.7, random_state=42 , stratify=y.cv_encoded)

print('train size :', len(X_train) )
print('test size :', len(X_test) )

In [None]:
df2.cv_encoded.value_counts()

#### TF-IDF

In [None]:
tfidf=TfidfVectorizer(
  max_features=1000,
  max_df=0.95,
  min_df=10,
  ngram_range=(1, 4)
)

X_train_vector = tfidf.fit_transform(X_train)
X_test_vector = tfidf.transform(X_test)

#### Treino

In [None]:
def evaluate(model, X_train, y_train, X_test, y_test):
  model = model.fit(X_train, y_train)
  y_pred = model.predict(X_test)
  print(classification_report(y_test, y_pred))
  print( "F1 Score:" , f1_score(y_test, y_pred, average='macro' ) )
  return model

##### Catboost

In [None]:
# CatBoost
train_dataset = Pool(X_train_vector, y_train.cv_encoded)
test_dataset = Pool(X_test_vector, y_test.cv_encoded)

cb = CatBoostClassifier(
    # task_type='GPU',
    iterations=500,
    eval_metric='TotalF1',
    loss_function='MultiClass',
    early_stopping_rounds=50
    #Learner parameters
    # learning_rate=0.1,
    # depth=10,
    # l2_leaf_reg=1

)

# #Declare parameters to tune and values to try
# grid = {
#     'learning_rate': [0.03, 0.1],
#     'depth': [4, 6, 10],
#     'l2_leaf_reg': [1, 3, 5,]
# }

# #Find optimum parameters
# grid_search_result = cb.grid_search(grid, train_dataset, plot=True)

#Fit model with early stopping if improvement hasn't been made within 50 iterations
cb.fit(
    train_dataset, 
    eval_set=test_dataset
)

In [None]:
results = cb.get_evals_result()

fig, axes = plt.subplots(figsize=(8,4))
plt.plot(results['learn']['TotalF1'], c='b', label='learn')
plt.plot(results['validation']['TotalF1'], c='r', label='validation')
axes.legend()

In [None]:
y_pred_cb = cb.predict(X_test_vector)
print(classification_report(y_test.cv_encoded, y_pred_cb))
conf_matrix = confusion_matrix(y_test.cv_encoded, y_pred_cb)
print(conf_matrix)
print( "\nF1 Score:" , f1_score(y_test.cv_encoded, y_pred_cb, average='macro' ) )

conf_matrix = confusion_matrix(y_test.cv_encoded, y_pred_cb)

print('{0:.2%} dos emails foram respondidos \n --------------------'.format(conf_matrix[:-1, :-1].sum() / conf_matrix[:-1, :].sum()))
print('{0:.2%} dos emails enviados como Classe 0 foram classificados corretamente'.format(conf_matrix[0, 0].sum() / conf_matrix[:, 0].sum()))
print('{0:.2%} dos emails enviados como Classe 1 foram classificados corretamente'.format(conf_matrix[1, 1].sum() / conf_matrix[:, 1].sum()))
print('{0:.2%} dos emails enviados como Classe 2 foram classificados corretamente'.format(conf_matrix[2, 2].sum() / conf_matrix[:, 2].sum()))
print('{0:.2%} dos emails enviados como Classe 3 foram classificados corretamente'.format(conf_matrix[3, 3].sum() / conf_matrix[:, 3].sum()))
print('{0:.2%} dos emails enviados como Classe 4 foram classificados corretamente'.format(conf_matrix[4, 4].sum() / conf_matrix[:, 4].sum()))
print('{0:.2%} dos emails enviados como Classe 5 foram classificados corretamente'.format(conf_matrix[5, 5].sum() / conf_matrix[:, 5].sum()))

##### RandomForest

In [None]:
rf = RandomForestClassifier(random_state=42)
rf.fit(X_train_vector, y_train.cv_encoded)

In [None]:
y_pred_rf = rf.predict(X_test_vector)
print(classification_report(y_test.cv_encoded, y_pred_rf))
conf_matrix = confusion_matrix(y_test.cv_encoded, y_pred_rf)
print(conf_matrix)
print( "\nF1 Score:" , f1_score(y_test.cv_encoded, y_pred_rf, average='macro' ) )

print('{0:.2%} dos emails foram respondidos \n --------------------'.format(conf_matrix[:-1, :-1].sum() / conf_matrix[:-1, :].sum()))
print('{0:.2%} dos emails enviados como Classe 0 foram classificados corretamente'.format(conf_matrix[0, 0].sum() / conf_matrix[:, 0].sum()))
print('{0:.2%} dos emails enviados como Classe 1 foram classificados corretamente'.format(conf_matrix[1, 1].sum() / conf_matrix[:, 1].sum()))
print('{0:.2%} dos emails enviados como Classe 2 foram classificados corretamente'.format(conf_matrix[2, 2].sum() / conf_matrix[:, 2].sum()))
print('{0:.2%} dos emails enviados como Classe 3 foram classificados corretamente'.format(conf_matrix[3, 3].sum() / conf_matrix[:, 3].sum()))
print('{0:.2%} dos emails enviados como Classe 4 foram classificados corretamente'.format(conf_matrix[4, 4].sum() / conf_matrix[:, 4].sum()))
print('{0:.2%} dos emails enviados como Classe 5 foram classificados corretamente'.format(conf_matrix[5, 5].sum() / conf_matrix[:, 5].sum()))

#### Validando Resultados

In [None]:
predict_cb=[i[0] for i in y_pred_cb]
# predict_rf=[i[0] for i in y_pred_rf]
df_result = pd.DataFrame({'message':X_test.values, 'predict_cb':predict_cb, 'predict_rf':y_pred_rf, 'true':y_test.cv_encoded.values, 'original':y_test.sac_customer_voice.values})
df_result.predict_cb = df_result.predict_cb.map(inv_map)
df_result.predict_rf = df_result.predict_rf.map(inv_map)
df_result.true = df_result.true.map(inv_map)

df_result
df_result.to_csv(f'{path}/data/validar2.csv')

Uma analise no dataset acima mostrou que os resultados gerados pelo RandomForest estão um pouco melhores que o Catboost. Usaremos daqui pra frente apenas o primeiro modelo

In [None]:
wrong_pred_df = df_result[(df_result.true == 'Outro') & (df_result.predict_rf != 'Outro')]
wrong_class_list = wrong_pred_df.groupby('original')['message'].count().sort_values(ascending=False)[:10]
wrong_class_list

In [None]:
aux_df = []
for cv in wrong_class_list.index.to_list():
  words = ' '.join(wrong_pred_df[wrong_pred_df.original == cv].message).split()
  ngram = [_ for _ in zip(words, words[1:], words[2:])]

  c = Counter(ngram).most_common(10)

  words = []
  for i in c:
    words.append(f'{i[0][0]} {i[0][1]} {i[0][2]}')

  aux_df.append(pd.DataFrame(words, columns=[cv]))

pd.concat(aux_df, axis=1)

#### Dicionario

Emails com essas palavras não fazem parte da lista de classes que queremos predizer

In [None]:
remove_grams = [
  'nao recebi codigo',
  'nao recebi email',
  'recebi codigo postagem',
  'codigo autorizacao postagem'
]

#### Aplicando Remocao usando o Dicionario

In [None]:
df_result.loc[df_result.message.str.contains('|'.join(remove_grams)), 'predict_cb'] = 'Outro'

In [None]:
df_result

#### Threshold

In [None]:
# predicoes menores que o valor definido serao classificadas como "outro"
threshold_proba = 0.4
y_pred_proba = cb.predict_proba(X_test_vector)
y_pred_threshold = [map_cv['Outro'] if sum(p<threshold_proba)==4 else np.argmax(p) for p in y_pred_proba]
y_pred_threshold = pd.DataFrame(y_pred_threshold, columns=['customer_voice'])['customer_voice']

print(classification_report(y_test.cv_encoded, y_pred_threshold))
print(confusion_matrix(y_test.cv_encoded, y_pred_threshold))

conf_matrix = confusion_matrix(y_test.cv_encoded, y_pred_threshold)
print('{0:.2%} dos emails foram respondidos \n --------------------'.format(conf_matrix[:-1, :-1].sum() / conf_matrix[:-1, :].sum()))
print('{0:.2%} dos emails enviados como Classe 0 foram classificados corretamente'.format(conf_matrix[0, 0].sum() / conf_matrix[:, 0].sum()))
print('{0:.2%} dos emails enviados como Classe 1 foram classificados corretamente'.format(conf_matrix[1, 1].sum() / conf_matrix[:, 1].sum()))
print('{0:.2%} dos emails enviados como Classe 2 foram classificados corretamente'.format(conf_matrix[2, 2].sum() / conf_matrix[:, 2].sum()))
print('{0:.2%} dos emails enviados como Classe 3 foram classificados corretamente'.format(conf_matrix[3, 3].sum() / conf_matrix[:, 3].sum()))
print('{0:.2%} dos emails enviados como Classe 4 foram classificados corretamente'.format(conf_matrix[4, 4].sum() / conf_matrix[:, 4].sum()))
print('{0:.2%} dos emails enviados como Classe 5 foram classificados corretamente'.format(conf_matrix[5, 5].sum() / conf_matrix[:, 5].sum()))