# Teste Técnico Birdie

@claudioalvesmonteiro
Junho, 2020


### Problema 
1. extração de aspectos: palavras dentro de um texto que codificam uma característica de seu funcionamento, estrutura, ou do processo de compra (entrega, SAC, consertos e problemas)
2. o quê está sendo falado nos canais de venda de seus produtos
3. Encontrar uma maneira de extrair estes aspectos;
4. Explorar essas informações para gerar insights (por exemplo, quais aspectos estão mais relacionados com reviews positivos?);
5. Opcionalmente, criar gráficos e propostas de visualizações para suas observações
6. NLP, named entity recognition, syntax pattern matching, feature extraction, topic representation, word embedding, sentence embedding

### Mineração de Dados

0. Criar variável comentario_clean
1. Contagem de palavras total para explorar aspectos mais falados;
2. Identificar os aspectos em cada comentário e salvar em variável;
3. Criar variável comentário_positivo (3 estrelas pra cima) e comentario_negativo (2 estrelas pra baixo)
4. Capturar bag of words count (+ e -) para cada aspecto identificado;
5. Visualização wordcloud e wordcount para cada aspecto identificado; 


6. explorar tendencia temporal das avaliações dos produtos (% de avaliacoes positivas), line-plot and thick bar, por aspecto do produto
7. indicador mensal de "satisfação do cliente", apresentando o que foi bom e ruim naquele mês 
8. relação com retailer (distribuidora)
9. similaridade entre textos (?)
10. modelagem para ver o que influencia ter uma boa avaliação (?)


# Pré-processamento

Com os objetivos definidos, o primeiro passo é pré-processar os comentários e colocar as palavras em caixa baixa, remover números, remover stopwords (conectivos) e aplicar o algoritmo lemmantization. Com isso padronizamos nosso texto para fazer uma extração de características mais eficiente. 

In [None]:
# importar pacotes
import pandas as pd
import nltk
#nltk.download('punkt')
#nltk.download('averaged_perceptron_tagger')

In [None]:
# import dataset
data = pd.read_csv('data/tech_test.tsv')

In [None]:
def cleanTextToken(text, tokenization = True):
    ''' funcao para extrair palavras e 
        padronizar texto.
    '''
    # transforma em caixa baixa
    text = text.lower()
    # remove numeros
    text = ''.join([i for i in text if not i.isdigit()]) 
    # remove pontuacao
    from nltk.tokenize import RegexpTokenizer
    tokenizer = RegexpTokenizer(r'\w+') # preserva palavras e alfanumericos
    text = tokenizer.tokenize(text)
    # remove stopwords
    import nltk
    from nltk.corpus import stopwords
    stop = set(stopwords.words('english'))
    text = [w for w in text if not w in stop] 
    # lemmatization
    from nltk.stem import WordNetLemmatizer 
    lemmatizer = WordNetLemmatizer() 
    text = [lemmatizer.lemmatize(word) for word in text]
    # retorna tokens limpos
    return(text)

# gerar variavel com comentario 'limpo'
data['review_body_token'] = [cleanTextToken(text) for text in data['review_body']]

Agora é possível fazer uma contagem dos termos mais frequentes e testar se é possível extrair aspectos a partir disso. Com um modelo pré-treinado do pacote nltk consegui extrair a categoria da palavra (substantivo, adjetivo, pronome, etc) e assim afunilar a busca por aspectos relevantes dos produtos.

In [None]:
def wordCount(txt_list):
    ''' contar frequencia de palavras em lista,
        identificar a classe gramatical da palavra e
        salvar em dataframe
    '''
    # dicionario com informacoes
    wordfreq = {'word':[],'category':[],'freq':[]}
    # iteracao na lista
    for word in txt_list:
        if word not in wordfreq:
            wordfreq['word'].append(txt_list.count(word))           # salvar palavra
            wordfreq['category'].append(nltk.pos_tag([word])[0][1]) # extrair categoria (subst, adj, etc)
            wordfreq['freq'].append(txt_list.count(word))           # calcular frequencia na lista
    # transformar em dataframe 
    count = pd.DataFrame(wordfreq)
    # sort_values in df
    count.sort_values('freq', inplace=True, ascending=False)
    # return df
    return count

In [None]:
# combinar todas as palavras de todos os comentarios
all_tokens = []
for comment in data['review_body_token']:
    for word in comment:
        all_tokens.append(word)
        
# contar e visualizar
all_count = wordCount(all_tokens)
all_count[0:20]