# Teste Técnico Birdie

@claudioalvesmonteiro
Junho, 2020


### Explorar
1. extração de aspectos: palavras dentro de um texto que codificam uma característica de seu funcionamento, estrutura, ou do processo de compra (entrega, SAC, consertos e problemas)
2. o quê está sendo falado nos canais de venda de seus produtos
3. Encontrar uma maneira de extrair estes aspectos;
4. Explorar essas informações para gerar insights (por exemplo, quais aspectos estão mais relacionados com reviews positivos?);
5. Opcionalmente, criar gráficos e propostas de visualizações para suas observações
6. NLP, named entity recognition, syntax pattern matching, feature extraction, topic representation, word embedding, sentence embedding

### Desenvolver

0. Criar variável comentario_clean
1. Contagem de palavras total para explorar aspectos mais falados;
2. Identificar os aspectos em cada comentário e salvar em variável;
3. Criar variável comentário_positivo (3 estrelas pra cima) e comentario_negativo (2 estrelas pra baixo)
4. Capturar bag of words count (+ e -) para cada aspecto identificado;
5. Visualização wordcloud e wordcount para cada aspecto identificado; 
6. Volume de visualização por semana/horariododia e mes/semana
7. Tipo de geladeira (breadcrumb) mais bem avaliados e mal avaliados por marca (brand, > 5%)
8. Comparar caracteristicas das mais bem e mal avaliados 'specs'


9. explorar tendencia temporal das avaliações dos produtos (% de avaliacoes positivas), line-plot and thick bar, por aspecto do produto
10. indicador mensal de "satisfação do cliente", apresentando o que foi bom e ruim naquele mês 
11. relação com retailer (distribuidora)
12. similaridade entre textos (?)
13. modelagem para ver o que influencia ter uma boa avaliação (?)


# Pré-processamento

Com os objetivos definidos, o primeiro passo é pré-processar os comentários e colocar as palavras em caixa baixa, remover números, remover stopwords (conectivos) e aplicar o algoritmo lemmantization. Com isso padronizamos nosso texto para fazer uma extração de características mais eficiente. 

In [1]:
# importar pacotes
import pandas as pd
import nltk
#nltk.download('punkt')
#nltk.download('averaged_perceptron_tagger')

In [2]:
# importar dataset
data = pd.read_csv('data/tech_test.tsv')

# porcentagem de casos duplicados
print(round(sum(data.duplicated('review_id'))/len(data)*100, 2),'% de casos duplicados na base')

69.31 % de casos duplicados na base


Observando a estrutura dos dados pude observar que haviam reviews exatamente iguais mas apenas com momento de coleta diferentes, então acredito que isso seja resultado de algum processo na coleta dos dados. Como isso poderia gerar um viés na análise já que vou executar a contagem de termos, decidi por excluir reviews com ID duplicado. Num projeto 'real', eu discutiria bem isso com a equipe responsável pela base de dados para esclarecer melhor.

In [3]:
# remover reviews duplicadas
data = data.drop_duplicates('review_id')

In [4]:
def cleanTextToken(text, tokenization = True):
    ''' funcao para extrair palavras e 
        padronizar texto.
    '''
    # transforma em caixa baixa
    text = text.lower()
    # remove numeros
    text = ''.join([i for i in text if not i.isdigit()]) 
    # remove pontuacao
    from nltk.tokenize import RegexpTokenizer
    tokenizer = RegexpTokenizer(r'\w+') # preserva palavras e alfanumericos
    text = tokenizer.tokenize(text)
    # remove stopwords
    import nltk
    from nltk.corpus import stopwords
    stop = set(stopwords.words('english'))
    text = [w for w in text if not w in stop] 
    # lemmatization
    from nltk.stem import WordNetLemmatizer 
    lemmatizer = WordNetLemmatizer() 
    text = [lemmatizer.lemmatize(word) for word in text]
    # retorna tokens limpos
    return(text)

# gerar variavel com comentario 'limpo'
data['review_body_token'] = [cleanTextToken(text) for text in data['review_body']]

Agora é possível fazer uma contagem dos termos mais frequentes e testar se é possível extrair aspectos a partir disso. Com um modelo pré-treinado do pacote nltk consegui extrair a categoria da palavra (substantivo, adjetivo, pronome, etc.) e assim afunilar a busca por aspectos relevantes dos produtos em substantivos e posteriormente relacionar esses aspectos com a avaliação e com outras variáveis.

In [5]:
def wordCount(txt_list):
    ''' contar frequencia de palavras em lista e
        salvar em dataframe
    '''
    # dicionario com informacoes
    wordfreq = {'word':[],'freq':[]}
    # iteracao na lista
    for word in txt_list:
        if word not in wordfreq['word']:
            wordfreq['word'].append(word)                   # salvar palavra
            wordfreq['freq'].append(txt_list.count(word))   # calcular frequencia na lista
    # transformar em dataframe 
    count = pd.DataFrame(wordfreq)
    # sort_values in df
    count.sort_values('freq', inplace=True, ascending=False)
    # return df
    return count

In [6]:
# combinar todas as palavras de todos os comentarios
all_tokens = []
for comment in data['review_body_token']:
    for word in comment:
        all_tokens.append(word)

In [7]:
# contabilizar
all_count = wordCount(all_tokens[0:100000])

In [8]:
# funcao para identificar classe gramatical de palavras 
def nltkPerceptronClass(column):
    new_column =[]
    for word in column:
        new_column.append(nltk.pos_tag([word])[0][1])
    return new_column

In [9]:
# executar identifc de classe gramatical
all_count['category'] = nltkPerceptronClass(all_count['word'])

In [10]:
# visualizar substantivos com mais de 0,1% de representacao na base
all_count[(all_count['category'] == 'NN') & (all_count['freq'] > (sum(all_count['freq'])*0.002))]

Unnamed: 0,word,freq,category
42,fridge,2473,NN
28,door,1823,NN
16,ice,1790,NN
102,refrigerator,1505,NN
47,part,1420,NN
...,...,...,...
446,temperature,207,NN
557,stainless,207,NN
303,loud,206,NN
527,samsung,204,NN


Com base nessa análise exploratória é possível levantar palavras de relevância nos reviews, que podem servir como aspetos a serem analisados e cruzados com outras variáveis para compreender com mais detalhes as avaliações.

In [11]:
features = ['fridge'
            'door'
            'ice'
            'refrigerator'
            'freezer'
            'promotion'
            'water'
            'space'
            'shelf'
            'side'
            'month'
            'room'
            'dispenser',
            'time',
            'size',
            'problem',
            'price',
            'light',
            'temperature',
            'noise']

In [12]:
# criar variavel de features presentes na review
features_var = []
for row in data['review_body_token']:
    

SyntaxError: unexpected EOF while parsing (<ipython-input-12-321eeda4402d>, line 4)

In [None]:
data.head()

In [None]:
# para cada feature sera possivel visualizar wordcloud/wordcount X avaliacoes positivas/avaliacoes negativas