# Análises sobre os tokens
Análise sobre os dados da camada refined:
*   Palavras mais frequentes
*   Palavras menos frequentes
*   Palavras mais frequentes aos pares




### Configs

In [1]:
import pandas as pd
df_claims = pd.read_parquet('../dataset/refined/rfzd_claims.parquet.snappy')
df_claims_clean = pd.read_parquet('../dataset/refined/rfzd_claims_clean.parquet.snappy')

## Contagem das 20 palavras mais frequentes

### rfzd_claims

In [2]:
from collections import Counter

word_counts = Counter([token for tokens_list in df_claims['tokens_customer_claim'] for token in tokens_list])

top_20_words = word_counts.most_common(20)
top_20_words

[('de', 1570916),
 ('que', 1272559),
 ('nao', 795084),
 ('do', 616611),
 ('no', 602103),
 ('em', 582009),
 ('para', 543609),
 ('com', 523213),
 ('da', 485541),
 ('um', 369322),
 ('me', 322514),
 ('meu', 318184),
 ('uma', 315552),
 ('foi', 298525),
 ('xxx', 292525),
 ('por', 289711),
 ('dia', 278269),
 ('valor', 276535),
 ('na', 267686),
 ('eu', 261903)]

### rfzd_claims_clean

In [11]:
import itertools
words_to_remove = {'nao', 'ja', 'xx', 'xxx', 'xxxxx', 'xxxxxx', 'dia', 'dias', 'contato', 'entrei', 'ate'}

df_claims_clean['tokens_customer_claim'] = df_claims_clean['tokens_customer_claim'].apply(
    lambda tokens: [word for word in tokens if word not in words_to_remove]
)

In [12]:
word_counts_clean = Counter([token for tokens_list in df_claims_clean['tokens_customer_claim'] for token in tokens_list])

top_20_words_clean = word_counts_clean.most_common(20)
top_20_words_clean

[('conta', 143474),
 ('empresa', 139679),
 ('plano', 114244),
 ('compra', 108071),
 ('cartao', 104831),
 ('porem', 103455),
 ('produto', 100093),
 ('fatura', 95050),
 ('sendo', 94078),
 ('site', 90752),
 ('problema', 87748),
 ('cancelamento', 84779),
 ('banco', 84461),
 ('fiz', 82715),
 ('pagamento', 82256),
 ('atendente', 80973),
 ('servico', 80631),
 ('mes', 75958),
 ('recebi', 74456),
 ('oi', 73807)]

## Contagem das 20 palavras menos frequentes

### rfzd_claims

In [5]:
words_less_than_5 = {word: count for word, count in word_counts.items() if count < 5}
print(f"Total de palavras que ocorrem menos de 5 vezes: {len(words_less_than_5)}")

Total de palavras que ocorrem menos de 5 vezes: 100834


### rfzd_claims_clean

In [18]:
words_less_than_5 = {word: count for word, count in word_counts_clean.items() if count < 5}
print(f"Total de palavras: {len(word_counts_clean)}")
print(f"Total de palavras que ocorrem menos de 5 vezes: {len(words_less_than_5)}")

Total de palavras: 143003
Total de palavras que ocorrem menos de 5 vezes: 100826


In [29]:
words_more_than_5 = {word: count for word, count in word_counts_clean.items() if count >= 5}
print(f"Total de palavras que ocorrem mais de 5 vezes: {len(words_more_than_5)}")

Total de palavras que ocorrem mais de 5 vezes: 42177


In [31]:
top_20_least_frequent = sorted(words_more_than_5.items(), key=lambda x: x[1])[:20]
top_20_least_frequent

[('economizo', 5),
 ('apessoa', 5),
 ('fotografamos', 5),
 ('documente', 5),
 ('desd', 5),
 ('estabelicido', 5),
 ('negativara', 5),
 ('pesem', 5),
 ('prosseguissem', 5),
 ('voga', 5),
 ('genuina', 5),
 ('reclamoes', 5),
 ('isca', 5),
 ('servivo', 5),
 ('renomear', 5),
 ('stressada', 5),
 ('regal', 5),
 ('escoces', 5),
 ('implementando', 5),
 ('posicionamos', 5)]

## Análise ocorrencias em pares


### rfzd_claims_clean

In [8]:
sample_df_clean = df_claims_clean.sample(n=25000)

In [10]:
pair_counts_clean = Counter()

for tokens in df_claims_clean['tokens_customer_claim']:
    pairs = [(a, b) for a, b in itertools.combinations(tokens, 2) if a != b]
    pair_counts_clean.update(pairs)

top_20_pairs = pair_counts_clean.most_common(20)
top_20_pairs

[(('compra', 'produto'), 94424),
 (('cartao', 'credito'), 67099),
 (('site', 'produto'), 53503),
 (('compra', 'empresa'), 53297),
 (('conta', 'banco'), 51633),
 (('compra', 'site'), 51485),
 (('compra', 'cartao'), 50437),
 (('oi', 'plano'), 48696),
 (('plano', 'fatura'), 47129),
 (('banco', 'conta'), 46071),
 (('pedido', 'produto'), 44911),
 (('plano', 'oi'), 44452),
 (('compra', 'pedido'), 43839),
 (('site', 'empresa'), 43458),
 (('produto', 'empresa'), 43277),
 (('cartao', 'banco'), 42825),
 (('credito', 'cartao'), 41830),
 (('plano', 'internet'), 40839),
 (('entrega', 'produto'), 40803),
 (('mes', 'fatura'), 40178)]

In [None]:
sample_df_clean_v2 = df_claims_clean.sample(n=10000)
triple_counts_clean = Counter()

for tokens in sample_df_clean['tokens_customer_claim']:
    triples = [(a, b, c) for a, b, c in itertools.combinations(tokens, 3) if a != b and b != c and a != c]
    triple_counts_clean.update(triples)

top_20_triples = triple_counts_clean.most_common(20)
top_20_triples