# Resumo
Rafael Mateus Zimmer Techio

Essa é a entrega da atividade ponderada de programação da semana 5.

> Leia a implementação guiada do tutorial do Bag of Words disponível no Kaggle (https://www.kaggle.com/code/vipulgandhi/bag-of-words-model-for-beginners). Desenvolva seu código Python no Google Colab a partir do código apresentado no tutorial, organize o código em etapas com suas respectivas descrições, de forma que o notebook tenha seções de setup, definição de funções e testes das funções. Realize testes com 25 frases diferentes em inglês e 25 frases diferentes em português (para este último passo, é permitido utilizar outras bibliotecas). Envie o link do Google Colab na Adalove. O link deve ter acesso liberado para o professor.

O tutorial citado ensina como aplicar o método de vetorização Bag of Words utilizando de diversas bibliotecas. A seguir, irei aplicar minha própria implementação do bag of words pois acredito que dessa maneira conseguirei entender e fixar melhor os passos e a lógica desse método de vetorização.

Em seguida, irei criar dois testes: um com 25 frases em português e outro com 25 frases em português. A idéia é que seja uma única implementação, preparada para as duas linguagens.

Além disso, irei limpar os caracteres especiais e realizarei a remoção de stop words, processo que não interferirá na lógica geral do bag of words, porém resultará em uma matriz menor, o que eu considero melhor, pois dessa forma tiramos as palavras que não acrescentam valor.

# Setup

Como não utilizarei de libs para a criação do bag of words, meus únicos imports de setup serão a lib do regex e o pandas para a apresentação como dataframe do resultado final.

In [None]:
import re
import pandas as pd

# Definições de Função

## Separação de palavras (Inglês)

Essa função tem o objetivo de obter palavras que estão abreviadas em inglês e separá-las para que possam futuramente passar pela remoção de stop words

In [None]:
words_to_separe = [
    ["'re", " are"],
    ["can't", "can not"],
    ["n't", " not"],
    ["'s", " is"]
]

def separe_words(text):
  new_text = text
  for word_to_separe in words_to_separe:
    new_text = new_text.replace(word_to_separe[0], word_to_separe[1])
  return new_text

## Remoção de caracteres especiais

Remove todos os caracteres especiais do texto

In [None]:
def remove_special_characters(text):
  new_text = re.sub(r'[^\w\s]', '', text)
  new_text = re.sub(' +', ' ', new_text)
  new_text = new_text.replace('!', '')
  new_text = new_text.replace('?', '')
  new_text = new_text.replace('.', '')
  new_text = new_text.replace('/', '')
  new_text = new_text.replace(',', '')
  new_text = new_text.replace(';', '')
  new_text = new_text.replace(')', '')
  new_text = new_text.replace('(', '')
  new_text = new_text.replace('ã', 'a')
  new_text = new_text.replace('á', 'a')
  new_text = new_text.replace('à', 'a')
  new_text = new_text.replace('â', 'a')
  new_text = new_text.replace('ê', 'e')
  new_text = new_text.replace('é', 'e')
  new_text = new_text.replace('ó', 'o')
  new_text = new_text.replace('ç', 'c')
  new_text = new_text.replace('ç', 'c')

  new_text = new_text.strip()

  return new_text

## Tokenização

A função de tokenização separa as palavras de uma frase pelo espaço, retornando um array de palavras

In [None]:
def tokenize(text):
    return text.split(' ')

## Remoção de Stop Words

A função recebe um array de palavras e remove todas as consideradas "stop words" ou seja, palavras que não contribuem para o sentido do texto



In [None]:
stop_words = ['com', 'se', 'que', 'por', 'a', 'o', 'ao', 'um', 'uma', 'as', 'os', 'umas', 'uns', 'de', 'da', 'do', 'das', 'dos', 'para', 'e', 'em', 'is', 'are', 'the', 'with', 'of', 'on']

def remove_stop_words(words_arr):
  new_tokens = []
  for word in words_arr:
    if(word not in stop_words):
      new_tokens.append(word)

  return new_tokens

## Pipeline (executar todo o processo)

A função de pipeline roda todas as etapas necessarias para pré processar o texto, sendo a conversão para diminutivo, separar as palavras abreviadas em inglês, limpar caracteres especiais, tokenizar e remover stop words.

In [None]:
def pipeline_text(text):
  lower_text = text.lower()
  separed_abr_text = separe_words(lower_text)
  cleaned_string = remove_special_characters(separed_abr_text)
  tokenized_text = tokenize(cleaned_string)
  cleaned_tokens = remove_stop_words(tokenized_text)
  return cleaned_tokens

In [None]:
def pipeline_texts(texts):
  new_texts = []
  for text in texts:
    new_texts.append(pipeline_text(text))

  return new_texts

## Obter vocabulário

A função de obter vocabulário recebe um array de frases tokenizadas e retorna as palvras únicas

In [None]:
def get_vocabulary(tokenized_arr):
  unique_words = []
  for tokenized_text in tokenized_arr:
    for token in tokenized_text:
      if(token not in unique_words):
        unique_words.append(token)
  return unique_words

## Vetorizar de acordo com o vocabulário

Essa função tem o objetivo de receber frases tokenizadas e fazer a contagem dos tokens de acordo com o vocabulário, retornando uma matriz

In [None]:
def vetorize(pipelined_words, vocabulary):
  vetorized_words = []
  for word in vocabulary:
    word_count = 0
    for token in pipelined_words:
      if(token == word):
        word_count = word_count + 1
    vetorized_words.append(word_count)
  return vetorized_words

In [None]:
def vetorize_arr(pipelined_arr, vocabulary):
  vetorized_words_arr = []
  for pipelined_words in pipelined_arr:
    vetorized_words = vetorize(pipelined_words, vocabulary)
    vetorized_words_arr.append(vetorized_words)

  return vetorized_words_arr

## Obter Bag of Words

Retorna uma lista onde a posição 0, é a lista de vocabulario e as demais são os textos vetorizados

In [None]:
def get_bag_of_words(texts):
  pipelined_texts = pipeline_texts(texts)
  vocabulary = get_vocabulary(pipelined_texts)
  vetorized_arr = vetorize_arr(pipelined_texts, vocabulary)

  return [vocabulary] + vetorized_arr

## Transformação da matriz de bag of words em df

Transforma a matriz de bag of words gerada pela função anterior em um dataframe

In [None]:
def convert_bow_to_df(bow_matriz):
  vocabulary = bow_matriz[0]
  vectors = bow_matriz[1:]

  dict_bow = {}
  for index in range(len(vocabulary)):
    word = vocabulary[index]
    word_vector_list = []
    for vector in vectors:
      word_vector_list.append(vector[index])
    dict_bow[word] = word_vector_list

  return pd.DataFrame(dict_bow)

# Testes

## Funções

In [None]:
def test_remove_special_characters():
  frase = 'Olá, tudo bem? Eu gostaria de um cafézão.'
  resultado =remove_special_characters(frase)
  resultado_esperado = 'Ola tudo bem Eu gostaria de um cafezao'
  print(' | Passou: ', resultado == resultado_esperado, '\n | Frase: ', frase, '\n | Resultado: ', resultado, '\n | Resultado esperado: ', resultado_esperado)

test_remove_special_characters()

 | Passou:  True 
 | Frase:  Olá, tudo bem? Eu gostaria de um cafézão. 
 | Resultado:  Ola tudo bem Eu gostaria de um cafezao 
 | Resultado esperado:  Ola tudo bem Eu gostaria de um cafezao


In [None]:
def test_tokenize():
  frase = 'Olá, tudo bem? Eu gostaria de um cafézão.'
  resultado = tokenize(frase)
  resultado_esperado = ['Olá,', 'tudo', 'bem?', 'Eu', 'gostaria', 'de', 'um', 'cafézão.']
  print(' | Passou: ', resultado == resultado_esperado, '\n | Frase: ', frase, '\n | Resultado: ', resultado, '\n | Resultado esperado: ', resultado_esperado)

test_tokenize()

 | Passou:  True 
 | Frase:  Olá, tudo bem? Eu gostaria de um cafézão. 
 | Resultado:  ['Olá,', 'tudo', 'bem?', 'Eu', 'gostaria', 'de', 'um', 'cafézão.'] 
 | Resultado esperado:  ['Olá,', 'tudo', 'bem?', 'Eu', 'gostaria', 'de', 'um', 'cafézão.']


In [None]:
def test_remove_stop_words():
  input = ['ola', 'tudo', 'bem', 'eu', 'gostaria', 'de', 'um', 'cafezao']
  resultado = remove_stop_words(input)
  resultado_esperado = ['ola', 'tudo', 'bem', 'eu', 'gostaria', 'cafezao']
  print(' | Passou: ', resultado == resultado_esperado, '\n | Input: ', input, '\n | Resultado: ', resultado, '\n | Resultado esperado: ', resultado_esperado)

test_remove_stop_words()

 | Passou:  True 
 | Input:  ['ola', 'tudo', 'bem', 'eu', 'gostaria', 'de', 'um', 'cafezao'] 
 | Resultado:  ['ola', 'tudo', 'bem', 'eu', 'gostaria', 'cafezao'] 
 | Resultado esperado:  ['ola', 'tudo', 'bem', 'eu', 'gostaria', 'cafezao']


In [None]:
def test_pipeline():
  input = 'Olá Tudo bem? Eu gostaria de um cafézão para mim!'
  resultado = pipeline_text(input)
  resultado_esperado = ['ola', 'tudo', 'bem', 'eu', 'gostaria', 'cafezao', 'mim']
  print(' | Passou: ', resultado == resultado_esperado, '\n | Input: ', input, '\n | Resultado: ', resultado, '\n | Resultado esperado: ', resultado_esperado)

test_pipeline()

 | Passou:  True 
 | Input:  Olá Tudo bem? Eu gostaria de um cafézão para mim! 
 | Resultado:  ['ola', 'tudo', 'bem', 'eu', 'gostaria', 'cafezao', 'mim'] 
 | Resultado esperado:  ['ola', 'tudo', 'bem', 'eu', 'gostaria', 'cafezao', 'mim']


## Português

In [None]:
texts_pt = [
  "Este produto superou minhas expectativas!",
  "Estou impressionado com a qualidade deste item.",
  "Excelente custo benefício, vale cada centavo.",
  "Funcionalidade incrível, realmente útil no dia a dia.",
  "A embalagem é bem elaborada e protege o produto.",
  "Design moderno e elegante, perfeito para qualquer ambiente.",
  "Este produto tornou minha vida muito mais fácil.",
  "Durabilidade excepcional, não apresenta sinais de desgaste.",
  "Fácil de usar e configurar, mesmo para iniciantes.",
  "As características deste produto são exatamente o que eu estava procurando.",
  "A entrega foi rápida e o produto chegou em perfeitas condições.",
  "Recomendo este produto a todos os meus amigos e familiares.",
  "O suporte ao cliente foi muito útil e atencioso.",
  "Este produto atendeu todas as minhas necessidades.",
  "A qualidade do material é surpreendente, muito resistente.",
  "Estou muito satisfeito com minha compra, não tenho reclamações.",
  "Ótima relação qualidade e preço, vale cada centavo investido.",
  "As funcionalidades deste produto facilitam minha rotina diária.",
  "Este produto superou minhas expectativas em todos os sentidos.",
  "O manual de instruções é claro e fácil de entender.",
  "Estou muito feliz com a performance deste produto.",
  "Este produto se destaca pela sua inovação e praticidade.",
  "A durabilidade deste produto é impressionante, não quebra facilmente.",
  "A entrega foi pontual e o produto chegou bem embalado.",
  "Não consigo imaginar minha vida sem este produto agora.",
]



In [None]:
df_pt = convert_bow_to_df(get_bag_of_words(texts_pt))
df_pt

Unnamed: 0,este,produto,superou,minhas,expectativas,estou,impressionado,qualidade,deste,item,...,praticidade,impressionante,quebra,facilmente,pontual,embalado,consigo,imaginar,sem,agora
0,1,1,1,1,1,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
1,0,0,0,0,0,1,1,1,1,1,...,0,0,0,0,0,0,0,0,0,0
2,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
3,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
4,0,1,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
5,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
6,1,1,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
7,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
8,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
9,0,1,0,0,0,0,0,0,1,0,...,0,0,0,0,0,0,0,0,0,0


In [None]:
def test_vocab_df():
  resultado_esperado = ['este',
'produto',
'superou',
'minhas',
'expectativas',
'estou',
'impressionado',
'qualidade',
'deste',
'item',
'excelente',
'custo',
'benefício',
'vale',
'cada',
'centavo',
'funcionalidade',
'incrível',
'realmente',
'útil',
'no',
'dia',
'embalagem',
'bem',
'elaborada',
'protege',
'design',
'moderno',
'elegante',
'perfeito',
'qualquer',
'ambiente',
'tornou',
'minha',
'vida',
'muito',
'mais',
'facil',
'durabilidade',
'excepcional',
'nao',
'apresenta',
'sinais',
'desgaste',
'usar',
'configurar',
'mesmo',
'iniciantes',
'características',
'sao',
'exatamente',
'eu',
'estava',
'procurando',
'entrega',
'foi',
'rapida',
'chegou',
'perfeitas',
'condicões',
'recomendo',
'todos',
'meus',
'amigos',
'familiares',
'suporte',
'cliente',
'atencioso',
'atendeu',
'todas',
'necessidades',
'material',
'surpreendente',
'resistente',
'satisfeito',
'compra',
'tenho',
'reclamacões',
'otima',
'relacao',
'preco',
'investido',
'funcionalidades',
'facilitam',
'rotina',
'diaria',
'sentidos',
'manual',
'instrucões',
'claro',
'entender',
'feliz',
'performance',
'destaca',
'pela',
'sua',
'inovacao',
'praticidade',
'impressionante',
'quebra',
'facilmente',
'pontual',
'embalado',
'consigo',
'imaginar',
'sem',
'agora']
  resultado = df_pt.columns

  print(' | Passou: ', (False not in (resultado == resultado_esperado)))

test_vocab_df()

 | Passou:  True


## Inglês

In [None]:
texts_en = [
  "This product exceeded my expectations!",
  "I am impressed with the quality of this item.",
  "Excellent value for money, worth every penny.",
  "Amazing functionality, truly useful in day-to-day life.",
  "The packaging is well-designed and protects the product.",
  "Modern and elegant design, perfect for any setting.",
  "This product has made my life so much easier.",
  "Exceptional durability, shows no signs of wear and tear.",
  "Easy to use and set up, even for beginners.",
  "The features of this product are exactly what I was looking for.",
  "Delivery was fast, and the product arrived in perfect condition.",
  "I would recommend this product to all my friends and family.",
  "Customer support was very helpful and attentive.",
  "This product met all my needs.",
  "The quality of the material is amazing, very sturdy.",
  "I am very pleased with my purchase, no complaints whatsoever.",
  "Great value for money, worth every penny invested.",
  "The functionalities of this product make my daily routine easier.",
  "This product exceeded my expectations in every way.",
  "The instruction manual is clear and easy to understand.",
  "I am very happy with the performance of this product.",
  "This product stands out for its innovation and convenience.",
  "The durability of this product is impressive, it doesn't break easily.",
  "Delivery was on time, and the product arrived well-packaged.",
  "I can't imagine my life without this product now.",
]

In [None]:
df_en = convert_bow_to_df(get_bag_of_words(texts_en))
df_en

Unnamed: 0,this,product,exceeded,my,expectations,i,am,impressed,quality,item,...,does,not,break,easily,time,wellpackaged,can,imagine,without,now
0,1,1,1,1,1,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
1,1,0,0,0,0,1,1,1,1,1,...,0,0,0,0,0,0,0,0,0,0
2,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
3,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
4,0,1,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
5,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
6,1,1,0,1,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
7,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
8,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
9,1,1,0,0,0,1,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0


In [None]:
def test_vocab_df():
  resultado_esperado = ['this',
'product',
'exceeded',
'my',
'expectations',
'i',
'am',
'impressed',
'quality',
'item',
'excellent',
'value',
'for',
'money',
'worth',
'every',
'penny',
'amazing',
'functionality',
'truly',
'useful',
'in',
'daytoday',
'life',
'packaging',
'welldesigned',
'and',
'protects',
'modern',
'elegant',
'design',
'perfect',
'any',
'setting',
'has',
'made',
'so',
'much',
'easier',
'exceptional',
'durability',
'shows',
'no',
'signs',
'wear',
'tear',
'easy',
'to',
'use',
'set',
'up',
'even',
'beginners',
'features',
'exactly',
'what',
'was',
'looking',
'delivery',
'fast',
'arrived',
'condition',
'would',
'recommend',
'all',
'friends',
'family',
'customer',
'support',
'very',
'helpful',
'attentive',
'met',
'needs',
'material',
'sturdy',
'pleased',
'purchase',
'complaints',
'whatsoever',
'great',
'invested',
'functionalities',
'make',
'daily',
'routine',
'way',
'instruction',
'manual',
'clear',
'understand',
'happy',
'performance',
'stands',
'out',
'its',
'innovation',
'convenience',
'impressive',
'it',
'does',
'not',
'break',
'easily',
'time',
'wellpackaged',
'can',
'imagine',
'without',
'now',
]
  resultado = df_en.columns

  print(' | Passou: ', (False not in (resultado == resultado_esperado)))

test_vocab_df()

 | Passou:  True


## Dataframe completo

In [None]:
df = pd.concat([df_pt, df_en])
df = df.fillna(0)
df

Unnamed: 0,este,produto,superou,minhas,expectativas,estou,impressionado,qualidade,deste,item,...,does,not,break,easily,time,wellpackaged,can,imagine,without,now
0,1.0,1.0,1.0,1.0,1.0,0.0,0.0,0.0,0.0,0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
1,0.0,0.0,0.0,0.0,0.0,1.0,1.0,1.0,1.0,1,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
2,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
3,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
4,0.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
5,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
6,1.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
7,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
8,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
9,0.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0,0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
