### Primeiro, bora ler um arquivo de exemplo com informações base dos tatuadores.

In [1]:
import pandas as pd

df = pd.read_csv('./assets/tatuadores.csv', sep=';')
df.head()

Unnamed: 0,nome_de_usuario,nome_completo,descricao,hashtags
0,caio_porcel,Caio Henrique Porcel,Sou um tatuador especializado em Old School,"oldschool,curitiba,brasil,sao-paulo,retro"
1,kauan_alexandre,Kauan Alexandre Mendes da Silva,Realismo mágico | SP,"realismo,sao-paulo,sp,rutz"
2,joao_pedro,João Pedro de Oliveira,O tatuador mais fofo de fineline de Porto Alegre,"fineline,fofura,porto-alegre"
3,vinicius_rebelatto,Vinicius Rebelatto,"Leões e relógios, praia e vôlei","leão,relógio,praia,volei,curitiba"
4,lara_ink,Lara Cristina Souza,Tatuagens delicadas e florais com alma feminina,"delicada,floral,sp,sao-paulo,feminina"


### Depois, vamos testar o NLTK para tokenizar as palavras.

In [2]:
import nltk
from nltk.tokenize import word_tokenize

nltk.download('punkt_tab')

pd.DataFrame({
    'nome_completo': [word_tokenize(nome) for nome in df['nome_completo']],
    'descricao': [word_tokenize(descricao) for descricao in df['descricao']],
    'hashtags': [hashtag.split(',') for hashtag in df['hashtags']],
}).head()

[nltk_data] Downloading package punkt_tab to
[nltk_data]     /home/thundera/nltk_data...
[nltk_data]   Package punkt_tab is already up-to-date!


Unnamed: 0,nome_completo,descricao,hashtags
0,"[Caio, Henrique, Porcel]","[Sou, um, tatuador, especializado, em, Old, Sc...","[oldschool, curitiba, brasil, sao-paulo, retro]"
1,"[Kauan, Alexandre, Mendes, da, Silva]","[Realismo, mágico, |, SP]","[realismo, sao-paulo, sp, rutz]"
2,"[João, Pedro, de, Oliveira]","[O, tatuador, mais, fofo, de, fineline, de, Po...","[fineline, fofura, porto-alegre]"
3,"[Vinicius, Rebelatto]","[Leões, e, relógios, ,, praia, e, vôlei]","[leão, relógio, praia, volei, curitiba]"
4,"[Lara, Cristina, Souza]","[Tatuagens, delicadas, e, florais, com, alma, ...","[delicada, floral, sp, sao-paulo, feminina]"


### Gostei do resultado, mas precisamos sanitizar o nosso texto para garantir que as buscas são efetivas.

In [3]:
import re

def clean_text(text):
    text = text.strip()
    text = re.sub(r'[^\w\s]', '', text)
    text = text.lower()
    return text

for descricao in df['descricao'].head():
    print(word_tokenize(clean_text(descricao)))

['sou', 'um', 'tatuador', 'especializado', 'em', 'old', 'school']
['realismo', 'mágico', 'sp']
['o', 'tatuador', 'mais', 'fofo', 'de', 'fineline', 'de', 'porto', 'alegre']
['leões', 'e', 'relógios', 'praia', 'e', 'vôlei']
['tatuagens', 'delicadas', 'e', 'florais', 'com', 'alma', 'feminina']


### Bora tirar também as _stop-words_ ("e", "em", etc).


In [4]:
from nltk.corpus import stopwords

nltk.download('stopwords')
STOP_WORDS = set(stopwords.words('portuguese'))

for descricao in df['descricao']:
    palavras = word_tokenize(clean_text(descricao))
    palavras_filtradas = [word for word in palavras if word not in STOP_WORDS]
    print(palavras_filtradas)

['tatuador', 'especializado', 'old', 'school']
['realismo', 'mágico', 'sp']
['tatuador', 'fofo', 'fineline', 'porto', 'alegre']
['leões', 'relógios', 'praia', 'vôlei']
['tatuagens', 'delicadas', 'florais', 'alma', 'feminina']
['preto', 'cinza', 'sombra', 'pesada']
['crânios', 'serpentes', 'tudo', 'sombrio']
['mini', 'pokes', 'autorais', 'direto', 'bh']
['arte', 'fina', 'traço', 'limpo', 'coração', 'cheio']
['tradicional', 'americano', 'toque', 'brasileiro']
['tatuagens', 'orientais', 'traço', 'preciso']
['tribal', 'neotradicional', 'tudo', 'rio']
['pontilhismo', 'mandalas', 'propósito']
['neotradicional', 'cores', 'vivas', 'muita', 'energia']
['especialista', 'blackwork', 'geométrico']
['dotwork', 'intenso', 'simbologia', 'oculta']
['aquarela', 'viva', 'pele', 'pura', 'emoção']
['tribais', 'modernos', 'culturais']
['fineline', 'referências', 'botânicas']
['realismo', 'preto', 'cinza', 'emoção', 'real']
['pontilhismo', 'espiritual', 'mandalas', 'únicas']
['sketch', 'tattoo', 'alma', 'ar

[nltk_data] Downloading package stopwords to
[nltk_data]     /home/thundera/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


### Por fim, bora resolver mais uma questão. _Stemming_.

In [5]:
from nltk.stem import SnowballStemmer

stemmer = SnowballStemmer("portuguese")

for descricao in df['descricao']:
    palavras = word_tokenize(clean_text(descricao))
    tokens_stemmed = [stemmer.stem(word) for word in palavras]
    print(tokens_stemmed)


['sou', 'um', 'tatuador', 'especializ', 'em', 'old', 'school']
['realism', 'mágic', 'sp']
['o', 'tatuador', 'mais', 'fof', 'de', 'finelin', 'de', 'port', 'alegr']
['leõ', 'e', 'relógi', 'pra', 'e', 'vôl']
['tatuagens', 'delic', 'e', 'flor', 'com', 'alma', 'feminin']
['pret', 'e', 'cinz', 'com', 'sombr', 'pes']
['crâni', 'serpent', 'e', 'tud', 'que', 'é', 'sombri']
['min', 'pok', 'autor', 'diret', 'de', 'bh']
['arte', 'fin', 'trac', 'limp', 'coraçã', 'chei']
['tradicional', 'american', 'com', 'um', 'toqu', 'brasileir']
['tatuagens', 'orient', 'com', 'trac', 'precis']
['do', 'tribal', 'ao', 'neotradicional', 'tud', 'no', 'rio']
['pontilh', 'e', 'mandal', 'com', 'propósit']
['neotradicional', 'com', 'cor', 'viv', 'e', 'muit', 'energ']
['especial', 'em', 'blackwork', 'geométr']
['dotwork', 'intens', 'com', 'simbolog', 'ocult']
['aquarel', 'viv', 'na', 'pel', 'pur', 'emoçã']
['trib', 'modern', 'e', 'cultur']
['finelin', 'com', 'referent', 'botân']
['realism', 'pret', 'e', 'cinz', 'com', 'em

### Beleza, tudo parece bom. Bora criar uma pipeline para os dados!

In [6]:
import re

import nltk
from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords
from nltk.stem import SnowballStemmer

nltk.download('punkt_tab')
nltk.download('stopwords')

STOP_WORDS = set(stopwords.words('portuguese'))
STEMMER = SnowballStemmer("portuguese")

def sanitizar_texto(texto: str) -> str:
    texto = texto.strip()
    texto = re.sub(r'[^\w\s]', '', texto)
    texto = texto.lower()
    
    return texto

def tokenizar_texto(texto: str) -> list[str]:
    return word_tokenize(texto)

def remover_stopwords(tokens: list[str]) -> list[str]:
    return [word for word in tokens if word not in STOP_WORDS]

def aplicar_stemming(tokens: list[str]) -> list[str]:
    return [STEMMER.stem(word) for word in tokens]

def pipeline(texto: str) -> list[str]:
    texto_sanitizado = sanitizar_texto(texto)
    texto_tokenizado = tokenizar_texto(texto_sanitizado)
    tokens_relevantes = remover_stopwords(texto_tokenizado)
    
    return tokens_relevantes

df_tokens = pd.DataFrame({
    'nome_completo': [aplicar_stemming(pipeline(nome)) for nome in df['nome_completo']],
    'descricao': [aplicar_stemming(pipeline(descricao)) for descricao in df['descricao']],
    'hashtags': [hashtag.split(',') for hashtag in df['hashtags']],
})

df_tokens

[nltk_data] Downloading package punkt_tab to
[nltk_data]     /home/thundera/nltk_data...
[nltk_data]   Package punkt_tab is already up-to-date!
[nltk_data] Downloading package stopwords to
[nltk_data]     /home/thundera/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


Unnamed: 0,nome_completo,descricao,hashtags
0,"[cai, henriqu, porcel]","[tatuador, especializ, old, school]","[oldschool, curitiba, brasil, sao-paulo, retro]"
1,"[kauan, alexandr, mend, silv]","[realism, mágic, sp]","[realismo, sao-paulo, sp, rutz]"
2,"[joã, pedr, oliveir]","[tatuador, fof, finelin, port, alegr]","[fineline, fofura, porto-alegre]"
3,"[vinicius, rebelatt]","[leõ, relógi, pra, vôl]","[leão, relógio, praia, volei, curitiba]"
4,"[lar, cristin, souz]","[tatuagens, delic, flor, alma, feminin]","[delicada, floral, sp, sao-paulo, feminina]"
5,"[hug, martins]","[pret, cinz, sombr, pes]","[blackandgrey, sombra, power, rio, rj]"
6,"[daniel, roch]","[crâni, serpent, tud, sombri]","[dark, skull, serpente, gótica, sao-paulo]"
7,"[fern, lim]","[min, pok, autor, diret, bh]","[minipoke, bh, autoral, tattoo, minimalista]"
8,"[marian, cost]","[arte, fin, trac, limp, coraçã, chei]","[fineline, fineart, amor, sp, minimal]"
9,"[eduard, pereir]","[tradicional, american, toqu, brasileir]","[tradicional, oldschool, brasil, curitiba, tat..."


### Agora, bora criar o índice invertido!

In [None]:
from collections import defaultdict

inverted_index = defaultdict(set)

for idx, row in df_tokens.iterrows():
    tokens = row['nome_completo'] + row['descricao']
    
    for token in tokens:
        inverted_index[token].add(idx)

df_index = pd.DataFrame([(term, list(doc_ids)) for term, doc_ids in inverted_index.items()], columns=["Term", "Documents"])
df_index.to_csv('out.csv')

df_index

Unnamed: 0,Term,Documents
0,cai,"[0, 11]"
1,henriqu,[0]
2,porcel,[0]
3,tatuador,"[0, 2]"
4,especializ,[0]
...,...,...
180,ous,[22]
181,brun,[23]
182,figueir,[23]
183,raiz,[23]
