# Pipeline de Pr√© Processamento para NLP

# Pr√© Processamento de texto

Para pipelines de pr√© processamento baseadadas em compreens√£o de texto, √© crucial que fa√ßamos uma normaliza√ß√£o e limpeza dos dados antes de analisar-los. Esse pr√© processamento envolve algumas etapas:

- **Tokeniza√ß√£o:** Separar o texto em palavras comuns ou tokens. Por exemplo, "Ol√° mundo!" ir√° virar ["ola", "mundo", "!"].
- **Lowercasing:** Converte todos os caracteres em textos min√∫sculos para garantir uniformidade. Por exemplo, "Ola" e "ola" s√£o tratados igualmente.
- **Remo√ß√£o de Pontua√ß√£o:** Eliminar marcas de pontua√ß√£o j√° que elas n√£o contribuem com o significado das palavras.
- **Remo√ß√£o de Stop Words:** Remo√ß√£o de palavras comuns como "e", "o", "√©", que n√£o carregam um significado.
- **Lematiza√ß√£o:** Convertendo palavras para a sua forma base. Por exemplo, "correndo" ir√° virar "correr".
- **Stemming:** Semelhante a lematiza√ß√£o, mas geralmente mais agressiva. Ela reduz as palavras para a sua forma ra√≠z, por exemplo "jogando" √© reduzido para "jog", que √© a raiz.

In [1]:
import pandas as pd
import numpy as np

df = pd.read_csv('../data/IMDB_Dataset.csv')
df.head()

Unnamed: 0,review,sentiment
0,One of the other reviewers has mentioned that ...,positive
1,A wonderful little production. <br /><br />The...,positive
2,I thought this was a wonderful way to spend ti...,positive
3,Basically there's a family where a little boy ...,negative
4,"Petter Mattei's ""Love in the Time of Money"" is...",positive


### Padronizando os caracteres para lowercase

In [2]:
df['review'][0].lower()

"one of the other reviewers has mentioned that after watching just 1 oz episode you'll be hooked. they are right, as this is exactly what happened with me.<br /><br />the first thing that struck me about oz was its brutality and unflinching scenes of violence, which set in right from the word go. trust me, this is not a show for the faint hearted or timid. this show pulls no punches with regards to drugs, sex or violence. its is hardcore, in the classic use of the word.<br /><br />it is called oz as that is the nickname given to the oswald maximum security state penitentary. it focuses mainly on emerald city, an experimental section of the prison where all the cells have glass fronts and face inwards, so privacy is not high on the agenda. em city is home to many..aryans, muslims, gangstas, latinos, christians, italians, irish and more....so scuffles, death stares, dodgy dealings and shady agreements are never far away.<br /><br />i would say the main appeal of the show is due to the fa

In [3]:
df['review']=df['review'].str.lower()
df.head()

Unnamed: 0,review,sentiment
0,one of the other reviewers has mentioned that ...,positive
1,a wonderful little production. <br /><br />the...,positive
2,i thought this was a wonderful way to spend ti...,positive
3,basically there's a family where a little boy ...,negative
4,"petter mattei's ""love in the time of money"" is...",positive


### Removendo Tags HTML utilizando express√µes regulares

In [4]:
import re
def remove_html_tags(text):
    pattern = re.compile('<.*?>')
    return pattern.sub('', text)

In [5]:
df['review']=df['review'].apply(remove_html_tags)
df.head()

Unnamed: 0,review,sentiment
0,one of the other reviewers has mentioned that ...,positive
1,a wonderful little production. the filming tec...,positive
2,i thought this was a wonderful way to spend ti...,positive
3,basically there's a family where a little boy ...,negative
4,"petter mattei's ""love in the time of money"" is...",positive


### Removendo URLs

In [6]:
def remove_url(text):
    pattern=re.compile(r'https?://\S+|www\.\S+')
    return pattern.sub(r'',text)

text='Checkout this webpage to learn more about deep learning https://www.deeplearning.ai/ai-notes/initialization/index.html'
remove_url(text)

'Checkout this webpage to learn more about deep learning '

### Removendo Pontua√ß√µes

In [7]:
import string,time
string.punctuation

'!"#$%&\'()*+,-./:;<=>?@[\\]^_`{|}~'

In [8]:
exclude=string.punctuation
def remove_punc(text):
    for char in exclude:
        text=text.replace(char,'')
    return text

def remove_punc1(text):
    return text.translate(str.maketrans('','',exclude))

text='okay, so. this, is/ just a, text, with. punc'
remove_punc(text)

'okay so this is just a text with punc'

### Tratamento de linguagem Gera√ß√£o Z
Para os modelos performarem melhor durante suas interpreta√ß√µes, precisamos que ele compreenda o significado por tr√°s das abrevia√ß√µes feitas na internet, infelizmente significando que temos que ensinar aos modelos um pouco da linguagem da gera√ß√£o Z do Twitter :,(.


In [9]:
chat_word = {
    'AFAIK': 'As Far As I Know',
    'AFK': 'Away From Keyboard',
    'ASAP': 'As Soon As Possible',
    'ATK': 'At The Keyboard',
    'ATM': 'At The Moment',
    'A3': 'Anytime, Anywhere, Anyplace',
    'BAK': 'Back At Keyboard',
    'BBL': 'Be Back Later',
    'BBS': 'Be Back Soon',
    'BFN': 'Bye For Now',
    'B4N': 'Bye For Now',
    'BRB': 'Be Right Back',
    'BRT': 'Be Right There',
    'BTW': 'By The Way',
    'B4': 'Before',
    'CU': 'See You',
    'CUL8R': 'See You Later',
    'CYA': 'See You',
    'FAQ': 'Frequently Asked Questions',
    'FC': 'Fingers Crossed',
    'FWIW': "For What It's Worth",
    'FYI': 'For Your Information',
    'GAL': 'Get A Life',
    'GG': 'Good Game',
    'GN': 'Good Night',
    'GMTA': 'Great Minds Think Alike',
    'GR8': 'Great!',
    'G9': 'Genius',
    'IC': 'I See',
    'ICQ': 'I Seek you (also a chat program)',
    'ILU': 'ILU: I Love You',
    'IMHO': 'In My Honest/Humble Opinion',
    'IMO': 'In My Opinion',
    'IOW': 'In Other Words',
    'IRL': 'In Real Life',
    'KISS': 'Keep It Simple, Stupid',
    'LDR': 'Long Distance Relationship',
    'LMAO': 'Laugh My A.. Off',
    'LOL': 'Laughing Out Loud',
    'LTNS': 'Long Time No See',
    'L8R': 'Later',
    'MTE': 'My Thoughts Exactly',
    'M8': 'Mate',
    'NRN': 'No Reply Necessary',
    'OIC': 'Oh I See',
    'PITA': 'Pain In The A..',
    'PRT': 'Party',
    'PRW': 'Parents Are Watching',
    'QPSA?': 'Que Pasa?',
    'ROFL': 'Rolling On The Floor Laughing',
    'ROFLOL': 'Rolling On The Floor Laughing Out Loud',
    'ROTFLMAO': 'Rolling On The Floor Laughing My A.. Off',
    'SK8': 'Skate',
    'STATS': 'Your sex and age',
    'ASL': 'Age, Sex, Location',
    'THX': 'Thank You',
    'TTFN': 'Ta-Ta For Now!',
    'TTYL': 'Talk To You Later',
    'U': 'You',
    'U2': 'You Too',
    'U4E': 'Yours For Ever',
    'WB': 'Welcome Back',
    'WTF': 'What The F...',
    'WTG': 'Way To Go!',
    'WUF': 'Where Are You From?',
    'W8': 'Wait...',
    '7K': 'Sick:-D Laugher',
    'TFW': 'That feeling when',
    'MFW': 'My face when',
    'MRW': 'My reaction when',
    'IFYP': 'I feel your pain',
    'TNTL': 'Trying not to laugh',
    'JK': 'Just kidding',
    'IDC': "I don't care",
    'ILY': 'I love you',
    'IMU': 'I miss you',
    'ADIH': 'Another day in hell',
    'ZZZ': 'Sleeping, bored, tired',
    'WYWH': 'Wish you were here',
    'TIME': 'Tears in my eyes',
    'BAE': 'Before anyone else',
    'FIMH': 'Forever in my heart',
    'BSAAW': 'Big smile and a wink',
    'BWL': 'Bursting with laughter',
    'BFF': 'Best friends forever',
    'CSL': "Can't stop laughing"
}

In [10]:
def short_conv(text):
    new_text = []
    for w in text.split():
        if w.upper() in chat_word:
            new_text.append(chat_word[w.upper()])
        else:
            new_text.append(w)
    return " ".join(new_text)


short_conv("ASAP let me know please")

'As Soon As Possible let me know please'

### Corre√ß√£o Ortogr√°fica

In [11]:
from textblob import TextBlob

text=" ceertainli I dont kniw what is wrrong herre"
textblb=TextBlob(text)
textblb.correct().string

' certainly I dont know what is wrong here'

### Remo√ß√£o de Stop Words
Stop words s√£o palavras comuns em uma linguagem que muitas vezes s√£o removidas porque carregam pouco peso sem√¢ntico e podem desordenar a an√°lise. Essas palavras incluem artigos (por exemplo, "a", "the"), conjun√ß√µes (por exemplo, "e", "ou"), preposi√ß√µes (por exemplo, "in", "on") e outros termos que ocorrem com freq√º√™ncia que n√£o contribuem significativamente para o significado de uma frase. Ao remover palavras de parada, o foco muda para palavras mais significativas que representam melhor o conte√∫do do texto, melhorando a efici√™ncia e a precis√£o da an√°lise de texto e dos modelos de aprendizado de m√°quina.

In [12]:
import nltk
from nltk.corpus import stopwords

nltk.download('stopwords')
stopwords.words("english")

[nltk_data] Downloading package stopwords to C:\Users\Thiago
[nltk_data]     Barros\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


['i',
 'me',
 'my',
 'myself',
 'we',
 'our',
 'ours',
 'ourselves',
 'you',
 "you're",
 "you've",
 "you'll",
 "you'd",
 'your',
 'yours',
 'yourself',
 'yourselves',
 'he',
 'him',
 'his',
 'himself',
 'she',
 "she's",
 'her',
 'hers',
 'herself',
 'it',
 "it's",
 'its',
 'itself',
 'they',
 'them',
 'their',
 'theirs',
 'themselves',
 'what',
 'which',
 'who',
 'whom',
 'this',
 'that',
 "that'll",
 'these',
 'those',
 'am',
 'is',
 'are',
 'was',
 'were',
 'be',
 'been',
 'being',
 'have',
 'has',
 'had',
 'having',
 'do',
 'does',
 'did',
 'doing',
 'a',
 'an',
 'the',
 'and',
 'but',
 'if',
 'or',
 'because',
 'as',
 'until',
 'while',
 'of',
 'at',
 'by',
 'for',
 'with',
 'about',
 'against',
 'between',
 'into',
 'through',
 'during',
 'before',
 'after',
 'above',
 'below',
 'to',
 'from',
 'up',
 'down',
 'in',
 'out',
 'on',
 'off',
 'over',
 'under',
 'again',
 'further',
 'then',
 'once',
 'here',
 'there',
 'when',
 'where',
 'why',
 'how',
 'all',
 'any',
 'both',
 'each

In [13]:
def remove_stopwords(text):
    new_text=[]
    for word in text.split():
        if word in stopwords.words('english'):
            new_text.append('')
        else:
            new_text.append(word)
            
    x=new_text[:]
    new_text.clear()
    return " ".join(x)

text="I wasn't sure that this might happened"
remove_stopwords(text)

'I  sure   might happened'

### Tratamento de Emojis
Aqui temos duas formas de tratar os emojis, sendo removendo-os completamente ou apenas substituindo eles pelo o seu valor sem√¢ntico.

In [14]:
# Removendo os emojis
import re
def remove_emoji(text):
    emoji_pattern=re.compile("["
                             u"\U0001F600-\U0001F64F" #emoticons
                             u"\U0001F300-\U0001F5FF" #symbols, pictograph
                              u"\U0001F680-\U0001F6FF" #transport and map symbol
                              u"\U0001F1E0-\U0001F1FF" # flags(IOS)
                              u"\U00002702-\U000027B0"
                              u"\U00002FC2-\U0001F251"
                             "]+",flags=re.UNICODE)
    return emoji_pattern.sub(r'',text)

text="that is not so funny please stop üò≠"
remove_emoji(text)

'that is not so funny please stop '

In [15]:
# Substituindo
import emoji
print(emoji.demojize(text))

that is not so funny please stop :loudly_crying_face:


### Tokeniza√ß√£o
A tokeniza√ß√£o √© o passo mais fundamental na NLP que envolve dividir o texto em unidades menores chamadas tokens, que podem ser palavras, frases ou frases. Esse processo ajuda a converter o texto bruto em um formato estruturado para an√°lise. Existem diferentes tipos de tokeniza√ß√£o, incluindo tokeniza√ß√£o de palavras (dividir texto em palavras individuais) e tokeniza√ß√£o de frases (dividir texto em frases). A tokeniza√ß√£o adequada considera a pontua√ß√£o, os espa√ßos e as regras espec√≠ficas do idioma para representar com precis√£o a estrutura e o significado do texto, permitindo um processamento de texto e extra√ß√£o de recursos mais eficazes nas tarefas de NLP.

Veremos quatro formas de fazer essa tokeniza√ß√£o: 
- Via Python split
- Utilizando express√µes regulares
- Usando a biblioteca NLTK
- Usando a biblioteca Spacy

In [16]:
# Usando a fun√ß√£o de split
sent1="I am going to delhi"
sent1.split()

['I', 'am', 'going', 'to', 'delhi']

In [17]:
# Usando a fun√ß√£o de split
sent1="I am, going to delhi"
sent1.split(',')

['I am', ' going to delhi']

In [18]:
# O problema que surge, ele n√£o consegue separar os '!!!!' 
sent1="I am, going to delhi!!!"
sent1.split(',')

['I am', ' going to delhi!!!']

In [19]:
# Utilizando express√µes regulares
import re
tokens=re.findall("[\w']+",sent1)
tokens

  tokens=re.findall("[\w']+",sent1)


['I', 'am', 'going', 'to', 'delhi']

In [20]:
# Utilizando a biblioteca NLTK
from nltk.tokenize import word_tokenize, sent_tokenize
nltk.download('punkt_tab')
word_tokenize(sent1)

[nltk_data] Downloading package punkt_tab to C:\Users\Thiago
[nltk_data]     Barros\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt_tab is already up-to-date!


['I', 'am', ',', 'going', 'to', 'delhi', '!', '!', '!']

In [21]:
sent2='I have a Ph.D in M.L'
sent3="We're here to help! mail us at xuz@gmail.com"

In [22]:
word_tokenize(sent2)

['I', 'have', 'a', 'Ph.D', 'in', 'M.L']

In [23]:
# falha nessa senten√ßa, pois separou o id do e-mail no b√°sico de @
word_tokenize(sent3)

['We',
 "'re",
 'here',
 'to',
 'help',
 '!',
 'mail',
 'us',
 'at',
 'xuz',
 '@',
 'gmail.com']

In [26]:
!python -m spacy download en_core_web_sm

Collecting en-core-web-sm==3.7.1
  Downloading https://github.com/explosion/spacy-models/releases/download/en_core_web_sm-3.7.1/en_core_web_sm-3.7.1-py3-none-any.whl (12.8 MB)
     ---------------------------------------- 0.0/12.8 MB ? eta -:--:--
     ----------- ---------------------------- 3.7/12.8 MB 27.3 MB/s eta 0:00:01
     ---------------------- ----------------- 7.3/12.8 MB 21.6 MB/s eta 0:00:01
     --------------------------------------  12.6/12.8 MB 23.9 MB/s eta 0:00:01
     --------------------------------------- 12.8/12.8 MB 23.0 MB/s eta 0:00:00
Installing collected packages: en-core-web-sm
Successfully installed en-core-web-sm-3.7.1
[38;5;2m‚úî Download and installation successful[0m
You can now load the package via spacy.load('en_core_web_sm')


In [27]:
# Utilizando o Spacy
import spacy

nlp=spacy.load('en_core_web_sm')

doc1=nlp(sent1)
doc2=nlp(sent2)
doc3=nlp(sent3)

for token in doc2:
    print(token)

I
have
a
Ph
.
D
in
M.L


### Stemming
Stemming reduz as palavras √† sua raiz ou forma de base, removendo sufixos. Ao contr√°rio da lematiza√ß√£o, que se baseia em regras lingu√≠sticas, o stemming usa m√©todos heur√≠sticos para remover afixos. Por exemplo, "running", "runner," e "ran" podem ser reduzidos a "run." Algoritmos comuns incluem o Porter Stemmer, que aplica uma s√©rie de regras a sufixos iterativos, e o Snowball Stemmer, que √© uma vers√£o melhorada do Porter Stemmer. Embora o stemming seja mais r√°pido e mais simples do que a lematiza√ß√£o, ele pode ser menos preciso, √†s vezes produzindo hastes que n√£o s√£o palavras reais.

In [28]:
from nltk.stem.porter import PorterStemmer

ps=PorterStemmer()
def stem_words(text):
    return " ".join([ps.stem(word) for word in text.split()])

sample="Walk walking walked walks"
stem_words(sample)

'walk walk walk walk'

In [29]:
sample2='Stemming is a text preprocessing technique in NLP that reduces words to their root or base form by removing suffixes. Unlike lemmatization, which relies on linguistic rules, stemming uses heuristic methods to strip affixes. For example, "running," "runner," and "ran" might all be reduced to "run." Common algorithms include the Porter Stemmer, which applies a series of rules to iteratively strip suffixes, and the Snowball Stemmer, which is an improved version of the Porter Stemmer. While stemming is faster and simpler than lemmatization, it can be less accurate, sometimes producing stems that are not actual words.'
stem_words(sample2)

'stem is a text preprocess techniqu in nlp that reduc word to their root or base form by remov suffixes. unlik lemmatization, which reli on linguist rules, stem use heurist method to strip affixes. for example, "running," "runner," and "ran" might all be reduc to "run." common algorithm includ the porter stemmer, which appli a seri of rule to iter strip suffixes, and the snowbal stemmer, which is an improv version of the porter stemmer. while stem is faster and simpler than lemmatization, it can be less accurate, sometim produc stem that are not actual words.'

### Lematiza√ß√£o

A lematiza√ß√£o reduz as palavras √† sua forma base ou raiz, conhecida como lema. Ao contr√°rio da deriva√ß√£o, que simplesmente corta as termina√ß√µes das palavras, a lematiza√ß√£o considera o contexto e a an√°lise morfol√≥gica das palavras, garantindo que as palavras sejam transformadas em formas base significativas. Por exemplo, "running" se torna "run" e "better" se torna "good". Esse processo ajuda a padronizar palavras, melhorando a precis√£o da an√°lise de texto ao agrupar diferentes formas flexionadas de uma palavra em um √∫nico item. A lematiza√ß√£o √© essencial para tarefas como classifica√ß√£o de texto, an√°lise de sentimento e recupera√ß√£o de informa√ß√µes, pois melhora a qualidade dos recursos extra√≠dos do texto

In [30]:
import spacy

nlp = spacy.load('en_core_web_sm')

sentence = "The children were playing in the park, running and laughing as they enjoyed their freedom, unaware of the time passing quickly by."
doc = nlp(sentence)

print("Original Word - Lemmatized Word")
for token in doc:
    print(f"{token.text} - {token.lemma_}")

Original Word - Lemmatized Word
The - the
children - child
were - be
playing - play
in - in
the - the
park - park
, - ,
running - run
and - and
laughing - laugh
as - as
they - they
enjoyed - enjoy
their - their
freedom - freedom
, - ,
unaware - unaware
of - of
the - the
time - time
passing - pass
quickly - quickly
by - by
. - .


### One hot Encoding
One Hot Encoding √© uma t√©cnica usada para converter dados categ√≥ricos em um formato num√©rico que pode ser usado por algoritmos de aprendizado de m√°quina. Este m√©todo transforma cada valor de categoria em uma nova coluna bin√°ria e atribui 1 ou 0 (Verdadeiro/Falso) para indicar a presen√ßa daquela categoria nos dados.

In [32]:
import pandas as pd
from sklearn.preprocessing import OneHotEncoder

data = {
    'ID': [1, 2, 3, 4, 5],
    'Color': ['Red', 'Green', 'Blue', 'Green', 'Blue']
}

df = pd.DataFrame(data)

encoder = OneHotEncoder()
encoded_data = encoder.fit_transform(df[['Color']])
encoded_df = pd.DataFrame(encoded_data.toarray(), columns=encoder.get_feature_names_out(['Color']))
final_df = pd.concat([df, encoded_df], axis=1)

print("Original DataFrame:")
print(df)
print("\nOne-Hot Encoded DataFrame:")
print(final_df)

Original DataFrame:
   ID  Color
0   1    Red
1   2  Green
2   3   Blue
3   4  Green
4   5   Blue

One-Hot Encoded DataFrame:
   ID  Color  Color_Blue  Color_Green  Color_Red
0   1    Red         0.0          0.0        1.0
1   2  Green         0.0          1.0        0.0
2   3   Blue         1.0          0.0        0.0
3   4  Green         0.0          1.0        0.0
4   5   Blue         1.0          0.0        0.0


### Bag of Words
A intui√ß√£o central por tr√°s do modelo Bag of Words (BoW) √© que se nosso algoritmo detectar palavras semelhantes ocorrendo com frequ√™ncias semelhantes, ele classificar√° os documentos como estando na mesma classe. Aqui, a ordem das palavras e o contexto n√£o importam; o que importa √© a presen√ßa e a frequ√™ncia das palavras.

No BoW, cada palavra √© representada como uma coordenada em um espa√ßo n-dimensional. Se definirmos o par√¢metro bin√°rio como True, qualquer palavra que apare√ßa mais de uma vez ainda ser√° tratada como se aparecesse apenas uma vez. Consequentemente, as coordenadas ser√£o bin√°rias, preenchidas apenas com 0s e 1s.

#### Filtrando palavras raras
Para remover palavras raras, voc√™ pode usar o par√¢metro max_features, que limita o vocabul√°rio √†s palavras mais frequentes. Por exemplo, definir max_features=1/2 ignora todas as palavras com frequ√™ncias menores que esse limite.

#### Vantagens do Bag of Words
Simplicidade e Intuitividade: F√°cil de implementar e entender.
Mitiga√ß√£o de Problemas de Fora do Vocabul√°rio (OOV): Como o modelo usa um vocabul√°rio fixo, ele evita o problema de OOV que afeta a codifica√ß√£o one-hot.

#### Desvantagens do Bag of Words

- **Esparsidade:** Com um vocabul√°rio grande, a representa√ß√£o ter√° muitos 0s, potencialmente levando a overfitting.
Perda de Informa√ß√£o: Ignora a ordem das palavras e o contexto, levando √† perda de significado sem√¢ntico.
Exemplo: "Este √© um filme muito bom" e "Este n√£o √© um filme muito bom" podem ser representados de forma semelhante, o que pode causar problemas com similaridade de cosseno.

#### Similaridade de cosseno
A similaridade de cosseno mede o cosseno do √¢ngulo entre dois vetores, fornecendo uma m√©trica para sua similaridade. A f√≥rmula √©:

#TODO: colocar a f√≥rmula aqui.

Usando similaridade de cosseno, "Este √© um filme muito bom" e "Este n√£o √© um filme muito bom" podem parecer semelhantes devido ao √¢ngulo pr√≥ximo entre suas representa√ß√µes vetoriais no modelo BoW.

Ao usar o BoW, voc√™ pode converter dados de texto em recursos num√©ricos para algoritmos de aprendizado de m√°quina de forma r√°pida e eficiente. No entanto, esteja ciente de suas limita√ß√µes e considere t√©cnicas mais avan√ßadas como TF-IDF, incorpora√ß√µes de palavras ou modelos de linguagem para capturar informa√ß√µes textuais mais matizadas.


In [33]:
import pandas as pd
from sklearn.feature_extraction.text import CountVectorizer

# Definindo o dataset
data = {
    'Index': ['D1', 'D2', 'D3', 'D4'],
    'Text': [
        'People Follow Mr.Beast',
        'Mr.Beast Follow Mr.Beast',
        'People Write comment',
        'Mr.Beast Write comment'
    ],
    'Output': [1, 1, 0, 0]
}

# Criando um dataframe
df = pd.DataFrame(data)
df

Unnamed: 0,Index,Text,Output
0,D1,People Follow Mr.Beast,1
1,D2,Mr.Beast Follow Mr.Beast,1
2,D3,People Write comment,0
3,D4,Mr.Beast Write comment,0


In [34]:
vectorizer = CountVectorizer()
X = vectorizer.fit_transform(df['Text'])

vocab = vectorizer.get_feature_names_out()
print(vocab)

['beast' 'comment' 'follow' 'mr' 'people' 'write']


In [35]:
print(vectorizer.vocabulary_)

{'people': 4, 'follow': 2, 'mr': 3, 'beast': 0, 'write': 5, 'comment': 1}


In [39]:
bow_df = pd.DataFrame(X.toarray(), columns=vocab)

final_df = pd.concat([df[['Index', 'Output']], bow_df], axis=1)

print("DataFrame Original:")
print(df)
print("\nBag of Words DataFrame com os par√¢metros bin√°rios como False:")
print(final_df)

DataFrame Original:
  Index                      Text  Output
0    D1    People Follow Mr.Beast       1
1    D2  Mr.Beast Follow Mr.Beast       1
2    D3      People Write comment       0
3    D4    Mr.Beast Write comment       0

Bag of Words DataFrame com os par√¢metros bin√°rios como False:
  Index  Output  beast  comment  follow  mr  people  write
0    D1       1      1        0       1   1       1      0
1    D2       1      1        0       1   1       0      0
2    D3       0      0        1       0   0       1      1
3    D4       0      1        1       0   1       0      1


In [38]:
vectorizer = CountVectorizer(binary=True)
X = vectorizer.fit_transform(df['Text'])

vocab = vectorizer.get_feature_names_out()

bow_df = pd.DataFrame(X.toarray(), columns=vocab)

final_df = pd.concat([df[['Index', 'Output']], bow_df], axis=1)

print("Dataframe original:")
print(df)
print("\nBag of Words Dataframe com os par√¢metros bin√°rios como True:")
print(final_df)

Dataframe original:
  Index                      Text  Output
0    D1    People Follow Mr.Beast       1
1    D2  Mr.Beast Follow Mr.Beast       1
2    D3      People Write comment       0
3    D4    Mr.Beast Write comment       0

Bag of Words Dataframe com os par√¢metros bin√°rios como True:
  Index  Output  beast  comment  follow  mr  people  write
0    D1       1      1        0       1   1       1      0
1    D2       1      1        0       1   1       0      0
2    D3       0      0        1       0   0       1      1
3    D4       0      1        1       0   1       0      1


# Para fazer
## Testar mais m√©todos de pr√©-processamento:
- N-Grams
- TD-IDF
- WordNet
- Word2Vec
- RoPE (Robust Positional Embeddings)

## Automatizar a escolha e an√°lise do modelo
- AutoSKlearn
- TPOT
- SMAC (sequential model-based algorithm configuration)

## Pegar os melhores modelos e fazer a escolha dos hiperpar√¢metros
- Utilizar m√©todos de GridSearch e XGBoost

## Salvar o melhor modelo dentro de um padr√£o de versionamento
- Salvar o modelo compilado para que seja utilizado em uma API