=> **Embedding**: Embedding é uma técnica usada em aprendizado de máquina e processamento de linguagem natural (NLP) para representar dados, como palavras ou imagens, em um formato matemático que pode ser entendido por algoritmos.Eles transformam elementos de dados (como palavras ou imagens) em vetores numéricos dentro de um espaço dimensional, permitindo que máquinas processem informações de maneira eficiente.

Temos que vetorizar numericamente os textos. Diferentes formas de preencher valores:  
=> **One-Hot** : apenas considera se o documento tem ou nao o token.  
=> **TF**: Apenas considera a frequencia do token  
=> **TF-IDF**: Frequencia do token ponderada em relacao aos documentos .   Quantas vezes o token aparece no documento dividido por quantas vezes o token aparece em todos os documentos juntos.


=> **Teorema de Bayes**: O Teorema de Bayes é um método para atualizar probabilidades com base em novas informações. Ele responde perguntas do tipo: Dado que um evento ocorreu, qual é a chance de outra coisa ter acontecido antes?  
P(A|B) = P(A)*P(B|A)/P(B)

In [None]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.naive_bayes import MultinomialNB
from sklearn.metrics import accuracy_score, classification_report
df = pd.read_csv('movie-pang02.csv')

X=df["text"]
y=df["class"]

X_train, X_test, y_train, y_test = train_test_split(X,y, test_size=0.2, random_state=42)

#one_hot vector
vectorizer= CountVectorizer(
    stop_words="english", #Remove palavras comuns da língua inglesa (como "the", "is", "and")
    min_df=20, #Filtrando as palavras que ocorreram menos de 20 vezes em todos documentos , tipo um filtro de OUTLIER
    token_pattern=r"(?u)\b[a-z]{2,}\b", #Captura palavras com pelo menos 2 letras minúsculas
    binary=True #Apenas indica se uma palavra está presente ou não no documento.
)

X_train_vec = vectorizer.fit_transform(X_train)
X_test_vec = vectorizer.transform(X_test)  

model = MultinomialNB(alpha=1. )
model.fit(X_train_vec, y_train)

y_pred = model.predict(X_test_vec)
accuracy= accuracy_score(y_test, y_pred)

print(f"Accuracy {accuracy}")

print(classification_report(y_test, y_pred))


Accuracy 0.815
              precision    recall  f1-score   support

         Neg       0.80      0.85      0.82       201
         Pos       0.83      0.78      0.81       199

    accuracy                           0.81       400
   macro avg       0.82      0.81      0.81       400
weighted avg       0.82      0.81      0.81       400

