## Trabalho de IA

Este trabalho tem como objetivo mostrar como funciona o processamento de linguagem natural com a classificação de palavras e frases.

In [None]:
import pandas as pd
from sklearn.feature_extraction.text import TfidfTransformer
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.naive_bayes import MultinomialNB
from sklearn.pipeline import Pipeline

f1 = "Meu deus, essas mulheres deveriam estar na cozinha lavando a louça"
f2 = "Você nem precisa reclamar, é mulher, está certo que você ganhe menos"
f3 = "Essa mulher é incrível, tem uma capacidade de raciocínio muito rápido"
f4 = "quando pensei que iam contratar uma mulher, logo fiquei feliz"
f5 = "sou criado à moda antiga, mulher tem que cuidar do marido"

lista_palavras = [f1, f2, f3, f4, f5]
classification = ["Ruim", "Ruim", "Bom", "Bom", "Ruim"]

- **CountVectorizer** é amplamente utilizado em Processamento de Linguagem Natural (NLP), tanto no processo de construção de modelos quanto para a análise de texto via n-grams (também chamados de Q-grams ou shingles). Nós teremos como objetivo o modelo [Bag of Words](https://en.wikipedia.org/wiki/Bag-of-words_model)

In [None]:
contagem_total = CountVectorizer()

In [None]:
contagem_total.fit(lista_palavras)
print("Vocabulario: ", contagem_total.vocabulary_)


###### `Vamos verificar o nosso modelo, devemos ter 5 linhas (5 documentos) e 43 colunas (43 palavras únicas):`

In [None]:
X_train_counts = contagem_total.fit_transform(lista_palavras)
X_train_counts.shape
#print(X_train_counts.toarray())

- #### Verificar a Frequencia do documento inversa (FDI)

O número de vezes que um termo ocorre em um documento é chamado de *frequência do termo*
[tf-idf](https://en.wikipedia.org/wiki/Tf%E2%80%93idf)

In [None]:
tfidf_transformer = TfidfTransformer()
X_train_tfidf = tfidf_transformer.fit_transform(X_train_counts)

# print idf values
df_idf = pd.DataFrame(tfidf_transformer.idf_, index=contagem_total.get_feature_names_out(), columns=["idf_Peso"])
df_idf.sort_values(by=['idf_Peso'])


- #### Criando um modelo de classificação Multinomial Naive Bayes

*O modelo Multinomial Naive Bayes pode ser usado para classificação em quaisquer dados com recursos discretos, como nossas contagens de palavras do processo de vetorização de contagem. Normalmente, contagens inteiras, como as do vetorizador de contagem, são necessárias para obter bons resultados, mas o modelo pode funcionar bem com contagens fracionárias de outras técnicas de pré-processamento de texto, como TF-IDF (Term Frequency Inverse Document Frequency).*

In [None]:

clf = MultinomialNB().fit(X_train_tfidf, classification)

O objetivo do pipeline é reunir várias etapas que podem ser validadas de forma cruzada enquanto definem diferentes parâmetros.

In [None]:
text_clf = Pipeline([('vect', CountVectorizer()),('tfidf', TfidfTransformer()), ('clf', MultinomialNB())])
text_clf = text_clf.fit(lista_palavras, classification)

In [None]:
resultado = text_clf.predict(['Meu deus, você precisa ficar em casa e cuidar do seu marido'])
print(resultado)

In [None]:
resultado = text_clf.predict(['Contrataram uma mulher para o cargo'])
print(resultado)