<a href="https://colab.research.google.com/github/WCamaioni/Fatec_PLN_Codes/blob/main/Aula_8%5BPLN%5D.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Aula 08 - Introdução a Machine Learning para PLN
**Objetivo da aula:**
*  Introduzir os fundamentos de aprendizado de máquina aplicados ao PLN, focando na classificação de texto e regressão, utilizando algoritmos como Naive Bayes e SVM.

## Exemplo 01 - Aplicação do modelo de Naives em um texto

In [1]:
# Passo 1 - Criar o Corpus

corpus = [
    ("Eu amo PLN","positivo"),
    ("Eu odeio bugs","negativo"),
    ("Amo resolver problemas","positivo"),
    ("Odeio erros","negativo"),
    ("Bugs legais","positivo"),
    ("Resolver","positivo"),
    ("Eu não","negativo")
]

# Passo 2 Pre-Processar o Texto
import re
from collections import defaultdict, Counter

def preprocess_text(text):
  return re.findall(r'\b\w+\b',text.lower())

processed_corpus = [(preprocess_text(text), label) for text, label in corpus]
print(processed_corpus)



[(['eu', 'amo', 'pln'], 'positivo'), (['eu', 'odeio', 'bugs'], 'negativo'), (['amo', 'resolver', 'problemas'], 'positivo'), (['odeio', 'erros'], 'negativo'), (['bugs', 'legais'], 'positivo'), (['resolver'], 'positivo'), (['eu', 'não'], 'negativo')]


# Passo 3 - Calculando probabilidades

1.	class_counts = Counter()

  Cria um contador para armazenar a frequência de cada classe no corpus processado.

2.	word_counts = defaultdict(Counter)

  Cria um dicionário onde cada chave é uma classe, e o valor associado é outro Counter que conta a frequência de cada palavra nessa classe.

3.	total_words = defaultdict(int)

	Cria um dicionário onde cada chave é uma classe, e o valor é o total de palavras associadas a essa classe.

4.	for words, label in processed_corpus:

	Interação pelo corpus processado, que contém listas de palavras (representando os textos) e seus respectivos rótulos (classes).

5.	class_counts[label] += 1

	Incrementa a contagem da classe label em class_counts.

6.	for word in words:

  Interação pelas palavras de um texto específico.

7.	word_counts[label][word] += 1

  Incrementa a contagem da palavra word para a classe label.

8.	total_words[label]

  Acumula a quantidade total de palavras por classe.

9.	total_examples = sum(class_counts.values())

  Calcula o número total de exemplos (textos) no corpus.

10.	prior_probabilities = {cls: count / total_examples for cls, count in class_counts.items()}

  Calcula as probabilidades a prioridade para cada classe, que é a frequência relativa de cada classe no corpus.

11.	def conditional_probability(word, label, alpha=1):

  Define uma função para calcular a probabilidade condicional de uma palavra dada uma classe, usando suavização de Laplace (alpha=1 por padrão).

12. return (word_counts[label][word] + alpha) / (total_words[label] + alpha * len(word_counts[label]))

  Esta linha retorna e implementa a probabilidade condicional de uma palavra dada uma classe, com suavização de Laplace.


In [2]:
# Passo 3 - Calculando probabilidades
  # este passo precisa estar explicado
class_counts = Counter() # Contagem das classes
word_counts = defaultdict(Counter)
total_words = defaultdict(int)

for words, label in processed_corpus:
  class_counts[label] += 1
  for word in words:
    word_counts[label][word] += 1
    total_words[label]

total_examples = sum(class_counts.values())
prior_probabilities = {cls: count / total_examples for cls, count in class_counts.items()}
def conditional_probability(word, label, alpha=1):
  return (word_counts[label][word] + alpha) / (total_words[label] + alpha * len(word_counts[label]))


# Passo 4 - Classificar um novo Texto
1.	def predict(text):

	Define uma função que recebe um texto e retorna a classe prevista e as probabilidades associadas.

2.	words = preprocess_text(text)

	Pré-processa o texto de entrada para transformá-lo em uma lista de palavras (similar ao que foi feito no corpus processado).

3.	probabilities = {}

	Inicializa um dicionário vazio para armazenar as probabilidades calculadas para cada classe.

4.	for label in class_counts.keys():

	Interação por todas as classes presentes no corpus.

5.	probabilities[label] = prior_probabilities[label]

	Inicializa a probabilidade da classe com sua probabilidade e a prioridade.

6.	for word in words:

	Interação pelas palavras do texto pré-processado.

7.	probabilities[label] *= conditional_probability(word, label)

	Multiplica a probabilidade acumulada da classe pela probabilidade condicional de cada palavra no texto dado a classe.

8.	return max(probabilities, key=probabilities.get), probabilities

	Retorna a classe com maior probabilidade (usando max) e o dicionário completo de probabilidades.


In [None]:
# Passo 4 - Classificar um novo Texto
  # este passo precisa estar explicado
def predict(text):
  words = preprocess_text(text)
  probabilities = {}

  for label in class_counts.keys():
    probabilities[label] = prior_probabilities[label]
    for word in words:
      probabilities[label] *= conditional_probability(word, label)
  return max(probabilities, key=probabilities.get), probabilities



### Passo 5 realizar o teste com novo texto
* Comando:
  * print(f'Texto: "{novo_texto}"') - imprime o valor do novo texto informado na linha 2 da celula abaixo

In [None]:
# Passo 5 - Teste com um novo texto
novo_texto = "Eu amo resolver bugs"
classe, probs = predict(novo_texto)

print(f'Texto: "{novo_texto}"')
print(f'Classe prevista: `{classe}')
print(f'Probabilidades:')
for label, prob in probs.items():
  print(f" {label}: {prob}")

## Exemplo 2 - Classificação do SVM (Support Vector Machines)

In [None]:
!pip install scikit-learn



In [None]:
# Passo 1 Importação das bibliotecas a serem utilizadas
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.svm import SVC
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report

# Passo 2 Dados Exemplo
corpus = [
    "Eu amo PLN", "Eu odeio bugs", "Eu amo resolver problemas",
    "Odeio erros","Amo programação","Não gosto de falhas"
]
classes = ["positivo","negativo","positivo","negativo","positivo","negativo"]

# Passo 3 Pre processamento e vetorização
vectorizer = TfidfVectorizer()
X = vectorizer.fit_transform(corpus)
y = classes

# Passo 4 Dividir os dados e Treinar o modelo
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

svm_model = SVC(kernel='linear')
svm_model.fit(X_train, y_train)

# Passo 5 Avaliar o modelo
y_pred = svm_model.predict(X_test)
print(classification_report(y_test, y_pred))

#              precision    recall  f1-score   support

#     negativo       1.00      0.50      0.67         2
#     positivo       0.00      0.00      0.00         0

#     accuracy                           0.50         2
#    macro avg       0.50      0.25      0.33         2
# weighted avg       1.00      0.50      0.67         2

              precision    recall  f1-score   support

    negativo       1.00      1.00      1.00         1
    positivo       1.00      1.00      1.00         1

    accuracy                           1.00         2
   macro avg       1.00      1.00      1.00         2
weighted avg       1.00      1.00      1.00         2



## Exemplo 3 - Comparando os Classificadores com Scikit-learn

In [None]:
# 1.Importar Bibliotecas
import nltk
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.model_selection import train_test_split
from sklearn.naive_bayes import MultinomialNB
from sklearn.svm import SVC
from sklearn.metrics import classification_report

  # Baixar o dataset de exemplo
nltk.download('movie_reviews')
from nltk.corpus import movie_reviews

# 2. Preparação dos dados

  # Coleta de textos e classes
documents = [(" ".join(movie_reviews.words(fileid)), category)
             for category in movie_reviews.categories()
             for fileid in movie_reviews.fileids(category)]

  # Separar textos e rótulos
texts, labels = zip(*documents)

  # Transformar rótulos (positivo/negativo) em 0 e 1
from sklearn.preprocessing import LabelEncoder
label_encoder = LabelEncoder()
labels = label_encoder.fit_transform(labels)

  # Dividir dados em treino e teste
texts_train, texts_test, labels_train, labels_test = train_test_split(texts, labels, test_size=0.3, random_state=42)

# 3. Representação do texto com TF-IDF
  # Criar o vetorizador TF-IDF
vectorizer = TfidfVectorizer(max_features=5000)  # Limitar a 5.000 palavras mais comuns

  # Ajustar e transformar os textos
X_train = vectorizer.fit_transform(texts_train)
X_test = vectorizer.transform(texts_test)

# 4. Treinar os modelos

  # Treinamento do Naive Bayes
nb_model = MultinomialNB()
nb_model.fit(X_train, labels_train)

  # Predição
nb_predictions = nb_model.predict(X_test)

  # Treinamento do SVM
svm_model = SVC(kernel='linear')
svm_model.fit(X_train, labels_train)

  # Predição
svm_predictions = svm_model.predict(X_test)

# 5. Avaliação

  # Avaliação do Naive Bayes
print("Naive Bayes Performance:")
print(classification_report(labels_test, nb_predictions, target_names=label_encoder.classes_))

  # Avaliação do SVM
print("SVM Performance:")
print(classification_report(labels_test, svm_predictions, target_names=label_encoder.classes_))

[nltk_data] Downloading package movie_reviews to /root/nltk_data...
[nltk_data]   Unzipping corpora/movie_reviews.zip.


Naive Bayes Performance:
              precision    recall  f1-score   support

         neg       0.79      0.84      0.81       302
         pos       0.82      0.77      0.80       298

    accuracy                           0.80       600
   macro avg       0.80      0.80      0.80       600
weighted avg       0.80      0.80      0.80       600

SVM Performance:
              precision    recall  f1-score   support

         neg       0.82      0.80      0.81       302
         pos       0.81      0.82      0.81       298

    accuracy                           0.81       600
   macro avg       0.81      0.81      0.81       600
weighted avg       0.81      0.81      0.81       600

