<a href="https://colab.research.google.com/github/GuilhermeBenicio/fatec_PLN_Codes/blob/main/Aula8_MLparaPLN/%5BPLN%5DAula_8.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Aula 08 - Introdução a Machine Learning para PLN
**Objetivo da aula:**
*  Introduzir os fundamentos de aprendizado de máquina aplicados ao PLN, focando na classificação de texto e regressão, utilizando algoritmos como Naive Bayes e SVM.

## Exemplo 01 - Aplicação do modelo de Naives em um texto

In [None]:
# Passo 1 - Criar o Corpus

corpus = [
    ("Eu amo PLN","positivo"),
    ("Eu odeio bugs","negativo"),
    ("Amo resolver problemas","positivo"),
    ("Odeio erros","negativo"),
    ("Bugs legais","positivo"),
    ("Resolver","positivo"),
    ("Eu não","negativo")
]

# Passo 2 Pre-Processar o Texto
import re
from collections import defaultdict, Counter

def preprocess_text(text):
  return re.findall(r'\b\w+\b',text.lower())

processed_corpus = [(preprocess_text(text), label) for text, label in corpus]
print(processed_corpus)

# Passo 3 - Calculando probabilidades
  # Implementa um modelo baseado em probabilidades.
class_counts = Counter()  # Conta o número de exemplos em cada classe.
word_counts = defaultdict(Counter)  # Conta a frequência de cada palavra em cada classe existente.
total_words = defaultdict(int)  # Mantém o total de palavras existentes em cada classe.

for words, label in processed_corpus:
  class_counts[label] += 1 # Incrementa a contagem de exemplos para a classe atual.
  for word in words:
    word_counts[label][word] += 1 # Incrementa a contagem das palavras na classe correspondente.
    total_words[label] # Incrementa o total de palavras na classe correspondente.

# Calcula a probabilidade a priori (probabilidade de cada classe independente do texto)
  # Fórmula: P(classe) = (número de exemplos na classe) / (total de exemplos)
total_examples = sum(class_counts.values())
prior_probabilities = {cls: count / total_examples for cls, count in class_counts.items()}
# Define uma função para calcular a probabilidade condicional de uma palavra dada a classe
def conditional_probability(word, label, alpha=1):
  return (word_counts[label][word] + alpha) / (total_words[label] + alpha * len(word_counts[label]))

# Passo 4 - Classificar um novo Texto
  # implementa a classificação de um texto com base em probabilidades.
# Define uma função para prever a classe de um novo texto.
def predict(text):
    words = preprocess_text(text)  # Pré-processa o texto de entrada.
    probabilities = {}  # Dicionário para armazenar as probabilidades de cada classe.

    # Para cada classe, calcula a probabilidade do texto pertencer a ela.
  	for label in class_counts.keys():
    	probabilities[label] = prior_probabilities[label]
    	for word in words:
      	probabilities[label] *= conditional_probability(word, label)
  	return max(probabilities, key=probabilities.get), probabilities



### Passo 5 realizar o teste com novo texto
* Comando:
  * print(f'Texto: "{novo_texto}"') - imprime o valor do novo texto informado na linha 2 da celula abaixo

In [None]:
# Passo 5 - Teste com um novo texto
  # Testa a função de predição com um novo exemplo.
novo_texto = "Eu amo resolver bugs"
classe, probs = predict(novo_texto)

# Printa os resultados.
print(f'Texto: "{novo_texto}"')
print(f'Classe prevista: `{classe}')
print(f'Probabilidades:')
for label, prob in probs.items():
  print(f" {label}: {prob}")

## Exemplo 2 - Classificação do SVM (Support Vector Machines)

In [None]:
!pip install scikit-learn



In [None]:
# Passo 1 Importação das bibliotecas a serem utilizadas
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.svm import SVC
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report

# Passo 2 Dados Exemplo
corpus = [
    "Eu amo PLN", "Eu odeio bugs", "Eu amo resolver problemas",
    "Odeio erros","Amo programação","Não gosto de falhas"
]
classes = ["positivo","negativo","positivo","negativo","positivo","negativo"]

# Passo 3: Pré-processamento e vetorização
vectorizer = TfidfVectorizer()  # Cria uma instância do vetorizador TF-IDF
X = vectorizer.fit_transform(corpus)  # Ajusta o vetorizador ao corpus e transforma os textos em vetores numéricos
y = classes  # Define os rótulos das classes correspondentes

# Passo 4 Dividir os dados e Treinar o modelo
  # Divide os dados em dois conjuntos: treino (70%) e teste (30%).
  # random_state garante que a divisão seja reproduzível.
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# Cria um modelo SVM com um kernel linear
svm_model = SVC(kernel='linear')
svm_model.fit(X_train, y_train) # Treina o modelo SVM usando os dados de treino

# Passo 5 Avaliar o modelo
  # Faz previsões usando os dados de teste
y_pred = svm_model.predict(X_test)

# Gera e imprime um relatório de classificação com métricas como F1-score, precisão e recall.
print(classification_report(y_test, y_pred))

              precision    recall  f1-score   support

    negativo       1.00      1.00      1.00         1
    positivo       1.00      1.00      1.00         1

    accuracy                           1.00         2
   macro avg       1.00      1.00      1.00         2
weighted avg       1.00      1.00      1.00         2



## Exemplo 3 - Comparando os Classificadores com Scikit-learn

In [None]:
# 1. Importar Bibliotecas
import nltk
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.model_selection import train_test_split
from sklearn.naive_bayes import MultinomialNB
from sklearn.svm import SVC
from sklearn.metrics import classification_report

# Baixar o dataset de exemplo
nltk.download('movie_reviews')
from nltk.corpus import movie_reviews

# 2. Preparação dos dados

# Coleta de textos e classes
	# Gera uma lista de tuplas com os textos e suas classes (positivo ou negativo)
documents = [(" ".join(movie_reviews.words(fileid)), category)
    		 for category in movie_reviews.categories()
    		 for fileid in movie_reviews.fileids(category)]

# Separar textos e rótulos
	# Separa os textos e as classes em duas listas diferentes
texts, labels = zip(*documents)

# Transformar rótulos (positivo/negativo) em 0 e 1

from sklearn.preprocessing import LabelEncoder  # Codificador para transformar rótulos categóricos em números
label_encoder = LabelEncoder()
labels = label_encoder.fit_transform(labels)  # Transforma os rótulos de texto para valores numéricos

# Dividir dados em treino e teste
	# Divide os textos e rótulos sendo 30% dos dados serão usados para teste
texts_train, texts_test, labels_train, labels_test = train_test_split(
    texts, labels, test_size=0.3, random_state=42)

# 3. Representação do texto com TF-IDF

# Criar o vetorizador TF-IDF
vectorizer = TfidfVectorizer(max_features=5000)  # Limita a vetorização às 5.000 palavras mais frequentes

# Ajustar e transformar os textos
X_train = vectorizer.fit_transform(texts_train)  # Ajusta o vetorizador ao conjunto de treino e transforma os textos em vetores numéricos
X_test = vectorizer.transform(texts_test)  # Transforma os textos de teste com base no vetorizador ajustado

# 4. Treinar os modelos

# Treinamento do Naive Bayes
	# Cria o modelo de Naive Bayes Multinomial
nb_model = MultinomialNB()
nb_model.fit(X_train, labels_train)

# Treinamento do SVM
	# Cria o modelo SVM com um kernel linear
svm_model = SVC(kernel='linear')
svm_model.fit(X_train, labels_train)

# Predição
	# Faz previsões com os conjuntos de testes
nb_predictions = nb_model.predict(X_test)
svm_predictions = svm_model.predict(X_test)

# 5. Avaliação

# Avaliação do Naive Bayes
	# Métricas de desempenho como precisão, recall e F1-score, do modelo Naive Bayes
print("Naive Bayes Performance:")
print(classification_report(labels_test, nb_predictions, target_names=label_encoder.classes_))

# Avaliação do SVM
	# Métricas de desempenho como precisão, recall e F1-score, do modelo Naive Bayes
print("SVM Performance:")
print(classification_report(labels_test, svm_predictions, target_names=label_encoder.classes_))

[nltk_data] Downloading package movie_reviews to /root/nltk_data...
[nltk_data]   Unzipping corpora/movie_reviews.zip.


Naive Bayes Performance:
              precision    recall  f1-score   support

         neg       0.79      0.84      0.81       302
         pos       0.82      0.77      0.80       298

    accuracy                           0.80       600
   macro avg       0.80      0.80      0.80       600
weighted avg       0.80      0.80      0.80       600

SVM Performance:
              precision    recall  f1-score   support

         neg       0.82      0.80      0.81       302
         pos       0.81      0.82      0.81       298

    accuracy                           0.81       600
   macro avg       0.81      0.81      0.81       600
weighted avg       0.81      0.81      0.81       600

