<img src="https://user-images.githubusercontent.com/14845203/190489800-59a8b8c6-353f-4537-bb7e-0c0a63ef1109.png" alt="JuveYell" width="250px">

### Facultad de Ingeniería Mecánica y Eléctrica
### Procesamiento de Lenguaje Natural
### Carrillo Zepeda Oswaldo
### Braulio Yahir Gaitan Vargas
### 6°D


Funciones de la librería de procesamiento de lenguaje natural de Python, NLTK.
Todas las funciones que no llegamos a usar en el proyecto, pero que son interesantes de mencionar.


### Funcion nltk.classify
La función `nltk.classify.accuracy` calcula la precisión de un clasificador. Recibe dos argumentos, el clasificador y el conjunto de datos de prueba. Devuelve la precisión del clasificador en el conjunto de datos de prueba.

```python

In [5]:
import nltk
from nltk.corpus import movie_reviews
from nltk.tokenize import word_tokenize
from nltk.classify import NaiveBayesClassifier
from nltk.classify.util import accuracy


# Obtén las palabras más frecuentes y sus categorías (positivo/negativo)
documents = [(list(movie_reviews.words(fileid)), category)
             for category in movie_reviews.categories()
             for fileid in movie_reviews.fileids(category)]

# Mezcla los documentos para que no estén ordenados por categoría
import random
random.shuffle(documents)

# Extrae las palabras de todos los documentos
all_words = nltk.FreqDist(w.lower() for w in movie_reviews.words())

# Selecciona las 2000 palabras más frecuentes como características
word_features = list(all_words)[:2000]

# Define una función para extraer características de un documento
def document_features(document):
    document_words = set(document)
    features = {}
    for word in word_features:
        features['contains({})'.format(word)] = (word in document_words)
    return features

# Extrae características y crea conjuntos de entrenamiento y prueba
featuresets = [(document_features(d), c) for (d,c) in documents]
train_set, test_set = featuresets[100:], featuresets[:100]

# Entrena un clasificador de Naive Bayes
classifier = NaiveBayesClassifier.train(train_set)

# Evalúa la precisión del clasificador
print("Precisión del clasificador:", accuracy(classifier, test_set))

# Prueba el clasificador con nuevas críticas
new_review = "This movie was excellent. I loved every moment of it."
new_review_features = document_features(word_tokenize(new_review))
print("Clasificación de la nueva crítica:", classifier.classify(new_review_features))


[nltk_data] Downloading package movie_reviews to
[nltk_data]     C:\Users\pabli\AppData\Roaming\nltk_data...
[nltk_data]   Package movie_reviews is already up-to-date!


Precisión del clasificador: 0.75
Clasificación de la nueva crítica: neg


nltk corpus es una funcion para obtener un corpus de nltk 

In [6]:
import nltk
from nltk.chunk import RegexpParser

# Define a chunk grammar, a set of rules to find chunks in text
grammar = "NP: {<DT>?<JJ>*<NN>}"

# Create a chunk parser with the grammar
cp = RegexpParser(grammar)

# Parse a sentence into chunks
sentence = [("the", "DT"), ("big", "JJ"), ("dog", "NN")]
print(cp.parse(sentence))

(S (NP the/DT big/JJ dog/NN))


nltk.grammar proporciona clases y funciones para trabajar con gramáticas formales. Estas gramáticas pueden ser de diferentes tipos, como gramáticas de contexto libre (CFG), gramáticas de dependencias, entre otras.

In [7]:
import nltk
from nltk import CFG

# Define a context-free grammar
grammar = CFG.fromstring("""
    S -> NP VP
    PP -> P NP
    NP -> 'the' N | N PP | 'the' N PP
    VP -> V NP | V PP | V NP PP
    N -> 'cat' | 'dog' | 'rug'
    V -> 'chased' | 'sat'
    P -> 'on' | 'in'
""")

# Create a parser with the grammar
parser = nltk.ChartParser(grammar)

# Parse a sentence
sentence = "the cat chased the dog".split()
for tree in parser.parse(sentence):
    print(tree)

(S (NP the (N cat)) (VP (V chased) (NP the (N dog))))


nltk metrics proporciona funciones para calcular métricas de evaluación de clasificadores y otros modelos de aprendizaje automático.

In [8]:
from nltk.metrics import precision, recall, f_measure
from nltk.metrics.scores import accuracy
from nltk import ConfusionMatrix

# True labels and predicted labels
true_labels = ['spam', 'ham', 'spam', 'spam', 'ham', 'ham']
predicted_labels = ['spam', 'spam', 'spam', 'ham', 'ham', 'spam']

# Create a confusion matrix
cm = ConfusionMatrix(true_labels, predicted_labels)

# Calculate precision, recall, and F-measure for 'spam'
print("Precision:", precision(set(true_labels), set(predicted_labels)))
print("Recall:", recall(set(true_labels), set(predicted_labels)))
print("F-measure:", f_measure(set(true_labels), set(predicted_labels)))

# Calculate accuracy
print("Accuracy:", accuracy(true_labels, predicted_labels))

# Print confusion matrix
print("Confusion matrix:\n", cm)

Precision: 1.0
Recall: 1.0
F-measure: 1.0
Accuracy: 0.5
Confusion matrix:
      |   s |
     | h p |
     | a a |
     | m m |
-----+-----+
 ham |<1>2 |
spam | 1<2>|
-----+-----+
(row = reference; col = test)



nltk.misc.wordfinder: Ofrece una función para buscar palabras que coincidan con un patrón dado dentro de un archivo de texto. Es útil para buscar palabras específicas o patrones de palabras en grandes cantidades de texto.

In [None]:
from nltk.corpus import words
from nltk.misc import wordfinder

# Get a list of all English words
word_list = words.words()

# Find all words that start with 'a' and end with 'm'
pattern = 'a*m'
matching_words = wordfinder.words(word_list, pattern)

# Print the matching words
for word in matching_words:
    print(word)

RecursiveDescentParser proceso de analizar la estructura sintáctica de una oración o un conjunto de palabras de acuerdo con una gramática específica

In [None]:
import nltk
from nltk import CFG
from nltk.parse import RecursiveDescentParser

# Define a context-free grammar
grammar = CFG.fromstring("""
    S -> NP VP
    NP -> Det N | Det N PP
    VP -> V NP | VP PP
    PP -> P NP
    Det -> 'a' | 'the'
    N -> 'dog' | 'cat'
    V -> 'chased' | 'sat'
    P -> 'on' | 'in'
""")

# Create a parser with the grammar
rd_parser = RecursiveDescentParser(grammar)

# Parse a sentence
sentence = "the dog chased a cat".split()
for tree in rd_parser.parse(sentence):
    print(tree)