# Actividad


---
Por: Ángela Daniela Córdoba Álvarez


---




Introducción a Natural Language Toolkit (NLTK).

In [None]:
# Instalar NLTK
!pip install nltk



In [None]:
# Descarga recursos adicionales
import nltk
nltk.download

#### Tokenización

Dividir una oración en palabras individuales.

In [None]:
from nltk.tokenize import word_tokenize
nltk.download('punkt')

sentence = "NLTK es una biblioteca de procesamiento de lenguaje natural."
tokens = word_tokenize(sentence)
print(tokens)

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.


['NLTK', 'es', 'una', 'biblioteca', 'de', 'procesamiento', 'de', 'lenguaje', 'natural', '.']


#### Derivación

Proceso de reducir una palabra a su forma base o raíz. Es útil para normalizar el texto y simplificar el análisis.

In [None]:
from nltk.stem import PorterStemmer

words = ["running", "plays", "jumped"]
stemmer = PorterStemmer()
stems = [stemmer.stem(word) for word in words]
print(stems)

['run', 'play', 'jump']


#### Etiquetado


Etiquetar cada palabra en una oración con su función gramatical o categoría semántica.

In [None]:
nltk.download('averaged_perceptron_tagger')
from nltk import pos_tag
from nltk.tokenize import word_tokenize

sentence = "NLTK es una biblioteca de procesamiento de lenguaje natural."
tokens = word_tokenize(sentence)
tagged_words = pos_tag(tokens)
print(tagged_words)

[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     /root/nltk_data...
[nltk_data]   Unzipping taggers/averaged_perceptron_tagger.zip.


[('NLTK', 'NNP'), ('es', 'CC'), ('una', 'JJ'), ('biblioteca', 'NN'), ('de', 'IN'), ('procesamiento', 'FW'), ('de', 'FW'), ('lenguaje', 'FW'), ('natural', 'JJ'), ('.', '.')]


#### Clasificación de texto

In [None]:
# Importar bibliotecas
import nltk # Biblioteca que proporciona herramientas para procesamiento de lenguaje natural
import random # Generar muestras aleatorias

In [None]:
# Definición del conjunto de datos etiquetados
# Data es una lista de tuplas
data = [("I love this movie", "positive"),
        ("This movie is terrible", "negative"),
        ("This movie is great", "positive"),
        ("I dislike this movie", "negative"),
        ("This film is amazing", "positive"),
        ("I can't stand watching this movie", "negative"),
        ("The acting in this movie is phenomenal", "positive"),
        ("The performances by the actors were lackluster", "negative")
        ]

In [None]:
# Preprocesamiento de datos
# Tokenización y extracción de características
def preprocess(text):
  tokens = nltk.word_tokenize(text)
  return {word: True for word in tokens}

In [None]:
# Aplicación del preprocesamiento a los datos
featuresets = [(preprocess(text), label) for (text, label) in data]

In [None]:
# División de datos
train_set, test_set = featuresets[:16], featuresets[16:]

In [None]:
# Entrenamiento del clasificador
classifier = nltk.NaiveBayesClassifier.train(train_set)

In [None]:
# Evaluación del clasificador
accuracy = nltk.classify.accuracy(classifier, test_set)
print("Accuracy:", accuracy)

Accuracy: 0


In [None]:
from operator import ne
# Clasificación de un nuevo texto
new_text = "This movie is amazing"
new_text_features = preprocess(new_text)
predicted_label = classifier.classify(new_text_features)
print("Prediction label:", predicted_label)

Prediction label: positive


### Preguntas

1. ¿Qué tarea realiza el código proporcionado?
> Clasificar el texto proporcionados en frases 'positivas' o 'negativas'.

2. ¿Cuál es el propósito del preprocesamiento de datos en este contexto?
> Extraer información importante.

3. ¿Qué función de NLTK se utiliza para tokenizar el texto?
> 'word_tokenize'

4. ¿Cuál es el propósito de dividir los datos en conjuntos de entrenamiento y prueba?
> Separar los datos para poder entrenar de forma efectiva el modelo del algoritmo. Así se puede conocer la precisión del modelo utilizado y qué tan efectivo es.

5. ¿Qué algoritmo de clasificación se utiliza en este código?
> Naive Bayes.

6. ¿Cómo se evalúa la precisión del clasificador?
> Usando la métrica 'accuracy'.

7. ¿Qué se entiende por "Accuracy" en el contexto de la evaluación del clasificador?
> Precisión o exactitud.

8. ¿Cuál es el resultado de la clasificación del nuevo texto "This movie is amazing"?
> Positive.