<a href="https://colab.research.google.com/github/AngelMasterr/Machine-Learning-with-Python/blob/main/NPL.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [4]:
import nltk
nltk.download('wordnet')

[nltk_data] Downloading package wordnet to /root/nltk_data...


True

# **Tokenización**
La tokenización es el proceso de dividir un texto en unidades más pequeñas, llamadas tokens, que pueden ser palabras, subpalabras o caracteres. Estos tokens luego pueden analizarse o procesarse individualmente.

In [24]:
import nltk
nltk.download('punkt')
from nltk.tokenize import word_tokenize
text = "El perro corre felizmente por el parque todas las mañanas"
tokens = word_tokenize(text)
print(tokens)

['El', 'perro', 'corre', 'felizmente', 'por', 'el', 'parque', 'todas', 'las', 'mañanas']


[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


In [8]:
import nltk

nltk.download('punkt')
from nltk.tokenize import word_tokenize

texts = [
    "El perro corre felizmente por el parque todas las mañanas.",
    "Ayer estudié para el examen de matemáticas durante tres horas.",
    "La lluvia cesó justo a tiempo para que pudiéramos salir de casa.",
    "Ellos prefieren leer libros antes de dormir cada noche.",
    "María compró un ramo de flores para decorar la sala de estar."
]

tokens = [word_tokenize(text) for text in texts]

for token_list in tokens:
    print(token_list)

['El', 'perro', 'corre', 'felizmente', 'por', 'el', 'parque', 'todas', 'las', 'mañanas', '.']
['Ayer', 'estudié', 'para', 'el', 'examen', 'de', 'matemáticas', 'durante', 'tres', 'horas', '.']
['La', 'lluvia', 'cesó', 'justo', 'a', 'tiempo', 'para', 'que', 'pudiéramos', 'salir', 'de', 'casa', '.']
['Ellos', 'prefieren', 'leer', 'libros', 'antes', 'de', 'dormir', 'cada', 'noche', '.']
['María', 'compró', 'un', 'ramo', 'de', 'flores', 'para', 'decorar', 'la', 'sala', 'de', 'estar', '.']


[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


# **Lematización y stemming**
Stemming reduce las palabras a su raíz o base, eliminando afijos como "-ing", "-es", etc.

Lematización convierte las palabras a su forma base o lema basándose en el contexto, produciendo formas gramaticales correctas.

In [11]:
from nltk.stem import PorterStemmer
ps = PorterStemmer()
words = ["running", "flies", "easily"]
stems = [ps.stem(word) for word in words]
print(stems)

['run', 'fli', 'easili']


In [10]:
from nltk.stem import WordNetLemmatizer
lemmatizer = WordNetLemmatizer()
words = ["caminando", "flies", "easily"]
lemmas = [lemmatizer.lemmatize(word, pos='v') for word in words]  # v para verbos
print(lemmas)

['caminando', 'fly', 'easily']


In [23]:
import nltk
nltk.download('wordnet')
from nltk.stem import WordNetLemmatizer

lemmatizer = WordNetLemmatizer()

verbs = ['running', 'playing', 'singing', 'dancing', 'walking',
         'goes', 'does', 'watches', 'fixes', 'studies',
         'eating', 'writing', 'reading', 'speaking', 'coding']

lemmas = [lemmatizer.lemmatize(verb, pos='v') for verb in verbs]  # 'v' para verbo

for verb, lemma in zip(verbs, lemmas):
    print(f'{verb} -> {lemma}')

running -> run
playing -> play
singing -> sing
dancing -> dance
walking -> walk
goes -> go
does -> do
watches -> watch
fixes -> fix
studies -> study
eating -> eat
writing -> write
reading -> read
speaking -> speak
coding -> cod


[nltk_data] Downloading package wordnet to /root/nltk_data...
[nltk_data]   Package wordnet is already up-to-date!


# **Bag of Words (BoW)**
Es una representación simple de texto que ignora la gramática y el orden de las palabras. En BoW, el texto se representa como un conjunto de palabras únicas (vocabulario) con su frecuencia.

In [12]:
from sklearn.feature_extraction.text import CountVectorizer
corpus = ["El perro corre felizmente por el parque todas las mañanas", "This document is the second document"]
vectorizer = CountVectorizer()
X = vectorizer.fit_transform(corpus)
print(vectorizer.get_feature_names_out())
print(X.toarray())

['corre' 'document' 'el' 'felizmente' 'is' 'las' 'mañanas' 'parque'
 'perro' 'por' 'second' 'the' 'this' 'todas']
[[1 0 2 1 0 1 1 1 1 1 0 0 0 1]
 [0 2 0 0 1 0 0 0 0 0 1 1 1 0]]


In [15]:
import nltk

nltk.download('punkt')
from nltk.tokenize import word_tokenize
from sklearn.feature_extraction.text import CountVectorizer

texts = [
    "El perro corre felizmente por el parque todas las mañanas.",
    "Ayer estudié para el examen de matemáticas durante tres horas.",
    "La lluvia cesó justo a tiempo para que pudiéramos salir de casa.",
    "Ellos prefieren leer libros antes de dormir cada noche.",
    "María compró un ramo de flores para decorar la sala de estar."
]
# 1. Crear un objeto CountVectorizer
vectorizer = CountVectorizer()
# 2. Ajustar el vectorizador a los textos para crear el vocabulario
vectorizer.fit(texts)
# 3. Transformar los textos en vectores BoW
bow_vectors = vectorizer.transform(texts)
# 4. Imprimir los vectores BoW
print(bow_vectors.toarray())

# Imprimir el vocabulario, es esencialmente un diccionario donde:
# Las claves son las palabras únicas encontradas en tus textos (las oraciones que proporcionaste).
# Los valores son los índices numéricos asignados a cada palabra.
print(vectorizer.vocabulary_)

# Imprimir una lista ordenada de todas las palabras únicas que CountVectorizer ha identificado en tus textos.
print(vectorizer.get_feature_names_out())

[[0 0 0 0 0 0 1 0 0 0 0 2 0 0 0 0 1 0 0 0 0 1 0 0 0 0 0 1 0 0 1 1 1 0 0 0
  0 0 0 0 1 0 0]
 [0 1 0 0 0 0 0 1 0 0 1 1 0 0 1 1 0 0 1 0 0 0 0 0 0 0 1 0 0 1 0 0 0 0 0 0
  0 0 0 0 0 1 0]
 [0 0 0 1 1 0 0 1 0 0 0 0 0 0 0 0 0 0 0 1 1 0 0 0 1 0 0 0 0 1 0 0 0 0 1 1
  0 0 1 1 0 0 0]
 [1 0 1 0 0 0 0 1 0 1 0 0 1 0 0 0 0 0 0 0 0 0 1 1 0 0 0 0 1 0 0 0 0 1 0 0
  0 0 0 0 0 0 0]
 [0 0 0 0 0 1 0 2 1 0 0 0 0 1 0 0 0 1 0 0 1 0 0 0 0 1 0 0 0 1 0 0 0 0 0 0
  1 1 0 0 0 0 1]]
{'el': 11, 'perro': 31, 'corre': 6, 'felizmente': 16, 'por': 32, 'parque': 30, 'todas': 40, 'las': 21, 'mañanas': 27, 'ayer': 1, 'estudié': 14, 'para': 29, 'examen': 15, 'de': 7, 'matemáticas': 26, 'durante': 10, 'tres': 41, 'horas': 18, 'la': 20, 'lluvia': 24, 'cesó': 4, 'justo': 19, 'tiempo': 39, 'que': 35, 'pudiéramos': 34, 'salir': 38, 'casa': 3, 'ellos': 12, 'prefieren': 33, 'leer': 22, 'libros': 23, 'antes': 0, 'dormir': 9, 'cada': 2, 'noche': 28, 'maría': 25, 'compró': 5, 'un': 42, 'ramo': 36, 'flores': 17, 'decorar': 8, 'sala': 37

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


# **TF-IDF (Term Frequency-Inverse Document Frequency)**
TF-IDF es una medida de relevancia que toma en cuenta cuántas veces aparece una palabra en un documento (frecuencia de término) y en cuántos documentos está presente (frecuencia inversa de documento).

In [None]:
from sklearn.feature_extraction.text import TfidfVectorizer
corpus = ["This is a sample document", "This document is the second document"]
vectorizer = TfidfVectorizer()
X = vectorizer.fit_transform(corpus)
print(vectorizer.get_feature_names_out())
print(X.toarray())

['document' 'is' 'sample' 'second' 'the' 'this']
[[0.44832087 0.44832087 0.63009934 0.         0.         0.44832087]
 [0.63402146 0.31701073 0.         0.44554752 0.44554752 0.31701073]]


# **Modelos de lenguaje: Word2Vec y GloVe**
Estos modelos generan representaciones vectoriales para palabras que capturan su significado semántico en función de su contexto.

Word2Vec: Genera representaciones vectoriales de palabras usando técnicas como skip-gram o CBOW (continuous bag of words).

GloVe: Es un modelo basado en matrices de co-ocurrencia, que busca capturar relaciones semánticas a través de las palabras.



In [17]:
from gensim.models import Word2Vec
sentences = [["cat", "say", "meow"], ["dog", "say", "woof"]]
model = Word2Vec(sentences, vector_size=10, window=5, min_count=1, workers=4)
vector = model.wv['dog']  # Vector para la palabra 'cat'
print(vector)

[ 0.07311766  0.05070262  0.06757693  0.00762866  0.06350891 -0.03405366
 -0.00946401  0.05768573 -0.07521638 -0.03936104]


In [19]:
import nltk
nltk.download('punkt')
from nltk.tokenize import word_tokenize
from gensim.models import Word2Vec

texts = [
    "El perro corre felizmente por el parque todas las mañanas.",
    "Ayer estudié para el examen de matemáticas durante tres horas.",
    "La lluvia cesó justo a tiempo para que pudiéramos salir de casa.",
    "Ellos prefieren leer libros antes de dormir cada noche.",
    "María compró un ramo de flores para decorar la sala de estar."
]

# 1. Tokenizar las oraciones
tokenized_texts = [word_tokenize(text) for text in texts]
print(tokenized_texts)

# 2. Entrenar el modelo Word2Vec
sentences = tokenized_texts
model = Word2Vec(sentences, vector_size=100, window=5, min_count=1, workers=4)

# 3. Calcular el vector para cada oración (promedio de vectores de palabras)
def get_sentence_vector(sentence, model):
    """Calcula el vector de una oración promediando los vectores de sus palabras."""
    vectors = [model.wv[word] for word in sentence if word in model.wv]
    if vectors:
        return sum(vectors) / len(vectors)
    else:
        return [0] * model.vector_size  # Vector de ceros si no hay palabras en el vocabulario

sentence_vectors = [get_sentence_vector(sentence, model) for sentence in tokenized_texts]

# 4. Imprimir los vectores de las oraciones
for vector in sentence_vectors:
    print(vector)

[['El', 'perro', 'corre', 'felizmente', 'por', 'el', 'parque', 'todas', 'las', 'mañanas', '.'], ['Ayer', 'estudié', 'para', 'el', 'examen', 'de', 'matemáticas', 'durante', 'tres', 'horas', '.'], ['La', 'lluvia', 'cesó', 'justo', 'a', 'tiempo', 'para', 'que', 'pudiéramos', 'salir', 'de', 'casa', '.'], ['Ellos', 'prefieren', 'leer', 'libros', 'antes', 'de', 'dormir', 'cada', 'noche', '.'], ['María', 'compró', 'un', 'ramo', 'de', 'flores', 'para', 'decorar', 'la', 'sala', 'de', 'estar', '.']]
[ 7.2593760e-04  2.5326270e-03  8.6171250e-04  2.7890371e-03
  1.0422554e-03 -5.2812113e-04  1.1073545e-03  3.8252121e-03
  1.7368911e-05 -1.1975683e-03  1.1085335e-03 -2.6561604e-03
  1.7511704e-03  1.5600476e-03  1.0129297e-04 -1.5142235e-03
  2.1837926e-03 -1.0145071e-03 -3.2407136e-04 -1.5356560e-03
  2.2687227e-03  1.0350860e-03 -1.5248937e-03  4.1752926e-04
 -2.0816368e-03  3.0446326e-04 -1.0792757e-03 -8.1170409e-04
  1.7346171e-04 -1.7376229e-03  2.1847050e-05 -3.3287874e-03
 -2.2461155e-04 -

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


In [22]:
import nltk
nltk.download('punkt')
from nltk.tokenize import word_tokenize
from gensim.models import Word2Vec

texts = [
    "El perro corre felizmente por el parque todas las mañanas.",
    "Ayer estudié para el examen de matemáticas durante tres horas.",
    "La lluvia cesó justo a tiempo para que pudiéramos salir de casa.",
    "Ellos prefieren leer libros antes de dormir cada noche.",
    "María compró un ramo de flores para decorar la sala de estar."
]

# 1. Tokenizar las oraciones
tokenized_texts = [word_tokenize(text) for text in texts]
print(tokenized_texts)

# 2. Entrenar el modelo Word2Vec
sentences = tokenized_texts
model = Word2Vec(sentences, vector_size=100, window=5, min_count=1, workers=4)

# 3. Calcular el vector para cada oración (promedio de vectores de palabras)
def get_sentence_vector(sentence, model):
    """Calcula el vector de una oración promediando los vectores de sus palabras."""
    vectors = [model.wv[word] for word in sentence if word in model.wv]
    if vectors:
        return sum(vectors) / len(vectors)
    else:
        return [0] * model.vector_size  # Vector de ceros si no hay palabras en el vocabulario

sentence_vectors = [get_sentence_vector(sentence, model) for sentence in sentences]

# 4. Imprimir los vectores de las oraciones
for vector in sentence_vectors:
    print(vector)

[['El', 'perro', 'corre', 'felizmente', 'por', 'el', 'parque', 'todas', 'las', 'mañanas', '.'], ['Ayer', 'estudié', 'para', 'el', 'examen', 'de', 'matemáticas', 'durante', 'tres', 'horas', '.'], ['La', 'lluvia', 'cesó', 'justo', 'a', 'tiempo', 'para', 'que', 'pudiéramos', 'salir', 'de', 'casa', '.'], ['Ellos', 'prefieren', 'leer', 'libros', 'antes', 'de', 'dormir', 'cada', 'noche', '.'], ['María', 'compró', 'un', 'ramo', 'de', 'flores', 'para', 'decorar', 'la', 'sala', 'de', 'estar', '.']]
[['El', 'perro', 'corre', 'felizmente', 'por', 'el', 'parque', 'todas', 'las', 'mañanas', '.'], ['Ayer', 'estudié', 'para', 'el', 'examen', 'de', 'matemáticas', 'durante', 'tres', 'horas', '.'], ['La', 'lluvia', 'cesó', 'justo', 'a', 'tiempo', 'para', 'que', 'pudiéramos', 'salir', 'de', 'casa', '.'], ['Ellos', 'prefieren', 'leer', 'libros', 'antes', 'de', 'dormir', 'cada', 'noche', '.'], ['María', 'compró', 'un', 'ramo', 'de', 'flores', 'para', 'decorar', 'la', 'sala', 'de', 'estar', '.']]
[ 7.259376

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


# **Clasificación de textos con Naive Bayes**
Naive Bayes es un algoritmo común para la clasificación de texto. Se basa en la teoría de probabilidad de Bayes y es muy eficiente para la clasificación de correos electrónicos (spam vs no spam), análisis de sentimientos, etc.

In [None]:
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.naive_bayes import MultinomialNB
import numpy as np

corpus = ['I love this movie', 'This is a terrible movie' , 'This is a good movie']
labels = [1, 0, 1]  # 1: positivo, 0: negativo
vectorizer = CountVectorizer()


In [None]:
X = vectorizer.fit_transform(corpus)
model = MultinomialNB()
model.fit(X, labels)

test = ['This movie is amazing']
test_vector = vectorizer.transform(test)

prediction = model.predict(test_vector)

print(vectorizer.get_feature_names_out())

print(prediction)

px = np.dot(X.toarray(), test_vector.toarray().T).reshape(-1)
print(np.argmax(px))

['good' 'is' 'love' 'movie' 'terrible' 'this']
[1]
1


# **RNN y LSTM para procesamiento secuencial**
Las Redes Neuronales Recurrentes (RNN) y los modelos LSTM (Long Short-Term Memory) son útiles para procesar secuencias de texto, ya que pueden capturar dependencias a largo plazo en los datos.

In [None]:
pip install tensorflow



In [None]:
import os

os.environ["KERAS_BACKEND"] = "tensorflow"

import keras

sentences = ["I love NLP", "NLP is amazing"]

from keras.preprocessing.text import Tokenizer
from keras.preprocessing.sequence import pad_sequences
from keras.models import Sequential
from keras.layers import Embedding, LSTM, Dense

sentences = ["I love NLP", "NLP is amazing"]
tokenizer = Tokenizer()
tokenizer.fit_on_texts(sentences)
sequences = tokenizer.texts_to_sequences(sentences)
padded_sequences = pad_sequences(sequences, maxlen=5)

model = Sequential()
model.add(Embedding(input_dim=1000, output_dim=64))
model.add(LSTM(64))
model.add(Dense(1, activation='sigmoid'))

model.compile(optimizer='adam', loss='binary_crossentropy')
model.summary()

ModuleNotFoundError: No module named 'tf'