<a href="https://colab.research.google.com/github/AngelMasterr/Machine-Learning-with-Python/blob/main/NPL.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
import nltk
nltk.download('wordnet')

[nltk_data] Downloading package wordnet to /root/nltk_data...


True

# **Tokenización**
La tokenización es el proceso de dividir un texto en unidades más pequeñas, llamadas tokens, que pueden ser palabras, subpalabras o caracteres. Estos tokens luego pueden analizarse o procesarse individualmente.

In [None]:
import nltk
nltk.download('punkt')
from nltk.tokenize import word_tokenize
text = "El perro corre felizmente por el parque todas las mañanas"
tokens = word_tokenize(text)
print(tokens)

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.


['El', 'perro', 'corre', 'felizmente', 'por', 'el', 'parque', 'todas', 'las', 'mañanas']


# **Lematización y stemming**
Stemming reduce las palabras a su raíz o base, eliminando afijos como "-ing", "-es", etc.

Lematización convierte las palabras a su forma base o lema basándose en el contexto, produciendo formas gramaticales correctas.

In [1]:
from nltk.stem import PorterStemmer
ps = PorterStemmer()
words = ["running", "flies", "easily"]
stems = [ps.stem(word) for word in words]
print(stems)

['run', 'fli', 'easili']


In [None]:
from nltk.stem import WordNetLemmatizer
lemmatizer = WordNetLemmatizer()
words = ["caminando", "flies", "easily"]
lemmas = [lemmatizer.lemmatize(word, pos='v') for word in words]  # v para verbos
print(lemmas)

LookupError: 
**********************************************************************
  Resource [93mwordnet[0m not found.
  Please use the NLTK Downloader to obtain the resource:

  [31m>>> import nltk
  >>> nltk.download('wordnet')
  [0m
  For more information see: https://www.nltk.org/data.html

  Attempted to load [93mcorpora/wordnet[0m

  Searched in:
    - '/root/nltk_data'
    - '/usr/nltk_data'
    - '/usr/share/nltk_data'
    - '/usr/lib/nltk_data'
    - '/usr/share/nltk_data'
    - '/usr/local/share/nltk_data'
    - '/usr/lib/nltk_data'
    - '/usr/local/lib/nltk_data'
**********************************************************************


# **Bag of Words (BoW)**
Es una representación simple de texto que ignora la gramática y el orden de las palabras. En BoW, el texto se representa como un conjunto de palabras únicas (vocabulario) con su frecuencia.

In [None]:
from sklearn.feature_extraction.text import CountVectorizer
corpus = ["El perro corre felizmente por el parque todas las mañanas", "This document is the second document"]
vectorizer = CountVectorizer()
X = vectorizer.fit_transform(corpus)
print(vectorizer.get_feature_names_out())
print(X.toarray())

['corre' 'document' 'el' 'felizmente' 'is' 'las' 'mañanas' 'parque'
 'perro' 'por' 'second' 'the' 'this' 'todas']
[[1 0 2 1 0 1 1 1 1 1 0 0 0 1]
 [0 2 0 0 1 0 0 0 0 0 1 1 1 0]]


# **TF-IDF (Term Frequency-Inverse Document Frequency)**
TF-IDF es una medida de relevancia que toma en cuenta cuántas veces aparece una palabra en un documento (frecuencia de término) y en cuántos documentos está presente (frecuencia inversa de documento).

In [None]:
from sklearn.feature_extraction.text import TfidfVectorizer
corpus = ["This is a sample document", "This document is the second document"]
vectorizer = TfidfVectorizer()
X = vectorizer.fit_transform(corpus)
print(vectorizer.get_feature_names_out())
print(X.toarray())

['document' 'is' 'sample' 'second' 'the' 'this']
[[0.44832087 0.44832087 0.63009934 0.         0.         0.44832087]
 [0.63402146 0.31701073 0.         0.44554752 0.44554752 0.31701073]]


# **Modelos de lenguaje: Word2Vec y GloVe**
Estos modelos generan representaciones vectoriales para palabras que capturan su significado semántico en función de su contexto.

Word2Vec: Genera representaciones vectoriales de palabras usando técnicas como skip-gram o CBOW (continuous bag of words).

GloVe: Es un modelo basado en matrices de co-ocurrencia, que busca capturar relaciones semánticas a través de las palabras.



In [None]:
from gensim.models import Word2Vec
sentences = [["cat", "say", "meow"], ["dog", "say", "woof"]]
model = Word2Vec(sentences, vector_size=10, window=5, min_count=1, workers=4)
vector = model.wv['dog']  # Vector para la palabra 'cat'
print(vector)

[ 0.07311766  0.05070262  0.06757693  0.00762866  0.06350891 -0.03405366
 -0.00946401  0.05768573 -0.07521638 -0.03936104]


# **Clasificación de textos con Naive Bayes**
Naive Bayes es un algoritmo común para la clasificación de texto. Se basa en la teoría de probabilidad de Bayes y es muy eficiente para la clasificación de correos electrónicos (spam vs no spam), análisis de sentimientos, etc.

In [None]:
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.naive_bayes import MultinomialNB
import numpy as np

corpus = ['I love this movie', 'This is a terrible movie' , 'This is a good movie']
labels = [1, 0, 1]  # 1: positivo, 0: negativo
vectorizer = CountVectorizer()


In [None]:
X = vectorizer.fit_transform(corpus)
model = MultinomialNB()
model.fit(X, labels)

test = ['This movie is amazing']
test_vector = vectorizer.transform(test)

prediction = model.predict(test_vector)

print(vectorizer.get_feature_names_out())

print(prediction)

px = np.dot(X.toarray(), test_vector.toarray().T).reshape(-1)
print(np.argmax(px))

['good' 'is' 'love' 'movie' 'terrible' 'this']
[1]
1


# **RNN y LSTM para procesamiento secuencial**
Las Redes Neuronales Recurrentes (RNN) y los modelos LSTM (Long Short-Term Memory) son útiles para procesar secuencias de texto, ya que pueden capturar dependencias a largo plazo en los datos.

In [None]:
pip install tensorflow



In [None]:
import os

os.environ["KERAS_BACKEND"] = "tensorflow"

import keras

sentences = ["I love NLP", "NLP is amazing"]

from keras.preprocessing.text import Tokenizer
from keras.preprocessing.sequence import pad_sequences
from keras.models import Sequential
from keras.layers import Embedding, LSTM, Dense

sentences = ["I love NLP", "NLP is amazing"]
tokenizer = Tokenizer()
tokenizer.fit_on_texts(sentences)
sequences = tokenizer.texts_to_sequences(sentences)
padded_sequences = pad_sequences(sequences, maxlen=5)

model = Sequential()
model.add(Embedding(input_dim=1000, output_dim=64))
model.add(LSTM(64))
model.add(Dense(1, activation='sigmoid'))

model.compile(optimizer='adam', loss='binary_crossentropy')
model.summary()

ModuleNotFoundError: No module named 'tf'