# PLN: Fundamento de procesamiento de Lenguaje Natural

## Importar librerías

In [10]:
import re
import nltk
import pandas as pd
from sklearn.feature_extraction.text import CountVectorizer

nltk.download('punkt')
nltk.download('stopwords')
nltk.download('wordnet')
nltk.download("punkt_tab")  

from nltk.corpus import stopwords
from nltk.stem import PorterStemmer, WordNetLemmatizer, SnowballStemmer

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\gabod\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\gabod\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package wordnet to
[nltk_data]     C:\Users\gabod\AppData\Roaming\nltk_data...
[nltk_data]   Package wordnet is already up-to-date!
[nltk_data] Downloading package punkt_tab to
[nltk_data]     C:\Users\gabod\AppData\Roaming\nltk_data...
[nltk_data]   Unzipping tokenizers\punkt_tab.zip.


## Texto de ejemplo

In [7]:
corpus = [
    "El gato duerme en la cama",
    "Los perros juegan en el parque",
    "El perro no duerme en la cama, duerme en la sillón 2"
]

print("Corpus original:")
for i, doc in enumerate(corpus):
    print(f"{i+1}: {doc}")

Corpus original:
1: El gato duerme en la cama
2: Los perros juegan en el parque
3: El perro no duerme en la cama, duerme en la sillón 2


## Normalización

In [8]:
def normalize(text):
    text = text.lower() #todo a minúsculas
    text = re.sub(r"[^a-záéíóúüñ ]", "", text) # eliminar signos de puntuación
    text = re.sub(r"/d+", "", text) # eliminar números
    return text

normalized_corpus = [normalize(doc) for doc in corpus]
print("\nCorpus normalizado:")
print(normalized_corpus)


Corpus normalizado:
['el gato duerme en la cama', 'los perros juegan en el parque', 'el perro no duerme en la cama duerme en la sillón ']


## Tokenización

In [11]:
tokens =  [nltk.word_tokenize(doc, language="spanish") for doc in normalized_corpus]
print("\nTokens:")
for i, tks in enumerate(tokens, 1):
    print(f"{i+1}: {tks}")


Tokens:
2: ['el', 'gato', 'duerme', 'en', 'la', 'cama']
3: ['los', 'perros', 'juegan', 'en', 'el', 'parque']
4: ['el', 'perro', 'no', 'duerme', 'en', 'la', 'cama', 'duerme', 'en', 'la', 'sillón']


## Eliminación de Stopwords

In [12]:
stop_words = set(stopwords.words('spanish'))
tokens_no_stopwords = [[word for word in doc if word not in stop_words] for doc in tokens]

print("\nTokens sin stopwords:")
for i, tks in enumerate(tokens_no_stopwords, 1):
    print(f"{i+1}: {tks}")


Tokens sin stopwords:
2: ['gato', 'duerme', 'cama']
3: ['perros', 'juegan', 'parque']
4: ['perro', 'duerme', 'cama', 'duerme', 'sillón']


## Stemming (Porter y Snowball)(Español)

In [13]:
porter = PorterStemmer()
snowball = SnowballStemmer("spanish")

print("Stemming Porter:")
for tks in tokens_no_stopwords:
    print([porter.stem(word) for word in tks])

print("Stemming Snowball:")
for tks in tokens_no_stopwords:
    print([snowball.stem(word) for word in tks])

Stemming Porter:
['gato', 'duerm', 'cama']
['perro', 'juegan', 'parqu']
['perro', 'duerm', 'cama', 'duerm', 'sillón']
Stemming Snowball:
['gat', 'duerm', 'cam']
['perr', 'jueg', 'parqu']
['perr', 'duerm', 'cam', 'duerm', 'sillon']


## Lemmatization

In [14]:
lemmatizer = WordNetLemmatizer()
print("Lemmatization:(Inglés)")
example_tokens = nltk.word_tokenize("playing played plays dogs cats running", language="english")
print("Original:", example_tokens)
print("Lemmatized:", [lemmatizer.lemmatize(w) for w in example_tokens])

Lemmatization:(Inglés)
Original: ['playing', 'played', 'plays', 'dogs', 'cats', 'running']
Lemmatized: ['playing', 'played', 'play', 'dog', 'cat', 'running']


## BoW (Bolsa de palabras)

In [17]:
vectorizer = CountVectorizer()
X = vectorizer.fit_transform(normalized_corpus)

print("\nMatriz de características (BoW):")
df_bow = pd.DataFrame(X.toarray(), columns=vectorizer.get_feature_names_out())
print(df_bow)


Matriz de características (BoW):
   cama  duerme  el  en  gato  juegan  la  los  no  parque  perro  perros  \
0     1       1   1   1     1       0   1    0   0       0      0       0   
1     0       0   1   1     0       1   0    1   0       1      0       1   
2     1       2   1   2     0       0   2    0   1       0      1       0   

   sillón  
0       0  
1       0  
2       1  
