In [22]:
import nltk
from nltk.tokenize import PunktSentenceTokenizer
from nltk.tokenize import regexp_tokenize
from nltk.stem import WordNetLemmatizer
from nltk.corpus import wordnet as wn

english_sw = set(nltk.corpus.stopwords.words("english"))

- **Ejercicio 1:** Se quiere crear una matriz de coocurrencias para el siguiente párrafo:  
    “Mysterious tunnels sketched by Leonardo da Vinci in the late 1400s may have been found at the Castle. Secret tunnels at the Sforza Castle.”  

    Los pasos que hay que seguir para hacer esto podrían ser los siguientes:
    - Preprocesar el texto eliminando stopwords, convirtiendo las palabras a
    minúsculas, tokenizando y eliminando los tokens no alfanuméricos.
    - Generar el vocabulario (palabras únicas en el texto, sin repeticiones).
    - Decidir el tamaño de ventana del contexto y buscar todos los pares de palabras que coocurren dentro de ese tamaño de ventana, contando las veces que coaparecen.  
    **Para este ejercicio poner un tamaño de ventana para el contexto = 2.**
    - Crear la matriz de coocurrencias utilizando las frecuencias calculadas antes.
    - Visualizar la matriz utilizando DataFrame. 

**PREPROCESAMIENTO DEL TEXTO**

In [23]:
def get_wn_tag(nltk_tag):
    if nltk_tag.startswith("N"):
        return wn.NOUN
    elif nltk_tag.startswith("V"):
        return wn.VERB
    elif nltk_tag.startswith("J"):
        return wn.ADJ
    elif nltk_tag.startswith("R"):
        return wn.ADV
    else:
        return None

def text_preprocessing(text):
    sent_tokenized = PunktSentenceTokenizer().tokenize(text)
    word_tokenized = [regexp_tokenize(sent, r"[a-zA-Z0-9]{3,}") for sent in sent_tokenized]
    word_tokenized = [[w.lower() for w in sent if w.lower() not in english_sw] for sent in word_tokenized]
    tags = [nltk.pos_tag(sent) for sent in word_tokenized]
    lemmatized = [[WordNetLemmatizer().lemmatize(word, get_wn_tag(tag)) for word, tag in sent if get_wn_tag(tag) is not None] for sent in tags]
    return lemmatized

In [24]:
text = "Mysterious tunnels sketched by Leonardo da Vinci in the late 1400s may have been found at the Castle. Secret tunnels at the Sforza Castle."
preprocessed_text = text_preprocessing(text)
print(preprocessed_text)

[['mysterious', 'tunnel', 'sketch', 'leonardo', 'vinci', 'late', '1400s', 'find', 'castle'], ['secret', 'tunnel', 'sforza', 'castle']]
