# Importar librerías

In [20]:
import nltk
from nltk.tokenize import PunktSentenceTokenizer
from nltk.tokenize import regexp_tokenize
from nltk.stem import WordNetLemmatizer
from nltk.corpus import wordnet as wn

from sklearn.feature_extraction.text import CountVectorizer

from collections import defaultdict, Counter

english_sw = set(nltk.corpus.stopwords.words("english"))

---
# Ejercicio 1
- Se quiere crear una matriz de coocurrencias para el siguiente párrafo:  
    “Mysterious tunnels sketched by Leonardo da Vinci in the late 1400s may have been found at the Castle. Secret tunnels at the Sforza Castle.”  

    Los pasos que hay que seguir para hacer esto podrían ser los siguientes:
    - Preprocesar el texto eliminando stopwords, convirtiendo las palabras a
    minúsculas, tokenizando y eliminando los tokens no alfanuméricos.
    - Generar el vocabulario (palabras únicas en el texto, sin repeticiones).
    - Decidir el tamaño de ventana del contexto y buscar todos los pares de palabras que coocurren dentro de ese tamaño de ventana, contando las veces que coaparecen.  
    **Para este ejercicio poner un tamaño de ventana para el contexto = 2.**
    - Crear la matriz de coocurrencias utilizando las frecuencias calculadas antes.
    - Visualizar la matriz utilizando DataFrame. 

## Preprocesamiento del texto

In [21]:
def text_preprocessing(text):
    word_tokenized = regexp_tokenize(text, r"[a-zA-Z0-9]+")
    word_tokenized = [w.lower() for w in word_tokenized if w.lower() not in english_sw]
    return word_tokenized

In [22]:
text = "Mysterious tunnels sketched by Leonardo da Vinci in the late 1400s may have been found at the Castle. Secret tunnels at the Sforza Castle."
# Aplicar el preprocesamiento al texto dado
preprocessed_text = text_preprocessing(text)
print(preprocessed_text)

['mysterious', 'tunnels', 'sketched', 'leonardo', 'da', 'vinci', 'late', '1400s', 'may', 'found', 'castle', 'secret', 'tunnels', 'sforza', 'castle']


---
## Generar vocabulario

In [24]:
vocabulary = set(preprocessed_text)
print(vocabulary)

{'found', 'tunnels', 'sforza', 'late', '1400s', 'may', 'mysterious', 'da', 'vinci', 'castle', 'sketched', 'secret', 'leonardo'}


---
## Decidir ventana del contexto y obtener pares de palabras que co-ocurren en ella

In [25]:
window_size = 2
co_occurrences = defaultdict(Counter)
for i, word in enumerate(preprocessed_text):
    for j in range(max(0, i-window_size), min(len(preprocessed_text), i + window_size + 1)):
        if i != j:
            co_occurrences[word][preprocessed_text[j]] += 1

print(co_occurrences)

defaultdict(<class 'collections.Counter'>, {'mysterious': Counter({'tunnels': 1, 'sketched': 1}), 'tunnels': Counter({'castle': 2, 'mysterious': 1, 'sketched': 1, 'leonardo': 1, 'secret': 1, 'sforza': 1}), 'sketched': Counter({'mysterious': 1, 'tunnels': 1, 'leonardo': 1, 'da': 1}), 'leonardo': Counter({'tunnels': 1, 'sketched': 1, 'da': 1, 'vinci': 1}), 'da': Counter({'sketched': 1, 'leonardo': 1, 'vinci': 1, 'late': 1}), 'vinci': Counter({'leonardo': 1, 'da': 1, 'late': 1, '1400s': 1}), 'late': Counter({'da': 1, 'vinci': 1, '1400s': 1, 'may': 1}), '1400s': Counter({'vinci': 1, 'late': 1, 'may': 1, 'found': 1}), 'may': Counter({'late': 1, '1400s': 1, 'found': 1, 'castle': 1}), 'found': Counter({'1400s': 1, 'may': 1, 'castle': 1, 'secret': 1}), 'castle': Counter({'tunnels': 2, 'may': 1, 'found': 1, 'secret': 1, 'sforza': 1}), 'secret': Counter({'found': 1, 'castle': 1, 'tunnels': 1, 'sforza': 1}), 'sforza': Counter({'secret': 1, 'tunnels': 1, 'castle': 1})})
