In [1]:
import spacy
import numpy as np
import nltk
import re

In [2]:
nlp = spacy.load('es')

In [3]:
with open("pbaspacy.txt", "r") as f:
    corpus = f.read()

In [4]:
# Tokenizing
tokenizer = nltk.data.load('tokenizers/punkt/spanish.pickle')
raw = tokenizer.tokenize(corpus)

In [5]:
print(raw)

['-\n"Lo que sostiene a la pareja es el amor"\nClara Crespo (50) y Rodolfo Martínez (54) no se imaginan uno sin el otro.', '"Prefiero ni pensarlo", dice Clara.', 'Hace 26 años que están casados, y tienen cuatro hijas mujeres.', 'Se conocieron en el Ateneo Juventus, el movimiento juvenil de Capuchinos.', 'Hoy aseguran no estar sorprendidos del tiempo que llevan juntos sino de haber logrado entenderse tan bien.', '&#226;&#8364;&#8220;¿Qué les gusta y disgusta del otro?', '¿Qué quisieran cambiarle?', '&#226;&#8364;&#8220;Rodolfo: Me gusta que sea cariñosa, alegre y esté siempre pensando en mí, y que es una gran madre.', 'Me disgustaba que cuando se enojaba no quería hablar, pero ya no lo hace más.', 'A veces es indecisa pero ya me acostumbré.', 'No quiero cambiarle nada, que sea como es.', '&#226;&#8364;&#8220;Clara : Me gusta que es una persona emprendedora, alegre, optimista y servicial.', 'Me gustaría que a veces fuera más sutil para decir las cosas.', 'Pienso que las personas vamos ca

In [6]:
#limpiando
clean = []
for sent in raw:
    a = re.sub(r'&#\w+;', '', sent)
    b = re.sub(r'[^\w]', ' ', a)
    c = b.rstrip().lstrip()
    clean.append(c)

In [7]:
for i,a in enumerate(clean[:27]):
    print(str(i)+")", a)

0) Lo que sostiene a la pareja es el amor  Clara Crespo  50  y Rodolfo Martínez  54  no se imaginan uno sin el otro
1) Prefiero ni pensarlo   dice Clara
2) Hace 26 años que están casados  y tienen cuatro hijas mujeres
3) Se conocieron en el Ateneo Juventus  el movimiento juvenil de Capuchinos
4) Hoy aseguran no estar sorprendidos del tiempo que llevan juntos sino de haber logrado entenderse tan bien
5) Qué les gusta y disgusta del otro
6) Qué quisieran cambiarle
7) Rodolfo  Me gusta que sea cariñosa  alegre y esté siempre pensando en mí  y que es una gran madre
8) Me disgustaba que cuando se enojaba no quería hablar  pero ya no lo hace más
9) A veces es indecisa pero ya me acostumbré
10) No quiero cambiarle nada  que sea como es
11) Clara   Me gusta que es una persona emprendedora  alegre  optimista y servicial
12) Me gustaría que a veces fuera más sutil para decir las cosas
13) Pienso que las personas vamos cambiando con el tiempo de acuerdo a la edad  a las circunstancias que vivimos

In [8]:
#Para sacar las letras que quedaron colgadas al principio
last_clean = []
for a in clean:
    aux = a.split()
    if len(aux[0]) == 1:
        if aux[0] not in {'A', 'Y', 'O'}:
            del aux[0]
    last_clean.append(aux)

In [9]:
for i,a in enumerate(last_clean[:5]):
    print(str(i)+")", a)

0) ['Lo', 'que', 'sostiene', 'a', 'la', 'pareja', 'es', 'el', 'amor', 'Clara', 'Crespo', '50', 'y', 'Rodolfo', 'Martínez', '54', 'no', 'se', 'imaginan', 'uno', 'sin', 'el', 'otro']
1) ['Prefiero', 'ni', 'pensarlo', 'dice', 'Clara']
2) ['Hace', '26', 'años', 'que', 'están', 'casados', 'y', 'tienen', 'cuatro', 'hijas', 'mujeres']
3) ['Se', 'conocieron', 'en', 'el', 'Ateneo', 'Juventus', 'el', 'movimiento', 'juvenil', 'de', 'Capuchinos']
4) ['Hoy', 'aseguran', 'no', 'estar', 'sorprendidos', 'del', 'tiempo', 'que', 'llevan', 'juntos', 'sino', 'de', 'haber', 'logrado', 'entenderse', 'tan', 'bien']


In [10]:
#flatten list
flat = []
for s in last_clean:
    for w in s:
        flat.append(w)

In [11]:
#Aprovechamos que tenemos una lista de palabras para poder contar su ocurrencia
count = dict()
for w in flat:
    if w not in count:
        count[w] = 1
    else:
        count[w] += 1

In [12]:
#cuantas veces aparece la palabra "el" ? ---> 8
count["Rodolfo"]

2

In [13]:
#Ahora volvemos a unir las palabras a la oración que pertenecen
final = []
for i,s in enumerate(last_clean):
    a = ' '.join(last_clean[i])
    final.append(a)

In [14]:
for i,a in enumerate(final[:27]):
    print(str(i)+")", a)

0) Lo que sostiene a la pareja es el amor Clara Crespo 50 y Rodolfo Martínez 54 no se imaginan uno sin el otro
1) Prefiero ni pensarlo dice Clara
2) Hace 26 años que están casados y tienen cuatro hijas mujeres
3) Se conocieron en el Ateneo Juventus el movimiento juvenil de Capuchinos
4) Hoy aseguran no estar sorprendidos del tiempo que llevan juntos sino de haber logrado entenderse tan bien
5) Qué les gusta y disgusta del otro
6) Qué quisieran cambiarle
7) Rodolfo Me gusta que sea cariñosa alegre y esté siempre pensando en mí y que es una gran madre
8) Me disgustaba que cuando se enojaba no quería hablar pero ya no lo hace más
9) A veces es indecisa pero ya me acostumbré
10) No quiero cambiarle nada que sea como es
11) Clara Me gusta que es una persona emprendedora alegre optimista y servicial
12) Me gustaría que a veces fuera más sutil para decir las cosas
13) Pienso que las personas vamos cambiando con el tiempo de acuerdo a la edad a las circunstancias que vivimos y todo lo que nos 

In [15]:
#Pasamos las oraciones pre-procesadas a Spacy
parsed_sents = []
for doc in nlp.pipe(final, batch_size=10000, n_threads=4):
    parsed_sents.append(doc)

In [16]:
parsed_sents[0:5]

[Lo que sostiene a la pareja es el amor Clara Crespo 50 y Rodolfo Martínez 54 no se imaginan uno sin el otro,
 Prefiero ni pensarlo dice Clara,
 Hace 26 años que están casados y tienen cuatro hijas mujeres,
 Se conocieron en el Ateneo Juventus el movimiento juvenil de Capuchinos,
 Hoy aseguran no estar sorprendidos del tiempo que llevan juntos sino de haber logrado entenderse tan bien]

In [17]:
for s in parsed_sents:
    for i,w in enumerate(s):
        if i != 0:
            print(w, s[i-1].pos_)
        

que DET
sostiene PRON
a VERB
la ADP
pareja DET
es NOUN
el AUX
amor DET
Clara NOUN
Crespo PROPN
50 PROPN
y NUM
Rodolfo CONJ
Martínez PROPN
54 PROPN
no NUM
se ADV
imaginan PRON
uno VERB
sin PRON
el ADP
otro DET
ni VERB
pensarlo CONJ
dice VERB
Clara VERB
26 AUX
años NUM
que NOUN
están PRON
casados AUX
y ADJ
tienen CONJ
cuatro VERB
hijas NUM
mujeres NOUN
conocieron PRON
en VERB
el ADP
Ateneo DET
Juventus PROPN
el PROPN
movimiento DET
juvenil NOUN
de ADJ
Capuchinos ADP
aseguran ADV
no VERB
estar ADV
sorprendidos AUX
del ADJ
tiempo ADP
que NOUN
llevan PRON
juntos VERB
sino ADJ
de CONJ
haber ADP
logrado AUX
entenderse VERB
tan VERB
bien ADV
les PRON
gusta PRON
y VERB
disgusta CONJ
del VERB
otro ADP
quisieran PRON
cambiarle VERB
Me PROPN
gusta PRON
que VERB
sea SCONJ
cariñosa AUX
alegre ADJ
y ADJ
esté CONJ
siempre AUX
pensando ADV
en VERB
mí ADP
y PRON
que CONJ
es SCONJ
una AUX
gran DET
madre ADJ
disgustaba PRON
que VERB
cuando SCONJ
se SCONJ
enojaba PRON
no VERB
quería ADV
hablar VERB
pero VE

In [18]:
#diccionario con las triplas de cada palabra
dicc_trip = dict()
for s in parsed_sents:
    for w in s:
        tags = [(w.text, w.dep_, w.head.text)]
        if str(w) not in dicc_trip:
            dicc_trip[str(w)] = tags
        else:
            dicc_trip[str(w)] += (tags)

In [19]:
parsed_sents[1]

Prefiero ni pensarlo dice Clara

In [66]:
#lista de listas con tuplas de la forma (palabra, Pos)
pos = []
for s in parsed_sents:
    aux=[]
    for w in s:
        aux.append((w, w.pos_))
    pos.append(aux)

In [67]:
pos[2]

[(Hace, 'AUX'),
 (26, 'NUM'),
 (años, 'NOUN'),
 (que, 'PRON'),
 (están, 'AUX'),
 (casados, 'ADJ'),
 (y, 'CONJ'),
 (tienen, 'VERB'),
 (cuatro, 'NUM'),
 (hijas, 'NOUN'),
 (mujeres, 'ADJ')]

In [22]:
#todas las triplas relacionadas con "el"
dicc_trip["el"]

[('el', 'det', 'amor'),
 ('el', 'det', 'otro'),
 ('el', 'det', 'Ateneo'),
 ('el', 'det', 'movimiento'),
 ('el', 'det', 'tiempo'),
 ('el', 'det', 'momento'),
 ('el', 'det', 'amor'),
 ('el', 'det', 'día')]

In [23]:
for key, value in dicc_trip.items():
    aux = []
    for fst,snd,trd in value:
        a = snd+'.'+trd
        aux.append(a)
        dicc_trip[key] = aux

In [24]:
dicc_trip["el"]

['det.amor',
 'det.otro',
 'det.Ateneo',
 'det.movimiento',
 'det.tiempo',
 'det.momento',
 'det.amor',
 'det.día']

In [25]:
# Lista de etiquetas para cada oración
tag_sents = [[(token.text,token.tag_,token.pos_) for token in parsedEx] for parsedEx in parsed_sents]

# Lista de triplas de dependencias para cada oración
#dep_trips = [[(token.orth_, token.dep_, token.head.orth_) for token in parsedEx] for parsedEx in parsed_sents]



In [26]:
# final ---> lista de oraciones procesadas
# tag_sents ---> tags de cada oración
# dep_trips ---> triplas de dep de cada oración

In [27]:
# Juntamos todo
#triplas = [tri for tri in zip(final, tag_sents, dep_trips)]

#ahora tenemos algo de la forma (oración, tags, tripla de dependencia)

In [28]:
tag_sents

[[('Lo', 'DET__Definite=Def|Number=Sing|PronType=Art', 'DET'),
  ('que', 'PRON__PronType=Rel', 'PRON'),
  ('sostiene',
   'VERB__Mood=Ind|Number=Sing|Person=3|Tense=Pres|VerbForm=Fin',
   'VERB'),
  ('a', 'ADP__AdpType=Prep', 'ADP'),
  ('la', 'DET__Definite=Def|Gender=Fem|Number=Sing|PronType=Art', 'DET'),
  ('pareja', 'NOUN__Gender=Fem|Number=Sing', 'NOUN'),
  ('es', 'AUX__Mood=Ind|Number=Sing|Person=3|Tense=Pres|VerbForm=Fin', 'AUX'),
  ('el', 'DET__Definite=Def|Gender=Masc|Number=Sing|PronType=Art', 'DET'),
  ('amor', 'NOUN__Gender=Masc|Number=Sing', 'NOUN'),
  ('Clara', 'PROPN___', 'PROPN'),
  ('Crespo', 'PROPN___', 'PROPN'),
  ('50', 'NUM__NumForm=Digit', 'NUM'),
  ('y', 'CCONJ___', 'CONJ'),
  ('Rodolfo', 'PROPN___', 'PROPN'),
  ('Martínez', 'PROPN___', 'PROPN'),
  ('54', 'NUM__NumForm=Digit', 'NUM'),
  ('no', 'ADV__Polarity=Neg', 'ADV'),
  ('se', 'PRON___', 'PRON'),
  ('imaginan',
   'VERB__Mood=Ind|Number=Plur|Person=3|Tense=Pres|VerbForm=Fin',
   'VERB'),
  ('uno', 'PRON__Gende

In [29]:
tags_clean = []
for i,a in enumerate(tag_sents):
    for fst,snd,trd in a:
        aux = snd.split("|")
        tgs = []
        for x in aux:
            y = x.split("=")
            if len(y) == 1:
                tgs.append(y[0])
            else:
                tgs.append((y[0], y[1]))
        tags.append((fst, tgs, trd))

In [30]:
tags_clean

[]

In [31]:
clean_info_word = []
for a in tag_sents:
    for fst,snd,trd in a:
        aux = snd.split("|")
        clean_info_word.append((fst,aux,trd))

In [32]:
#Ahora tenemos una lista de triplas, donde el primer elem es la palabra, el segundo sus tags y el tercero su PoS
print(clean_info_word[0])

('Lo', ['DET__Definite=Def', 'Number=Sing', 'PronType=Art'], 'DET')


In [65]:
pos[2:4]

'S_'

In [68]:
from collections import defaultdict
dicc_forward = defaultdict(list)
dicc_backward = defaultdict(list)
for tup in pos:
    for j,(fst,snd) in enumerate(tup):
        if j != 0:
            dicc_backward[fst.text].append((tup[j-1][0].text, tup[j-1][1]))
        else:
            dicc_backward[fst.text].append(("[W.Start]", "[T.Start]"))
        if j != len(tup)-1:
            dicc_forward[fst.text].append((tup[j+1][0].text, tup[j+1][1]))
        else:
            dicc_forward[fst.text].append(("[W.End]", "[T.End]"))

In [35]:
dicc_backward["Clara"]

[('amor', 'NOUN'),
 ('dice', 'VERB'),
 ('[Word-Start]', '[Tag-Start]'),
 ('[Word-Start]', '[Tag-Start]'),
 ('lleva', 'VERB')]

In [36]:
clean_info_word[0]

('Lo', ['DET__Definite=Def', 'Number=Sing', 'PronType=Art'], 'DET')

In [37]:
dicc_backward["Clara"]

[('amor', 'NOUN'),
 ('dice', 'VERB'),
 ('[Word-Start]', '[Tag-Start]'),
 ('[Word-Start]', '[Tag-Start]'),
 ('lleva', 'VERB')]

In [82]:
#Creando el diccionario
dicc = dict()
#features = dict()
for fst,snd,trd in clean_info_word:
    features = defaultdict(int)
    pos = 'PoS__' + trd
    if fst not in dicc and count[fst] > 2:      #si la palabra es nueva y ocurre mas de n veces -> la agrego
        dicc[fst.lower()] = features
        features[pos] = 1
        #features['LowerCase'] = str(fst.islower)
        for i in snd:
            features[i] = 1
        for i in dicc_trip[fst]:                 #diccionario de triplas
            features[i] = 1
        for i in dicc_backward[fst]:
            features[i[0]+"-1"] += 1
            features[i[1]+"-1"] += 1
        for i in dicc_forward[fst]:
            features[i[0]+"+1"] += 1
            features[i[0]+"+1"] += 1
            
            
    elif fst in dicc:                        #la palabra ya se encuentra -> actualizo el dicc
        has_it = dicc[fst]
        if pos in has_it:
            has_it[pos] += 1
        else:
            has_it[pos] = 1
        for tag in snd:
            if tag in has_it:
                has_it[tag] += 1
            else:
                has_it[tag] = 1
        

In [39]:
dicc_backward["Clara"]

[('amor', 'NOUN'),
 ('dice', 'VERB'),
 ('[Word-Start]', '[Tag-Start]'),
 ('[Word-Start]', '[Tag-Start]'),
 ('lleva', 'VERB')]

In [62]:
dicc_forward["Clara"]

[('Crespo', 'PROPN'),
 ('[Word-End]', '[Tag-End]'),
 ('Me', 'PRON'),
 ('asegura', 'VERB'),
 ('[Word-End]', '[Tag-End]')]

In [40]:
count["Clara"]

5

In [83]:
dicc

{'a': defaultdict(int,
             {'ADP-1': 1,
              'ADP__AdpType=Prep': 15,
              'ADV-1': 1,
              'CONJ-1': 1,
              'NOUN-1': 5,
              'NUM-1': 1,
              'PoS__ADP': 15,
              'SCONJ-1': 2,
              'VERB-1': 4,
              'acuerdo-1': 1,
              'advmod.fuera': 1,
              'advmod.proyecto': 1,
              'advmod||conj.tiene': 1,
              'aunque-1': 1,
              'ayudan-1': 1,
              'ayudarse-1': 1,
              'cambiar+1': 2,
              'case.aunque': 1,
              'case.circunstancias': 1,
              'case.dos': 1,
              'case.día': 1,
              'case.edad': 1,
              'case.muerte': 1,
              'case.pareja': 1,
              'case.plazo': 1,
              'case.sólo': 1,
              'de-1': 1,
              'dos+1': 2,
              'dos-1': 1,
              'día+1': 2,
              'día-1': 1,
              'edad-1': 1,
              'la+1': 8

In [84]:
#Ahora preparamos la lista una lista de diccs para vectorizar
#Tambien vamos a guardar las palabras que vamos a vectorizar para poder recuperarlas mas tarde
lista_para_vectorizar = []
check_list = []
for key, value in dicc.items():
    check_list.append(key)
    lista_para_vectorizar.append(value)

In [43]:
#Corroboramos la correspondencia
for i,w in enumerate(check_list):
    a = lista_para_vectorizar[i]
    print(w + " -->", a)

Lo --> defaultdict(<class 'int'>, {'PoS__DET': 3, 'DET__Definite=Def': 3, 'Number=Sing': 3, 'PronType=Art': 3, 'det.sostiene': 1, 'det.bueno': 1, 'det.ayudó': 1, '[Word-Start]-1': 3, '[Tag-Start]-1': 3})
que --> defaultdict(<class 'int'>, {'PoS__PRON': 9, 'PRON__PronType=Rel': 9, 'obj.sostiene': 1, 'nsubj.casados': 1, 'nsubj.llevan': 1, 'mark.cariñosa': 1, 'mark.madre': 1, 'mark.quería': 1, 'advcl.cambiarle': 1, 'mark.persona': 1, 'mark.sutil': 1, 'mark.cambiando': 1, 'nsubj.vivimos': 1, 'nsubj.rodea': 1, 'mark.somos': 1, 'mark.casamos': 1, 'nsubj.molestan': 1, 'nsubj.ayudó': 1, 'mark.compartimos': 1, 'mark.sostiene': 1, 'cc.alimentarlo': 1, 'mark.crezca': 1, 'cc.crecer': 1, 'mark.eso': 1, 'mark.faltar': 1, 'cc.dejar': 1, 'Lo-1': 2, 'DET-1': 4, 'años-1': 1, 'NOUN-1': 4, 'tiempo-1': 1, 'gusta-1': 2, 'VERB-1': 8, 'y-1': 1, 'CONJ-1': 1, 'disgustaba-1': 1, 'nada-1': 1, 'PRON-1': 2, 'gustaría-1': 1, 'Pienso-1': 1, 'circunstancias-1': 1, 'lo-1': 2, 'Seguramente-1': 1, 'ADV-1': 2, 'mismos-1':

In [85]:
#Vectorizado
from sklearn.feature_extraction import DictVectorizer
v = DictVectorizer(sparse=False)
X = v.fit_transform(lista_para_vectorizar)

In [86]:
X

array([[ 0.,  0.,  0., ...,  0.,  0.,  0.],
       [ 0.,  0.,  0., ...,  1.,  0.,  0.],
       [ 0.,  0.,  0., ...,  1.,  0.,  0.],
       ..., 
       [ 0.,  0.,  0., ...,  0.,  0.,  0.],
       [ 0.,  0.,  0., ...,  0.,  0.,  0.],
       [ 0.,  0.,  0., ...,  0.,  0.,  0.]])

In [87]:
from sklearn.decomposition import TruncatedSVD

#Reducción de dimensionalidad
svd = TruncatedSVD(n_components=47, n_iter=7, random_state=42)
svd.fit_transform(X)

array([[  3.87785195e+00,  -3.87397378e+00,  -3.87748479e-01, ...,
          4.57709249e-01,  -3.47133743e-01,   1.68238985e-01],
       [  1.25582727e+01,   4.94084751e+00,   2.78428255e+01, ...,
         -4.30565056e-02,  -1.64997422e-03,   9.69238306e-02],
       [  1.56110671e+01,   1.70005963e+01,  -8.36371368e+00, ...,
         -6.79945512e-03,  -1.76931389e-01,   5.20704178e-03],
       ..., 
       [  3.40066059e-01,  -3.05293112e-02,   3.55113172e-01, ...,
          1.09208812e-01,   3.97461791e-02,   3.59429448e-01],
       [  5.26802913e-01,  -3.34209691e-01,   2.01048913e-01, ...,
         -1.38731147e-01,  -3.52066457e-01,   1.82999334e-01],
       [  1.64874535e+00,  -1.27355842e+00,   3.15085839e-01, ...,
         -5.97878844e-01,  -4.89766738e-02,  -2.28131935e+00]])

In [92]:
#Clustering
from sklearn.cluster import KMeans
km = KMeans(n_clusters=8)
km.fit(X)

KMeans(algorithm='auto', copy_x=True, init='k-means++', max_iter=300,
    n_clusters=8, n_init=10, n_jobs=1, precompute_distances='auto',
    random_state=None, tol=0.0001, verbose=0)

In [93]:
labels = km.predict(X)

In [94]:
print(labels)

[5 2 4 7 1 7 5 5 3 5 5 5 6 6 5 5 5 5 5 5 7 5 5 5 5 5 0 5 5 5 0 5 7 5 5 5 5]


In [95]:
#Clusters obtenidos
words = defaultdict(set)
for i, label in enumerate(labels):
    words[label].add(check_list[i])
print(words)

defaultdict(<class 'set'>, {5: {'tan', 'del', 'otro', 'fue', 'más', 'lo', 'para', 'pero', 'todo', 'juntos', 'común', 'día', 'nos', 'cuando', 'clara', 'no', 'siempre', 'dos', 'veces', 'cosas', 'vida', 'uno', 'gusta', 'me', 'amor'}, 2: {'que'}, 4: {'a'}, 7: {'el', 'un', 'una', 'la'}, 1: {'es'}, 3: {'y'}, 6: {'en', 'de'}, 0: {'los', 'las'}})
