In [1]:
import numpy as np
import pandas as pd
import spacy

## Se carga el cuento en párrafos

In [2]:
cuentos = pd.read_csv("laliebreylatortuga_1500.txt",engine = 'python', encoding = 'utf8', sep = 'delimiter', header = None)

In [3]:
#cuentos = cuentos[cuentos.columns[0:1]]
cuentos.columns = ['Parrafos']
cuentos

Unnamed: 0,Parrafos
0,Una liebre y una tortuga hicieron una apuesta.
1,La tortuga dijo:
2,—Te apuesto que no llegas tan pronto como yo a...
3,—¿Que no llegaré? —contestó la liebre riendo—....
4,"—Loca o no, mantengo la apuesta."
5,"Apostaron, y pusieron junto al árbol lo aposta..."
6,Dejó a la tortuga partir con su pasito calmo. ...
7,"La liebre, en tanto, desdeñando una fácil vict..."
8,Cuando vio que la tortuga llegaba ya a la meta...
9,—¿Qué te parece? —le dijo la tortuga—. ¿Tenía ...


## Separamos los párrafos en frases

In [4]:
nlp = spacy.load('es_core_news_md')
data = cuentos.Parrafos.values.tolist()

In [5]:
list_parrafo = []
for parrafo in data:
    list_parrafo.append(nlp(parrafo))

In [6]:
list_frase = []
for i in list_parrafo:
    for sent in i.sents:
        list_frase.append(nlp(sent.text))
print(list_frase)    

[Una liebre y una tortuga hicieron una apuesta., La tortuga dijo:, —Te apuesto que no llegas tan pronto como yo a ese árbol..., —¿Que no llegaré?, —contestó la liebre riendo—. Estás loca., —Loca o no, mantengo la apuesta., Apostaron, y pusieron junto al árbol lo apostado., No interesa a nuestro cuento saber lo que era ni tampoco quién fue el juez de la contienda., Nuestra liebre no tenía que dar más que cuatro saltos., Cuatro de esos saltos desesperados que da cuando la siguen ya de cerca los perros., Ella los da muy contenta, sus patas apenas se ven devorando el campo y la pradera y pronto despista a sus enemigos., Tenía, pues, tiempo de sobra para mordisquear la hierba, para dormir y para olfatear el viento., Dejó a la tortuga partir con su pasito calmo., Esta partió esforzándose cuanto pudo y avanzó lentamente., La liebre, en tanto, desdeñando una fácil victoria, tuvo en poco a su contrincante, y juzgó más decoroso no emprender la carrera hasta última hora., Se quedó tranquila sobre

## Ananlisis morfológico y semántico
Se coge una frase para ver sus características morfológicas y semánticas

In [7]:
texto = []
lemma = []
pos = []
dep = []
for token in list_frase[0]:
    texto.append(token.text)
    lemma.append(token.lemma_)
    pos.append(token.pos_)
    dep.append(token.dep_)

data_dependencias = {'token': texto, 'lemma':lemma, 'pos':pos, 'dep':dep}
pd_dependencias = pd.DataFrame.from_dict(data_dependencias)

In [8]:
pd_dependencias

Unnamed: 0,token,lemma,pos,dep
0,Una,Una,DET,det
1,liebre,liebre,NOUN,nsubj
2,y,y,CONJ,cc
3,una,uno,DET,det
4,tortuga,tortuga,NOUN,conj
5,hicieron,hacer,VERB,ROOT
6,una,uno,DET,det
7,apuesta,apuesto,NOUN,obj
8,.,.,PUNCT,punct


## Dibujamos las dependencias

In [12]:
from spacy import displacy
displacy.render(list_frase[0], style="dep", jupyter = True, options = {'distance':120})

## Se buscan las dependencias
Cojemos solo una frase para ver las dependencias

In [99]:
word = []
children = []
head_text = []
for token in list_frase[0]:
    word.append(token)
    children.append([child for child in token.children])
    head_text.append(token.head.text)

In [100]:
data_dependencias = {'token': word, 'children':children, 'head_text':head_text}
pd_dependencias = pd.DataFrame.from_dict(data_dependencias)

In [101]:
pd_dependencias

Unnamed: 0,token,children,head_text
0,Una,[],liebre
1,liebre,"[Una, tortuga]",hicieron
2,y,[],tortuga
3,una,[],tortuga
4,tortuga,"[y, una]",liebre
5,hicieron,"[liebre, apuesta, .]",hicieron
6,una,[],apuesta
7,apuesta,[una],hicieron
8,.,[],hicieron


## Vectorización de las palabras

In [102]:
for token in list_frase[0]:
    print(token.text, token.vector)

Una [-0.327205 -1.470574  0.015526 -1.599041 -0.218102 -0.379752  0.040027
 -0.881336 -0.508543  3.496598  0.236675  1.339685 -0.098606  0.281052
  1.652048 -0.6744    1.266424 -0.296724 -0.42734  -0.031903  1.652186
 -0.514025 -0.172378 -0.752216  0.497438  0.565495 -2.008857  2.460132
  0.889029  0.714908  2.93994  -0.613907 -1.871903 -0.675951 -0.642636
  1.625691  1.034422 -0.577273  1.277966  0.412623 -0.479511 -0.493822
 -0.18325   0.152897  0.894421 -0.226513 -0.799426 -2.327098 -0.256672
 -1.718338]
liebre [ 0.779732 -0.933929 -1.503877  0.189007  0.964754  0.497169 -0.280931
 -0.965197 -1.188076  0.583278  0.071034  0.085374 -0.545343 -0.457995
  2.532345  0.972763  0.630158  0.185749 -0.236544  1.102901  0.24985
 -1.234813 -0.234118 -0.710724  0.126785  0.534785  0.229877  1.293099
  0.752735  0.294547 -0.193183  0.026312 -0.470595  0.440632  0.638495
  1.033181 -0.433363 -0.886228 -0.383662  0.505176 -0.691933  0.469355
  0.850876 -0.807032  0.228042 -0.280542 -0.22835  -0.8

## Vector de la frase
Quizás se pueda utilizar este vector para generar las GANS de frases, en vez de hacerlo por palabras.

In [103]:
list_frase[0].vector

array([ 0.05765833, -1.0002046 , -0.11481399, -0.81052464, -0.00873555,
       -0.16605558, -0.09264822, -0.54870355, -0.303306  ,  2.1130288 ,
        0.24347179,  0.653444  , -0.17001924, -0.13760257,  1.4121325 ,
       -0.17476577,  0.7491332 , -0.01080211, -0.18062933,  0.15566598,
        1.0203868 , -0.5080304 , -0.16584155, -0.2927633 ,  0.00768711,
        0.34552056, -0.97916275,  1.7417177 ,  0.56727767,  0.46415102,
        1.6132895 , -0.53701776, -1.3797109 , -0.2723699 , -0.25566232,
        0.9695371 ,  0.7273128 , -0.24381001,  0.5405463 ,  0.37038943,
       -0.41008767, -0.00288322, -0.12758623, -0.05603377,  0.5467494 ,
       -0.10911188, -0.43803188, -1.5093223 , -0.35358122, -0.944044  ],
      dtype=float32)

## Sustantivos

In [104]:
art_noun = []
for art in list_frase:
    token_noun = []
    for token in art:
        if token.pos_ == 'NOUN':
            token_noun.append(token)
    art_noun.append(token_noun)
print(art_noun)

[[liebre, tortuga, apuesta], [tortuga], [—Te, árbol], [—¿Que], [liebre], [apuesta], [árbol], [cuento, juez, contienda], [liebre, saltos], [saltos, perros], [patas, campo, pradera, enemigos], [tiempo, sobra, hierba, viento], [tortuga, pasito], [esforzándose], [liebre, tanto, victoria, contrincante, carrera, hora], [hierba, cosa, apuesta], [tortuga, meta, rayo, patas, momento, matorral, bríos], [meta, rival], [—¿Qué], [razón], [agilidad], [], [llevaras, casa, cuestas], [idea, superioridad, frecuencia]]


## Verbos

In [106]:
art_verb = []
for art in list_frase:
    token_verb = []
    for token in art:
        if token.pos_ == 'VERB':
            token_verb.append(token.lemma_)
    art_verb.append(token_verb)
print (art_verb)

[['hacer'], ['decir'], ['llegar'], ['llegar'], [], ['mantener'], ['Apostaron', 'poner'], ['interesar', 'saber'], ['tener', 'dar'], ['dar', 'seguir'], ['dar', 'ver', 'despistar'], ['Tenía', 'mordisquear', 'dormir', 'olfatear'], ['Dejó', 'partir'], ['partir', 'poder', 'avanzar'], ['desdeñar', 'tener', 'juzgar', 'emprender'], ['quedar', 'entretener', 'atento'], ['ver', 'llegar', 'partir', 'atorar'], ['llegar'], [], ['decir', 'Tenía', 'tener'], ['servir'], [], ['pasar'], ['perder']]


In [111]:
df_ext = pd.DataFrame({'Sust':art_noun, 'Verb':art_verb})

In [112]:
df_ext

Unnamed: 0,Sust,Verb
0,"[liebre, tortuga, apuesta]",[hacer]
1,[tortuga],[decir]
2,"[—Te, árbol]",[llegar]
3,[—¿Que],[llegar]
4,[liebre],[]
5,[apuesta],[mantener]
6,[árbol],"[Apostaron, poner]"
7,"[cuento, juez, contienda]","[interesar, saber]"
8,"[liebre, saltos]","[tener, dar]"
9,"[saltos, perros]","[dar, seguir]"


In [113]:
df_merge = cuentos.merge(df_ext,left_index=True, right_index=True,  how='inner')

In [114]:
df_merge

Unnamed: 0,Parrafos,Sust,Verb
0,Una liebre y una tortuga hicieron una apuesta.,"[liebre, tortuga, apuesta]",[hacer]
1,La tortuga dijo:,[tortuga],[decir]
2,—Te apuesto que no llegas tan pronto como yo a...,"[—Te, árbol]",[llegar]
3,—¿Que no llegaré? —contestó la liebre riendo—....,[—¿Que],[llegar]
4,"—Loca o no, mantengo la apuesta.",[liebre],[]
5,"Apostaron, y pusieron junto al árbol lo aposta...",[apuesta],[mantener]
6,Dejó a la tortuga partir con su pasito calmo. ...,[árbol],"[Apostaron, poner]"
7,"La liebre, en tanto, desdeñando una fácil vict...","[cuento, juez, contienda]","[interesar, saber]"
8,Cuando vio que la tortuga llegaba ya a la meta...,"[liebre, saltos]","[tener, dar]"
9,—¿Qué te parece? —le dijo la tortuga—. ¿Tenía ...,"[saltos, perros]","[dar, seguir]"
