## __Text mining y Procesamiento de Lenguaje Natural (NLP)__

__Profesor__: Anthony D. Cho

__Tema__: Análisis sintáctico

__Asunto__: Algunos atributos del modelo de lenguaje

***


__Dependencias__

```python
    python3 -m pip install nltk spacy
    python3 -m spacy download en_core_web_sm
    python3 -m spacy download es_core_news_sm
    
    python3 -m pip install svglib
```

[Atributos del modelo de lenguaje - SpaCy](https://spacy.io/api/doc#init)

### Librerias

In [2]:
from spacy import load

## Cargar el modelo del lenguaje
nlp = load('es_core_news_sm')

## Ejecuciones

#### Carga de información

In [3]:
filename = "Data/texto_02.txt"

## Abrir el archivo de texto plano
file = open(file=filename, mode='r', encoding='utf-8')

## Leer el contenido
text = file.read()

## Cerrar el archivo
file.close()

## Mostrar información
text

'“Acompáñame a celebrar, este 29 y 30 de octubre en Santiago, el décimo aniversario de la Comic Con Chile. Gustavo Fring estará ahí, Blackbird estará ahí también ¡Si no vienes, tú te lo pierdes!”, es la invitación que envió el actor Giancarlo Esposito hace unas semanas, confirmado su participación en la convención más importante de la cultura pop.\n\nEsposito, quien tuvo su primer acercamiento con el público chileno por su interpretación como Gus Fring en la exitosa serie Breaking Bad, donde el personaje debía ser chileno y amante de la Paila Marina, será uno de los invitados estelares de la décima versión de la Comic Con 2022, que se realizará del 29 al 31 de octubre en Espacio Riesco.\n\nEl público general podrá ver a la figura internacional en vivo y en directo en paneles abiertos los días sábado 29 y domingo 30 de octubre, días donde el actor tendrá además actividades adicionales pagadas, según se informó este jueves en las redes sociales de Comic Con Chile. Los valores son 35 mil 

In [5]:
## Instancia del modelo de lenguaje
documento = nlp(text)

__Atributos en el corpus__

In [6]:
## Disponer de la lista de nombres simples o compuestos
list(documento.noun_chunks)

[“Acompáñame a celebrar, este 29 y 30 de octubre en Santiago, el décimo aniversario de la Comic Con Chile.,
 Gustavo Fring,
 Blackbird,
 tú,
 lo,
 que,
 el actor,
 Giancarlo Esposito,
 unas semanas,
 su participación,
 la convención más importante,
 la cultura pop,
 Esposito,
 quien,
 su primer acercamiento,
 el público chileno,
 su interpretación,
 como Gus Fring,
 la exitosa serie,
 Breaking Bad,
 donde,
 el personaje,
 la Paila Marina,
 los invitados estelares,
 la décima versión,
 la Comic,
 2022,
 que,
 Espacio Riesco,
 El público general,
 la figura internacional,
 paneles abiertos los días sábado 29 y domingo 30 de octubre, días donde el actor tendrá además actividades adicionales pagadas,
 este jueves,
 las redes sociales,
 Comic,
 Chile,
 Los valores,
 la firma,
 autógrafo,
 fotografía individual,
 y 90 mil el meet & greet que incluye una conversación privada con los asistentes, foto y autógrafo,
 Todas estas actividades,
 ticket correspondiente a ese día,
 la Comic,
 San Dieg

In [7]:
## Lista de posibles entidades
list(documento.ents)

[“Acompáñame,
 Santiago,
 Chile,
 Gustavo Fring,
 Blackbird,
 estará ahí,
 ¡Si,
 Giancarlo Esposito,
 Esposito,
 Gus Fring,
 Breaking Bad,
 Paila Marina,
 versión de la,
 Espacio Riesco,
 días,
 Comic,
 Chile,
 Giancarlo,
 Comic,
 San Diego,
 Countdown City Geeks,
 Profesor X. También,
 “The Mandalorian,
 Gideon,
 Star Wars,
 La Comic Con,
 Espacio Riesco,
 La venta de entradas,
 www.ticketplus.cl Valor,
 FPay,
 convenios@vibramarketing.cl,
 Más información]

In [8]:
print('Indioma del lenguaje: {}'.format(documento.lang_))

Indioma del lenguaje: es


In [9]:
## Lista de los tokens
list(documento.doc)

[“,
 Acompáñame,
 a,
 celebrar,
 ,,
 este,
 29,
 y,
 30,
 de,
 octubre,
 en,
 Santiago,
 ,,
 el,
 décimo,
 aniversario,
 de,
 la,
 Comic,
 Con,
 Chile,
 .,
 Gustavo,
 Fring,
 estará,
 ahí,
 ,,
 Blackbird,
 estará,
 ahí,
 también,
 ¡,
 Si,
 no,
 vienes,
 ,,
 tú,
 te,
 lo,
 pierdes,
 !,
 ”,
 ,,
 es,
 la,
 invitación,
 que,
 envió,
 el,
 actor,
 Giancarlo,
 Esposito,
 hace,
 unas,
 semanas,
 ,,
 confirmado,
 su,
 participación,
 en,
 la,
 convención,
 más,
 importante,
 de,
 la,
 cultura,
 pop,
 .,
 
 ,
 Esposito,
 ,,
 quien,
 tuvo,
 su,
 primer,
 acercamiento,
 con,
 el,
 público,
 chileno,
 por,
 su,
 interpretación,
 como,
 Gus,
 Fring,
 en,
 la,
 exitosa,
 serie,
 Breaking,
 Bad,
 ,,
 donde,
 el,
 personaje,
 debía,
 ser,
 chileno,
 y,
 amante,
 de,
 la,
 Paila,
 Marina,
 ,,
 será,
 uno,
 de,
 los,
 invitados,
 estelares,
 de,
 la,
 décima,
 versión,
 de,
 la,
 Comic,
 Con,
 2022,
 ,,
 que,
 se,
 realizará,
 del,
 29,
 al,
 31,
 de,
 octubre,
 en,
 Espacio,
 Riesco,
 .,
 
 ,
 El,
 púb

__Atributos en tokens__

In [10]:
## Nombres propios
token = documento[19]

print('Token: {} - POS: {}'.format(token, token.pos_))
print('Morfologia: {}'.format(token.morph))
print('Lemma: {}'.format(token.lemma_))
print('Head: {}'.format(token.head))
print('Dependencia: {}'.format(token.dep_))

Token: Comic - POS: PROPN
Morfologia: 
Lemma: Comic
Head: aniversario
Dependencia: nmod


In [11]:
## Verbos
token = documento[3]

print('Token: {} - POS: {}'.format(token, token.pos_))
print('Morfologia: {}'.format(token.morph))
print('Lemma: {}'.format(token.lemma_))
print('Head: {}'.format(token.head))
print('Dependencia: {}'.format(token.dep_))

Token: celebrar - POS: VERB
Morfologia: VerbForm=Inf
Lemma: celebrar
Head: “
Dependencia: acl


In [12]:
## Numericos
token = documento[6]

print('Token: {} - POS: {}'.format(token, token.pos_))
print('Morfologia: {}'.format(token.morph))
print('Lemma: {}'.format(token.lemma_))
print('Head: {}'.format(token.head))
print('Dependencia: {}'.format(token.dep_))

Token: 29 - POS: NUM
Morfologia: NumForm=Digit|NumType=Card
Lemma: 29
Head: celebrar
Dependencia: obl


In [13]:
## Determinantes
token = documento[54]

print('Token: {} - POS: {}'.format(token, token.pos_))
print('Morfologia: {}'.format(token.morph))
print('Lemma: {}'.format(token.lemma_))
print('Head: {}'.format(token.head))
print('Dependencia: {}'.format(token.dep_))

Token: unas - POS: DET
Morfologia: Definite=Ind|Gender=Fem|Number=Plur|PronType=Art
Lemma: uno
Head: semanas
Dependencia: det


In [14]:
## Adverbio
token = documento[30]

print('Token: {} - POS: {}'.format(token, token.pos_))
print('Morfologia: {}'.format(token.morph))
print('Lemma: {}'.format(token.lemma_))
print('Head: {}'.format(token.head))
print('Dependencia: {}'.format(token.dep_))

Token: ahí - POS: ADV
Morfologia: 
Lemma: ahí
Head: también
Dependencia: advmod
