# PREPROCESAMIENTO CON SPACY

## Tokenización

In [2]:
import spacy
nlp = spacy.load('es_core_news_sm')

# text = """ La búsqueda de información en la web en los últimos años ha sido de vital importancia en el ámbito de las investigaciones. Debido al crecimiento vertiginoso de la información disponible en Internet, la cantidad de resultados obtenidos es muy amplia y muchas veces estos resultados no dicen nada significativo, por tal motivo, se observa la necesidad de reducir esa brecha y brindar resultados significativos y de importancia para el usuario. Muchos de los motores de búsqueda actuales realizan una búsqueda que se basa en la sintaxis de la información que se desea consultar; lo que hacen es encontrar coincidencias, ilustrando una lista de páginas web que pueden contener la respuesta, pero la mayoría de veces el usuario debe determinar si la información presentada es la correcta, convirtiéndose en una tarea bastante compleja dado la cantidad de resultados obtenidos. Los buscadores semánticos en cambio, encuentran resultados en función del contexto, información más exacta acerca de lo que se busca, ofreciendo una cantidad de resultados más sesgada, facilitando la labor de filtrar los resultados por parte del usuario. En el presente proyecto de trabajo de grado se plantea construir un motor de búsqueda inteligente, haciendo uso de la semántica mediante el gestor de base de datos SPARQL y del lenguaje RDF con el manejo de ontologías, que permita recuperar y encontrar la información solicitada de los documentos de investigación que se encuentran digitalizados en el Sistema de Investigaciones de la Universidad de Nariño. El proyecto será desarrollado por estudiantes investigadores del grupo de investigación GRIAS del programa de Ingeniería de Sistemas, de la facultad de Ingeniería de la Universidad de Nariño. De esta manera la investigación propende generar más investigación dentro de la Universidad de Nariño. Ésta es una herramienta orientada a la comunidad investigadora, que incorpora tecnologías, conocimientos y herramientas innovadoras como son: la web semántica, las ontologías, los motores de búsqueda, SPARQL y el lenguaje RDF, fundamentándose en el esquema de las bases de datos y la IA (Inteligencia Artificial); dos potentes ámbitos que en la actualidad son la raíz de muchos frutos obtenidos en la tecnología, que lo que hacen es facilitar la vida a las personas, fomentar la competitividad, motivar al cambio y generar conocimiento que enriquezca la vida informática y computacional. """
# text += """MOTOR DE BÚSQUEDA INTELIGENTE DE INFORMES DE INVESTIGACIÓN BASADO EN RECURSOS SEMÁNTICOS PARA EL SISTEMA DE INVESTIGACIONES DE LA UNIVERSIDAD DE NARIÑO"""
# text += """Web Semántica,SPARQL, RDF, Ontologia,  Motor de Búsqueda, Documentos Digitales"""
# text += """ FELIPE CUJAR ROSERO, Ingeniería de Sistemas, DAVID SANTIAGO PINCHAO ORTIZ, Silvio Ricardo, GRIAS """
# text += """ Herramientas y sistemas de gestión de conocimiento y recuperación de información """

###
##PRUEBA
text2 = """ Ingeniería de Sistemas, DAVID SANTIAGO PINCHAO ORTIZ, Silvio Ricardo Timaran Pereira, GRIAS """
text2 += """ Herramientas y sistemas de gestión de conocimiento y recuperación de informacion, humano """
document = nlp(text2) # Crea un objeto de spacy tipo nlp
###

# document = nlp(text) # Crea un objeto de spacy tipo nlp
tokens = [t.orth_ for t in document] # Crea una lista con las palabras del texto

In [3]:
tokens

[' ',
 'FELIPE',
 'CUJAR',
 'ROSERO',
 ',',
 'Ingeniería',
 'de',
 'Sistemas',
 ',',
 'DAVID',
 'SANTIAGO',
 'PINCHAO',
 'ORTIZ',
 ',',
 'Silvio',
 'Ricardo',
 'Timaran',
 'Pereira',
 ',',
 'GRIAS',
 ' ',
 'Herramientas',
 'y',
 'sistemas',
 'de',
 'gestión',
 'de',
 'conocimiento',
 'y',
 'recuperación',
 'de',
 'informacion',
 ',',
 'humano']

## Tokenización y Limpieza de signos de puntuación y stopwords

In [3]:
clean_words = [t.orth_ for t in document if not t.is_punct | t.is_stop]

In [4]:
clean_words

[' ',
 'FELIPE',
 'CUJAR',
 'ROSERO',
 'Ingeniería',
 'Sistemas',
 'DAVID',
 'SANTIAGO',
 'PINCHAO',
 'ORTIZ',
 'Silvio',
 'Ricardo',
 'Timaran',
 'Pereira',
 'GRIAS',
 ' ',
 'Herramientas',
 'y',
 'sistemas',
 'gestión',
 'conocimiento',
 'y',
 'recuperación',
 'informacion',
 'humano']

## Normalización

In [5]:
normalized_words = [t.lower() for t in clean_words if len(t) > 2 and t.isalpha()]

In [6]:
normalized_words

['felipe',
 'cujar',
 'rosero',
 'ingeniería',
 'sistemas',
 'david',
 'santiago',
 'pinchao',
 'ortiz',
 'silvio',
 'ricardo',
 'timaran',
 'pereira',
 'grias',
 'herramientas',
 'sistemas',
 'gestión',
 'conocimiento',
 'recuperación',
 'informacion',
 'humano']

In [7]:
type(normalized_words)

list

## Convertir a objeto nlp la lista normalizada

In [8]:
new_document = nlp(str(normalized_words)) # Crea un objeto de spacy tipo nlp

In [9]:
type(new_document)

spacy.tokens.doc.Doc

## Lematización

In [10]:
lemmas = [t.lemma_.lower() for t in new_document if not t.is_punct] ## en esta misma línea se ha eliminado puntuación

In [11]:
lemmas

['felipe',
 'cujar',
 'rosero',
 'ingeniería',
 'sistema',
 'david',
 'santiago',
 'pinchao',
 'ortiz',
 'silvio',
 'ricardo',
 'timar',
 'pereira',
 'grias',
 'herramienta',
 'sistema',
 'gestión',
 'conocimiento',
 'recuperación',
 'informacion',
 'humanar']

## Lematización con variaciones

In [12]:
lemmas_without_verbs = [t.lemma_.lower() for t in new_document if t.pos_ != 'VERB' and not t.is_punct]

In [13]:
lemmas_without_verbs

['felipe',
 'rosero',
 'sistema',
 'david',
 'santiago',
 'pinchao',
 'ortiz',
 'silvio',
 'ricardo',
 'pereira',
 'grias',
 'herramienta',
 'sistema',
 'gestión',
 'conocimiento',
 'recuperación',
 'informacion',
 'humanar']

In [14]:
lemmas_with_verbs = [t.lemma_.lower() for t in new_document if t.pos_ == 'VERB' and not t.is_punct]

In [15]:
lemmas_with_verbs

['cujar', 'ingeniería', 'timar']

In [16]:
lemmas_without_prons = [t.lemma_.lower() for t in new_document if t.pos_ != 'PRON' and not t.is_punct]

In [17]:
lemmas_without_prons

['felipe',
 'cujar',
 'rosero',
 'ingeniería',
 'sistema',
 'david',
 'santiago',
 'pinchao',
 'ortiz',
 'silvio',
 'ricardo',
 'timar',
 'pereira',
 'grias',
 'herramienta',
 'sistema',
 'gestión',
 'conocimiento',
 'recuperación',
 'informacion',
 'humanar']

# ALL EXECUTION IN ONE

In [8]:
import spacy
nlp = spacy.load('es_core_news_sm')

text2 = """ [ 太陽 la de para pos contra el ellos tu yo Ingeniería de Sistemas, DAVID SANTIAGO PINCHAO ORTIZ, Silvio Ricardo Timaran Pereira, GRIAS. """
text2 += """ Conocerse Herramientas y timar sistemas de gestión de conocimiento y recuperación de informacion, humano humanos humanaras Pasto"""

document = nlp(text2) # Crea un objeto de spacy tipo nlp

tokens = [t.orth_ for t in document] # Crea una lista con las palabras del texto

clean_words = [t.orth_ for t in document if not t.is_punct | t.is_stop]

normalized_words = [t.lower() for t in clean_words if len(t) > 2 and t.isalpha()]

new_document = nlp(str(normalized_words)) # Crea un objeto de spacy tipo nlp

lemmas = [t.lemma_.lower() for t in new_document if not t.is_punct] ## en esta misma línea se ha eliminado puntuación

lemmas_without_verbs = [t.lemma_.lower() for t in new_document if t.pos_ != 'VERB' and not t.is_punct]

lemmas_with_verbs = [t.lemma_.lower() for t in new_document if t.pos_ == 'VERB' and not t.is_punct]

lemmas_without_prons = [t.lemma_.lower() for t in new_document if t.pos_ != 'PRON' and not t.is_punct]

In [9]:
lemmas

['felipe',
 'cujar',
 'rosero',
 'pos',
 'ingeniería',
 'sistema',
 'david',
 'santiago',
 'pinchao',
 'ortiz',
 'silvio',
 'ricardo',
 'timar',
 'pereira',
 'grias',
 'conocerse',
 'herramienta',
 'timar',
 'sistema',
 'gestión',
 'conocimiento',
 'recuperación',
 'informacion',
 'humanar',
 'humano',
 'humanar',
 'pastar']