**Spacy** Es una libreria de lenguaje natural, diseñada para manejar de forma eficiente las tareas y algoritmos del procesamiento de lenguaje natural, es la librería más rápida y eficiente.

**NLTK** es más vieja que spacy, tiene muchas funcionalidades, pero incluye implementaciones menos eficientes que spacy

In [1]:
import spacy

In [2]:
dictionary = spacy.load('es_core_news_sm')

In [3]:
doc = dictionary("Esto es una frase de pruebas, para analizar texto")

In [4]:
for palabra in doc:
    print(palabra, palabra.pos_)

Esto PRON
es AUX
una DET
frase NOUN
de ADP
pruebas NOUN
, PUNCT
para ADP
analizar VERB
texto NOUN


In [5]:
doc3 = dictionary("Esta es de mis frases para escribir favoritas, porque puedo describir muchas cosas. Esta es mi segunda frase. Por último debo decir que amo a Jorge")

In [6]:
for frase in doc3.sents:
    print(frase)

Esta es de mis frases para escribir favoritas, porque puedo describir muchas cosas.
Esta es mi segunda frase.
Por último debo decir que amo a Jorge


In [7]:
for parte in doc3.noun_chunks:
    print(parte)

Esta
muchas cosas
Esta
Jorge


In [8]:
from spacy import displacy

In [9]:
displacy.render(doc3,style='dep',options={'distance':100})

In [10]:
displacy.render(doc3,style='ent')

In [11]:
displacy.serve(doc3,style='dep')




Using the 'dep' visualizer
Serving on http://0.0.0.0:5000 ...

Shutting down server on port 5000.


STOPS WORDS: Se importa spacy y el diccionario de palabras en español

In [12]:
print(dictionary.Defaults.stop_words)

{'cuanto', 'o', 'sera', 'aunque', 'fin', 'temprano', 'cuenta', 'entre', 'estaban', 'si', 'solas', 'buenos', 'usan', 'sois', 'vuestras', 'cómo', 'estais', 'demás', 'modo', 'todavia', 'voy', 'quizás', 'usas', 'conseguimos', 'será', 'misma', 'través', 'que', 'ahi', 'los', 'hoy', 'muchas', 'sin', 'tercero', 'siguiente', 'aquél', 'llevar', 'mia', 'ustedes', 'ésas', 'hicieron', 'al', 'estar', 'detras', 'ahí', 'luego', 'buena', 'deben', 'unos', 'podrian', 'quienes', 'casi', 'ademas', 'manifestó', 'haya', 'anterior', 'varios', 'vez', 'vais', 'tres', 'ha', 'haces', 'hasta', 'mayor', 'estaba', 'encuentra', 'ninguno', 'cierto', 'habia', 'ningún', 'ciertas', 'mal', 'otras', 'poder', 'pueda', 'hacerlo', 'salvo', 'son', 'nuevo', 'tenemos', 'podrias', 'diferente', 'segun', 'estoy', 'sido', 'cuanta', 'dan', 'cuándo', 'sabeis', 'vuestro', 'suyas', 'dado', 'sólo', 'esta', 'añadió', 'podrán', 'seis', 'llegó', 'habrá', 'nueve', 'estará', 'partir', 'pues', 'es', 'mediante', 'parte', 'pasado', 'ultimo', 'en

In [13]:
dictionary.vocab['nuevo'].is_stop

True

In [14]:
dictionary.vocab['tb'].is_stop

False

In [15]:
dictionary.Defaults.stop_words.add('mesa')
#dictionary.vocab['mesa'].is_stop=True

In [16]:
len(dictionary.Defaults.stop_words)

522

EMPAREJAMIENTO:

In [17]:
from spacy.matcher import Matcher
matcher = Matcher(dictionary.vocab)
#El patron es lo que va a buscar en el documento
patron = [{'LOWER':'coche'}]


In [18]:
#Se le añade el patron al matcher
matcher.add('coche',[patron])
doc5 = dictionary('El coche eléctrico es el futuro. La contaminación disminuirá con el uso del coche eléctrico')
coincidencias = matcher(doc5)
print(coincidencias)

[(6709559885411883416, 1, 2), (6709559885411883416, 14, 15)]


In [19]:
for id, inicio, fin in coincidencias:
    id_str = dictionary.vocab.strings[id]
    palabra = doc[inicio:fin]
    print(id, id_str, inicio, fin, palabra.text)

6709559885411883416 coche 1 2 es
6709559885411883416 coche 14 15 


EJEMPLO CON FRASES DE UN FICHERO

In [20]:
patron1 = [{'LOWER':'internet'}]
patron2 = [{'LOWER':'negocio'}]


In [21]:
matcher = Matcher(dictionary.vocab)
matcher.add('Busqueda1',[patron1,patron2])

In [22]:
with open('frases.txt') as fichero:
    datos_fichero = fichero.read()
    doc = dictionary(datos_fichero)
    

In [23]:
coincidencias = matcher(doc)
print(coincidencias)
for id, inicio, fin in coincidencias:
    id_str = dictionary.vocab.strings[id]
    palabra = doc[inicio:fin+5]
    print(id,id_str,inicio,fin,palabra.text)

[(13679233311802880137, 28, 29), (13679233311802880137, 33, 34), (13679233311802880137, 36, 37), (13679233311802880137, 144, 145), (13679233311802880137, 183, 184)]
13679233311802880137 Busqueda1 28 29 negocio no estÃ¡ en Internet
13679233311802880137 Busqueda1 33 34 Internet, tu negocio no existe
13679233311802880137 Busqueda1 36 37 negocio no existe.
La
13679233311802880137 Busqueda1 144 145 Internet es positivo porque nos une
13679233311802880137 Busqueda1 183 184 Internet es mucho mÃ¡s que una


In [25]:
documento = dictionary(u"Yo hice varios cursos el mes pasado")
for palabra in documento:
    print(f"{palabra.text:{10}} {palabra.pos_:{10}} {palabra.tag_}")

Yo         PRON       PRON
hice       VERB       VERB
varios     DET        DET
cursos     NOUN       NOUN
el         DET        DET
mes        NOUN       NOUN
pasado     ADJ        ADJ


In [26]:
contador = documento.count_by(spacy.attrs.POS)
contador

{95: 1, 100: 1, 90: 2, 92: 2, 84: 1}

In [27]:
documento.vocab[95].text

'PRON'

In [31]:
for frase in doc.ents:
    displacy.render(dictionary(frase.text),style='ent',jupyter=True)



Para trabajar con scikit-learn se siguen los siguientes pasos:
1. Importar el modelo.
2. Inicializar los parámetros del modelo
3. Los datos disponibles se dividen entre datos de entrenamiento y datos de prueba
4. Se entrena el modelo con los datos de entrenamiento
5. Se predicen las etiquetas para los datos de prueba
6. Se evaluan los datos