# Modelos Estadísticos

Algunas de las cosas más interesantes que puedes analizar son específicas al contexto: por ejemplo, si una palabra es un verbo o si un span de texto es el nombre de una persona.

Los modelos estadísticos le permiten a spaCy hacer predicciones dentro del contexto. Esto normalmente incluye las part-of-speech tags, dependencias sintácticas y entidades nombradas.

Los modelos son entrenados con datasets de textos de ejemplo anotados.

Los modelos pueden ser actualizados con más ejemplos para afinar sus predicciones - por ejemplo, para que se desempeñe mejor con tus datos específicos.

## Paquetes de modelos

spaCy provee varios paquetes de modelos pre-entrenados que puedes descargar usando el comando `spacy download`. Por ejemplo, el paquete `es_core_news_sm` es un modelo pequeño de español que provee soporte para todas las capacidades centrales y está entrenado usando textos de noticias.

El método `spacy.load` carga el paquete de modelo por su nombre y devuelve un objeto `nlp`.

El paquete provee los parámetros binarios que le permiten a spaCy hacer predicciones.

También incluye el vocabulario y la metadata para que spaCy sepa cuál clase de lenguaje usar y cómo configurar el pipeline de procesamiento

https://spacy.io/models

In [None]:
! python -m spacy download es_core_news_sm

Collecting es_core_news_sm==2.2.5
  Downloading https://github.com/explosion/spacy-models/releases/download/es_core_news_sm-2.2.5/es_core_news_sm-2.2.5.tar.gz (16.2 MB)
[K     |████████████████████████████████| 16.2 MB 5.1 MB/s 
Building wheels for collected packages: es-core-news-sm
  Building wheel for es-core-news-sm (setup.py) ... [?25l[?25hdone
  Created wheel for es-core-news-sm: filename=es_core_news_sm-2.2.5-py3-none-any.whl size=16172933 sha256=7d0a3157b6d8a04184e2bf71a654d4efe89a190fa242f7cbc90dd4f921a899c4
  Stored in directory: /tmp/pip-ephem-wheel-cache-2vi9mqfd/wheels/21/8d/a9/6c1a2809c55dd22cd9644ae503a52ba6206b04aa57ba83a3d8
Successfully built es-core-news-sm
Installing collected packages: es-core-news-sm
Successfully installed es-core-news-sm-2.2.5
[38;5;2m✔ Download and installation successful[0m
You can now load the model via spacy.load('es_core_news_sm')


In [None]:
import spacy
import es_core_news_sm

nlp = es_core_news_sm.load()

## Prediciendo part-of-speech tags

Revisemos las predicciones del modelo. En este ejemplo estamos usando spaCy para predecir part-of-speech tags, los tipos de palabras en el contexto.

Primero, cargamos el modelo pequeño de español y recibimos un objeto nlp.

Luego, procesamos el texto "Ella comió pizza".

Para cada token en el Doc podemos imprimir en pantalla el texto y el part-of-speech tag predicho usando el atributo .pos_.

Aquí el modelo predijo correctamente "comió" como el verbo y "pizza" como el sustantivo.

In [None]:
import spacy

# Carga el modelo pequeño de español
import es_core_news_sm

nlp = es_core_news_sm.load()

# Procesa un texto
doc = nlp("Ella comió pizza")

# Itera sobre los tokens
for token in doc:
    # Imprime en pantalla el texto y el part-of-speech tag predicho
    print(token.text, token.pos_)

Ella PRON
comió VERB
pizza PROPN


## Prediciendo dependencias sintácticas

Además de los part-of-speech tags, también podemos predecir las relaciones entre las palabras. Por ejemplo, si una palabra es el sujeto o el objeto de una oración.

El atributo `.dep_` devuelve el dependency label predicho.

El atributo `.head` devuelve el token cabeza sintáctica. Otra forma de pensarlo es como el token padre al que esta palabra está atada.

In [None]:
for token in doc:
    print(token.text, token.pos_, token.dep_, token.head.text)

Ella PRON nsubj comió
comió VERB ROOT comió
pizza PROPN obj comió


Displacy es un módulo que permite visualizar las dependencias sintácticas.

In [None]:
from spacy import displacy

displacy.render(doc, style='dep', jupyter=True)

## Prediciendo entidades nombradas

Las entidades nombradas son "objetos de la vida real" que tienen un nombre asignado. Por ejemplo, una persona, una organización o un país.

El atributo `doc.ents` te permite acceder a las entidades nombradas predichas por el modelo.

Devuelve un iterador de objetos Span, así que podemos imprimir en pantalla el texto y el label de la entidad usando el atributo `.label_`.

En este caso, el modelo predijo correctamente "Apple" como una organización, "EE.UU" como un lugar, "iPhone" y "Galaxy Note 9" con la categoría miscelanea.

In [None]:
# Procesa un texto
doc = nlp(
    "Apple es la marca que más satisfacción genera en EE.UU., "
    "pero el iPhone, fue superado por el Galaxy Note 9"
)



# Itera sobre las entidades predichas
for ent in doc.ents:
    # Imprime en pantalla el texto y el label de la entidad
    print(ent.text, ent.label_)

Apple ORG
EE.UU LOC
iPhone MISC
Galaxy Note 9 MISC


In [None]:
palabra = 'apple iphone'
palabra.capitalize()

'Apple iphone'

## Tips: el método `spacy.explain`

Para obtener definiciones de los tags y labels más comunes puedes usar la función asistente `spacy.explain`.

Por ejemplo, "LOC" para lugar no es necesariamente intuitivo, pero spacy.explain puede decirte que se refiere a nombres de ubicaciones definidas política o geográficamente.

Lo mismo funciona para part-of-speech tags y dependency labels.

In [None]:
spacy.explain("LOC")

'Non-GPE locations, mountain ranges, bodies of water'

In [None]:
spacy.explain("NNP")

'noun, proper singular'

In [None]:
spacy.explain("MISC")

'Miscellaneous entities, e.g. events, nationalities, products or works of art'