<a href="https://colab.research.google.com/github/jumafernandez/demo-coderhouse/blob/main/notebooks/demo_coderhouse.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# SpaCy para NLP

En esta notebook se proponen algunos ejemplos para poner en práctica los temas abordados en la **demo de Coder House** sobre el curso *NLP & Deep Learning aplicado a Ciencia de Datos*.

### 1. Instalación y carga de SpaCy

En primer lugar, instalamos SpaCy en la notebook de Colab y cargamos el modelo en español:

In [1]:
!pip install -U spacy
!python -m spacy download es_core_news_sm

import spacy

nlp = spacy.load("es_core_news_sm")

Collecting es-core-news-sm==3.7.0
  Downloading https://github.com/explosion/spacy-models/releases/download/es_core_news_sm-3.7.0/es_core_news_sm-3.7.0-py3-none-any.whl (12.9 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m12.9/12.9 MB[0m [31m30.1 MB/s[0m eta [36m0:00:00[0m
Installing collected packages: es-core-news-sm
Successfully installed es-core-news-sm-3.7.0
[38;5;2m✔ Download and installation successful[0m
You can now load the package via spacy.load('es_core_news_sm')
[38;5;3m⚠ Restart to reload dependencies[0m
If you are in a Jupyter or Colab notebook, you may need to restart Python in
order to load all the package's dependencies. You can do this by selecting the
'Restart kernel' or 'Restart runtime' option.


### 2. POS Tagging

Procesamos dos frases con SpaCy para demostrar el etiquetado de partes del discurso (POS tagging) de la palabra "bailando" en distintos contextos:

In [6]:
frase1 = "Voy a correr por la mañana."
frase2 = "El correr es saludable."

doc1 = nlp(frase1)
doc2 = nlp(frase2)

print(frase1)
for token in doc1:
    print(token.text, token.lemma_, token.pos_)

print("\n" + frase2)
for token in doc2:
    print(token.text, token.lemma_, token.pos_)

Voy a correr por la mañana.
Voy ir AUX
a a ADP
correr correr VERB
por por ADP
la el DET
mañana mañana NOUN
. . PUNCT

El correr es saludable.
El el DET
correr correr NOUN
es ser AUX
saludable saludable ADJ
. . PUNCT


### 3. Reconocimiento de Entidades Nombradas (NER)

Utilizamos SpaCy para realizar el reconocimiento de entidades nombradas (NER) en un texto que menciona empresas y ubicaciones:

In [3]:
texto = "Apple es una empresa tecnológica con sede en Cupertino, California. Google, por otro lado, tiene su sede principal en Mountain View."

doc = nlp(texto)

for ent in doc.ents:
    print(ent.text, ent.label_)

Apple ORG
Cupertino LOC
California LOC
Google ORG
Mountain View LOC


# 4. Lematización

Lematizamos una oración sobre una actividad recreativa:

In [4]:
texto = "Los niños estaban jugando en el parque cercano."

doc = nlp(texto)

for token in doc:
    print(token.text, token.lemma_)

Los el
niños niño
estaban estar
jugando jugar
en en
el el
parque parque
cercano cercano
. .
