<a href="https://colab.research.google.com/github/Linamaho/LearningNLP/blob/main/Primeros_ejemplos_con_PLN.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Usa este cuaderno para empezar a familiarizarte con PNL y spaCy ✅
Algunos de los ejemplos estan adaptados del curso Advance NLP with spaCy disponible en [course.spacy.io/en](https://)

A continuacion algunas lineas basicas de codigo para familiarizarte con SpaCy

# Primero, asegurate de correr la primera celda para instalar SpaCy y el Pipeline

In [None]:
# instalar Spacy y el modelo en español
!pip install spacy
!python -m spacy download es_core_news_sm
#python -m spacy download es_core_web_md  #Usa esta opcion si quieres descargar el modelo mediano

In [35]:
# Cargar el pipeline pequeño (En español)
nlp = spacy.load("es_core_news_sm")



---



---



## Seleccionar partes del texto

In [31]:
# tokenizar el texto
doc = nlp("Esta es una frase.")

# Imprimir la primera palabra de la frase
print("La primera palabra en la frase es:", doc[0])


La primera palabra en la frase es: Esta


In [32]:
# Imprimir la ultima palabra en la frase
doc[3]

frase



---



---



## Veamos algunos ejemplos interesantes de **PLN**

Como extraer los porcentajes en un texto:

In [42]:
# Procesa el texto
doc = nlp(
    "En 1990, más del 60 % de las personas en Asia del Este se encontraban "
    "en extrema pobreza. Ahora, menos del 4 % lo están."
)

# Itera sobre los tokens en el doc
for token in doc:
    # Revisa si el token parece un número
    if token.like_num:
        # Obtén el próximo token en el documento
        next_token = doc[token.i + 1]
        # Revisa si el texto del siguiente token es igual a '%'
        if next_token.text == "%":
            print("Porcentaje encontrado:", token.text)

Porcentaje encontrado: 60
Porcentaje encontrado: 4


### Predecir nombres de entidades

In [53]:
# *******Inserta el texto que quieras analizar******
text = "Apple quiere comprar una Startup de EE.UU. para asi vender mas iPhones"

# Process the text
doc = nlp(text)

# Iterate over the entities
for ent in doc.ents:
    # Print the entity text and label
    print(ent.text, ent.label_)

Apple ORG
Startup ORG
EE.UU. LOC
iPhones MISC


In [51]:
spacy.explain("ORG")

'Companies, agencies, institutions, etc.'

In [52]:
spacy.explain("MISC")

'Miscellaneous entities, e.g. events, nationalities, products or works of art'



---



---



## Encontrar palabras y frases en un texto usndo el Matcher

Ejemplo 1

In [58]:
from spacy.matcher import Matcher
matcher = Matcher(nlp.vocab)

doc = nlp(
    "Después de hacer la actualización de iOS no notarás un rediseño "
    "radical del sistema: no se compara con los cambios estéticos que "
    "tuvimos con el iOS 7. La mayoría de las funcionalidades del iOS 11 "
    "siguen iguales en el iOS 10."
)

# Escribe un patrón para las versiones de iOS enteras
# ("iOS 7", "iOS 11", "iOS 10")
pattern = [{"TEXT": "iOS"}, {"IS_DIGIT": True}]

# Añade el patrón al matcher y usa el matcher sobre el documento
matcher.add("IOS_VERSION_PATTERN", [pattern])
matches = matcher(doc)
print("Total de resultados encontrados:", len(matches))

# Itera sobre los resultados e imprime el texto del span
for match_id, start, end in matches:
    print("Resultado encontrado:", doc[start:end].text)

Total de resultados encontrados: 3
Resultado encontrado: iOS 7
Resultado encontrado: iOS 11
Resultado encontrado: iOS 10


## Ejemplo 2

In [59]:
doc = nlp(
    "descargué Fortnite en mi computadora, pero no puedo abrir el juego. "
    "Ayuda? Cuando estaba descargando Minecraft, conseguí la versión de Windows "
    "donde tiene una carpeta '.zip' y usé el programa por defecto para "
    "descomprimirlo…así que también tengo que descargar Winzip?"
)

# Escribe un patrón que encuentre una forma de "descargar" más un nombre propio
pattern = [{"LEMMA": "descargar"}, {"POS": "PROPN"}]

# Añade el patrón al matcher y usa el matcher sobre el documento
matcher.add("DOWNLOAD_THINGS_PATTERN", [pattern])
matches = matcher(doc)
print("Total de resultados encontrados:", len(matches))

# Itera sobre los resultados e imprime el texto del span
for match_id, start, end in matches:
    print("Resultado encontrado:", doc[start:end].text)

Total de resultados encontrados: 3
Resultado encontrado: descargué Fortnite
Resultado encontrado: descargando Minecraft
Resultado encontrado: descargar Winzip
