## Ejercicio 1

Utiliza `spaCy` para identificar todas las entidades nombradas en el siguiente fragmento de texto. 
Imprime cada entidad y su etiqueta. Reflexiona sobre si el modelo reconoce correctamente los lugares y organizaciones asturianas.

```python
texto = """
La Universidad de Oviedo organizó unas jornadas sobre innovación tecnológica en el Parque Científico Tecnológico de Gijón. 
Al evento asistieron representantes del Ayuntamiento de Gijón y del Gobierno del Principado de Asturias, junto con expertos de empresas como ArcelorMittal.
"""
```

In [2]:
# Parte 1
import spacy

nlp = spacy.load("es_core_news_md")

text = (
 """
La Universidad de Oviedo organizó unas jornadas sobre innovación tecnológica en el Parque Científico Tecnológico de Gijón. 
Al evento asistieron representantes del Ayuntamiento de Gijón y del Gobierno del Principado de Asturias, junto con expertos de empresas como ArcelorMittal.
"""
)

# Procesa el texto
doc = nlp(text)


# Itera sobre las entidades
for ent in doc.ents:
    # Imprime en pantalla el texto de la entidad y su etiqueta
    print(f'{ent.text}-> {ent.label_}')



Universidad de Oviedo-> LOC
Parque Científico Tecnológico de Gijón-> LOC
Ayuntamiento de Gijón-> LOC
Gobierno del Principado de Asturias-> LOC
ArcelorMittal-> ORG


## Ejercicio 2

Dado el siguiente texto, extrae todos los verbos utilizados. 

```python
texto = """
Me encantó el congreso de innovación educativa. Aprendí muchísimo sobre nuevas metodologías. 
Sin embargo, creo que el horario no fue muy cómodo. Algunos talleres se solapaban y eso generó cierta confusión.
"""
```

In [3]:
'''salida esperada:
Verbos encontrados: ['encantó', 'Aprendí', 'creo', 'solapaban', 'generó']
'''

doc = nlp("""
Me encantó el congreso de innovación educativa. Aprendí muchísimo sobre nuevas metodologías. 
Sin embargo, creo que el horario no fue muy cómodo. Algunos talleres se solapaban y eso generó cierta confusión.
""")
verbos = []
# Itera sobre los tokens
for token in doc:
    # Imprime en pantalla el texto y la etiqueta gramatical predicha
    if token.pos_ == 'VERB':
        verbos.append(token.text)
print(f'Verbos encontrados: {verbos}')


Verbos encontrados: ['encantó', 'Aprendí', 'creo', 'solapaban', 'generó']


## Ejercicio 3

Crea un patrón con `Matcher` que detecte frases donde alguien pide información en correos o mensajes formales, 
como "me gustaría tener información", "quisiera consultar información", "necesito información". Aplica el patrón al siguiente texto:

```python
texto = """
Buenos días, me gustaría tener información sobre si el aula de prácticas está disponible esta semana. 
También quisiera consultar información los horarios de tutorías del profesor de IA. Necesito información sobre el acceso remoto al laboratorio.
Gracias.
"""
```

In [4]:
'''
salida esperada:
me gustaría tener información
quisiera consultar información
Necesito información
'''
from spacy.matcher import Matcher
text = """
Buenos días, me gustaría tener información sobre si el aula de prácticas está disponible esta semana. 
También quisiera consultar información los horarios de tutorías del profesor de IA. Necesito información sobre el acceso remoto al laboratorio.
Gracias.
"""

doc = nlp(text)

pattern = [
    {"LOWER": "me", "OP": "?"},  # opcional: "me"
    {"LEMMA": {"IN": ["gustar", "querer", "necesitar", "consultar"]}},  # verbo principal
    {"POS": "VERB", "OP": "?"},  # verbo auxiliar, como "tener", "consultar"
    {"LEMMA": "información"}
]

matcher = Matcher(nlp.vocab)
matcher.add("informarse", [pattern])

matches = matcher(doc)
print("salida esperada:", [doc[start:end].text for match_id, start, end in matches])

salida esperada: ['me gustaría tener información', 'gustaría tener información', 'consultar información', 'quisiera consultar información', 'Necesito información']


## Ejercicio 4

Extrae todos los sustantivos comunes del siguiente texto.

```python
texto = """
El Vicerrectorado de Investigación anuncia la apertura del nuevo laboratorio de robótica en la Escuela Politécnica de Gijón. 
Se celebrará un seminario sobre inteligencia artificial aplicada a la industria asturiana.
"""
```

In [5]:
'''
salida esperada:
Sustantivos comunes: ['apertura', 'laboratorio', 'seminario', 'inteligencia', 'industria']
'''
doc = nlp("""
El Vicerrectorado de Investigación anuncia la apertura del nuevo laboratorio de robótica en la Escuela Politécnica de Gijón. 
Se celebrará un seminario sobre inteligencia artificial aplicada a la industria asturiana.
""")
sust = []
# Itera sobre los tokens
for token in doc:
    # Imprime en pantalla el texto y la etiqueta gramatical predicha
    if token.pos_ == 'NOUN':
        sust.append(token.text)
print(f'sustantivos comunes: {sust}')

sustantivos comunes: ['apertura', 'laboratorio', 'seminario', 'inteligencia', 'industria']


## Ejercicio 5

Consulta los [atributos de los tokens](https://spacy.io/api/token) antes de realizar el siguiente ejecicio.
Calcula la frecuencia de los lemas en el siguiente texto y muestra los 5 más frecuentes. 
Ignora palabras de parada (stop words) y signos de puntuación.

```python
texto = """
La Universidad de Oviedo promueve la excelencia en la investigación y la formación. 
La comunidad universitaria participa activamente en proyectos de innovación educativa, tecnológica y social.
"""
```

In [6]:
'''
salida esperada:
TOKEN: 

TOKEN: La
TOKEN: Universidad
TOKEN: de
TOKEN: Oviedo
TOKEN: promueve
TOKEN: la
TOKEN: excelencia
TOKEN: en
TOKEN: la
TOKEN: investigación
TOKEN: y
TOKEN: la
TOKEN: formación
TOKEN: .
TOKEN: 

TOKEN: La
TOKEN: comunidad
TOKEN: universitaria
TOKEN: participa
TOKEN: activamente
TOKEN: en
TOKEN: proyectos
...
TOKEN: social
TOKEN: .
TOKEN: 
'''

doc = nlp("""
La Universidad de Oviedo promueve la excelencia en la investigación y la formación. 
La comunidad universitaria participa activamente en proyectos de innovación educativa, tecnológica y social.
""")
# crea un contador
from collections import Counter
cont = Counter()
# quita stopwords, signos de puntuacion y espacios
for token in doc:
    if not token.is_stop and not token.is_punct and not token.is_space:

    #si el lemma del token no esta en el diccionario añadelo al contador, si está, sumale 1
        if token.lemma_ not in cont:
            cont[token.lemma_] = 1
        else:
            cont[token.lemma_] += 1
# imprime los 5 mas frecuentes
print(cont.most_common(5))



[('Universidad', 1), ('Oviedo', 1), ('promover', 1), ('excelencia', 1), ('investigación', 1)]


## Ejercicio 6

Divide el texto en oraciones y muestra solo aquellas que contienen al menos un nombre propio (PROPN). 

```python
texto = """
María presentó su TFG sobre procesamiento de lenguaje natural en la Universidad de Oviedo. 
Pedro, su compañero, lo hizo sobre visión artificial. Los dos trabajos fueron premiados por el tribunal. Además, fueron evaluados por Pepe, que tiene fama de ser duro. Tienen mucho mérito.
"""
```

In [7]:
'''
salida esperada:
María presentó su TFG sobre procesamiento de lenguaje natural en la Universidad de Oviedo.
Pedro, su compañero, lo hizo sobre visión artificial.
Además, fueron evaluados por Pepe, que tiene fama de ser duro.
'''

doc = nlp("""
María presentó su TFG sobre procesamiento de lenguaje natural en la Universidad de Oviedo. 
Pedro, su compañero, lo hizo sobre visión artificial. Los dos trabajos fueron premiados por el tribunal. Además, fueron evaluados por Pepe, que tiene fama de ser duro. Tienen mucho mérito.
""")

# separa el texto en oraciones
oraciones = list(doc.sents)
# para esta lista, imprime las que contengan un nombre propio, 'PROPN'
for oracion in oraciones:
    # si la oracion contiene un nombre propio, imprímela
    if any(token.pos_ == 'PROPN' for token in oracion):
        print(oracion.text)

María presentó su TFG sobre procesamiento de lenguaje natural en la Universidad de Oviedo. 

Pedro, su compañero, lo hizo sobre visión artificial.
Además, fueron evaluados por Pepe, que tiene fama de ser duro.


## Ejercicio 7

Define una extensión personalizada en los tokens llamada es_actor_institucional que devuelva True si el token forma parte de una entidad nombrada de tipo PER (persona) o ORG (organización).
Úsala para imprimir solo los nombres de personas y organizaciones mencionadas en el siguiente texto:

```python
texto = """
El rector Ignacio Villaverde participó junto a representantes de la Universidad de Oviedo y de la Fundación Princesa de Asturias en la ceremonia inaugural. También asistieron miembros del Gobierno del Principado y del Consejo Social.
"""
```

In [8]:
from spacy.tokens import Token
doc = nlp("""
El rector Ignacio Villaverde participó junto a representantes de la Universidad de Oviedo y de la Fundación Princesa de Asturias en la ceremonia inaugural. También asistieron miembros del Gobierno del Principado y del Consejo Social.
""")
# define la extensión es_actor_institucional, True si el token es de tipo PER o ORG
# Definimos la extensión personalizada
# Crear conjunto de tokens que pertenecen a entidades PER u ORG
tokens_actores = set()
for ent in doc.ents:
    if ent.label_ in {"PER", "ORG"}:
        tokens_actores.update(ent)

# Extensión personalizada
Token.set_extension("es_actor_institucional", getter=lambda token: token in tokens_actores, force=True)

# Obtener nombres únicos de entidades PER u ORG
nombres = {ent.text for ent in doc.ents if ent.label_ in {"PER", "ORG"}}

# Imprimir
print("Actores institucionales (personas u organizaciones):")
for nombre in nombres:
    print("-", nombre)

Actores institucionales (personas u organizaciones):
- Universidad de Oviedo
- Ignacio Villaverde
- Consejo Social


## Ejercicio 8

Busca secuencias de adjetivo + sustantivo (como "gran proyecto", "nueva infraestructura") en este texto sobre campus:

```python
texto = """
La nueva biblioteca del campus ofrece un gran espacio de estudio. 
Además, se ha instalado moderna infraestructura tecnológica en las aulas.
"""
```

In [9]:
'''
salida esperada:
nueva biblioteca
gran espacio
moderna infraestructura
'''
doc = nlp( """
La nueva biblioteca del campus ofrece un gran espacio de estudio. 
Además, se ha instalado moderna infraestructura tecnológica en las aulas.
""")

pattern = [
    {"POS": "ADJ"},  
    {"POS": "NOUN"}
]

matcher = Matcher(nlp.vocab)
matcher.add("informarse", [pattern])

matches = matcher(doc)
print("salida esperada:", [doc[start:end].text for match_id, start, end in matches])


salida esperada: ['nueva biblioteca', 'gran espacio', 'moderna infraestructura']


## Ejercicio 9

Cuenta cuántas entidades de cada tipo aparecen en este texto institucional. 
¿Qué categorías predominan? ¿Es útil esta distribución para entender el enfoque del mensaje?

```python
texto = """
La Universidad de Oviedo colabora con la Fundación CTIC, el Instituto Nacional de Ciberseguridad y el Gobierno de Asturias en un nuevo proyecto.
"""
```

In [10]:
'''
salida esperada:
Counter({'LOC': 2, 'ORG': 2})
'''
doc = nlp( """
La Universidad de Oviedo colabora con la Fundación CTIC, el Instituto Nacional de Ciberseguridad y el Gobierno de Asturias en un nuevo proyecto.
""")
from collections import Counter
# crea un contador  
cont = Counter()
# para cada token, si su label no está en el contador, añádelo, si no, sumale 1
for ent in doc.ents:
    if ent.label_ not in cont:
        cont[ent.label_] = 1
    else:
        cont[ent.label_] += 1
# imprime el contador
print(cont)

Counter({'LOC': 2, 'ORG': 2})


## Ejercicio 10

Consulta la documentación sobre los [visulizadores de `spaCy`](https://spacy.io/usage/visualizers). Utiliza `displacy` para visualizar las dependencias sintácticas del siguiente enunciado. 
¿Qué estructura predomina? ¿Qué patrones se podrían extraer para clasificar estilos de escritura en textos académicos?

```python
texto = """
El artículo sobre redes neuronales profundas fue publicado en una revista científica de alto impacto.
"""
```

In [12]:
from spacy import displacy
doc = nlp( """
El artículo sobre redes neuronales profundas fue publicado en una revista científica de alto impacto.
""")

html=displacy.render(doc, style="dep",jupyter=False)
from IPython.display import display, HTML
display(HTML(html))