# Tema 2: Análisis lingüístico

## Ejercicio 1: Análisis con NLTK

In [1]:
from nltk.tokenize import word_tokenize, sent_tokenize, PunktSentenceTokenizer, RegexpTokenizer
from nltk.tokenize.treebank import TreebankWordDetokenizer
from nltk.corpus import stopwords
from nltk.probability import FreqDist
from nltk.stem import SnowballStemmer, WordNetLemmatizer
from nltk.tree import Tree
from nltk import pos_tag, ne_chunk
import string
from pathlib import Path

PATH_DATA = Path.cwd().parent / 'data'

### Apartado 1.1: Texto en inglés

In [2]:
with open(PATH_DATA / 'data_science.txt', 'r', encoding='utf-8') as f:
    text = f.read()

print(text)

Data science is the study of the extraction of knowledge from data. It uses various techniques from many fields, including signal processing, mathematics, probability models, machine learning, computer programming, statistics, data engineering, pattern recognition and learning, visualization, uncertainty modeling, data warehousing, and high performance computing with the goal of extracting useful knowledge from the data. Data Science is not restricted to only big data, although the fact that data is scaling up makes big data an important aspect of data science.
A practitioner of data science is called a data scientist. Data scientists solve complex data problems using various elements of mathematics, statistics and computer science, although expertise in these subjects are not required. However, a data scientist is most likely to be an expert in only one or two of these disciplines, meaning that cross disciplinary teams can be a key component of data science.
Good data scientists are a

a) Tokenización texto

In [3]:
tokenizer = PunktSentenceTokenizer()
sentences = tokenizer.tokenize(text)
sentences

['Data science is the study of the extraction of knowledge from data.',
 'It uses various techniques from many fields, including signal processing, mathematics, probability models, machine learning, computer programming, statistics, data engineering, pattern recognition and learning, visualization, uncertainty modeling, data warehousing, and high performance computing with the goal of extracting useful knowledge from the data.',
 'Data Science is not restricted to only big data, although the fact that data is scaling up makes big data an important aspect of data science.',
 'A practitioner of data science is called a data scientist.',
 'Data scientists solve complex data problems using various elements of mathematics, statistics and computer science, although expertise in these subjects are not required.',
 'However, a data scientist is most likely to be an expert in only one or two of these disciplines, meaning that cross disciplinary teams can be a key component of data science.',
 '

In [4]:
tokens_nltk = word_tokenize(text)
print(f'word_tokenize: {len(tokens_nltk)} tokens')
tokens_nltk[:20]

word_tokenize: 215 tokens


['Data',
 'science',
 'is',
 'the',
 'study',
 'of',
 'the',
 'extraction',
 'of',
 'knowledge',
 'from',
 'data',
 '.',
 'It',
 'uses',
 'various',
 'techniques',
 'from',
 'many',
 'fields']

In [5]:
tokens_split = text.split()
print(f'split(): {len(tokens_split)} tokens')
tokens_split[:20]

split(): 189 tokens


['Data',
 'science',
 'is',
 'the',
 'study',
 'of',
 'the',
 'extraction',
 'of',
 'knowledge',
 'from',
 'data.',
 'It',
 'uses',
 'various',
 'techniques',
 'from',
 'many',
 'fields,',
 'including']

b) Eliminar signos de puntuación

In [6]:
# Opción 1: Filtrar con list comprehension
tokens_no_punct = [t for t in tokens_nltk if t not in string.punctuation]
print(f'Opción 1 (list comprehension): {len(tokens_no_punct)} tokens')

# Opción 2: Usar RegexpTokenizer (tokeniza sin puntuación directamente)
tokenizer_words = RegexpTokenizer(r'\w+')
tokens_no_punct_regex = tokenizer_words.tokenize(text)
print(f'Opción 2 (RegexpTokenizer): {len(tokens_no_punct_regex)} tokens')

tokens_no_punct[:20]

Opción 1 (list comprehension): 189 tokens
Opción 2 (RegexpTokenizer): 190 tokens


['Data',
 'science',
 'is',
 'the',
 'study',
 'of',
 'the',
 'extraction',
 'of',
 'knowledge',
 'from',
 'data',
 'It',
 'uses',
 'various',
 'techniques',
 'from',
 'many',
 'fields',
 'including']

c) Palabras más frecuentes

In [7]:
freq_before = FreqDist(tokens_nltk)
print('Con puntuación:', freq_before.most_common(5))

freq_after = FreqDist(tokens_no_punct)
print('Sin puntuación:', freq_after.most_common(5))

freq_lower = FreqDist([t.lower() for t in tokens_no_punct])
print(f'"data" aparece {freq_lower["data"]} veces')

Con puntuación: [(',', 17), ('data', 16), ('of', 9), ('.', 9), ('and', 6)]
Sin puntuación: [('data', 16), ('of', 9), ('and', 6), ('science', 5), ('is', 5)]
"data" aparece 19 veces


d) Eliminar stopwords

In [8]:
stop_words = set(stopwords.words('english'))
detokenizer = TreebankWordDetokenizer()

for i, sent in enumerate(sentences):
    tokens = word_tokenize(sent)
    filtered = [t for t in tokens if t.lower() not in stop_words]
    print(f'Frase {i+1} (sin filtrar): {detokenizer.detokenize(tokens)}')
    print(f'Frase {i+1} (filtrada): {detokenizer.detokenize(filtered)}')
    print()

Frase 1 (sin filtrar): Data science is the study of the extraction of knowledge from data.
Frase 1 (filtrada): Data science study extraction knowledge data.

Frase 2 (sin filtrar): It uses various techniques from many fields, including signal processing, mathematics, probability models, machine learning, computer programming, statistics, data engineering, pattern recognition and learning, visualization, uncertainty modeling, data warehousing, and high performance computing with the goal of extracting useful knowledge from the data.
Frase 2 (filtrada): uses various techniques many fields, including signal processing, mathematics, probability models, machine learning, computer programming, statistics, data engineering, pattern recognition learning, visualization, uncertainty modeling, data warehousing, high performance computing goal extracting useful knowledge data.

Frase 3 (sin filtrar): Data Science is not restricted to only big data, although the fact that data is scaling up makes b

e) POS tagging

In [9]:
pos_tags = pos_tag(word_tokenize(sentences[0]))
pos_tags

[('Data', 'NNP'),
 ('science', 'NN'),
 ('is', 'VBZ'),
 ('the', 'DT'),
 ('study', 'NN'),
 ('of', 'IN'),
 ('the', 'DT'),
 ('extraction', 'NN'),
 ('of', 'IN'),
 ('knowledge', 'NN'),
 ('from', 'IN'),
 ('data', 'NNS'),
 ('.', '.')]

f) Stemming

In [10]:
stemmer = SnowballStemmer('english')

for token in word_tokenize(sentences[0]):
    print(f'{token:20} -> {stemmer.stem(token)}')

Data                 -> data
science              -> scienc
is                   -> is
the                  -> the
study                -> studi
of                   -> of
the                  -> the
extraction           -> extract
of                   -> of
knowledge            -> knowledg
from                 -> from
data                 -> data
.                    -> .


g) Lematización

In [11]:
lemmatizer = WordNetLemmatizer()

def wn_pos(treebank_tag):
    if treebank_tag.startswith('J'):
        return 'a'
    if treebank_tag.startswith('V'):
        return 'v'
    if treebank_tag.startswith('N'):
        return 'n'
    if treebank_tag.startswith('R'):
        return 'r'
    return 'n'

print(f'{"Token":<20} {"Stem":<20} {"Lemma":<20}')
for token, tag in pos_tag(word_tokenize(sentences[0])):
    lemma = lemmatizer.lemmatize(token.lower(), wn_pos(tag))
    print(f'{token:<20} {stemmer.stem(token):<20} {lemma:<20}')


Token                Stem                 Lemma               


Data                 data                 data                
science              scienc               science             
is                   is                   be                  
the                  the                  the                 
study                studi                study               
of                   of                   of                  
the                  the                  the                 
extraction           extract              extraction          
of                   of                   of                  
knowledge            knowledg             knowledge           
from                 from                 from                
data                 data                 data                
.                    .                    .                   


h) Entidades nombradas

In [12]:
entities = []

for sent in sentences:
    tokens = word_tokenize(sent)
    pos_tags = pos_tag(tokens)

    for chunk in ne_chunk(pos_tags, binary=False):
        if isinstance(chunk, Tree):
            entity = " ".join(word for word, _ in chunk.leaves())
            entity_type = chunk.label()
            entities.append((entity, entity_type))

print(f"Entidades encontradas ({len(entities)}):")
for ent, label in entities:
    print(f"{ent:<30} {label}")

Entidades encontradas (7):
Data                           GPE
Data                           PERSON
Science                        ORGANIZATION
Data                           GPE
Good                           GPE
Kaggle                         PERSON
Google Colab                   PERSON


### Apartado 1.2: Texto en español

In [13]:
with open(PATH_DATA / 'ciencia_datos.txt', 'r', encoding='utf-8') as f:
    text = f.read()

print(text)

Las personas que se dedican a la ciencia de datos se les conoce como científico de datos. Se define al científico de datos como una mezcla de estadísticos, computólogos y pensadores creativos, con las siguientes habilidades:

Recopilar, procesar y extraer valor de las diversas y extensas bases de datos.
Imaginación para comprender, visualizar y comunicar sus conclusiones a los no científicos de datos.
Capacidad para crear soluciones basadas en datos que aumentan los beneficios, reducen los costos.
Los científicos de datos trabajan en todas las industrias y hacen frente a los grandes proyectos de datos en todos los niveles.
El doctor en estadística Nathan Yau, precisó lo siguiente: el científico de datos es un estadístico que debería aprender interfaces de programación de aplicaciones (APIs), bases de datos y extracción de datos; es un diseñador que deberá aprender a programar; y es un computólogo que deberá saber analizar y encontrar datos con significado. 6

En la tesis doctoral de Be

a) Tokenización texto

In [14]:
sentences = sent_tokenize(text, language='spanish')
sentences

['Las personas que se dedican a la ciencia de datos se les conoce como científico de datos.',
 'Se define al científico de datos como una mezcla de estadísticos, computólogos y pensadores creativos, con las siguientes habilidades:\n\nRecopilar, procesar y extraer valor de las diversas y extensas bases de datos.',
 'Imaginación para comprender, visualizar y comunicar sus conclusiones a los no científicos de datos.',
 'Capacidad para crear soluciones basadas en datos que aumentan los beneficios, reducen los costos.',
 'Los científicos de datos trabajan en todas las industrias y hacen frente a los grandes proyectos de datos en todos los niveles.',
 'El doctor en estadística Nathan Yau, precisó lo siguiente: el científico de datos es un estadístico que debería aprender interfaces de programación de aplicaciones (APIs), bases de datos y extracción de datos; es un diseñador que deberá aprender a programar; y es un computólogo que deberá saber analizar y encontrar datos con significado.',
 '6

In [15]:
tokens_nltk = word_tokenize(text, language='spanish')
print(f'word_tokenize: {len(tokens_nltk)} tokens')
tokens_nltk[:20]

word_tokenize: 383 tokens


['Las',
 'personas',
 'que',
 'se',
 'dedican',
 'a',
 'la',
 'ciencia',
 'de',
 'datos',
 'se',
 'les',
 'conoce',
 'como',
 'científico',
 'de',
 'datos',
 '.',
 'Se',
 'define']

In [16]:
tokens_split = text.split()
print(f'split(): {len(tokens_split)} tokens')
tokens_split[:20]

split(): 336 tokens


['Las',
 'personas',
 'que',
 'se',
 'dedican',
 'a',
 'la',
 'ciencia',
 'de',
 'datos',
 'se',
 'les',
 'conoce',
 'como',
 'científico',
 'de',
 'datos.',
 'Se',
 'define',
 'al']

b) Eliminar puntuación

In [17]:
# Opción 1: Filtrar con list comprehension
punct = string.punctuation + '¿¡«»""'
tokens_no_punct = [t for t in tokens_nltk if t not in punct]
print(f'Opción 1 (list comprehension): {len(tokens_no_punct)} tokens')

# Opción 2: Usar RegexpTokenizer (tokeniza sin puntuación directamente)
tokenizer_words = RegexpTokenizer(r'\w+')
tokens_no_punct_regex = tokenizer_words.tokenize(text)
print(f'Opción 2 (RegexpTokenizer): {len(tokens_no_punct_regex)} tokens')

tokens_no_punct[:20]

Opción 1 (list comprehension): 338 tokens
Opción 2 (RegexpTokenizer): 338 tokens


['Las',
 'personas',
 'que',
 'se',
 'dedican',
 'a',
 'la',
 'ciencia',
 'de',
 'datos',
 'se',
 'les',
 'conoce',
 'como',
 'científico',
 'de',
 'datos',
 'Se',
 'define',
 'al']

c) Frecuencias

In [18]:
freq_before = FreqDist(tokens_nltk)
print('Con puntuación:', freq_before.most_common(5))

freq_after = FreqDist(tokens_no_punct)
print('Sin puntuación:', freq_after.most_common(5))

freq_lower = FreqDist([t.lower() for t in tokens_no_punct])
print(f'"datos" aparece {freq_lower["datos"]} veces')

Con puntuación: [('de', 28), (',', 24), ('datos', 17), ('que', 12), ('y', 12)]
Sin puntuación: [('de', 28), ('datos', 17), ('que', 12), ('y', 12), ('en', 12)]
"datos" aparece 17 veces


d) Stopwords

In [19]:
stop_words = set(stopwords.words('spanish'))
detokenizer = TreebankWordDetokenizer()

for i, sent in enumerate(sentences):
    tokens = word_tokenize(sent, language='spanish')
    filtered = [t for t in tokens if t.lower() not in stop_words]
    print(f'Frase {i+1} (sin filtrar): {detokenizer.detokenize(tokens)}')
    print(f'Frase {i+1} (filtrada): {detokenizer.detokenize(filtered)}')
    print()

Frase 1 (sin filtrar): Las personas que se dedican a la ciencia de datos se les conoce como científico de datos.
Frase 1 (filtrada): personas dedican ciencia datos conoce científico datos.

Frase 2 (sin filtrar): Se define al científico de datos como una mezcla de estadísticos, computólogos y pensadores creativos, con las siguientes habilidades: Recopilar, procesar y extraer valor de las diversas y extensas bases de datos.
Frase 2 (filtrada): define científico datos mezcla estadísticos, computólogos pensadores creativos, siguientes habilidades: Recopilar, procesar extraer valor diversas extensas bases datos.

Frase 3 (sin filtrar): Imaginación para comprender, visualizar y comunicar sus conclusiones a los no científicos de datos.
Frase 3 (filtrada): Imaginación comprender, visualizar comunicar conclusiones científicos datos.

Frase 4 (sin filtrar): Capacidad para crear soluciones basadas en datos que aumentan los beneficios, reducen los costos.
Frase 4 (filtrada): Capacidad crear soluc

e) POS tagging (aproximado con tagger inglés)

In [20]:
# NLTK pos_tag está entrenado en inglés, por lo que no funciona bien para español
pos_tag(word_tokenize(sentences[0], language='spanish'))[0:15]

[('Las', 'NNP'),
 ('personas', 'NN'),
 ('que', 'NN'),
 ('se', 'JJ'),
 ('dedican', 'VBZ'),
 ('a', 'DT'),
 ('la', 'NN'),
 ('ciencia', 'NN'),
 ('de', 'IN'),
 ('datos', 'FW'),
 ('se', 'JJ'),
 ('les', 'NNS'),
 ('conoce', 'VBP'),
 ('como', 'JJ'),
 ('científico', 'NN')]

f) Stemming español

In [21]:
stemmer = SnowballStemmer('spanish')

for token in word_tokenize(sentences[0], language='spanish'):
    print(f'{token:25} -> {stemmer.stem(token)}')

Las                       -> las
personas                  -> person
que                       -> que
se                        -> se
dedican                   -> dedic
a                         -> a
la                        -> la
ciencia                   -> cienci
de                        -> de
datos                     -> dat
se                        -> se
les                       -> les
conoce                    -> conoc
como                      -> com
científico                -> cientif
de                        -> de
datos                     -> dat
.                         -> .


g) Lematización español (con diccionario lemmatization_es.txt)

In [22]:
lemma_dict = {}
with open(PATH_DATA / 'lemmatization_es.txt', 'r', encoding='utf-8') as f:
    for line in f:
        parts = line.strip().split('\t')
        if len(parts) == 2:
            lemma, word = parts
            lemma_dict[word.lower()] = lemma.lower()

print(f'Diccionario cargado: {len(lemma_dict)} entradas')

Diccionario cargado: 491547 entradas


In [23]:
def lemmatize(word, lemma_dict):
    return lemma_dict.get(word.lower(), word.lower())

print(f'{"Token":<25} {"Stem":<25} {"Lemma":<25}')
for token in word_tokenize(sentences[0], language='spanish'):
    print(f'{token:<25} {stemmer.stem(token):<25} {lemmatize(token, lemma_dict):<25}')

Token                     Stem                      Lemma                    
Las                       las                       los                      
personas                  person                    personar                 
que                       que                       que                      
se                        se                        se                       
dedican                   dedic                     dedicar                  
a                         a                         a                        
la                        la                        lo                       
ciencia                   cienci                    ciencia                  
de                        de                        de                       
datos                     dat                       dato                     
se                        se                        se                       
les                       les                       les         

h) Entidades nombradas

In [24]:
entities = []

for sent in sentences:
    tokens = word_tokenize(sent, language='spanish')
    pos_tags = pos_tag(tokens)

    for chunk in ne_chunk(pos_tags, binary=False):
        if isinstance(chunk, Tree):
            entity = " ".join(word for word, _ in chunk.leaves())
            entity_type = chunk.label()
            entities.append((entity, entity_type))

print(f"Entidades encontradas ({len(entities)}):")
for ent, label in entities:
    print(f"{ent:<30} {label}")

Entidades encontradas (13):
Las                            GPE
Se                             GPE
Imaginación                    GPE
Capacidad                      GPE
Los                            GPE
El                             GPE
Nathan Yau                     PERSON
APIs                           ORGANIZATION
Benjamin Fry                   PERSON
Entre                          GPE
Además                         GPE
Fry                            PERSON
Venn                           PERSON


## Ejercicio 2: Análisis con SpaCy

In [25]:
import spacy
from spacy.matcher import Matcher


nlp = spacy.load('es_core_news_sm')

### Apartado 2.1: Análisis básico

In [26]:
texto = """En 2026, la tecnología seguirá cambiando de forma notable cómo vivimos y cómo trabajamos cada día. Las tendencias de este año se centran en el impulso de la inteligencia artificial y la automatización, con actores clave como OpenAI y Google DeepMind. Asimismo, destacan una conectividad más potente y soluciones de sostenibilidad basadas en datos."""

doc = nlp(texto)

a) Token, POS y lema

In [27]:
for token in doc[:25]:
    print(f'{token.text:<20} {token.pos_:<10} {token.lemma_}')

En                   ADP        en
2026                 NOUN       2026
,                    PUNCT      ,
la                   DET        el
tecnología           NOUN       tecnología
seguirá              VERB       seguir
cambiando            VERB       cambiar
de                   ADP        de
forma                NOUN       forma
notable              ADJ        notable
cómo                 PRON       cómo
vivimos              VERB       vivir
y                    CCONJ      y
cómo                 PRON       cómo
trabajamos           VERB       trabajar
cada                 DET        cada
día                  NOUN       día
.                    PUNCT      .
Las                  DET        el
tendencias           NOUN       tendencia
de                   ADP        de
este                 DET        este
año                  NOUN       año
se                   PRON       él
centran              VERB       centrar


b) Contar stopwords

In [28]:
stopwords_count = sum(1 for t in doc if t.is_stop)
print(f'Stopwords: {stopwords_count} de {len(doc)} tokens ({stopwords_count/len(doc)*100:.1f}%)')

Stopwords: 26 de 60 tokens (43.3%)


c) Adjetivos y nombres

In [29]:
adjetivos = [t.text for t in doc if t.pos_ == 'ADJ']
nombres = [t.text for t in doc if t.pos_ == 'NOUN']
print('Adjetivos:', adjetivos)
print('Nombres:', nombres)

Adjetivos: ['notable', 'artificial', 'potente', 'basadas']
Nombres: ['2026', 'tecnología', 'forma', 'día', 'tendencias', 'año', 'impulso', 'inteligencia', 'automatización', 'actores', 'clave', 'conectividad', 'soluciones', 'sostenibilidad', 'datos']


d) POS con explicación

In [30]:
seen = set()
for token in doc:
    if token.pos_ not in seen and not token.is_space:
        print(f'{token.text:<15} {token.pos_:<10} {spacy.explain(token.pos_)}')
        seen.add(token.pos_)

En              ADP        adposition
2026            NOUN       noun
,               PUNCT      punctuation
la              DET        determiner
seguirá         VERB       verb
notable         ADJ        adjective
cómo            PRON       pronoun
y               CCONJ      coordinating conjunction
como            SCONJ      subordinating conjunction
OpenAI          PROPN      proper noun
Asimismo        ADV        adverb


e) Frases

In [31]:
sentences = list(doc.sents)
print(f'Número de frases: {len(sentences)}\n')
for i, sent in enumerate(sentences, 1):
    print(f'{i}. {sent.text.strip()}')

Número de frases: 3

1. En 2026, la tecnología seguirá cambiando de forma notable cómo vivimos y cómo trabajamos cada día.
2. Las tendencias de este año se centran en el impulso de la inteligencia artificial y la automatización, con actores clave como OpenAI y Google DeepMind.
3. Asimismo, destacan una conectividad más potente y soluciones de sostenibilidad basadas en datos.


f) Frases sin stopwords

In [32]:
for i, sent in enumerate(sentences, 1):
    filtered = [t.text for t in sent if not t.is_stop and not t.is_punct]
    print(f'{i}. {" ".join(filtered)}')

1. 2026 tecnología seguirá cambiando forma notable vivimos trabajamos
2. tendencias año centran impulso inteligencia artificial automatización actores clave OpenAI Google DeepMind
3. Asimismo destacan conectividad potente soluciones sostenibilidad basadas datos


g) Entidades nombradas

In [33]:
for ent in doc.ents:
    print(f'{ent.text:<30} {ent.label_:<10} {spacy.explain(ent.label_)}')

Las tendencias de este         MISC       Miscellaneous entities, e.g. events, nationalities, products or works of art
OpenAI                         MISC       Miscellaneous entities, e.g. events, nationalities, products or works of art
Google DeepMind                MISC       Miscellaneous entities, e.g. events, nationalities, products or works of art


h) Función de preprocesamiento

In [34]:
def preprocess_text(text, nlp):
    return ' '.join([
        t.lemma_.lower()
        for t in nlp(text)
        if not t.is_stop and not t.is_punct
    ])

ejemplo = 'Las tendencias tecnológicas más importantes marcarán el 2026.'
print(f'Original: {ejemplo}')
print(f'Procesado: {preprocess_text(ejemplo, nlp)}')

Original: Las tendencias tecnológicas más importantes marcarán el 2026.
Procesado: tendencia tecnológico importante marcar 2026


### Apartado 2.2: Matcher de SpaCy

In [35]:
with open(PATH_DATA / 'open_australia_1.txt', 'r', encoding='utf-8') as f:
    text_aus1 = f.read()
with open(PATH_DATA / 'open_australia_2.txt', 'r', encoding='utf-8') as f:
    text_aus2 = f.read()

all_texts = text_aus1 + '\n' + text_aus2
doc_all = nlp(all_texts)
matcher = Matcher(nlp.vocab)

a) Grand Slam

In [36]:
matcher.add('GRAND_SLAM', [[{'LOWER': 'grand'}, {'LOWER': 'slam'}]])

matches = matcher(doc_all)
print(f'Grand Slam ({len(matches)}):')
for _, start, end in matches:
    print(f'  {doc_all[start:end].text} ({start}, {end})')
matcher.remove('GRAND_SLAM')

Grand Slam (2):
  Grand Slam (126, 128)
  Grand Slam (179, 181)


b) Lema "volver"

In [37]:
matcher.add('VOLVER', [[{'LEMMA': 'volver'}]])

matches = matcher(doc_all)
print(f'Formas de "volver" ({len(matches)}):')
for _, start, end in matches:
    ctx_start, ctx_end = max(0, start-3), min(len(doc_all), end+3)
    print(f'  \'{doc_all[start:end].text}\' en: ...{doc_all[ctx_start:ctx_end].text}...')
matcher.remove('VOLVER')

Formas de "volver" (1):
  'volverá' en: ..., Rafael Nadal volverá a pelear por...


c) Nombres y adjetivos

In [38]:
matcher.add('NOUN_ADJ', [[{'POS': 'NOUN'}, {'POS': 'ADJ'}]])
matcher.add('ADJ_NOUN', [[{'POS': 'ADJ'}, {'POS': 'NOUN'}]])

matches = matcher(doc_all)
print(f'Nombres y adjetivos ({len(matches)}):')
for _, start, end in matches[:15]:
    print(f'  {doc_all[start:end].text} ({start}, {end})')

matcher.remove('NOUN_ADJ')
matcher.remove('ADJ_NOUN')

Nombres y adjetivos (14):
  sofocón final (6, 8)
  primer punto (27, 29)
  plena inferioridad (80, 82)
  primeros parciales (85, 87)
  sexta final (117, 119)
  segundo título (133, 135)
  vigesimoprimer major (140, 142)
  achuchón sufrido (184, 186)
  arreón final (208, 210)
  sexta final (216, 218)
  gran escenario (225, 227)
  pista dura (250, 252)
  solo paso (279, 281)
  empate histórico (284, 286)


d) Nombre propio + verbo

In [39]:
matcher.add('PROPN_VERB', [[{'POS': 'PROPN'}, {'POS': 'VERB'}]])

matches = matcher(doc_all)
print(f'Nombre propio + verbo ({len(matches)}):')
for _, start, end in matches:
    print(f'  {doc_all[start:end].text} ({start}, {end})')
matcher.remove('PROPN_VERB')

Nombre propio + verbo (3):
  Nadal sentó (18, 20)
  Nadal disputará (99, 101)
  Nadal volverá (173, 175)


## Ejercicio 3: Expresiones regulares

In [40]:
import re

### Apartado 3.1: Normalización y detección de patrones

In [41]:
texto_fechas = '''Este es un texto que tiene ejemplos de fechas. Hoy es 01/02/2026, esta es una fecha posterior al 13 de enero de 2026. ¿Nos gustaría estar ya a 5 de julio y empezar las vacaciones? Casi que mejor no, que el tiempo avance a su ritmo. El primer día de clase fue el 26-01-2025, y el último día será el 5 de mayo del 2025.'''

texto_fechas

'Este es un texto que tiene ejemplos de fechas. Hoy es 01/02/2026, esta es una fecha posterior al 13 de enero de 2026. ¿Nos gustaría estar ya a 5 de julio y empezar las vacaciones? Casi que mejor no, que el tiempo avance a su ritmo. El primer día de clase fue el 26-01-2025, y el último día será el 5 de mayo del 2025.'

a) Tokenizar por espacios en blanco

In [42]:
tokens_regex = re.split(r'\s+', texto_fechas)
print(f'Tokens: {len(tokens_regex)}')
tokens_regex[:15]

Tokens: 65


['Este',
 'es',
 'un',
 'texto',
 'que',
 'tiene',
 'ejemplos',
 'de',
 'fechas.',
 'Hoy',
 'es',
 '01/02/2026,',
 'esta',
 'es',
 'una']

b) Eliminar puntuación y palabras < 3 caracteres

In [43]:
tokens_clean = [re.sub(r'[^\w]', '', t) for t in tokens_regex]
tokens_clean = [t for t in tokens_clean if len(t) >= 3]
print(f'Tokens limpios: {len(tokens_clean)}')
tokens_clean

Tokens limpios: 39


['Este',
 'texto',
 'que',
 'tiene',
 'ejemplos',
 'fechas',
 'Hoy',
 '01022026',
 'esta',
 'una',
 'fecha',
 'posterior',
 'enero',
 '2026',
 'Nos',
 'gustaría',
 'estar',
 'julio',
 'empezar',
 'las',
 'vacaciones',
 'Casi',
 'que',
 'mejor',
 'que',
 'tiempo',
 'avance',
 'ritmo',
 'primer',
 'día',
 'clase',
 'fue',
 '26012025',
 'último',
 'día',
 'será',
 'mayo',
 'del',
 '2025']

c) Detectar fechas

In [44]:
# DD/MM/AAAA
pattern_slash = r'\d{1,2}/\d{2}/\d{4}'
# DD-MM-AAAA
pattern_dash = r'\d{1,2}-\d{2}-\d{4}'
# DD de MM de AAAA
pattern_full = r'\d{1,2} de \w+ de \d{4}'
# DD de MM (sin año)
pattern_short = r'\d{1,2} de \w+(?! de \d)'

print('DD/MM/AAAA:', re.findall(pattern_slash, texto_fechas))
print('DD-MM-AAAA:', re.findall(pattern_dash, texto_fechas))
print('DD de MM de AAAA:', re.findall(pattern_full, texto_fechas))
print('DD de MM:', re.findall(pattern_short, texto_fechas))

DD/MM/AAAA: ['01/02/2026']
DD-MM-AAAA: ['26-01-2025']
DD de MM de AAAA: ['13 de enero de 2026']
DD de MM: ['13 de ener', '5 de julio', '5 de mayo']


In [45]:
# Patrón combinado para todas las fechas
pattern_all = r'\d{1,2}[/-]\d{2}[/-]\d{4}|\d{1,2} de \w+(?: de(?:l)? \d{4})?'
fechas = re.findall(pattern_all, texto_fechas)
print(f'Todas las fechas encontradas ({len(fechas)}):')
for f in fechas:
    print(f'  {f}')

Todas las fechas encontradas (5):
  01/02/2026
  13 de enero de 2026
  5 de julio
  26-01-2025
  5 de mayo del 2025
