# NLP2 - Regular expressions

---

Regular expressions (regex) are a powerful tool for searching, filtering, and manipulating text data, which is fundamental in natural language processing (NLP). Regex allows you to define flexible patterns that can match specific sequences of characters, making it ideal for tasks such as cleaning, preprocessing, or extracting structured information from unstructured text.

Mastering regular expressions enables efficient handling of tasks, such as removing unwanted symbols, identifying relevant patterns (e.g., emails, dates, or phone numbers), and transforming raw text into a format suitable for further analysis. This becomes useful when preparing data for more advanced NLP methods you will learn about in this module, like tokenization, part-of-speech tagging, and named entity recognition, which relies on clean and well-structured text input.

While regex is not the most scalable solution for large corpora or highly complex language tasks, it provides an accessible and effective way to automate repetitive text processing tasks in the early stages. Developing fluency with regex will serve as a foundation for understanding more sophisticated text analysis techniques, which we will explore later in the module.

To work with regular expressions, we need to import a suitable Python library. The primary library used in Python for regular expressions is `re`

---

We started working with them in the previous class, and we will continue today.

In [3]:
# Import the re library
import re

Apart from doing everything in code, you can use the editor:


https://regex101.com/

## Basic examples

1. Let's start with some examples. Imagine we want to extract especific instances of a target word in some input string, regardless of whether its first letter is uppercase or lowercase. What regular expression achieves this goal?

In [4]:
#consider the string "Amor é bonito. Poucas pessoas sabem o que é o amor."
#extract the two occurrences of "amor" ou "Amor" using re.findall()

a = "Amor é bonito. Poucas pessoas sabem o que é o amor."

ocor = re.findall("[Aa]mor",a)
print(ocor)



['Amor', 'amor']


2. What part of the regular expression is used to ensure it matches the target word starting either with upper or lowercase?


In [None]:
#answer

3. Now suppose our goal is to extract any numbers in an input string. What regular expression allows you to do that?

In [5]:
# Extract numbers from a input string
# Consider the example string
# "Moramos na Rua de Madrid, número 14. Vamos nos mudar agora para a Praça de Londres, número 20. Meu telemóvel é 99987768076."

a = "Moramos na Rua de Madrid, número 14. Vamos nos mudar agora para a Praça de Londres, número 20. Meu telemóvel é 99987768076."


ocor = re.findall("[0-9]+",a)
print(ocor)

['14', '20', '99987768076']


4. What part of the regular expression ensures it matches all the digits in the different numbers? What alternatives can be used? What do each of them do exactly?

In [None]:
#answer

5 - What if we want to get words from a string?

In [6]:
#get words from a string
#consider the string "Moramos na Rua de Madri, número 14. Vamos nos mudar agora para a Praça de Londres, número 20. Meu telemóvel é 99987768076."
#how to fix ç problem?

a = "Moramos na rua de Madrid, numero 14. Vamos mudar agora pra Praça de Londres numero 20. Meu telemovel 99987768076"

ocor = re.findall("[A-Za-z]+",a)
print(ocor)


['Moramos', 'na', 'rua', 'de', 'Madrid', 'numero', 'Vamos', 'mudar', 'agora', 'pra', 'Pra', 'a', 'de', 'Londres', 'numero', 'Meu', 'telemovel']


6 - Based on the responses discussed above, what is the best approach for the regex pattern: allowing characters or blocking the ones we don't want?

In [None]:
#answer

7 - The idea is always to try to extract or locate substrings using patterns. For example, there are texts with separators (`,`). We can use these separators to assist in locate/extract substrings and texts.

In [10]:
#consider the string
a = """
  Zuil,10
  Amanda,50
  Pedro,
  Carlos,79
  José,
  Maria,20
  ,60
  """

#create a regex that returns only the lines that have the pattern "Name,Age" in tuple format. Ignore lines without age.

ocor = re.findall("[A-Za-z_À-ÿ]+[|]\d+",a)
print(ocor)

print([(x.split(",")[0],int(x.split(",")[1])) for x in ocor])


['Zuil,10', 'Amanda,50', 'Carlos,79', 'Maria,20']
[('Zuil', 10), ('Amanda', 50), ('Carlos', 79), ('Maria', 20)]


8 - Another case is to focus on locating or extracting occurrences of a word in both plural and singular forms.

In [None]:
# consider the string "Em Portugal há casas e casinhas. Cada casa pertence a uma pessoa. Os reis tinham castelos."

a = "Em Portugal há casas e casinhas. Cada casa pertence a uma pessoa. Os reis tinham castelos."

#Use regex to write code that captures the word 'casa' and its plural derivation.


9 - Therefore, the patterns we defined to extract substrings can even capture variations of words. Which characters do we have in regex that support the occurrence or non-occurrence of a particular pattern that follows?


In [None]:
#answer


10 - Let's make things a bit more complicated. What if we wanted to get "casa," "casas" and "casinhas" all the derivations of the word "casa"?

In [None]:
a = "em Portugal há casas e casinhas. Cada casa pertence a uma pessoa."


11 - When working with regex, we should always try to identify if there is a pattern and then construct the expression from there. An example is that numbers can have `.` or `,`. How can we obtain numbers containing both periods and commas from the example below?


In [None]:
# consider the string
a = """Em 2023, a população da cidade era de aproximadamente 1.234.567.
Em comparação, a população em 2020 era de cerca de 1,2 milhão, destacando um crescimento significativo de cerca de 34,5%.
  """

12 - When dealing with cases where we have more than one option, as proposed above, should we use `.` or `,` in regex?"


In [None]:
#answer

13 - Let's use a bit of everything we've learned now. Extract all mentions of currencies contained in the text in a list format, also obtaining the currency symbol.


In [None]:
# consider the text
a = """Ontem, fiz algumas compras online. Comprei um par de ténis por €120,50 numa loja em Portugal.
No mesmo site, havia uma oferta especial num casaco por £85,99 (libras esterlinas), mas acabei por não o comprar.
Também encontrei uma mochila que estava com um desconto de $75,20 (dólares americanos), mas com os custos de envio, ficaria por €90,00 ao todo.

Na semana passada, quando viajei à Suíça, comprei um relógio por CHF 250,00 (francos suíços), o que, ao câmbio do dia, era aproximadamente €230,00.
Ainda troquei €500,00 para ¥60.000 (ienes japoneses) para a minha próxima viagem ao Japão."""

14 - What if we want to remove links from a text? Use `re.sub()`


In [None]:
a = """Hoje eu li alguns artigos interessantes na internet. Um deles foi sobre a importância da sustentabilidade, que você pode encontrar www.link.com.
Também vi um vídeo no YouTube que fala sobre mudanças climáticas: video.pt.
Além disso, encontrei um blog que aborda tecnologia e inovação, que você pode conferir em https://www.tecnologia-inovacao.com. Por último, um site de receitas que achei bem legal: http://www.receitasdeliciosas.com."""

#remove all links from string a

15 - If we are analyzing an online conversation, we may need to extract the emojis. How would we do that?


In [None]:
#consider the chat conversation
text = """
Ana: Ei, João! Como você está? 😊
João: Oi, Ana! Tô bem, e você? Como foi o fim de semana? 😄
Ana: Foi ótimo! Fui à praia com uns amigos 🌊. E você, fez algo legal?
João: Ah, que bom! Eu fiquei em casa, assisti uma série nova 🎬🍿. Tava precisando relaxar.
Ana: Ah, às vezes é bom ficar em casa também, né? Qual série você viu? 📺
João: Chama Mundos Paralelos, é de ficção científica. Muito boa! 👽✨
Ana: Que massa! Eu adoro séries assim! Vou anotar pra assistir depois. 😍
João: Faz isso! Acho que você vai curtir. E qual o plano pra essa semana?
Ana: Ah, tô cheia de trabalho 😩, mas no fim de semana vou dar uma escapadinha pra uma trilha 🥾🌲.
João: Trilha é sempre uma boa! Boa sorte com o trabalho e aproveita o fim de semana! 💪😊
Ana: Valeu! E vamos marcar algo também, hein? 🎉
João: Com certeza! A gente combina direitinho. Até mais, Ana! 👋
Ana: Até, João! 👋😊"""

#use re.findall to find all emojis



16 - For some studies, we may only be interested in longer words. How would we remove short words of 1 or 2 characters?

In [None]:
#consider
a = "É estamos ai. Já sabemos o que fazer."

#make string clear from small words, extra spaces and punctuations

17 - Final challenge:

You have a dataset of chat conversations between users. Each message contains information such as timestamps, usernames, messages, and possibly URLs, emojis, and other unwanted elements. The goal is to clean the data and extract relevant information for analysis.

In [None]:
conversas = [
    "[10:15] @joao: Olá, como você está? Confira meu site http://meusite.com 😊",
    "[10:16] @maria: Estou bem, obrigada! E você? #feliz",
    "[10:17] @joao: Vou bem também! Veja isso: http://exemplo.com",
    "[10:18] @maria: Que bom! Hahaha 😂",
]


Objectives
1. **Clean the messages** to remove:
   - Timestamps (e.g., `[HH:MM]`)
   - User mentions (e.g., `@username`)
   - URLs (e.g., `http://example.com`)
   - Emojis
   - Hashtags (e.g., `#hashtag`)
   - Unnecessary punctuation and extra spaces

2. **Extract and count the frequency of remaining words** in the cleaned messages.

3. **Create a summary with the total number of messages and the 10 most frequent words.**
