<a href="https://colab.research.google.com/github/franfgv9/PLN/blob/main/Pr%C3%A1ctica2_PLN.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [1]:
txt = 'No meio do programa ouvia-se: "um por todos e todos por um". Por ser o lema dos Três Mosqueteiros, e porque sim! Programas assim já não se fazem.'

In [2]:
import re

Ejemplo 1.1 – Buscar una palabra simple

In [4]:
x = re.findall(r"por", txt)  # El prefijo r indica una raw string, es decir, que no se interpretan los caracteres especiales de Python (por ejemplo \n o \t).
print(x)

# ⚠️ Problema: también encontrará "porque", "porém", etc., ya que no hay ningún límite de palabra definido.

['por', 'por', 'por']


Ejemplo 1.2 – Ignorar mayúsculas/minúsculas

In [7]:
x = re.findall(r"[Pp]or", txt)    # [Pp] indica que puede aparecer una P mayúscula o minúscula.
print(x)

['por', 'por', 'Por', 'por']


Ejemplo 1.3 – Buscar solo la palabra completa “por”

In [8]:
x = re.findall(r"\b[Pp]or\b", txt)   # \b Marca el inicio o el final de una palabra.
print(x)

# ✅ Resultado: ahora solo devuelve "por" o "Por", no “porque” ni “reportagem”.

['por', 'por', 'Por']


Ejemplo 1.4 – Tokenizar (dividir) un texto en palabras

In [9]:
x = re.split(r"\s+", txt)
print(x)

# re.split() divide una cadena en una lista usando el patrón que se le indique.
# El patrón \s+ significa:
  # \s → cualquier espacio en blanco (espacio, tabulación, salto de línea…)
  # + → uno o más.
# Así que el texto se separa en palabras (tokens) cuando se encuentra uno o más espacios.

['No', 'meio', 'do', 'programa', 'ouvia-se:', '"um', 'por', 'todos', 'e', 'todos', 'por', 'um".', 'Por', 'ser', 'o', 'lema', 'dos', 'Três', 'Mosqueteiros,', 'e', 'porque', 'sim!', 'Programas', 'assim', 'já', 'não', 'se', 'fazem.']


Ejemplo 1.5 – Separar un texto en frases

In [10]:
x = re.split(r"[.!?]+", txt)
print(x)

# [.!?]+ indica uno o más signos de punto (.), exclamación (!) o interrogación (?).
# Con esto, el texto se divide cada vez que termina una frase.

['No meio do programa ouvia-se: "um por todos e todos por um"', ' Por ser o lema dos Três Mosqueteiros, e porque sim', ' Programas assim já não se fazem', '']


Ejemplo 1.6 – Palabras que comienzan con mayúscula

In [None]:
x = re.findall(r"\b[A-Z][a-z]*\b", txt)
print(x)

# \b → límite de palabra (inicio o fin).
# [A-Z] → una letra mayúscula.
# [a-z]* → cero o más letras minúsculas después.
# Por tanto, el patrón encuentra todas las palabras que empiezan con mayúscula y continúan con minúsculas.

Ejemplo 1.7 – Contar las ocurrencias de una palabra

In [None]:
x = re.findall(r"\b[Pp]rogramas?\b", txt)
c = len(x)
print(c)

# rogramas? → la s? significa que la “s” final es opcional.
# ✅ Resultado: el número total de veces que aparece “programa” o “programas” en el texto.

Ejemplo 1.8 – Palabras con al menos tres caracteres

In [None]:
x = re.findall(r"\b\w{3,}\b", txt)
print(x)

# \w → cualquier carácter de palabra (letra, número o guion bajo).
# {3,} → al menos 3 caracteres seguidos.
# El patrón extrae todas las palabras “largas” del texto.

Ejemplo 1.9 – Sustituir palabras específicas con contexto

In [11]:
txt = "Um por todos e todos por um!"
x = re.sub(r'por(?= (todos|um))', 'contra', txt)
print(x)

# re.sub(patrón, reemplazo, texto) → sustituye el patrón por el texto indicado.
# (?= ...) → es una lookahead positiva, que busca coincidencias solo si después viene algo determinado.
# En este caso: busca “por” solo si va seguido de " todos" o " um".
# Así, sustituye "por" por "contra" solo en esas condiciones.

Um contra todos e todos contra um!


Ejemplo 1.10 – Sustituir usando parte del texto original

In [12]:
x = re.sub(r'(um|todos) por (um|todos)', r'\2 contra \1', txt)
print(x)


# (um|todos) → grupo que captura "um" o "todos".
# \2 y \1 → hacen referencia a los grupos capturados (el 2.º y el 1.º).
# Entonces:
  # El patrón busca expresiones tipo "um por todos" o "todos por um".
  # Las reescribe invirtiendo el orden: "todos contra um" o "um contra todos".

Um por todos e um contra todos!


🧩 Exercício 1.1 — Encontrar secuencias de dígitos

📘 Objetivo:
Detectar números dentro de un texto (por ejemplo, fechas, años, cifras, etc.).

In [13]:
txt = "Tenho 2 gatos e 15 peixes desde 2020."
x = re.findall(r"\d+", txt)
print(x)

['2', '15', '2020']


🧩 Exercício 1.2 — Encontrar “texto” en cualquier caso

📘 Objetivo:
Localizar la palabra “texto” sin importar si está escrita como “Texto”, “TEXTO” o “teXto”.

OPCION 1 (CHATI)

In [14]:
txt = "Este TEXTO é um pequeno texto sobre Texto."
x = re.findall(r"(?i)\btexto\b", txt)
print(x)

# (?i) → activa el modo case-insensitive (ignora mayúsculas/minúsculas).
# \b → asegura que se trate de la palabra completa.

['TEXTO', 'texto', 'Texto']


OPCIÓN 2 (CLASE)

In [15]:
x = re.findall(r"\b[Tt][Ee][Xx][Tt][Oo]\b", txt)
print(x)

['TEXTO', 'texto', 'Texto']


🧩 Exercício 1.3 — Encontrar verbos en gerundio

📘 Objetivo:
Detectar palabras terminadas en -ando, -endo, -indo, -ondo, -undo (formas del gerundio).

In [19]:
txt = "Estou cantando, comendo e dormindo ao mesmo tempo!"
x = re.findall(r"\b[A-Za-z]+[aeio]ndo\b", txt)
print(x)

['cantando', 'comendo', 'dormindo']


In [20]:
txt = "Estou cantando, comendo e dormindo ao mesmo tempo!"
x = re.findall(r"\b\w+[aeio]ndo\b", txt)
print(x)

['cantando', 'comendo', 'dormindo']


🧩 Exercício 1.4 — Palabras que comienzan por “z”

📘 Objetivo:
Encontrar todas las palabras que empiecen por “z” o “Z”.

In [24]:
txt = "O Zorro correu pela zona de Zamora z."
x = re.findall(r"\b[Zz]\w*\b", txt)
print(x)

# \w* → cero o más caracteres alfanuméricos (letras, números o “_”).

['Zorro', 'zona', 'Zamora', 'z']


In [25]:
txt = "O Zorro correu pela zona de Zamora z."
x = re.findall(r"\b[Zz]\w+\b", txt)
print(x)

# \w+ -> uno o más

['Zorro', 'zona', 'Zamora']


🧩 Exercício 1.5 — Palabras con al menos dos vocales consecutivas

📘 Objetivo:
Detectar palabras que contengan dos o más vocales seguidas, como “voo”, “ainda”, “cooperar”.

In [26]:
txt = "O voo foi muito longo e o João cooperou."
x = re.findall(r"\b\w*[aeiou]{2,}\w*\b", txt)
print(x)

# [aeiou]{2,} → dos o más vocales seguidas.

['voo', 'foi', 'muito', 'cooperou']


In [29]:
txt = "O voo foi muito longo e o João cooperou."
x = re.findall(r"(?i)\b\w*[aeiou]+[aeiou]\w*\b", txt)
print(x)

['voo', 'foi', 'muito', 'cooperou']


🧩 Exercício 1.6 — Corregir comas mal colocadas

📘 Objetivo:
Agregar un espacio después de una coma si no lo hay.

In [30]:
txt = "Hoje é sexta,amanhã é sábado,e depois domingo."
x = re.sub(r",(?=\S)", ", ", txt)   # (\S = lo contrario de \s)
print(x)

# (?=\S) → lookahead positivo, busca comas seguidas de algo que no sea un espacio.
# Se reemplaza por ", " (coma + espacio).

Hoje é sexta, amanhã é sábado, e depois domingo.


🧩 Exercício 1.7 — Cambiar formato de fecha

📘 Objetivo:
Convertir fechas del formato dd-mm-yyyy a dd/mm/yyyy.

In [31]:
txt = "Datas importantes: 25-12-2024 e 01-01-2025."
x = re.sub(r"(\d{2})-(\d{2})-(\d{4})", r"\1/\2/\3", txt)
print(x)

# Cada grupo entre paréntesis () se guarda temporalmente y se numera en orden de aparición:
# \1 → primer grupo capturado
# \2 → segundo grupo
# \3 → tercer grupo

Datas importantes: 25/12/2024 e 01/01/2025.


In [33]:
txt = "Datas importantes: 25-12-2024 e 01-01-2025."
x = re.findall(r"(\d{2})-(\d{2})-(\d{4})", txt)
print(x)

x_f = {f"{d}/{m}/{a}" for d, m, a in x}
print(x_f)



[('25', '12', '2024'), ('01', '01', '2025')]
{'25/12/2024', '01/01/2025'}
