# Practica 1
**Tecnologías de Lenguaje Natural**

*Luis Fernando Rodríguez Domínguez*

## Parte 1. Expresiones Regulares

Para las cadenas de texto incluidas en el Anexo “A”, y únicamente para los numerales siguientes 1 a 5, identificar las líneas que cumplan con los siguientes:

In [4]:
import re

# Función para leer el contenido del archivo "AnexoA.txt"
def leer_archivo(ruta):
    """
    Lee un archivo de texto y retorna una lista de líneas.
    Se asume que la primera línea es el encabezado.
    """
    with open(ruta, 'r', encoding='utf-8') as file:
        lineas = file.read().splitlines()
    return lineas

ruta_archivo = 'AnexoA.txt'
lineas = leer_archivo(ruta_archivo)

# Separamos el encabezado de las líneas de datos
encabezado = lineas[0]
datos = lineas[1:]
print("Encabezado:", encabezado)
print("Número de registros:", len(datos))

Encabezado: ID:Amount:Category:Date:Description
Número de registros: 30


### 1. Contengan una “r” seguida por una “g” (minúsculas). La “r” y la “g” no necesariamente tienen que estar en posiciones consecutivas. **(2 puntos)**.

In [5]:
patron1 = re.compile(r"r.*g")  # Solo busca letras minúsculas

resultado1 = [linea for linea in datos if patron1.search(linea)]
print("\nPunto 1: Líneas con 'r' seguida de 'g':")
for r in resultado1:
    print(r)


Punto 1: Líneas con 'r' seguida de 'g':
4:383.75:travel:20170223:flight to Boston, to visit ABC Corp.
5:55.00:travel:20170223:cab to ABC Corp. in Cambridge, MA
6:23.25:meal:20170223:dinner at Logan Airport
14:6.53:meal:20170302:Dunkin Donuts, drive to Big Inc. near DC
17:86.00:travel:20170304:mileage, drive to/from Big Inc., Reston, VA
19:378.81:travel:20170304:Hyatt Hotel, Reston VA, for Big Inc. meeting
25:86.00:travel:20170317:mileage, drive to/from Big Inc., Reston, VA
26:32.27:meal:20170317:lunch at Clyde's with Fred and Gina, Big Inc.


> **Explicación:**  
> `re.compile` se utiliza para compilar una expresión regular en un objeto patrón, lo que permite reutilizar la expresión regular en múltiples búsquedas. `search` se usa para buscar el patrón en una cadena de texto y retorna un objeto Match si encuentra una coincidencia.
----------

### 2. Describan comidas que cuesten al menos 100.00. **(2 puntos)**.

In [6]:
resultado2 = []
for linea in datos:
    partes = linea.split(':')
    if len(partes) >= 5:
        # Se extraen los campos: ID, Amount, Category, Date, Description
        id_, monto, categoria, fecha, descripcion = partes
        try:
            if categoria.lower() == "meal" and float(monto) >= 100.00:
                resultado2.append(linea)
        except ValueError:
            # En caso de que el monto no se pueda convertir a float
            continue

print("\nPunto 2: Comidas con costo >= 100.00:")
for r in resultado2:
    print(r)


Punto 2: Comidas con costo >= 100.00:
8:142.12:meal:20170226:host dinner with ABC clients, Al, Bob, Cy, Dave, Ellie
15:127.23:meal:20170302:dinner, Tavern64


> **Explicación:**  
> En este caso, se utiliza un bucle `for` para iterar sobre cada línea de datos. Cada línea se divide en partes utilizando el método `split(':')`. Luego, se verifica si la categoría es "meal" y si el monto es mayor o igual a 100.00. Si ambas condiciones se cumplen, la línea se agrega a la lista `resultado2`. Finalmente, se imprimen las líneas que cumplen con estas condiciones.
----------

### 3. Contengan una “a”, seguida por una “b”, seguida por una “c” (puede haber otros caracteres entre la “a” y la ”b” y entre la “b” y la ”c”; asimismo dichos caracteres pueden ser minúsculas o mayúsculas). En caso de existir caracteres entre las letras indicadas, dichos caracteres no pueden ser a ni b (entre la a y la b), ni b y c (entre la b y la c). Ejemplos de cadenas invalidas: “A apple, a banana”; “bad but beatiful car” **(2 puntos)**

In [8]:
patron3 = re.compile(r'a(?:(?![ab]).)*b(?:(?![bc]).)*c', re.IGNORECASE)

resultado3 = [linea for linea in datos if patron3.search(linea)]
print("\nPunto 3: Líneas que contengan 'a', luego 'b' y luego 'c' con las restricciones:")
for r in resultado3:
    print(r)


Punto 3: Líneas que contengan 'a', luego 'b' y luego 'c' con las restricciones:
2:79.81:meal:20170222:lunch with ABC Corp. clients Al, Bob, and Cy
4:383.75:travel:20170223:flight to Boston, to visit ABC Corp.
5:55.00:travel:20170223:cab to ABC Corp. in Cambridge, MA
8:142.12:meal:20170226:host dinner with ABC clients, Al, Bob, Cy, Dave, Ellie
14:6.53:meal:20170302:Dunkin Donuts, drive to Big Inc. near DC
17:86.00:travel:20170304:mileage, drive to/from Big Inc., Reston, VA
19:378.81:travel:20170304:Hyatt Hotel, Reston VA, for Big Inc. meeting
25:86.00:travel:20170317:mileage, drive to/from Big Inc., Reston, VA
26:32.27:meal:20170317:lunch at Clyde's with Fred and Gina, Big Inc.


> **Explicación:**
> La expresión regular `a(?:(?![ab]).)*b(?:(?![bc]).)*c` se utiliza para buscar una 'a' seguida de una 'b' seguida de una 'c', con ciertas restricciones:

> - `a`: Busca la letra 'a'.
> - `(?:...)`: Es un grupo de no captura, utilizado para agrupar partes de la expresión sin crear una referencia de captura.
> - `(?![ab])`: Es una afirmación de no coincidencia (negative lookahead), que asegura que lo que sigue no es ni 'a' ni 'b'.
> - `.`: Coincide con cualquier carácter excepto nuevas líneas.
> - `.*`: Coincide con cero o más repeticiones del patrón anterior (cualquier carácter excepto nuevas líneas).
> - `b`: Busca la letra 'b'.
> - `(?:(?![bc]).)*`: Similar al grupo anterior, asegura que entre 'b' y 'c' no haya ni 'b' ni 'c'.
> - `c`: Busca la letra 'c'.

> El modificador `re.IGNORECASE` permite que la búsqueda sea insensible a mayúsculas y minúsculas, es decir, no distingue entre 'a' y 'A', 'b' y 'B', 'c' y 'C'.

### 4. Contengan en la descripción de gastos una “a” minúscula y un digito entre 0 y 9 en cualquier orden. Es decir, el carácter “a” puede aparecer antes o después del digito. **(2 puntos)**

In [9]:
resultado4 = []
for linea in datos:
    partes = linea.split(':')
    if len(partes) >= 5:
        descripcion = partes[4]
        if re.search(r'a', descripcion) and re.search(r'\d', descripcion):
            resultado4.append(linea)

print("\nPunto 4: Líneas cuya descripción contenga una 'a' minúscula y un dígito:")
for r in resultado4:
    print(r)


Punto 4: Líneas cuya descripción contenga una 'a' minúscula y un dígito:
12:79.99:supply:20170227:spare 20" monitor
15:127.23:meal:20170302:dinner, Tavern64
20:1247.49:supply:20170306:Dell 7000 laptop/workstation
24:195.89:supply:20170309:black toner, HP 304A, 2-pack


### 5. Contengan el carácter “d”, posiblemente seguido de otros caracteres, seguido de una “i” (los caracteres “d”, e “i” pueden ser minúsculas o mayúsculas).
*Coincidencias incluirían palabras tales como: diver, doily, drip, diplomat, etc. **(2 puntos)***

In [11]:
patron5 = re.compile(r'd.*i', re.IGNORECASE)

resultado5 = [linea for linea in datos if patron5.search(linea)]
print("\nPunto 5: Líneas que contengan 'd' seguido de cualquier carácter y luego 'i':")
for r in resultado5:
    print(r)


Punto 5: Líneas que contengan 'd' seguido de cualquier carácter y luego 'i':
6:23.25:meal:20170223:dinner at Logan Airport
8:142.12:meal:20170226:host dinner with ABC clients, Al, Bob, Cy, Dave, Ellie
14:6.53:meal:20170302:Dunkin Donuts, drive to Big Inc. near DC
15:127.23:meal:20170302:dinner, Tavern64
16:33.07:meal:20170303:dinner, Uncle Julio's
17:86.00:travel:20170304:mileage, drive to/from Big Inc., Reston, VA
20:1247.49:supply:20170306:Dell 7000 laptop/workstation
21:6.99:supply:20170306:HDMI cable
22:212.06:util:20170308:Duquesne Light
23:23.86:supply:20170309:Practical Guide to Quant Finance Interviews
25:86.00:travel:20170317:mileage, drive to/from Big Inc., Reston, VA
26:32.27:meal:20170317:lunch at Clyde's with Fred and Gina, Big Inc.


> **Explicación**
>La expresión regular `d.*i` se utiliza para buscar una 'd' seguida de cualquier carácter (incluyendo ninguno) y luego una 'i'. Aquí está la explicación detallada:

> - `d`: Busca el carácter 'd'.
> - `.`: Coincide con cualquier carácter excepto nuevas líneas.
> - `*`: Es un cuantificador que coincide con cero o más repeticiones del patrón anterior (en este caso, cualquier carácter).
> - `i`: Busca el carácter 'i'.

> En conjunto, `d.*i` busca una 'd' seguida de cero o más caracteres (cualquiera) y luego una 'i'. El modificador `re.IGNORECASE` permite que la búsqueda sea insensible a mayúsculas y minúsculas, es decir, no distingue entre 'd' y 'D', 'i' y 'I'.

**A continuación, se describen ejercicios adicionales de expresiones regulares. Cabe
señalar que cada uno de los siguientes ejercicios contienen el texto a analizar.**