# Pràctica 1 de Processament de Llenguatge Natural:
# Ús d'expressions regulars a Python
En aquesta pràctica utilitzarem el mòdul `re` de Python i la llibreria Pandas per tractar amb expressions regulars.

### Noms:
<span style="color:red;font-weight:700;font-size:20px">
Important!
</span>
Introdueix en aquesta cel·la els noms dels dos integrants del grup:

*Alejandro Madrid Galarza*  
*Antonio José López Martínez*

In [1]:
import re
import pandas as pd

Pyarrow will become a required dependency of pandas in the next major release of pandas (pandas 3.0),
(to allow more performant data types, such as the Arrow string type, and better interoperability with other libraries)
but was not found to be installed on your system.
If this would cause problems for you,
please provide us feedback at https://github.com/pandas-dev/pandas/issues/54466
        
  import pandas as pd


## Cerca de patrons

In [2]:
texto = '"Ethics are built right into the ideals and objectives of the United Nations" \
#UNSG @NY @UN_Women Society for Ethical Culture bit.ly/2guVelr'


### Exercici 1
Cerca totes les mencions del text (patró `@texto`)

In [3]:
words = re.findall(r"@\w+", texto)

print(words)

['@NY', '@UN_Women']


### Exercici 2
Indica la posició d'inici i longitud de cada menció del text

In [8]:
menciones = re.finditer(r'@\w+', texto)
for mencion in menciones:
    inicio = mencion.start()
    length = mencion.end() - mencion.start()
    print(f"Pocició: {inicio} longitud {length}")

Pocició: 84 longitud 3
Pocició: 88 longitud 9


## Patrons complexos
L'operador `OR` (`'|'`) serveix per especificar dos patrons alternatius
### Exercici 3
Cerca totes les mencions i *hashtags* del text

In [6]:
words = re.findall(r"@\w+|#\w+", texto)

print(words)

['#UNSG', '@NY', '@UN_Women']


### Exercici 4
Captura totes les dates del text següent.

In [9]:
fechas1 = '23/9/1977, 23/09/1977, 23-9-77, 23-9-1977'

In [10]:
datos = re.findall(r'\d{1,2}[-|/]\d{1,2}[-|/]\d{1,4}', fechas1)

datos

['23/9/1977', '23/09/1977', '23-9-77', '23-9-1977']

### Exercici 5
Detecta *totes* les dates d'aquest text (incloent-hi les que indiquen el mes amb text)

In [11]:
fechas2 = '''Francisco nació el 28/3/78, se casó el 20 de mayo del 98 y tuvo 2 hijos,
el primero nació el 3-10-2001 y el segundo el 2 de junio de 2004'''

In [12]:
patron2 = r'(?:\d{1,2}?[-|/]\d{1,2}[-|/]\d{1,4})|(?:\d{1,2}\s+de\s+(?:enero|febrero|marzo|abril|mayo|junio|julio|agosto|septiembre|octubre|noviembre|diciembre)\s+(?:de|del)\s+\d{1,4})'

datos = re.findall(patron2, fechas2)
datos

['28/3/78', '20 de mayo del 98', '3-10-2001', '2 de junio de 2004']

## Captura de grups
Podem buscar un patró compost però només recuperar-ne una part específica.
### Exercici 6
Captura els mesos numèrics només del string `fechas2`

In [13]:
patron3 = r'\d{1,2}[-|/](\d{1,2})[-|/]\d{2,4}'

datos = re.findall(patron3, fechas2)
datos

['3', '10']

### Exercici 7
*Quants gr de sucre té la recepta següent?*
Utilitza captura de grups per obtenir aquesta informació

In [14]:
texto = '''Ingredientes de Arroz con Leche:
- 200 gramos de arroz
- 150 gramos de azúcar
- 1 litro de leche entera
- Dos ramas de canela
- Piel de un limón
- Canela molida
- 50 gramos de mantequilla (Opcional)
'''

In [15]:
patron4 = r'(?P<cantidad>\d+)\s+gramos\s+de\s+azúcar'

datos = re.search(patron4, texto)
datos

<re.Match object; span=(57, 77), match='150 gramos de azúcar'>

### Exercici 8
Podem definir diversos grups a la captura i recuperar-los com una tupla de textos.\
*P.ex. Quants grams de cada ingredient tenim?*\
Torna tots els ingredients amb el patró `GRAMS de INGREDIENT` com una llista de tuples `(GRAMS, INGREDIENT)`

In [16]:
patron5 = r'(?P<cantidad>\d+)\s+gramos\s+de\s+(?P<ingrediente>.+)'

datos = re.findall(patron5, texto)
for gramos, ingrediente in datos:
    print(f"Cantidad: {gramos} gramos de {ingrediente}")


Cantidad: 200 gramos de arroz
Cantidad: 150 gramos de azúcar
Cantidad: 50 gramos de mantequilla (Opcional)


### Exercici 9
Genera un diccionari de Python amb els grams de cada ingredient a partir de la llista de `matches` de l'exercici anterior (usa el nom de l'ingredient com a `clau` i els grams com a `valor`).

In [17]:
diccionario = dict([])

for cant, ingred in datos:
    diccionario[ingred] = cant

diccionario

{'arroz': '200', 'azúcar': '150', 'mantequilla (Opcional)': '50'}

### Exercici 10

Donat el text següent:

In [18]:
texto = 'Some authors like Jason Foster (y.foster@abcd.com), R. Davis (rdavis22@www.uk) and Charlotte Williams (ch_williams@usa.gov) observed that...'

#### Ex 10.1
Extrau tots els noms, cognoms i correus de persones d'aquest text com una llista de diccionaris amb les claus `nom`, `cognom` i `correu`.\
Ajuda: Utilitza una captura de grups amb nom i utilitza el mètode `groupdict` per obtenir el diccionari demanat per a cada match*.

In [19]:
patron6 = r'\s+(?P<nombre>\b[A-Z][a-z]*.)\s+(?P<apellido>\b[A-Z][a-z]+)\s+.(?P<correo>[A-Za-z._0-9]+@[a-z]+\.[a-z]+)'

datos = re.finditer(patron6, texto)
lista = []

for dato in datos:
    lista.append(dato.groupdict())

lista

[{'nombre': 'Jason', 'apellido': 'Foster', 'correo': 'y.foster@abcd.com'},
 {'nombre': 'R.', 'apellido': 'Davis', 'correo': 'rdavis22@www.uk'},
 {'nombre': 'Charlotte',
  'apellido': 'Williams',
  'correo': 'ch_williams@usa.gov'}]

#### Ex. 10.2
Converteix aquesta llista en un DataFrame de Pandas.

In [20]:
DataF = pd.DataFrame(lista)

DataF

Unnamed: 0,nombre,apellido,correo
0,Jason,Foster,y.foster@abcd.com
1,R.,Davis,rdavis22@www.uk
2,Charlotte,Williams,ch_williams@usa.gov


## Ús de non-capturing groups
Quan fem servir un grup per definir un patró complex però volem capturar tota l'expressió fem servir un *non-capturing group*.
### Exercici 11
Captura tots els números de telèfon amb prefix de Madrid (91 o 81) de la llista següent:

In [21]:
telefonos = "96-3543467, 926765645, 915434222, 900100800, 81-38665443, 817654498"

In [22]:
patron7 = r'\b(?:91|81)-*\d{7,8}'

datos = re.findall(patron7, telefonos)

datos

['915434222', '81-38665443', '817654498']

## Substitució de patrons
La funció `re.sub()` permet substituir text capturat per una expressió regular.

### Exercici 12
Substitueix en el text següent els imports expressats com `$valor` a la forma `valor$`\
Nota: el símbol `$` té un significat especial a RegEx pel que cal escapar-lo com a `\$`

In [23]:
texto = "El coste total fue de $320, repartidos en $225.7 en comida y $94.3 en bebida"

In [24]:
patron8 = r'(\$\d[0-9.]+)'

dato = re.sub(patron8, lambda x: f"{x.group(1)[1:]}$", texto)

dato

'El coste total fue de 320$, repartidos en 225.7$ en comida y 94.3$ en bebida'

## Ús de RegEx amb objectes de Pandes
Si tenim un objecte Series de Pandas, podem aplicar les funcions de text o de cerca d'expressions regulars sobre el contingut de cada element (en un DataFrame cada columna és un objecte Series).

### Captura de grups numerats:
Amb el mètode `str.extractall` es capturen els grups de RegEx en un objecte de Pandas i el retorna en columnes d'un DataFrame (si els grups estan numerats els utilitza com a nom de columna).

### Exercici 13
Extreu totes les dates dels textos següents, separant dia, mes i any.

In [25]:
fechas = ["Tengo cita con el doctor el 3/10 a las 10", 
          "Juan nació el 28/3/78",
          "Su primer hijo nació el nació el 3-10-2001 y el segundo el 10-1-2003",
          "El 8/1/1998 se fué de viaje a Praga"]

df = pd.DataFrame(fechas, columns=['texto'])
df

Unnamed: 0,texto
0,Tengo cita con el doctor el 3/10 a las 10
1,Juan nació el 28/3/78
2,Su primer hijo nació el nació el 3-10-2001 y e...
3,El 8/1/1998 se fué de viaje a Praga


In [27]:
patron_fecha = r'(?P<dia>\d{1,2})[\/-](?P<mes>\d{1,2})[\/-]*(?P<ano>\d{2,4})*'

fechas_extraidas = df['texto'].str.extractall(patron_fecha)

fechas_extraidas.columns = ['Dia', 'Mes', 'Año']

print(fechas_extraidas)

        Dia Mes   Año
  match              
0 0       3  10   NaN
1 0      28   3    78
2 0       3  10  2001
  1      10   1  2003
3 0       8   1  1998


### Exercici 14
A partir de la recepta següent genera un dataframe amb les columnes següents:
- `Ingredient`: nom de l'ingredient
- `Quantitat`: valor numèric de la quantitat
- `Unitats`: unitat en què s'expressa la quantitat  

Notes:\
`Quantitat` i `Unitats` són opcionals. Considera com a possibles unitats 'gr', 'gramos', 'litro', 'litros','l' i 'ml'.  
Cada línia conté un ingredient, amb el patró `'CANTIDAD? (UNIDADES de)? INGREDIENTE'`

In [28]:
texto = """
200 gr de arroz redondo.
1 litro de leche entera.
100 gr de azúcar.
2 ramas de canela.
La cáscara de un limón.
2 ml de esencia de vainilla.
50 gramos de mantequilla (Opcional).
"""

In [31]:
patron = r'(?P<cantidad>\d+)?\s+(?P<unidades>(?:gr|gramos|litro|litros|l|ml)?)\s+de\s+(?P<nombre>[\w\s]+)\s*(?:\((?P<notas>.*?)\))?\.'

ingredientes = re.findall(patron, texto)

df = pd.DataFrame(ingredientes, columns=['Quantitat', 'Unitats', 'Ingredient', 'Notes'])

unidad_dict = {'gr': 'gr', 'gramos': 'gramos', 'litro': 'litro', 'litros': 'litros', 'l': 'l', 'ml': 'ml'}
df['Unitats'] = df['Unitats'].replace(unidad_dict)

df['Quantitat'] = pd.to_numeric(df['Quantitat'], errors='coerce')

print(df)...

   Quantitat Unitats           Ingredient     Notes
0        200      gr        arroz redondo          
1          1   litro         leche entera          
2        100      gr               azúcar          
3          2      ml  esencia de vainilla          
4         50  gramos         mantequilla   Opcional
