# Pràctica 1 de Processat del Llenguatge Natural:
# Ús d'expressions regulars en Python
En aquesta pràctica utilitzarem el mòdul `re` de Python i la llibreria Pandas per a tractar amb expressions regulars.

### Noms:
Introdueix en esta celda els noms dels integrats del grup:\
*Alumne 1* \
*Alumne 2*

## Cerca de patrons
En el mòdul `re` hi ha 4 mètodes per a buscar un patró de text: `re.match`, `re.search`, `re.findall` i `re.finditer`


In [None]:
import re

texto = '"Ethics are built right into the ideals and objectives of the United Nations" \
#UNSG @NY @UN_Women Society for Ethical Culture bit.ly/2guVelr'

print(re.match(r'@[A-Z]+', texto))

`re.match` només cerca al inici de la cadena, `re.search` cerca la primera aparició del patró en el text.

In [None]:
print(re.match(r'#[A-Z]+', texto))

In [None]:
print(re.search(r'@[\w]+', texto))

In [None]:
print(re.search(r'@[A-Z]+', texto))

`re.match` i `re.search` tornen un objecte `Match` que té diversos mètodes. El mètode `group()` conté el patró trobat.

In [None]:
match = re.search(r'#[A-Z]+', texto)
print('span:',match.span())
print('start:',match.start())
print('end:',match.end())
print('group:',match.group())

Per a buscar totes les aparicions d'un patró en el text usem la funció `re.findall`

In [None]:
print(re.findall(r'@[\w_]+', texto))

## Patrons complexos
Exemple: volem detectar qualsevol data en un text, però la data pot seguir diferents patrons. Cal definir un patró amb totes les possibilitats...

In [None]:
fechas = '23/9/2010, 23/09/2010, 23/9-10, 23-9-2010, 2/9/2010'

In [None]:
re.findall(r'\d{2}/\d{1,2}/\d{4}', fechas) #captura sólo las fechas con formado dd/(m)m/aaaa

In [None]:
re.findall(r'\d{1,2}[/-]\d{1,2}[/-]\d{2,4}', fechas) #captura todos los formatos de fecha posibles

In [None]:
texto = 'El avión salió el 5/10/12 de Caracas'
re.findall(r'\d{1,2}[/-]\d{1,2}[/-]\d{2,4}', texto)

### Exercici 1
Com podem detectar *totes* les dates d'aquest text?  
*Ajuda: Utilitza l'operador* OR (`|`) *per a especificar dos patrons alternatius*

In [None]:
texto = '''Francisco nació el 28/3/78, se casó el 20 de mayo del 98 y tuvo 2 hijos,
el primero nació el 3-10-2001 y el segundo el 2 de junio de 2004'''

In [None]:
# Solución


## Captura de grups
Podem buscar un patró compost però només recuperar una part específica d'aquest.

In [None]:
texto = '''Ingredientes de Arroz con Leche:
- 200 gramos de arroz
- 150 gramos de azúcar
- Un litro de leche entera
- Dos ramas de canela
- Piel de un limón
- Canela molida
- 50 gramos de mantequilla (Opcional)
'''

*Quants gr de sucre té la recepta?*  
Podem buscar tots els números del text:

In [None]:
re.findall(r'\d+', texto)

Podem buscar el patró dels grams de sucre

In [None]:
re.findall(r'\d+ gramos de azúcar', texto)

Si d'aquest patró volem retornar només la part corresponent al número l'assignem a un grup:

In [None]:
re.findall(r'(\d+) gramos de azúcar', texto)

Podem definir diversos grups en la captura i recuperar-los com una tupla de textos.  
*P. ex. Quants grams de cada ingredient tenim?*

In [None]:
re.findall(r'(\d+) gramos de (\w+)', texto)

Fins i tot podem assignar un nom a cada grup. L'objecte retornat crea un diccionari amb els grups trobats.

In [None]:
matches = re.search(r'(?P<gramos>\d+) gramos de (?P<ingrediente>\w+)', texto)
print(matches.groups())
matches.groupdict()

In [None]:
matches.group('gramos') #alternativamente matches['gramos']

In [None]:
matches.group('ingrediente') #alternativamente matches['ingrediente']

Per a buscar totes les repeticions d'un patró amb grups enumerats no podem usar `re.findall` sinó que hem d'usar la versió iterativa `re.finditer` que retorna un *iterable* sobre objectes de tipus `re.Match`

In [None]:
matches = list(re.finditer(r'(?P<gramos>\d+) gramos de (?P<ingrediente>\w+)', texto))
matches

In [None]:
matches[0].groupdict()

Podem crear una *list comprehension* recorrent sobre el resultat de `re.findall`:

In [None]:
[(ingredientes, gramos) for (gramos, ingredientes) in re.findall(r'(?P<gramos>\d+) gramos de (?P<ingrediente>\w+)', texto)]

### Exercici 2
Genera un diccionari de Python amb els grams de cada ingredient a partir de la llista `matches`. El resultat ha de ser:  
```python
{'arroz': '200', 'azúcar': '150', 'mantequilla': '50'}
```

In [None]:
#Solución


### Exercici 3
Crea una llista amb tots els valors de `span()` dels patrons trobats en `matches`, guardats com tuples.

In [None]:
#solución


### Exercici 4

Donat el següent text:

In [None]:
texto = 'Some authors like Jason Foster (y.foster@abcd.com), R. Davis (rdavis22@www.uk) and Charlotte Williams (ch_williams@usa.gov) observed that...'

#### Ex 4.1
Extrau tots els noms i cognoms de persones d'aquest text com una llista de diccionaris amb les claus `nom` i `cognom`. Converteix aqueixa llista en un DataFrame de Pandas.

In [None]:
#Solución


#### Ex. 4.2
Extrau tots els emails del text anterior com una llista.

In [None]:
#Solución


## Ús de non-capturing groups
Quan usem un grup per a definir un patró complex però volem capturar tota l'expressió usem un *non-capturing group*:

In [None]:
texto = "entre el 15 de agosto y el 20 de septiembre, no el 15 de 2020"
re.findall(r'\d+ de (?:enero|febrero|marzo|abril|mayo|junio|julio|agosto|\w+bre\b)', texto)

### Exercici 5

Crea un patró RegEx per a detectar totes les URL que pertanguen a un domini `.es` del següent text:  
Ajuda: el patró ha de buscar el text `.es` darrere d'un patró repetit `algo.` (una o més vegades) , seguit d'un patró opcional de tipus `/algo/algo_más`

In [None]:
texto = "amazon.com amazon.es google.es/shopping aliexpress.com.es www.elcorteingles.es"

In [None]:
#Solución


## Substitució de patrons

La funció `re.sub()` permet substituir text capturat per una expressió regular.  

### Exercici 6

Substitueix en el següent text els imports expressats com a `$valor` a la forma `valor$`  
Nota: el símbol `$` té un significat especial en RegEx pel que cal escapar-lo com `\$`

In [None]:
texto = "El coste total fue de $320, repartidos en $225.7 en comida y $94.3 en bebida"

In [None]:
#solución


## Ús de RegEx amb objectes de Pandas
 Si tenim un objecte `Series` de Pandas podem aplicar les funcions de text o de cerca d'expressions regulars sobre el contingut de cada element (en un `DataFrame` cada columna és un objecte `Series`)

In [None]:
import pandas as pd

frases = ["Tengo cita con el doctor a las 2:45.", 
          "el martes llegaré a las 11:30.",
          "No puedo, tengo un partido a las 7:00.",
          "Nos vemos el jueves 7 a las 8:30.",
          "El tren sale a las 9:15 y llega a las 11:35."]

df = pd.DataFrame(frases, columns=['texto'])
df

### Captura de grups:

In [None]:
# busca las ocurrencias de hora:minuto en los textos
df['texto'].str.findall(r'(\d{1,2}):(\d{2})')

### Captura de grups numerats:

In [None]:
# extrae todas las apariciones de tiempo y separa horas y minutos
df['texto'].str.extractall(r'(?P<tiempo>(?P<hora>\d?\d):(?P<minutos>\d\d))')

### Exercici 7
Extrau totes les dates dels següents textos, primer de manera completa i després separant dia, mes i any

In [None]:
fechas = ["Tengo cita con el doctor el 3/10", 
          "Juan nació el 28/3/78",
          "Su primer hijo nació el nació el 3-10-2001 y el segundo el 10-1-2003",
          "El 8/1/1998 se fué de viaje a Praga"]

df = pd.DataFrame(fechas, columns=['texto'])
df

In [None]:
# Solución


### Exercici 8 
A partir de la següent llista de Tuits, genera un `DataFrame` amb les següents columnes:
 - `Tweet`: text del Tuit
 - `Menciones`: llista amb les mencions de cada Tuit
 - `Hashtag`: llista amb els hashtags de cada Tuit

In [None]:
tweets = [
    '@Yulian_Poe @guillermoterry1 Ah. mucho más por supuesto! solo que lo incluyo. Me habías entendido mal',
    'Se ha terminado #Rio2016 Lamentablemente no arriendo las ganancias al pueblo brasileño por la penuria que les espera',
    '@Yosmath @Planeta87Radio  #Incantus  Genial ya estoy conectada',
    '@seestrena #seestrenasietevidas Sería un gato tipo Garfield porqué soy un poco vago y porqué me encanta la lasaña!!',
    'Hoy toca escuchar a #MiguelRios con otros grandes artistas...  #Insurrección...'
]

In [None]:
#solucion


### Exercici 9

A partir de la següent recepta genera un dataframe amb les següents columnes:  
 - `Ingredient`: nom de l'ingredient  
 - `Quantitat`: valor numèric de la quantitat  
 - `Unitats`: unitat en la qual s'expressa la quantitat  

 *Nota*: `Quantitat` i `Unitats` són opcionals. Considera com a possibles unitats 'gr', 'grams', 'litre', 'litres','l' i 'ml'


In [None]:
texto = """
200 gr de arroz redondo.
1 litro de leche entera.
100 gr de azúcar.
2 ramas de canela.
La cáscara de un limón.
2 ml de esencia de vainilla.
50 gramos de mantequilla (Opcional).
"""

In [None]:
#Solución
