<div align="center"><a href="https://colab.research.google.com/github/institutohumai/cursos-python/blob/master/Automatizacion/expresiones_regulares_2daCursada2022.ipynb"> <img src='https://colab.research.google.com/assets/colab-badge.svg'/> </a> <br> Recordá abrir en una nueva pestaña </div>

## Expresiones Regulares

También conocido popularmente como **RegEx**. Son un mini lenguaje de programación diseñado para realizar búsquedas en strings. Son extremadamente útiles para:
- Extraer datos de distintos tipos de archivos, texto o con otro tipo de codificación.
- Web scraping: como veremos en las próximas clases, las regex son un buen método para encontrar la información que se necesita en un sitio web.
- Limpieza de datos: herramienta fundamental en el repertorio del científico de datos para limpiar datos quitando caracteres "ruidosos", o armando nuevos "features" según la presencia o no de cierto texto.

#### Recursos útiles

- [Sitio para armar RegEx online](https://regexr.com/)
- [Alternativa](https://regex101.com/)
- [CheatSheet](https://www.dataquest.io/wp-content/uploads/2019/03/python-regular-expressions-cheat-sheet.pdf)


Python utiliza la libreria llamada **re** para todo lo relacionado a regular expressions

In [None]:
import re 

# a- extraer números de una oración.
texto = "Mi nombre es Juan y mi teléfono es 1564232324"
regla_de_busqueda = "\d+"
# print(texto)
print(re.findall(regla_de_busqueda, texto))

['d']


Las funciones principales de la librería re son:
- re.findall(pattern, string) para encontrar todos los resultados de una búsqueda
- re.search(pattern, string) para encontrar el primer resultado que coincida
- re.sub(pattern, replace, string) para substituir un texto por otro


<h2><center>Sintaxis para construir regex</center></h2>


<h3><center>Grupos de captura</center></h3>


|     |                       |
|-----|-----------------------|
| ()  | grupo de captura      |
|(?:) | grupo de no captura   |

<h3><center>Operadores</center></h3>

|         |                      |
|---------|----------------------|
| \|      | operador "or"        |
| \\      | Escapar, o interpretar literalmente |
| []      | conjunto (cada elemento estará automáticamente separado por "or")             |
|[m-z3-9] | rangos               |


<h3><center>Cuantificadores</center></h3>

|      |                                              |
|------|----------------------------------------------|
| +    | Uno o más del elemento anterior              |
| *    | Cero o más del elemento anterior             |
| {4,} | Cuatro o más del elemento anterior           |
| ?    | Cambia el operador anterior de lazy a greedy |

#### ¿Cómo se usa? Veamos ejemplos

In [None]:
# En realidad los telefonos no son cualquier seguidilla de numeros
# suelen tener entre 6 y 8 numeros despues del 15
texto = "Mi nombre es María y mi teléfono es 1564232324"
regla_de_busqueda = "15\d{6,8}"
re.findall(regla_de_busqueda,texto)

['1564232324']

In [None]:
# En realidad los telefonos no arrancan siempre con 15
# capaz empiezan con 11 si son de buenos aires por ejemplo
texto = "Mi nombre es Carlos y mi teléfono es 114232324 154232324"
regla_de_busqueda = "(?:15|11)\d{6,8}"
re.findall(regla_de_busqueda,texto)

['114232324', '154232324']

In [None]:
# En realidad los telefonos pueden tener un guión o espacio a parte de números
texto = "Mi nombre es asfasfeaf33 y mi teléfono es 11 6423-2324"
regla_de_busqueda = "(?:15|11)[0-9\s-]{6,10}"
re.findall(regla_de_busqueda,texto)

['11 6423-2324']

In [None]:
# b- Como extraer el mes de un texto
texto = "REPORTE DE PERFOMANCE - MES DE julio y agosto"
regla_de_busqueda = "(MES DE (?:JULIO|AGOSTO|JUNIO))"
re.findall(regla_de_busqueda,texto, flags=re.IGNORECASE)

['agosto']

In [None]:
# ¿Cómo hago que pare de buscar el operador * ?
text = "me llamo pedro. me gusta el rock."
regla_de_busqueda_no_greedy = "(.*?)\."
regla_de_busqueda_greedy = "(.*)\."
print(re.findall(regla_de_busqueda_no_greedy,text))
print(re.findall(regla_de_busqueda_greedy,text))

['me llamo pedro', ' me gusta el rock']
['me llamo pedro. me gusta el rock']


In [None]:
import re

comentario_de_mercadolibre = 'hola soy @mariadominguez24, me interesa el producto, te dejo mi celu 1565525233, saludos'

def encontrar_telefonos(texto):
    regla_de_busqueda = r'(15[0-9]{8})'
    return re.findall(regla_de_busqueda, texto)

def encontrar_usuarios(texto):
    regla_de_busqueda = r'@([a-zA-Z0-9]+)'
    return re.findall(regla_de_busqueda, texto)

print(encontrar_telefonos(comentario_de_mercadolibre))
print(encontrar_usuarios(comentario_de_mercadolibre))

['1565525233']
['mariadominguez24']


In [None]:
print(r'hola\nhola')

hola\nhola


#### Ejercicio

Usa regex para hacer una función que busque todos los emails en un texto

In [None]:
#@title Resolución 

texto = "Hola te paso mi mail python@hotmail.com, saludos. Si no te funciona mandame a este otro, pedro_2010@yahoo.com"
encontrar_emails(texto)

Ejercicio

Vamos a usar como ejemplo el [DSM](https://en.wikipedia.org/wiki/Diagnostic_and_Statistical_Manual_of_Mental_Disorders), el libro de psiquiatría más importante en el mundo, en formato txt. El mismo se descargó en PDF y convirtió a texto usando [textract](https://textract.readthedocs.io/en/stable/), una cómoda librería de Python.

De este texto:

1. Extraer los nombres de los médicos que aparecen.

Extracto de ejemplo:

```
Allan Burstein, M.D.
David M. Clark, Ph.D.
Lee Anna Clark, Ph.D.
Deborah S. Cowley, M.D.
```

Es decir, en **cada renglón** sigue el patrón "[nombres], M.D.".

Tip: recuerden cómo se representa el paso de línea (o "newline")!

In [None]:
# Descargamos el texto
!wget -nc https://unket.s3.sa-east-1.amazonaws.com/data/DSM.txt

--2022-09-03 14:44:29--  https://unket.s3.sa-east-1.amazonaws.com/data/DSM.txt
Resolving unket.s3.sa-east-1.amazonaws.com (unket.s3.sa-east-1.amazonaws.com)... 3.5.233.135
Connecting to unket.s3.sa-east-1.amazonaws.com (unket.s3.sa-east-1.amazonaws.com)|3.5.233.135|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 2445688 (2.3M) [text/plain]
Saving to: ‘DSM.txt’


2022-09-03 14:44:31 (2.30 MB/s) - ‘DSM.txt’ saved [2445688/2445688]



In [None]:
import re

with open('DSM.txt', 'r') as inp:
    texto = inp.read()

In [None]:
texto[:1000]

In [None]:
# regla_de_busqueda = "(\w+\s\w+[,\s]+?(?:M.D.|Ph.D.|Ph.D.|M.D.))"
regla_de_busqueda = "(\w+\s\w+[,\s]*?(?:M.D.|Ph.D.|Ph.D.|M.D.))\n"
re.findall(regla_de_busqueda,texto)

### Comentario: Raw strings

In [None]:
print(r'hola\nhola')

hola\nhola


In [None]:
print('Con raw string: ')
print(r'primera linea\nsegunda linea')
print(' ')
print('Sin raw string: ')
print('primera linea\nsegunda linea')

Con raw string: 
primera linea\nsegunda linea
 
Sin raw string: 
primera linea
segunda linea


In [None]:
#@title Respuesta 
regla_de_busqueda = "(\w+\s\w+[\,\s]+(?:M.D.|M.D.|M.D.,\sPh.D.'))\n"
re.findall(regla_de_busqueda,texto)

Ahora buscar a las personas con PhDs (observen el extracto anterior)

['Nancy Coover Andreasen, M.D., Ph.D.',
 'Ellen Frank, Ph.D.',
 'Juan Enrique Mezzich, M.D., Ph.D.',
 'Edna Foa, Ph.D.',
 'Rachel Klein, Ph.D.',
 'Rolf Loeber, Ph.D.',
 'Rhea Paul, Ph.D.',
 'G. Terence Wilson, Ph.D.',
 'Ellen Frank, Ph.D.',
 'Juan Enrique Mezzich, M.D., Ph.D.']

Hacer una RegEx para extraer nombres de condiciones mentales, ejemplo:

Ejemplo

```
Clinical judgment must be used in distinguishing developmentally appropriate
levels of separation anxiety from the clinically significant concerns about separation
seen in Separation Anxiety Disorder.
I Diagnostic criteria for 309.21 Separation Anxiety
Disorder
A. Developmentally inappropriate and excessive anxiety concerning sep-
aration
```

Debería dar "Separation Anxiety". Es decir, el patrón es: "Diagnostic criteria for [números con punto] [nombre de la condicion]"

Tip: podemos hacer que el patrón contemple mayúsculas y minúsculas (con [A-Z] y [a-z]) o indicar un "flag" para que se ignoren las mayúsculas con

```re.findall(patrón, string, flags=re.IGNORECASE)```

In [None]:
# regla_de_busqueda = "(\w+\s\w+[\,\s]+(?:M.D.|M.D.|M.D.,\sPh.D.'))\n"
regla_de_busqueda = "Diagnostic criteria for\s[\d\.]+\s([\w ]+)"

# Diagnostic criteria for [números con punto] [nombre de la condicion]
re.findall(regla_de_busqueda, texto, flags=re.IGNORECASE)

Extraer los nombres de los países de los profesionales que fueron colaboradores internacionales en esta última edición

Extracto de ejemplo:

```
Michael Gelder, M.D. (England)
Semyon Gluzman, M.D. (former USSR)
Judith H. Gold, M.D. (Canada)
Marcus Grant, Ph.D. (Switzerland)
Herta A. Guttman, M.D. (Canada)
Heinz Hafner, M.D. (Germany)
Robert Hare, Ph.D. (Canada)
```

Pistas: 
1. Para que sea más sencillo consideren solo países cuyo nombre sea una sola palabra. 
2. También pueden considerar que siempre está **después de M.D. o de PhD.** (recuerden cómo buscar una u otra cosa!).
3. Cuidado también con "escapar" los paréntesis literales

In [None]:
# regla_de_busqueda = "(?:M.D. |M.D. |M.D.,\sPh.D. | ')\(([A-Z]+[a-z]+)\)"  
regla_de_busqueda = "(?:M.D.|M.D.|M.D.,\sPh.D.')\s*\(([A-Z]+[a-z]+)\)"  
paises = re.findall(regla_de_busqueda,texto)
paises

Ahora contemos cuántas veces aparece cada país con la siguiente clase Counter. Simplemente pasen su lista de `paises` como argumento al constructor Counter() y les dará el resultado.

In [None]:
from collections import Counter

test = Counter(paises)
test