## Expresiones Regulares

También conocido popularmente como **RegEx**. Son un mini lenguaje de programación diseñado para realizar búsquedas en strings. Son extremadamente útiles para:
- Extraer datos de distintos tipos de archivos, texto o con otro tipo de codificación.
- Web scraping: como veremos en las próximas clases, las regex son un buen método para encontrar la información que se necesita en un sitio web.
- Limpieza de datos: herramienta fundamental en el repertorio del científico de datos para limpiar datos quitando caracteres "ruidosos", o armando nuevos "features" según la presencia o no de cierto texto.

#### Recursos útiles

- [Sitio para armar RegEx online](https://regexr.com/)
- [Alternativa](https://regex101.com/)

Python utiliza la libreria llamada **re** para todo lo relacionado a regular expressions

In [2]:
import re 

# a- extraer números de una oración.
texto = "Mi nombre es Juan y mi teléfono es 1564232324"
regla_de_busqueda = "\d+"
# print(texto)
print(re.findall(regla_de_busqueda, texto))

['1564232324']


Las funciones principales de la librería re son:
- re.findall(pattern, string) para encontrar todos los resultados de una búsqueda
- re.search(pattern, string) para encontrar el primer resultado que coincida
- re.sub(pattern, replace, string) para substituir un texto por otro


<h2><center>Sintaxis para construir regex</center></h2>


<h3><center>Grupos de captura</center></h3>


|     |                       |
|-----|-----------------------|
| ()  | grupo de captura      |
|(?:) | grupo de no captura   |

<h3><center>Operadores</center></h3>

|         |                      |
|---------|----------------------|
| \|      | operador "or"        |
| \\      | Escapar, o interpretar literalmente |
| []      | conjunto (cada elemento estará automáticamente separado por "or")             |
|[m-z3-9] | rangos               |


<h3><center>Cuantificadores</center></h3>

|      |                                              |
|------|----------------------------------------------|
| +    | Uno o más del elemento anterior              |
| *    | Cero o más del elemento anterior             |
| {4,} | Cuatro o más del elemento anterior           |
| ?    | Cambia el operador anterior de lazy a greedy |

#### ¿Cómo se usa? Veamos ejemplos

In [11]:
# En realidad los telefonos no son cualquier seguidilla de numeros
# suelen tener entre 6 y 8 numeros despues del 15
texto = "Mi nombre es María y mi teléfono es 1564232324"
regla_de_busqueda = "15\d{6,8}"
re.findall(regla_de_busqueda,texto)

['1564232324']

In [12]:
# En realidad los telefonos no arrancan siempre con 15
# capaz empiezan con 11 si son de buenos aires por ejemplo
texto = "Mi nombre es Carlos y mi teléfono es 114232324 154232324"
regla_de_busqueda = "(?:15|11)\d{6,8}"
re.findall(regla_de_busqueda,texto)

['114232324', '154232324']

In [None]:
# En realidad los telefonos pueden tener un guión o espacio a parte de números
texto = "Mi nombre es asfasfeaf33 y mi teléfono es 11 6423-2324"
regla_de_busqueda = "(?:15|11)[0-9\s-]{6,10}"
re.findall(regla_de_busqueda,texto)

In [None]:
# b- Como extraer el mes de un texto
texto = "REPORTE DE PERFOMANCE - MES DE julio y agosto"
regla_de_busqueda = "(MES DE (?:JULIO|AGOSTO|JUNIO))"
re.findall(regla_de_busqueda,texto, flags=re.IGNORECASE)

In [None]:
# ¿Cómo hago que pare de buscar el operador * ?
text = "me llamo pedro. me gusta el rock."
regla_de_busqueda_no_greedy = "(.*?)\."
regla_de_busqueda_greedy = "(.*)\."
print(re.findall(regla_de_busqueda_no_greedy,text))
print(re.findall(regla_de_busqueda_greedy,text))

In [13]:
import re

comentario_de_mercadolibre = 'hola soy @mariadominguez24, me interesa el producto, te dejo mi celu 1565525233, saludos'

def encontrar_telefonos(texto):
    regla_de_busqueda = r'(15[0-9]{8})'
    return re.findall(regla_de_busqueda, texto)

def encontrar_usuarios(texto):
    regla_de_busqueda = r'@([a-zA-Z0-9]+)'
    return re.findall(regla_de_busqueda, texto)

print(encontrar_telefonos(comentario_de_mercadolibre))
print(encontrar_usuarios(comentario_de_mercadolibre))

['1565525233']
['mariadominguez24']


In [34]:
print(r'hola\nhola')

hola\nhola


#### Ejercicio

Usa regex para hacer una función que busque todos los emails en un texto

In [35]:
#@title Resolución 

texto = "Hola te paso mi mail python@hotmail.com, saludos. Si no te funciona mandame a este otro, pedro_2010@yahoo.com"

In [80]:
def encontrar_email(texto):
    regla_de_busqueda = r'[a-zA-Z0-9._%+-]+@+[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}'
    return re.findall(regla_de_busqueda, texto)

In [81]:
encontrar_email(texto)

['python@hotmail.com', 'pedro_2010@yahoo.com']

Ejercicio

Vamos a usar como ejemplo el [DSM](https://en.wikipedia.org/wiki/Diagnostic_and_Statistical_Manual_of_Mental_Disorders), el libro de psiquiatría más importante en el mundo, en formato txt. El mismo se descargó en PDF y convirtió a texto usando [textract](https://textract.readthedocs.io/en/stable/), una cómoda librería de Python.

De este texto:

1. Extraer los nombres de los médicos que aparecen.

Extracto de ejemplo:

```
Allan Burstein, M.D.
David M. Clark, Ph.D.
Lee Anna Clark, Ph.D.
Deborah S. Cowley, M.D.
```

Es decir, en **cada renglón** sigue el patrón "[nombres], M.D.".

Tip: recuerden cómo se representa el paso de línea (o "newline")!

In [82]:
# Descargamos el texto
# !wget -nc https://unket.s3.sa-east-1.amazonaws.com/data/DSM.txt
!curl -o data/DSM.txt https://unket.s3.sa-east-1.amazonaws.com/data/DSM.txt

  % Total    % Received % Xferd  Average Speed   Time    Time     Time  Current
                                 Dload  Upload   Total   Spent    Left  Speed

  0     0    0     0    0     0      0      0 --:--:-- --:--:-- --:--:--     0
  0     0    0     0    0     0      0      0 --:--:-- --:--:-- --:--:--     0
  3 2388k    3 78933    0     0  62737      0  0:00:38  0:00:01  0:00:37 62794
 68 2388k   68 1642k    0     0   697k      0  0:00:03  0:00:02  0:00:01  697k
100 2388k  100 2388k    0     0   850k      0  0:00:02  0:00:02 --:--:--  851k


In [83]:
import re

with open('data/DSM.txt', 'r') as inp:
    texto = inp.read()

In [84]:
texto[:1000]

"DIAGNOSTIC AND STATISTICAL\nMANUAL OF\nMENTAL DISORDERS\nFOURTH EDITION\nDSM-IV\nCHUWEU& MORING\n\\ IRaARY\nUUI \\ 9 1990\nRECEIVED\nTMThis page intentionally left blankDIAGNOSTIC AND STATISTICAL\nMANUAL OF\nMENTAL DISORDERS\nFOURTH EDITION\nDSM-IV\nTM\nPUBLISHED BY THE\nAMERICAN PSYCHIATRIC ASSOCIATION\nWASHINGTON, DCCopyright Â© 1994 American Psychiatric Association\nALL RIGHTS RESERVED. Unless authorized in writing by the APA, no part of this book may be\nreproduced or used in a manner inconsistent with the APA's copyright. This prohibition applies\nto unauthorized uses or reproductions in any form, including electronic applications.\nManufactured in the United States of America on acid-free paper\nAmerican Psychiatric Association\n1400 K Street, N.W., Washington, DC 20005\nCorrespondence regarding copyright permissions should be directed to the Division of Publica-\ntions and Marketing, American Psychiatric Association, 1400 K Street, N.W., Washington, DC\n20005.\nDSM and DSM-IV a

In [85]:
# regla_de_busqueda = "(\w+\s\w+[,\s]+?(?:M.D.|Ph.D.|Ph.D.|M.D.))"
regla_de_busqueda = "(\w+\s\w+[,\s]*?(?:M.D.|Ph.D.|Ph.D.|M.D.))\n"
re.findall(regla_de_busqueda,texto)

['ALLEN FRANCES, M.D.',
 'ALAN PINCUS, M.D.',
 'Magda Campbell, M.D.',
 'Ellen Frank, Ph.D.',
 'John Gunderson, M.D.',
 'Roger Peele, M.D.',
 'John Rush, M.D.',
 'Alan Schuckit, M.D.',
 'David Shaffer, M.D.',
 'Timothy Walsh, M.D.',
 'Jonathan Davidson, M.D.',
 'Edna Foa, Ph.D.',
 'Abby Fyer, M.D.',
 'Douglas Caine, M.D.',
 'Marshall Folstein, M.D.',
 'Lloyd Gottlieb, M.D.',
 'Igor Grant, M.D.',
 'Benjamin Liptzin, M.D.',
 'Jay Cohen, M.D.',
 'Barry Garfinkel, M.D.',
 'Rachel Klein, Ph.D.',
 'Benjamin Lahey, Ph.D.',
 'Rolf Loeber, Ph.D.',
 'Jeffrey Newcorn, M.D.',
 'Rhea Paul, Ph.D.',
 'Michael Rutter, M.D.',
 'Fred Volkmar, M.D.',
 'Paul Garfinkel, M.D.',
 'James Mitchell, M.D.',
 'Terence Wilson, Ph.D.',
 'David Dunner, M.D.',
 'Ellen Frank, Ph.D.',
 'Roger Peele, M.D.',
 'Stephen Setterberg, M.D.',
 'Skodol II, M.D.',
 'Roger Blashfield, Ph.D.',
 'Jean Fiester, M.D.',
 'Theodore Millon, Ph.D.',
 'Bruce Pfohl, M.D.',
 'Tracie Shea, Ph.D.',
 'Larry Siever, M.D.',
 'Jean Endicott, Ph.D

### Comentario: Raw strings

In [86]:
print(r'hola\nhola')

hola\nhola


In [87]:
print('Con raw string: ')
print(r'primera linea\nsegunda linea')
print(' ')
print('Sin raw string: ')
print('primera linea\nsegunda linea')

Con raw string: 
primera linea\nsegunda linea
 
Sin raw string: 
primera linea
segunda linea


In [90]:
#@title Respuesta 
regla_de_busqueda = "(\w+\s\w+[\,\s]+(?:M.D.|M.D.|M.D.,\sPh.D.'))\n"
re.findall(regla_de_busqueda,texto)

['ALLEN FRANCES, M.D.',
 'ALAN PINCUS, M.D.',
 'Magda Campbell, M.D.',
 'John Gunderson, M.D.',
 'Roger Peele, M.D.',
 'John Rush, M.D.',
 'Alan Schuckit, M.D.',
 'David Shaffer, M.D.',
 'Timothy Walsh, M.D.',
 'Jonathan Davidson, M.D.',
 'Abby Fyer, M.D.',
 'Douglas Caine, M.D.',
 'Marshall Folstein, M.D.',
 'Lloyd Gottlieb, M.D.',
 'Igor Grant, M.D.',
 'Benjamin Liptzin, M.D.',
 'Jay Cohen, M.D.',
 'Barry Garfinkel, M.D.',
 'Jeffrey Newcorn, M.D.',
 'Michael Rutter, M.D.',
 'Fred Volkmar, M.D.',
 'Paul Garfinkel, M.D.',
 'James Mitchell, M.D.',
 'David Dunner, M.D.',
 'Roger Peele, M.D.',
 'Stephen Setterberg, M.D.',
 'Skodol II, M.D.',
 'Jean Fiester, M.D.',
 'Bruce Pfohl, M.D.',
 'Larry Siever, M.D.',
 'Barbara Parry, M.D.',
 'Sally Severino, M.D.',
 'Logan Stotland, M.D.',
 'Anne Phillips, M.D.',
 'Alan Stoudemire, M.D.',
 'Samuel Keith, M.D.',
 'Raul Schiavi, M.D.',
 'Taylor Seagraves, M.D.',
 'Nathan Wise, M.D.',
 'Daniel Buysse, M.D.',
 'Roger Peele, M.D.',
 'Quentin Regestein,

Ahora buscar a las personas con PhDs (observen el extracto anterior)

In [96]:
regla_de_busqueda = "(\w+\s+\w+[\,\s]+(?:\sPh.D.))"

In [97]:
re.findall(regla_de_busqueda,texto)

['Ellen Frank, Ph.D.',
 'Edna Foa, Ph.D.',
 'Rachel Klein, Ph.D.',
 'Benjamin Lahey, Ph.D.',
 'Rolf Loeber, Ph.D.',
 'Rhea Paul, Ph.D.',
 'Terence Wilson, Ph.D.',
 'Ellen Frank, Ph.D.',
 'Roger Blashfield, Ph.D.',
 'Theodore Millon, Ph.D.',
 'Tracie Shea, Ph.D.',
 'Jean Endicott, Ph.D.',
 'Ellen Frank, Ph.D.',
 'Leslie Schover, Ph.D.',
 'Jean Beckham, Ph.D.',
 'Naomi Breslau, Ph.D.',
 'Elizabeth Brett, Ph.D.',
 'Evelyn Bromet, Ph.D.',
 'Anna Clark, Ph.D.',
 'Yael Danieli, Ph.D.',
 'Stephen Dobson, Ph.D.',
 'John Fairbank, Ph.D.',
 'Charles Figley, Ph.D.',
 'Ellen Frank, Ph.D.',
 'Ronald Ganellen, Ph.D.',
 'Bonnie Green, Ph.D.',
 'Richard Heimberg, Ph.D.',
 'Terrance Keane, Ph.D.',
 'Dean Kilpatrick, Ph.D.',
 'Cynthia Last, Ph.D.',
 'Salvatore Mannuzza, Ph.D.',
 'Andrew Mathews, Ph.D.',
 'Karla Moras, Ph.D.',
 'Goran 6st, Ph.D.',
 'Patricia Resnick, Ph.D.',
 'Barbara Rothbaum, Ph.D.',
 'Philip Saigh, Ph.D.',
 'Paul Salkovskis, Ph.D.',
 'Susan Solomon, Ph.D.',
 'Peter Trower, Ph.D.',
 'D

Hacer una RegEx para extraer nombres de condiciones mentales, ejemplo:

Ejemplo

```
Clinical judgment must be used in distinguishing developmentally appropriate
levels of separation anxiety from the clinically significant concerns about separation
seen in Separation Anxiety Disorder.
I Diagnostic criteria for 309.21 Separation Anxiety
Disorder
A. Developmentally inappropriate and excessive anxiety concerning sep-
aration
```

Debería dar "Separation Anxiety". Es decir, el patrón es: "Diagnostic criteria for [números con punto] [nombre de la condicion]"

Tip: podemos hacer que el patrón contemple mayúsculas y minúsculas (con [A-Z] y [a-z]) o indicar un "flag" para que se ignoren las mayúsculas con

```re.findall(patrón, string, flags=re.IGNORECASE)```

In [99]:
# regla_de_busqueda = "(\w+\s\w+[\,\s]+(?:M.D.|M.D.|M.D.,\sPh.D.'))\n"
regla_de_busqueda = "Diagnostic criteria for\s[\d\.]+\s([\w ]+)"

# Diagnostic criteria for [números con punto] [nombre de la condicion]
re.findall(regla_de_busqueda, texto, flags=re.IGNORECASE)

['Reading Disorder',
 'Mathematics Disorder',
 'Disorder of Written',
 'Developmental',
 'Developmental Coordination',
 'Expressive Language',
 'Mixed',
 'Mixed Receptive',
 'Phonological Disorder',
 'Stuttering',
 'Autistic Disorder',
 'Autistic Disorder ',
 'Rett',
 'Rett',
 'Childhood',
 'Childhood Disintegrative',
 'Asperger',
 'Conduct Disorder',
 'Conduct Disorder ',
 'Oppositional Defiant',
 'Oppositional Defiant',
 'Pica',
 'Rumination Disorder',
 'Feeding Disorder of',
 'Feeding Disorder of Infancy',
 'Tourette',
 'Chronic Motor or',
 'Transient Tic Disorder',
 'Enuresis',
 'Enuresis ',
 'Separation Anxiety',
 'Selective Mutism',
 'Reactive Attachment',
 'Stereotypic Movement',
 'Delirium Due to ',
 'Amnestic Disorder Due',
 'Catatonic Disorder Due',
 'Catatonic Disorder Due',
 'Personality Change Due',
 'Personality Change Due to ',
 'Alcohol Intoxication',
 'Alcohol Withdrawal',
 'Alcohol Withdrawal ',
 'Amphetamine',
 'Amphetamine Intoxication',
 'Amphetamine Withdrawal',
 

Extraer los nombres de los países de los profesionales que fueron colaboradores internacionales en esta última edición

Extracto de ejemplo:

```
Michael Gelder, M.D. (England)
Semyon Gluzman, M.D. (former USSR)
Judith H. Gold, M.D. (Canada)
Marcus Grant, Ph.D. (Switzerland)
Herta A. Guttman, M.D. (Canada)
Heinz Hafner, M.D. (Germany)
Robert Hare, Ph.D. (Canada)
```

Pistas: 
1. Para que sea más sencillo consideren solo países cuyo nombre sea una sola palabra. 
2. También pueden considerar que siempre está **después de M.D. o de PhD.** (recuerden cómo buscar una u otra cosa!).
3. Cuidado también con "escapar" los paréntesis literales

In [100]:
# regla_de_busqueda = "(?:M.D. |M.D. |M.D.,\sPh.D. | ')\(([A-Z]+[a-z]+)\)"  
regla_de_busqueda = "(?:M.D.|M.D.|M.D.,\sPh.D.')\s*\(([A-Z]+[a-z]+)\)"  
paises = re.findall(regla_de_busqueda,texto)
paises

['Sweden',
 'Uruguay',
 'Switzerland',
 'Switzerland',
 'Sweden',
 'Nigeria',
 'England',
 'Austria',
 'Denmark',
 'Australia',
 'Hungary',
 'Poland',
 'Canada',
 'Canada',
 'Canada',
 'England',
 'Australia',
 'Ireland',
 'Italy',
 'Korea',
 'England',
 'England',
 'Australia',
 'Brazil',
 'England',
 'Poland',
 'Argentina',
 'Norway',
 'England',
 'Germany',
 'England',
 'England',
 'Switzerland',
 'Germany',
 'France',
 'Scotland',
 'Germany',
 'Japan',
 'Canada',
 'England',
 'Canada',
 'Canada',
 'Germany',
 'Canada',
 'Germany',
 'Netherlands',
 'Singapore',
 'Japan',
 'Bulgaria',
 'Switzerland',
 'France',
 'England',
 'Australia',
 'Austria',
 'Scotland',
 'Canada',
 'Switzerland',
 'France',
 'Canada',
 'England',
 'Israel',
 'Canada',
 'Canada',
 'England',
 'Canada',
 'Spain',
 'Italy',
 'Greece',
 'England',
 'Australia',
 'Belgium',
 'Canada',
 'Canada',
 'Brazil',
 'England',
 'Denmark',
 'Canada',
 'Kenya',
 'Japan',
 'Egypt',
 'Japan',
 'Switzerland',
 'Italy',
 'Canada

Ahora contemos cuántas veces aparece cada país con la siguiente clase Counter. Simplemente pasen su lista de `paises` como argumento al constructor Counter() y les dará el resultado.

In [101]:
from collections import Counter

test = Counter(paises)
test

Counter({'England': 22,
         'Canada': 22,
         'Australia': 9,
         'Switzerland': 8,
         'Germany': 8,
         'Denmark': 5,
         'Netherlands': 5,
         'Sweden': 4,
         'Italy': 4,
         'Norway': 4,
         'France': 4,
         'Japan': 4,
         'Poland': 3,
         'Brazil': 3,
         'Israel': 3,
         'Austria': 2,
         'Scotland': 2,
         'Singapore': 2,
         'Greece': 2,
         'Belgium': 2,
         'Finland': 2,
         'Peru': 2,
         'Uruguay': 1,
         'Nigeria': 1,
         'Hungary': 1,
         'Ireland': 1,
         'Korea': 1,
         'Argentina': 1,
         'Bulgaria': 1,
         'Spain': 1,
         'Kenya': 1,
         'Egypt': 1,
         'Luxembourg': 1,
         'Mexico': 1,
         'Venezuela': 1,
         'Romania': 1,
         'China': 1})