# Expresiones irregulares
Este codigo fue realizado a traves de la practica del curso de HUMAI de Ciencia de datos: 
https://www.youtube.com/watch?v=JB7H4htd3tU

También conocido popularmente como RegEx. Son un mini lenguaje de programación diseñado para realizar búsquedas en strings. Son extremadamente útiles para:

- Extraer datos de distintos tipos de archivos, texto o con otro tipo de codificación.
- Web scraping: como veremos en las próximas clases
- Limpieza de datos: herramienta fundamental en el repertorio del científico de datos para limpiar datos quitando caracteres "ruidosos", o armando nuevos "features" según la presencia o no de cierto texto.

Paginas de interes para armar RegEx:
- [Sitio para armar RegEx online](https://regexr.com/)
- [Alternativa](https://regex101.com/)
- [CheatSheet](https://www.dataquest.io/wp-content/uploads/2019/03/python-regular-expressions-cheat-sheet.pdf)

La libreria de interes que nos va a ayudar es: 
Las funciones principales de la librería re son:
- re.findall(pattern, string) para encontrar todos los resultados de una búsqueda
- re.search(pattern, string) para encontrar el primer resultado que coincida
- re.sub(pattern, replace, string) para substituir un texto por otro

<h3><center>Grupos de captura</center></h3>


|     |                       |
|-----|-----------------------|
| ()  | grupo de captura      |
|(?:) | grupo de no captura   |

<h3><center>Operadores</center></h3>

|         |                      |
|---------|----------------------|
| \|      | operador "or"        |
| \\      | Escapar, o interpretar literalmente |
| []      | conjunto (cada elemento estará automáticamente separado por "or")             |
|[m-z3-9] | rangos               |


<h3><center>Cuantificadores</center></h3>

|      |                                              |
|------|----------------------------------------------|
| +    | Uno o más del elemento anterior              |
| *    | Cero o más del elemento anterior             |
| {4,} | Cuatro o más del elemento anterior           |
| ?    | Cambia el operador anterior de lazy a greedy |

# Ejemplos 

In [2]:
import re 
# a- extraer números de una oración.
texto = "Mi nombre es Juan y mi teléfono es 1564232324"
regla_de_busqueda = "\d+" #Busca todos los digitos
# print(texto)
print(re.findall(regla_de_busqueda, texto))

['1564232324']


In [6]:
# En realidad los telefonos no son cualquier seguidilla de numeros
# suelen tener entre 6 y 8 numeros despues del 15
texto1 = "Mi nombre es María y mi teléfono es 1564232324"
texto2 = "Mi nombre es María y mi teléfono es 1514769874498743987"
# Empieza con 15 y tiene entre 6 - 8 digitos
regla_de_busqueda = "15\d{6,8}"
print("Texto 1",re.findall(regla_de_busqueda,texto1))
print("Texto 2",re.findall(regla_de_busqueda,texto2))# esto deberia dar error porque tiene mas de 8 digitos

Texto 1 ['1564232324']
Texto 2 ['1514769874']


In [9]:
# En realidad los telefonos no arrancan siempre con 15
# capaz empiezan con 11 si son de buenos aires por ejemplo
texto = "Mi nombre es Carlos y mi teléfono es 114232324 154232324"
regla_de_busqueda = "(?:15|11)\d{6,8}"# que coincida con con 15 or 11
print(re.findall(regla_de_busqueda,texto))

['114232324', '154232324']


In [19]:
# En realidad los telefonos pueden tener un guión o espacio a parte de números
texto = "Mi nombre es asfasfeaf33 y mi teléfono es 11 6423-2324 11 5986-111"
#que empiece con 15 o con 11 (?:15|11)
# que tengan valores del 0-9 separados por -
#que tengan entree 6 - 10 elementos
regla_de_busqueda = "(?:15|11)[0-9\s-]{6,10}"
re.findall(regla_de_busqueda,texto)

['11 6423-2324', '11 5986-111']

In [15]:
#Extraer el mes de un texto
texto = "REPORTE DE PERFOMANCE - MES DE julio y agosto"
#regla_de_busqueda = "(MES DE (?:JULIO|AGOSTO|JUNIO))"
regla_de_busqueda = "(?:JULIO|AGOSTO|JUNIO)"
re.findall(regla_de_busqueda,texto, flags=re.IGNORECASE)

['julio', 'agosto']

In [20]:
# ¿Cómo hago que pare de buscar el operador * ?
# con \ una vez que encuentro lo que busco deja de buscar. en cambio de la otra forma busca entodo el string
text = "me llamo pedro. me gusta el rock."
regla_de_busqueda_no_greedy = "(.*?)\."
regla_de_busqueda_greedy = "(.*)\."
print(re.findall(regla_de_busqueda_no_greedy,text))# Separa por puntos
print(re.findall(regla_de_busqueda_greedy,text)) # Devuelve todo el string

['me llamo pedro', ' me gusta el rock']
['me llamo pedro. me gusta el rock']


In [21]:
import re

comentario_de_mercadolibre = 'hola soy @mariadominguez24, me interesa el producto, te dejo mi celu 1565525233, saludos'

def encontrar_telefonos(texto):
    regla_de_busqueda = r'(15[0-9]{8})' # Empieza con 15,en el medio tiene valores entre el 0-9 y en total son 8 numeros
    return re.findall(regla_de_busqueda, texto)

def encontrar_usuarios(texto):
    regla_de_busqueda = r'@([a-zA-Z0-9]+)' # Empieza con @, puede tener minusculas o mayuscular y numeros entre el 0-9
    return re.findall(regla_de_busqueda, texto)

print(encontrar_telefonos(comentario_de_mercadolibre))
print(encontrar_usuarios(comentario_de_mercadolibre))

['1565525233']
['mariadominguez24']


In [38]:
#Función que busque todos los emails en un texto
def encontrar_emails(texto):
    #regla_de_busqueda1 = r'\b[A-Za-z0-9_-]+@[A-Za-z0-9.-]+\.[A-Z|a-z]{2,}'#con numeros
    #regla_de_busqueda2 = r'\b[A-Za-z]+@[A-Za-z0]+\.[A-Z|a-z]{2,}' #sin numeros
    regla_de_busqueda3 = r'\b\w+@\w+\.\w{2,}' #\w es equivalente [a-zA-Z0-9_]
    return re.findall(regla_de_busqueda3, texto)
texto = "Hola te paso mi mail python@hotmail.com, saludos. Si no te funciona mandame a este otro, pedro_2010@yahoo.com"
encontrar_emails(texto)

['python@hotmail.com', 'pedro_2010@yahoo.com']

# Ejemplo

Vamos a usar como ejemplo el DSM, el libro de psiquiatría más importante en el mundo, en formato txt. El mismo se descargó en PDF y convirtió a texto usando textract, una cómoda librería de Python.

De este texto:

Extraer los nombres de los médicos que aparecen.
Extracto de ejemplo:

In [33]:
# Descargamos el texto
!wget -nc https://unket.s3.sa-east-1.amazonaws.com/data/DSM.txt

--2024-01-07 14:42:01--  https://unket.s3.sa-east-1.amazonaws.com/data/DSM.txt
Resolving unket.s3.sa-east-1.amazonaws.com (unket.s3.sa-east-1.amazonaws.com)... 16.12.0.30, 16.12.1.94, 16.12.0.90, ...
Connecting to unket.s3.sa-east-1.amazonaws.com (unket.s3.sa-east-1.amazonaws.com)|16.12.0.30|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 2445688 (2.3M) [text/plain]
Saving to: 'DSM.txt'

     0K .......... .......... .......... .......... ..........  2%  927K 3s
    50K .......... .......... .......... .......... ..........  4%  828K 3s
   100K .......... .......... .......... .......... ..........  6% 1.03M 2s
   150K .......... .......... .......... .......... ..........  8%  724K 3s
   200K .......... .......... .......... .......... .......... 10% 1.00M 2s
   250K .......... .......... .......... .......... .......... 12% 6.09M 2s
   300K .......... .......... .......... .......... .......... 14%  845K 2s
   350K .......... .......... .......... ..........

In [35]:
import re
# Lo leemos
with open('DSM.txt', 'r') as inp:
    texto = inp.read()
print(texto)

DIAGNOSTIC AND STATISTICAL
MANUAL OF
MENTAL DISORDERS
FOURTH EDITION
DSM-IV
CHUWEU& MORING
\ IRaARY
UUI \ 9 1990
RECEIVED
TMThis page intentionally left blankDIAGNOSTIC AND STATISTICAL
MANUAL OF
MENTAL DISORDERS
FOURTH EDITION
DSM-IV
TM
PUBLISHED BY THE
AMERICAN PSYCHIATRIC ASSOCIATION
WASHINGTON, DCCopyright Â© 1994 American Psychiatric Association
ALL RIGHTS RESERVED. Unless authorized in writing by the APA, no part of this book may be
reproduced or used in a manner inconsistent with the APA's copyright. This prohibition applies
to unauthorized uses or reproductions in any form, including electronic applications.
Manufactured in the United States of America on acid-free paper
American Psychiatric Association
1400 K Street, N.W., Washington, DC 20005
Correspondence regarding copyright permissions should be directed to the Division of Publica-
tions and Marketing, American Psychiatric Association, 1400 K Street, N.W., Washington, DC
20005.
DSM and DSM-IV are trademarks of the American 

Extracto de ejemplo:

- Allan Burstein, M.D.
- David M. Clark, Ph.D.
- Lee Anna Clark, Ph.D.
- Deborah S. Cowley, M.D.

In [36]:
#\w: Representa cualquier carácter alfanumérico y el guión bajo _. Equivale a [a-zA-Z0-9_]. Esto incluye letras (mayúsculas y minúsculas), dígitos numéricos y el guión bajo.
#\s: espacio en blanco
# regla_de_busqueda = "(\w+\s\w+[,\s]+?(?:M.D.|Ph.D.|Ph.D.|M.D.))"
regla_de_busqueda = "(\w+\s\w+[,\s]*?(?:M.D.|Ph.D.|Ph.D.|M.D.))\n"
re.findall(regla_de_busqueda,texto)

['ALLEN FRANCES, M.D.',
 'ALAN PINCUS, M.D.',
 'Magda Campbell, M.D.',
 'Ellen Frank, Ph.D.',
 'John Gunderson, M.D.',
 'Roger Peele, M.D.',
 'John Rush, M.D.',
 'Alan Schuckit, M.D.',
 'David Shaffer, M.D.',
 'Timothy Walsh, M.D.',
 'Jonathan Davidson, M.D.',
 'Edna Foa, Ph.D.',
 'Abby Fyer, M.D.',
 'Douglas Caine, M.D.',
 'Marshall Folstein, M.D.',
 'Lloyd Gottlieb, M.D.',
 'Igor Grant, M.D.',
 'Benjamin Liptzin, M.D.',
 'Jay Cohen, M.D.',
 'Barry Garfinkel, M.D.',
 'Rachel Klein, Ph.D.',
 'Benjamin Lahey, Ph.D.',
 'Rolf Loeber, Ph.D.',
 'Jeffrey Newcorn, M.D.',
 'Rhea Paul, Ph.D.',
 'Michael Rutter, M.D.',
 'Fred Volkmar, M.D.',
 'Paul Garfinkel, M.D.',
 'James Mitchell, M.D.',
 'Terence Wilson, Ph.D.',
 'David Dunner, M.D.',
 'Ellen Frank, Ph.D.',
 'Roger Peele, M.D.',
 'Stephen Setterberg, M.D.',
 'Skodol II, M.D.',
 'Roger Blashfield, Ph.D.',
 'Jean Fiester, M.D.',
 'Theodore Millon, Ph.D.',
 'Bruce Pfohl, M.D.',
 'Tracie Shea, Ph.D.',
 'Larry Siever, M.D.',
 'Jean Endicott, Ph.D