# Introducción a expresiones regulares

Una expresión regular (conocida en inglés como regular expression, regex o regexp) es una secuencia de caracteres que especifica un patrón de búsqueda en texto. Usualmente son empleadas por algoritmos de búsquedas de secuencias de caracteres para operaciones de buscar, buscar y reemplazar o para validación de entradas.

Las expresiones regulares se originaron en 1950 cuando el matemático americano Stephen Cole Kleene formalizó la descripción de un lenguaje regular. Se emplearon en utilerías de procesamiento de texto de Unix. Desde 1980 surgieron diversas sintaxis para escribir expresiones regulares, destacando el estándar POSIX y Perl.

Las expresiones regulares son empleadas en motores de búsqueda, cuadros de diálogo de buscar y reemplazar de procesadores de texto, utilerías de procesamiento de texto como sed y AWK, así como en análisis léxico.

Diversos lenguajes de programación, incluyendo Python, cuentan con soporte a expresiones regulares ya sea de forma nativa o por medio de librerías.

Para utilizar expresiones regulares en Python es necesario importar el módulo `re` e invocar alguno de sus métodos, como es el caso de `search()`, mostrado abajo.

``search(regex, somestring)`` recibe como argumentos:

`regex`: una expresión regular con el patrón de texto a identificar.
`somestring`: una secuencia de texto en la que se buscará el patrón de texto.

Si `search` encuentra el patrón en el texto, regresa como resultado un objeto de tipo `Match`.
Si `search` no encuentra el patrón en el texto, regresa como resultado `None`.

In [40]:
import re
x = re.search("Webb", "The James Webb Space Telescope has successfully launched.")
print(x)
print(type(x))

<re.Match object; span=(10, 14), match='Webb'>
<class 're.Match'>


In [41]:
x = re.search("Hubble", "The James Webb Space Telescope has successfully launched.")
if x is None:
    print("Hubble was not found.")

Hubble was not found.


Una definición precisa, de acuerdo con las normas de sintaxis de las expresiones regulares, es fundamental para obtener la resultados esperados. En caso contrario es posible obtener más resultados.


In [127]:
words = ["sal", "basal", "casal", "nasal", "rosal", "posdorsal", "basáltico", "salero", "salario", 
    "Fueron encontrados en la mina de sal.", "El exceso de sal es perjudicial.", "La sal de la vida."]

for word in words:
    result = re.search("sal", word)
    print("{} contains 'sal' {}".format(word, result is not None))


sal contains 'sal' True
basal contains 'sal' True
casal contains 'sal' True
nasal contains 'sal' True
rosal contains 'sal' True
posdorsal contains 'sal' True
basáltico contains 'sal' False
salero contains 'sal' True
salario contains 'sal' True
Fueron encontrados en la mina de sal. contains 'sal' True
El exceso de sal es perjudicial. contains 'sal' True
La sal de la vida. contains 'sal' True


In [43]:
words = ["sal", "basal", "casal", "nasal", "rosal", "posdorsal", "basáltico", "salero", "salario", 
    "Fueron encontrados en la mina de sal.", "El exceso de sal es perjudicial.", "La sal de la vida."]

for word in words:
    result = re.search(" sal ", word)
    print("{} contains ' sal ' {}".format(word, result is not None))

sal contains ' sal ' False
basal contains ' sal ' False
casal contains ' sal ' False
nasal contains ' sal ' False
rosal contains ' sal ' False
posdorsal contains ' sal ' False
basáltico contains ' sal ' False
salero contains ' sal ' False
salario contains ' sal ' False
Fueron encontrados en la mina de sal. contains ' sal ' False
El exceso de sal es perjudicial. contains ' sal ' True
La sal de la vida. contains ' sal ' True


Los metacaracteres permiten crear expresiones regulares compactas que produzcan los resultados de interés, al igual que con las expresiones regulares definidas con literales solamente, es necesario definirlas con precisión para evitar palabras no deseadas.

Asumamos que estamos interados en todas las palabras de tres letras que terminan en "al". La sintaxis de expresiones regulares provee del metacaracter punto `.` que representa cualquier caracter.


In [44]:
words = ["sal", "basal", "casal", "nasal", "rosal", "posdorsal", "basáltico", "salero", "salario", 
    "Fueron encontrados en la mina de sal.", "El exceso de sal es perjudicial.", "La sal de la vida.", "la cal", "el mal", "@al"]

for word in words:
    result = re.search(r".al", word)
    print("{} contains '.al' {}".format(word, result is not None))

sal contains '.al' True
basal contains '.al' True
casal contains '.al' True
nasal contains '.al' True
rosal contains '.al' True
posdorsal contains '.al' True
basáltico contains '.al' False
salero contains '.al' True
salario contains '.al' True
Fueron encontrados en la mina de sal. contains '.al' True
El exceso de sal es perjudicial. contains '.al' True
La sal de la vida. contains '.al' True
la cal contains '.al' True
el mal contains '.al' True
@al contains '.al' True


Los corchetes son empleados en expresiones regulares para definir clases de caracteres. `[xyz]` significa "x" o "y" o "z".

In [45]:
lastnames = ["Gaitán", "Galán", "Galeano", "Galeno", "Galindo", "Gallegos", "Galván", 
    "Gamboa", "Gámez", "García", "Garrido", "Gavilán", "Gayoso", "Gaytán", "Gillén", "Godines", 
    "Gómez", "Góngora", "Granada", "Granados", "Grijalba", "Guardado", "Guardiola", "Guerrero", 
    "Guillén", "Gutiérrez", "Guzmán"]

for lastname in lastnames:
    result = re.search(r"G[aui].*[áé]n", lastname)
    if result:
        print("{} matches pattern.".format(lastname))

Gaitán matches pattern.
Galán matches pattern.
Galván matches pattern.
Gavilán matches pattern.
Gaytán matches pattern.
Gillén matches pattern.
Guillén matches pattern.
Guzmán matches pattern.


Es posible definir un rango de caracteres por medio del metacaracter guión `-` ubicado entre el valor inicial y el valor final dentro de un token de corchetes. 

Todas las letras minúsculas: `[a-z]`
Todas las letras mayúsculas: `[A-Z]`
Todas las letras minúsculas o mayúsculas `[a-zA-Z]`
Todos los dígitos `[0-9]`

In [50]:
text = r"Creating a regex object       \t with bax is \tcool"
re.split(r"\s+", text)




['Creating', 'a', 'regex', 'object', '\\t', 'with', 'bax', 'is', '\\tcool']

## Conceptos

**Expresión regular**

Una expresión regular es un patrón para describir una porción de texto. La expresión regular se aplica a una o varias cadenas de caracteres. El patrón de búsqueda puede ocurrir cero, una o más veces en la cadena de caracteres. Cada ocurrencia de la expresión regular en el texto se identifica como una correspondencia o match.

**Elementos de una expresión regular**
Las expresiones regulares constan de caracteres los cuales pueden ser de tipo literal o metacaracter. 

**Literal**

Un caracter que se busca tal cual está declarado en la expresión regular. Las expresiones regulares más simples pueden constar de caracteres literales solamente. 

**Caracteres no imprimibles**

Es posible emplear secuencias de caracteres especiales para colocar caracteres no imprimibles en las expresiones regulares. Por ejemplo \t puede emplearse para identificar el caracter tab (ASCII 0x09), \r para retorno de carro (0x0D) y \n para line feed (0x0A). Es importante recordar que los archivos de texto en Windows están terminados por \r\n, mientras que los archivos de texto en Unix están terminados por \n solamente.

Si la aplicación soporta Unicode, es posible emplear \uFFFF o \x{FFFF} para insertar un caracter Unicode. 

Si la aplicación no soporta Unicode, es posible emplear \xFF para identificar un caracter específico por su índice hexadecimal en el conjunto de caracteres.




# Clases de caracteres predefinidas
Simplifican el proceso de escritura y reducen el tamaño de expresiones regulares.

\d identifica cualquier dígito decimal, equivalente al conjunto [0-9].

\D El complemento de \d. Identifica cualquier caracter que no sea dígito; equivalente al conjunto [^0-9].

\s Identifica cualquier caracter de espacio en blanco; equivalente a [ \t\n\r\f\v].

\S El complemento de \s. Identifica cualquier caracter no blanco; equivalente a [^ \t\n\r\f\v].

\w Identifica cualquier caracter alfanumérico; equivalente a [a-zA-Z0-9_]. Con LOCALE, identifica el conjunto [a-zA-Z0-9_] más caracteres 
definidos como letras para la localidad (locale) vigente.

\W El complemento de \w.

\b Identifica la cadena vacía, pero solo al principio o fin de una palabra.

\B Identifica la cadena vacía, pero no al principio o fin de una palabra.

In [124]:
contact = "Jane Doe 555-1234"

res = re.search(r"[0-9]*-[0-9]*", contact)
print(res)

<re.Match object; span=(9, 17), match='555-1234'>


In [123]:
res.groups

<function Match.groups(default=None)>

# Metacaracteres



punto .
Identifica cualquier caracter individual (muchas aplicaciones excluyen los caracteres de líneas)

In [131]:
numbers = ["zero", "one", "two", "three", "four", "     ", ".....", "123456" ,r"!\"#$%"]
for n in numbers:
    print(re.match(r".....", n))

None
None
None
<re.Match object; span=(0, 5), match='three'>
None
<re.Match object; span=(0, 5), match='     '>
<re.Match object; span=(0, 5), match='.....'>
<re.Match object; span=(0, 5), match='12345'>
<re.Match object; span=(0, 5), match='!\\"#$'>


In [277]:
greeting = "Hello world."
if re.search(r".....", greeting):
    print("greeting has length >= 5")

greeting has length >= 5


Dentro de una expresión de corchetes POSIX, el caracter dot identifica el símbolo punto de forma literal

In [278]:
greeting = "Dot is matched literally in POSIX bracket expressions."
m = re.search(r"...........[.]", greeting)
m.group(0)


'expressions.'

In [279]:
greeting = "Dot is matched literally in POSIX bracket expressions."
m = re.search(r".{11}[.]", greeting)
m.group(0)

'expressions.'

Anclas
Los metacaracteres de ancla no identifican ningún caracter, identifican una posición. La mayoría de los motores de expresiones regulares cuentan con un modo "multi linea" por medio del cual es posible identificar al ^ después de cualquier corte de línea y a $ antes de cualquier corte de línea.

Las anclas incluyen: caret ^, símbolo de moneda $, frontera de palabra /b, complemento de frontera de palabra /B, 

caret ^
Identifica la posición inicial en la secuencia de caracteres

In [116]:
brands = ["Attack Drumheads", "ATV Corporation", "Black Swamp Percussion", "Bopworks", "Bosphorus Cymbals", "BOYA", "Canopus Drums", "Dream Cymbals"]
for b in brands:
    res = re.search(r"^A", b)
    print(res)

<re.Match object; span=(0, 1), match='A'>
<re.Match object; span=(0, 1), match='A'>
None
None
None
None
None


símbolo de moneda $
Identifica la posición final de la secuencia de caracteres

In [117]:
brands = ["Attack Drumheads", "ATV Corporation", "Black Swamp Percussion", "Bopworks", "Bosphorus Cymbals", "BOYA", "Canopus Drums", "Dream Cymbals"]
for b in brands:
    res = re.search(r"Cymbals$", b)
    print(res)

None
None
None
None
<re.Match object; span=(10, 17), match='Cymbals'>
None
None
<re.Match object; span=(6, 13), match='Cymbals'>


frontera de palabra b 
\b identifica una frontera de palabra, una posición entre un caracter que puede ser identificado con \w y un caracter que no puede ser identificado por \w


In [171]:
sentence = "Silicon Valley's trial of the century, differences with silicone rubber industry."
res = re.search(r"\bSilicon\b", sentence)
res


<re.Match object; span=(0, 7), match='Silicon'>

Repetición
Los metacaracteres asociados con repetición permiten identificar tokens como opcionales o que se repitan un número determinado de veces en el texto. 

símbolo de interrogación ?
El símbolo de interrogación hace opcional el token previo en la expresión regular. 

Repetición egoísta y lazy
Los operadores o cuantificadores en expresiones regulares son egoístas. Expanden la correspondencia tanto como sea posible, solo proveen resultados más concisos si deben satisfacer el remanente de la expresión regular.

In [142]:
color_words = ["color", "colour", "kolor", "koloro"]
for cw in color_words:    
    res =  re.search(r"colou?r", cw)
    if res:
        print(res)

<re.Match object; span=(0, 5), match='color'>
<re.Match object; span=(0, 6), match='colour'>


asterisco *
El asterisco o estrella indica al motor de expresiones regulares que identifique el token que lo antecede cero o más veces.

In [148]:
some_html = ["<p>This is a paragraph</p>", "<h1></h1>", "<body>Document content</body>"]
for tag in some_html:
    res = re.search(r"<[a-zA-Z][a-zA-Z0-9]*>", tag)
    print(res)


<re.Match object; span=(0, 3), match='<p>'>
<re.Match object; span=(0, 4), match='<h1>'>
<re.Match object; span=(0, 6), match='<body>'>


símbolo de adición +
El símbolo de adición indica al motor de expresiones regulares que identifique el token que lo antecede una o más veces.

In [150]:
tag = "<HEAD>This is the head</HEAD>"
re.search(r"<.+>", tag)

<re.Match object; span=(0, 29), match='<HEAD>This is the head</HEAD>'>

Los operadores de repetición o cuantificadores siguen una estrategia de selección de contenido egoísta. Expanden la correspondencia tanto como les es posible, producen resultados de menor longitud si deben satisfacer alguna otra condición en la expresión regular.

El uso del símbolo de interrogación despúes del cuantificador indica un comportamiento flojo.

In [151]:
tag = "<HEAD>This is the head</HEAD>"
re.search(r"<.+?>", tag)

<re.Match object; span=(0, 6), match='<HEAD>'>

llaves {}
Por medio de las llaves se especifica la cantidad de repeticiones a identificar. 

In [176]:
numbers = ["20",  "100", "120", "900", "1000", "9999", "99999"]
for n in numbers:
    print(re.search(r"\b[1-9][0-9]{2}\b", n))

None
<re.Match object; span=(0, 3), match='100'>
<re.Match object; span=(0, 3), match='120'>
<re.Match object; span=(0, 3), match='900'>
None
None
None


In [172]:
numbers = ["20", "100", "120", "900", "1000", "9999", "99999"]
for n in numbers:
    print(re.search(r"\b[1-9][0-9]{3,4}\b", n))

None
None
None
None
<re.Match object; span=(0, 4), match='1000'>
<re.Match object; span=(0, 4), match='9999'>
<re.Match object; span=(0, 5), match='99999'>


paréntesis ()
Define un bloque, también conocido como grupo de captura o sub expresión, el  cual puede ser referido posteriormente por medio de \n

Permiten aplicar un cuantificador al grupo en su totalidad o limitar su alternancia a parte de la expresión regular.

Solo los paréntesis pueden ser empleados para agrupaciones. Los corchetes son empleados para definir clases de caracteres, mientras que las llaves son empleadas definir cuantificadores con límites específicos.

In [191]:
language_tokens = ["Set", "SetValue", "GetField", "Value", "GetValue", "Get"]
for t in language_tokens:
    print(re.search(r"Set(Value)?", t))

<re.Match object; span=(0, 3), match='Set'>
<re.Match object; span=(0, 8), match='SetValue'>
None
None
None
None


Cabe destacar que los paréntesis crean un grupo de captura. El grupo de captura cero siempre incluye la correspondencia completa de la expresión regular. Los grupos de captura subsecuentes contienen el valor identificado, de haberlo.

In [258]:
language_tokens = ["Set", "SetValue", "GetField", "Value", "GetValue", "Get"]
for t in language_tokens:
    some_match = re.search(r"Set(Value)?", t)
    if some_match is not None:
        print(some_match.groups())

(None,)
('Value',)


barra vertical |
Para crear una expresión regular que identifique diversos patrones es necesario agruparlos con paréntesis y separarlos con barra: (procedural|functional) language.

In [179]:
book_title = "Of mice and men"
re.search(r"men|mice", book_title)


<re.Match object; span=(3, 7), match='mice'>

In [183]:
opinion = "I think functional languages could be better understood in business, in contrast with object oriented languages."
re.search(r"(functional|object oriented) languages", opinion)


<re.Match object; span=(8, 28), match='functional languages'>

In [190]:
language_tokens = ["Set", "SetValue", "GetField", "Value", "GetValue", "Get"]
for t in language_tokens:
    print(re.search(r"(S|G)et(Value)?", t))

<re.Match object; span=(0, 3), match='Set'>
<re.Match object; span=(0, 8), match='SetValue'>
<re.Match object; span=(0, 3), match='Get'>
None
<re.Match object; span=(0, 8), match='GetValue'>
<re.Match object; span=(0, 3), match='Get'>


Un metacaracter es aquel que provee de directivas al procesador de expresiones regulares respecto al patrón de texto a buscar. Los metacaracteres pueden utilizarse, por ejemplo, para identificar la posición del patrón de búsqueda en el texto, identificar tipos de caracteres a buscar.  Para representar de forma literal el símbolo asociado con un metacaracter se emplea como prefijo un caracter especial, backslash generalmente.

Los metacaracteres en expresiones regulares incluyen:
backslash \

Complemento de frontera de palabra B
\B identifica cualquier posición donde no hay correspondencia con \b

Alternación
La alternación representa la claúsula or en expresiones regulares. Tiene la menor precedencia entre los operadores de expresiones regulares.



corchetes []
Delimitan expresiones de corchetes, bracket expressions. Identifica cualquier caracter individual contenido en los corchetes

corchetes con caret [^ ] 
Identifica un caracter individual que no esté contenido en los corchetes



# Expresiones regulares en Python

Python cuenta con el módulo `re` para manejo de expresiones regulares de forma similar a como son manejadas en Perl. 

Las funciones del módulo `re` es clasifican en tres categorías: identificación de patrones, substitución y partición de secuencias de caracteres.

Tanto los patrones como las secuencias de caracteres pueden ser strings Unicode o strings de 8 bits (bytes). No es posible combinar strings Unicode con strings de 8 bits

Debido a que Python y las expresiones regulares usan el caracter backslash para declarar metacaracteres o caracteres especiales, es necesario representar el backslash por duplicado en las expresiones regulares. Para evitar este inconveniente, se recomienda usar la notación cruda de secuencias de caracteres de Python, las cuales tienen el caracter 'r' como prefijo a la literal de caracteres.

# Modalidades de invocación de las expresiones regulares
Las expresiones regulares en Python pueden invocarse en dos modalidades:
* Sin compilación previa.
* Con compilación previa.

En los ejemplos que hemos revisado hasta ahora, se invoca un método de la librería de expresiones `re` pasado la expresión regular como una secuencia de caracteres.

In [98]:
#Ejemplo sin compilación previa de la expresión regular
result = re.search(r"compilation", "Regular expressions can be invoked with no previous compilation .")
print(result)

<re.Match object; span=(52, 63), match='compilation'>


El método `re.compile()` genera un objeto asociado con la expresión regular. Este objeto tiene la expresión regular compilada y es empleado con los diversos métodos de manejo de patrones de las expresiones regulares. 

Se recomienda compilar las expresiones regulares se aplique la misma expresión regular a múltiples secuencias de caracteres ya que requiere de menor consumo del procesador.

In [102]:
compiled_regex = re.compile(r"pdf$")

files = ["MSFProcessModelv.3.1.pdf", "MSFTeamModelv.3.1.pdf", "breakout_room_sample.csv", "breakout_room_test.csv", "RF1.png", 
    "RF2.png", "RF3.png", "RF4.png", "RF5.png", "new_user_credentials.csv", "pdftest.txt", "simplefile.pdf", "csvtest.txt", ".csv"]

for f in files:
    res =  compiled_regex.search(f)
    print(res)

<re.Match object; span=(21, 24), match='pdf'>
<re.Match object; span=(18, 21), match='pdf'>
None
None
None
None
None
None
None
None
None
<re.Match object; span=(11, 14), match='pdf'>
None
None


In [108]:
files = ["MSFProcessModelv.3.1.pdf", "MSFTeamModelv.3.1.pdf", "breakout_room_sample.csv", "breakout_room_test.csv", "RF1.png", 
    "RF2.png", "RF3.png", "RF4.png", "RF5.png", "new_user_credentials.csv", "pdftest.txt", "simplefile.pdf", "csvtest.txt", ".csv"]

for f in files:
    res =  re.search(r"pdf$", f)
    print(res)

<re.Match object; span=(21, 24), match='pdf'>
<re.Match object; span=(18, 21), match='pdf'>
None
None
None
None
None
None
None
None
None
<re.Match object; span=(11, 14), match='pdf'>
None
None


# Identificación de patrones

search()
Invoca `re.search(regex, subject)` para aplicar un patrón de expresión regular a una secuencia de caracteres. La función devuelve `None` si el intento de correspondencia falla o un objeto `Match` en caso contrario. Dado que `None` evalúa a `False` es fácil usar re.search() en un estatuto if. El objeto Match almacena los detalles acerca de la parte de la secuencia de caracteres identificada como correspondencia por el patrón de la expresión regular.

Es posible asignar los modos de correspondencia de las expresiones regulares por medio de constantes que se proveen en el tercer parámetro de re.search():
* IGNORECASE aplica el patrón de forma indistinta a la capitalización.
* DOTALL hace que el operador dot identifique correspondencias con líneas nuevas de texto.
* MULTILINE hace que las correspondencias de caret y dollar antes y después de los cortes de línea en el string objetivo.
* LOCALE permite que \w haga correspondencia con todos los caracteres considerados letras dados los parámetros de configuración de ubicación (locale).
* UNICODE ocasiona que todas las letras de todos los scripts sean tratadas como caracteres de letras, también afecta las fronteras de palabras.

Search busca el patrón desde el principio y a lo largo de toda la secuencia de caracteres, hasta encontrar una correspondencia.


match()
match busca el patrón al principio de la secuencia de caracteres (y no a lo largo de ella). 

Las siguientes se consideran equivalentes:

`re.match(r'regex', somestring)`

`re.search(r'\^regex', somestring)`

Match no requiere que la expresión regular corresponda con toda la secuencia de caracteres.

fullmatch()
Añadida en Python 3.4, fullmatch solo regresa un objeto Match si la expresión regular corresponde con la secuencia de caracteres por completo. En caso contrario regresa None.

Las siguientes invocaciones se consideran equivalentes:
`re.fullmatch(r'regex', subject)` 

`re.search(r'\^regex\$', subject)` 

fullmatch es usualmente empleada para validar entradas de los usuarios.

findall
Obtiene un arreglo con todas las correspondencias (sin traslape) en un string. Si la expresión regular tiene grupos de captura, findall regresa un arreglo de tuplas, con cada tupla conteniendo el texto identificado por los grupos de captura.

Nota: findall no soporta el tercer argumento con las banderas de correspondencia de la expresión regular. Sin embargo, es posible especificar estos parámetros como modificadores globales de modo.

In [214]:
news = """
The firm's share price has risen by around 5,800% since co-founder and former chief executive Steve Jobs unveiled the first iPhone in 2007.
However, its value slipped a little from that milestone, to end Monday's trading session in New York at $2.99tn.
Apple has been one of the big winners of the pandemic, as coronavirus lockdowns saw spending on gadgets jump.
"Hitting $3 trillion is another historical moment for Apple as the company continues to prove the doubters wrong," Dan Ives, an analyst from Wedbush said.
It took just over 16 months for Apple's stock market valuation to rise from $2tn to $3tn, as the world's biggest technology 
companies saw demand soar as people became more reliant on smartphones, tablets and laptops during lockdowns.
The company became the first company to hit a stock market valuation of $1tn in August 2018.
The iPhone typically accounts for around half of the company's sales, while it is also well-known for its iPad tablets and Mac computers.
Increasingly important parts of the business are software, sold through the Apple store, storage space via the iCloud and services such as its 
music, television and fitness subscription platforms.
"The linchpin to Apple's valuation re-rating remains its Services business which we believe is worth $1.5 trillion," Mr Ives said.
"""


In [215]:
re.findall(r"(Apple|share|stock|demand|Windows)", news)

['share',
 'Apple',
 'Apple',
 'Apple',
 'stock',
 'demand',
 'stock',
 'Apple',
 'Apple']

In [209]:
re.findall(r"\$[0-9]\.?[0-9]*tn", news)

['$2.99tn', '$2tn', '$3tn', '$1tn']

In [212]:
re.findall(r"[1-9][0-9]{3}", news)

['2007', '2018']

In [213]:
re.findall(r"\".*\"", news)

['"Hitting $3 trillion is another historical moment for Apple as the company continues to prove the doubters wrong,"',
 '"The linchpin to Apple\'s valuation re-rating remains its Services business which we believe is worth $1.5 trillion,"']

In [260]:
re.findall(r"(\w+) Ives", news)

['Dan', 'Mr']

In [261]:
attributed_quotes = re.findall(r"(?P<quote>\".*\") (?P<speaker>\w+ \w+)", news)
attributed_quotes


[('"Hitting $3 trillion is another historical moment for Apple as the company continues to prove the doubters wrong,"',
  'Dan Ives'),
 ('"The linchpin to Apple\'s valuation re-rating remains its Services business which we believe is worth $1.5 trillion,"',
  'Mr Ives')]

findinter
Regresa un iterador que permite procesar las correspondencias de la expresión regular:
`for m in re.finditer(regex, subject)`

La variable m es de tipo Match.

Nota: finditer no soporta el tercer argumento con las banderas de correspondencia de la expresión regular. Sin embargo, es posible especificar estos parámetros como modificadores globales de modo.

In [225]:
quotes = re.finditer(r"\".*\"", news)
for quote in quotes:
    print(quote.groups)
    print(quote.string[quote.start(0):quote.end(0)])
    

<built-in method groups of re.Match object at 0x00000165D1623490>
"Hitting $3 trillion is another historical moment for Apple as the company continues to prove the doubters wrong,"
<built-in method groups of re.Match object at 0x00000165D1623420>
"The linchpin to Apple's valuation re-rating remains its Services business which we believe is worth $1.5 trillion,"


In [254]:
attributed_quotes = re.finditer(r"(?P<quote>\".*\") (?P<speaker>\w+ \w+)", news)
for aq  in attributed_quotes:
    print(aq.groups)
    print(aq["quote"])
    print(aq["speaker"])
    

<built-in method groups of re.Match object at 0x00000165D1622540>
"Hitting $3 trillion is another historical moment for Apple as the company continues to prove the doubters wrong,"
Dan Ives
<built-in method groups of re.Match object at 0x00000165D1622DB0>
"The linchpin to Apple's valuation re-rating remains its Services business which we believe is worth $1.5 trillion,"
Mr Ives


In [243]:
m = re.match(r"(\w+) (\w+), (\w+)", "Isaac Newton, physicist")
m.group(0)
m.group(1)
m.group(2)
m.group(1,2, 3)


('Isaac', 'Newton', 'physicist')

In [244]:
m = re.match(r"(?P<first_name>\w+) (?P<last_name>\w+), (?P<title>\w+)", "Isaac Newton, physicist")
m.group("first_name", "last_name", "title")

('Isaac', 'Newton', 'physicist')

# Substitución

sub
re.sub(regex, replacement, subject) lleva a cabo una búsqueda y reemplazo en la secuencia de caracteres, reemplaza todas las correspondencias de la expresión regular. La función regresa la secuencia de caracteres resultante, sin modificar el argumento subject.



In [265]:
re.sub(r"\$[0-9]\.?[0-9]*tn", "$<CONFIDENTIAL>", news)



'\nThe firm\'s share price has risen by around 5,800% since co-founder and former chief executive Steve Jobs unveiled the first iPhone in 2007.\nHowever, its value slipped a little from that milestone, to end Monday\'s trading session in New York at $<CONFIDENTIAL>.\nApple has been one of the big winners of the pandemic, as coronavirus lockdowns saw spending on gadgets jump.\n"Hitting $3 trillion is another historical moment for Apple as the company continues to prove the doubters wrong," Dan Ives, an analyst from Wedbush said.\nIt took just over 16 months for Apple\'s stock market valuation to rise from $<CONFIDENTIAL> to $<CONFIDENTIAL>, as the world\'s biggest technology \ncompanies saw demand soar as people became more reliant on smartphones, tablets and laptops during lockdowns.\nThe company became the first company to hit a stock market valuation of $<CONFIDENTIAL> in August 2018.\nThe iPhone typically accounts for around half of the company\'s sales, while it is also well-known 

# Partición de secuencias de caracteres

split
re.split(regex, subject) regresa un arreglo de secuencias de caracteres. El arreglo contiene todas las correspondencias de la expresión regular en el sujeto

split no ofrece una opción para suprimir los capturing groups.

In [276]:
scientists = """
    Albert Einstein
    Marie Curie
    Max Plank
    Niels Bohr
    Paul Dirac
    Richard Feyman
"""
re.findall(r"(\w+) (\w+)\n", scientists)

[('Albert', 'Einstein'),
 ('Marie', 'Curie'),
 ('Max', 'Plank'),
 ('Niels', 'Bohr'),
 ('Paul', 'Dirac'),
 ('Richard', 'Feyman')]

match object