# Fundamentos de regex

## El carácter de nueva línea

El carácter creado por presionar la tecla enter o return es frecuentemente referido como carácter de nueva línea. Este se representa como `\n` en sintaxis de regex.

**Nota**: Algunos sistemas operativos y versiones de regex tratan el carácter de nueva línea como `\r`.



In [4]:
# reemplazar , por \n

import re
text = "Hello,world"

new_text = re.sub(',', r'\n', text)
print(new_text)

Hello
world


Encontrar el espaciado doble

In [None]:
some_text = """
The quick brown 
fox jumps over the 
lazy dog
"""

new_some_text = re.sub('\n', '', some_text)
print(new_some_text)


The quick brown fox jumps over the lazy dog


In [None]:
some_text = """
The quick brown


fox jumps over the 


lazy dog
"""

new_some_text = re.sub('\n\n', '\n', some_text)
print(new_some_text)


The quick brown 
fox jumps over the 
lazy dog



## Correspondencia de uno o más 

In [None]:
letter = '''
Dear Mr. Stanley

I don't know how to answer your question - I see no contradiction.

All you have to do is, from time to time -- in spite of everything, 
just try to examine a problem in a novel way.

You won't "stifle the creative process" if you remember to think
from time to time. Don't you have time to think?
'''

new_letter = re.sub('\n\n', '\n', letter)
print(new_letter)


Dear Mr. Stanley
I don't know how to answer your question - I see no contradiction.

All you have to do is, from time to time -- in spite of everything, 
just try to examine a problem in a novel way.


You won't "stifle the creative process" if you remember to think
from time to time. Don't you have time to think?



El operador *plus*

El operador `+` es utilizado para coincidir uno o más instancias de un patrón que procede. Por ejemplo:

```text
a+
```

corresponde a cualquier ocurrencia de uno o más letras consecutivas `a`, sea `a`, `aa` o `aaaaaaa`.



### Ejercicio: Variedad de espacios


In [None]:
letter = '''
Dear Mr. Stanley,



I don’t know how to answer your question -- I see no contradiction.


All you have to do is, from time to time -- in spite of everything,

just try to examine a problem in a novel way.





You won’t “stifle the creative process” if you remember to think


from time to time. Don’t you have time to think?
'''

In [None]:
new_letter = re.sub('___', '__', letter)
print(new_letter)

### Ejercicio: Espacios consecutivos en HTML

In [7]:
html = """
<html>
    <head>
    </head>
    <body>
        <h1>This is a headline</h1>
        <hr>
        <p>This is                                                paragraph

                    text


                    used as                           filler text
                            for
                                        a
                    paragraph.

                    </p>
    </body>
</html>
"""

Después de una extracción de datos con web scraping

In [None]:
text = """
This is                                                paragraph

                    text


                    used as                           filler text
                            for
                                        a
                    paragraph.

                    
"""


' This is                                                paragraph                     text                     used as                           filler text                             for                                         a                     paragraph.                      '

In [None]:
re.sub(r'___', ' ', text)

Para resolver los espacios en blanco, se utilizar el mismo el mismo patrón, pero en lugar de `\n`, se utiliza un espacio en blanco.

In [None]:
re.sub(r'____', ' ', text)

## Barra invertida-s

La mayoría de los lenguajes regex tienen un símbolo que maneja tanto espacios en blanco como caracteres de nuevas líneas: `\s`.

In [9]:
text = """
This is                                                paragraph

                    text


                    used as                           filler text
                            for
                                        a
                    paragraph.

                    
"""

re.sub(r'\s+', ' ', text)

' This is paragraph text used as filler text for a paragraph. '

## Correspondencia de cero o más con el signo `*`

El operador estrella `*` es utilizado para correspondencia de cero o más  de los patrones que precede. Por ejemplo: 

```text
e*
```

corresponde a cualquier ocurrencia de cero o más letras consecutivas `e` . El patrón `be*g` corresponde con:

```text
beg
beeeg
bg
```

### Ejercicio: Baaa!

El siguiente párrafo tiene una variedad de expresiones basadas en Baa!

In [10]:
paragraph = """The first sheep says "Baa!" Another sheep says "Baaaa!!!". In reply, the sheep says, 
"Baaaaaa". Another "Baaa" is heard. Finally, there’s a "Baaaa!"
"""

# Convert all to "Baa!"
re.sub(r'___', '____', paragraph)

'The first sheep says "Baa!" Another sheep says "Baaaa!!!". In reply, the sheep says, \n"Baaaaaa". Another "Baaa" is heard. Finally, there’s a "Baaaa!"\n'

## Repeticiones especificas y limitadas

En algunas ocasiones será necesario hacer correspondencia con algo que se repite más de una vez, pero menos de infinito.

### Llaves

Para capturar **n** repeticiones de un patrón donde **n** es el número de repeticiones, utilizar el siguiente patrón: `a{4}`, esto coincidirá con cuatro caracteres `a` exactamente.

**Ejercicio de ceros a millones.**

In [11]:
numbers = """
100
2000
500000
4000000
2000000
1000000
8000
9000000
"""

# Reemplazar los ceros con millones para los números que tienen exactamente seis ceros.

Salida esperada: 

```text
100
2000
500000
4 million
2 million
1 million
8000
9 million
```

In [None]:
# Convert zeros to millions
re.sub(r'___', '____', numbers)

'\n100\n2000\n500000\n4000000\n2000000\n1000000\n8000\n9000000\n'

Repetir el código anterior con los siguientes números:


In [13]:
numbers_2 = """
900
8000000
90000000
70000
100000000
2000000
50000000000
"""

In [None]:
# Convert zeros to millions

Corregir con el uso de `\b`

### LLaves, máximo y no límite de correspondencias

Si se quiere coincidir con *m* número de repeticiones, pero menor que *n* número, se puede incluir tanto *m*, como *n* en la notación de paréntesis. 

```python

```

In [9]:
num = """
000100000000
"""

re.findall(r'0{3,7}', num)

['000', '0000000']

Si se omite el segundo parámetro (el número máximo de repeticiones) pero se deja la coma:

In [10]:
re.findall(r'0{3,}', num)

['000', '00000000']

La regex encontrará correspondencia con una cadena que contiene por lo menos tres o más ceros consecutivos.

### Ejericicio: Baa



In [None]:
paragraph = """
Sheep in Northwest America say “baaaaa.” Sheep in Mongolia also say “baaaaaaaa.”
The deepest conversation I ever had with a sheep went like this:
“Hello!” “Baaaaa” “You’ve been a bad sheep!” “Baaaaaaaa!”
"""

In [1]:
re.sub(r'a+', 'aa', paragraph)

NameError: name 're' is not defined

Corregir con llaves para que solo sustituya los casos con más de tres `a`.

In [None]:
re.sub(r'___', '____', paragraph)

### Ejercicio: Markdown

Ajustar los tipos de títulos a: Título 1 (#), Título 2 (##) y Título e (###).

In [None]:
markdown = """
# Act I
### Scene 1
#### Soliloquy A
#### Soliloquy B
# Act 2
### Scene 1
### Scene 2
#### Soliloquy A
# Act 3
### Scene 1
"""

In [None]:
re.sub(r'___', '____', markdown)

# Anclas, una manera de reducir vacíos 

## El símbolo `^`  como ancla de inicio

Si tenemos la necesidad de hacer una correspondencia con el inicio de la línea se utiliza el cursor `^`.

In [34]:
message = "hello goodbye \nhello hello goodbye hello"

In [35]:
re.findall(r'^hello', message, flags=re.MULTILINE)

['hello', 'hello']

## El símbolo `$` como ancla de final

En este caso, el `$` permite hacer una correspondencia con el final de la línea.


In [22]:
message = "goodbye, world \nworld goodbye"

In [25]:
re.findall(r'goodbye$', message)

['goodbye']

### Ejercicio: agregar un nombre de archivo común a una lista de directorios



In [None]:
filenames = """
http://example.com/events/
http://example.com/people/
http://example.com/places/
"""

In [37]:
# Add index.html to each URL
# http://example.com/events/index.html
# http://example.com/people/index.html
# http://example.com/places/index.html

result = re.sub(r'/$', '/index.html', filenames, flags=re.MULTILINE)

print(result)


http://example.com/events/index.html
http://example.com/people/index.html
http://example.com/places/index.html



## Escapar caracteres especiales

In [41]:
answers = "He gave me $100 dollar, I gave him $10000 dollars."

re.findall(r'$10+', answers)

[]

In [42]:
re.findall(r'\$10+', answers)

['$100', '$10000']

### Ejercicio: eliminar los signos de dollar extras a las cantidades

In [44]:
amounts = """
$$100
$$$200
$50
$$$$300
"""

result = re.sub()
print(result)   

TypeError: sub() missing 3 required positional arguments: 'pattern', 'repl', and 'string'

# Correspondencia de letras o números

## La clase de caracteres numéricos

El símbolo `\d` corresponde con cualquier dígito del 0 al 9.



In [47]:
phrase = """
The robbery was reported on January 12, 2013. At 9:40, the suspect is alleged to have
entered the pizzeria at 120 Broadway and stolen 9 bags of oregano.
"""

In [49]:
# Reemplazar los números con la letra X
result = re.sub(r'\d', 'X', phrase)
print(result)


The robbery was reported on January XX, XXXX. At X:XX, the suspect is alleged to have
entered the pizzeria at XXX Broadway and stolen X bags of oregano.



## La clase de caracteres de palabra

Los caracteres de palabra incluyen de la A la Z (mayúsculas y minúsculas), números y guión bajo.


In [51]:
# Reemplozar todos los caracteres que son letras
result = re.sub(r'\w', 'X', phrase)
print(result)


XXX XXXXXXX XXX XXXXXXXX XX XXXXXXX XX, XXXX. XX X:XX, XXX XXXXXXX XX XXXXXXX XX XXXX
XXXXXXX XXX XXXXXXXX XX XXX XXXXXXXX XXX XXXXXX X XXXX XX XXXXXXX.



## Clase de caracteres entre corchetes

Se puede especificar solo algunos caracteres que busquemos utilizando los corchetes `[]`

`[bcd]og`

corresponde con: `bog`, `cog` y `dog`.

### Ejercicio: solo números



In [52]:
numbers = """
$1,200.00
$5,600.25
$100.09
$42,100.01
"""

# Eliminar los signos de dólar y las comas
result = re.sub(r'\$|,', '', numbers)
print(result)


1200.00
5600.25
100.09
42100.01



## Rango de caracteres con corchetes y guión

Para trabajar con varios caracteres:

`[abcdefghij]`

El guión actúa como carácter especial dentro de los corchetes. Indica un rango entre dos caracteres.

- [a-z]
- [1-5B-G]

### Ejercicio: filtrando mal comportamiento

En este ejemplo, suponemos que en las políticas de un foro existen palabras inapropiadas como `heck` y deben ser censuradas con `---`. Los usuarios tratan de violar la regla utilizando alternativas como: `h3ck`, `hecck`, `hekk`. Y otros tipos de permutaciones como: `h33ck`, `h3kk`, `h3cck`.

Considera el siguiente distingudo comunicado:

In [53]:
communique = """
Go heck yourself you dumb hacker. You don't know what the h3ck you are hekking
doing, so go back to your H3KK-hole farm and go shuck some h3cking corn.
"""

In [58]:
# Reemplazar las variaciones de "heck" y "h3ck" por "---"
result = re.sub(r'[hH][eE3][cCkK]+', '---', communique,)
print(result)


Go --- yourself you dumb hacker. You don't know what the --- you are ---ing
doing, so go back to your ----hole farm and go shuck some ---ing corn.



In [59]:
# Reemplazar las variaciones de "heck" y "h3ck" por "---"
result = re.sub(r'h[e3]ck', '---', communique, flags=re.IGNORECASE)
print(result)   


Go --- yourself you dumb hacker. You don't know what the --- you are hekking
doing, so go back to your H3KK-hole farm and go shuck some ---ing corn.



En el ejemplo anterior `[e3]` solo corresponde tanto con `e` o `3`,  pero solo con alguno de estos caracteres. Por lo tanto, `he3ck`  no tendrá coincidencia. 


Para resolver este tipo de problema podemos utilizar la notación `+` en combinación con los corchete. Por ejemplo:

```python
numbers = """
1 apple
2 orange
"""
```

[123456789][a-z]+
