# Fundamentos de regex

## El carácter de nueva línea

El carácter creado por presionar la tecla enter o return es frecuentemente referido como carácter de nueva línea. Este se representa como `\n` en sintaxis de regex.

**Nota**: Algunos sistemas operativos y versiones de regex tratan el carácter de nueva línea como `\r`.



In [2]:
# reemplazar , por \n

import re
text = "Hello,world"

new_text = re.sub(',', r'\n', text)
print(new_text)

Hello
world


Encontrar el espaciado doble

In [3]:
some_text = """
The quick brown 
fox jumps over the 
lazy dog
"""

new_some_text = re.sub('\n', '', some_text)
print(new_some_text)


The quick brown fox jumps over the lazy dog


In [4]:
some_text = """
The quick brown 
fox jumps over the 
lazy dog
"""

new_some_text = re.sub('\n\n', '\n', some_text)
print(new_some_text)


The quick brown 
fox jumps over the 
lazy dog



## Correspondencia de uno o más 

In [5]:
letter = '''
Dear Mr. Stanley

I don't know how to answer your question - I see no contradiction.


All you have to do is, from time to time -- in spite of everything, 
just try to examine a problem in a novel way.




You won't "stifle the creative process" if you remember to think
from time to time. Don't you have time to think?
'''

new_letter = re.sub('\n\n', '\n', letter)
print(new_letter)


Dear Mr. Stanley
I don't know how to answer your question - I see no contradiction.

All you have to do is, from time to time -- in spite of everything, 
just try to examine a problem in a novel way.


You won't "stifle the creative process" if you remember to think
from time to time. Don't you have time to think?



El operador *plus*

El operador `+` es utilizado para coincidir uno o más instancias de un patrón que procede. Por ejemplo:

```text
a+
```

corresponde a cualquier ocurrencia de uno o más letras consecutivas `a`, sea `a`, `aa` o `aaaaaaa`.



In [6]:
new_letter = re.sub('\n+', '\n', letter)
print(new_letter)


Dear Mr. Stanley
I don't know how to answer your question - I see no contradiction.
All you have to do is, from time to time -- in spite of everything, 
just try to examine a problem in a novel way.
You won't "stifle the creative process" if you remember to think
from time to time. Don't you have time to think?



Ejemplo html

In [7]:
html = """
<html>
    <head>
    </head>
    <body>
        <h1>This is a headline</h1>
        <hr>
        <p>This is                                                paragraph

                    text


                    used as                           filler text
                            for
                                        a
                    paragraph.

                    </p>
    </body>
</html>
"""

Después de una extracción de datos con web scraping

In [8]:
text = """
This is                                                paragraph

                    text


                    used as                           filler text
                            for
                                        a
                    paragraph.

                    
"""

re.sub(r'\n+', ' ', text)

' This is                                                paragraph                     text                     used as                           filler text                             for                                         a                     paragraph.                      '

Para resolver los espacios en blanco, se utilizar el mismo el mismo patrón, pero en lugar de `\n`, se utiliza un espacio en blanco.

## Barra invertida

La mayoría de los lenguajes regex tienen un símbolo que maneja tanto espacios en blanco como caracteres de nuevas líneas: `\s`.

In [9]:
text = """
This is                                                paragraph

                    text


                    used as                           filler text
                            for
                                        a
                    paragraph.

                    
"""

re.sub(r'\s+', ' ', text)

' This is paragraph text used as filler text for a paragraph. '

## Correspondencia de cero o más con el signo `*`

El operador estrella `*` es utilizado para correspondencia de cero o más  de los patrones que precede. Por ejemplo: 

```text
e*
```

corresponde a cualquier ocurrencia de cero o más letras consecutivas `e` . El patrón `be*g` corresponde con:

```text
beg
beeeg
bg
```

Ejercicio: Baaa!

In [10]:
paragraph = """The first sheep says "Baa!" Another sheep says "Baaaa!!!". In reply, the sheep says, 
"Baaaaaa". Another "Baaa" is heard. Finally, there’s a "Baaaa!"
"""

# Convert all to "Baa!"
re.sub(r'___', '____', paragraph)

'The first sheep says "Baa!" Another sheep says "Baaaa!!!". In reply, the sheep says, \n"Baaaaaa". Another "Baaa" is heard. Finally, there’s a "Baaaa!"\n'

## Repeticiones especificas y limitadas

En algunas ocasiones será necesario hacer correspondencia con algo que se repite más de una vez, pero menos de infinito.

### Paréntesis

Para capturar **n** repeticiones de un patrón donde **n** es el número de repeticiones, utilizar el siguiente patrón: `a{4}`, esto coincidirá con cuatro caracteres `a` exactamente.

**Ejercicio de ceros a millones.**

In [11]:
numbers = """
100
2000
500000
4000000
2000000
1000000
8000
9000000
"""

# Reemplazar los ceros con millones para los números que tienen exactamente seis ceros.

Salida esperada: 

```text
100
2000
500000
4 million
2 million
1 million
8000
9 million
```

In [12]:
# Convert zeros to millions"
re.sub(r'___', '____', numbers)

'\n100\n2000\n500000\n4000000\n2000000\n1000000\n8000\n9000000\n'

Repetir el código anterior con los siguientes números:


In [13]:
numbers_2 = """
900
8000000
90000000
70000
100000000
2000000
50000000000
"""

Corregir con el uso de `\b`

### Paréntesis, máximo y no límite de correspondencias

Si se quiere coincidir con *m* número de repeticiones, pero menor que *n* número, se puede incluir tanto *m*, como *n* en la notación de paréntesis. 

```python

```

In [18]:
num = """
000100000000
"""

re.findall(r'0{3,7}', num)

['000', '0000000']

Si se omite el segundo parámetro (el número máximo de repeticiones) pero se deja la coma:

In [19]:
re.findall(r'0{3,}', num)

['000', '00000000']

La regex encontrará correspondencia con una cadena que contiene por lo menos tres o más ceros consecutivos.