# REGEX
## (Regular Expressions)

Los datos no siempre están organizados, formateados ni estructurados de forma homogénea.

Una parte importante del trabajo de un _Data Scientist_ consiste en limpiar los datos **(Data Cleaning)**

Para ello, existen técnicas como **Regex**

Las expresiones regulares están conformadas por secuencias de caracteres que nos permiten encontrar patrones de búsqueda.

# [¡VAMOS A ELLO!](https://regex101.com/)

In [1]:
import re

text_to_search = '''
abcdefghijklmnopqurtuvwxyz
ABCDEFGHIJKLMNOPQRSTUVWXYZ
áéíóú
1234567890
Ha HaHa ?Ha
MetaCharacters (Need to be escaped):
. ^ $ * + ? { } [ ] \ | ( )
miguelnievas*com
miguelnievas.com
miguelnievasocom
miguelnievas hola
321-555-4321
123.555.1234
123*555*1234
800-555-1234
900-555-1234
9005551234
900055501234
Mr. Scha2fer
Mr Smith
Ms Davis
Mrs. Robinson
Mr. T
Mr. ()

cat
mat
pat
bat
at
'''


In [2]:
text_to_search

'\nabcdefghijklmnopqurtuvwxyz\nABCDEFGHIJKLMNOPQRSTUVWXYZ\náéíóú\n1234567890\nHa HaHa ?Ha\nMetaCharacters (Need to be escaped):\n. ^ $ * + ? { } [ ] \\ | ( )\nmiguelnievas*com\nmiguelnievas.com\nmiguelnievasocom\nmiguelnievas hola\n321-555-4321\n123.555.1234\n123*555*1234\n800-555-1234\n900-555-1234\n9005551234\n900055501234\nMr. Scha2fer\nMr Smith\nMs Davis\nMrs. Robinson\nMr. T\nMr. ()\n\ncat\nmat\npat\nbat\nat\n'

## Utilizamos las raw_strings para obtener la literalidad del texto:

### `print(r'\tTabulador')`

In [3]:
print('Tabulador sin raw string: \tTabulador')
print(r'Tabulador con raw string: \tTabulador')

Tabulador sin raw string: 	Tabulador
Tabulador con raw string: \tTabulador


### Buscamos el patrón `abc` en el texto

Para ello utilizamos:
- `re.compile()`: para introducir el patrón que queremos buscar
- La función `finditer()`: para buscar el patrón en nuestro texto
- Iteramos sobre la búsqueda

In [4]:
mi_string = 'Hola mundo'
mi_string[1]

'o'

In [5]:
pattern = re.compile(r'abc')

matches = pattern.finditer(text_to_search)

for match in matches:
    print(match)


# el span es el índice de inicio y final de la coincidencia.
# gracias al span, podemos utilizar las técnicas de string slicing
# en python para localizarlo

# print(text_to_search[1:4])

<re.Match object; span=(1, 4), match='abc'>


In [6]:
text_to_search[1:4]

'abc'

### Hay que tener en cuenta que cuando específicamos el pattern, se busca la literalidad de ese patrón.
Por ejemplo, si queremos buscar las letras en distinto orden...

In [7]:
new_pattern = re.compile(r'cba')
new_matches = new_pattern.finditer(text_to_search)

for match in new_matches:
    print(match)
    # no se muestra nada por pantalla

## Metacaracteres
Son aquellos caracteres que no son alfanuméricos:
- Signos de puntuación, exclamación y admiración

Si queremos obtenerlos, tenemos que "escaparlos"

In [8]:
# Como veis, aquí se muestran prácticamente todos los caracteres
pattern = re.compile(r'.')
matches = pattern.finditer(text_to_search)

for match in matches:
    print(match)

<re.Match object; span=(1, 2), match='a'>
<re.Match object; span=(2, 3), match='b'>
<re.Match object; span=(3, 4), match='c'>
<re.Match object; span=(4, 5), match='d'>
<re.Match object; span=(5, 6), match='e'>
<re.Match object; span=(6, 7), match='f'>
<re.Match object; span=(7, 8), match='g'>
<re.Match object; span=(8, 9), match='h'>
<re.Match object; span=(9, 10), match='i'>
<re.Match object; span=(10, 11), match='j'>
<re.Match object; span=(11, 12), match='k'>
<re.Match object; span=(12, 13), match='l'>
<re.Match object; span=(13, 14), match='m'>
<re.Match object; span=(14, 15), match='n'>
<re.Match object; span=(15, 16), match='o'>
<re.Match object; span=(16, 17), match='p'>
<re.Match object; span=(17, 18), match='q'>
<re.Match object; span=(18, 19), match='u'>
<re.Match object; span=(19, 20), match='r'>
<re.Match object; span=(20, 21), match='t'>
<re.Match object; span=(21, 22), match='u'>
<re.Match object; span=(22, 23), match='v'>
<re.Match object; span=(23, 24), match='w'>
<re.M

#### Para escaparlos, tienen que ir precedidos de la barra invertida(`\`)

In [9]:
pattern = re.compile(r'\.')
matches = pattern.finditer(text_to_search)

for match in matches:
    print(match)

<re.Match object; span=(121, 122), match='.'>
<re.Match object; span=(178, 179), match='.'>
<re.Match object; span=(234, 235), match='.'>
<re.Match object; span=(238, 239), match='.'>
<re.Match object; span=(309, 310), match='.'>
<re.Match object; span=(341, 342), match='.'>
<re.Match object; span=(354, 355), match='.'>
<re.Match object; span=(360, 361), match='.'>


Para buscar una página web:

In [10]:
pattern = re.compile(r'miguelnievas.com')
# . permito cualquier tipo de caracter

matches = pattern.finditer(text_to_search)

for match in matches:
    print(match)

<re.Match object; span=(149, 165), match='miguelnievas*com'>
<re.Match object; span=(166, 182), match='miguelnievas.com'>
<re.Match object; span=(183, 199), match='miguelnievasocom'>


In [10]:
pattern = re.compile(r'miguelnievas\.com')

matches = pattern.finditer(text_to_search)

for match in matches:
    print(match)

<re.Match object; span=(166, 182), match='miguelnievas.com'>


Lo realmente interesante de regex no es encontrar simplemente una página web o una frase concreta, sino que nos ayuda a encontrar una serie de patrones en los textos.

En este documento podemos ver las principales expresiones regulares para encontrar texto: `snippets.txt`

In [11]:
pattern = re.compile(r'\d')

matches = pattern.finditer(text_to_search)

for match in matches:
    print(match)

<re.Match object; span=(61, 62), match='1'>
<re.Match object; span=(62, 63), match='2'>
<re.Match object; span=(63, 64), match='3'>
<re.Match object; span=(64, 65), match='4'>
<re.Match object; span=(65, 66), match='5'>
<re.Match object; span=(66, 67), match='6'>
<re.Match object; span=(67, 68), match='7'>
<re.Match object; span=(68, 69), match='8'>
<re.Match object; span=(69, 70), match='9'>
<re.Match object; span=(70, 71), match='0'>
<re.Match object; span=(218, 219), match='3'>
<re.Match object; span=(219, 220), match='2'>
<re.Match object; span=(220, 221), match='1'>
<re.Match object; span=(222, 223), match='5'>
<re.Match object; span=(223, 224), match='5'>
<re.Match object; span=(224, 225), match='5'>
<re.Match object; span=(226, 227), match='4'>
<re.Match object; span=(227, 228), match='3'>
<re.Match object; span=(228, 229), match='2'>
<re.Match object; span=(229, 230), match='1'>
<re.Match object; span=(231, 232), match='1'>
<re.Match object; span=(232, 233), match='2'>
<re.Matc

## Anclas

Las anclas no buscan caracteres en concreto, pero delimitan nuestra búsqueda.

Word Boundaries `\b`: está compuesto por los espacios, tabuladores, nuevas líneas y caracteres no alfanuméricos.

In [12]:
pattern = re.compile(r'\bHa')

matches = pattern.finditer(text_to_search)

for match in matches:
    print(match)

<re.Match object; span=(72, 74), match='Ha'>
<re.Match object; span=(75, 77), match='Ha'>
<re.Match object; span=(81, 83), match='Ha'>


No word boundaries `\B`: lo contrario

Muestra el Ha que delante no tiene los boundaries

In [13]:
pattern = re.compile(r'\BHa')

matches = pattern.finditer(text_to_search)

for match in matches:
    print(match)

<re.Match object; span=(77, 79), match='Ha'>


### `^` Busca solo el principio del string

In [14]:
sentence = 'Start a sentence and then bring it to an end'

In [15]:
pattern = re.compile(r'^Start')

matches = pattern.finditer(sentence)

for match in matches:
    print(match)

<re.Match object; span=(0, 5), match='Start'>


In [16]:
pattern = re.compile(r'^\n')

matches = pattern.finditer(text_to_search)

for match in matches:
    print(match)

<re.Match object; span=(0, 1), match='\n'>


In [17]:
re.findall(r'\n[a-zA-Z]', text_to_search)

['\na',
 '\nA',
 '\nH',
 '\nM',
 '\nm',
 '\nm',
 '\nm',
 '\nm',
 '\nM',
 '\nM',
 '\nM',
 '\nM',
 '\nM',
 '\nM',
 '\nc',
 '\nm',
 '\np',
 '\nb',
 '\na']

### `$` Solo busca el final del string

In [18]:
pattern = re.compile(r'end$')

matches = pattern.finditer(sentence)

for match in matches:
    print(match)

<re.Match object; span=(41, 44), match='end'>


## TIME FOR ACTION

A continuación, vamos a tratar de obtener los números de teléfono.

Como podemos ver en el texto, el número de teléfono sigue la misma estructura: 
- 3 números
- signo de puntuación 
- 3 números
- signo de puntuación
- 4 números

In [19]:
# escribe tu código
pattern = re.compile(r'\d\d\d.\d\d\d.\d\d\d\d')
# (r'\d{3}.\d{3}.\d{4}')
matches = pattern.finditer(text_to_search)

for match in matches:
    print(match)

<re.Match object; span=(218, 230), match='321-555-4321'>
<re.Match object; span=(231, 243), match='123.555.1234'>
<re.Match object; span=(244, 256), match='123*555*1234'>
<re.Match object; span=(257, 269), match='800-555-1234'>
<re.Match object; span=(270, 282), match='900-555-1234'>
<re.Match object; span=(294, 306), match='900055501234'>


### Abrimos `fake_info.txt` para empezar a trabajar

In [20]:
with open('fake_info.txt', 'r') as f:
    contents = f.read()

In [21]:
contents

"Dave Martin\n615-555-7164\n173 Main St., Springfield RI 55924\ndavemartin@bogusemail.com\n\nCharles Harris\n800-555-5669\n969 High St., Atlantis VA 34075\ncharlesharris@bogusemail.com\n\nEric Williams\n560-555-5153\n806 1st St., Faketown AK 86847\nlaurawilliams@bogusemail.com\n\nCorey Jefferson\n900-555-9340\n826 Elm St., Epicburg NE 10671\ncoreyjefferson@bogusemail.com\n\nJennifer Martin-White\n714-555-7405\n212 Cedar St., Sunnydale CT 74983\njenniferwhite@bogusemail.com\n\nErick Davis\n800-555-6771\n519 Washington St., Olympus TN 32425\ntomdavis@bogusemail.com\n\nNeil Patterson\n783-555-4799\n625 Oak St., Dawnstar IL 61914\nneilpatterson@bogusemail.com\n\nLaura Jefferson\n516-555-4615\n890 Main St., Pythonville LA 29947\nlaurajefferson@bogusemail.com\n\nMaria Johnson\n127-555-1867\n884 High St., Braavosâ€Ž ME 43597\nmariajohnson@bogusemail.com\n\nMichael Arnold\n608-555-4938\n249 Elm St., Quahog OR 90938\nmichaelarnold@bogusemail.com\n\nMichael Smith\n568-555-6051\n619 Park St., Win

Como hemos visto, el código de arriba nos ha permitido encontrar la secuencia de números con cualquier signo de puntuación, pero pongamos que queremos obtener solamente los números de teléfono separados por un punto o un guion

In [22]:
# escribe tu código
pattern = re.compile(r'\d\d\d.\d\d\d.\d\d\d\d')

matches = pattern.finditer(contents)

for match in matches:
    print(match.__getitem__(0))

615-555-7164
800-555-5669
560-555-5153
900-555-9340
714-555-7405
800-555-6771
783-555-4799
516-555-4615
127-555-1867
608-555-4938
568-555-6051
292-555-1875
900-555-3205
614-555-1166
530-555-2676
470-555-2750
800-555-6089
880-555-8319
777-555-8378
998-555-7385
800-555-7100
903-555-8277
196-555-5674
900-555-5118
905-555-1630
203-555-3475
884-555-8444
904-555-8559
889-555-7393
195-555-2405
321-555-9053
133-555-1711
900-555-5428
760-555-7147
391-555-6621
932-555-7724
609-555-7908
800-555-8810
149-555-7657
130-555-9709
143-555-9295
903-555-9878
574-555-3194
496-555-7533
210-555-3757
900-555-9598
866-555-9844
669-555-7159
152-555-7417
893-555-9832
217-555-7123
786-555-6544
780-555-2574
926-555-8735
895-555-3539
874-555-3949
800-555-2420
936-555-6340
372-555-9809
890-555-5618
670-555-3005
509-555-5997
721-555-5632
900-555-3567
147-555-6830
582-555-3426
400-555-1706
525-555-1793
317-555-6700
974-555-8301
800-555-3216
746-555-4094
922-555-1773
711-555-4427
355-555-1872
852-555-6521
691-555-5773

## Character sets
Sirven para concretar nuestra búsqueda.

#### ¡CUIDADO! En ocasiones suele haber confusión con los character sets, porque no cogen más de un elemento.

In [23]:
# Para encontrar todos los números que empiecen por centenas:
# 800 - 900

pattern = re.compile(r'[89]00\D\d\d\d\D\d\d\d\d')

matches = pattern.finditer(text_to_search)

for match in matches:
    print(match)

<re.Match object; span=(257, 269), match='800-555-1234'>
<re.Match object; span=(270, 282), match='900-555-1234'>


In [None]:
# pattern = re.compile(r'^9[14]') con esto obtendria los numeros
# que empiezan por 91 o 94

## Los guiones no solamente sirven para encontrar ese caracter especial, sino que además nos permiten establecer rangos

Por ejemplo, para mostrar los números entre el 1 y el 5 de todo el texto

In [24]:
pattern = re.compile(r'[1-5]')

matches = pattern.finditer(text_to_search)

for match in matches:
    print(match)

<re.Match object; span=(61, 62), match='1'>
<re.Match object; span=(62, 63), match='2'>
<re.Match object; span=(63, 64), match='3'>
<re.Match object; span=(64, 65), match='4'>
<re.Match object; span=(65, 66), match='5'>
<re.Match object; span=(218, 219), match='3'>
<re.Match object; span=(219, 220), match='2'>
<re.Match object; span=(220, 221), match='1'>
<re.Match object; span=(222, 223), match='5'>
<re.Match object; span=(223, 224), match='5'>
<re.Match object; span=(224, 225), match='5'>
<re.Match object; span=(226, 227), match='4'>
<re.Match object; span=(227, 228), match='3'>
<re.Match object; span=(228, 229), match='2'>
<re.Match object; span=(229, 230), match='1'>
<re.Match object; span=(231, 232), match='1'>
<re.Match object; span=(232, 233), match='2'>
<re.Match object; span=(233, 234), match='3'>
<re.Match object; span=(235, 236), match='5'>
<re.Match object; span=(236, 237), match='5'>
<re.Match object; span=(237, 238), match='5'>
<re.Match object; span=(239, 240), match='1'

### Para Mostrar letras mayúsculas y minúsculas, basta con poner los rangos juntos.


In [25]:
pattern = re.compile(r'[a-zA-Z]')

matches = pattern.finditer(text_to_search)

for match in matches:
    print(match)

<re.Match object; span=(1, 2), match='a'>
<re.Match object; span=(2, 3), match='b'>
<re.Match object; span=(3, 4), match='c'>
<re.Match object; span=(4, 5), match='d'>
<re.Match object; span=(5, 6), match='e'>
<re.Match object; span=(6, 7), match='f'>
<re.Match object; span=(7, 8), match='g'>
<re.Match object; span=(8, 9), match='h'>
<re.Match object; span=(9, 10), match='i'>
<re.Match object; span=(10, 11), match='j'>
<re.Match object; span=(11, 12), match='k'>
<re.Match object; span=(12, 13), match='l'>
<re.Match object; span=(13, 14), match='m'>
<re.Match object; span=(14, 15), match='n'>
<re.Match object; span=(15, 16), match='o'>
<re.Match object; span=(16, 17), match='p'>
<re.Match object; span=(17, 18), match='q'>
<re.Match object; span=(18, 19), match='u'>
<re.Match object; span=(19, 20), match='r'>
<re.Match object; span=(20, 21), match='t'>
<re.Match object; span=(21, 22), match='u'>
<re.Match object; span=(22, 23), match='v'>
<re.Match object; span=(23, 24), match='w'>
<re.M

In [26]:
pattern = re.compile(r'[á-ú]')

matches = pattern.finditer(text_to_search)

for match in matches:
    print(match)

<re.Match object; span=(55, 56), match='á'>
<re.Match object; span=(56, 57), match='é'>
<re.Match object; span=(57, 58), match='í'>
<re.Match object; span=(58, 59), match='ó'>
<re.Match object; span=(59, 60), match='ú'>


## Importante 
Al poner el símbolo `^` dentro de los corchetes `[]`, significa que **NO** queremos lo que está dentro de él.

En este caso, al ejecutar, se muestran solo los caracteres numéricos, los espacios en blanco, los saltos de línea y los caracteres numéricos.

**Se niega el set**

In [27]:
pattern = re.compile(r'[^a-zA-Z]')

matches = pattern.finditer(text_to_search)

for match in matches:
    print(match)

<re.Match object; span=(0, 1), match='\n'>
<re.Match object; span=(27, 28), match='\n'>
<re.Match object; span=(54, 55), match='\n'>
<re.Match object; span=(55, 56), match='á'>
<re.Match object; span=(56, 57), match='é'>
<re.Match object; span=(57, 58), match='í'>
<re.Match object; span=(58, 59), match='ó'>
<re.Match object; span=(59, 60), match='ú'>
<re.Match object; span=(60, 61), match='\n'>
<re.Match object; span=(61, 62), match='1'>
<re.Match object; span=(62, 63), match='2'>
<re.Match object; span=(63, 64), match='3'>
<re.Match object; span=(64, 65), match='4'>
<re.Match object; span=(65, 66), match='5'>
<re.Match object; span=(66, 67), match='6'>
<re.Match object; span=(67, 68), match='7'>
<re.Match object; span=(68, 69), match='8'>
<re.Match object; span=(69, 70), match='9'>
<re.Match object; span=(70, 71), match='0'>
<re.Match object; span=(71, 72), match='\n'>
<re.Match object; span=(74, 75), match=' '>
<re.Match object; span=(79, 80), match=' '>
<re.Match object; span=(80, 8

## Búsquedas de patrones en los textos 
Pongamos que queremos recoger palabras terminadas en at, excepto **bat**
Especificamos que no queremos los valores que empiecen por b

In [28]:
pattern = re.compile(r'[^b]at')

matches = pattern.finditer(text_to_search)

for match in matches:
    print(match)

<re.Match object; span=(366, 369), match='cat'>
<re.Match object; span=(370, 373), match='mat'>
<re.Match object; span=(374, 377), match='pat'>
<re.Match object; span=(381, 384), match='\nat'>


## Rangos `{}`
Como vemos en snippets.txt, las llaves nos permiten establecer rangos. 

Volviendo al ejemplo de los números de teléfono, otra forma de obtener los patrones

In [29]:
pattern = re.compile(r'\d{3}\D\d{3}\D\d{4}')

matches = pattern.finditer(text_to_search)

for match in matches:
    print(match)

<re.Match object; span=(218, 230), match='321-555-4321'>
<re.Match object; span=(231, 243), match='123.555.1234'>
<re.Match object; span=(244, 256), match='123*555*1234'>
<re.Match object; span=(257, 269), match='800-555-1234'>
<re.Match object; span=(270, 282), match='900-555-1234'>


In [30]:
pattern = re.compile(r'\d{2,4}.\d{2,4}.\d{2,4}')

matches = pattern.finditer(text_to_search)

for match in matches:
    print(match)

<re.Match object; span=(61, 71), match='1234567890'>
<re.Match object; span=(218, 230), match='321-555-4321'>
<re.Match object; span=(231, 243), match='123.555.1234'>
<re.Match object; span=(244, 256), match='123*555*1234'>
<re.Match object; span=(257, 269), match='800-555-1234'>
<re.Match object; span=(270, 282), match='900-555-1234'>
<re.Match object; span=(283, 293), match='9005551234'>
<re.Match object; span=(294, 306), match='900055501234'>


In [31]:
# Este ejemplo nos vale porque sabemos exactamente el
# patrón que se reproduce.

pattern1 = re.compile(r'Mr\.')

matches = pattern1.finditer(text_to_search)

for match in matches:
    print(match)

# Aquí no nos está dando lo que queremos. Solo nos da la secuencia Mr.

<re.Match object; span=(307, 310), match='Mr.'>
<re.Match object; span=(352, 355), match='Mr.'>
<re.Match object; span=(358, 361), match='Mr.'>


## Operador `?` 
Nos sirve para añadir 0 o 1 a nuestra selección. Así se va a contemplar lo que hay un espacio después

In [34]:
# Aquí sí aparecen todos los Mr. independientemente de
# que tengan punto o no
pattern2 = re.compile(r'Mr.')

matches = pattern2.finditer(text_to_search)

for match in matches:
    print(match)

<re.Match object; span=(307, 310), match='Mr.'>
<re.Match object; span=(320, 323), match='Mr '>
<re.Match object; span=(338, 341), match='Mrs'>
<re.Match object; span=(352, 355), match='Mr.'>
<re.Match object; span=(358, 361), match='Mr.'>


In [35]:
# Aquí sí aparecen todos los Mr. independientemente de
# que tengan punto o no
pattern2 = re.compile(r'Mr\.?')

matches = pattern2.finditer(text_to_search)

for match in matches:
    print(match)

<re.Match object; span=(307, 310), match='Mr.'>
<re.Match object; span=(320, 322), match='Mr'>
<re.Match object; span=(338, 340), match='Mr'>
<re.Match object; span=(352, 355), match='Mr.'>
<re.Match object; span=(358, 361), match='Mr.'>


In [36]:
# Aquí sí aparecen todos los Mr. independientemente de
# que tengan punto o no
pattern3 = re.compile(r'Mr\.?\s\w+')
# El operador + muestra si hay 1 elemento o más a la
# derecha de la selección

matches = pattern3.finditer(text_to_search)

for match in matches:
    print(match)

<re.Match object; span=(307, 319), match='Mr. Scha2fer'>
<re.Match object; span=(320, 328), match='Mr Smith'>
<re.Match object; span=(352, 357), match='Mr. T'>


## Ahora sí que sí
para mostrarlo todo , utilizaremos el cuantificador `*`

In [37]:
pattern4 = re.compile(r'Mr\.?\s\w*')

matches = pattern4.finditer(text_to_search)

for match in matches:
    print(match)

<re.Match object; span=(307, 319), match='Mr. Scha2fer'>
<re.Match object; span=(320, 328), match='Mr Smith'>
<re.Match object; span=(352, 357), match='Mr. T'>
<re.Match object; span=(358, 362), match='Mr. '>


## Grouping `()`
Siguiendo con el ejemplo, para ver todos los Mr, Ms y Mrs, podemos utilizar el operador | (or)

In [38]:
pattern4 = re.compile(r'(Mr|Ms|Mrs)\.?\s\w*')

matches = pattern4.finditer(text_to_search)

for match in matches:
    print(match)

<re.Match object; span=(307, 319), match='Mr. Scha2fer'>
<re.Match object; span=(320, 328), match='Mr Smith'>
<re.Match object; span=(329, 337), match='Ms Davis'>
<re.Match object; span=(338, 351), match='Mrs. Robinson'>
<re.Match object; span=(352, 357), match='Mr. T'>
<re.Match object; span=(358, 362), match='Mr. '>


In [39]:
#Para sustituir

re.sub(r'(Mr|Ms|Mrs)\.?\s\w*', '999', text_to_search)

'\nabcdefghijklmnopqurtuvwxyz\nABCDEFGHIJKLMNOPQRSTUVWXYZ\náéíóú\n1234567890\nHa HaHa ?Ha\nMetaCharacters (Need to be escaped):\n. ^ $ * + ? { } [ ] \\ | ( )\nmiguelnievas*com\nmiguelnievas.com\nmiguelnievasocom\nmiguelnievas hola\n321-555-4321\n123.555.1234\n123*555*1234\n800-555-1234\n900-555-1234\n9005551234\n900055501234\n999\n999\n999\n999\n999\n999()\n\ncat\nmat\npat\nbat\nat\n'