# Análisis de Patrones en Texto

Muchas veces nos enfretamos a diferentes cadenas de carácteres sobre los cuales queremos realizar cierto tratamiento con diversos fines. En esta seccion realizaremos una introducción a algunas funciones especiales del tipo de dato **string** y a las **expresiones regualres**.

Objetivos
-------------

- Manipulación de cadenas de carácteres
- Expresiones regulares


## Búsqueda de Patrones en String
-----------------------------------

En esta sección, repasaremos algunos de los conceptos básicos acerca de las funciones básicas en cadena de carácteres y búsqueda de patrones más avanzados

**String**

Como ya hemos visto en el curso un string esta se encuentra delimitado por <code>'text'</code>, <code>"text"</code> para casos de una cadenas de una sola línea. Para múltiples líneas se tiene <code>"""text""""</code>.

In [1]:
my_string = "This is a string"
my_string2 = 'This is also a string'

In [2]:
my_string = 'And this? It's the wrong string'

SyntaxError: invalid syntax (<ipython-input-2-b97134ce7827>, line 1)

In [5]:
my_string = "And this? It's the correct string"
print(my_string)

And this? It's the correct string


**Repaso de Funciones básicas**

In [8]:
# len -> nos brinda la longitud de la cadena
len(my_string)


33

In [9]:
# str() -> Conversión a string
str(123)

'123'

In [12]:
# Concatenacion

string1= 'Awesome day'
string2 = 'for biking'

print(string1 +" "+ string2)


Awesome day for biking


In [17]:
# indexación
print(string1[0]) # Obtengo primer elemento de la cadena de carácteres

print(string1[-1]) #Obtengo último carácter de la cadena

A
y


In [20]:
# Silicing

print(string1[0:3]) # captura de los 3 primeros carácters

print(string1[:5]) # 5 primeros elementos

print(string1[5:]) # de la posición 5 en adelante


Awe
Aweso
me day


In [25]:
# Stride
print(string1[0:6:2]) # selecciono los carácteres de la posición 0,6,2

print(string1[::-1]) # reversión de cadena


Aeo
yad emosewA


**Operaciones básicas**

In [28]:
# lower -> Conversión a minusculas

print(string1.lower())

# Upper -> conversión a mayúsculas

print(string1.upper())

# Capitalize -> primera letra de palabra en mayúscula

print(string1.capitalize())



awesome day
AWESOME DAY
Awesome day


In [31]:
# Split -> Divide un texto según un separador

my_string = "This string will be split"

print(my_string.split(sep=" "))

print(my_string.split(sep=" ", maxsplit=2)) #maxsplit -> delimita la cantidad de palabras a ser separadas de la cadena


['This', 'string', 'will', 'be', 'split']
['This', 'string', 'will be split']


In [33]:
# \n -> define un salto de línea en texto

my_string = "This string will be split\nin two"

print(my_string)

# splitlines -> separa texto según saltos de línea
my_string.splitlines()


This string will be split
in two


['This string will be split', 'in two']

In [34]:
# join -> Permite concatenar strings de un listado 

my_list = ["this", "would", "be", "a", "string"]
print(" ".join(my_list))


this would be a string


In [39]:
# strip -> realiza una limpieza de texto quitando espacios en blanco o saltos de 
# línea de los extremos de una cadena de carácteres

my_string = " This string will be stripped\n"

print(my_string)

print(my_string.strip())


 This string will be stripped

This string will be stripped


**Búsqueda de patrones**

In [42]:
# Find -> Realiza una búsqueda en texto

my_string = "Where's Waldo?"
print(my_string.find("Waldo"))


print(my_string.find("Wenda")) # No se encotro palabra buscada

8
-1


In [43]:
# index -> similar a find permite realizar la búsqueda

my_string = "Where's Waldo?"
my_string.index("Waldo")

8

In [44]:
# Count -> permite obtener la cantidad de veces en que aparece una palabra en texto
my_string = "How many fruits do you have in your fruit basket?"
my_string.count("fruit")

2

In [47]:
# replace -> permite reemplazar un texto por otro

my_string = "The red house is between the blue house and the old house"
print(my_string.replace("house", "car"))


print(my_string.replace("house", "car", 2)) # reemplza la palabra 'house' 2 veces


The red car is between the blue car and the old car
The red car is between the blue car and the old house


## Expresiones Regulares
-----------------------------------

Las expresiones regulares, también conocidas como 'regex' o 'regexp', son patrones de búsqueda definidos con una sintaxis formal. Siempre que sigamos sus reglas, podremos realizar búsquedas simples y avanzadas, que utilizadas en conjunto con otras funcionalidades, las vuelven una de las opciones más útiles e importantes de cualquier lenguaje.



<center><img src='./img/regex.PNG'></center>

In [1]:
import re

**Métodos Básicos**

- **search**: busca un patrón en otra cadena

In [2]:
texto = "En esta cadena se encuentra una palabra mágica"
re.search('mágica', texto)

<re.Match object; span=(40, 46), match='mágica'>

Como vemos, al realizar la búsqueda lo que nos encontramos es un objeto de tipo Match (encontrado), en lugar un simple True o False.


In [3]:
palabra = "mágica"

encontrado = re.search(palabra,  texto)

if encontrado:
    print("Se ha encontrado la palabra:", palabra)
else:
    print("No se ha encontrado la palabra:", palabra)

Se ha encontrado la palabra: mágica


Sin embargo, volviendo al objeto devuelto de tipo Match, éste nos ofrece algunas opciones interesantes.

In [5]:
# Posición donde empieza la coincidencia
print( encontrado.start() ) 
# Posición donde termina la coincidencia
print( encontrado.end() )  
# Tupla con posiciones donde empieza y termina la coincidencia
print( encontrado.span() )   
# Cadena sobre la que se ha realizado la búsqueda
print( encontrado.string )

40
46
(40, 46)
En esta cadena se encuentra una palabra mágica


- **findall**: busca todas las coincidencias en una cadena

In [8]:
# re.findall(r'regex','string')

texto= "Love #movies! I had fun yesterday going to the #movies"

re.findall(r"#movies", texto)

['#movies', '#movies']

- **split**: divide una cadena de texto según un patrón

In [10]:
# re.split(r'regex', 'string')
texto="Nice Place to eat! I'll come back! Excellent meat!"

re.split(r"!", texto)

['Nice Place to eat', " I'll come back", ' Excellent meat', '']

- **sub**: substituye parte de un texto por otro

In [14]:
# re.sub(r'regex', 'sub' , 'string')

texto = "I have a yellow car and a yellow house in a yellow neighborhood"

sub = 'nice'

re.sub(r"yellow", sub ,texto)

'I have a nice car and a nice house in a nice neighborhood'

**Metacarácteres**

Permite realizar búsquedas de patrones con carácterísticas especiales

<img src='./img/codigo_escapado.PNG'>

In [19]:
texto = "The winners are: User9, UserN, User8"

# encontrando valores de User[num] en texto
print(re.findall(r"User\d", texto))

# encontrando valores de User[letra] en texto
print(re.findall(r"User\D", texto))


['User9', 'User8']
['UserN']


**Repeticiones**

Supongamos que tenemos que realizar la validación del siguiente string

In [20]:
password = "password1234"
re.search(r"\w\w\w\w\w\w\w\w\d\d\d\d", password)

<re.Match object; span=(0, 12), match='password1234'>

Para poder facilitar esa búsqueda existen los repetidores, los cuales van a indicar un número de veces en que se repita un carácter o metacarácter en específico.

- Con número de repeticiones fijo <code>{n}</code>

**n** -> indica la cantidad de veces en que se repite un caracter


In [22]:
# 
re.search(r"\w{8}\d{4}", password)

<re.Match object; span=(0, 12), match='password1234'>

**Cuantificadores**

Al igual que los repetidores nos va a indicar la cantidad de veces en que se repita cierta expresión:

- <code>+</code> : una o más veces
- <code>*</code> : cero o más veces
- <code>?</code> : cero o una vez
- <code>{n,m}</code> : al menos n veces, como máximo m veces

**nota**

<code>r"apple+"</code> : <code>+</code> aplica al la expresión de la izquierda


In [24]:
# "+" ->digitos se repiten una o más veces 
text = "Date of start: 4-3. Date of registration: 10-04."
re.findall(r"\d+-\d+", text)

['4-3', '10-04']

In [25]:
# "*" ->

my_string = "The concert was amazing! @ameli!a @joh&&n @mary90"
re.findall(r"@\w+\W*\w+", my_string)


['@ameli!a', '@joh&&n', '@mary90']

In [26]:
# ?
text = "The color of this image is amazing. However, the colour blue could be brighter."
re.findall(r"colou?r", text)

['color', 'colour']

In [27]:
# {n,m}

phone_number = "John: 1-966-847-3131 Michelle: 54-908-42-42424"
re.findall(r"\d{1,2}-\d{3}-\d{2,3}-\d{4,}", phone_number)


['1-966-847-3131', '54-908-42-42424']

### Metacaracteres

## Documentación

Hay docenas y docenas de códigos especiales, si deseas echar un vistazo a todos ellos puedes consultar la documentación oficial:
- https://docs.python.org/3.5/library/re.html#regular-expression-syntax

Un resumen por parte de Google Eduactión:

- https://developers.google.com/edu/python/regular-expressions

Otro resumen muy interesante sobre el tema:

- https://www.tutorialspoint.com/python/python_reg_expressions.htm

Un par de documentos muy trabajados con ejemplos básicos y avanzados:

- http://www.python-course.eu/python3_re.php
- http://www.python-course.eu/python3_re_advanced.php