# Operaciones con cadenas

Objetivos de la lección

Comprender las operaciones con cadenas de Python.
Aprender a crear subconjuntos y dividir cadenas.
Comprender cómo aprovechar los métodos booleanos para las operaciones con cadenas.
Aprender a manipular mayúsculas y minúsculas de cadenas con Python.
Aprender a eliminar espacios en blanco y reemplazar cadenas por otras cadenas.
Aprender algunas expresiones regulares básicas y cómo aplicarlas.

Introducción

Como analista de datos, se encontrará lidiando con cadenas de texto con regularidad. Las variables categóricas, los documentos y otros datos basados ​​en texto a menudo vienen estructurados de manera inconsistente. Por este motivo, es útil conocer los diferentes métodos para transformar, limpiar y extraer texto. Python viene con varias herramientas para realizar operaciones con cadenas. En esta lección, aprenderemos a usar estas herramientas para trabajar con cadenas.
Operaciones con cadenas de Python

Hasta ahora en este programa, ha visto algunos ejemplos aquí y allá que involucran operaciones con cadenas en el contexto de otros temas que hemos tratado. En esta sección, cubriremos las operaciones con cadenas de manera más completa para que comprendas bien cómo usarlas.

Recuerda de tu trabajo previo con Python que el operador + concatena dos cadenas y que el operador * repite una cadena una cantidad determinada de veces.

In [None]:
print('Hello' + 'World')

HelloWorld


In [None]:
print('Hello' * 8)

HelloHelloHelloHelloHelloHelloHelloHello


Recuerde que también puede unir cadenas en una lista utilizando un separador designado con el método join.

In [None]:
x = 'Happy'
y = 'Puppies'
z = [x,y]

' '.join(z)

'Happy Puppies'

También cubrimos cómo obtener la longitud de cadenas y cómo crear subconjuntos de ellas mediante indexación.

In [None]:
len('automobile')

10

In [None]:
word = 'automobile'

print(word[0])
print(word[5])
print(word[-1])

a
o
e


Podemos utilizar el método split para convertir cadenas en listas en función de un separador que designemos (espacios si se deja vacío).

In [None]:
a = 'They ate the mystery meat. It tasted like chicken.'

print(a.split())
print(a.split('.'))
print(a.split('m'))

['They', 'ate', 'the', 'mystery', 'meat.', 'It', 'tasted', 'like', 'chicken.']
['They ate the mystery meat', ' It tasted like chicken', '']
['They ate the ', 'ystery ', 'eat. It tasted like chicken.']


También podemos utilizar métodos booleanos como startswith, endswith e in para verificar si las cadenas comienzan con, terminan con o contienen ciertos caracteres u otras cadenas.

In [None]:
b = 'There is no business like show business.'

print(b.startswith('T'))
print(b.startswith('There'))
print(b.startswith('there'))

True
True
False


In [None]:
print(b.endswith('.'))
print(b.endswith('business.'))
print(b.endswith('Business.'))

True
True
False


In [None]:
print('like' in b)
print('business' in b)
print('Business' in b)

True
True
False


Tenga en cuenta que los ejemplos anteriores distinguen entre mayúsculas y minúsculas. Hablando de mayúsculas y minúsculas, Python nos proporciona varias formas útiles de cambiar las mayúsculas y minúsculas de las cadenas.

In [None]:
c = 'shE HaD a maRveLoUs aSsoRtmeNt of PUPPETS.'

print(c.lower())
print(c.upper())
print(c.capitalize())
print(c.title())

she had a marvelous assortment of puppets.
SHE HAD A MARVELOUS ASSORTMENT OF PUPPETS.
She had a marvelous assortment of puppets.
She Had A Marvelous Assortment Of Puppets.


También podemos eliminar cualquier espacio en blanco del principio y del final de una cadena utilizando el método strip. Si queremos eliminar el espacio en blanco solo del principio, utilizaremos lstrip. Si queremos eliminar el espacio en blanco solo del final, utilizaremos rstrip.

In [None]:
d = ' I have a tendency to leave trailing spaces. '

print(d.strip())
print(d.lstrip())
print(d.rstrip())

I have a tendency to leave trailing spaces.
I have a tendency to leave trailing spaces. 
 I have a tendency to leave trailing spaces.


Otra operación de cadena útil, que vimos brevemente en las lecciones de manipulación de datos, es utilizar el método de reemplazo, que reemplaza una cadena por otra.

In [None]:
e = 'I thought the movie was wonderful!'

print(e.replace('wonderful', 'horrible'))
print(e.replace('wonderful', 'just OK'))

I thought the movie was horrible!
I thought the movie was just OK!


# Expresiones regulares

Los métodos de operaciones con cadenas de Python pueden llevarnos muy lejos, pero inevitablemente nos encontraremos con una situación en la que necesitaremos confiar en algunas herramientas adicionales llamadas expresiones regulares. Las expresiones regulares nos permiten realizar diferentes tipos de coincidencias de patrones en el texto para llegar al resultado que queremos.

Para usar expresiones regulares, importaremos la biblioteca re.

In [2]:
import re

Algunos de los métodos más útiles de la biblioteca `re` son:

`search`: devuelve la primera instancia de una expresión en una cadena.


`findall`: busca todas las instancias de una expresión en una cadena y las devuelve como una lista.


`split`: divide una cadena en función de un delimitador especificado.


`sub`: sustituye una cadena o subcadena por otra.

Las expresiones regulares consisten en secuencias que representan ciertos tipos de caracteres que pueden aparecer en cadenas. Podemos utilizar el método findall para devolver todos los caracteres de una cadena que coincidan con una serie de caracteres de la siguiente manera.

In [3]:
text = 'My neighbor, Mr. Rogers, has 5 dogs.'
print(re.findall('neigh', text))

['neigh']


Si queremos devolver todos los caracteres que coinciden dentro del texto, podemos convertir la serie de caracteres del patrón en un conjunto encerrándolos entre corchetes (`[]`).

In [5]:
print(re.findall('[mo]', text))

['o', 'o', 'o']


Esto encontró cualquier carácter que designamos explícitamente en nuestra expresión regular y lo devolvió como una lista. Tenga en cuenta que no se devolvieron las M mayúsculas, ya que las expresiones regulares distinguen entre mayúsculas y minúsculas.

Las expresiones regulares también tienen conjuntos predefinidos que podemos usar como atajos para que, por ejemplo, no tengamos que escribir todas las letras del alfabeto o todos los números para que coincidan. A continuación, se muestran algunos de los conjuntos de expresiones regulares más útiles.

`[a-z]`: cualquier letra minúscula entre la a y la z.


`[A-Z]`: cualquier letra mayúscula entre la A y la Z.


`[0-9]`: cualquier carácter numérico entre el 0 y el 9.

Consulte http://regex101.com/

In [None]:
print(re.findall('[a-z]', text))

['y', 'n', 'e', 'i', 'g', 'h', 'b', 'o', 'r', 'r', 'o', 'g', 'e', 'r', 's', 'h', 'a', 's', 'd', 'o', 'g', 's']


Tenga en cuenta que este conjunto devolvió todas las letras minúsculas y excluyó las M y R mayúsculas, el número 5 y todos los signos de puntuación. Podemos agregar el carácter ^ dentro de los corchetes para devolver todo lo que no coincida con la secuencia que hemos designado.

In [6]:
print(re.findall('[^a-z]', text))

['M', ' ', ',', ' ', 'M', '.', ' ', 'R', ',', ' ', ' ', '5', ' ', '.']


En este caso, devolvió las letras mayúsculas, el número y todos los signos de puntuación y espacios en blanco.

¿Qué sucede si queremos extraer letras mayúsculas y minúsculas de nuestra cadena? Podemos simplemente agregar A-Z dentro de nuestros corchetes.

In [None]:
print(re.findall('[a-zA-Z]', text))

['M', 'y', 'n', 'e', 'i', 'g', 'h', 'b', 'o', 'r', 'M', 'r', 'R', 'o', 'g', 'e', 'r', 's', 'h', 'a', 's', 'd', 'o', 'g', 's']


And if we wanted to also extract spaces, we can add a space.

In [None]:
print(re.findall('[a-zA-Z ]', text))

['M', 'y', ' ', 'n', 'e', 'i', 'g', 'h', 'b', 'o', 'r', ' ', 'M', 'r', ' ', 'R', 'o', 'g', 'e', 'r', 's', ' ', 'h', 'a', 's', ' ', ' ', 'd', 'o', 'g', 's']


Una vez que llegamos a un punto en el que agregamos múltiples elementos a nuestra expresión regular, querremos aprovechar atajos adicionales llamados clases de caracteres (también conocidas como secuencias especiales). A continuación, se muestran algunos de los más útiles y con qué coinciden.

    \w: Cualquier carácter alfanumérico.
    \W: Cualquier carácter no alfanumérico.
    \d: Cualquier carácter numérico.
    \D: Cualquier carácter no numérico.
    \s: Cualquier carácter de espacio en blanco.
    \S: Cualquier carácter que no sea un espacio en blanco.
    .: Cualquier carácter excepto el de nueva línea (\n).

Echemos un vistazo a cómo funcionan algunos de estos.

In [None]:
print(re.findall('[\d]', text))

['5']


In [None]:
print(re.findall('[\w]', text))

['M', 'y', 'n', 'e', 'i', 'g', 'h', 'b', 'o', 'r', 'M', 'r', 'R', 'o', 'g', 'e', 'r', 's', 'h', 'a', 's', '5', 'd', 'o', 'g', 's']


In [None]:
print(re.findall('[\S]', text))

['M', 'y', 'n', 'e', 'i', 'g', 'h', 'b', 'o', 'r', ',', 'M', 'r', '.', 'R', 'o', 'g', 'e', 'r', 's', ',', 'h', 'a', 's', '5', 'd', 'o', 'g', 's', '.']


In [None]:
print(re.findall('.', text))

['M', 'y', ' ', 'n', 'e', 'i', 'g', 'h', 'b', 'o', 'r', ',', ' ', 'M', 'r', '.', ' ', 'R', 'o', 'g', 'e', 'r', 's', ',', ' ', 'h', 'a', 's', ' ', '5', ' ', 'd', 'o', 'g', 's', '.']


Podemos utilizar el método de división para dividir una cadena en caracteres específicos, como comas o cualquier valor numérico.

In [None]:
print(re.split(', ', text))

['My neighbor', 'Mr. Rogers', 'has 5 dogs.']


In [None]:
print(re.split('[0-9]', text))

['My neighbor, Mr. Rogers, has ', ' dogs.']


Veamos también cómo podemos utilizar el método sub para sustituir la cantidad de perros que tiene nuestro vecino.

In [None]:
print(re.sub('[0-9]', '100', text))

My neighbor, Mr. Rogers, has 100 dogs.
