Un lugar donde el lenguaje Python realmente brilla es en la manipulación de cadenas.

Esta sección cubrirá algunos de los métodos de cadena incorporados de Python y las operaciones de formato, antes de pasar a una guía rápida sobre el tema extremadamente útil de las expresiones regulares . 

Tales patrones de manipulación de cadenas surgen a menudo en el contexto del trabajo de ciencia de datos y es una gran ventaja de Python en este contexto.

Las cadenas en Python se pueden definir usando comillas simples o dobles (son funcionalmente equivalentes):

In [2]:
x = 'a string'
y = "a string"
x == y

True

Además, es posible definir cadenas de varias líneas utilizando una sintaxis de comillas triples:

In [4]:
multiline = """
one
two
three
"""


Con esto, hagamos un recorrido rápido por algunas de las herramientas de manipulación de cadenas de Python.

#### Manipulación simple de cadenas en Python 
Para la manipulación básica de cadenas, los métodos de cadena incorporados de Python pueden ser extremadamente convenientes. Si tiene experiencia trabajando en C u otro lenguaje de bajo nivel, probablemente encontrará la simplicidad de los métodos de Python extremadamente refrescante. Introdujimos el tipo de cadena de Python y algunos de estos métodos anteriormente; aquí nos sumergiremos un poco más profundo

#### Formateo de cadenas: ajuste de mayúsculas y minúsculas 
Python hace que sea bastante fácil ajustar el caso de una cadena. Aquí vamos a ver en los upper(), lower(), capitalize(), title(), y swapcase()métodos, utilizando la siguiente secuencia desordenada como un ejemplo:

In [20]:
desc  = "juan es buena gente"

In [21]:
desc.upper()

'JUAN ES BUENA GENTE'

In [22]:
desc.lower()

'juan es buena gente'

In [23]:
desc.capitalize()

'Juan es buena gente'

In [24]:
desc.title()

'Juan Es Buena Gente'

Los casos se pueden intercambiar utilizando el método swapcase():

In [25]:
desc.swapcase()

'JUAN ES BUENA GENTE'

#### Formatear cadenas: agregar y eliminar espacios 
Otra necesidad común es eliminar espacios (u otros caracteres) al principio o al final de la cadena. El método básico para eliminar caracteres es el método strip(), que elimina los espacios en blanco del principio y el final de la línea:

In [33]:
linea=' el tio del marido de pampita   '
linea

' el tio del marido de pampita   '

In [35]:
linea.strip()

#Para eliminar solo el espacio a la derecha o izquierda, use rstrip()o lstrip() respectivamente:

'el tio del marido de pampita'

Para eliminar caracteres que no sean espacios, puede pasar el carácter deseado al método strip():

In [37]:
ej='pajero'
ej

'pajero'

In [49]:
ej.strip('p')

'ajero'

Lo contrario de esta operación, la adición de espacios u otros caracteres, se puede lograr utilizando los métodos center(), ljust()y rjust().

Por ejemplo, podemos usar el método center() para centrar una cadena dada dentro de un número determinado de espacios:

In [50]:
line = "this is the content"
line.center(30)

'     this is the content      '

De manera similar, ljust()y rjust() justificará a la izquierda o a la derecha la cadena dentro de los espacios de una longitud determinada:

In [51]:
line.ljust(30)

'this is the content           '

Todos estos métodos aceptan adicionalmente cualquier carácter que se utilizará para llenar el espacio. Por ejemplo:

In [59]:
'435'.rjust(4, '0')

'0435'

**Debido a que el llenado de ceros es una necesidad tan común, Python también proporciona zfill(), que es un método especial para rellenar una cadena con ceros a la derecha:**

In [61]:
'435'.zfill(10)

'0000000435'

#### Encontrar y reemplazar subcadenas 
Si desea encontrar apariciones de un determinado carácter en una cadena, los métodos find()/ rfind(), index()/ rindex()y replace() son los mejores métodos integrados.

find() y index() son muy similares, ya que buscan la primera aparición de un carácter o subcadena dentro de una cadena y devuelven el índice de la subcadena:

In [69]:
line = 'el 50% de los argentinos son pobres'
line.find('%')

5

In [70]:
line.index('%')

5

La única diferencia entre find() y index() es su comportamiento cuando no se encuentra la cadena de búsqueda; find() devuelve -1, mientras que index() genera un ValueError:

In [73]:
line.find('w')

-1

In [74]:
line.index('w')

ValueError: substring not found

Los relacionados rfind() y rindex() funcionan de manera similar, excepto que buscan la primera aparición desde el final en lugar del comienzo de la cadena:

In [79]:
line.rfind('e')

33

Para el caso especial de buscar una subcadena al principio o al final de una cadena, Python proporciona los métodos startswith()y endswith():

In [83]:
line.startswith('el')

True

In [89]:
line.endswith('pobres')

True

Para ir un paso más allá y reemplazar una subcadena dada con una nueva cadena, puede usar el método replace(). Aquí, reemplacemos 'brown'con 'red':

In [91]:
line.replace('argentinos','venezolanos')

'el 50% de los venezolanos son pobres'

La función replace() devuelve una nueva cadena y reemplazará todas las apariciones de la entrada:

In [94]:
line.replace('o', '--')

'el 50% de l--s argentin--s s--n p--bres'

Para obtener un enfoque más flexible de esta replace()funcionalidad, consulte la discusión sobre expresiones regulares en Coincidencia de patrones flexibles con expresiones regulares .

#### Dividir y particionar cadenas 
Si desea encontrar una subcadena y luego dividir la cadena según su ubicación, los métodos partition() y / o split() son lo que está buscando. Ambos devolverán una secuencia de subcadenas.


El método partition() devuelve una tupla con tres elementos: la subcadena antes de la primera instancia del punto de división, el punto de división en sí y la subcadena después:

In [96]:
line.partition('argentinos')

('el 50% de los ', 'argentinos', ' son pobres')

El método split() es quizás más útil; encuentra todas las instancias del punto de división y devuelve las subcadenas intermedias.
El valor predeterminado es dividir en cualquier espacio en blanco, devolviendo una lista de las palabras individuales en una cadena:

In [103]:
line.split()

['el', '50%', 'de', 'los', 'argentinos', 'son', 'pobres']

In [104]:
#si quiero acceder al ultimo elemento de la lista despues de aplicar spplit
line.split()[-1]

'pobres'

In [97]:
line.split('argentinos')

['el 50% de los ', ' son pobres']

Un método relacionado es el splitlines() que se divide en caracteres de nueva línea. Hagamos esto con un Haiku, atribuido popularmente al poeta del siglo XVII Matsuo Bashō:

In [107]:
haiku = """matsushima-ya
aah matsushima-ya
matsushima-ya"""

haiku.splitlines()

['matsushima-ya', 'aah matsushima-ya', 'matsushima-ya']

Tenga en cuenta que si desea deshacer un split(), puede usar el método join(), que devuelve una cadena construida a partir de un punto de división y un iterable:

In [108]:
'--'.join(['1', '2', '3'])

'1--2--3'

In [112]:
'&'.join(('1','2','5'))

'1&2&5'

Un patrón común es usar el carácter especial "\n"(nueva línea) para unir líneas que se han dividido previamente y recuperar la entrada:

In [116]:
print("\n".join(['matsushima-ya', 'aah matsushima-ya', 'matsushima-ya']))


matsushima-ya
aah matsushima-ya
matsushima-ya


### Formatear cadenas 
En los métodos anteriores, hemos aprendido a extraer valores de cadenas y a manipular las propias cadenas en los formatos deseados. Otro uso de los métodos de cadena es manipular representaciones de cadena de valores de otros tipos. Por supuesto, las representaciones de cadenas siempre se pueden encontrar usando la función str()función; por ejemplo:

In [118]:
pi=3.14159
str(pi)

'3.14159'

Para formatos más complicados, puede tener la tentación de usar aritmética de cadenas como se describe en Semántica básica de Python: Operadores :

In [120]:
"The value of pi is " + str(pi)

'The value of pi is 3.14159'

**Una forma más flexible de hacer esto es usar cadenas de formato , que son cadenas con marcadores especiales (señalados por llaves) en los que se insertarán valores con formato de cadena.**

A continuación, se muestra un ejemplo básico:

In [123]:
print('The value of pi is {}'.format(pi))

The value of pi is 3.14159


Dentro del marcador {} también puede incluir información sobre exactamente lo que le gustaría que aparezca allí. Si incluye un número, se referirá al índice del argumento a insertar:

In [125]:
"""First letter: {0}. Last letter: {1}.""".format('A', 'Z')

'First letter: A. Last letter: Z.'

Si incluye una cadena, se referirá a la clave de cualquier argumento de palabra clave:

In [127]:
"""First letter: {first}. Last letter: {last}.""".format(last='Z', first='A')

'First letter: A. Last letter: Z.'

Finalmente, para las entradas numéricas, puede incluir códigos de formato que controlan cómo se convierte el valor en una cadena. Por ejemplo, para imprimir un número como un punto flotante con tres dígitos después del punto decimal, puede usar lo siguiente:

In [131]:
"pi = {0:.3f}".format(pi)

'pi = 3.142'

Como antes, aquí el " 0" se refiere al índice del valor que se va a insertar. Las " :" marcas que seguirán los códigos de formato. El " .3f" codifica la precisión deseada: tres dígitos más allá del punto decimal, formato de punto flotante.

Este estilo de especificación de formato es muy flexible, y los ejemplos aquí apenas raspan la superficie de las opciones de formato disponibles. Para obtener más información sobre la sintaxis de estas cadenas de formato, consulte la sección Especificación de formato de la documentación en línea de Python.

## Coincidencia de patrones flexibles con expresiones regulares

Los métodos del tipo str de Python le brindan un poderoso conjunto de herramientas para formatear, dividir y manipular datos de cadena. 

Pero hay herramientas aún más poderosas disponibles en el módulo de expresión regular incorporado de Python . Las expresiones regulares son un tema enorme; Hay libros completos escritos sobre el tema (incluido Mastering Regular Expressions, de Jeffrey EF Friedl , tercera edición ), por lo que será difícil hacer justicia en una sola subsección.

Mi objetivo aquí es darte una idea de los tipos de problemas que podrían abordarse usando expresiones regulares, así como una idea básica de cómo usarlos en Python. Sugeriré algunas referencias para aprender más en Recursos adicionales sobre expresiones regulares .

Básicamente, las expresiones regulares son un medio de coincidencia de patrones flexible en cadenas. Si utiliza con frecuencia la línea de comandos, probablemente esté familiarizado con este tipo de coincidencia flexible con el carácter " * ", que actúa como comodín. Por ejemplo, podemos listar todos los cuadernos de IPython (es decir, archivos con extensión .ipynb ) con "Python" en su nombre de archivo usando el * comodín para hacer coincidir cualquier carácter entre:

In [136]:
!ls *Python*.ipynb

'ls' is not recognized as an internal or external command,
operable program or batch file.


Las expresiones regulares generalizan esta idea de "comodín" a una amplia gama de sintaxis flexibles de coincidencia de cadenas. 
La interfaz de Python para expresiones regulares está contenida en el remódulo incorporado ; como un ejemplo simple, usémoslo para duplicar la funcionalidad del split()método de cadena :

In [137]:
import re
regex = re.compile('\s+')
regex.split(line)

['el', '50%', 'de', 'los', 'argentinos', 'son', 'pobres']

Aquí primero compilamos una expresión regular y luego la usamos para dividir una cadena. Así como el método split() de Python devuelve una lista de todas las subcadenas entre espacios en blanco, el método split() de expresión regular devuelve una lista de todas las subcadenas entre coincidencias con el patrón de entrada.

En este caso, la entrada es "\s+": " \s" es un carácter especial que coincide con cualquier espacio en blanco (espacio, tabulación, nueva línea, etc.), y " +" es un carácter que indica una o más de las entidades que lo preceden. Por tanto, la expresión regular coincide con cualquier subcadena que consta de uno o más espacios.

El método split() aquí es básicamente una rutina de conveniencia construida sobre este comportamiento de coincidencia de patrones ; más fundamental es el método match(), que le dirá si el comienzo de una cadena coincide con el patrón:

In [141]:
for s in ["     ", "abc  ", "  abc"]:
    if regex.match(s):
        print(repr(s), "matches")
    else:
        print(repr(s), "does not match")

'     ' matches
'abc  ' does not match
'  abc' matches


Me gusta split(), existen rutinas de conveniencia similares para encontrar la primera coincidencia (me gusta str.index()o str.find()) o para buscar y reemplazar (me gusta str.replace()). Usaremos nuevamente la línea de antes:

In [142]:
line = 'el 50% de los argentinos son pobres'

Con esto, podemos ver que el método regex.search() método funciona de manera muy similar a str.index()o str.find():

In [143]:
line.index('pobres')

29

In [144]:
regex = re.compile('pobres')
match = regex.search(line)
match.start()

29

De manera similar, el método regex.sub() funciona de manera muy similar a str.replace():

In [149]:
line.replace('argentinos', 'venezolanos')

'el 50% de los venezolanos son pobres'

In [150]:
regex.sub('argentinos',line)

'el 50% de los argentinos son argentinos'

Con un poco de pensamiento, otras operaciones de cadenas nativas también se pueden convertir como expresiones regulares.

#### Un ejemplo más sofisticado 
Pero, podría preguntarse, ¿por qué querría usar la sintaxis más complicada y detallada de las expresiones regulares en lugar de los métodos de cadena más intuitivos y simples? La ventaja es que las expresiones regulares ofrecen mucha más flexibilidad.

Aquí consideraremos un ejemplo más complicado: la tarea común de hacer coincidir direcciones de correo electrónico. Comenzaré simplemente escribiendo una expresión regular (algo indescifrable) y luego repasaré lo que está sucediendo. Aquí va:

In [154]:
email = re.compile('\w+@\w+\.[a-z]{3}')

In [None]:
Con esto, si nos dan una línea de un documento, podemos extraer rápidamente cosas que parecen direcciones de correo electrónico.

In [155]:
text = "To email Guido, try guido@python.org or the older address guido@google.com."
email.findall(text)

['guido@python.org', 'guido@google.com']

(Tenga en cuenta que estas direcciones están completamente inventadas; probablemente haya mejores formas de ponerse en contacto con Guido).

Podemos hacer más operaciones, como reemplazar estas direcciones de correo electrónico con otra cadena, quizás para ocultar direcciones en la salida:

In [157]:
email.sub('--@--.--', text)

'To email Guido, try --@--.-- or the older address --@--.--.'

Por último, tenga en cuenta que si realmente desea hacer coincidir cualquier dirección de correo electrónico, la expresión regular anterior es demasiado simple. Por ejemplo, solo permite direcciones compuestas por caracteres alfanuméricos que terminan en uno de varios sufijos de dominio comunes. Entonces, por ejemplo, el período usado aquí significa que solo encontramos parte de la dirección:

In [159]:
email.findall('barack.obama@whitehouse.gov')

['obama@whitehouse.gov']

¡Esto demuestra lo implacables que pueden ser las expresiones regulares si no tienes cuidado! Si busca en línea, puede encontrar algunas sugerencias de expresiones regulares que coincidirán con todos los correos electrónicos válidos, pero tenga cuidado: ¡son mucho más complicadas que la expresión simple que se usa aquí!

#### Conceptos básicos de la sintaxis de expresiones regulares 

La sintaxis de las expresiones regulares es un tema demasiado extenso para esta breve sección. Aún así, un poco de familiaridad puede ser de gran ayuda: analizaré algunas de las construcciones básicas aquí y luego enumeraré algunos recursos más completos de los que puede aprender más. Espero que el siguiente manual rápido le permita utilizar estos recursos de forma eficaz.

#### Las cadenas simples se combinan directamente 
Si crea una expresión regular en una cadena simple de caracteres o dígitos, coincidirá con esa cadena exacta:

In [166]:
regex = re.compile('ion')
regex.findall('Great Expectations')

['ion']

#### Algunos caracteres tienen significados especiales 
Si bien las letras o los números simples son coincidencias directas, hay un puñado de caracteres que tienen significados especiales dentro de las expresiones regulares. Son:

'  . ^ $ * + ? { } [ ] \ | ( )
   '

Discutiremos el significado de algunos de estos momentáneamente. Mientras tanto, debe saber que si desea hacer coincidir alguno de estos caracteres directamente, puede escapar de ellos con una barra invertida:

In [171]:
regex = re.compile(r'\$')
regex.findall("the cost is $20")

['$']

El prefacio en r'\$'indica una cadena sin procesar ; en cadenas estándar de Python, la barra invertida se usa para indicar caracteres especiales. Por ejemplo, una pestaña se indica mediante "\t"

In [173]:
print('a\tb\tc')

a	b	c


In [None]:
Tales sustituciones no se realizan en una cadena sin formato:

In [174]:
print(r'a\tb\tc')

a\tb\tc


**Por esta razón, siempre que use barras invertidas en una expresión regular, es una buena práctica usar una cadena sin formato.**

#### Los caracteres especiales pueden coincidir con grupos de caracteres 
Así como el "\"carácter dentro de las expresiones regulares puede escapar de los caracteres especiales, convirtiéndolos en caracteres normales, también se puede usar para dar un significado especial a los caracteres normales. Estos caracteres especiales coinciden con grupos específicos de caracteres, y los hemos visto antes.

En la expresión regular de la dirección de correo electrónico de antes, usamos el carácter "\w", que es un marcador especial que coincide con cualquier carácter alfanumérico . De manera similar, en el ejemplo split() , también vimos "\s"un marcador especial que indica cualquier carácter de espacio en blanco .

Al juntarlos, podemos crear una expresión regular que coincidirá con dos letras / dígitos con espacios en blanco entre ellos :

In [185]:
regex = re.compile(r'\w\s\w')
regex.findall('the fox is 9 years old')

['e f', 'x i', 's 9', 's o']

Este ejemplo comienza a insinuar el poder y la flexibilidad de las expresiones regulares.

![Caracteres%20Regex.PNG](attachment:Caracteres%20Regex.PNG)

#### Los corchetes coinciden con grupos de caracteres personalizados 
Si los grupos de caracteres integrados no son lo suficientemente específicos para usted, puede usar corchetes para especificar cualquier conjunto de caracteres que le interese. Por ejemplo, lo siguiente coincidirá con cualquier vocal en minúscula:

In [187]:
regex = re.compile('[aeiou]')
regex.split('consequential')

['c', 'ns', 'q', '', 'nt', '', 'l']

Del mismo modo, se puede utilizar un guión para especificar un rango: por ejemplo, "[a-z]"coincidirá con cualquier letra minúscula, y "[1-3]"coincidirá con cualquiera de "1", "2"o "3". 

Por ejemplo, es posible que deba extraer de un documento códigos numéricos específicos que consisten en una letra mayúscula seguida de un dígito. Puede hacer esto de la siguiente manera:

In [189]:
regex = re.compile('[A-Z][0-9]')
regex.findall('1043879, G2, H6')

['G2', 'H6']

Los comodines coinciden con caracteres repetidos 
Si desea hacer coincidir una cadena con, digamos, tres caracteres alfanuméricos seguidos, es posible escribir, por ejemplo "\w\w\w",. Debido a que esta es una necesidad tan común, existe una sintaxis específica para hacer coincidir las repeticiones: llaves con un número:

In [192]:
regex = re.compile(r'\w{3}')
regex.findall('The quick brown fox')

['The', 'qui', 'bro', 'fox']

También hay marcadores disponibles para coincidir con cualquier número de repeticiones; por ejemplo, el caracter "+" coincidirá con una o más repeticiones de lo que le precede:

In [196]:
regex = re.compile(r'\w+')
regex.findall('The quick brown fox')

['The', 'quick', 'brown', 'fox']

La siguiente es una tabla de los marcadores de repetición disponibles para usar en expresiones regulares:

![regex%20expresions-2.PNG](attachment:regex%20expresions-2.PNG)

Con estos conceptos básicos en mente, volvamos a nuestro comparador de direcciones de correo electrónico:

In [201]:
email = re.compile(r'\w+@\w+\.[a-z]{3}')

Ahora podemos entender lo que esto significa: queremos uno o más caracteres alfanuméricos ( "\w+") seguidos del signo arroba ( "@"), seguidos de uno o más caracteres alfanuméricos ( "\w+"), seguidos de un punto ( "\."- tenga en cuenta la necesidad de un escape de barra invertida), seguido de exactamente tres letras minúsculas.

Si queremos modificar esto ahora para que coincida con la dirección de correo electrónico de Obama, podemos hacerlo usando la notación de corchetes:

In [202]:
email2 = re.compile(r'[\w.]+@\w+\.[a-z]{3}')
email2.findall('barack.obama@whitehouse.gov')

['barack.obama@whitehouse.gov']

Hemos cambiado "\w+"a "[\w.]+", por lo que coincidiremos con cualquier carácter alfanumérico o un punto. Con esta expresión más flexible, podemos hacer coincidir una gama más amplia de direcciones de correo electrónico (aunque todavía no todas, ¿puede identificar otras deficiencias de esta expresión?).

#### Los paréntesis indican grupos para extraer 
Para expresiones regulares compuestas como nuestro comparador de correo electrónico, a menudo queremos extraer sus componentes en lugar de la coincidencia completa. Esto se puede hacer usando paréntesis para agrupar los resultados:

In [206]:
email3 = re.compile(r'([\w.]+)@(\w+)\.([a-z]{3})')

In [207]:
text = "To email Guido, try guido@python.org or the older address guido@google.com."
email3.findall(text)

[('guido', 'python', 'org'), ('guido', 'google', 'com')]

Como vemos, esta agrupación en realidad extrae una lista de los subcomponentes de la dirección de correo electrónico.

Podemos ir un poco más allá y nombrar los componentes extraídos usando la sintaxis (?P <names>),  en cuyo caso los grupos se pueden extraer como un diccionario de Python:

In [208]:
email4 = re.compile(r'(?P<user>[\w.]+)@(?P<domain>\w+)\.(?P<suffix>[a-z]{3})')
match = email4.match('guido@python.org')
match.groupdict()

{'user': 'guido', 'domain': 'python', 'suffix': 'org'}

La combinación de estas ideas (así como algunas de las poderosas sintaxis de expresiones regulares que no hemos cubierto aquí) le permite extraer información de forma flexible y rápida de cadenas en Python.

#### Recursos adicionales sobre expresiones regulares 
La discusión anterior es solo un tratamiento rápido (y lejos de ser completo) de este gran tema. Si desea obtener más información, le recomiendo los siguientes recursos:
    
   **Python's re package Documentation**: Encuentro que rápidamente olvido cómo usar expresiones regulares cada vez que las uso. Ahora que tengo los conceptos básicos, he descubierto que esta página es un recurso increíblemente valioso para recordar lo que significa cada carácter o secuencia específicos dentro de una expresión regular.
    
**Python's official regular expression HOWTO** : un enfoque más narrativo de las expresiones regulares en Python. https://docs.python.org/3/howto/regex.html

**Dominar las expresiones regulares (OReilly, 2006)**: es un libro de más de 500 páginas sobre el tema. Si quieres un tratamiento realmente completo de este tema, este es el recurso para ti.

Para ver algunos ejemplos de manipulación de cadenas y expresiones regulares en acción a mayor escala, consulte Pandas: datos orientados a columnas etiquetadas , donde analizamos la aplicación de este tipo de expresiones en tablas de datos de cadenas dentro del paquete Pandas. https://jakevdp.github.io/WhirlwindTourOfPython/15-preview-of-data-science-tools.html#Pandas:-Labeled-Column-oriented-Data