# Manipulación de strings

**Autor:** Roberto Muñoz <br />
**E-mail:** <rmunoz@metricarts.com> <br />
**Github:** <https://github.com/rpmunoz> <br />


## 1. Creación de strings

Python soporta de manera nativa las cadenas de caractéres o strings. Pueden estar encerradas en comillas simples (`'...'`) o dobles (`"..."`) con el mismo resultado. `\` puede ser usado para escapar comillas:



In [1]:
'huevos y pan'  # comillas simples

'huevos y pan'

In [2]:
'doesn\'t'  # usa \' para escapar comillas simples...

"doesn't"

In [3]:
"doesn't"  # o podemos usar comillas dobles

"doesn't"

In [4]:
'"Si," le dijo.'

'"Si," le dijo.'

In [5]:
"\"Si,\" le dijo."

'"Si," le dijo.'

In [6]:
'"Isn\'t," she said.'

'"Isn\'t," she said.'

En el intéprete interactivo, la salida de cadenas está encerrada en comillas y los caracteres especiales son escapados con barras invertidas. Aunque esto a veces luzca diferente de la entrada (las comillas que encierran pueden cambiar), las dos cadenas son equivalentes. La cadena se encierra en comillas dobles si la cadena contiene una comilla simple y ninguna doble, de lo contrario es encerrada en comillas simples.

La función `print()` produce una salida más legible, omitiendo las comillas que la encierran e imprimiendo caracteres especiales y escapados:

In [8]:
'"Isn\'t," she said.'

'"Isn\'t," she said.'

In [9]:
print('"Isn\'t," she said.')

"Isn't," she said.


In [14]:
s = 'Primera línea.\nSegunda línea.'
s  # sin print(), \n es incluído en la salida

'Primera línea.\nSegunda línea.'

In [15]:
print(s)  # con print(), \n produce una nueva línea

Primera línea.
Segunda línea.


Si no quieres que los caracteres antepuestos por \ sean interpretados como caracteres especiales, puedes usar cadenas crudas agregando una r antes de la primera comilla

In [17]:
print('C:\algun\nombre')  # aquí \n significa nueva línea!

C:lgun
ombre


In [18]:
print(r'C:\algun\nombre')  # nota la r antes de la comilla

C:\algun\nombre


Las cadenas de texto literales pueden contener múltiples líneas. Una forma es usar triple comillas: `"""..."""` o `'''...'''`. Los fin de línea son incluídos automáticamente, pero es posible prevenir esto agregando una \ al final de la línea. Por ejemplo:

In [19]:
print("""\
Uso: algo [OPTIONS]
     -h                        Muestra el mensaje de uso
     -H nombrehost             Nombre del host al cual conectarse
""")

Uso: algo [OPTIONS]
     -h                        Muestra el mensaje de uso
     -H nombrehost             Nombre del host al cual conectarse



## 2. Operaciones con strings

Las cadenas de texto pueden ser concatenadas (pegadas juntas) con el operador + y repetidas con *

In [20]:
# 3 veces 'un', seguido de 'ium'
3 * 'un' + 'ium'

'unununium'

Dos o más cadenas literales (aquellas encerradas entre comillas) una al lado de la otra son automáticamente concatenadas,

In [21]:
'Py' 'thon'

'Python'

Esto solo funciona con dos literales, no con variables ni expresiones

In [29]:
prefix = 'Py'

In [30]:
prefix 'thon'  # no se puede concatenar una variable y una cadena literal

SyntaxError: invalid syntax (<ipython-input-30-f5be6b5763c5>, line 1)

In [26]:
('un' * 3) 'ium'

SyntaxError: invalid syntax (<ipython-input-26-f4764cbe42a8>, line 1)

En caso de querer concatenar variables o una variable con un literal, se debe usar `+`

In [31]:
prefix + 'thon'

'Python'

Esta característica es particularmente útil cuando quieres separar cadenadas largas

In [33]:
texto = ('Pon muchas cadenas dentro de paréntesis '
        'para que ellas sean concatendas.')

texto

'Pon muchas cadenas dentro de paréntesis para que ellas sean concatendas.'

## 3. Uso de índices y slices

Las cadenas de texto se pueden indexar (subíndices), el primer carácter de la cadena tiene el índice 0. No hay un tipo de dato para los caracteres; un carácter es simplemente una cadena de longitud uno.

In [34]:
palabra = 'Python'

In [35]:
palabra[0]  # caracter en la posición 0

'P'

In [36]:
palabra[5]  # caracter en la posición 5

'n'

Los índices pueden ser números negativos, para empezar a contar desde la derecha

In [37]:
palabra[-1]  # último caracter

'n'

In [38]:
palabra[-2]  # ante último caracter

'o'

Además de los índices, los slices también están soportados. Mientras que los índices son usados para obtener caracteres individuales, los slices te permiten obtener sub-cadenas.

In [39]:
palabra[0:2]  # caracteres desde la posición 0 (incluída) hasta la 2 (excluída)

'Py'

In [40]:
palabra[2:5]  # caracteres desde la posición 2 (incluída) hasta la 5 (excluída)

'tho'

Nota como el primero es siempre incluído, y que el último es siempre excluído. Esto asegura que s[:i] + s[i:] siempre sea igual a s:

In [41]:
palabra[:2] + palabra[2:]

'Python'

In [42]:
palabra[:4] + palabra[4:]

'Python'

Los índices de los slices tienen valores por defecto útiles; el valor por defecto para el primer índice es cero, el valor por defecto para el segundo índice es la longitud de la cadena a rebanar.

In [43]:
palabra[:2]  # caracteres desde el principio hasta la posición 2 (excluída)

'Py'

In [44]:
palabra[4:]  # caracterrs desde la posición 4 (incluída) hasta el final

'on'

In [45]:
palabra[-2:] # caracteres desde la ante-última (incluída) hasta el final

'on'

Intentar usar un índice que es muy grande resultará en un error

In [46]:
palabra[42]  # la palabra solo tiene 6 caracteres

IndexError: string index out of range

Sin embargo, índices fuera de rango en slices son manejados satisfactoriamente

In [48]:
palabra[4:42]

'on'

In [49]:
palabra[42:]

''

Las cadenas de Python no pueden ser modificadas – son immutables. Por eso, asignar a una posición indexada de la cadena resulta en un error:

In [50]:
palabra[0] = 'J'

TypeError: 'str' object does not support item assignment

In [51]:
palabra[2:] = 'py'

TypeError: 'str' object does not support item assignment

En caso de necesitar de una cadena diferente, deberás crear una nueva

In [52]:
'J' + palabra[1:]

'Jython'

In [53]:
palabra[:2] + 'py'

'Pypy'

La función incorporada len() devuelve la longitud de una cadena de texto:

In [54]:
s = 'supercalifrastilisticoespialidoso'
len(s)

33

## 4. Métodos de clase String

La clase string implementa la mayoría de las secuencias de operacion comúnes y múltiples métodos. Destacan los siguientes métodos,

- `S.count(sub[, start[, end]])`:
Devuelve el número de veces que se encuentra sub en la cadena. Los parámetros opcionales start y end definen una subcadena en la que buscar.

- `S.find(sub[, start[, end]])`: Devuelve la posición en la que se encontró por primera vez sub en la cadena o -1 si no se encontró.

- `S.join(sequence)`: Devuelve una cadena resultante de concatenar las cadenas de la secuencia seq separadas por la cadena sobre la que se llama el método.

- `S.partition(sep)`: Busca el separador sep en la cadena y devuelve una tupla con la subcadena hasta dicho separador, el separador en si, y la subcadena del separador hasta el final de la cadena. Si no se encuentra el separador, la tupla contendrá la cadena en si y dos cadenas vacías.

- `S.replace(old, new[, count])`: Devuelve una cadena en la que se han reemplazado todas las ocurrencias de la cadena old por la cadena new. Si se especifica el parámetro count, este indica el número máximo de ocurrencias a reemplazar.

- `S.split([sep [,maxsplit]])`: Devuelve una lista conteniendo las subcadenas en las que se divide nuestra cadena al dividirlas por el delimitador sep. En el caso de que no se especifique sep, se usan espacios. Si se especifica maxsplit, este indica el número máximo de particiones a realizar.
