# Cadenas de texto

Además de números, Python puede manipular cadenas de texto, las cuales pueden ser expresadas de
distintas formas. Pueden estar encerradas en comillas simples o dobles:

In [1]:
print('Texto con comillas simples')
print('doesn\'t')
print("doesn't")
print('"Si," el dijo.')
print("\"Si,\" el dijo.")
print('"Isn\'t," she said.')
print('"Isn\'t," she said.')

Texto con comillas simples
doesn't
doesn't
"Si," el dijo.
"Si," el dijo.
"Isn't," she said.
"Isn't," she said.


Las cadenas de texto literales pueden contener múltiples líneas de distintas formas. Las líneas continuas
se pueden usar, con una barra invertida como el último carácter de la línea para indicar que la siguiente
línea es la continuación lógica de la línea:

In [4]:
hola = "Esta es una larga cadena que contiene\n\
varias líneas de texto, tal y como se hace en C.\n\
 Notar que los espacios en blanco al principio de la linea\
 son significantes."
print (hola)

Esta es una larga cadena que contiene
varias líneas de texto, tal y como se hace en C.
 Notar que los espacios en blanco al principio de la linea son significantes.


Notá que de todas formas se necesita embeber los salto de líneas con \n; la nueva línea que sigue a la
barra invertida final es descartada.

Las cadenas de texto pueden ser concatenadas (pegadas juntas) con el operador + y repetidas con *:

In [7]:
palabra = 'Ayuda' + 'A'
print(palabra)

AyudaA


In [8]:
'<' + palabra*5 + '>'

'<AyudaAAyudaAAyudaAAyudaAAyudaA>'

Dos cadenas de texto juntas son automáticamente concatenadas; la primer línea del ejemplo anterior
podría haber sido escrita palabra = 'Ayuda' 'A'; esto solo funciona con dos literales, no con
expresiones arbitrarias:

In [12]:
print ('cad' 'ena') # <- Esto es correcto
print ('cad'.strip() + 'ena') # <- Esto es correcto

cadena
cadena


In [14]:
print ('cad'.strip() 'ena') # <- Esto no es correcto

SyntaxError: invalid syntax (<ipython-input-14-6655c72091cb>, line 1)

Las cadenas de texto se pueden indexar; como en C, el primer carácter de la cadena tiene el índice 0. No
hay un tipo de dato para los caracteres; un carácter es simplemente una cadena de longitud uno. Como en
Icon, se pueden especificar subcadenas con la notación de rebanadas: dos índices separados por dos
puntos.

In [16]:
print(palabra[4])
print(palabra[0:2])
print(palabra[2:4])

a
Ay
ud


Los índices de las rebanadas tienen valores por defecto útiles; el valor por defecto para el primer índice es
cero, el valor por defecto para el segundo índice es la longitud de la cadena a rebanar

In [17]:
print(palabra[:2]) # Los primeros dos caracteres
print(palabra[2:]) # Todo menos los primeros dos caracteres

Ay
udaA


A diferencia de las cadenas de texto en C, en Python no pueden ser modificadas. Intentar asignar a una
posición de la cadena es un error:

In [18]:
palabra[0] = 'x'

TypeError: 'str' object does not support item assignment

In [20]:
palabra[:1] = 'Mas'

TypeError: 'str' object does not support item assignment

Sin embargo, crear una nueva cadena con contenido combinado es fácil y eficiente:

In [21]:
print('x' + palabra[1:])
print('Mas' + palabra[5])

xyudaA
MasA


Algo útil de las operaciones de rebanada: s[:i] + s[i:] es s.

In [22]:
print(palabra[:2] + palabra[2:])
print(palabra[:3] + palabra[3:])

AyudaA
AyudaA


Los índices degenerados en las rebanadas son manejados bien: un índice muy largo es reemplazado por
la longitud de la cadena, un límite superior más chico que el límite menor retorna una cadena vacía

In [25]:
print(palabra[1:100])
print(palabra[10:])
print(palabra[2:1])

yudaA




Los índices pueden ser números negativos, para empezar a contar desde la derecha. Por ejemplo:

In [26]:
print(palabra[-1]) # El último caracter

print(palabra[-2]) # El penúltimo caracter

print(palabra[-2:]) # Los últimos dos caracteres

print(palabra[:-2]) # Todo menos los últimos dos caracteres


A
a
aA
Ayud


Pero notá que -0 es en realidad lo mismo que 0, por lo que no cuenta desde la derecha

In [28]:
print(palabra[-0]) # (ya que -0 es igual a 0)

A


Los índices negativos fuera de rango son truncados, pero esto no funciona para índices de un solo
elemento (no rebanada):

In [30]:
print(palabra[-100:])

AyudaA


In [31]:
print(palabra[-10]) # Error

IndexError: string index out of range

Una forma de recordar cómo funcionan las rebanadas es pensar en los índices como puntos entre
caracteres, con el punto a la izquierda del primer carácter numerado en 0. Luego, el punto a la derecha del
último carácter de una cadena de n caracteres tienen índice n, por ejemplo:

In [None]:
 +---+---+---+---+---+---+
 | A | y | u | d | a | A |
 +---+---+---+---+---+---+
 0 1 2 3 4 5 6
-6 -5 -4 -3 -2 -1

La primer fila de números da la posición de los índices 0...6 en la cadena; la segunda fila da los
correspondientes índices negativos. La rebanada de i a j consiste en todos los caracteres entre los puntos
21
etiquetados i y j, respectivamente.
Para índices no negativos, la longitud de la rebanada es la diferencia de los índices, si ambos entran en
los límites. Por ejemplo, la longitud de palabra[1:3] es 2.
La función incorporada len() devuelve la longitud de una cadena de texto:

In [32]:
s = 'supercalifrastilisticoespialidoso'
len(s)

33