## Cadenas en Python

Los *literales* de las cadenas en Python pueden ser de varios tipos:

In [3]:
a = "cadena con comillas dobles"
b = 'cadena con comilla simple'
c = '''puedes utilizar tres comillas simples o dobles
y tiene como característica que puede ocupar varias líneas'''
d = """lo dicho, también con comillas dobles
y ocupar varias líneas
hola
hola"""

print(a)
print()
print(b)
print()
print(c)
print()
print(d)

cadena con comillas dobles

cadena con comilla simple

puedes utilizar tres comillas simples o dobles
y tiene como característica que puede ocupar varias líneas

lo dicho, también con comillas dobles
y ocupar varias líneas
hola
hola


Observa lo que ocurre cuando imprimes el resultado de pasar esas cadenas por la función `repr` (que veremos más abajo):

In [4]:
print(repr(a))
print()
print(repr(b))
print()
print(repr(c))
print()
print(repr(d))

'cadena con comillas dobles'

'cadena con comilla simple'

'puedes utilizar tres comillas simples o dobles\ny tiene como característica que puede ocupar varias líneas'

'lo dicho, también con comillas dobles\ny ocupar varias líneas\nhola\nhola'


Uno de los motivos para que se permita el uso de comillas simples y dobles es que podemos usar de un tipo como carácter cuando las otras sirven para delimitar:

In [8]:
a = "hola puedo usar 'comillas simples' dentro de la cadena"
b = 'hola puedo usar "comillas dobles" dentro de la cadena'

print(a)
print()
print(b)

hola puedo usar 'comillas simples' dentro de la cadena

hola puedo usar "comillas dobles" dentro de la cadena
"hola puedo usar 'comillas simples' dentro de la cadena"
'hola puedo usar "comillas dobles" dentro de la cadena'


Como en la mayoría de lenguajes de programación, cuando creas una cadena de texto literalmente puedes **escapar** algunos caracteres utilizando la contrabarra ¿qué significa esto? Veamos:

In [9]:
print("hola\tmundo")

hola	mundo


In [10]:
print("hola \"mundo\"")

hola "mundo"


In [15]:
print("La propia contrabarra debe ser escapada doblándola así \"\\\"")

La propia contrabarra debe ser escapada doblándola así "\"


In [11]:
print("hola\n\n\"mundo\"")

hola

"mundo"


### Cadenas `raw`

Pero observa que si ponemos una `r` antes de las comillas se crea lo que se llama una **cadena raw**:

In [13]:
print(r"hola\n\n\"mundo\"")

hola\n\n\"mundo\"


En las cadenas **raw** no se escapan los caracteres.

Las cadenas **raw** sirven para escribir literales de cadena que contengan muchos símbolos como "\" que sería tedioso tener que escapar una y otra vez. Son muy útiles, por ejemplo, cuando creamos **expresiones regulares**.

### La clase `bytes`

Si pones una `b` antes de las comillas se crea un literal o instancia de algo que parece una cadena pero, según Python, es una clase diferente llamada `bytes`:

In [37]:
print(type("hola"))
print(type(b"hola")) # OBSERVA LA b ANTES DE LAS COMILLAS

<class 'str'>
<class 'bytes'>


Veremos qué es la clase `bytes` y qué interés tiene un poco más abajo.

### Las cadenas son *inmutables*

Las cadenas en Python son objetos de la clase `str` con estas características:

- son secuencias de caracteres **Unicode**, es decir, que cada carácter de una cadena puede ser un símbolo de un repertorio mucho mayor que la tabla ASCII
- son objetos **inmutables** (modificarlo genera OTRA cadena)

Veamos todo esto con más profundidad:

In [16]:
a = "piña"
len(a)

4

In [17]:
for letra in "piña":
    print(letra)

p
i
ñ
a


In [18]:
a[0]

'p'

In [19]:
a[0] = "n" # da error porque es inmutable

TypeError: 'str' object does not support item assignment

Python no tiene un tipo propio para los caracteres sueltos, se utilizan cadenas de longitud 1. Cada carácter es un símbolo unicode del que podemos obtener su código numérico con la función `ord` que es la recíproca de `chr`:

In [33]:
ord('ñ')

241

In [36]:
chr(241)

'ñ'

## Codificación de cadenas

Cuando guardas una cadena en un fichero de texto, la cadena se guarda utilizando una **codificación** o **encoding** determinado. El problema es que hay múltiples codificaciones y esto causa una cantidad de problemas enorme.

La filosofía aconsejable es preocuparse del encoding únicamente cuando se lean cosas y se escriban, y trabajar siempre que sea posible con cadenas (que no tienen encoding asociado al ser símbolos Unicode).

Cuando abres un fichero de texto o, en general, un fichero que contiene texto, debes de saber qué codificación ha sido utilizada.

Una cadena Python (clase `str`) NO TIENE ENCODING, no tiene sentido hablar de él, pero cuando lo escribes o lees a fichero, etc. sí lo tendrá. Es posible tratar eso de dos maneras:

1. Indicar el encoding al abrir un fichero de texto, sea en lectura o en escritura.
2. Python dispone de métodos para codificar y decodificar una cadena.

In [38]:
"piña".encode("latin1") # latin1 es un encoding, el iso.8859-1

b'pi\xf1a'

In [1]:
"piña".encode("iso.8859-1")

b'pi\xf1a'

In [39]:
"piña".encode("UTF-8")

b'pi\xc3\xb1a'

In [40]:
"piña".encode("UTF-16")

b'\xff\xfep\x00i\x00\xf1\x00a\x00'

Observa que el método `encode` recibe como argumento una codificación y que devuelve un objeto de tipo `bytes`.

In [42]:
for x in "piña":
    print(x)

p
i
ñ
a


In [5]:
for x in "piña".encode("UTF-8"):
    print(x) # imprime 5 y no 4 líneas!!!! y contienen valores y no caracteres!!!

112
105
195
177
97


El proceso inverso a `encode` es el método `decode`, que toma un objeto de tipo `bytes` y genera una cadena de texto diciéndole qué codificación tenía:

In [12]:
codificada = b'pi\xc3\xb1a'
cadenabien = codificada.decode('UTF-8')
print(cadenabien) # piña
cadenamal = codificada.decode('latin1')
print(cadenamal) # piÃ±a

piña
piÃ±a


Como se observa en el ejemplo anterior, si tienes una cadena y usas una codificación incorrecta puede devolverte una cadena que no es la que pretendías. En otros casos puede incluso dar un ERROR:

In [4]:
codificada = "piñña".encode("latin1")
cadena = codificada.decode('UTF-8')
print(cadena)

UnicodeDecodeError: 'utf-8' codec can't decode byte 0xf1 in position 2: invalid continuation byte

¿Cuándo usar `encode` y `decode`?

Cuando sea estrictamente necesario para operar, siempre que sea posible, con cadenas y no con bytes. Es la ley del *sandwich*: en medio (proceso) cadenas, decodificar y codificar en la entrada/salida.

> **Nota:** En muchos casos basta con leer o escribir a fichero usando el modo texto y proporcionando el encoding adecuado en el momento de abrir el fichero. Ver el tutorial de ficheros para más detalles.

## Algunos métodos útiles de la clase `str`

In [5]:
print("hola" + "mundo") # el operador + concatena cadenas

holamundo


In [6]:
print("hola"*5) # repite 5 veces

holaholaholaholahola


In [46]:
"hola".upper() # método upper

'HOLA'

In [59]:
"esto es una prueba".replace(" ","_")

'esto_es_una_prueba'

In [48]:
"ola" in "caracola"

True

In [49]:
"caracola".find("ola")

5

In [60]:
"caracola".find("hola")

-1

In [61]:
"hola caracola bebo cola".find("ola")

1

In [7]:
patron = "ola"
txt = "hola caracola bebo cola y me mola"
x = txt.find(patron)
while x != -1: # quedará más claro cuando veamos bucles...
    print(txt[:x] + 'X'*len(patron)+txt[x+len(patron):])
    x = txt.find(patron,x+1)

hXXX caracola bebo cola y me mola
hola caracXXX bebo cola y me mola
hola caracola bebo cXXX y me mola
hola caracola bebo cola y me mXXX


In [8]:
"esto es una prueba".split() # rompe una cadena en trozos, devuelve una lista

['esto', 'es', 'una', 'prueba']

In [52]:
"esto es una prueba|de campos|separados por barra".split("|")

['esto es una prueba', 'de campos', 'separados por barra']

Existen formas mucho más sofisticada de hacer un split usando la biblioteca `re` de *expresiones regulares* o **regex**, ejemplo:

In [13]:
import re
txt = "esto es un texto 1234 con algunos números por medio 567891011 y otro texto 25"
# cortamos txt en trozos, los separadores son secuencias consecutivas de 1 o más dígitos
# y los espacios que les puedan rodear:
re.split("\s*\d+\s*",txt)

['esto es un texto', 'con algunos números por medio', 'y otro texto', '']

In [14]:
# lo contrario de split es el método join:
"|".join(["uno","dos","tres"]) # se aplica sobre la cadena separadora

'uno|dos|tres'

In [15]:
# da error si la lista contiene cosas que no sean cadenas:
lista = [1,2,3]
"|".join(lista)

TypeError: sequence item 0: expected str instance, int found

In [17]:
# esto se verá con más detalle, la idea es que podemos aplicar la función str
# a todos los elementos de la lista para convertirlos a cadena:
"|".join(map(str,lista))
# map se ve en el notebook sobre 'orden superior'

'1|2|3'

In [11]:
"    hola  mundo    ".strip() # elimina espacios de los bordes

'hola  mundo'

In [12]:
"    hola    ".rstrip() # sólo de la derecha

'    hola'

In [13]:
"    hola    ".lstrip() # ídem a la izquierda

'hola    '

## Cadenas con formato

Si una cadena lleva una `f` antes de abrir las comillas se considera una cadena con formato. Puedes poner expresiones entre `{}` y se pondrá en su lugar el resultado de evaluar esas expresiones. Ejemplos:

In [16]:
nombre = 'Marta'
edad = 31
print("La edad de {nombre} es de {edad} años") # falta la f
print(f"La edad de {nombre} es de {edad} años") # con la f

La edad de {nombre} es de {edad} años
La edad de Marta es de 31 años


In [17]:
# existe una forma parecida con el método format sobre una cadena normal:
print("La edad de {} es de {} años".format(nombre,edad))

La edad de Marta es de 31 años


## `str` y `repr`

Ambas convierten a cadena el argumento que le pasemos. No obstante, su uso es diferente:

- `str` está pensado para que lo lea **una persona**.
- `repr` está pensado para que lo lea **un ordenador (Python)**.

Es decir, `str` debe facilitar la comodidad y `repr` la exactitud.

En la pràctica, para muchos tipos de datos ambas tienen el mismo comportamiento: 

In [6]:
# observa que no hay diferencia entre str y repr (en Python3):
x = 2/11.0
print(str(x))
print(repr(x))

0.18181818181818182
0.18181818181818182


In [7]:
# observa que sí hay diferencia entre str y repr con las cadenas:
x = "Hola\nMundo"
print(str(x))
print()
print(repr(x))

Hola
Mundo

'Hola\nMundo'
