# Cadenas.

**Objetivo.**
Explicar el tipo de dato básico cadena y como se usa en diferentes contextos.

<p xmlns:cc="http://creativecommons.org/ns#" xmlns:dct="http://purl.org/dc/terms/"><a property="dct:title" rel="cc:attributionURL" href="https://github.com/repomacti/pensamiento_computacional">Pensamiento Computacional a Python</a> by <a rel="cc:attributionURL dct:creator" property="cc:attributionName" href="https://gmc.geofisica.unam.mx/luiggi">Luis Miguel de la Cruz Salas</a> is licensed under <a href="https://creativecommons.org/licenses/by-sa/4.0/?ref=chooser-v1" target="_blank" rel="license noopener noreferrer" style="display:inline-block;">CC BY-SA 4.0<img style="height:22px!important;margin-left:3px;vertical-align:text-bottom;" src="https://mirrors.creativecommons.org/presskit/icons/cc.svg?ref=chooser-v1" alt=""><img style="height:22px!important;margin-left:3px;vertical-align:text-bottom;" src="https://mirrors.creativecommons.org/presskit/icons/by.svg?ref=chooser-v1" alt=""><img style="height:22px!important;margin-left:3px;vertical-align:text-bottom;" src="https://mirrors.creativecommons.org/presskit/icons/sa.svg?ref=chooser-v1" alt=""></a></p> 

## Definición de cadenas.

En Python, una cadena (string) es una secuencia de caracteres utilizada para representar texto. 

Las cadenas se pueden crear utilizando:

* comillas simples (`'`),
* dobles (`"`) o
* triples (`"""` o `'''`). 

Son inmutables, lo que significa que no se pueden cambiar una vez que se han creado. 

Sin embargo, se pueden crear nuevas cadenas basadas en operaciones realizadas en las cadenas originales.

Veamos algunos ejemplos.

* Definición de una cadena usando comillas simples `'`:

In [None]:
simples = 'Hay pocas cosas tan ensordecedoras como el silencio'
print(simples)

* Definición de una cadena usando comillas dobles `"`:

In [None]:
dobles = "Hay pocas cosas tan ensordecedoras como el silencio"
print(dobles)

* Definición de una cadena usando comillas triples `"""` o `'''`:

In [None]:
triples1 = '''Hay pocas cosas tan ensordecedoras como el silencio'''
print(triples1)

triples2 = """Hay pocas cosas tan ensordecedoras como el silencio"""
print(triples2)

In [None]:
print(type(simples), type(dobles), type(triples1), type(triples2), sep="\n")

## Caracteres especiales.

* Las cadenas pueden contener caracteres especiales como cambio de línea, tabulador, entre otros. 

* Para que estos caracteres se puedan representar, se requiere del caracter de escape `\`.

* Algunos de estos caracteres se muestran en la siguiente tabla:

|  Secuencia de escape | Significado |
|---|---|
| `\<newline>` | Diagonal invertida y línea nueva ignoradas |
| `\\` | Diagonal invertida (`\`) |
| `\'` | Comilla simple (`'`) |
| `\"` | Comilla doble (`"`) |
| `\n` | Cambio de línea (ASCII Linefeed LF) | 
| `\t` | Tabulador (ASCII Sangría horizontal TAB) |

La documentación completa se puede encontrar en el siguiente enlace: [Escape sequences](https://docs.python.org/es/3/reference/lexical_analysis.html#escape-sequences).

<div class="alert alert-block alert-success">
    
### Ejemplo 1. 

1. Definir e imprimir las siguientes cadenas:
    1.  ```Enjoy the moments now, because they don't last forever```
    2. ```Python "pythonico"```

</div>

In [None]:
# 1.A. Forma 1. Usamos el caracter de escape
poema = 'Enjoy the moments now, because they don\'t last forever'
print(poema)

In [None]:
# 1.A. Forma 2. Definimos la cadena con " "
poema = "Enjoy the moments now, because they don't last forever"
print(poema)

Observa que es posible imprimir `'` sin usar el caracter `\` si la cadena se define con `"` y viceversa, como se muestra a continuación:

In [None]:
# 1.B. La cadena puede tener " dentro de ' ... '
titulo = 'Python "pythonico"'
print(titulo)

In [None]:
#1.B. Usando el caracter de escape
titulo = "Python \"pythonico\""
print(titulo)

<div class="alert alert-block alert-success">
    
### Ejemplo 2. 

Definir e imprimir el siguiente texto:
```
Desde muy niño
tuve que "interrumpir" 'mi' educación
para ir a la escuela
```
</div>

In [None]:
# Forma 1. 
queja = "Desde muy niño \ntuve que \"interrumpir\" 'mi' educación \npara ir a la escuela"
print(queja)

En esta primera forma definimos la cadena usando comillas dobles. Para imprimir `"` usamos el caracter de escape. De igual manera, para indicar el cambio de línea usamos `\n`. Para imprimir `'` no es necesario realizar nada especial.

In [None]:
#  Forma 2. Una cadena larga la definimos con triples comillas simples.
queja = '''
Desde muy niño
tuve que "interrumpir" 'mi' educación
para ir a la escuela
'''
print(queja)

Observa que en el ejemplo anterior la cadena contiene `"` y  `'` sin necesidad de usar el caracter de escape; de igual manera no fue necesario indicar los cambios de línea, estos se toman de manera implícita. Lo anterior fue posible por el uso de las triples comillas para definir la cadena.

In [None]:
#  Forma 3. Una cadena larga la definimos con triples comillas dobles.
queja = """
Desde muy niño
tuve que "interrumpir" 'mi' educación
para ir a la escuela
"""
print(queja)

<div class="alert alert-block alert-success">
    
### Ejemplo 3. 

Definir e imprimir el siguiente texto:
```

El siguiente es un ejemplo de función:
--------------------------------------
def funcion(N):
        suma = 0
        for i in range(N):
                 suma += 1
        return suma
```
</div>

In [None]:
codigo = """
El siguiente es un ejemplo de función:
--------------------------------------
def funcion(N):
\tsuma = 0
\tfor i in range(N):
\t\tsuma += 1 
\treturn suma
"""
print(codigo)

Observa que cuando el texto es largo y de varias líneas, conviene usar triples comillas. Para agregar la sangría al principio de algunas líneas usamos el tabulador `\t`. 

<a href="indexado_cadenas"></a>
## Indexación de las cadenas.

La indexación permite acceder a diferentes elementos o rangos de elementos de una cadena. 

* Los elementos de una cadena de `N` elementos, se numeran empezando en `0` y terminando en `N-1`, el cual representa el último elemento de la cadena.
* También se pueden usar índices negativos donde `-1` representa el último elemento y `-N` el primer elemento.

Veamos el siguiente ejemplo:

|   ||||||||||||
|--:|:-:|:-:|:-:|:-:|:-:|:-:|:-:|:-:|:-:|:-:|:-:|
|`ejemplo` |`=`| `M` | `u` | `r` | `c` | `i` | `é` | `l` | `a` | `g` | `o` |
|índice positivo |$\rightarrow$| `0`|`1`|`2`|`3`|`4`|`5`|`6`|`7`|`8`|`9`|
|índice negativo |$\rightarrow$| `-10`|`-9`|`-8`|`-7`|`-6`|`-5`|`-4`|`-3`|`-2`|`-1`|

* La cadena tiene `N = 10` elementos.
* Sus índices positivos van de `0` a `9`.
* Sus índices negativos van de `-1` a `-10`.

In [None]:
# Definimos la cadena
ejemplo = 'Murciélago'
print(ejemplo)
print(type(ejemplo))

In [None]:
# Primer elemento de la cadena
print(ejemplo[0]) 

In [None]:
# Elemento en la posición 5
print(ejemplo[5]) 

In [None]:
# Elemento en la posición 9 (en este caso es el último)
print(ejemplo[9]) 

In [None]:
# Último elemento de la cadena
print(ejemplo[-1]) 

In [None]:
# Elemento en la posición -6 o equivalentemente en la posición 4
print(ejemplo[-6]) 
print(ejemplo[4])

In [None]:
# Elemento en la posición -10, el primero en este caso
print(ejemplo[-10]) 

### Acceso a porciones de las cadenas (*slicing*)

Se puede obtener una subcadena a partir de la cadena original, para ello usamos lo siguiente: `str[Start:End:Stride]`

**Start** :Índice del primer caracter para formar la subcadena. **Se incluye** el elemento con este índice.

**End** : Índice que indica el caracter final de la subcadena. **No se incluye** el elemento con este índice.

**Stride**: Salto entre elementos.

Si queremos obtener la subcadena `urcié` de la cadena original `Murciélago` podemos hacerlo como sigue: 

* con índices positivos:

|   ||||||||||||
|--:|:-:|:-:|:-:|:-:|:-:|:-:|:-:|:-:|:-:|:-:|:-:|
|`ejemplo` |`=`| `M` | `u` | `r` | `c` | `i` | `é` | `l` | `a` | `g` | `o` |
|índice positivo |$\rightarrow$| `0`|`1`|`2`|`3`|`4`|`5`|`6`|`7`|`8`|`9`|
|`ejemplo[1:6]`| `=` | | u | r | c | i | é | | | | |

* con índices negativos:

|   ||||||||||||
|--:|:-:|:-:|:-:|:-:|:-:|:-:|:-:|:-:|:-:|:-:|:-:|
|`ejemplo` |`=`| `M` | `u` | `r` | `c` | `i` | `é` | `l` | `a` | `g` | `o` |
|índice negativo |$\rightarrow$| `-10`|`-9`|`-8`|`-7`|`-6`|`-5`|`-4`|`-3`|`-2`|`-1`|
|`ejemplo[-9:-4]`| `=` | | u | r | c | i | é | | | | |

Veamos los siguientes ejemplos

In [None]:
print(ejemplo[1:6])

In [None]:
print(ejemplo[-9:-4])

In [None]:
print(ejemplo[:]) # Cadena completa

In [None]:
print(ejemplo[0:5]) # Elementos del 0 al 4 

In [None]:
print(ejemplo[::2]) # Todos los elementos, con saltos de 2

In [None]:
print(ejemplo[1:8:2]) # Los elementos de 1 a 7, con saltos de 2

In [None]:
print(ejemplo[::-1]) # La cadena en reversa

## Métodos aplicables sobre las cadenas

Las cadenas son objetos de la clase `<class 'str'>` y tienen definidos atributos y métodos. 
Véase [Common string operations](https://docs.python.org/3/library/string.html) para más información.

Veamos algunos ejemplos:

In [None]:
# ¿Qué métodos tienen las cadenas?
ejemplo.

In [None]:
# Imprimimos la cadena original
print(ejemplo)

In [None]:
# Centramos la cadena en 20 espacios
print(ejemplo.center(20))

In [None]:
# Centramos la cadena en 20 espacios y usamos '-' en los espacios restantes
print(ejemplo.center(20,'-')) 

In [None]:
# Convertimos todos los caracteres a mayúsculas
print(ejemplo.upper())

In [None]:
# Encontrar un caracter dentro de la cadena, 
# nos dá el índice (solo de la primera aparición):
print(ejemplo.find('é'))

In [None]:
# Cuando el caracter no está en la cadena, regresa un -1
print(ejemplo.find('e'))

In [None]:
# Cuenta el número de aparciones de un caracter dentro de la cadena
print(ejemplo.count('g'))

In [None]:
# Pregunta si la cadena se puede imprimir
print(ejemplo.isprintable())

In [None]:
# Reemplazamos un caracter o conjunto de caracteres por otro.
print(ejemplo.replace('é', 'e'))

## Funciones y operadores sobre cadenas.

Veamos algunas funciones incorporadas y operadores que se pueden aplicar sobre las cadenas.

In [None]:
# Definimos una cadena
cadena = 'anita lava la tina'
print(cadena)

* Función `len()`  para obtener la longitud de la cadena.

In [None]:
print(len(cadena))

* Funciones `max()` y `min()` para obtener el máximo y mínimo de acuerdo con su código unicode.

In [None]:
print(min(cadena)) # El mínimo es el espacio en blanco
print(max(cadena))

* Función `sorted()` regresa una lista de elementos de la cadena ordenados, de acuerdo con su código unicode.

In [None]:
print(sorted(cadena))

* Operador `==` para comparar cadenas

In [None]:
cadena_reversa = cadena[::-1]
print('original  : ', cadena)
print('invertida : ', cadena_reversa)
print('¿Las cadenas son iguales? ', cadena == cadena_reversa)

Para checar que el contenido de `cadena` es un palíndromo tendríamos que
eliminar los espacios cuando hacemos la comparación de la cadena original con la cadena en reversa:

In [None]:
# Eliminamos los espacios
cadena_or_noe = cadena.replace(' ','')
cadena_re_noe = cadena_reversa.replace(' ','')

# Imprimimos las cadenas
print('original sin espacios: "', cadena_or_noe, '"', sep='')
print('en reversa sin espacios: "', cadena_re_noe, '"', sep='')

# Verificamos si es palíndromo o no
print('¿Es palíndromo? :', cadena_or_noe == cadena_re_noe)

El mismo algoritmo, pero con un código más reducido (*pythonico*):

In [None]:
print('¿"', cadena, '" es palíndromo? ', cadena.replace(' ','') == cadena[::-1].replace(' ',''), sep='')

In [None]:
# Usamos el caracter \ para escribir una 
# sola instrucción en varias líneas
print('¿"', cadena, '" es palíndromo? ', \
      cadena.replace(' ','') == cadena[::-1].replace(' ',''), \
      sep='')

* Operador `in` para saber si un elemento está en la cadena.

In [None]:
print('v' in cadena)

* Operador `+` para concatenar cadenas.

In [None]:
palabra = 'Palíndromo : '
print(palabra + cadena)

* Operador `*` para repetir la cadena.

In [None]:
# Repetimos la cadena 'oh yeah ' 5 veces
expresion = 'oh yeah ' * 5
print(expresion)

## Construcción de cadenas

Existen varias maneras de construir cadenas, a continuación se revisan algunos ejemplos.

### Usando operaciones básicas.

Los operadores: `+` y `*` están definidos para las cadenas.

Veamos el siguiente ejemplo:

In [None]:
frase1 = "Somos aquello en lo que creemos"
frase2 = "aún sin darnos cuenta"

# Concatenación de cadenas
frase_total = frase1 + ', ' + frase2 + '.'

print(frase_total)

En el siguiente ejemplo creamos una cadena de 60 guiones `-` usando el operador `*`:

In [None]:
print('-' * 60)

Escribimos la `frase_total` centrada en 60 espacios y entre dos líneas:

In [None]:
print('-' * 60)
print(frase_total.center(60))
print('-' * 60)

### Concatenación y casting

Vamos a crear la siguiente cadena: `Pedro Páramo tiene 15 años y pesa 70.5 kg`.

Usaremos el operador `+` y contruiremos la cadena usando algunas variables; convertiremos las variables a tipo `str`:

In [None]:
# Definimos las siguientes variables
edad = 15
nombre = 'Pedro'
apellido = 'Páramo'
peso = 70.5

# Construimos la cadena usando el operador '+' y la función 'str()' 
datos = nombre + apellido + 'tiene' + str(15) + 'años y pesa' + str(70.5) + 'kg'

print(datos)

Para agregar espacios es necesario hacerlo de manera explícita como sigue:

In [None]:
datos = nombre + ' ' + apellido + ' tiene ' + str(15) + ' años y pesa ' + str(70.5) + ' kg'
print(datos)

### Método `str.format()`

Este método permite sustituir variables en los lugares indicados por `{}`:

In [None]:
datos = '{} {} tiene {} años y pesa {} kg'.format(nombre, apellido, edad, peso)
print(datos)

### Cadenas formateadas (*f-string*, *formatted string literals*)

Este tipo de cadenas permite sustituir variables en los lugares indicados:

In [None]:
datos = f'{nombre} {apellido} tiene {edad} años y pesa {peso} kg'
print(datos)

### Cadenas usando el método `str.join()`

Dada una cadena que funciona como separador, este método recibe un iterador y junta todos sus elementos separados por la cadena inicial:

In [None]:
datos = " ".join([nombre, apellido, 'tiene', str(15), 'años y pesa', str(70.5), 'kg'])
print(datos)

En el ejemplo anterior la cadena inicial es un espacio `" "` y junta todos los elementos que se dan entre corchetes `[]`. El uso de corchetes construye una lista, que es un tipo de dato que se describe en la notebook [08_listas.ipynb](./08_listas.ipynb).

## Formato de la salida.
### Texto.

In [None]:
# Impresión del nombre en 30 espacios de texto
sdef = f'{nombre:30s}'  # Alineación a la izq. por omisión
sder = f'{nombre:>30s}' # Alineación a la der.
sizq = f'{nombre:<30s}' # Alineación a la izq.
scen = f'{nombre:^30s}' # Centrada

In [None]:
print(sdef)
print(sder)
print(sizq)
print(scen)

Ahora agregamos las cadenas `---|` y `|---` para delimitar los 30 espacios.

In [None]:
# Impresión del nombre en 30 espacios de texto
sdef = f'---|{nombre:30s}|---'  # Alineación a la izq. por omisión
sder = f'---|{nombre:>30s}|---' # Alineación a la der.
sizq = f'---|{nombre:<30s}|---' # Alineación a la izq.
scen = f'---|{nombre:^30s}|---' # Centrada

print(sdef)
print(sder)
print(sizq)
print(scen)

<div class="alert alert-block alert-info">

**Nota**.

Observa que en el ejemplo anterior se usó una `s` al final del número `30`, esto es para indicar que la variable `nombre` es de tipo cadena. Para enteros en base diez se usa una `d` y para flotantes una `f`. Estas terminaciones no son necesarias aunque es conveniente agregarlas para hacer el código más claro y que no haya errores de formato.

Más información la puedes consultar en: <a href="https://docs.python.org/3.7/library/string.html#formatspec"> Format Specification Mini-Language </a>

</div> 

### Enteros

Para números enteros podemos definir el número de espacios y alinear la salida:

In [None]:
# Este es un formato de número entero que usa _ para separar los miles
n1 = 5_521_345_678
n2 = 7_712_932_143
n3 = 8_123_535_098

idef = f'---|{n1:15d}|---'  # alineación a la der. por omisión
icen = f'---|{n1:^15d}|---' # centrado
iizq = f'---|{n2:<15d}|---' # alineación a la izq.
ider = f'---|{n3:>15d}|---' # alineación a la der.

print(idef, icen, iizq, ider, sep='\n')

También es posible usar `,` como separador de los miles en la salida, veamos:

In [None]:
idef = f'---|{n1:15,d}|---'  # alineación a la der. por omisión
icen = f'---|{n1:^15,d}|---' # centrado
iizq = f'---|{n2:<15,d}|---' # alineación a la izq.
ider = f'---|{n3:>15,d}|---' # alineación a la der.

print(idef, icen, iizq, ider, sep='\n')

Y se puede completar con `0`'s los espacios en blanco:

In [None]:
idef = f'---|{n1:015,d}|---'  # alineación a la der. por omisión
icen = f'---|{n1:^015,d}|---' # centrado
iizq = f'---|{n2:<015,d}|---' # alineación a la izq.
ider = f'---|{n3:>015,d}|---' # alineación a la der.

print(idef, icen, iizq, ider, sep='\n')

Se puede generar la salida de un entero en las bases decimal, hexadecimal, octal o binaria usando `d`, `x`, `o` y `b` respectivamente.

In [None]:
ejemplo = 16
print(f'int: {ejemplo:d}')
print(f'hex: {ejemplo:x}')
print(f'oct: {ejemplo:o}')
print(f'bin: {ejemplo:b}')

### Flotantes

En el caso de números flotantes se puede definir el número de decimales en la salida:

In [None]:
# Valor aproximado de pi
pi = 3 + 1/7

# Cadena con 5 decimales de pi:
spi = f'{pi:.5f}'

print('El valor de PI es aproximadamente', spi) 

Y también es posible definir el número total de espacios que incluyen la parte entera, el punto decimal y el número de decimales:

In [None]:
numero_flotante_grande = 213.2131255345435643

# Cadena con 10 espacios totales y 3 decimales
snumero = f'{numero_flotante_grande:15.3f}'

print(f'---|{snumero}|---')

Al igual que las cadenas y los enteros, también se puede usar una alineación en la salida y rellenar con ceros los espacios en blanco:

In [None]:
snum_cen = f'{numero_flotante_grande:^015.3f}'
snum_izq = f'{numero_flotante_grande:<015.3f}'
snum_der = f'{numero_flotante_grande:>015.3f}'

print(snum_cen)
print(snum_izq)
print(snum_der)

### Usando el método `format()`

Usando el método `str.format()`, también podemos formatear la salida. Aplica exactamente lo mismo que con las *f-string*. Por ejemplo:

In [None]:
# Definimos dos número enteros
votos_a_favor = 42_572_654   
votos_en_contra = 43_132_495 

# Realizamos algunas operaciones
total_de_votos = votos_a_favor + votos_en_contra
porcentaje = votos_a_favor / total_de_votos

# Revisamos el contenido y tipo de los números
print(votos_a_favor, type(votos_a_favor))
print(votos_en_contra, type(votos_en_contra))
print(total_de_votos, type(total_de_votos))
print(porcentaje, type(porcentaje))

# Realizamos la impresión usando un formato
print('{:^20d} votos a favor ({:^10.2%})'.format(votos_a_favor, porcentaje))

Observa que se imprime `votos_a_favor` en 20 espacios y alineado al centro. También se imprime `porcentaje`, que es un número flotante, usando 10 espacios que incluyen el punto, dos decimales y el símbolo `%`. El uso de `%` convierte el número flotante en un porcentaje (multiplica por 100) automáticamente e imprime el símbolo.

Se pueden usar números para identificar los argumentos de `str.format()`:

In [None]:
ej1 = '{0} y {1}'.format('el huevo', 'la gallina')
ej2 = '{1} y {0:^20s}'.format('el huevo', 'la gallina')

print(ej1)
print(ej2)

Se le puede dar nombre a los argumentos para que sea más fácil entender la salida

In [None]:
ej3 = "Look {sujeto}, there's an {objeto} up in the sky".format(sujeto='mummy', objeto='aeroplane')

print(ej3)

Usar un nombre en los argumentos de `str.format()` permite ponerlos en cualquier orden:

In [None]:
ej4 = "Look {sujeto}, there's an {objeto} up in the sky".format(objeto='aeroplane', sujeto='mummy')

print(ej4)

Se pueden combinar números con nombres de argumento:

In [None]:
ej5 = 'El {0}, el {1}, y el {otro}.'.format('Bueno', 'Malo', otro='Feo')

print(ej5)

Otro ejemplo de alineación (la declaración `for` la revisaremos en la notebook [07_control_de_flujo.ipynb](07_control_de_flujo.ipynb)):

In [None]:
for x in range(1, 11):
    print('{0:2d} {1:3d} {2:4d}'.format(x, x*x, x*x*x))

Para más información véase <a href="https://docs.python.org/3.7/library/string.html#formatstrings"> Format String Syntax </a>

### Forma antigua de formatear la salida

Se puede seguir usando la forma antigua de la salida:

In [None]:
viejo = 'El valor aproximado de pi es %10.6f.' % pi

print(viejo)

## Inmutabilidad de las cadenas

Los elementos de las cadenas no se pueden modificar:

In [None]:
# Intentamos modificar el elemento 5 de la cadena
ejemplo[5] = "e"

In [None]:
cadena='''
este es un 
texto muy
largo
'''

In [None]:
print(cadena)

In [None]:
print(type(cadena))

In [None]:
len(cadena)

In [None]:
cadena[0] # El primer elemento es un cambio de línea

In [None]:
cadena[-1] # El último elemento es un cambio de línea

In [None]:
print(cadena[6])

In [None]:
cadena[6] = 'h'