# Cadenas (_strings_)

Una cadena es una secuencia de caracteres. Las cadenas son similares a las listas pero más específicas, ya que solo puede contener caracteres.

Para definir una cadena en Python usamos comillas simples `'`, dobles `"` o triples. Lo más común es usar comillas simples

In [1]:
'hola'

'hola'

In [2]:
 type('hola')

str

Las comillas simples o dobles son totalmente equivalentes. Mientras que las triples son usadas cuando necesitamos escribir una cadena en varias lineas. Recuerden cuando vimos `docstrings`.

Vamos usar  un aforismo de Jorge Wagensberg para ejemplificar como trabajar con cadenas bajo Python

In [3]:
cadena = 'A más cómo, menos por qué'

Como ya dijimos las listas y las cadenas comparten características, por ejmplo ambas pueden ser indexadas

In [4]:
cadena[3]

'á'

Además podemos hacer otras operaciones como tomar rebanadas _slices_

In [5]:
cadena[:5]

'A más'

Esto nos podría servir para crear una función que detecte palíndromos.

In [6]:
def es_palindromo(palabra):
    return palabra == palabra[::-1]

es_palindromo('somos') # Luz azul

True

Un problema con este función es que falla con frases como `Luz azul`. Hay dos razones para esto

1. un espacio es un caracter válido para Python
2. las mayusculas son caracteres distintos a las minúsculas

Python nos ofrece una herramienta muy potente para mejorar la función `es_palindromo`, los métodos de cadenas.

Un método es similar a una función, pero con una sintáxis diferente. Cuando veamos programación orientada a objetos quedará claro su significado.

Las cadenas tienen muchos métodos, por ejemplo `split` devuelve una lista de strings por defecto la lista es generada "separando" un strings cada vez que se encuentra un espacio en blanco.

In [7]:
cadena.split()

['A', 'más', 'cómo,', 'menos', 'por', 'qué']

Este comportamiento lo podemos cambiar pasando como argumento el caracter que queremos usar como separador.

In [8]:
cadena.split(',')

['A más cómo', ' menos por qué']

Otro método es `lower` que tiene como efecto devolver una nueva cadena donde todos los caracteres son minúsculas

In [9]:
'LuZ AzUl'.lower()

'luz azul'

otro método es replace que nos permite reeplazar caracteres, incluso podemos reemplazar un espacio en blanco por nada.

In [10]:
'Luz azul'.replace(' ', '')

'Luzazul'

Combinando estos dos últimos métodos podemos crear una versión más versatil de `es_palindromo`.

In [11]:
def es_palindromo(palabra):
    nueva_palabra = palabra.lower().replace(' ', '')  # es posible concatenar métodos
    return nueva_palabra == nueva_palabra[::-1]

es_palindromo('Luz azul')

True

Podríamos querer que la función `es_palindromo` nos devuelva un mensaje más amigable que True o False. Una opción que la función no devuelva ningún valor si no que imprima un mensaje, por ejemplo

In [12]:
def es_palindromo(palabra):
    nueva_palabra = palabra.lower().replace(' ', '')
    if nueva_palabra == nueva_palabra[::-1]:
        print(f'{palabra} es un palíndromo')
    else:
        print(f'{palabra} no es un palíndromo')
        
es_palindromo('Luz azul')

Luz azul es un palíndromo


El ejemplo anterior anterior muestra lo que se llama formateo de cadenas, hay varias formas de dar formato a cadenas (referencia), en el ejeplo anterior hemos usado lo que se conoce como f-strings, que es la forma más nueva (solo funciona en Python 3.6 en adelante). Las f-strings nos permite crear strings usando variables (en este caso la variable `palabra`) y también nos permite pasar expresiones de Python y darle formato a las al resultado de esas expresiones, como se puede ver en el siguiente ejemplo.

In [13]:
def es_palindromo(palabra):
    nueva_palabra = palabra.lower().replace(' ', '')
    if nueva_palabra == nueva_palabra[::-1]:
        print(f'{palabra} es un palíndromo de {len(nueva_palabra):03d} caracteres')
    else:
        print(f'{palabra} no es un palíndromo')
        
es_palindromo('Luz azul')

Luz azul es un palíndromo de 007 caracteres


Fijense que `len()` funciona con las cadenas igual que con las listas. el formato `03d`, quiere decir que la variable es un entero (d) y que use 3 espacios para representar a ese entero. Si no hay suficientes dígitos complete con ceros. Existen varias otras opciones para dar formato como:

In [14]:
f'{3.1415:.2f}'

'3.14'

Las cadenas son iterables (al igual que las listas). Por ejemplo si estuvieramos interesados en saber la frecuencia con la que aparecen caracteres en una cadena podríamo escribir.

In [15]:
def frecuencia(cadena):
    visto = []
    cadena_nueva = cadena.lower().replace(' ', '')
    for c in cadena_nueva:
        if c not in visto:
            print(f'{c} aparece {cadena_nueva.count(c)} veces')
            visto.append(c)

frecuencia(cadena)

a aparece 1 veces
m aparece 3 veces
á aparece 1 veces
s aparece 2 veces
c aparece 1 veces
ó aparece 1 veces
o aparece 3 veces
, aparece 1 veces
e aparece 1 veces
n aparece 1 veces
p aparece 1 veces
r aparece 1 veces
q aparece 1 veces
u aparece 1 veces
é aparece 1 veces


Podemos mejorar algunos aspectos de esta función, por ejemplo unificar caracteres con y sin tilde. y eliminar signos de puntuación no solo espacios en blanco. Para ello vamos a usar el método `maketrans` que nos permite crear una tabla de correspondencia entre el primer y segundo argumento. El tercer argumento indica los caracteres que sean reemplazados por nada. Otro truco de la siguiente función es que usa "vez" y "veces" según corresponda (queda como ejercicio explicar como se logra esto).

In [16]:
def frecuencia(cadena):
    visto = []
    trans = str.maketrans('áéíóúü','aeiouu', ':,. ')
    cadena_nueva = cadena.lower().translate(trans)
    for c in cadena_nueva:
        if c not in visto:
            cantidad = cadena_nueva.count(c)
            d = 'vez' if cantidad == 1  else 'veces'
            print(f'{c} aparece {cantidad} {d}')
            visto.append(c)
            

frecuencia(cadena)

a aparece 2 veces
m aparece 3 veces
s aparece 2 veces
c aparece 1 vez
o aparece 4 veces
e aparece 2 veces
n aparece 1 vez
p aparece 1 vez
r aparece 1 vez
q aparece 1 vez
u aparece 1 vez


Hasta el momento hemos venido diciendo que las cadenas se parecen a las tuplas. Pero hay una diferencia importante con las listas, las cadenas son inmutables, es decir una vez creada no pueden ser modificacas. Por lo que siguiente operación es inválida

In [17]:
cadena[0] = 'f' 

TypeError: 'str' object does not support item assignment

El error nos dice que el `objeto str` (en este caso `cadena`) no soporta la operación de asignación de item.

Supongamos que necesitamos convertir verbos de la tercera persona del singular al infinitivo, por ej canta --> cantar. Esto es simple de hacer con Python si notamos que es posible concatenar cadenas usando el signo "+". 

In [18]:
v3s = ['canta', 'baila', 'piensa', 'toma', 'mira']

vinf = []
for v in v3s:
    vinf.append(v + 'r')
vinf

['cantar', 'bailar', 'piensar', 'tomar', 'mirar']

In [19]:
v3s = ['canta', 'baila', 'piensa', 'toma', 'mira']

Se dice que el signo "+" está sobrecargado (_overloaded_), ya que es un signo que tiene un significado preciso para números y que Python generaliza el concepto para permitir otro tipo de operación, por ejemplo concatenar (o "sumar") cadenas.

Hay varios operadores en Python que son muy versátiles, ya que es posible aplciarlos a muchos tipos de objetos. Ya vimos que `len` sirve tanto para listas como para cadenas y que en ambos casos devuelve la longitud del objeto sobre el cual se aplica. En el caso de las listas esto es la cantidad de elementos de la lista y en el caso de las cadenas la cantidad de caracteres. Esta versatilidad es algo típico de Python. Otro operador que funciona con muchos objetos distintos es `in`. Este objeto nos permite averiguar si un determinado elemento está contenido en un objeto. Por ejemplo podríamos preguntar si el número 42 está contenido en una determinada lista.

In [20]:
42 in [3.14, 42, 75] 

True

In [21]:
'hola' in ['hello', 'chiao', 'hallo', '你好', "mba'eichapa"]

False

El operar `in` podría ser de utilidad para averiguar si una palabra está acentuada.

In [22]:
def es_acentuada(cadena):
    for acc in 'áéíóú':
        if acc in cadena:
            return True
    return False
            

es_acentuada(cadena)

True

# Tuplas

Una tupla es una colección de valores, los valores pueden ser de cualquier tipo en ese sentido las tuplas se parecen a las listas, pero las tuplas son inmutables y en ese sentido se parecen a las cadenas.

La sintáxis de las tuplas es muy simple, basta escribir valores separados por comas

In [23]:
una_tupla = 42, 23, 13
una_tupla

(42, 23, 13)

Aunque no es necesario es común encerrar una tupla entre paréntesis

In [24]:
otra_tupla = (42, 23, 13)

Ambas formas son equivalentes:

In [25]:
una_tupla == otra_tupla

True

Si la tupla tiene un solo elemento debemos escribirla como `valor,`

In [26]:
t1 = 42,  # esto es una tupla
t2 = (42) # esto NO una tupla, es un entero

type(t1), type(t2)

(tuple, int)

Es posible convertir cadenas a tuplas

In [27]:
t = tuple('hola mundo')
t

('h', 'o', 'l', 'a', ' ', 'm', 'u', 'n', 'd', 'o')

El resultado es similar a convertir cadenas a listas

In [28]:
t = list('hola mundo')
t

['h', 'o', 'l', 'a', ' ', 'm', 'u', 'n', 'd', 'o']

La mayoría de las operaciones válidas para listas lo son también para tuplas.

In [29]:
una_tupla[1]

23

In [30]:
una_tupla[1:]

(23, 13)

Excepto las que modifican una tupla, ya que como dijimos anterioremente las tuplas son inmutables

In [31]:
una_tupla[0] = 'j'

TypeError: 'tuple' object does not support item assignment

Las tuplas aparecen todo el tiempo en Python, sucede que son tan simples que suelen _pasar desaperbidas_. Por ejmplo al escribir:

In [32]:
a, b = 3, 45
a, b

(3, 45)

Estamos asignando la tupla (3, 45) a las variables, `a` y `b`. Esto funciona siempre y cuando la cantidad de elementos a ambos lados del `=` sean los mismos, caso contrario obtendremos un error

In [33]:
a, b, = 3, 45, 2

ValueError: too many values to unpack (expected 2)

Salvo que usemos la siguiente sintáxis, que nos permite asignar una tupla con una cantidad variable de elementos

In [34]:
a, *b, = 3, 45, 2
a, b

(3, [45, 2])

In [35]:
a, *b, = 3, 45, 2, 4  # cambiamos el número de elementos y el código funciona igual
a, b

(3, [45, 2, 4])

Un ejemplo concreto donde podríamos usar esta "asignación de variables".

In [36]:
email = 'monty@python.org'
usuario, dominio = email.split('@')

usuario, dominio

('monty', 'python.org')

Otro ejemplo donde la tuplas aparece, pero puede pasar "desapercibidas" es en la funciones. Las funciones en Python siempre devuelven un valor, por lo que uno podría pensar que la siguiente no es una función válida. 

Sin embargo la siguiente función si es valida y devuelve un solo valor, sucede que el valor que devuelve es una tupla con dos elementos.

In [37]:
def min_max(t):
    """
    devuelve el valor más pequeño y el más grande contenido en t
    
    t : lista o similar
    """
    return min(t), max(t)

min_max([0, 13, 42, 100])  ## use la función type para probar que está función devuelve una tupla

(0, 100)

In [38]:
def imprima_todos(*args):
    """
    esta función toma un número arbitrario de argumentos y los imprime
    """
    print(args)

In [39]:
imprima_todos(42, ['3'], cadena)  # esto funciona (3 argumentos)

(42, ['3'], 'A más cómo, menos por qué')


In [40]:
imprima_todos(cadena)  # esto también (1 argumento)

('A más cómo, menos por qué',)


In [41]:
imprima_todos()  # incluso esto (0 argumento)

()


`zip` una función incluida con Python que toma dos o más secuencias y las "zipea" en una lista de tuplas donde cada tupla contiene un elemento de cada secuencia. En Python 3, `zip` devuelve un iterador de tuplas, en este curso no vamos a explicar que es un iterador, para nosotros y a los fines prácticos diremos que un iterador es equivalente a una lista 

In [42]:
t1 = ['34', '42', '2019']
t2 = ['34', '0', '0.15']

In [43]:
zip(t1, t2)  # esto es un iterador, esto no tiene sentido para los humanos

<zip at 0x7fad4d490f48>

In [44]:
list(zip(t1, t2))  # esto nos permite entender el resultado de zip

[('34', '34'), ('42', '0'), ('2019', '0.15')]

En general `zip` se suele escribir junto con un `for-loop` --> `for i, j in zip(t1, t2)`.

Probemos usar `zip` para determinar si, para un mismo índice, dos secuencias (listas, tuplas) tienen un elemento en común, por ejemplo vemos que `t1` y `t2` comparten el primer elemento.

In [45]:
def se_ha_formado_una_pareja(t1, t2):
    for i, j in zip(t1, t2):
        if i == j:
            return True
    return False

has_match(t1, t2)

NameError: name 'has_match' is not defined

## Ejercicios

1. Escriba una función que tome una cadena como argumentos y muestre las letras de esa cadena una por una, empezando por la última letra y terminado en la primera.

2. Existen muchos otros métodos que se pueden aplicar a cadenas. Determine que hacen los sigueintes métodos
    * `isalpha`
    * `isalnum`
    * `isnumeric`
    * `startswith`
    * `join`