# String

Esta lección es una rápida introducción a técnicas de manipulación de cadenas de caracteres (o strings) en Python. Saber cómo manipular cadenas de caracteres juega un papel fundamental en la mayoría de las tareas de procesamiento de texto. Si quieres experimentar con las siguientes lecciones puedes escribir y ejecutar pequeños programas tal como lo hicimos en lecciones previas, o puedes abrir tu intérprete de comandos de Python / Terminal para probarlos ahí.

Una string es una secuencia de caracteres. Puede acceder a los caracteres de uno en uno con el operador de paréntesis: 

In [None]:
fruta = 'fresa'

In [None]:
letra = fruta[1]

La segunda afirmación extrae el carácter en la posición 1 del índice de la variable de la fruta y lo asigna a la variable de la letra. La expresión entre paréntesis se llama índice. El índice indica el carácter de la secuencia que se desea (de ahí el nombre). Pero puede que no consigas lo que esperas: 

In [None]:
print(letra)

Para la mayoría de la gente, la primera letra de "banana" es "b", no "a". Pero en Python, el índice es un desplazamiento del principio de la cadena, y el desplazamiento de la primera letra es cero (0).  

In [None]:
letra = fruta[0]
print(letra)

Así que "b" es la letra en la posición 0 de la palabra "banana", "a" es la letra en la posición 1, y "n" seria la letra en la posición 2. 


Se puede usar cualquier expresión, incluyendo variables y operadores, como un índice, pero el valor del índice tiene que ser un número entero. De lo contrario, se obtiene: 

In [None]:
letra = fruta[1,5]

<img src="https://i.imgur.com/Tpj7CQC.png">

# Obtener la longitud de un string usando len()

len es una función incorporada que devuelve el número de caracteres de una cadena:_

In [None]:
fruta = 'banana'
len(fruta)

Para obtener la última letra de un string, podrías estar tentado de intentar algo como esto: 

In [None]:
longitud = len(fruta)
ultimo = fruta[longitud]

La razón del IndexError es que no hay ninguna letra en "banana" con el índice 6. Desde que empezamos a contar en el cero, las seis letras están numeradas del 0 al 5. Para obtener el último carácter, hay que restarle 1 a la longitud: 

In [None]:
ultimo = fruta[longitud-1]
print(ultimo)

Alternativamente, puedes usar índices negativos, que cuentan hacia atrás desde el final de la cuerda. La expresión fruta[-1] da la última letra, fruta[-2] da la el penúltimo, y así sucesivamente. 

# Rebanas de String

Un segmento de un string se llama un trozo. Seleccionar una rebanada es similar a seleccionar una caracter:

In [None]:
s = 'Monty Python'
print(s[:5])

In [None]:
print(s[6:12])

El operador devuelve la parte de la cadena del "n-ésimo" carácter "m-ésimo" al carácter, incluyendo el primero pero excluyendo el último [n,m). Si se omite el primer índice (antes de los dos puntos), el trozo comienza al principio de la cadena. Si se omite el segundo índice, la rebanada va al final de la cadena: 

In [None]:
fruta = 'banana'
fruta[:3]

In [None]:
fruta[3:]

Si el primer índice es mayor o igual que el segundo el resultado es una cadena vacía, representada por dos comillas:

In [None]:
fruta = 'banana'
fruta[7:7]

Una cadena vacía no contiene caracteres y tiene una longitud de 0, pero aparte de eso, es igual a cualquier otra cadena. 

# Ejercicio 1: ¿ Qué ocurre cuando se utiliza fruta[:]?

In [None]:
fruta[:]

# ¿Los string son inmutables?

Es tentador utilizar el operador del lado izquierdo de una asignación, con la intención de cambiar un caracter en un string. Por ejemplo: 

In [None]:
saludo = '¡Hola, mundo!'
saludo[0] = 'J'

El "objeto" en este caso es la cadena y el "ítem" es el caracter que trataste de asignar. Por ahora, un objeto es lo mismo que un valor, pero afinaremos esa definición más adelante. Un ítem es uno de los valores de una secuencia. La razón del error es que las cadenas son **INMUTABLES**, lo que significa que no se puede cambiar una cadena existente. Lo mejor que puedes hacer es crear una nueva cadena que sea una variación de la original:

In [None]:
saludo = '¡Hola, mundo!'
nuevo_saludo = saludo[:6]+" M"+saludo[8:]
print(nuevo_saludo)

Este ejemplo concatena una nueva primera letra en un trozo de saludo. No tiene ningún efecto en la cadena original. 

# El operador "in"

La palabra "in" es un operador booleano que toma dos cadenas y devuelve True si la primera aparece como una subcadena en la segunda:

In [None]:
'a' in 'banana'

In [None]:
"bna" in "banana"

# Comparación de string


Los operadores de comparación trabajan con strings. Para ver si dos cuerdas son iguales:

In [None]:
palabra = 'Banana'
if palabra == 'banana':
    print('Está bien, bananas')

Otras operaciones de comparación son útiles para poner las palabras en orden alfabético:

In [32]:
palabra = 345
if palabra < 'banana':
    print('Tu palabra,' + palabra + ', viene antes de banana')
elif palabra > 'banana':
    print('Su palabra ' + palabra +', viene después de banana.')
else:
    print('Está bien, su palabra es banana')

TypeError: '<' not supported between instances of 'int' and 'str'

Python no maneja las mayúsculas y minúsculas de la misma manera como lo hace la gente. Todas las mayúsculas vienen antes que las minúsculas, así que: 

La palabra, **Piña**, viene antes que **banana**.

Una forma común de abordar este problema es convertir las cadenas a un formato estándar, como todas las minúsculas, antes de realizar la comparación. Tengan eso en cuenta en caso de que tienes que defenderte de un hombre armado con una piña. 

# Métodos de un string

Los string son un ejemplo de los objetos de Python. Un objeto contiene tanto datos (la cadena propiamente dicha) como métodos, que son en realidad funciones que están incorporadas en el objeto y que están disponibles para cualquier instancia del mismo. 

Python tiene una función llamada dir que enumera los métodos disponibles para un objeto. La función type muestra el tipo de un objeto y la función dir muestra los métodos disponibles. 

In [33]:
Cadena = 'Hola mundo'

In [34]:
type(Cadena)

str

In [35]:
dir(Cadena)

['__add__',
 '__class__',
 '__contains__',
 '__delattr__',
 '__dir__',
 '__doc__',
 '__eq__',
 '__format__',
 '__ge__',
 '__getattribute__',
 '__getitem__',
 '__getnewargs__',
 '__gt__',
 '__hash__',
 '__init__',
 '__init_subclass__',
 '__iter__',
 '__le__',
 '__len__',
 '__lt__',
 '__mod__',
 '__mul__',
 '__ne__',
 '__new__',
 '__reduce__',
 '__reduce_ex__',
 '__repr__',
 '__rmod__',
 '__rmul__',
 '__setattr__',
 '__sizeof__',
 '__str__',
 '__subclasshook__',
 'capitalize',
 'casefold',
 'center',
 'count',
 'encode',
 'endswith',
 'expandtabs',
 'find',
 'format',
 'format_map',
 'index',
 'isalnum',
 'isalpha',
 'isascii',
 'isdecimal',
 'isdigit',
 'isidentifier',
 'islower',
 'isnumeric',
 'isprintable',
 'isspace',
 'istitle',
 'isupper',
 'join',
 'ljust',
 'lower',
 'lstrip',
 'maketrans',
 'partition',
 'removeprefix',
 'removesuffix',
 'replace',
 'rfind',
 'rindex',
 'rjust',
 'rpartition',
 'rsplit',
 'rstrip',
 'split',
 'splitlines',
 'startswith',
 'strip',
 'swapcase',


In [37]:
help(str.capitalize)

Help on method_descriptor:

capitalize(self, /)
    Return a capitalized version of the string.
    
    More specifically, make the first character have upper case and the rest lower
    case.



Si bien la función dir enumera los métodos, y se puede utilizar la ayuda para obtener una documentación sencilla sobre un método, una mejor fuente de documentación para los métodos de cuerda sería 

https://docs.python.org/library/stdtypes.html#string-methods. 

Llamar a un método es similar a llamar a una función (toma argumentos y devuelve un valor) pero la sintaxis es diferente. Llamamos a un método añadiendo el nombre del método al nombre de la variable utilizando el punto como delimitador. 

Por ejemplo, el método upper toma un string y devuelve un nuevo string con todas las letras mayúsculas:

En lugar de la función sintaxis upper(palabra), utiliza el método sintaxis palabra.upper().

In [38]:
palabra = 'BANANA'
palabra_nueva = palabra.format_map()
print(palabra_nueva)

TypeError: str.format_map() takes exactly one argument (0 given)

Esta forma de notación puntual especifica el nombre del método, **upper**, y el nombre de la cadena a la que se aplica el método, **palabra**. Los paréntesis vacíos indican que este método no toma ningún argumento. 

La llamada a un método se llama una **invocation**; en este caso, diríamos que estamos invocando upper sobre **palabra**. 

Por ejemplo, hay un método de cadena llamado **find** que busca la posición de una cadena dentro de otra: 

In [40]:
palabra = 'banana'
index = palabra.upper()
print(index)

BANANA


En este ejemplo, invocamos a find sobre palabra y pasamos la letra que buscamos como parámetro.

El método find puede encontrar subcadenas así como caracteres:

In [41]:
palabra.find('na')

2

Puede tomar como segundo argumento el índice donde debe comenzar: 

In [42]:
palabra.find('a', 3)

3

Una tarea común es eliminar los espacios en blanco (espacios, tabulaciones o nuevas líneas) del principio y el final de una cadena utilizando el método de la tira: 

In [43]:
linea = '        Aquí vamos            '
linea.strip()

'Aquí vamos'

Algunos métodos como el de empezar con valores booleanos de retorno. 

In [48]:
linea = 'Que Tengas Un Buen Día'
linea.startswith('Que Tengas')

True

In [47]:
linea.startswith('Q')

True

Notarán que el comienzo requiere que el caso coincida, así que a veces tomamos una línea y lo mapeamos todo a minúsculas antes de hacer cualquier verificación usando el método de abajo. 

In [55]:
linea = 'Que Tengas Un Buen Día'
linea.startswith('Tengas')

False

In [50]:
linea.lower() #que tendas un buen dia

'que tengas un buen día'

In [56]:
linea.startswith('q')

False

En el último ejemplo, se llama el método "lower" y luego usamos "startswith" para ver si la cadena de minúsculas resultante comienza con la letra "Q". Siempre que seamos cuidadosos con el orden, podemos hacer múltiples llamadas al método en una sola expresión. 

# Analizar los string

A menudo, queremos mirar en una cadena y encontrar una subcadena. Por ejemplo, si estuviéramos presentó una serie de líneas con el siguiente formato: 

De stephen.marquard@uct.ac.za Sat Jan 5 09:14:16 2008 

y queríamos sacar sólo la segunda mitad de la dirección (es decir, uct.ac.za) de cada línea, podemos hacer esto usando el método **find** y corte de cadenas. 

Primero, encontraremos la palabra que se encuentra en la posición anterior. Luego encontraremos la posición del primer espacio de la palabra que se encuentra en la posición anterior Y luego usaremos el corte de la cadena para extraer la porción de la palabra que estamos buscando. 

In [57]:
data = 'De stephen.marquard@uct.ac.za Sat Jan 5 09:14:16 2008'
enlaposicion = data.find('@')
print(enlaposicion)

19


In [58]:
espacioenlaposicion = data.find(' ',enlaposicion)
print(espacioenlaposicion)

29


In [60]:
host = data[enlaposicion+1:espacioenlaposicion]
print(host)

uct.ac.za


Utilizamos una versión del método de búsqueda que nos permite especificar una posición en la cadena donde queremos encontrar para empezar a buscar. Cuando cortamos, extraemos la personajes desde "uno más allá de la señal de "@" hasta, pero sin incluir, el espacio del caracter". 

La documentación para el método de búsqueda **find** está disponible en https://docs.python.org/library/stdtypes.html#string-methods.

# Operador de formato

El operador de formato, % nos permite construir cadenas, reemplazando partes de las cadenas con los datos almacenados en las variables. Cuando se aplica a números enteros, % es el operador de módulo. Pero cuando el primer operando es una cadena, % es el operador de formato. 

El primer operando es la cadena de formato, que contiene una o más secuencias de formato que especifican cómo se formatea el segundo operando. El resultado es una cadena.

Por ejemplo, la secuencia de formato %d significa que el segundo operando debe formatearse como un número entero ("d" significa "decimal"): 

In [61]:
camellos = 42
'%d' % camellos

'42'

El resultado es la cadena "42", que no debe confundirse con el valor entero 42. 

Una secuencia de formato puede aparecer en cualquier parte de la cadena, de modo que se puede incrustar un valor en una frase:

In [63]:
camellos = 45
'He visto %d camellos' % camellos

'He visto 45 camellos'

# Caracteres especiales en el string

Como en otros lenguajes, Python tiene caracteres especiales que interpreta dentro de los string. Por ejemplo \n es un retorno de carro (nueva línea), \t es un tabulador. En string and bytes literals tienes una tabla completa con todos los caracteres de escape de los string de Python.

Podemos, al definir una cadena, usar una r justo delante de la apertura de las comillas. Esto evitará que Python interprete los caracteres especiales y los tratará como caracteres normales.

In [64]:
# Saldrán dos líneas en pantalla, una con Hola, la otra con Mundo
cadena = "Hola\nMundo"  
print(cadena)

Hola
Mundo


In [65]:
# Saldrá una única línea en pantalla y la \ y la n será visibles como caracteres normales.
cadena2 = r"Hola\nMundo"
print(cadena2)

Hola\nMundo


# Contar número de veces que el substring aparece en el string : count

El método count nos dice cuántas veces aparece el substring dentro del string. Admite un parámetro que es el substring a buscar, y opcionalmente otros dos, los índices de inicio y fin de búsqueda. Veamos ejemplos

In [66]:
cadena = "un uno, un dos, un tres"

print (cadena.count("un"))        # Saca 4, hay 4 "un" en cadena.
print (cadena.count("un",10))     # Saca 1, hay 1 "un" a partir de la posición 10 de cadena.
print (cadena.count("un",5,10))   # Saca 3, hay 3 "un" entre la posición 0 y la 10.

4
1
1


# Reemplazar substring en string : replace

El método replace nos permite obtener una copia de la cadena original (no reemplaza en la cadena original) en la que se reemplaza el substring que se le indique por uno nuevo. Admite tres parámetros, el primero es el substring que tiene que buscar, el segundo es el nuevo substring que tiene que poner y el tercero, opcional, es cuántas veces tiene que hacer el reemplazo. Veamos ejemplos

In [69]:
cadena = "un uno, un dos, un tres"

print (cadena.replace("un", "XXX"))        # saca por pantalla "XXX XXXo, XXX dos, XXX tres"
print (cadena.replace("un", "XXX", 3))     # Sólo reemplaza 2 "un", así que saca por pantalla "XXX XXXo, un dos, un tres"

XXX XXXo, XXX dos, XXX tres
XXX XXXo, XXX dos, un tres


# el método format() de string

Se pueden definir variables y poner llaves {} en el string donde van a ir los números o caracteres. Entre paréntesis pasamos los valores. Unos ejemplos sencillos

In [70]:
# saca "El valor es 12
print ("El valor es {}".format(12))

# saca "El valor es 12.3456
print ("El valor es {}".format(12.3456))

# Tres conjuntos {}, el primero para el primer parámetro de format(), el segundo para el segundo
# y así sucesivamente.
# saca "Los valores son 1, 2 y 3"
print ("Los valores son {}, {} y {}".format(1,2,3))

# Entre las llaves podemos poner la posición del parámetro. {2} es el tercer parámetro de format()
# {0} es el primer parámetro de format.
# saca "Los valores son 3, 2 y 1"
print ("Los valores son {2}, {1} y {0}".format(1,2,3))

El valor es 12
El valor es 12.3456
Los valores son 1, 2 y 3
Los valores son 3, 2 y 1


Si a los parámetros les damos nombre, podemos usar ese nombre en vez de su número de posición

In [71]:
# saca "2 y 1"
print ("{pepe} y {juan}".format(juan=1, pepe=2))

2 y 1


Podemos dar formato a los números para indicar cuántas cifras y decimales queremos, siguiendo una sintaxis similar al operador % que acabamos de ver. También podemos mezclar este formato con el número o nombre de posición del parámetro.

# Concatenar

Este término significa juntar cadenas de caracteres. El proceso de concatenación se realiza mediante el operador de suma (+). Ten en cuenta que debes marcar explícitamente dónde quieres los espacios en blanco y colocarlos entre comillas.

En este ejemplo, la cadena de caracteres “mensaje1” tiene el contenido “Hola Mundo”

In [72]:
mensaje1 = 'Hola' + ' ' + 'Mundo'
print(mensaje1)

Hola Mundo


# Multiplicar
Si quieres varias copias de una cadena de caracteres utiliza el operador de multiplicación (*). En este ejemplo, la cadena de caracteres mensaje2a lleva el contenido “Hola” tres veces, mientras que la cadena de caracteres mensaje2b tiene el contenido “Mundo”. Ordenemos imprimir las dos cadenas.

In [73]:
mensaje2a = 'Hola ' * 3
mensaje2b = 'Mundo'
print(mensaje2a + mensaje2b)

Hola Hola Hola Mundo


# Añadir
¿Qué pasa si quieres añadir material de manera sucesiva al final de una cadena de caracteres? El operador especial para ello es compuesto (+=).

In [74]:
mensaje3 = 'Hola'
mensaje3 += ' '
mensaje3 += 'Mundo'
print(mensaje3)

Hola Mundo


 # Uso de las funciones split y join
 Como parte de la manipulación de strings y listas, en este post ilustraremos el uso de las funciones split y join en Python. La función join convierte una lista en una cadena formada por los elementos de la lista separados por comas. Por otro lado, split convierte una cadena de texto en una lista. Por defecto, los elementos de dicha lista serán las palabras de la cadena.

 

Ejemplos del uso de join
Para empezar, consideremos la siguiente lista:

In [75]:
paises = [ 'Argentina', 'Uruguay', 'Chile', 'Paraguay', 'Brasil', 'Bolivia' ]

Si deseamos convertir esta lista en una cadena de texto, utilizaremos la función join de la siguiente manera:


In [78]:
'-'.join(paises)

'Argentina-Uruguay-Chile-Paraguay-Brasil-Bolivia'

donde sep representa el o los caracteres que deseamos utilizar como delimitador.

En concreto,

In [79]:
paisesString = ','.join(paises)


devolverá el siguiente resultado

In [80]:
print(paisesString)

Argentina,Uruguay,Chile,Paraguay,Brasil,Bolivia


Si deseamos utilizar los caracteres === como separador, tendremos que hacer

In [81]:
paisesString = '==='.join(paises)


obteniendo como resultado

In [82]:
print(paisesString)

Argentina===Uruguay===Chile===Paraguay===Brasil===Bolivia


# Ejemplo del uso de split
Ahora consideremos la siguiente cadena:

In [83]:
nombreString = 'Mi nombre es Gabriel'

Al utilizar la función split de la siguiente manera

In [84]:
nombreLista = nombreString.split()

obtendremos lo siguiente:

In [85]:
print(nombreLista)

['Mi', 'nombre', 'es', 'Gabriel']


Como sucede en el caso de join, también es posible especificar un distinto separador para split. Si en la cadena de texto que deseamos convertir a lista las palabras estuvieran separadas por un salto de línea, como por ejemplo:

In [86]:
nombreString = '''Fulano
Mengano
Suntano'''

En este caso,

In [91]:
nombreLista = nombreString.split(sep='n')

devolverá

In [90]:
print(nombreLista)

['Fulano', 'Mengano', 'Suntano']


# Qué es el tipo set en Python

El tipo set en Python es utilizado para trabajar con conjuntos de elementos. La principal característica de este tipo de datos es que es una colección cuyos elementos no guardan ningún orden y que además son únicos.

Estas características hacen que los principales usos de esta clase sean conocer si un elemento pertenece o no a una colección y eliminar duplicados de un tipo secuencial (list, tuple o str).

Además, esta clase también implementa las típicas operaciones matemáticas sobre conjuntos: unión, intersección, diferencia, …

Para crear un conjunto, basta con encerrar una serie de elementos entre llaves {}, o bien usar el constructor de la clase set() y pasarle como argumento un objeto iterable (como una lista, una tupla, una cadena …).

In [94]:
# Crea un conjunto con una serie de elementos entre llaves
# Los elementos repetidos se eliminan
c = {}
c
{1, 2, 3, 9}

# Crea un conjunto a partir de un string
# Los caracteres repetidos se eliminan
a = set()
a
{'a', 'H', 'h', 'y', 'n', 's', 'P', 't', ' ', 'i', 'l', 'o'}

# Crea un conjunto a partir de una lista
# Los elementos repetidos de la lista se eliminan
unicos = set([3, 5, 6, 1, 5])
unicos
{1, 3, 5, 6}

{1, 3, 5, 6}

Para crear un conjunto vacío, simplemente llama al constructor set() sin parámetros.

❗️ IMPORTANTE: {} NO crea un conjunto vacío, sino un diccionario vacío. Usa set() si quieres crear un conjunto sin elementos.

🎯 NOTA: Los elementos que se pueden añadir a un conjunto deben ser de tipo hashable. Un objeto es hashable si tiene un valor de hash que no cambia durante todo su ciclo de vida. En principio, los objetos que son instancias de clases definidas por el usuario son hashables. También lo son la mayoría de tipos inmutables definidos por Python.

# Añadir elementos a un conjunto (set) en Python

Para añadir un elemento a un conjunto se utiliza el método add(). También existe el método update(), que puede tomar como argumento una lista, tupla, string, conjunto o cualquier objeto de tipo iterable.

In [95]:
mi_conjunto = {1, 3, 2, 9, 3, 1}
mi_conjunto
{1, 2, 3, 9}

# Añade el elemento 7 al conjunto
mi_conjunto.add(7)
mi_conjunto
{1, 2, 3, 7, 9}

# Añade los elementos 5, 3, 4 y 6 al conjunto
# Los elementos repetidos no se añaden al conjunto
mi_conjunto.update([5, 3, 4, 6])
mi_conjunto
{1, 2, 3, 4, 5, 6, 7, 9}

{1, 2, 3, 4, 5, 6, 7, 9}

🎯 NOTA: add() y update() no añaden elementos que ya existen al conjunto.

# Eliminar un elemento de un conjunto en Python

La clase set ofrece cuatro métodos para eliminar elementos de un conjunto. Son: discard(), remove(), pop() y clear(). A continuación te explico qué hace cada uno de ellos.

discard(elemento) y remove(elemento) eliminan elemento del conjunto. La única diferencia es que si elemento no existe, discard() no hace nada mientras que remove() lanza la excepción KeyError.

pop() es un tanto peculiar. Este método devuelve un elemento aleatorio del conjunto y lo elimina del mismo. Si el conjunto está vacío, lanza la excepción KeyError.

Finalmente, clear() elimina todos los elementos contenidos en el conjunto.

In [96]:
mi_conjunto = {1, 3, 2, 9, 3, 1, 6, 4, 5}
mi_conjunto
{1, 2, 3, 4, 5, 6, 9}

# Elimina el elemento 1 con remove()
mi_conjunto.remove(1)
mi_conjunto
{2, 3, 4, 5, 6, 9}

# Elimina el elemento 4 con discard()
mi_conjunto.discard(4)
mi_conjunto
{2, 3, 5, 6, 9}

# Trata de eliminar el elemento 7 (no existe) con remove()
# Lanza la excepción KeyError
mi_conjunto.remove(7)


# Trata de eliminar el elemento 7 (no existe) con discard()
# No hace nada
mi_conjunto.discard(7)
mi_conjunto
{2, 3, 5, 6, 9}

# Obtiene y elimina un elemento aleatorio con pop()
mi_conjunto.pop()
2
mi_conjunto
{3, 5, 6, 9}

# Elimina todos los elementos del conjunto
mi_conjunto.clear()
mi_conjunto
set()

KeyError: 7

# Cómo saber si un elemento está en un conjunto
Con los conjuntos también se puede usar el operador de pertenencia in para comprobar si un elemento está contenido, o no, en un conjunto:

In [None]:
mi_conjunto = set([1, 2, 5, 3, 1, 5])
print(1 in mi_conjunto)
True
print(6 in mi_conjunto)
False
print(2 not in mi_conjunto)
False