# Strings o cadenas en Python

<div style="text-align: right">Autor: Luis A. Muñoz - 2021 </div>

Un string o cadena es una secuencia de caracteres (aunque esta secuencia tenga un solo caracter o cero caracteres, como una cadena vacia "") la cual puede ser especificada utilizando comillas dobles, simples o inclusive triple comilla.

Un string también es un contenedor o una colección como lo son las listas y tuplas, pero que solo puede almacenar caracteres

In [1]:
#creando strings (cadenas):

cad1 = "Soy un string"
cad2 = 'Tambien soy un string'
cad3 = """Y yo tambien soy      
      un string"""
cad4 = '''Y pos supuesto 
    yo tambien'''  
cad5 = 'g'  #cadena de un solo caracter (no existe tipo char)
cad6 = '' #cadena vacía (0 caracteres)

print(cad1)
print(cad2)
print(cad3)
print(cad4)
print(cad5)
print(cad6)
print(type(cad6)) #observando el tipo de una de las cadenas

Soy un string
Tambien soy un string
Y yo tambien soy      
      un string
Y pos supuesto 
    yo tambien
g

<class 'str'>


Recuerde que No existe diferencia entre utilizar "" o '' aunque si en los casos de triple comilla, ya que aqui se define un bloque string con formato incluido. Por ejemplo:

In [6]:
print("""Esto se imprimira en una linea
y esto en la segunda linea""")

Esto se imprimira en una linea
y esto en la segunda linea


Ojo: Esto, con una sola comilla, generará un error:

In [6]:
print("Y yo tambien soy      
      un string")  

SyntaxError: EOL while scanning string literal (<ipython-input-6-bb7e29c1dd87>, line 1)

Aunque se puede utilizar el caracter de escape \ para indicar que la instrucción continúa en la línea de abajo, pero la impresión se mantiene en la misma línea porque no existe un caracter de escape de nueva línea (como \n).

In [7]:
print("Esto se imprimirá en una linea \
y esto también")

Esto se imprimirá en una linea y esto también


### Indexación en cadenas:

Las cadenas son tipos de datos que son indexables, es decir que al igual que las tuplas y listas, soportan índices e index slicing. Revise las siguientes instrucciones y evalúe los resultados obtenidos:

In [4]:
#ejemplos:

texto = "Las cadenas en Python son facil de entender"
print(texto)

# Puedo obtener la primea letra de la cadena
print("Primera letra:", texto[1])

# O puedo obtener la ultima letra
print("Ultima letra:", texto[-1])

# O puedo obtener un extracto de la cadena
print("Lenguaje de programacion:", texto[15:21])

# Y no es necesario especificar el final si es hasta el final de la cadena
print("Ultima palabra:", texto[-8:])

# Y asi tampoco especificar el inicio si es desde es desde el inicio de la cadena
print("Primera palabra:",texto[:2])

Las cadenas en Python son facil de entender
Primera letra: a
Ultima letra: r
Lenguaje de programacion: Python
Ultima palabra: entender
Primera palabra: La


In [5]:
#otros ejemplos:

texto = "Soy un texto de prueba"

print(texto[0])
print(texto[-1])
print(texto[:10])
print(texto[::3])

S
a
Soy un tex
S  x  ua


### ¿Las cadenas son mutables o inmutables?

Una característica importante a considerar es que los string __son inmutables__: 

In [2]:
texto[0] = 's'

NameError: name 'texto' is not defined

El error que arroja el intérprete de Python es el mismo que se obtenía al intentar asignar un valor a un elemento de una tupla: este objeto no soporta asignación de items.

### Iterabilidad de una cadena

Por otro lado, un string es un *iterable*, es decir que puede formar parte de un lazo `for` y por lo tanto; en cada iteración retornará cada uno de sus caracteres (incluyendo los espacios en blanco: también son caracteres).

In [3]:
texto = "Soy un texto de prueba"

for char in texto:
    print(char)

S
o
y
 
u
n
 
t
e
x
t
o
 
d
e
 
p
r
u
e
b
a


In [60]:
#otro ejemplo:

for  car in "PYTHON":
    print(car)

P
Y
T
H
O
N


### Operaciones y funciones útiles con strings

Los strings soportan los operadores `+` y `*`:

El operador + permite concatenar 2 o mas strings dando como resultado otro string

In [6]:
cad1 = "Perú"
cad2 = "Chile-Brasil"
cad3 = cad1 + "-" + cad2
print(cad3)

Perú-Chile-Brasil


In [11]:
# Puedo actualizar una cadena:
texto = ""
texto+="gracias por estudiar python"
texto+=", un lenguaje interesante"
print(texto)

gracias por estudiar python, un lenguaje interesante


El operador * permite concatenar un string consigo mismo tantas veces lo indique el factor entero, formándose un nuevo string con el resultado

In [1]:
#ejemplo:

cad = "Arriba Perú "
res = cad*5
print(res)

Arriba Perú Arriba Perú Arriba Perú Arriba Perú Arriba Perú 


In [15]:
#un ejemplo combinado:

texto = "Python es genial en cambio C++ puede ser " + "Z" * 3 + "z" * 3 + "." * 3
print(texto)

Python es genial en cambio C++ puede ser ZZZzzz...


### Algunas funciones BIF importantes para cadenas:

La función `len()` permite conocer el número de caracteres de un string (de forma semejante al número de elementos de una tupla/lista). 

In [24]:
#ejemplo:
tam=len("Hola Mundo soy Python") #ojo, cuenta tambien los espacios
print(tam) 

21


Otro ejemplo: Se puede subrayar un texto de forma interactiva:

In [115]:
titulo = "Mensaje a Subrayar"
print(titulo)
print("="*len(titulo))

Mensaje a Subrayar


La función *sorted()* retorna una lista con los caracteres de la cadena enviada como argumento, pero ordenados alfabéticamente

In [17]:
sorted("Hola Juan")

[' ', 'H', 'J', 'a', 'a', 'l', 'n', 'o', 'u']

En el ejemplo anterior, dado que en la cadena enviada no todos los caracteres son letras y ademas
no todas las letras son solo minúsculas o máyusculas se hace un ordenamiento por grupos

También se puede usar la función *enumerate* para cadenas:

In [57]:
for indice,car in enumerate("Python"):
    print(indice,car)

0 P
1 y
2 t
3 h
4 o
5 n


También se puede usar la función *zip* para cadenas:

In [59]:
for c1,c2 in zip("Python","01234"):
    print(c1,c2)

P 0
y 1
t 2
h 3
o 4


### Importante saber:

Los caracteres son almacenados en un sistema informático como valores enteros que representan un número binario de 8 bits cada uno (1 byte), dichos caracteres están especificados en la codificación ASCII. Sin embargo, no solo en el mundo existe el idioma español y el inglés, existe el chino, ruso, árabe, etc. por lo que hay una codificación mas amplia que el ASCII llamada Unicode, de forma tal que hay caracteres de 1 byte y otros de hasta 4 bytes. El estándar UTF-8 permite representar caracteres usando la codificación Unicode y es el estándar utilizado por Python.

### Otras funciones BIF interesantes:

Para conocer el código Unicode de un caracter se recurre a la funcion `ord()`, y para conocer el caracter al que le corresponde un código Unicode se utiliza `chr()`:

In [20]:
#ejemplos:

print("A = ",ord('A'))
print("65 = ",chr(65))
print("# = ",ord('#'))
print("35 = ",chr(35))

A =  65
65 =  A
# =  35
35 =  #


In [21]:
#Pero ahora puedo conocer algún otro caracter fuera del sistema ASCII
print("3000 = ",chr(3000))

3000 =  ஸ


### uso de la instrucción `in`

Se sabe que la instrucción `in` permite evaluar si un dato pertenece o no 
a un conjunto de datos, por lo que también se puede usar con strings.

In [26]:
#Ejemplo:

vocales = "aeiou"

print("'a' es una vocal minúscula?",'a' in vocales)
print("'B' es una vocal minúscula?",'B' in vocales)
print("'ou' esta en la cadena vocales?",'ou' in vocales)
print("'uo' esta en la cadena vocales?",'uo' in vocales)

'a' es una vocal minúscula? True
'B' es una vocal minúscula? False
'ou' esta en la cadena vocales? True
'uo' esta en la cadena vocales? False


## Métodos de un str
La lista de métodos de un string es bastante amplia:

In [26]:
dir(str)

['__add__',
 '__class__',
 '__contains__',
 '__delattr__',
 '__dir__',
 '__doc__',
 '__eq__',
 '__format__',
 '__ge__',
 '__getattribute__',
 '__getitem__',
 '__getnewargs__',
 '__gt__',
 '__hash__',
 '__init__',
 '__init_subclass__',
 '__iter__',
 '__le__',
 '__len__',
 '__lt__',
 '__mod__',
 '__mul__',
 '__ne__',
 '__new__',
 '__reduce__',
 '__reduce_ex__',
 '__repr__',
 '__rmod__',
 '__rmul__',
 '__setattr__',
 '__sizeof__',
 '__str__',
 '__subclasshook__',
 'capitalize',
 'casefold',
 'center',
 'count',
 'encode',
 'endswith',
 'expandtabs',
 'find',
 'format',
 'format_map',
 'index',
 'isalnum',
 'isalpha',
 'isascii',
 'isdecimal',
 'isdigit',
 'isidentifier',
 'islower',
 'isnumeric',
 'isprintable',
 'isspace',
 'istitle',
 'isupper',
 'join',
 'ljust',
 'lower',
 'lstrip',
 'maketrans',
 'partition',
 'replace',
 'rfind',
 'rindex',
 'rjust',
 'rpartition',
 'rsplit',
 'rstrip',
 'split',
 'splitlines',
 'startswith',
 'strip',
 'swapcase',
 'title',
 'translate',
 'upper',


Como se puede observar, ¡un objeto string tiene muchos métodos disponibles! Algunos ya los hemos estado utilizando (como *split* y *format*)

**Importante**

Dado que un string es inmutable, entonces muchos de los métodos retornan cadenas nuevas con el resultado de sus aplicaciones; es decir no modifican la cadena original (no como en las listas, en donde se modificaba la lista misma)

Si desea "simular" que una cadena a la cual se le aplica un método, cambie su contenido, debemos aplicar una actualización, osea utilizar este esquema:

                        cad = cad.método()

####  Vamos a revisar los métodos de uso más común y separarlos por categorías. 

Métodos que eliminan caracteres de "cabeza" y "cola" (ubicados al principio y/o al final) de un string:

    * str.strip(arg)   : Elimina caracteres al inicio y al final del 
                         string str. Los caracteres a eliminar son 
                         especificados en el string arg.
                         
    * str.lstrip(arg)  : Elimina caracteres al inicio del string str
                         (osea a la izquierda. "l":left). Los caracteres a
                         eliminar son especificados en el string arg.
                         
    * str.rstrip(arg)  : Elimina caracteres al final del string str
                         (osea a la derecha. "r":right). Los caracteres a
                         eliminar son especificados en el string arg.  

In [49]:
#Ejemplo:

cad1 = "%%%%%%%Programar######"  #texto original
print("|{}|".format(cad1))
cad1 = cad1.strip("%#")  #cad1 no tiene caracteres % al inicio y
                         #tampoco caracteres # al final
print("|{}|".format(cad1))
print()

cad2 = "%%%%%%%Programar######"  #texto original
print("|{}|".format(cad2))
cad2 = cad2.lstrip("%")  #cad2 no tiene caracteres % al inicio 
print("|{}|".format(cad2))
print()

cad3 = "%%%%%%%Programar######"  #texto original
print("|{}|".format(cad3))
cad3 = cad3.rstrip("#")  #cad3 no tiene caracteres # al final
print("|{}|".format(cad3))

|%%%%%%%Programar######|
|Programar|

|%%%%%%%Programar######|
|Programar######|

|%%%%%%%Programar######|
|%%%%%%%Programar|


Como estos métodos retornan cadenas nuevas podemos usar *print* para imprimir los resultados:

In [19]:
#Ejemplo:

print(",,,,,rrttgg.....banana.....rrr".strip(",.grt"))

banana


Estos métodos cuando se usan sin argumento eliminaran todo caracter que no es visible en una impresión: espacios en blanco, \n,\t, etc. ya sea al inicio y/o al final del string según sea el caso.

In [25]:
#ejemplos:

texto = "           este es un texto       "

print("|{}|".format(texto))  #texto original
print("|{}|".format(texto.strip())) #no tiene espacios en blanco antes ni despues
print("|{}|".format(texto.lstrip())) #l: left (no tiene espacios en blanco antes)
print("|{}|".format(texto.rstrip())) #r: right (no tiene espacios en blanco despues) 

|           este es un texto       |
|este es un texto|
|este es un texto       |
|           este es un texto|


In [36]:
#otros ejemplos:

#eliminando el caracter \n ubicado al final del texto
print("Al final de este mensaje hay un caracter de nueva linea\n".strip(),end='')
print("....")

#eliminando los \n al inicio y los \t, \n y espacios al final del texto
print("\n\n\n\tEste es un texto de prueba\t\t  \t\n".strip())

Al final de este mensaje hay un caracter de nueva linea....
Este es un texto de prueba


Al ser un string un contenedor como lo son las listas y tuplas también se puede utilizar por ejemplo, al método **index** para buscar la primera ocurrencia de una cadena en otra cadena.

In [37]:
#ejemplos:

texto = " Aprendiendo a utilizar métodos para cadenas en Python"

print("El primer espacio en blanco esta en la posicion", texto.index(' '))
print("El segundo espacio en blanco esta en la posicion", texto.index(' ',11))
print("La palabra 'Python' inicia en la posicion", texto.index('Python'))

El primer espacio en blanco esta en la posicion 0
El segundo espacio en blanco esta en la posicion 12
La palabra 'Python' inicia en la posicion 48


Métodos que modifican los caracteres de un `str` según estén en MAYUSCULAS o minúsculas:
    
    * str.capitalize()      : Capitaliza un str, es decir, convierte su
                              primer caracter (en caso sea letra) en
                              mayúscula y las demas letras en minúscula      
                              
    * str.title()           : Convierte un str en un "titulo", es decir, la
                              primer letra encontrada en cada palabra pasa
                              a mayúscula y las demas letras a minúsculas.
                              
    * str.upper()           : Convierte todas las letras de un str en 
                              MAYUSCULAS
                              
    * str.lower()           : Convierte todas las letras de un str en 
                              minúsculas
                              
    * str.swapcase()        : Intercambia las letras MAYUSCULAS por 
                              minúsculas y viceversa en un string.
                              
Como estos métodos retornan cadenas nuevas podemos usar *print* para imprimir los resultados.

In [6]:
#ejemplos:
texto = "todo cORReo electrónico terMina con @dominio"

print(texto.capitalize())
print(texto.upper())
print(texto.lower())
print(texto.title())
print(texto.swapcase())

Todo correo electrónico termina con @dominio
TODO CORREO ELECTRÓNICO TERMINA CON @DOMINIO
todo correo electrónico termina con @dominio
Todo Correo Electrónico Termina Con @Dominio
TODO CorrEO ELECTRÓNICO TERmINA CON @DOMINIO


Como los métodos de un `str` retornan un nuevo `str`, se pueden encadenar en secuencia con otros métodos que tambíen retornan un nuevo `str`. 

In [63]:
#ejemplos:

texto = "        este es un texto de prueba    "
print(texto.strip().capitalize())
print(texto.strip().upper())
print(texto.strip().lower())
print(texto.strip().title())
print(texto.strip().title().swapcase())

Este es un texto de prueba
ESTE ES UN TEXTO DE PRUEBA
este es un texto de prueba
Este Es Un Texto De Prueba
eSTE eS uN tEXTO dE pRUEBA


Por ejemplo en la instrucción *texto.strip().capitalize()*  primero se eliminan los espacios en blanco al principio y al final del texto y luego se capitaliza el `str` resultante.

Métodos que cuentan ocurrencias dentro de un `str` o reemplazan su contenido según un criterio de búsqueda:

    * str.count(cad)           : Cuenta el número de veces que el string
                                 cad esta en el string str
                                       
    * str.replace(cad1,cad2)   : Todas las ocurrencias del string cad1 
                                 encontradas en el string str, son 
                                 reemplazadas por el string cad2
                                       
    * str.find(cad)      : Busca la primera ocurrencia del string cad en el
                           string str, retornando el índice de str donde se
                           encuentre el caracter inicial de cad
                                       
    * str.rfind(cad)   : Busca de derecha a izquierda la primera ocurrencia
                         del string cad en el string str, retornando el 
                         indice de str donde se encuentre el caracter
                         inicial de cad 

In [54]:
#ejemplo:

texto = "tres tristes tigres comen trigo"
print(texto); print()

# Este trabalenguas es dificil por la cantidad de "t"s, "r"s y a combinacion de las dos en la frase
print("Cuantas 't' hay en la frase anterior?", texto.count('t'))
print("Cuantas 'r' hay en la frase anterior?", texto.count('r'))
print("Cuantas 'tr' hay en la frase anterior?", texto.count('tr'))

print()
print("En que indice se encuentra la palabra 'tigres':", texto.find('tigres'))

tres tristes tigres comen trigo

Cuantas 't' hay en la frase anterior? 5
Cuantas 'r' hay en la frase anterior? 4
Cuantas 'tr' hay en la frase anterior? 3

En que indice se encuentra la palabra 'tigres': 13


In [55]:
#otro ejemplo:

texto = "lo que no te mata te hace mas fuerte"
print(texto); print()

# Podemos reemplazar parte de una cadena por otra
print(texto.replace("hace", "hara"))

lo que no te mata te hace mas fuerte

lo que no te mata te hara mas fuerte


In [53]:
#otros ejemplos:

texto = "este es un texto de prueba"

print(texto.count("es"))
print(texto.replace("es ","no es "))
print(texto.find("es"))
print(texto.rfind("es")) #¿Entiende porque se obtiene el 5 como resultado?

2
este no es un texto de prueba
0
5


Tenemos un método que ya es conocido: *split*, pero esta vez vamos a formalizarlo:

    * str.split(arg)   : Separa un string en substrings retornando una 
                         lista con los substrings resultantes. El string
                         separador es especificado en arg                

In [20]:
#ejemplos:
l1 = "Juan--Alberto--Maite--Luis".split("--")
print(l1)

l2 = "Solo se que nada se".split("se")
print(l2)

['Juan', 'Alberto', 'Maite', 'Luis']
['Solo ', ' que nada ', '']


El método *split* sin argumento, indica que el string separador será toda secuencia de caracteres que no es visible en una impresión: los caracteres de espacios en blanco, \n, \t, etc.

In [50]:
#ejemplos:

l_palabras = "una   golondrina   no     hace    verano".split()
print(l_palabras)

l3 = "Este es\n\nun texto\t\t\t\tde    prueba".split()
print(l3)

['una', 'golondrina', 'no', 'hace', 'verano']
['Este', 'es', 'un', 'texto', 'de', 'prueba']


El proceso inverso a lo que hace el método *split* se puede realizar con el método *join*:

    * cad.join(lista)  : Retorna un string con los substrings de la lista,
                         unidos por el string cad

In [24]:
#ejemplos :
l_palabras = "una golondrina no hace verano".split()
print(" ".join(l_palabras))

cad = "---".join(["Perú","Chile","Brasil"])
print(cad)

una golondrina no hace verano
Perú---Chile---Brasil


Otros métodos son aquellos que evaluan un string dependiendo de un criterio, retornando valor booleano (True o False)

    * str.isspace()    : Retorna True si el string str esta compuesto solo 
                         de caracteres no visibles en una impresión: 
                         espacios en blanco, \n, \t, etc.
    
    * str.isupper()    : Retorna True si todas las letras del string str
                         son MAYUSCULAS
                         
    * str.islower()    : Retorna True si todas las letras del string str
                         son minúsculas
                         
    * str.isdigit()    : Retorna True si todos los caracteres del string
                         str son dígitos
    
    * str.isalpha()    : Retorna True si todos los caracteres del string
                         str son letras 
                         
    * str.isalnum()    : Retorna True si todos los caracteres del string
                         str son letras o dígitos.
                         
    * str.isprintable(): Retorna True si todos los caracteres del string
                         str son imprimibles (no son Tab \t, Enter \n, etc)

In [45]:
#Ejemplos:

print("abcde".isalpha())
print("AbCdE".isalpha())
print("AbCdE3#".isalpha())
print("g".isalpha())

True
True
False
True


In [46]:
#Ejemplos:

print("123".isdigit())
print("12SDD3".isdigit())
print("0.78".isdigit())
print("7".isdigit())

True
False
False
True


In [48]:
#Ejemplos:

print("dina4ever".isalnum())
print("MAITe7ever".isalnum())
print("$%3ARt5".isalnum())
print("r".isalnum())

True
True
False
True


In [124]:
print("Hola\ntexto".isprintable())
print("r5#4@".isprintable())
print("&".isprintable())

False
True
True


In [125]:
print("HOLA".isupper())
print("HolAs".isupper())
print("CLUB-34".isupper())
print("A".isupper())

True
False
True
True


In [126]:
print("abcde".islower())
print("HolAs".islower())
print("club-34".islower())
print("x".islower())

True
False
True
True


In [85]:
print("   ".isspace())
print("   h   ".isspace())
print("\n\n\n\n\n\n".isspace())
print("\n\nrrr\n\n\n".isspace())
print(" ".isspace())
print("\n".isspace())

True
False
True
False
True
True


### TIPS Importantes:

Se puede juntar el concepto de listas por comprehensión junto a otro métodos vistos celdas arriba para formar una cadena:

In [65]:
#formando una cadena con todos los digitos de otra cadena
l = [car  for car in "covid-19" if car.isdigit()]
cad = ''.join(l)
print(cad)

19


Se puede juntar el concepto de mapeo y filtraje junto a otro métodos vistos celdas arriba para formar una cadena:

In [63]:
#formando una cadena con los valores unicode de cada caracter de otra cadena:
l = list(map(lambda x:str(ord(x)),"pyhton"))
cad = ''.join(l)
print(cad)

112121104116111110


In [64]:
#formando una cadena con las letras mayúsculas de otra cadena:

l = list(filter(lambda x:x.isupper(),"Programa en PYTHON"))
cad = ''.join(l)
print(cad)

PPYTHON


Gracias a la función *ord* vista celdas arriba es que se permite manipular caracteres como si fueran numeros, lo que es muy útil para cifrar texto o para hacer modificaciones en una cadena. Por ejemplo el *cifrado Cesar*, donde cada letra es desplazada hacia la derecha (o la izquierda) un numero de espacios. Digamos que queremos construir un cifrador Cesar de despazamiento 5 a la derecha:

In [56]:
texto = "Este es un mensaje super secreto! Mandar el mensaje lineas abajo..."
print("Mensaje:", texto)

# Se necesita desplazar todos los caracteres del texto cinco caracteres 
#a la derecha de forma que 'a' -> 'f', 'b' -> 'g', ..., 'z' -> 'e'
texto_cifrado = ''
for letra in texto:
    # Si el caracter es una letra...
    if letra.isalpha():
        # Se desplaza este caracter 5 espacios a la derecha
        code = ord(letra) + 5
        # Y si son las letras "v...z" que se salen del alfabeto,
        #hay que retornarlas a "a...e"
        # Esto es: 26 caracteres mas abajo
        if letra.isupper() and code > ord('Z'):
            code -= 26
        elif letra.lower() and code > ord('z'):
            code -= 26
        # Se concatena el texto cifrado
        texto_cifrado += chr(code)
    # De lo contrario, si es un numero, espacio en blanco o simbolo de puntuacion...
    else:
        # Se concatena el texto cifrado tal y como esta en el mensjae original
        texto_cifrado += letra
        
print("Cifrado:",texto_cifrado)

Mensaje: Este es un mensaje super secreto! Mandar el mensaje lineas abajo...
Cifrado: Jxyj jx zs rjsxfoj xzujw xjhwjyt! Rfsifw jq rjsxfoj qnsjfx fgfot...


¿Puede convertir este programa en una funcion? Por ejemplo **cifrado_cesar(cadena, despz)** donde *cadena* sera el agumento con el texto y *despz* el numero de letras a desplazar (sea positivo o negativo).

Ideas clave:

* Los strings representan cadenas de caracteres y son objetos inmutables
* Los strings soportan indexación como las listas y tuplas.
* Los caracteres en Python son datos codificados en utf-8 como valores enteros.
* La manipulación de strings se realiza por medio de los métodos de la clase string

Informacion:
* https://www.programiz.com/python-programming/string

---