# Sesion 5 - Strings
<div style="text-align: right">Autor: Luis A. Muñoz - 2020 </div>

Ideas clave:

* Los strings representan cadenas de caracteres y son objetos inmutables
* Los strings soportan indexación como las listas y tuplas.
* Los caracteres en Python son datos codificados en utf-8 como valores enteros.
* La manipulación de strings se realiza por medio de los métodos de la clase string

Informacion:
* https://www.programiz.com/python-programming/string

---

## strings en Python
Un string es una secuencia de caracteres (aunque esta secuencia tenga cero elementos, como una cadena vacia ""). Este puede ser especificado utilizando comillas doblas, simples o inclusive tiple comilla.

In [None]:
print("Soy un string")
print('También soy un string')
print("""Y yo tambien soy un string""")
print('''Y por supuesto yo tambien''')

print(type(""))

No existe diferencia entre utilizar "" o '' aunque si en los casos de triple comilla, ya que aqui se define un bloque string con formato incluido. Por ejemplo:

In [None]:
print("""Esto se imprimira en una linea
y esto en la segunda linea""")

Esto, con una sola comilla, generará un error:

In [None]:
print("Esto se imprimira en una linea
y esto en la segunda linea")

Aunque se puede utilizar el caracter de escape `\` para indicar que la instrucción continúa en la línea de abajo, pero la impresión se mantiene en la misma linea porque no existe un caracter de escape de nueva línea (como `\n`).

In [None]:
print("Esto se imprimirá en una linea \
y esto también")

Las cadenas son tipos de datos que son indexables, es decir que al igual que las tuplas y listas, soportan índices e index slicing. Revise las siguientes instrucciones y evalúe los resultados obtenidos:

In [None]:
texto = "Soy un texto de prueba"

print(texto[0])
print(texto[-1])
print(texto[:10])
print(texto[::3])
print(texto[::-1])

Una característica importante a considerar es que los string **son inmutables**: 

In [None]:
texto[0] = 's'

El error que arroja el intérprete de Python es el mismo que se obtenía al intentar asignar un valor a un elemento de una tupla: este objeto no soporta asignación de items.

Por otro lado, un string es un *iterable*, es decir que puede formar parte de un lazo `for` y retornará cada caracter de un string (incluyendo los espacios en blanco: también son caracteres).

In [None]:
for char in texto:
    print(char)

## Operaciones y funciones útiles con strings

Los strings soportan los operadores `+` y `*`:

In [None]:
print("z" * 3 + "." * 6)

Así también, la función `len()` permite conocer el número de caracteres de un string (de forma semejante al número de elementos de una tupla/lista). Combinado con lo anterior, por ejemplo, se puede subrayar un textode forma interactiva:

In [None]:
titulo = "Mensaje a Subrayar"
print(titulo)
print("=" * len(titulo))

Los caracteres son almacenados en un sistema informáticos como valores enteros. Los caracteres en idioma inglés se pueden representar con 8 bits y están especificados bajo el estándar ASCII. Sin embargo, los demás juegos de caracteres (como el español, portugués, ruso, etc.) amplian el estándar (llamado Unicode) y el número de bits necesarios por caracter, de forma tal que hay caracteres de 1 byte y otros de hasta 4 bytes. El estándar UTF-8 soporta la codificación de tamaño variable y es el estándar utilizado por Python.

Para conocer el codigo Unicode de un caracter se recurre a la funcion `ord()`, y para conocer el caracter al que le corresponde un código Unicode se utiliza `chr()`:

In [None]:
print("A =", ord("A"))
print("65 =", chr(65))

## Métodos de un str
La lista de métodos de un string es bastante amplia:

In [None]:
dir(str)

Así que vamos a revisar los de uso más común y separarlos por categorías. Vamos a revisar los métodos que modifican un str eliminando caracteres innecesarios. Aqui debemos entender que "modificar" un str significa obtener un nuevo str modificado (no como en las listas, en donde se modificaba la lista misma). Entonces podemos utilizar estos métodos con `print` ya que generamos una cadena de caracteres nueva que puede ser impresa.

Tenemos los métodos que eliminan los caracteres de "cabeza" y "cola" en un str. Por defecto, estos son los espacios en blanco.

    * str.strip()      : Elimina los caracteres adicionales al inicio y al final de una cadena
    * str.lstrip()     : Elimina los caracteres adicionales al inicio de una cadena (es decir, a la izquierda. "l": left)
    * str.rstrip()     : Elimina los caracteres adicionales al final de una cadena (es decir, a la derecha. "r": right)
    
Veamos algunos ejemplos:

In [None]:
texto = "       este es un texto de prueba    "

print("|{}|".format(texto))            # texto original (como caracteres de limites)
print("|{}|".format(texto.strip()))    # strip: despojar (no tiene espacios en blanco antes ni despues)
print("|{}|".format(texto.lstrip()))   # l: left (no tiene caracteres especiales antes)
print("|{}|".format(texto.rstrip()))   # r: right (no tiene caracteres especiales despues)

Estos métodos permiten especificar los caracteres que se quieran eliminar al principio y/o al final. Por ejemplo:

In [None]:
print(",,,,,rrttgg.....banana....rrr".strip(",.grt"))

Esto también es válido para los caracteres de escape como `\n`. Por ejemplo:

In [None]:
print("Al final de este mensaje hay un caracter de nueva linea\n", end='')   # end='' es para evitar el \n del print()
print("...")
print("Al final de este mensaje ya no hay un caracter de nueva línea\n".strip(), end='')
print("...")

Otros métodos modifican si los caracteres están en MAYUSCULAS o minúsculas:
    
    * str.capitalize()      : Capitaliza un str, es decir, convierte el primer caracter del str en mayuscula
    * str.title()           : Convierte un str en un "titulo", es decir, la primer letra de cada palabra en mayuscula
    * str.upper()           : Convierte todo el str en MAYUSCULAS
    * str.lower()           : Convierte todo el str en minusculas
    * str.swapcase()        : Intercambia MAYUSCULAS por minúsculas y viceversa

In [None]:
texto = "       este es un texto de prueba    "
print(texto.strip().capitalize())
print(texto.strip().upper())
print(texto.strip().lower())
print(texto.strip().title())
print(texto.strip().title().swapcase())

Considere un detalle de los ejemplos anteriores: como los métodos de un str retornan un nuevo str, se pueden encadenar en secuencia como el `texto.strip().capitalize()`. Esto, elimina los espacios en blanco al principio y al final de texto y luego capitaliza el str anterior.

Otros métodos cuentan ocurrencias dentro de un str (es decír, sub-strings) o reemplazan su contenido según un criterio de búsqueda:

    * str.count(substring)           : Cuenta el número de veces que un substring esta en un string
    * str.replace(subtring, str_rep) : Reemplaza un substring por otro string str_rep
    * str.find(substring)            : Retorna el indice del string donde se encuentre el caracter inicial de un substring
    * str.rfind(substring)           : Retorna el indice del string donde se encuentre el caracter inicial de un substring.
                                       Busca el substring de derecha a izquierda

In [None]:
texto = "este es un texto de prueba"
print(texto.count("es"))
print(texto.replace("es ", "no es "))
print(texto.find("es")) 
print(texto.rfind("es"))   # Entiende porque se obtiene el 5 como resultado?

Tenemos un métodos que ya es conocido: split(), pero esta vez vamos a formalizarlo:

    * str.strip()      : Retorna una lista de substring separados por algun caracter (por defecto, espacio en blanco)

In [None]:
l_palabras = "una golondrina no hace verano".split()
print(l_palabras)

El proceso inverso se puede realizar con el método join():

    * str.join(lista)  : Retorna un cadena con los substring de una lista, unidos por el str

In [None]:
print(" ".join(l_palabras))    # Toma las palabras de l_palabras y las une utilizando el " "

Otros métodos de una string incluyen aquellos que consultan si la cadena esta compuesta por caracteres especiales. estos retornan valores booleanos:

    * str.isspace()    : True si str esta compuesta de espacios en blanco
    * str.isupper()    : True si todos los caracteres de str con MAYUSCULAS
    * str.islower()    : True si todos los caracteres de str son minusculas
    * str.isdigit()    : True si todos los catracteres de str son digitos
    * str.isalpha()    : True si todos los caracteres de str son letras alfabeticas
    * str.isalnum()    : True si todos los caracteres de str son letras o números
    * str.isprintable(): True si todos los caracteres de str son imprimibles (no son Tab \n, Enter \n, etc)

In [None]:
print("abcde".isalpha())
print("abc123".isalpha())
print("123".isdigit())
print("dina4ever".isalnum())
print("Hola\ntexto".isprintable())
print("hola".islower())
print("HOLA".isupper())
print("123".isupper())
print("   ".isspace())