# Cadenas y caracteres

### Índice

* [6. Cadenas (`strings`) en Python](#6.-Cadenas-(`strings`)-en-Python)
    * [6.1. Representación de las cadenas](#6.1.-Representación-de-las-cadenas)
    * [6.2. ¿Qué es una cadena?](#6.2.-¿Qué-es-una-cadena?)
    * [6.3 ¿Qué es un caracter?](#6.3-¿Qué-es-un-caracter?)
    * [6.4 Operaciones sobre cadenas](#6.4-Operaciones-sobre-cadenas)
    * [6.5. Listas I](#6.5.-Listas-I)
* [Bibliografía](#Bibliografía)

# 6. Cadenas (`strings`) en Python 

En la sección anterior, usamos cadenas varias veces, tanto como indicaciones para el usuario y como resultado de la función `print()`. Incluso hicimos que el usuario escribiera su nombre y lo almacenara en una variable que podría usarse para acceder a este nombre en un momento posterior. En esta sección exploraremos qué es una cadena y cómo puede trabajar con ellas y manipularlas, pero ¿qué es una cadena?

En Python, **una cadena es una serie o secuencia de caracteres en orden**. En esta definición, un *carácter* es cualquier cosa que pueda escribir en el teclado con solo presionar una tecla, como una letra `'a'`, `'b'`, `'c'` o un número `'1'`, `'2'`, `'3'` o un caracteres especiales como `'\'`, `'['`, `'$'`, e inclusive el espacio en blanco `' '`; aunque no está limitado únicamente a estos caracteres, como veremos más adelante.

Una propiedad de las cadenas es que son inmutables, lo que significa que una vez que se ha creado una cadena, no se puede cambiar (Lo veremos más adelante), por lo que será necesario almacenar cualquier cambio en otra variabe.

Para definir el inicio y el final de una cadena, hemos utilizado el carácter de comillas simples ', por lo tanto, todas las siguientes son cadenas válidas:

* `'Hello'`
* `'Hello World'`
* `'Hello Aura'`
* `'To be or not to be. That is the question!'`

In [1]:
string = ' ' #Cadena de u espacio en blanco. Notemos que ' '  es distinto a ''
print('La cadena es:', string, 'y es del tipo ', type(string))

La cadena es:   y es del tipo  <class 'str'>


## 6.1. Representación de las cadenas

Como se indicó anteriormente, hemos usado comillas simples para definir el inicio y el final de una cadena sin embargo, en Python las comillas simples o dobles se pueden usar para definir una cadena, por lo tanto, los dos siguientes son válidos:

* `'Hello World!'`
* `"Hello World!"`

En Python, estas formas son exactamente las mismas, aunque por convención usamos comillas simples. A menudo se hace referencia a este enfoque como más *Pytónico* (lo que implica que es más la convención utilizada por programadores experimentados de Python) pero el lenguaje no lo aplica. Sin embargo, debe tener en cuenta que no puede mezclar los dos estilos de cadenas de inicio y final, es decir, **no puede comenzar una cadena con una comilla simple y terminar una cadena con una comilla doble**, por lo tanto, los siguientes son ilegales en Python:

* `Hello World'' # This is illegal` 
* `''Hello World' # So is this`

In [2]:
print('"Hello World"')
print("Pedro's") 
print('Predro\'s')  

"Hello World"
Pedro's
Predro's


Sin embargo, la capacidad de usar `'` y `"` es útil si su cadena necesita contener otro tipo de delimitadores de cadena. Esto se debe a que una comilla simple se puede incrustar en una cadena definida usando comillas dobles y viceversa. Si sólo quisieramos emplear comillas simples (o sólo dobles) lo que se debe hacer es indicar mediante un **backslash** ( \ ), de esta forma Python sabe que no estamos terminando la cadena, sino que queremos que aparezca este símbolo (o caracter) en nuestra cadena.

Una tercera alternativa es el uso de comillas triples, que a primera vista pueden parecer un poco difíciles de manejar, pero permiten que una cadena admita cadenas de varias líneas, a diferencia de las otras dos opciones, por ejemplo:

In [3]:
hello = """
Hello 
   World
""" 
print(hello)


Hello 
   World



## 6.2. ¿Qué es una cadena?

A este punto hemos definido a una cadena como cualquier cosa que podemos introducir con el teclado y que lo escribimos empleando comillas (simples, dobles o triples). Sin embargo, los número también se introducen con el teclado, entonces ¿Cuál es la diferencia entre los siguientes sentencias en Python?

In [4]:
num = 5 + 7
string = '5 + 7'

# La respuesta a esta pregunta la obtenemos al aplicar la función type() a nuestras variables
print(type(num))
print(type(string))

<class 'int'>
<class 'str'>


La función `type()` indica qué **tipo** es una variable o sentencia. El tipo es, de una forma muy simplificada, cómo debe guardar la información la computadora; como veremos más adelante, no es lo mismo guardar un número entero, que un número real (o flotante). A menudo se dice que Python no tiene tipo, pero como se mostró arriba eso no es cierto pues Python es un lenguaje de tipo dinámico con todos los datos que tienen un tipo asociado. A diferencia de otros lenguajes (por ejempo C) para que la computadora sepa cómo almacenar a una variable ésta se debe declarar (es decir, explícitamente se indica qué tipo tiene una variable antes de emplearla) sin embargo en Python basta con la sintaxis que le demos al usarla por primera vez.

En el códigode arriba aparence los términos `int` (entero) y `str` (cadena), y la función  `type()` nos dice que cada variable es de alguna de estas **clases**. La cadena es una clase y Python admite ideas de la programación orientada a objetos, como las clases, que abordaremos más adelante en el curso).

Cabe mencionar que una definición más completa de las cadenas es que son **colecciones de caracteres**, dejando la pregunta abierta de qué es un caracter.

### 6.2.1. Operaciones ariteméticas con cadenas
En términos de Python, esto significa qué operaciones o funciones están disponibles o incorporadas que puede usar para trabajar con cadenas. La respuesta es que hay muchas. Algunos de estos se describen en esta sección.

#### Concatenación de cadenas

Puede concatenar dos cadenas usando el operador `+` (un operador es una operación o comportamiento que se puede aplicar a los tipos involucrados). Es decir, puede tomar una cadena y agregarla a otra cadena para crear una nueva tercera cadena:

In [5]:
string_1 = 'Good'
string_2 = " day"
string_3 = string_1 + string_2 
print(string_3)

print('Hello' + ',' + ' ' + 'World' + '!')

Good day
Hello, World!


Observe que la forma en que se define la cadena no importa aquí, `string_1` usaba comillas simples pero `string_2` usaba comillas dobles sin embargo, ambas son solo cadenas.

#### Repetir cadenas

También podemos usar el operador `*` con las cadenas. En el caso de las cadenas, esto significa repetir la cadena dada un cierto número de veces. Esto genera una nueva cadena que contiene la cadena original repetida n varias veces. Por ejemplo:

In [6]:
golpe = 'ora'
star_platinum = 'Ora, ' + 10 * (golpe + ', ') + golpe + '.'

print(star_platinum)

Ora, ora, ora, ora, ora, ora, ora, ora, ora, ora, ora, ora.


#### Longitud de una cadena

Muchas veces es útil conocer cuántos caractere tiene una cadena, es decir qué tan larga es.Por ejemplo, si está colocando una cadena en una interfaz de usuario, es posible que necesite saber qué cantidad de la cadena se mostrará dentro de un campo. Para averiguar la longitud de una cadena en Python, use la función `len()`, por ejemplo:

In [7]:
print(len(golpe)) # nos dá el número de elementos o caracteres que conforman a la cadena string_3
print(len(star_platinum))

3
59


Habíamos comentado que los bloques que contruyen a las cadenas son los caracteres entonces, si queremos modificar, y no sólo aumentar la longitud de las cadenas hay que trabajar con ellos y conocerlos.

## 6.3 ¿Qué es un caracter?

Ya hemos discutido que algunos caracteres son las entradas del teclado pero no todos los caracteres los puedo escribir con el teclado. Pensemos en el uso de las letra **ñ**. Ésta es un caracter en teclado hispano sin embargo en el teclado anglosajón no lo es y no por eso deja de ser un caracter. Para este tipo de caracteres a veces es necesario emplear una notación especial, como lo hicimos con `\'`.

In [8]:
string = "Puedo poner saltos de renglón con \\n\ne incluso tabulaciones con \\t\ty hasta emojis \\U0001F436->\U0001F436"
print(string)

Puedo poner saltos de renglón con \n
e incluso tabulaciones con \t	y hasta emojis \U0001F436->🐶


Como se obervó, los elemnos con **backslash** son caracteres especiales que introduzco mediante algún código. Los más comunes son los saltos de línea `\n` o las tabulaciones `\t` sin embargo hay muchos más y uno de ells son los emojis como se muesta arriba. El códugo que empleamos para poner tantos caractéres, incluso sin tenerlos en el teclado se llama **Unicode** y en particular usamos su codificación UFT-8, que significa que los caracteres pueden ser de hasta 8 bits (pero puede haber de más bits, como de 16). Los bits (combinación de 0's y 1's) es la forma en la que la computadora procesa y guarada información
pero para entrear en más detalles, hablemos de los **caracteres**.

<center>
        <img src = "../Images/base2.jpg"  width="300">
 </center>

Que la computadora procese infromación en 8 o 16 bits significa que hay 2^8 o 2^16 posibles combinaciones de ceros y unos; éstas combinaciones están almacenadas en la memoria de la computadora. Cada una de las combinaciones sirven para identificar acaracteres dinstintos Y la forma de identificarlos es numerándolos, es decir que al final de cuentas los **caracteres son número enteros positivos**. El unicode es sólo una convención de cómo ordenar a tantos caracteres, [la cual pueden consultar en línea](https://unicode-table.com/es/). Para poder modificar una cadena, entonces, necesitampos acceder a los caracteres.

### 6.3.1 Acceder a un caracter 

Los caracteres son símplemente los elementos ordenados que conforman a nuestras cadenas. Para manipularlos tenemos que espefificar su posición y esto lo hacemos mediente corchetes y enumerando al primere caraceter en la lista con el índice cero. Como sólo nos importa el orden, también podemos comenazar a contarlos desde atrás:

In [9]:
name = 'Pedro-Porras'
print('La variable name es: ', name, 'es de tipo', type(name))

print("La primera letra es", name[0])
print("La última letra la puede escribir como:", name[-1],)
print("También puedo acceder a la última letra usando len(name)-1:", name[len(name)-1]) # len() nos da el número de caracteres, pero contamos desde cero, entonces hay que mover nuestro origen de 1 a 0.
print("Para una caracter intermedio, sólo debo de seleccionar su índice:", name[8])


La variable name es:  Pedro-Porras es de tipo <class 'str'>
La primera letra es P
La última letra la puede escribir como: s
También puedo acceder a la última letra usando len(name)-1: s
Para una caracter intermedio, sólo debo de seleccionar su índice: r


Lo cierto es que no siempre queremos trabajar con caracteres individuales, sino con un conjunto de ellos (que es lo mismo que un subconjunto de la cadena original). Para esto empleamos la notación de corchetes con dos puntos:

``` python
string[i:j]
```

lo que nos dice que sólo se tomará del caracter `i` al  `j`. Como casos especiales tenemos que `string[0:i]` es equivalente a `string[:i]`, así como `string[j:-1]` es equivalente a `string[j:]`.

In [10]:
print(star_platinum)
len_ora = len(golpe) + 2 # los caracteres de golpe (3) más el del espacio (1) y el de la coma (2) = 5

# Seleccionamos los primeros cuatro golpes
print(star_platinum[:4 * len_ora])

# Seleccionamos del quinto golpe al último
print(star_platinum[5 * len_ora:])

# Seleccionamos el del cuarto al sexto golpe
print(star_platinum[4 * len_ora : 5 * len_ora])

Ora, ora, ora, ora, ora, ora, ora, ora, ora, ora, ora, ora.
Ora, ora, ora, ora, 
ora, ora, ora, ora, ora, ora, ora.
ora, 


Notemos que `len_ora = 5`, por lo que se selecciona del elemento en adelante. Notemos que hay `star_platinum` tiene 12 golpes, sin embargo al realizar dicho cálculo nos marca un error. Esto porque no debemos olvidar que contamos desde el `0`.

In [11]:
star_platinum[12*len_ora]

IndexError: string index out of range

In [12]:
star_platinum[(len_ora*12 -1) -1] #El -1 dentro del paréntesis es porque el último golpe no tiene un espacio.

'.'

### 6.3.2 Caracteres y representación como números

Ya establecimos que los caracteres son únicamente número enteres asociados a un símbolo (letras, números, emojis, etc.), por lo que en principio podemos sumarlos o multiplicarlos, e ingénuamente podríamos hacer lo siguiente

In [13]:
str_1 = '1'
str_5 = '5'

print( str_1 + str_5 ) # Pero 5 + 1 da 6, no 15.... sólo las está concatenando!

15


Para poder manipular los enteros asociados a los caracteres podemos emplear la función `ord()` que es la que nos da el número o entero asociado a un caracter según el Unicode.

In [14]:
num_5 = ord(str_5) # Nos da el entero asociado al caracter 5 según el Unicode; ord() porque el unicode tiene un orden determinado
num_1 = ord(str_1)

print("num_5 = ", num_5)  
print("num_1 = ", num_1)

num_5 =  53
num_1 =  49


Esto significa que el caracter '1' está en la posición 49 del únicode y cuatro lugares después, en el 49, está el '5'. Vemos que los dígitos arábigos están ordenados como '0', '1', '2',...'9'. entonces, podemos operarlos de la siguiente manera:

In [15]:
num_5 = ord(str_5) - ord('0') # Restamos la posición del valor cero en unicode, para redefinir a nuestro cero
num_1 = ord(str_1) - ord('0')

print( num_5 + num_1) # Ahora sí, ya tenemos nuesto resultado

str_dog = '\U0001F436' # éste es el emoji del perrito (es decir un solo caracter)
print( str_dog + " = ", ord(str_dog) ) # Notemos que 1F436 (Hexadecimal) = 128054 (decimal)

# Hay que recordar que ord() actúa sobre caracteres y no sobre cadenas, razón por la que lo siguiente sería un error:
ord( str_1 + str_5)

6
🐶 =  128054


TypeError: ord() expected a character, but string of length 2 found

## 6.4 Operaciones sobre cadenas

Con la sección anterior y entendiendo qué es una cadena y un caracter, podemos suponer que cualquier manipulación de la cadena la podemos hacer operando sobre sus número enteres. Esto es cierto sin embargo, ya hay funciones dentro de Python que permiten manipular a las cadenas sin necesidad de que nosotros programemos dichas operaciones. Como estas operaciones actúan sobre cadenas únicamente, tienen una sitaxis especial como se verá a continuación:

> **string**.function(arguments)

### Contando cadenas

Es posible averiguar cuántas veces se repite una cadena en otra cadena. Esto se hace usando la operación `count()` por ejemplo

In [16]:
my_string = 'Count, the number of  spaces nu'
times_nu = my_string.count('nu')
print("my_string.count(''):", times_nu)

print("\nstar_platinum = ", star_platinum )
print("star_platinum contiene ", star_platinum.count('ra'), " golpes.") # El criterio para contarlo fue 'ra' pues 'O' es distinto a 'o',

my_string.count(''): 2

star_platinum =  Ora, ora, ora, ora, ora, ora, ora, ora, ora, ora, ora, ora.
star_platinum contiene  12  golpes.


### Sustitución de cadenas

Una cadena puede reemplazar una subcadena en otra cadena. Esto se hace usando el método `replace()` en una cadena. Por ejemplo:

In [17]:
welcome_message = 'Hello World!' 
print(welcome_message)
print(welcome_message.replace("Hello", "Goodbye"))

Hello World!
Goodbye World!


### Encontrar subcadenas

Puede averiguar si una cadena es una subcadena de otra cadena utilizando el método `find()`. Este método toma una segunda cadena como parámetro y verifica si esa cadena está en la cadena que recibe el método `find()`, por ejemplo:
```python
string.find(string_to_find)
```
El método devuelve -1 si la cadena no está presente. De lo contrario, devuelve un índice que indica el inicio de la subcadena. Por ejemplo:

In [18]:
print('Edward Alun Rawlings'.find('Alun'))
print('Edward John Rawlings'.find('Alun'))

7
-1


### Comparar cadenas

Para comparar una cadena con otra, puede usar los operadores '==' igualdad y '! =' No es igual a. Estos compararán dos cadenas y devolverán Verdadero o Falso, indicando si las cadenas son iguales o no.
Por ejemplo:

In [25]:
'James' != 'James'

False

In [26]:
print('James' == 'James') # prints True 
print('James' == 'John') # prints False 
print('James' != 'John') # prints True

True
False
True


### Otras operaciones de cadena

De hecho, hay muchas operaciones diferentes disponibles para cadenas, incluida la verificación de que una cadena comienza o termina con otra cadena, es decir, mayúsculas o minúsculas, etc. También es posible reemplazar parte de una cadena con otra cadena, convertir cadenas a mayúscula, minúscula o título, etc.

In [27]:
some_string = 'Hello World'
print('Testing a String')
print('-' * 20)
print('some_string = ', some_string) 
print('-' * 20)
print("some_string.startswith('H')", some_string.startswith('H')) 
print("some_string.startswith('h')", some_string.startswith('h'))
print("some_string.endswith('d')", some_string.endswith('d')) 
print('some_string.istitle()', some_string.istitle()) 
print('some_string.isupper()', some_string.isupper()) 
print('some_string.islower()', some_string.islower()) 
print('some_string.isalpha()', some_string.isalpha())
print('String conversions')
print('-' * 20)
print('some_string.upper()', some_string.upper())
print('some_string.lower()', some_string.lower()) 
print('some_string.title()', some_string.title()) 
print('some_string.swapcase()', some_string.swapcase())
print('String leading, trailing spaces', " xyz ".strip())

Testing a String
--------------------
some_string =  Hello World
--------------------
some_string.startswith('H') True
some_string.startswith('h') False
some_string.endswith('d') True
some_string.istitle() True
some_string.isupper() False
some_string.islower() False
some_string.isalpha() False
String conversions
--------------------
some_string.upper() HELLO WORLD
some_string.lower() hello world
some_string.title() Hello World
some_string.swapcase() hELLO wORLD
String leading, trailing spaces xyz


## 6.6 Convertir otros tipos en cadenas 

Si intenta utilizar el operador de concatenación `+` con una cadena y algún otro tipo, como un número, obtendrá un error. Por ejemplo, si intenta lo siguiente:

In [37]:
msg = 'Hello Lloyd you are ' + 21 
print(msg)

TypeError: must be str, not int

Recibirá un mensaje de error que indica que solo puede concatenar cadenas con cadenas, no enteros con cadenas. Para concatenar un número como 21 con una cadena, debe convertirlo en una cadena. Esto se puede hacer usando la función `str()`. Este concurso de cualquier tipo en una representación de cadena de ese tipo. Por ejemplo:

In [38]:
msg = 'Hello Lloyd you are ' + str(21) 
print(msg)

Hello Lloyd you are 21


### 6.6.1 Formato de cadena 

El sistema de formato de cadenas utiliza una cadena especial conocida como cadena de formato que actúa como un patrón que define cómo se distribuirá la cadena final. Esta cadena de formato puede contener marcadores de posición que se reemplazarán con valores reales cuando se cree la cadena final. Se puede aplicar un conjunto de valores a la cadena de formato para llenar los marcadores de posición utilizando el método `format()`.

El ejemplo más simple de una cadena de *formato* es uno que proporciona un marcador de posición único indicado por dos llaves (`{}`). Por ejemplo, la siguiente es una cadena de formato con el patrón 'Hola' seguido de un marcador de posición:


In [35]:
name = 'Pedro'
number = 409076332

student = f'{name} tiene como numero de cuenta {number}'
print(student)

Pedro tiene como numero de cuenta 409076332


In [36]:
format_string = f'Hello {name}!'
print(format_string)

Hello Pedro!


Esto se puede usar con el método de cadena `format()` para proporcionar un valor (o completar) el marcador de posición, por ejemplo:

In [None]:
format_string = 'Hello {}!'
print(format_string.format('Phoebe'))

Una cadena de formato puede tener cualquier número de marcadores de posición que se deben completar, por ejemplo, el siguiente ejemplo tiene dos marcadores de posición que se completan al proporcionar dos valores al método `format()`:

In [None]:
name = "Adam"
age = 20
print("{} is {} years old".format(name, age))

## 6.5 Listas I

Un requisito muy común es la necesidad de dividir una cadena en varias cadenas separadas en función de un carácter específico, como un espacio o una coma.
Esto se puede hacer con la función `split()`, que utiliza una cadena para identificar cómo dividir la cadena receptora. Por ejemplo:

In [24]:
title = 'The Good, The Bad, and the Ugly' 
print('Source string:', title)

print('Split using a space') 
print(title.split(' ')) #Vamos a separar (split) a title, y nuestro criterio será un espacio en blanco

print('Split using a comma')  # Criterio de separación, una coma
print(title.split(','))

adjetives = title.split(',')
print(type(adjetives), adjetives)

Source string: The Good, The Bad, and the Ugly
Split using a space
['The', 'Good,', 'The', 'Bad,', 'and', 'the', 'Ugly']
Split using a comma
['The Good', ' The Bad', ' and the Ugly']
<class 'list'> ['The Good', ' The Bad', ' and the Ugly']


Notemos que al aplicar la operación `string.split()`, el resultado que se imprime una colección de cadenas separadas por comas, y escritas entre corchetes. Según la función de tipo de Python, ésta es otra clase de información denominada como **listas**.

Una lista es un tipo en Python  y esto se indica mediante la sintaxis siguiente:
```python
lista = []
```
Las listas y las cadenas parecen ser muy parecidas, pues también puede seleccionar sus elementos y muchas de las funciones que hemos visto que actúan sobre las cadenas, funcionan para las listas sin emabrgo, más adelante veremos que su definición tiene que ver con cómo guarda la información la computadora, así como otras estructuras que son colecciónes de variables.

In [48]:
list_one = [2, 3, 4, 5, 6, 7, 8, 9]
print(len(list_one))
print(type(list_one[3]))

list_two = [2, '3', "cuatro", 5, '6', "siete", 8, '9']  #Las listas son colecciones de cualquier cosa, no sólo de caracteres
print(len(list_two))
print(type(list_two[3]))

8
<class 'int'>
8
<class 'int'>


In [49]:
numbers = input('Dar dos numeros separados por un espacio')
list_numbers =  numbers.split(' ')
print('Los numeros ingresados son: ', list_numbers[0], " y ",list_numbers[1])

Dar dos numeros separados por un espacio 9 8


Los numeros ingresados son:  9  y  8


# Bibliografía

* 1. Wei-Bing Lin, J., 2012. A Hands-On Introduction to Using Python in the Atmospheric and Oceanic Sciences. 1st ed. [ebook] lulu, pp.1 to 209. Available at: <https://www.lulu.com/commerce/index.php?fBuyContent=13110573&page=1&pageSize=4> [Accessed 19 May 2021].
* 2. Langtangen, H., 2009. A Primer on Scientific Programming with Python. Leipzig, Germany: Springer, p.all.
* 3. Heath, M., 2009. Scientific computing. 1st ed. Boston, Mass: McGraw Hill, p.all.
* 4. Johansson, R., n.d. Numerical python. 2nd ed. New York: Springer, p.all.
* 5. Hunt, J., 2019. A Begginers Guide to Python 3 Programming. 1st ed. Cham, Suiza: Springer, p.all.