# Cadenas de caracteres

Las cadenas de caracteres (denominadas habitualmente y de manera indistinta como *strings*) es un tipo de dato 
que contiene una secuencia de s√≠mbolos, mismos que pueden ser alfan√∫mericos o cualquier otro s√≠mbolo propio de 
un sistema de escritura. En Python los strings se definen utilizando comillas dobles o simples. Observa los siguientes ejemplos:

In [48]:
nombre = "Catalina"
type(nombre)

str

In [49]:
apellido = 'Lara'
type(apellido)

str

Observa que es indistinto utilizar las comillas dobles o simples al momento de crear una cadena de caracteres. Si se requiere crear una cadena de caracteres multil√≠nea, entonces se pueden definir utilizando un tres comillas dobles, tal como se muestra en el siguiente ejemplo:

In [50]:
en_paz = """
Muy cerca de mi ocaso, yo te bendigo, vida,
porque nunca me diste ni esperanza fallida,
ni trabajos injustos, ni pena inmerecida;
"""
type(en_paz)

str

La longitud o cantidad de elementos de una cadena se puede determinar utilizando la funci√≥n `len`:

In [51]:
palabra = "Hola"
len(palabra)

4

## Concatenaci√≥n de cadenas

Para concatenar (unir) cadenas se puede utilizar el operador `+`. Observa el siguiente ejemplo en el cual se concatenan las cadenas `"hola"` y `"mundo"`.

In [52]:
"Hola" + "mundo"

'Holamundo'

Notar√°s que Python por s√≠ mismo no sabe que estamos uniendo dos palabras y que entre ellas deber√≠a haber un espacio para su correcta lectura, evidentemente este tipo de cuestiones son las que el programador debe tomar en cuenta al escribir un c√≥digo. Si quisi√©ramos introducir un espacio entre las dos palabras podr√≠amos a√±adirlo de forma manual en alguna de las cadenas, o como una tercera cadena intermedia, tal como se muestra enseguida:

In [53]:
"Hola" + " mundo"

'Hola mundo'

In [54]:
"Hola" + " " + "mundo"

'Hola mundo'

Otra manera de concatenar cadenas es utilizar el m√©todo `join`. Este m√©todo nos sirve para unir una lista de cadenas mediante un separador, por ejemplo:

In [55]:
primer_nombre = "Ana"
segundo_nombre = "Isabel"
separador = " "
separador.join( [primer_nombre, segundo_nombre] )

'Ana Isabel'

In [56]:
separador = "---"
separador.join( [primer_nombre, segundo_nombre] )

'Ana---Isabel'

La cantidad de cadenas a unir pueden ser m√°s dos, observa el siguiente ejemplo:

In [57]:
", ".join(["Ana", "Jorge", "David", "Jos√©", "Juan"])

'Ana, Jorge, David, Jos√©, Juan'

Naturalmente, el separador puede ser cualquier caracter v√°lido, incluyendo algunos poco *usuales*:

In [58]:
" \U0001F970 ".join(["Ana", "Jorge", "David", "Jos√©", "Juan"])

'Ana ü•∞ Jorge ü•∞ David ü•∞ Jos√© ü•∞ Juan'

## Indexaci√≥n y *slicing*

Las cadenas de caracteres son secuencias de elementos, donde cada elemento corresponde a un caracter espec√≠fico. Cada elemento de la cadena tiene asociado un √≠ndice, el cual corresponde a la posici√≥n en que se encuentran, y por lo tanto ser√°n enteros positivos. La numeraci√≥n de los √≠ndices comienza en cero. En la figura se muestra una cadena de caracteres *guardada* en la variable `nombre`, podemos observar que a cada caracter le corresponde un √≠ndice. Por ejemplo, a la letra `C` le corresponde el √≠ndice 0, a la letra `t` el √≠ndice 2.

![](img/cadenas/strings_index.svg)

Se puede acceder a cada una de los s√≠mbolos que componen una cadena mediante la notaci√≥n `cadena[idx]`, donde  `cadena` es el nombre de la cadena e `idx` el √≠ndice en que se encuentra el caracter al cual se desea acceder, siendo 0 para la primera letra, 1 para la segunda y as√≠ de manera consecutiva. Veamos el ejemplo descrito en la figura, primero creamos la cadena `nombre`:

In [59]:
nombre = "Catalina"

Si quisi√©ramos acceder a la letra `C` tendr√≠amos que utilizar el √≠ndice `0`, es decir:

In [60]:
nombre[0]

'C'

Para acceder a la letra `t` utilizar√≠amos el √≠ndice `2`: 

In [61]:
nombre[2]

't'

En las secuencias se pueden utilizar tambi√©n √≠ndices negativos para acceder a los elementos. En este caso, el √∫ltimo elemento siempre tendr√° asociado el √≠ndice `-1` y a partir de ah√≠ hacia la izquierda el √≠ndice de cada elemento adyacente disminuye una unidad, es decir, $-1, -2, -3, -4, ..., -n$, donde $n$ es el n√∫mero de elementos de la secuencia. En la siguiente figura podemos observar los √≠ndices negativos asociados a cada elemento de la cadena almacenada en la variable `nombre`.

![](img/cadenas/strings_negative_index.svg)

As√≠, si quisi√©ramos acceder al √∫ltimo elemento de dicha cadena, podr√≠amos hacerlo utilizando el √≠ndice `-1`:

In [62]:
nombre[-1]

'a'

Es importante tener en cuenta que una cadena de caracteres no s√≥lo est√° compuesta de s√≠mbolos alfanum√©ricos, sino tambi√©n signos de puntuaci√≥n o espacios en blanco o saltos de l√≠nea, etc. Vamos a crear una variable llamada `frase`, en la cual guardamos una cadena compuesta por dos palabras, separadas por un espacio.

In [63]:
frase = "Hola. Adi√≥s."

Si accedemos al elemento en el √≠ndice `4`, podemos observar que este corresponde al punto:

In [64]:
frase[4]

'.'

Ahora, si accedemos al elemento en el √≠ndice `5`, veremos que el elemento correspondiente es el espacio:

In [65]:
frase[5]

' '

Ahora vamos a revisar una manera de acceder a una porci√≥n de una secuencia, no a un s√≥lo elemento como lo hacemos con la indexaci√≥n. Habitualmente se denomina *slicing* a este tipo de operaci√≥n. Con la sintaxis `cadena[a:b]` podemos acceder al conjunto de caracteres comprendidos entre los √≠ndices `a` y `b-1`.

Observa la siguiente l√≠nea, la cual nos permite *tomar* los elementos con √≠ndices 0 y 1:

In [66]:
nombre[0:3] # Elementos 0, 1 y 2

'Cat'

Esta otra l√≠nea nos permite *acceder* a los elementos con √≠ndices 2, 3, 4, 5 y 6:

In [67]:
nombre[3:7] # elementos 3, 4, 5 y 6

'alin'

C√≥mo ya habr√°s notado la cuesti√≥n es simple e intuitiva, s√≥lo debemos tener cuidado con la notaci√≥n y recordar que no se incluye el elemento dado por el √≠ndice superior, sino hasta el correspondiente al √≠ndice inmediatamente anterior a este. En la siguiente figura puedes observar una representaci√≥n gr√°fica de las dos operaciones de *slicing* anteriores.

![](img/cadenas/slicing.svg)

Cuando se prescinde de uno de los √≠ndices en la notaci√≥n de *slicing*, se asume que se toman todos los valores desde el inicio hasta el √≠ndice indicado menos uno; o bien desde el √≠ndice establecido hasta el final de la cadena; esto dependende, obviamente, del √≠ndice del cual se prescinda.

Por ejemplo, la siguiente l√≠nea toma los elementos desde el inicio de la cadena hasta el √≠ndice `4-1`:

In [68]:
nombre[:4]

'Cata'

Esta otra l√≠nea toma los elementos desde el √≠ndice `4` hasta el final de la cadena.

In [69]:
nombre[4:]

'lina'

La siguiente imagen muestra una representaci√≥n gr√°fica de lo descrito anteriormente.

![](img/cadenas/slicing_2.svg)

De una cadena de caracteres tambi√©n pueden obtenerse un conjunto de elementos sin tomarlos de uno en uno, sino cada dos, cada tres, etc. Si utilizamos la notaci√≥n `cadena[a:b:n]`, nos devolver√° el conjunto de elementos comprendidos entre los √≠ndices `a` y `b-1`, tomados cada `n` elementos. Observa el siguiente ejemplo:

In [1]:
nombre = "Agust√≠n"
nombre[0:4:2]

'Au'

La l√≠nea anterior nos devuelve los elementos ubicados en los √≠ndices $0, 1, 2 \, y \, 3$, pero de estos √∫nicamente los *toma* a cada dos elementos, es decir:

* Comenzamos tomando el elemento de √≠ndice $0$ (letra `A`), 
* *Ignoramos* el elemento de √≠ndice $1$ (letra `g`) 
* *Tomamos* el elemento de √≠ndice $2$ (letra `u`)
* *Ignoramos* el elemento de √≠ndice $3$ (letra `s`)

En este punto se han agotado todos los elementos comprendidos entre los l√≠mites indicados, podemos observar que los √∫nicos elementos *tomados* y devueltos por la instrucci√≥n `nombre[0:4:2]` son la letra `A` y `u`, tal como se mostraba en la l√≠nea anterior. En la siguiente figura se muestra un esquema gr√°fico de esta operaci√≥n.

![](img/cadenas/slicing_3.svg)

Veamos ahora otro ejemplo con la misma cadena:

In [2]:
nombre[3:7:3]

'sn'

Observa que en este caso tomamos los elementos ubicados en los √≠ndices $3, 4, 5 \, y \, 6$, pero tomados cada tres elementos, es decir:

* *Tomamos* el elemento ubicado en el √≠ndice `3` (letra `s`)
* *Ignoramos* el elemento ubicado en el √≠ndice `4` (letra `t`)
* *Ignoramos* el elemento ubicado en el √≠ndice `5` (letra `√≠`)
* *Tomamos* el elemento ubicado en el √≠ndice `6` (letra `n`)

Una representaci√≥n gr√°fica de esta operaci√≥n la puedes observar en la siguiente figura.

![](img/cadenas/slicing_4.svg)

Si quisi√©ramos tomar todos los elementos de una cadena a cada dos, podr√≠amos hacer lo siguiente:

In [3]:
nombre[::2]

'Autn'

Una manera muy sencilla de invertir el orden de los elementos en una cadena de texto es utilizando esta notaci√≥n de *slicing*, pero utilizando un valor negativo. Observa lo siguiente:

In [4]:
nombre[::-1]

'n√≠tsugA'

Puedes notar r√°pidamente que se toman todos los elementos de la cadena, pero comenzando desde el final con un *paso* negativo. Lo mismo se podr√≠a hacer pero tomando a cada dos elementos, de la siguiente manera:

In [5]:
nombre[::-2]

'ntuA'

## May√∫sculas y min√∫sculas

Cuando se trabaja con texto en ocasiones puede ser necesario hacer modificaciones en lo que corresponde a la presencia de may√∫sculas y min√∫sculas. Podr√≠amos por ejemplo tener de *entrada* un texto completamente en may√∫sculas y convertirlo en min√∫sculas, o el caso contrario. En Python las cadenas de caracteres disponen de los m√©todos `upper` y `lower` que nos permiten convertir en may√∫sculas y min√∫sculas, de manera respectiva, todas las letras que conforman una cadena de texto.

Vamos a definir una variable `frase` en la cual *guardaremos* la siguiente cadena:

In [42]:
frase = "Hola mundo"

Si quisi√©ramos convertir toda la cadena en may√∫sculas utilizamos el m√©todo `upper`:

In [45]:
frase.upper()

'HOLA MUNDO'

Si por el contrario quisi√©ramos que todas las letras fueran min√∫sculas utilizamos el m√©todo `lower`:

In [46]:
frase.lower()

'hola mundo'

Debes tener cuidado y considerar que al momento de utilizar los m√©todos `upper` y `lower`, estos no modifican a la cadena de caracteres almacenada en `frase`, sino que devuelven una nueva cadena con las modificaciones realizadas. Esto se debe a que las cadenas en Python son objetos *inmutables* y una vez creadas no pueden modificarse. Observa que si en este punto imprimimos la variable `frase` tendr√≠amos exactamente la misma cadena (sin modificar) definida inicialmente:

In [52]:
print(frase)

Hola mundo


Si quisieras modificar la cadena almacenada en la variable `frase`, entonces tendr√≠as que hacer una reasignaci√≥n, como se muestra en el siguiente ejemplo:

In [58]:
frase = frase.upper()
print(frase)

HOLA MUNDO


Podemos observar que ahora la variable `frase` almacena la versi√≥n en may√∫sculas de la cadena.

Otro m√©todo que puede resultarte de utilidad es `capitalize`, el cual te permite colocar la primera letra en may√∫sculas y todas las dem√°s en min√∫sculas, como habitualmente ocurre con una oraci√≥n. Observa el ejemplo siguiente:

In [60]:
texto = "mi perro es color bermejo"
texto.capitalize()

'Mi perro es color bermejo'

## *Buscando* en una cadena de caracteres

En este apartado vamos a revisar c√≥mo buscar una cierta secuencia de caracteres dentro de una cadena. Buscar coincidencias en un texto suele ser una tarea muy com√∫n para algunos sistemas automatizados. En Python, las cadenas de caracteres poseen m√©todos que permiten *buscar* en ellas coincidencias. 

Vamos a crear una variable `frase`, en la cual *almacenaremos* una cadena de caracteres:

In [43]:
frase = "La estrella m√°s cercana es Pr√≥xima Centauri"

Si quisi√©ramos saber cu√°ntas veces aparece en esa frase una cierta letra, entonces podr√≠amos utilizar el m√©todo `count`. Este m√©todo simplemente recibe como argumento la secuencia de caracteres que queremos buscar y nos devuelve la cantidad de veces que dicha secuencia de caracteres aparece, tal como se muestra enseguida:

In [49]:
frase.count("a")

6

Observa que en la l√≠nea anterior estamos buscando cu√°ntas veces aparece la letra `a` dentro de `frase`. Si contamos *manualmente*, podr√°s observar que el m√©todo `count` est√° ignorando la letra `√°` con tilde. Naturalmente, Python no puede saber, al menos en principio, que `√°` es tambi√©n una letra `a`, pero con la particularidad escrita de la tilde. Una manera bastante simplista de considerar en la contabilizaci√≥n a la letra `√°` tildada ser√≠a como sigue:

In [51]:
frase.count("a") + frase.count("√°")

7

Con el m√©todo `count` no solamente podemos contabilizar el n√∫mero de veces que aparece un caracter, sino tambi√©n cualquier secuencia de caracteres. Observa el siguiente ejemplo:

In [56]:
texto = """Los amorosos callan.
El amor es el silencio m√°s fino,
el m√°s tembloroso, el m√°s insoportable.
Los amorosos buscan,
los amorosos son los que abandonan,
son los que cambian, los que olvidan.
"""

In [57]:
texto.count("silencio")

1

Con la l√≠nea anterior buscamos la cadena `silencio` dentro del texto creado. Hay que ser un poco precavidos cuando utilizamos el m√©todo `count`, veamos el siguiente caso:

In [62]:
texto.count("amor")

4

De acuerdo con lo anterior la secuencia de caracteres `amor` aparece cuatro veces. Si observas el texto ver√°s que la palabra amor aparece una sola vez, sin embargo la subcadena `amor` forma parte tambi√©n de la palabra `amorosos`, la cual aparece tres veces. Si quisi√©ramos √∫nicamente contabilizar la palabra `amor`, como tal, tendr√≠amos que a√±adir los espacios en blancos al inicio y final de la palabra, es decir, algo como lo siguiente:

In [63]:
texto.count(" amor ")

1

In [None]:
Si √∫nicamente 