<!--BOOK_INFORMATION-->
<img align="left" style="padding-right:10px;" src="./figures/cover-small.jpg">

*Este libro es una versión al español de [Python for Everybody](https://www.py4e.com/) escrito por el [Dr. Charles R. Severance](http://www.dr-chuck.com/); este contenido esta disponible en [GitHub](https://github.com/csev/py4e).*

Detalles de Copyright

*Copyright ~ 2009- Charles Severance.
Este trabajo está registrado bajo una Licencia Creative Commons AttributionNonCommercial-ShareAlike 3.0 [CC BY-NC-SA](https://creativecommons.org/licenses/by-nc-sa/3.0/).*

<!--NAVIGATION-->
| [Indice](indice.ipynb) | 

< [Capítulo 5 - Iteraciones](cap05.ipynb) | [Capítulo 7 - Archivos](cap07.ipynb) >

# Capítulo 6 - Strings

## Un string es una secuencia
Un string o también conocida como cadena es una secuencia de caracteres. Puede acceder a los caracteres uno a la vez con el operador de corchetes:

In [1]:
fruta = 'banana'
letra = fruta[1]

La segunda declaración extrae el carácter en la posición de índice 1 de la variable `fruta` y lo asigna a la variable letra.

La expresión entre paréntesis se llama índice. El índice indica qué carácter de la secuencia desea (de ahí el nombre).

Pero es posible que no obtenga lo que espera:

In [2]:
print(letra)

a


Para la mayoría de las personas, la primera letra de `banana` es `b`, pero en Python no, el índice es un desplazamiento desde el comienzo de la cadena, y el desplazamiento de la primera letra es cero.

In [3]:
letra = fruta[0]
print(letra)

b


Así `b` es la letra 0 de `banana`, `a` es la 1ª letra, y `n` es la 2ª letra.

![Figura 6.1](./figures/6.1.svg)
<center><i>Figures 6.1: Indices de cadenas,</i></center>

Puede usar cualquier expresión, incluidas variables y operadores, como un índice, pero el valor del índice debe ser un número entero. De lo contrario, obtienes:

In [4]:
 letra = fruta[1.5]

TypeError: string indices must be integers

## Obteniendo la longitud de una cadena usando `len`

`len` es una función incorporada que devuelve la cantidad de caracteres en una cadena:

In [5]:
fruta = 'banana'
len(fruta)

6

Para obtener la última letra de una cadena, es posible que tengas la tentación de probar algo como esto:

In [6]:
longitud = len(fruta)
ultima = fruta[longitud]

IndexError: string index out of range

La razón de estos `IndexError` es que no hay ninguna letra en `banana` con el índice 6. Como comenzamos a contar en cero, las seis letras están numeradas de 0 a 5. Para obtener el último carácter, debe restar 1 de longitud:

In [7]:
ultima = fruta[longitud-1]
print(ultima)

a


Alternativamente, puede usar índices negativos, que cuentan hacia atrás desde el final de la cadena. La expresión `fruta[-1]` produce la última letra, `fruta[-2]` produce la penúltima, y así sucesivamente.

## Recorrer una cadena con un bucle

Una gran cantidad de cálculos implican el procesamiento de una cadena de un carácter a la vez. A menudo
comienzan desde el principio, seleccionan a cada caracter por turno, le hacen algo y continúan hasta el final. Este patrón de procesamiento se denomina recorrido. Una forma de escribir un recorrido es con un bucle `while`:

In [8]:
indice = 0
while indice < len(fruta):
    letra = fruta[indice]
    print(letra)
    indice = indice + 1

b
a
n
a
n
a


Este bucle recorre la cadena y muestra cada letra en una línea sola. La condición de bucle es `indice < len(fruta)`, por lo que cuando índice es igual a la longitud de la cadena, la condición es falsa, y el cuerpo del bucle no se ejecuta. El último carácter al que se accede es el que tiene el índice `len(fruta)-1`, que es el último carácter de la cadena.

**Ejercicio 1:** escriba un ciclo `while` que comience en el último carácter de la cadena y retroceda hasta el primer carácter de la cadena, imprimiendo cada letra en una línea separada, excepto al revés.

Otra forma de escribir un recorrido es con un bucle `for`:

In [9]:
for char in fruta:
    print(char)

b
a
n
a
n
a


Cada vez que pasa el ciclo, el siguiente carácter de la cadena se asigna a la variable `char`. El ciclo continúa hasta que no queden caracteres.

## Slice de una cadena

Un segmento de una cadena se llama slice. Seleccionar un segmento es similar a seleccionar un carácter:

In [10]:
s = 'Monty Python'
print(s[0:5])
print(s[6:12])

Monty
Python


El operador devuelve la parte de la cadena del carácter `n` al carácter `m`, incluido el primero, pero excluyendo el ultimo.

Si omite el primer índice (antes de los dos puntos), el slice comienza al principio de la cadena. Si omite el segundo índice, el slice va al final de la cadena:

In [11]:
fruta = 'banana'
print(fruta[:3])
print(fruta[3:])

ban
ana


Si el primer índice es mayor o igual que el segundo, el resultado es una cadena vacía, representada por dos comillas:

In [12]:
fruta = 'banana'
fruta[3:3]

''

Una cadena vacía no contiene caracteres y tiene una longitud de 0, pero aparte de eso, es igual que cualquier otra cadena.

**Ejercicio 2:** dado que fruta es una cadena, ¿qué significa fruta[:]?

## Las cadenas son inmutables

Es tentador usar el operador en el lado izquierdo de una tarea, con la intención de cambiar un carácter en una cadena. Por ejemplo:

In [13]:
saludo = 'Hola, mundo!'
saludo[0] = 'J'

TypeError: 'str' object does not support item assignment

El "objeto" en este caso es la cadena y el "elemento" es el carácter que trataste de asignar. Por ahora, un objeto es lo mismo que un valor, pero redefiniremos esa definición más adelante. Un elemento es uno de los valores en una secuencia.

El motivo del error es que las cadenas son inmutables, lo que significa que no puede cambiar una cadena existente. Lo mejor que puedes hacer es crear una nueva cadena que sea una variación del original:

In [14]:
saludo = 'Hola, mundo!'
nuevo_saludo = 'J' + saludo[1:]
print(nuevo_saludo)

Jola, mundo!


Este ejemplo concatena una nueva primera letra en una porción de saludo. No tiene ningún efecto en la cadena original.

## Bucle y conteo

El siguiente programa cuenta el número de veces que la letra a aparece en una cadena:

In [15]:
palabra = 'banana'
contar = 0
for letra in palabra:
    if letra == 'a':
        contar = contar + 1
print(contar)

3


Este programa demuestra otro patrón de computación llamado contador. La variable `contar` se inicializa a 0 y luego se incrementa cada vez que se encuentra una `a`. Cuando el ciclo sale, `contar` contiene el resultado: el número total de `a`s.

**Ejercicio 3:** Encapsula este código en una función llamada `contar`, y generalízalo para que acepte la cadena y la letra como argumentos.

## El operador `in`

La palabra `in` es un operador booleano que toma dos cadenas y regresa `True` si la primera aparece como una subcadena en la segunda:

In [16]:
'a' in 'banana'

True

In [17]:
'semilla' in 'banana'

False

 ## Comparación de cadenas
 
 Los operadores de comparación trabajan en cadenas. Para ver si dos cadenas son iguales:

In [18]:
if palabra == 'banana':
    print('Es igual a bananas.')

Es igual a bananas.


Otras operaciones de comparación son útiles para poner las palabras en orden alfabético:

In [19]:
palabra = 'banana'
if palabra < 'banana':
    print('Tu palabra,' + palabra + ', viene antes de banana.')
elif palabra > 'banana':
    print('Tu palabra,' + palabra + ', vienen después de banana.')
else:
    print('Es igual a bananas.')

Es igual a bananas.


Python no maneja letras mayúsculas y minúsculas de la misma manera que las personas. Todas las letras mayúsculas aparecen antes que las letras minúsculas, así que:

    Tu palabra, Piña, viene antes de banana.

Una forma común de resolver este problema es convertir cadenas a un formato estándar, como todas minúsculas, antes de realizar la comparación.

##  Métodos string

Las cadenas son un ejemplo de objetos de Python. Un objeto contiene tanto datos (la propia cadena real) como métodos, que son funciones efectivamente integradas en el objeto y están disponibles para cualquier instancia del objeto.

Python tiene una función llamada `dir` que enumera los métodos disponibles para un objeto. La función `type` muestra el tipo de un objeto y la función `dir` muestra los métodos disponibles.

In [20]:
stuff = 'Hola mundo'
type(stuff)

str

In [21]:
dir(stuff)

['__add__',
 '__class__',
 '__contains__',
 '__delattr__',
 '__dir__',
 '__doc__',
 '__eq__',
 '__format__',
 '__ge__',
 '__getattribute__',
 '__getitem__',
 '__getnewargs__',
 '__gt__',
 '__hash__',
 '__init__',
 '__init_subclass__',
 '__iter__',
 '__le__',
 '__len__',
 '__lt__',
 '__mod__',
 '__mul__',
 '__ne__',
 '__new__',
 '__reduce__',
 '__reduce_ex__',
 '__repr__',
 '__rmod__',
 '__rmul__',
 '__setattr__',
 '__sizeof__',
 '__str__',
 '__subclasshook__',
 'capitalize',
 'casefold',
 'center',
 'count',
 'encode',
 'endswith',
 'expandtabs',
 'find',
 'format',
 'format_map',
 'index',
 'isalnum',
 'isalpha',
 'isascii',
 'isdecimal',
 'isdigit',
 'isidentifier',
 'islower',
 'isnumeric',
 'isprintable',
 'isspace',
 'istitle',
 'isupper',
 'join',
 'ljust',
 'lower',
 'lstrip',
 'maketrans',
 'partition',
 'replace',
 'rfind',
 'rindex',
 'rjust',
 'rpartition',
 'rsplit',
 'rstrip',
 'split',
 'splitlines',
 'startswith',
 'strip',
 'swapcase',
 'title',
 'translate',
 'upper',


In [22]:
help(str.capitalize)

Help on method_descriptor:

capitalize(self, /)
    Return a capitalized version of the string.
    
    More specifically, make the first character have upper case and the rest lower
    case.



Si bien la función `dir` enumera los métodos y puede utilizarla `help` para obtener documentación simple sobre un método, una mejor fuente de documentación para los métodos de cadena sería
https://docs.python.org/3.5/library/stdtypes.html#string-methods.

Llamar a un método es similar a llamar a una función (toma argumentos y devuelve un valor) pero la sintaxis es diferente. Llamamos un método al agregar el nombre del método al nombre de la variable usando el período como un delimitador.

Por ejemplo, el método `upper` toma una cadena y devuelve una nueva cadena con todas las letras mayúsculas:

En lugar de la sintaxis de la función `upper(palabra)`, utiliza la sintaxis del método `palabra.upper()`.

In [23]:
palabra = 'banana'
nueva_palabra = palabra.upper()
print(nueva_palabra)

BANANA


Esta forma de notación de puntos especifica el nombre del método, `upper` y el nombre de la cadena de aplicar el método a `palabra`. Los paréntesis vacíos indican que este método no tiene argumento.

Una llamada a un método se llama invocación; en este caso, diríamos que estamos invocando `upper` en el palabra.

Por ejemplo, hay un método de cadena llamado `find` que busca la posición de una cadena dentro de otra:

In [24]:
palabra = 'banana'
indice = palabra.find('a')
print(indice)

1


En este ejemplo, se invoca `find` en palabra y pasar la letra que estamos buscando como un parámetro.

El método `find` puede encontrar subcadenas así como también caracteres:

In [25]:
palabra.find('na')

2

Puede tomar como segundo argumento el índice donde debería comenzar:

In [26]:
palabra.find('na', 3)

4

Una tarea común es eliminar espacios en blanco (espacios, pestañas o líneas nuevas) desde el comienzo y el final de una cadena utilizando el método `strip`:

In [27]:
linea = ' Here we go '
linea.strip()

'Here we go'

Algunos métodos, como `startswith`, devuelven valores booleanos.

In [28]:
linea = 'Que tengas un buen díay'
linea.startswith('Que')

True

In [29]:
linea.startswith('q')

False

Notarás que `startswith` requiere mayúsculas y minúsculas para que coincida, por lo que a veces tomamos una línea y lo asignamos todo a minúsculas utilizando el método `lower` antes de hacer cualquier comprobación.

In [30]:
linea = 'Que tengas un buen día'
linea.startswith('q')

False

In [31]:
linea.lower().startswith('q')

True

En el último ejemplo, `lower` se llama al método y luego usamos `startswith` para ver si la cadena en minúscula resultante comienza con la letra `q`. Siempre tengamos cuidado con el orden, podemos hacer múltiples llamadas a métodos en una sola expresión.

**Ejercicio 4:** Hay un método de cadena llamado `count` que es similar a la función en el ejercicio anterior. Lea la documentación de este método en https://docs.python.org/3.5/library/stdtypes.html#string-methods y escriba una invocación que
cuente el número de veces que la letra `a` aparece en "banana".

## Análisis de cadenas

A menudo, queremos ver una cadena y encontrar una subcadena. Por ejemplo, si nos presentaran una
serie de líneas formateadas de la siguiente manera:

    From stephen.marquard@ uct.ac.za Sat Jan 5 09:14:16 2008

y queríamos sacar solo la segunda mitad de la dirección (es decir, uct.ac.za) de cada línea, podemos hacerlo utilizando el método `find` y el corte de cadenas.

Primero, encontraremos la posición del signo a en la cadena. Luego, encontraremos la posición del primer espacio después del signo `@`. Y luego usaremos el corte de cadenas para extraer la porción de la cadena que estamos buscando.

In [32]:
data = 'From stephen.marquard@uct.ac.za Sat Jan 5 09:14:16 2008'
atpos = data.find('@')
print(atpos)
sppos = data.find(' ',atpos)
print(sppos)
host = data[atpos+1:sppos]
print(host)

21
31
uct.ac.za


Usamos una versión del método `find` que nos permite especificar una posición en la cadena en la que queremos comenzar a buscar. Cuando cortamos, extraemos los caracteres de "uno más allá del signo hasta el carácter de espacio pero sin incluir el espacio".

La documentación del método `find` está disponible en https://docs.python.org/3.5/library/stdtypes.html#string-methods.

## Operador de formato

El operador de formato, `%` nos permite construir cadenas, reemplazando partes de las cadenas con los datos almacenados en variables. Cuando se aplica a enteros, `%` es el operador de módulo. Pero cuando el primer operando es una cadena, `%` es el operador de formato.

El primer operando es la cadena de formato, que contiene una o más secuencias de formato que especifican cómo se formatea el segundo operando. El resultado es una cadena.

Por ejemplo, la secuencia de formato `%d` significa que el segundo operando debe formatearse como un entero (d significa "decimal"):

In [33]:
camellos = 42
'%d' % camellos

'42'

El resultado es la cadena `'42'`, que no debe confundirse con el valor entero `42`.

Una secuencia de formato puede aparecer en cualquier lugar de la cadena, por lo que puede incrustar un valor en una oración:

In [34]:
camellos = 42
'He visto %d camellos' % camellos

'He visto 42 camellos'

Si hay más de una secuencia de formato en la cadena, el segundo argumento tiene que ser una tupla (Una tupla es una secuencia de valores separados por comas dentro de un par de paréntesis. Cubriremos las tuplas en el Capítulo 10. Cada secuencia de formato se empareja con un elemento de la tupla, en orden.

El siguiente ejemplo usa `%d` para formatear un entero, `%g` para formatear un número de coma flotante (no preguntes por qué) y `%s` para formatear una cadena:

In [35]:
'En %d años he visto %g %s.' % (3, 0.1, 'camellos')

'En 3 años he visto 0.1 camellos.'

El número de elementos en la tupla debe coincidir con el número de secuencias de formato en la cadena. Los tipos de elementos también deben coincidir con las secuencias de formato:

In [36]:
'%d %d %d' % (1, 2)

TypeError: not enough arguments for format string

In [37]:
'%d' % 'dollares'

TypeError: %d format: a number is required, not str

En el primer ejemplo, no hay suficientes elementos; en el segundo, el elemento es del tipo incorrecto.

El operador de formato es poderoso, pero puede ser difícil de usar. Puedes leer más sobre esto en
https://docs.python.org/3.5/library/stdtypes.html#printf-style-string-formatting.

## Depuración

Una habilidad que debe cultivar mientras programa siempre es preguntarse: "¿Qué podría salir mal aquí?" o alternativamente, "¿Qué cosa loca podría hacer nuestro usuario para bloquear nuestro (aparentemente) programa perfecto?"

Por ejemplo, mire el programa que usamos para demostrar el ciclo `while` en el capítulo de iteración:

    while True:
        line = input('> ')
        if line[0] == '#':
            continue
        if line == 'hecho':
            break
        print(line)
    print('Hecho!')
    
Mira lo que sucede cuando el usuario ingresa una línea de entrada vacía:

In [38]:
while True:
    linea = input('> ')
    if linea[0] == '#':
        continue
    if linea == 'hecho':
        break
    print(linea)
print('Hecho!')

> Hola
Hola
> Imprime esto
Imprime esto
> # No imprimas esto
> listo
listo
> hecho
Hecho!


El código funciona bien hasta que se presente una línea vacía. Entonces no hay carácter, así que obtenemos un IndexError. Hay dos soluciones para hacer que la línea tres sea "segura", incluso si la línea está vacía.

Una posibilidad es simplemente usar el método `startswith` que devuelve False si la cadena está vacía.

    if linea.startswith('#')

Otra forma es escribir con seguridad el enunciado `if` utilizando el patrón de guardián y asegurarse de que la segunda expresión lógica se evalúe solo cuando haya al menos un carácter en la cadena:

    if len(linea) > 0 and linea[0] == '#':

In [39]:
while True:
    linea = input('> ')
    if linea.startswith('#'):
        continue
    if linea == 'hecho':
        break
    print(linea)
print('Hecho!')

> Hola
Hola
> Imprime esto
Imprime esto
> # No imprimas esto
> Adios
Adios
> hecho
Hecho!


## Glosario

* **contador:** Una variable utilizada para contar algo, generalmente inicializada a cero y luego incrementada.
* **cadena vacía:** Una cadena sin caracteres y longitud 0, representada por dos comillas.
* **operador de formato:** Un operador `%` que toma una cadena de formato y una tupla y genera una cadena que incluye los elementos de la tupla formateados como se especifica en la cadena de formato.
* **secuencia de formateo:** Una secuencia de caracteres en una cadena de formato, como `%d`, que especifica cómo debe formatearse un valor.
* **cadena de formato:** Una cadena, utilizada con el operador de formato, que contiene secuencias de formato.
* **bandera:** Una variable booleana usada para indicar si una condición es verdadera o falsa.
* **invocación:** Una declaración que llama a un método.
* **inmutable:** La propiedad de una secuencia cuyos elementos no se pueden asignar.
* **índice:** Un valor entero utilizado para seleccionar un elemento en una secuencia, como un carácter en una cadena.
* **ítem:** Uno de los valores en una secuencia.
* **método:** Una función que se asocia con un objeto y se llama mediante notación de puntos.
* **objeto:** Algo a lo que una variable puede referirse. Por ahora, puedes usar "objeto" y "valor" de manera intercambiable.
* **buscar:** Un patrón de recorrido que se detiene cuando encuentra lo que está buscando.
* **secuencia:** Un conjunto ordenado; es decir, un conjunto de valores donde cada valor se identifica mediante un índice entero.
* **slide:** Una parte de una cadena especificada por un rango de índices.
* **atravesar:** Para recorrer los elementos en una secuencia, realizando una operación similar en cada uno. 

## Ejercicios

**Ejercicio 5:** tome el siguiente código de Python que almacena una cadena:

    str = 'X-DSPAM-Confidence:0.8475'

Utilice `find` y corte la cadena para extraer la parte de la cadena después del carácter de dos puntos y luego use la función `float` para convertir la cadena extraída en un número de coma flotante.

**Ejercicio 6:** Lea la documentación de los métodos de cadena en https://docs.python.org/3.5/library/stdtypes.html#stringmethods.

Es posible que desee experimentar con algunos de ellos para asegurarse de que entiende cómo funcionan. `strip` y `replace` son particularmente útiles.

La documentación usa una sintaxis que puede ser confusa. Por ejemplo, en `find(sub[, start[, end]])`, los corchetes indican argumentos opcionales. Entonces `sub` obligatorio, pero `start` es opcional, y si lo incluye `start`, entonces `end` es opcional.

<!--NAVIGATION-->
| [Indice](indice.ipynb) | 

< [Capítulo 5 - Iteraciones](cap05.ipynb) | [Capítulo 7 - Archivos](cap07.ipynb) >