## Strings o cadenas de texto

Hasta ahora hemos usado variables de un mismo tipo, calores numéricos. Pero hay más tipos de datos, en esta sección vamos a introducir las cadenas de texto o _strings_. Este tipo de datos se usa para almacenar texto. El texto se considera como una secuencia o _encadenamiento_ de varias letras o caracteres sucesivos, de ahí lo de cadenas de texto.

Para crear una variable de texto, la hemos igual que con las variables numéricas, asignamos un valor a un nombre.

In [4]:
a = 'Hola'
a

'Hola'

### Delimitadores de texto

El ordenador necesita saber donde empiza y termina la cadena de texto con total exactitud, pera eso se usan las comillas. Distintos lenguajes usan diostintas convenciones, pero en python hay cuatro formas de marcar el principio y el fin de una cadena de texto:

- Comillas simples: '

- Comillas dobles: "

- Triples comillas simples: '''

- Tripes comillas dobles: """

Es decir, que las siguientes declaraciones de variables son todas validas y equivalentes entre si, ya que todos crean la misma cadena de texto:

In [9]:
a = 'hola'
b = "hola"
c = '''hola'''
d = """hola"""
a, b, c, d

('hola', 'hola', 'hola', 'hola')

Obviamente, no podemos mezclar las marcas de principio y final, es decir, si hemos empezado la cadena de texto con triples comillas simples, tenemos que terminarla con triples comillas simples:

In [15]:
a = '''¡Yabba dabba doo!"""  # No funciona

SyntaxError: EOF while scanning triple-quoted string literal (<ipython-input-15-a707ef5f416f>, line 1)

¿Para qué queremos tantas formas distintas de espresar las cadenas de texto, si todas dan el mismo resultado? Pues básicamente por comodidad, para resolver el problema de como incluir comillas _dentro de la propia cadena de texto_.

Por ejemplo si queremos trabajar con el texto en inglés _My Taylor is rich and my mother's in the kitchen_, y usáremos el delimitador de comillas simple, el ordenador no lo entenderá, por ambiguo: ¿Dónde termina la cedena, después de _mother_ o después de _kitchen_?

In [16]:
a = 'My Taylor is rich and my mother's in the kitchen'

SyntaxError: invalid syntax (<ipython-input-16-a3836b481a81>, line 1)

Podemos resolver este problema de forma muy sencilla usando como delimitador cualquiera de los tros tres formatos, ya que hay no ahora no hay ambigüedad.

In [13]:
a = "My Taylor is rich and my mother's in the kitchen"
b = """My Taylor is rich and my mother's in the kitchen"""
c = '''My Taylor is rich and my mother's in the kitchen'''

a, b, c

("My Taylor is rich and my mother's in the kitchen",
 "My Taylor is rich and my mother's in the kitchen",
 "My Taylor is rich and my mother's in the kitchen")

¿Y si tenemos un día malo y tenemos que trabajar con una cadena de texto que contienes comillas simples, comillas dobles, triples comillas simples y triples comillas dobles? En primer lugar: no compre lotería hoy. En segundo, hay una forma de incluir determinados caracteres de forma literal, es decir, sin considerar el significado especial que tienen. Este concepto se llama **escapar** el significado del caracter. En este caso, queremos _escapar_ la comilla dentro de la frase para que no signifique "Y la cedena de texto termina aquí", sino que valga por su significado normal, "comilla simple". Para escapar un caracter de su significado especial se usa el caracter "\" o barra invertida.

In [17]:
a = 'My Taylor is rich and my mother\'s in the kitchen'
a

"My Taylor is rich and my mother's in the kitchen"

Como hemos _escapado_ la sedunda comillas simple, esta ya no tiene el significado de "fin de cadena de texto", sino que vale por lo que es, una comillas simple normal, y desaparece la ambigüedad.

### Otros caracteres especiales

Otros caracteres especiales que se pueden escapar son, por ejemplo, la letra n minúscula. Si la usamos sin escapar, el significado es, obviamente, `n`, pero si la escapamos, es decir, si la precedemos con una barra invertida, su significado pasa a "salta a la línea siguiente". POdemos ver el resultado usando la función `print`:

In [19]:
s = 'esta es la primera línea\nEsta es la segunda línea'
print(s)

esta es la primera línea
Esta es la segunda línea


In [20]:
### Codificación de textos

Como el ordenador solo sabe de números, los textos se almacenan codificando cada letra, caracter o símbolo como un núnero determinado. La codificación más usada hoy en día es [UFT-8](https://es.wikipedia.org/wiki/UTF-8), que es una extensión de la codificación ASCII, que era el estándar por defecto desde los años 60 del pasado siglo. 

La principal limitacion del ASCII es que inicialmente solo codificaba sobre el centenar de caractgeres, mientras que con utf-8 se pueden codificar todos los caracteres reconocidos por [UNICODE](https://es.wikipedia.org/wiki/Unicode), que actualmente está en torno a los 136000 símbolos.

Por ejemplo, la codificación del símbolo A Mayúscula ('A') es el númnero 65. Hay una función que nos permite saber el código asociado con cada letra o simbolo, `ord`:

In [5]:
ord('A')

65

**Pregunta**: ¡Cual será el código de la letra B Mayúscula? ¿Y de la zeta minúscula?

122

es 	&#26376;

Existe otra función que realiza la operación contraria, a partir de un número, nos devuelve el caracter correspondiente: `chr`. Por ejemplo, podemos obtener una letra A mayúscula con `chr(65)`:

In [21]:
print(chr(65))

A


**Ejercicio:** El caracter chino Yué (Luna), que se muestra a continuación, tiene el número unicode **26376**, cómo podemos imprimirlo es este notebook:

![símbolo Han Yué: Luna](./art/Han-Moon.png)

In [28]:
print(chr())

TypeError: chr() takes exactly one argument (0 given)

### Operaciones con cadenas de texto

Como hemos visto, las cadenas de texto son internamente una serie de números. Como tales, tienen mucho en común con las listas que vimos anteriormente; de hecho tanto las listas como las cadenas de texto son consideradas *secuencias* (Hay otros tipos de datos que también son secuencias, como las _tuplas_, las veremos más adelanten). Lo bueno de esto es que la mayoría de las operaciones que vimos en las listas se pueden realizar también con las cadenas de textos.

 ### Acceso mediante índices

Podemos acceder a una letra o símbolo en concreto usando el índice entre corchetes (recuerden que los índices siempre empiezan por cero, no por uno):

In [6]:
s = 'Luke, yo soy tu padre'
coma = s[6]
print(coma)

y


In [1]:
s = 'Luke, yo soy tu padre'
sujeto = s[6:8]
verbo = s[9:12]
print(sujeto, verbo)

yo soy


### Recorrer cadenas de fextos con for

Como vimos antes, el `for` en Python es una estructura de control especializada en trabajar sobre secuencias. Como las cadenas de texto son secuencias, for es perfectamente capaz de _iterar_ sobre ellas, es decir, repetir la ejecución de una secuencia de codígo para cada uno de los elementos de la secuencia:

In [8]:
saludo = '¡Yabba dabba doo!'
for caracter in saludo:
    print(caracter)

¡
Y
a
b
b
a
 
d
a
b
b
a
 
d
o
o
!


**Ejercicio:** Dada una cedena de texto, vamos a imprimir todos los códigos numéricos que la representan internamente:

In [9]:
s = '¡Yabba dabba doo!'
for caracter in saludo:
    ...

### Operaciones de slicing

Todas las operaciones de _slicing_ o rebanadas que vimos para las listas, sirven también para los textos. Por ejemplo, podemos extraer una subcadena de texto a partir de una mayor:

Igual que con las listas, podemos omitir el primer valor o el segundo, o los dos. Se asume entonces que nos referimos al principio de la cadena de texto si omitimos el primero, y al final si omitimos el segunddo:

In [5]:
s = 'Luke, yo soy tu padre'
luke = s[:4]
determinante = s[-8:]
print(luke, determinante)

Luke tu padre


Cuando vimos las operaciones de slicing en las listas, no explicamos que se puede usar un tercer valor, que se usaría como valor de paso oe salto en la secuencia. Es decir, que la rodaja [1:5] nos da los elementos en las segunda, tercera, cuarta y quinta posición posición (Es decir, los índices 1,2,3 y 4):

In [10]:
s = 'abcdefghijkl'
print(s[1:5])

bcde


Pero si añadimos un tercer valor, se usara como valor de salto, por ejemplo `[1:5:2]` nos dará los elementos en las posiciones segunda y cuarta (Índices 1 y 3 (es decir, 1+2)).

In [11]:
s = 'abcdefghijkl'
print(s[1:5:2])

bd


In [None]:
Evidentemente, `[1:8:1]` es igual a `[1:8]`

### Operador in

El operador `in` puede ser usado con cadenas de texto igual que con las listas. La expresión 
se puede usar para saber si una determinada secuencia de caracteres se encuantra incluida dentro de otra, normalmente más grande.


In [4]:
voltaire = '''No estoy de acuerdo con lo que dices, 
pero hasta con la vida defenderé el derecho 
que tienes de decir lo que piensas.
'''
print('pero' in voltaire)


True


In [5]:
print('acuerdo' not in voltaire)

False


### Otros métodos útiles

- El método `startswith` nos sirve para saber si una cadena de textos empieza de una determinada subcadena.

- El método `endswith` nos sirve para saber si una cadena de textos empieza con una determinada subcadena.

- El método `upper` nos sirve para saber convertir una cadena de texto en otra
  igual excepto porque todas las letras están en mayúsculas.
  
- El método `lower` nos sirve para saber convertir una cadena de texto en otra
  igual excepto porque todas las letras están en minúsculas.
  

  


In [12]:
cita_groucho = 'Nunca olvido una cara. Pero en su caso, haré gustoso una excepción'
print(cita_groucho.startswith('Nunca'))
print(cita_groucho.endswith('excepción.'))
print('Hola'.lower())
print('Hola'.upper())

True
False
hola
HOLA


Tanto `upper` como `lower`, al igual que, por lo general, cualquier otro método que altere el contenido de la cadena de texto, no hacen ningún cambio en el valor original sino que devuelven una nueva cadena de texto modificada.

### Otros métodos `isX`

los métodos que empiezan con `is` devuelven valores lógicos o booleanos, indicando si la cadena de texto correspondiente cumple o no ciertas características. Algunos de estos mñetodos son los siguientes:

- El método `isupper` nos devuelve verdadero (`True`) si la cadena de texto
  sobre la que se aplica tienen todas las letras en mayúsculas.
  
- De forma análoga, `islower` devuelve verdadero si la cadena de texto
  sobre la que se aplica tienen todas las letras en minúsculas.

- `isalpha()` devuelve verdadero si la cadena de texto contiene solo letras, sin ningún espacio.

- `isalnum()` devuelve verdadero si la cadena consta solo de letras y/o números, sin ningún espacio.

- `isdecimal()` devuelve verdadero si la cadena consta solo de dígitos, y no esta vacia.


In [27]:
print('"abc" son todo minúsculas:', 'abc'.islower())
print('"ABC" son todo mayúsculas:', 'ABC'.isupper())
print('"hola" son solo letras:', 'hola'.isalpha())
print('"hola3" son letras y números:', 'hola3'.isalnum())
print('"2343" sólo contiene dígitos:', '2343'.isdecimal())

"abc" son todo minúsculas: True
"ABC" son todo mayúsculas: True
"hola" son solo letras: True
"hola3" son letras y números: True
"2343" sólo contiene dígitos: True


### Los métodos join y split

Falta