# Introducción a las cadenas de caracteres
[Pablo A. Haya](https://pablohaya.com)

Las cadenas de caracteres son el tipo de datos más básico que suele disponer un lenguaje de programación para almacenar y manipular texto. En `Python`, este tipo de datos se denonima `str`, y permite almacenar secuencias de caracteres. Puede contener cualquier tipo símbolos: alfabéticos, numéricos, puntuación, exclamación, interrogación...

Una cadena de caracteres se delimita utilizando las comillas simples `'hola'`, las comillas dobles `"hola"` o las comillas triples `'''hola'''` u `"""hola"""`. En nuestros ejemplos tendremos preferencias por las dobles comillas.

La siguiente línea crea la cadena `"¡Oh capitán, mi capitán!"`, y la asigna a la variable `s`.

In [1]:
s = str("¡Oh capitán, mi capitán!")

aunque se puede definir directamente omitendo la función `str`. La siguiente línea de código es equivalente a la anterior, y será la manera que emplearemos en el resto de ejemplos.

In [2]:
s = "¡Oh capitán, mi capitán!"

Es fácil comprobar en `Python` que efectivamente el tipo de datos es el correcto mediante la función `type`. 

In [3]:
type(s)

str

No existe diferencia entre las comillas simples y dobles, en cambio las comillas triples nos permiten crear cadenas de caracteres que tenga múltiple líneas.

In [4]:
poema = """Contigo, mano a mano
busquemos otros prados y otros ríos,
otros valles floridos y sombríos,
donde descanse, y siempre pueda verte
ante los ojos míos,
sin miedo y sobresalto de perderte. 
"""

Python 3.0 puede manipular cadenas de caracteres en cualquier idioma, así las siguientes cadenas son perfectamente válidas.

In [1]:
sj = "私は蚊に刺されている"
sr = "Если вы скажете мне, что они видят, что я оставляю все"

Cada caracter se le asocia un código numérico siguiendo el estandar `unicode`. Mediante la función `ord()` obtenemos este identificador, mientras que la función `chr()` permite realizar la operación inversa, de un identificador devolver el caracter. Por ejemplo, el código unicode de la letra `a` minúscula es 97.

In [27]:
ord('a')

97

In [28]:
chr(97)

'a'

La función `chr()` requiere el código unicode en notación decimal, pero habitualmente cuando lo buscamos en Internet suele aparecer representando en hexadecimal. El código unicode de `"ж"` es `U+0436` que notación hexadecimal se corresponde con `0x0436`. Para realizar la conversión entre uno y otro se emplea la función `int()` indicando la base 16.

In [31]:
chr(int("0x0436", 16))

'ж'

De la misma manera, la función `ord()` nos devuelve el código unicode en decimal, y para pasarlo a hexadecimal emplearemos la función `hex()`

In [32]:
hex(ord("ж"))

'0x436'

Los caracteres se encuentran ordenados alfabéticamente de tal manera que el siguiente código nos muestra todos los caracteres entre la `A` mayúscula y la `z` minúscula.

In [42]:
for i in range(ord('A'), ord('z')+1):
    print(chr(i), end="")

ABCDEFGHIJKLMNOPQRSTUVWXYZ[\]^_`abcdefghijklmnopqrstuvwxyz

Aunque no se encuentran todos los caracteres latinos ya que no aparecen las vocales acentuadas, o la `ü` con diéreis. Estos caracteres tienen código unicode más elevado.

## Ejercicios

**1. Ejercicio** Prueba a mostrar los códigos unicode en hexadecimal de las vocales acentuadas en minúsculas y mayúsculas. Comprueba que son correctos con la siguiente página https://unicode-table.com

In [43]:
for c in "ÁÉÍÓÚáéíóú":
    print(hex(ord(c)), end=" ")

0xc1 0xc9 0xcd 0xd3 0xda 0xe1 0xe9 0xed 0xf3 0xfa 