# Secuencias de caracteres (strings)

Las secuencias de caracteres, también conocidas como strings, se representan por el tipo inmutable `str` que contiene una secuencia inmutable de caracteres Unicode. Es posible usar este tipo de datos como una función `str()` para crear objetos de tipo string, invocarlo sin argumentos regresa un string vacío, con un argumento distinto a un string, regresa la forma en string del argumento y con un argumento string regresa una copia del string. La función `str()` también puede emplearse como una función de conversión, el primer argumento corresponde a un string o un objeto convertible a string, el segundo especifica el encoding y el tercero especifica cómo manejar errores de codificación (encoding).

In [1]:
str()

''

In [3]:
str([1,2,3])

'[1, 2, 3]'

In [4]:
str("Can I have a copy, please?")

'Can I have a copy, please?'

In [10]:
str.encode("Convert me, please 😀", "ascii", "strict")

UnicodeEncodeError: 'ascii' codec can't encode character '\U0001f600' in position 19: ordinal not in range(128)

Los strings pueden ser definidos con comillas sencillas, dobles o triples.

In [13]:
'Comilla sencilla'

"Comilla doble"

"""
String con comillas triples
Soporta múltiples renglones
También soporta escape, \
por lo que este se representa como un solo renglón.
"""

'\nString con comillas triples\nSoporta múltiples renglones\nTambién soporta escape, por lo que este se representa como un solo renglón.\n'

El símbolo `\` se emplea dentro de un string como carater de escape y por medio de él es posible incluir comillas en la secuencia de caracteres.

In [1]:
greeting = "He said: \"I'm done for now\""
greeting

'He said: "I\'m done for now"'

Caracteres de escape

| Escape | Significado |
| --- | --- |
| \newline | Ignorar el caracter de nueva línea |
| \\\\ | Backslash (\\)|
| \' | Comilla sencilla (') |
| \\" | Comilla doble (") |
| \\a | Campana ASCII (BEL) |
| \\b | Backspace ASCII (BS) |
| \\f | Formfeed ASCII (FF) |
| \\n | Linefeed ASCII (LF) |
| \\N{name} | Caracter Unicode con el nombre especificado |
| \\ooo | Caracter con el valor octal especificado |
| \\r | Retorno de carro ASCII (CR) |
| \\t | Tabulador ASCII (TAB) |
| \\u*hhhh* | Caracter Unicode con el valor hexadecimal de 16 bits especificado |
| \\U*hhhhhhhh* | Caracter Unicode con el valor hexadecimal de 32 bits especificado | 
| \\v | Tabulador vertical ASCII (VT) |
| \\x*hh* | Caracter con el valor hexadecimal de 8 bits especificado |

Es posible usar comillas en secuencias de caracteres sin el caracter de escape empleando comillas distintas a las empleadas las comillas empleadas como delimitador.

In [3]:
a = "Comillas sencillas 'bienvenidas', dobles requieren \"escape\"."
print(a)


Comillas sencillas 'bienvenidas', dobles requieren "escape".


In [4]:
b = 'Comillas sencillas requieren \'escape\', dobles "bienvenidas".'
print(b)

Comillas sencillas requieren 'escape', dobles "bienvenidas".


Python emplea newline como su terminador de estatutos, excepto dentro de paréntesis, corchetes, llaves o secuencias de caracteres delimitadas por comilla triple. 

Es posible incluir newlines en cualquier secuencia de caracteres usando la secuencia de escape `\n`

Los newlines pueden ser empleados sin caracter de escape en secuencias de caracteres delimitadas por comilla triple.

Es posible escribir secuencia de caracteres largas segmentadas en múltiples renglones sin emplear triple comilla.

In [12]:
t = "Una forma, poco recomendada, es por medio del operador + y el backslash el cual " + \
    "concatena dos secuencias de caracteres"
t

'Una forma, poco recomendada, es por medio del operador + y el backslash el cual concatena dos secuencias de caracteres'

In [13]:
s = ("La otra forma, recomendada, es colocando entre paréntesis, "
    "tantos renglones como sea necesario"
    "cada uno con sus propias comillas.")
s

'La otra forma, recomendada, es colocando entre paréntesis, tantos renglones como sea necesariocada uno con sus propias comillas.'

En algunas circunstancias, como en la escritura de expresiones regulares, es necesario crear secuencias de caracteres con muchos backslashes literales. Esto puede ser poco conveniente debido a que cada uno tendría que estar asociado con un caracter de escape.

In [15]:
import re
#Definición de una expresión regular con backslashes definidos por medio de escape -> \\
m = re.match("(?P<first_name>\\w+) (?P<last_name>\\w+), (?P<title>\\w+)", "Isaac Newton, physicist")
m.group("first_name", "last_name", "title")

('Isaac', 'Newton', 'physicist')

In [None]:
import re
#Definición de una expresión regular con string de tipo raw. Nótese el prefijo r el parámetro de la función match.
m = re.match(r"(?P<first_name>\w+) (?P<last_name>\w+), (?P<title>\w+)", "Isaac Newton, physicist")
m.group("first_name", "last_name", "title")

Unicode
Los archivos .py de Python tienen un encoding de UTF-8 por omisión. Esto permite escribir cualquier caracter de Unicode de forma directa, sin mecanismos de escape. De ser necesario, es posible colocar cualquier caracter Unicode dentro de los strings empleando secuencias hexadecimales de escape o nombres Unicode. Por ejemplo:

In [19]:
rode_letter = "Ø \N{latin capital letter o with stroke} \u00D8 \U000000D8"
rode_letter

'Ø Ø Ø Ø'

Para conocer el code point de Unicaod (el entero asociado al caracter en el encoding de Unicode) para un caracter en particular en una secuencia, es posible emplear la función `ord()`

In [20]:
ord(rode_letter[0])

216

In [21]:
hex(ord(rode_letter[0]))

'0xd8'

También es posible convertir cualquier entero que represente un code point válido al caracter Unicode correspondiente empleando la función `chr()`:

In [23]:
s = "The symbol of infinity: " + chr(0x221E)
s

'The symbol of infinity: ∞'

Si escribimos una secuencia de caracteres Unicode en el REPL de Python o en una celda de Jupyter, se produce como resultado su forma en string en la que los caracteres están delimitados por comillas. Si solo queremos caracteres ASCII, podemos emplear la función integrada ascii() que regresa la forma representativa de su argumento empleando caracteres ASCII de 7 bits donde sea posible y empleando la forma más corta de \x*hh*, \u*hhhh*, \U*hhhhhhhh*.

In [25]:
s = 'The symbol of infinity: ∞'
ascii(s)

"'The symbol of infinity: \\u221e'"

# Comparación de secuencias de caracteres

Las secuencias de caracteres soportan los operadores de comparación usuales <, <=, ==, !=, > y >=. Estos operadores comparan las secuencias de caracteres byte por byte en memoria. Desafortunadamente, ocurren dos problemas cuando se llevan a cabo comparaciones, como en el caso de ordenar listas de secuencias de caracteres. Estos problemas inciden todos los lenguajes de programación que usan strings Unicode, no es un problema específico a Python.

El primer problema es que algunos caracteres Unicode pueden ser representados por dos o más secuencias de bytes distintas. Por ejemplo el caracter 