# Secuencias de caracteres (strings)

Las secuencias de caracteres, también conocidas como strings, se representan por el tipo inmutable `str` que contiene una secuencia inmutable de caracteres Unicode. Es posible usar este tipo de datos como una función `str()` para crear objetos de tipo string, invocarlo sin argumentos regresa un string vacío, con un argumento distinto a un string, regresa la forma en string del argumento y con un argumento string regresa una copia del string. La función `str()` también puede emplearse como una función de conversión, el primer argumento corresponde a un string o un objeto convertible a string, el segundo especifica el encoding y el tercero especifica cómo manejar errores de codificación (encoding).

In [1]:
str()

''

In [3]:
str([1,2,3])

'[1, 2, 3]'

In [4]:
str("Can I have a copy, please?")

'Can I have a copy, please?'

In [10]:
str.encode("Convert me, please 😀", "ascii", "strict")

UnicodeEncodeError: 'ascii' codec can't encode character '\U0001f600' in position 19: ordinal not in range(128)

Los strings pueden ser definidos con comillas sencillas, dobles o triples.

In [13]:
'Comilla sencilla'

"Comilla doble"

"""
String con comillas triples
Soporta múltiples renglones
También soporta escape, \
por lo que este se representa como un solo renglón.
"""

'\nString con comillas triples\nSoporta múltiples renglones\nTambién soporta escape, por lo que este se representa como un solo renglón.\n'

El símbolo `\` se emplea dentro de un string como carater de escape y por medio de él es posible incluir comillas en la secuencia de caracteres.

In [1]:
greeting = "He said: \"I'm done for now\""
greeting

'He said: "I\'m done for now"'

Caracteres de escape

| Escape | Significado |
| --- | --- |
| \newline | Ignorar el caracter de nueva línea |
| \\\\ | Backslash (\\)|
| \' | Comilla sencilla (') |
| \\" | Comilla doble (") |
| \\a | Campana ASCII (BEL) |
| \\b | Backspace ASCII (BS) |
| \\f | Formfeed ASCII (FF) |
| \\n | Linefeed ASCII (LF) |
| \\N{name} | Caracter Unicode con el nombre especificado |
| \\ooo | Caracter con el valor octal especificado |
| \\r | Retorno de carro ASCII (CR) |
| \\t | Tabulador ASCII (TAB) |
| \\u*hhhh* | Caracter Unicode con el valor hexadecimal de 16 bits especificado |
| \\U*hhhhhhhh* | Caracter Unicode con el valor hexadecimal de 32 bits especificado | 
| \\v | Tabulador vertical ASCII (VT) |
| \\x*hh* | Caracter con el valor hexadecimal de 8 bits especificado |

Es posible usar comillas en secuencias de caracteres sin el caracter de escape empleando comillas distintas a las empleadas las comillas empleadas como delimitador.

In [3]:
a = "Comillas sencillas 'bienvenidas', dobles requieren \"escape\"."
print(a)


Comillas sencillas 'bienvenidas', dobles requieren "escape".


In [4]:
b = 'Comillas sencillas requieren \'escape\', dobles "bienvenidas".'
print(b)

Comillas sencillas requieren 'escape', dobles "bienvenidas".


Python emplea newline como su terminador de estatutos, excepto dentro de paréntesis, corchetes, llaves o secuencias de caracteres delimitadas por comilla triple. 

Es posible incluir newlines en cualquier secuencia de caracteres usando la secuencia de escape `\n`

Los newlines pueden ser empleados sin caracter de escape en secuencias de caracteres delimitadas por comilla triple.

Es posible escribir secuencia de caracteres largas segmentadas en múltiples renglones sin emplear triple comilla.

In [12]:
t = "Una forma, poco recomendada, es por medio del operador + y el backslash el cual " + \
    "concatena dos secuencias de caracteres"
t

'Una forma, poco recomendada, es por medio del operador + y el backslash el cual concatena dos secuencias de caracteres'

In [13]:
s = ("La otra forma, recomendada, es colocando entre paréntesis, "
    "tantos renglones como sea necesario"
    "cada uno con sus propias comillas.")
s

'La otra forma, recomendada, es colocando entre paréntesis, tantos renglones como sea necesariocada uno con sus propias comillas.'

En algunas circunstancias, como en la escritura de expresiones regulares, es necesario crear secuencias de caracteres con muchos backslashes literales. Esto puede ser poco conveniente debido a que cada uno tendría que estar asociado con un caracter de escape.

In [15]:
import re
#Definición de una expresión regular con backslashes definidos por medio de escape -> \\
m = re.match("(?P<first_name>\\w+) (?P<last_name>\\w+), (?P<title>\\w+)", "Isaac Newton, physicist")
m.group("first_name", "last_name", "title")

('Isaac', 'Newton', 'physicist')

In [None]:
import re
#Definición de una expresión regular con string de tipo raw. Nótese el prefijo r el parámetro de la función match.
m = re.match(r"(?P<first_name>\w+) (?P<last_name>\w+), (?P<title>\w+)", "Isaac Newton, physicist")
m.group("first_name", "last_name", "title")

Unicode
Los archivos .py de Python tienen un encoding de UTF-8 por omisión. Esto permite escribir cualquier caracter de Unicode de forma directa, sin mecanismos de escape. De ser necesario, es posible colocar cualquier caracter Unicode dentro de los strings empleando secuencias hexadecimales de escape o nombres Unicode. Por ejemplo:

In [19]:
rode_letter = "Ø \N{latin capital letter o with stroke} \u00D8 \U000000D8"
rode_letter

'Ø Ø Ø Ø'

Para conocer el code point de Unicaod (el entero asociado al caracter en el encoding de Unicode) para un caracter en particular en una secuencia, es posible emplear la función `ord()`

In [20]:
ord(rode_letter[0])

216

In [21]:
hex(ord(rode_letter[0]))

'0xd8'

También es posible convertir cualquier entero que represente un code point válido al caracter Unicode correspondiente empleando la función `chr()`:

In [23]:
s = "The symbol of infinity: " + chr(0x221E)
s

'The symbol of infinity: ∞'

Si escribimos una secuencia de caracteres Unicode en el REPL de Python o en una celda de Jupyter, se produce como resultado su forma en string en la que los caracteres están delimitados por comillas. Si solo queremos caracteres ASCII, podemos emplear la función integrada ascii() que regresa la forma representativa de su argumento empleando caracteres ASCII de 7 bits donde sea posible y empleando la forma más corta de \x*hh*, \u*hhhh*, \U*hhhhhhhh*.

In [25]:
s = 'The symbol of infinity: ∞'
ascii(s)

"'The symbol of infinity: \\u221e'"

Todo codepoint tiene un nombre. La lista de nombres está publicada en el documento [Unicode standard final names list](https://www.unicode.org/Public/UCD/latest/ucd/NamesList.txt)

Cada versión de Python soporta una versión específica del estándar de Unicode que es posible consultar por medio de el atributo `unicodedata.unidata_version`

In [1]:
import unicodedata
print(unicodedata.unidata_version)


12.1.0


# Comparación de secuencias de caracteres

Las secuencias de caracteres soportan los operadores de comparación usuales <, <=, ==, !=, > y >=. Estos operadores comparan las secuencias de caracteres byte por byte en memoria. Desafortunadamente, ocurren dos problemas cuando se llevan a cabo comparaciones, como en el caso de ordenar listas de secuencias de caracteres. Estos problemas inciden todos los lenguajes de programación que usan strings Unicode, no es un problema específico a Python.

El primer problema es que algunos caracteres Unicode pueden ser representados por dos o más secuencias de bytes distintas. Por ejemplo el caracter Å (code point Unicode 'x00C5) puede ser representado en bytes codificados UTF-8 en tres formas distintas: 0xE2, 0x84, 0xAB], [0xC3, 0x85] y [0x41, 0xCCC, 0x8A]. Para resolver este problema se invoca la función unicode-data.normalize() con "NFKC" como su primer argumento (este es un método de normalización, existen tres más: "NFC", "NFD" y "NFKD" y un string conteniendo el caracter Å utilizando cualquiera de sus secuencias de bytes válidas)

In [4]:
unicodedata.normalize("NFKC", "Å string")

'Å string'

In [10]:
normalized_str = unicodedata.normalize("NFKC", "\u00C5 string")
ascii(normalized_str)

"'\\xc5 string'"

El segundo problema es que el ordenamiento de algunos caracteres es específico a lenguaje. Por ejemplo, la letra ä en Danés se ordena después de la *z*, mientras que en Alemán ä se ordena como si se pronunciara *ae*. Otro ejemplo es la letra ø la cual se ordena como si fuera *o* en inglés, mientras que en Danés y Noruego se ordena después de la *z*. Este problema se complica cuando los usuarios de las aplicaciones son de distintas nacionalidades (quienes tienen distintos criterios de ordenamiento) y en ocasiones los strings se encuentran en distintos idiomas.

Python, por política, y para evitar problemas sutiles, no asume nada. En el caso de la comparación de secuencias de caracteres, lo hace empleando la representación en memoria de la secuencia de caracteres. Esto otorga una secuencia de ordenamiento basada en los code points de Unicode que da un orden ASCII para el idioma inglés. 

La conversión a minúsculas o mayúsculas de todas las secuencias de caracteres produce una ordenamiento más natural.

Se recomienda el uso de normalización cuando los strings provengan de fuentes externas como archivos o sockets de red, cuando haya la evidencia de su necesidad. Python soporta personalización del método `sort()`




# Segmentación de secuencias de caracteres

Los elementos constitutivos de una secuencia, caracteres en el caso de strings pueden ser extraídos por medio del operador de acceso corchetes `[]`. Este operador es versátil y permite extraer substrings de diversas longitudes (conocidos com slices), es por ello que este operador se conoce como *slice*.

Los elementos de una secuencia de caracteres cuentan con un índice entero ascendente que inicia en cero.

Es posible emplear índices negativos donde -1 representa el último elemento del string.

El operador de slice tiene tres variantes:
```
seq[start]
seq[start:end]
seq[start:end:step]
```

`seq` puede ser cualquier secuencia: lista, tupla, además de strings.
Los valores `start`, `end` y `step` deben ser enteros o variables de tipo entero.

`start` identifica el índice a partir del cual se va a regresar el substring. Su valor default es `0`.

`end` identifica el índice que ya no será incluido en el substring. Su valor default es `len(seq)`.

`step` identifica el incremento en caracteres a devolver del substring, a partir de `start` y hasta `end`. Su valor default es `1`.


In [93]:
opinion = "Slices in Python are flexible, though unfamiliar for C programmers."
print(opinion)
for i in range(len(opinion)):
    print(i % 10, end="")
print("\r")

for i in range(1+len(opinion)//10):
    print("{}{}".format(i, " "*9), end="") #Usando * como operador de replicación del string con el espacio.

Slices in Python are flexible, though unfamiliar for C programmers.
0123456789012345678901234567890123456789012345678901234567890123456
0         1         2         3         4         5         6         

In [44]:
opinion[53:]

'C programmers.'

In [43]:
opinion[10:16]

'Python'

In [46]:
opinion[21:30:2]

'feil,'

Es posible generar un string a partir de otro que sea dividido por medio de slices y que tenga texto adicional. Para concatenar los strings en casos simples podemos emplear el operador `+` o el operador `+=`.

In [52]:
revised_opinion = opinion[:21] + "extremely " + opinion[21:]
revised_opinion

'Slices in Python are extremely flexible, though unfamiliar for C programmers.'

In [65]:
message = "You can append to an existing string"
message += " via the '+=' operator"
message

"You can append to an existing string via the '+=' operator"

Para concatenar múltiples strings se recomienda usar la función `str.join()`

La tercera variante de la sintaxis de slices en Python `[start:end:step]` es similar a la segunda. El tercer argumento `step` especifica la posición del siguiente caracter a seleccionar; 1 especifica el caracter inmediatamente contiguo, 2 ignora el contiguo y selecciona el siguiente, así sucesivamente. 

In [48]:
opinion[::2]

'Sie nPto r lxbe huhufmla o  rgamr.'

Python no cuenta con una función nombrada para invertir strings, sin embargo es posible invertirlas por medio de la tercera variante sintáctica del operador de slices asignando `-1` al valor de `step`.

In [68]:
opinion

'Slices in Python are flexible, though unfamiliar for C programmers.'

In [67]:
opinion[::-1]

'.sremmargorp C rof railimafnu hguoht ,elbixelf era nohtyP ni secilS'

In [66]:
opinion[::-2]

'.rmagr  o almfuhuh ebxl r otPn eiS'

In [99]:
opinion[:-16:-1]

'.sremmargorp C '

# Operadores y métodos de secuencias de caracteres

Debido a que los strings son secuencias inmutables, toda la funcionalidad que puede ser empleada con secuencias inmutables puede ser empleada con strings. Esto incluye verificación de membresía por medio de `in`, concatenación con `+`, anexado con `+=`, replicación con `*`, asignación aumentada con replicación con `*=`. 

La clase `str` cuenta con diversos métodos de transformación, diagnóstico, formateo, división, entre otros.

La función `join()` es adecuada para concatenar multiples stings. Recibe como argumento una secuencia (p.e. una lista o una tupla de strings) y las une en un solo string con la cadena de caracteres que haya sido invocada.

In [87]:
platforms = ["Windows", "MacOS", "Linux", "Unix"]
" ".join(platforms)

'Windows MacOS Linux Unix'

In [88]:
"-*-".join(platforms)

'Windows-*-MacOS-*-Linux-*-Unix'

In [89]:
"".join(platforms)

'WindowsMacOSLinuxUnix'

El operador `*` provee de replicación de strings. 

In [94]:
delimiter = "=" * 5
delimiter

'====='

También es posible emplear el operador de asignación aumentada `*=` con strings.

In [95]:
delimiter *= 10
print(len(delimiter), delimiter)



Existen dos métodos para los casos en los que deseemos encontrar la posición de un string dentro de otro.

`str.index()` y `str.find()`

Argumentos:
string a buscar
posición inicial de la búsqueda
posición final de la búsqueda

Ambos regresan el índice del string a buscar. 
`index()` arroja una excepción en caso de no encontrar el string.
`find()` regresa -1 en caso de no encontrar el string.

In [96]:
opinion

'Slices in Python are flexible, though unfamiliar for C programmers.'

In [97]:
opinion.index("C programmers.")

53

In [100]:
opinion.index("Java programmers.")

ValueError: substring not found

`str.find()` regresa la posición del índice del substring o -1 en caso de falla.

In [102]:
opinion.find("C programmers.")

53

In [101]:
opinion.find("Java programmers.")

-1

In [115]:
flexible_index = opinion.find("flexible")
opinion[:flexible_index] + "extremely" + opinion[flexible_index-1:]

'Slices in Python are extremely flexible, though unfamiliar for C programmers.'

In [118]:
"".join([opinion[:flexible_index], "extremely", opinion[flexible_index-1:]])

'Slices in Python are extremely flexible, though unfamiliar for C programmers.'

Usamos el tercer argumento de las funciones de búsqueda para identificar una palabra de interés en los primeros caracteres de una noticia.

In [133]:

MAX_CHARS = 30
SEARCH_TERM = "russian"
headline = "The Russian Memory Project That Became an Enemy of the State: Two courts have ordered the shutdown of Memorial, a human-rights organization that documents the history of Soviet state terror."
headline.lower().find(SEARCH_TERM, 0, MAX_CHARS)

4

# Funciones comunes de strings

| Función | Descripción |
| --- | --- |
| `s.capitalize()` | Regresa una copia del string `s` con la primera letra en mayúsculas; ver también el método `str.title()`. |
| `s.center(width, char)` | Regresa una copia de `s` centrada en un string de longitud `width`, rodeada de espacios u otro caracter `char`: ver `str.ljust()`, `str.rjust` y `str.format()`. |
| `s.count(t, start, end)` | Regresa el número de ocurrencias del string `t` en `s` (o en el slice de `s` delimitado por `start` y `end`). |
| `s.encode(encoding, err)` | Regresa un objeto `bytes` que representa el string empleando el encoding default o usando el `encoding` especificado y manejando errores de acuerdo con el argumento opcional `err`. |
| `s.endswith(x, start, end)` | Regresa `True` si `s` (o el slice delimitado por `start:end` ) termina con `x` o con cualquiera de los strings en la tupla `x`; en caso contrario regresa `False`. Ver también `str.startswith()`. |
| `s.expandtabs(size)` | Regresa una copia de `s` con tabs reemplazados por espacios en múltiplos de 8 o del tamaño especificado por `size`. |
| `s.find(t, start, end)` | Regresa la posición más próxima al extremo izquierdo de `t` en `s` (o en el slice `start:end`) o `-1` si no se encuentra. Use `str.rfind()` para encontrar la posición más próxima al extremo derecho. Ver también `str.index()`. |
| `s.format(...)` | Regresa una copia de `s` con formato de acuerdo a los argumentos provistos. |
| `s.index(, t, start, end)` | Regresa la posición más próxima al extremo izquierdo de `t` en `s` (o en el slice `start:end`) o arroja `ValueError` si no se encuentra. Use `str.rindex()` para buscar por la derecha. Ver `str.find()`.|
| `s.isalnum()` | Regresa `True` is el string `s` no esta vacío y todos los caracteres en él son alfanuméricos. |
| `s.isalpha(`) | Regresa `True` is el string `s` no esta vacío y todos los caracteres en él son alfabéticos. |
| `s.isdecimal()` | Regresa `True` is el string `s` no esta vacío y todos los caracteres en él son dígitos Unicode base 10. |
| `s.isdigit()` | Regresa `True` is el string `s` no esta vacío y todos los caracteres en él son dígitos ASCII. |
| `s.isidentifier()` | Regresa `True` is el string `s` no esta vacío y es un identificador válido. |
| `s.islower()` | Regresa `True` si `s` tiene al menos un caracter que se puede convertir a minúscula y todos los caracteres convertibles a minúsculas están en minúsculas. Ver también `str.isupper()`. |
| `s.isnumeric()` | Regresa `True` si `s` no está vacío y todos sus caracteres son un caracter numérico Unicode, tal como un dígito o una fracción. |
| `s.isprintable()` | Regresa `True` si `s` no está vacío o si todos sus caracteres se considera pueden imprimirse, incluyendo espacio pero no newline. |
| `s.isspace()` | Regresa True si `s` no está vacío y todo caracter en `s` es un espacio blanco. |
| `s.istitle()` | Regresa True si `s` es una secuencia de caracteres no vacía con capitalización de título. Ver `str.title()`. |
| `s.isupper()` | Regresa `True` si `s` tiene al menos un caracter que se puede convertir a mayúscula y todos los caracteres convertibles a meyúsculas están en mayúsculas. Ver también `str.islower()`. |
| `s.join(seq)` | Regresa la concatenación de todos los elementos en la secuencia `seq` con el string `s` el cual puede estar vacío con cada una. |
| `s.ljust(width, char)` | Regresa una copia de `s` alineada a la izquierda en un string de longitud `width` rodeada de espacios u opcionalmente `char` (un string de longitud uno). Use `str.rjust()` para alinear a la izquierda y `str.center()` para centrar. |
| `s.lower()` | Regresa una copia en minúscula de `s`. Ver `str.upper()` |
| `s.maketrans()` | Función auxiliar para `str.translate()`. |
| `s.partition(t)` | Regresa una tupla de tres strings, la parte de `s` antes de la primera ocurrencia (extremo izquierdo) de `t`, `t` y la parte de `s` después de `t`. Si `t` no se encuentra en `s`, regresa `s` y dos strings vacíos. Use `str.rpartition()` para particionar en la última ocurrencia de t (extremo derecho).|
| `s.replace(t, u, n)` | Regresa una copia de `s` con toda (o máximo `n`, de ser especificado) ocurrencias de `t` reemplazadas con `u`. |
| `s.split(t, n)` | Regresa una lista de strings segmentando a lo más `n` veces en `t`; si `n` no es especificado, segmenta el máximo número de veces posible; si `t` no es especificado, segmenta por espacios en blanco. Use `str.rsplit()` para particionar desde la derecha; esto produce resultados distintos solo si `n` es definido y es menor al máximo número de particiones posibles. |
| `s.splitlines(f)` | Regresa la lista de líneas producidas al dividir `s` por los terminadores de líneas. Elimina los terminadores a menos que `f` sea `True`. |
| `s.startswith()` | Regresa `True` si `s` (o el slice `start:end` de `s`) comienzan con `x` o con cualquiera de los strings en la tupla `x`; en caso contrario regresa `False`. Ver `str.endswith()`. |
| `s.strip(chars)` | Regresa una copia de `s` con los espacios en blanco previos o posteriores (o los caracteres en `chars`) eliminados. `str.lstrip()` elimina los caracteres de la izquierda, mientras que `str.rstrip()` elimina los caracteres de la derecha. |
| `s.swapcase()`| Regresa una copia de s con lso caracteres mayúscula en minúscula y los caracteres minúscula en mayúscula. Ver `str.lower()` y `str.upper()`. |
| `s.title()` | Regresa una copia de `s` con la primera letra de cada palabra en mayúscula y las demás en minúscula. Ver `str.istitle()`. |
| `s.translate()` | Regresa un string con cada caracter mapeado de acuerdo a una tabla de traducción.|
| `s.upper()` | Regresa una copia en mayúsculas de s. Ver `str.lower()`. |
| `s.zfill(w)` | Regresa una copia de `s`, con padding si es más corta que w con ceros para hacerla de longitud `w`. |

In [134]:
"Hello".center(50, "*")

'**********************Hello***********************'

In [137]:
opinion
opinion.replace("flexible", "extremely flexible")

'Slices in Python are extremely flexible, though unfamiliar for C programmers.'

In [139]:
opinion.title()

'Slices In Python Are Flexible, Though Unfamiliar For C Programmers.'