# Secuencias de caracteres (strings)

Las secuencias de caracteres, tambi√©n conocidas como strings, se representan por el tipo inmutable `str` que contiene una secuencia inmutable de caracteres Unicode. Es posible usar este tipo de datos como una funci√≥n `str()` para crear objetos de tipo string, invocarlo sin argumentos regresa un string vac√≠o, con un argumento distinto a un string, regresa la forma en string del argumento y con un argumento string regresa una copia del string. La funci√≥n `str()` tambi√©n puede emplearse como una funci√≥n de conversi√≥n, el primer argumento corresponde a un string o un objeto convertible a string, el segundo especifica el encoding y el tercero especifica c√≥mo manejar errores de codificaci√≥n (encoding).

In [1]:
str()

''

In [3]:
str([1,2,3])

'[1, 2, 3]'

In [4]:
str("Can I have a copy, please?")

'Can I have a copy, please?'

In [10]:
str.encode("Convert me, please üòÄ", "ascii", "strict")

UnicodeEncodeError: 'ascii' codec can't encode character '\U0001f600' in position 19: ordinal not in range(128)

Los strings pueden ser definidos con comillas sencillas, dobles o triples.

In [13]:
'Comilla sencilla'

"Comilla doble"

"""
String con comillas triples
Soporta m√∫ltiples renglones
Tambi√©n soporta escape, \
por lo que este se representa como un solo rengl√≥n.
"""

'\nString con comillas triples\nSoporta m√∫ltiples renglones\nTambi√©n soporta escape, por lo que este se representa como un solo rengl√≥n.\n'

El s√≠mbolo `\` se emplea dentro de un string como carater de escape y por medio de √©l es posible incluir comillas en la secuencia de caracteres.

In [1]:
greeting = "He said: \"I'm done for now\""
greeting

'He said: "I\'m done for now"'

Caracteres de escape

| Escape | Significado |
| --- | --- |
| \newline | Ignorar el caracter de nueva l√≠nea |
| \\\\ | Backslash (\\)|
| \' | Comilla sencilla (') |
| \\" | Comilla doble (") |
| \\a | Campana ASCII (BEL) |
| \\b | Backspace ASCII (BS) |
| \\f | Formfeed ASCII (FF) |
| \\n | Linefeed ASCII (LF) |
| \\N{name} | Caracter Unicode con el nombre especificado |
| \\ooo | Caracter con el valor octal especificado |
| \\r | Retorno de carro ASCII (CR) |
| \\t | Tabulador ASCII (TAB) |
| \\u*hhhh* | Caracter Unicode con el valor hexadecimal de 16 bits especificado |
| \\U*hhhhhhhh* | Caracter Unicode con el valor hexadecimal de 32 bits especificado | 
| \\v | Tabulador vertical ASCII (VT) |
| \\x*hh* | Caracter con el valor hexadecimal de 8 bits especificado |

Es posible usar comillas en secuencias de caracteres sin el caracter de escape empleando comillas distintas a las empleadas las comillas empleadas como delimitador.

In [3]:
a = "Comillas sencillas 'bienvenidas', dobles requieren \"escape\"."
print(a)


Comillas sencillas 'bienvenidas', dobles requieren "escape".


In [4]:
b = 'Comillas sencillas requieren \'escape\', dobles "bienvenidas".'
print(b)

Comillas sencillas requieren 'escape', dobles "bienvenidas".


Python emplea newline como su terminador de estatutos, excepto dentro de par√©ntesis, corchetes, llaves o secuencias de caracteres delimitadas por comilla triple. 

Es posible incluir newlines en cualquier secuencia de caracteres usando la secuencia de escape `\n`

Los newlines pueden ser empleados sin caracter de escape en secuencias de caracteres delimitadas por comilla triple.

Es posible escribir secuencia de caracteres largas segmentadas en m√∫ltiples renglones sin emplear triple comilla.

In [12]:
t = "Una forma, poco recomendada, es por medio del operador + y el backslash el cual " + \
    "concatena dos secuencias de caracteres"
t

'Una forma, poco recomendada, es por medio del operador + y el backslash el cual concatena dos secuencias de caracteres'

In [13]:
s = ("La otra forma, recomendada, es colocando entre par√©ntesis, "
    "tantos renglones como sea necesario"
    "cada uno con sus propias comillas.")
s

'La otra forma, recomendada, es colocando entre par√©ntesis, tantos renglones como sea necesariocada uno con sus propias comillas.'

En algunas circunstancias, como en la escritura de expresiones regulares, es necesario crear secuencias de caracteres con muchos backslashes literales. Esto puede ser poco conveniente debido a que cada uno tendr√≠a que estar asociado con un caracter de escape.

In [15]:
import re
#Definici√≥n de una expresi√≥n regular con backslashes definidos por medio de escape -> \\
m = re.match("(?P<first_name>\\w+) (?P<last_name>\\w+), (?P<title>\\w+)", "Isaac Newton, physicist")
m.group("first_name", "last_name", "title")

('Isaac', 'Newton', 'physicist')

In [None]:
import re
#Definici√≥n de una expresi√≥n regular con string de tipo raw. N√≥tese el prefijo r el par√°metro de la funci√≥n match.
m = re.match(r"(?P<first_name>\w+) (?P<last_name>\w+), (?P<title>\w+)", "Isaac Newton, physicist")
m.group("first_name", "last_name", "title")

Unicode
Los archivos .py de Python tienen un encoding de UTF-8 por omisi√≥n. Esto permite escribir cualquier caracter de Unicode de forma directa, sin mecanismos de escape. De ser necesario, es posible colocar cualquier caracter Unicode dentro de los strings empleando secuencias hexadecimales de escape o nombres Unicode. Por ejemplo:

In [19]:
rode_letter = "√ò \N{latin capital letter o with stroke} \u00D8 \U000000D8"
rode_letter

'√ò √ò √ò √ò'

Para conocer el code point de Unicaod (el entero asociado al caracter en el encoding de Unicode) para un caracter en particular en una secuencia, es posible emplear la funci√≥n `ord()`

In [20]:
ord(rode_letter[0])

216

In [21]:
hex(ord(rode_letter[0]))

'0xd8'

Tambi√©n es posible convertir cualquier entero que represente un code point v√°lido al caracter Unicode correspondiente empleando la funci√≥n `chr()`:

In [23]:
s = "The symbol of infinity: " + chr(0x221E)
s

'The symbol of infinity: ‚àû'

Si escribimos una secuencia de caracteres Unicode en el REPL de Python o en una celda de Jupyter, se produce como resultado su forma en string en la que los caracteres est√°n delimitados por comillas. Si solo queremos caracteres ASCII, podemos emplear la funci√≥n integrada ascii() que regresa la forma representativa de su argumento empleando caracteres ASCII de 7 bits donde sea posible y empleando la forma m√°s corta de \x*hh*, \u*hhhh*, \U*hhhhhhhh*.

In [25]:
s = 'The symbol of infinity: ‚àû'
ascii(s)

"'The symbol of infinity: \\u221e'"

Todo codepoint tiene un nombre. La lista de nombres est√° publicada en el documento [Unicode standard final names list](https://www.unicode.org/Public/UCD/latest/ucd/NamesList.txt)

Cada versi√≥n de Python soporta una versi√≥n espec√≠fica del est√°ndar de Unicode que es posible consultar por medio de el atributo `unicodedata.unidata_version`

In [1]:
import unicodedata
print(unicodedata.unidata_version)


12.1.0


# Comparaci√≥n de secuencias de caracteres

Las secuencias de caracteres soportan los operadores de comparaci√≥n usuales <, <=, ==, !=, > y >=. Estos operadores comparan las secuencias de caracteres byte por byte en memoria. Desafortunadamente, ocurren dos problemas cuando se llevan a cabo comparaciones, como en el caso de ordenar listas de secuencias de caracteres. Estos problemas inciden todos los lenguajes de programaci√≥n que usan strings Unicode, no es un problema espec√≠fico a Python.

El primer problema es que algunos caracteres Unicode pueden ser representados por dos o m√°s secuencias de bytes distintas. Por ejemplo el caracter √Ö (code point Unicode 'x00C5) puede ser representado en bytes codificados UTF-8 en tres formas distintas: 0xE2, 0x84, 0xAB], [0xC3, 0x85] y [0x41, 0xCCC, 0x8A]. Para resolver este problema se invoca la funci√≥n unicode-data.normalize() con "NFKC" como su primer argumento (este es un m√©todo de normalizaci√≥n, existen tres m√°s: "NFC", "NFD" y "NFKD" y un string conteniendo el caracter √Ö utilizando cualquiera de sus secuencias de bytes v√°lidas)

In [4]:
unicodedata.normalize("NFKC", "√Ö string")

'√Ö string'

In [10]:
normalized_str = unicodedata.normalize("NFKC", "\u00C5 string")
ascii(normalized_str)

"'\\xc5 string'"

El segundo problema es que el ordenamiento de algunos caracteres es espec√≠fico a lenguaje. Por ejemplo, la letra √§ en Dan√©s se ordena despu√©s de la *z*, mientras que en Alem√°n √§ se ordena como si se pronunciara *ae*. Otro ejemplo es la letra √∏ la cual se ordena como si fuera *o* en ingl√©s, mientras que en Dan√©s y Noruego se ordena despu√©s de la *z*. Este problema se complica cuando los usuarios de las aplicaciones son de distintas nacionalidades (quienes tienen distintos criterios de ordenamiento) y en ocasiones los strings se encuentran en distintos idiomas.

Python, por pol√≠tica, y para evitar problemas sutiles, no asume nada. En el caso de la comparaci√≥n de secuencias de caracteres, lo hace empleando la representaci√≥n en memoria de la secuencia de caracteres. Esto otorga una secuencia de ordenamiento basada en los code points de Unicode que da un orden ASCII para el idioma ingl√©s. 

La conversi√≥n a min√∫sculas o may√∫sculas de todas las secuencias de caracteres produce una ordenamiento m√°s natural.

Se recomienda el uso de normalizaci√≥n cuando los strings provengan de fuentes externas como archivos o sockets de red, cuando haya la evidencia de su necesidad. Python soporta personalizaci√≥n del m√©todo `sort()`




# Segmentaci√≥n de secuencias de caracteres

Los elementos constitutivos de una secuencia, caracteres en el caso de strings pueden ser extra√≠dos por medio del operador de acceso corchetes `[]`. Este operador es vers√°til y permite extraer substrings de diversas longitudes (conocidos com slices), es por ello que este operador se conoce como *slice*.

Los elementos de una secuencia de caracteres cuentan con un √≠ndice entero ascendente que inicia en cero.

Es posible emplear √≠ndices negativos donde -1 representa el √∫ltimo elemento del string.

El operador de slice tiene tres variantes:
```
seq[start]
seq[start:end]
seq[start:end:step]
```

`seq` puede ser cualquier secuencia: lista, tupla, adem√°s de strings.
Los valores `start`, `end` y `step` deben ser enteros o variables de tipo entero.

`start` identifica el √≠ndice a partir del cual se va a regresar el substring. Su valor default es `0`.

`end` identifica el √≠ndice que ya no ser√° incluido en el substring. Su valor default es `len(seq)`.

`step` identifica el incremento en caracteres a devolver del substring, a partir de `start` y hasta `end`. Su valor default es `1`.


In [93]:
opinion = "Slices in Python are flexible, though unfamiliar for C programmers."
print(opinion)
for i in range(len(opinion)):
    print(i % 10, end="")
print("\r")

for i in range(1+len(opinion)//10):
    print("{}{}".format(i, " "*9), end="") #Usando * como operador de replicaci√≥n del string con el espacio.

Slices in Python are flexible, though unfamiliar for C programmers.
0123456789012345678901234567890123456789012345678901234567890123456
0         1         2         3         4         5         6         

In [44]:
opinion[53:]

'C programmers.'

In [43]:
opinion[10:16]

'Python'

In [46]:
opinion[21:30:2]

'feil,'

Es posible generar un string a partir de otro que sea dividido por medio de slices y que tenga texto adicional. Para concatenar los strings en casos simples podemos emplear el operador `+` o el operador `+=`.

In [52]:
revised_opinion = opinion[:21] + "extremely " + opinion[21:]
revised_opinion

'Slices in Python are extremely flexible, though unfamiliar for C programmers.'

In [65]:
message = "You can append to an existing string"
message += " via the '+=' operator"
message

"You can append to an existing string via the '+=' operator"

Para concatenar m√∫ltiples strings se recomienda usar la funci√≥n `str.join()`

La tercera variante de la sintaxis de slices en Python `[start:end:step]` es similar a la segunda. El tercer argumento `step` especifica la posici√≥n del siguiente caracter a seleccionar; 1 especifica el caracter inmediatamente contiguo, 2 ignora el contiguo y selecciona el siguiente, as√≠ sucesivamente. 

In [48]:
opinion[::2]

'Sie nPto r lxbe huhufmla o  rgamr.'

Python no cuenta con una funci√≥n nombrada para invertir strings, sin embargo es posible invertirlas por medio de la tercera variante sint√°ctica del operador de slices asignando `-1` al valor de `step`.

In [68]:
opinion

'Slices in Python are flexible, though unfamiliar for C programmers.'

In [67]:
opinion[::-1]

'.sremmargorp C rof railimafnu hguoht ,elbixelf era nohtyP ni secilS'

In [66]:
opinion[::-2]

'.rmagr  o almfuhuh ebxl r otPn eiS'

In [99]:
opinion[:-16:-1]

'.sremmargorp C '

# Operadores y m√©todos de secuencias de caracteres

Debido a que los strings son secuencias inmutables, toda la funcionalidad que puede ser empleada con secuencias inmutables puede ser empleada con strings. Esto incluye verificaci√≥n de membres√≠a por medio de `in`, concatenaci√≥n con `+`, anexado con `+=`, replicaci√≥n con `*`, asignaci√≥n aumentada con replicaci√≥n con `*=`. 

La clase `str` cuenta con diversos m√©todos de transformaci√≥n, diagn√≥stico, formateo, divisi√≥n, entre otros.

La funci√≥n `join()` es adecuada para concatenar multiples stings. Recibe como argumento una secuencia (p.e. una lista o una tupla de strings) y las une en un solo string con la cadena de caracteres que haya sido invocada.

In [87]:
platforms = ["Windows", "MacOS", "Linux", "Unix"]
" ".join(platforms)

'Windows MacOS Linux Unix'

In [88]:
"-*-".join(platforms)

'Windows-*-MacOS-*-Linux-*-Unix'

In [89]:
"".join(platforms)

'WindowsMacOSLinuxUnix'

El operador `*` provee de replicaci√≥n de strings. 

In [94]:
delimiter = "=" * 5
delimiter

'====='

Tambi√©n es posible emplear el operador de asignaci√≥n aumentada `*=` con strings.

In [95]:
delimiter *= 10
print(len(delimiter), delimiter)



Existen dos m√©todos para los casos en los que deseemos encontrar la posici√≥n de un string dentro de otro.

`str.index()` y `str.find()`

Argumentos:
string a buscar
posici√≥n inicial de la b√∫squeda
posici√≥n final de la b√∫squeda

Ambos regresan el √≠ndice del string a buscar. 
`index()` arroja una excepci√≥n en caso de no encontrar el string.
`find()` regresa -1 en caso de no encontrar el string.

In [96]:
opinion

'Slices in Python are flexible, though unfamiliar for C programmers.'

In [97]:
opinion.index("C programmers.")

53

In [100]:
opinion.index("Java programmers.")

ValueError: substring not found

`str.find()` regresa la posici√≥n del √≠ndice del substring o -1 en caso de falla.

In [102]:
opinion.find("C programmers.")

53

In [101]:
opinion.find("Java programmers.")

-1

In [115]:
flexible_index = opinion.find("flexible")
opinion[:flexible_index] + "extremely" + opinion[flexible_index-1:]

'Slices in Python are extremely flexible, though unfamiliar for C programmers.'

In [118]:
"".join([opinion[:flexible_index], "extremely", opinion[flexible_index-1:]])

'Slices in Python are extremely flexible, though unfamiliar for C programmers.'

Usamos el tercer argumento de las funciones de b√∫squeda para identificar una palabra de inter√©s en los primeros caracteres de una noticia.

In [133]:

MAX_CHARS = 30
SEARCH_TERM = "russian"
headline = "The Russian Memory Project That Became an Enemy of the State: Two courts have ordered the shutdown of Memorial, a human-rights organization that documents the history of Soviet state terror."
headline.lower().find(SEARCH_TERM, 0, MAX_CHARS)

4

# Funciones comunes de strings

| Funci√≥n | Descripci√≥n |
| --- | --- |
| `s.capitalize()` | Regresa una copia del string `s` con la primera letra en may√∫sculas; ver tambi√©n el m√©todo `str.title()`. |
| `s.center(width, char)` | Regresa una copia de `s` centrada en un string de longitud `width`, rodeada de espacios u otro caracter `char`: ver `str.ljust()`, `str.rjust` y `str.format()`. |
| `s.count(t, start, end)` | Regresa el n√∫mero de ocurrencias del string `t` en `s` (o en el slice de `s` delimitado por `start` y `end`). |
| `s.encode(encoding, err)` | Regresa un objeto `bytes` que representa el string empleando el encoding default o usando el `encoding` especificado y manejando errores de acuerdo con el argumento opcional `err`. |
| `s.endswith(x, start, end)` | Regresa `True` si `s` (o el slice delimitado por `start:end` ) termina con `x` o con cualquiera de los strings en la tupla `x`; en caso contrario regresa `False`. Ver tambi√©n `str.startswith()`. |
| `s.expandtabs(size)` | Regresa una copia de `s` con tabs reemplazados por espacios en m√∫ltiplos de 8 o del tama√±o especificado por `size`. |
| `s.find(t, start, end)` | Regresa la posici√≥n m√°s pr√≥xima al extremo izquierdo de `t` en `s` (o en el slice `start:end`) o `-1` si no se encuentra. Use `str.rfind()` para encontrar la posici√≥n m√°s pr√≥xima al extremo derecho. Ver tambi√©n `str.index()`. |
| `s.format(...)` | Regresa una copia de `s` con formato de acuerdo a los argumentos provistos. |
| `s.index(, t, start, end)` | Regresa la posici√≥n m√°s pr√≥xima al extremo izquierdo de `t` en `s` (o en el slice `start:end`) o arroja `ValueError` si no se encuentra. Use `str.rindex()` para buscar por la derecha. Ver `str.find()`.|
| `s.isalnum()` | Regresa `True` is el string `s` no esta vac√≠o y todos los caracteres en √©l son alfanum√©ricos. |
| `s.isalpha(`) | Regresa `True` is el string `s` no esta vac√≠o y todos los caracteres en √©l son alfab√©ticos. |
| `s.isdecimal()` | Regresa `True` is el string `s` no esta vac√≠o y todos los caracteres en √©l son d√≠gitos Unicode base 10. |
| `s.isdigit()` | Regresa `True` is el string `s` no esta vac√≠o y todos los caracteres en √©l son d√≠gitos ASCII. |
| `s.isidentifier()` | Regresa `True` is el string `s` no esta vac√≠o y es un identificador v√°lido. |
| `s.islower()` | Regresa `True` si `s` tiene al menos un caracter que se puede convertir a min√∫scula y todos los caracteres convertibles a min√∫sculas est√°n en min√∫sculas. Ver tambi√©n `str.isupper()`. |
| `s.isnumeric()` | Regresa `True` si `s` no est√° vac√≠o y todos sus caracteres son un caracter num√©rico Unicode, tal como un d√≠gito o una fracci√≥n. |
| `s.isprintable()` | Regresa `True` si `s` no est√° vac√≠o o si todos sus caracteres se considera pueden imprimirse, incluyendo espacio pero no newline. |
| `s.isspace()` | Regresa True si `s` no est√° vac√≠o y todo caracter en `s` es un espacio blanco. |
| `s.istitle()` | Regresa True si `s` es una secuencia de caracteres no vac√≠a con capitalizaci√≥n de t√≠tulo. Ver `str.title()`. |
| `s.isupper()` | Regresa `True` si `s` tiene al menos un caracter que se puede convertir a may√∫scula y todos los caracteres convertibles a mey√∫sculas est√°n en may√∫sculas. Ver tambi√©n `str.islower()`. |
| `s.join(seq)` | Regresa la concatenaci√≥n de todos los elementos en la secuencia `seq` con el string `s` el cual puede estar vac√≠o con cada una. |
| `s.ljust(width, char)` | Regresa una copia de `s` alineada a la izquierda en un string de longitud `width` rodeada de espacios u opcionalmente `char` (un string de longitud uno). Use `str.rjust()` para alinear a la izquierda y `str.center()` para centrar. |
| `s.lower()` | Regresa una copia en min√∫scula de `s`. Ver `str.upper()` |
| `s.maketrans()` | Funci√≥n auxiliar para `str.translate()`. |
| `s.partition(t)` | Regresa una tupla de tres strings, la parte de `s` antes de la primera ocurrencia (extremo izquierdo) de `t`, `t` y la parte de `s` despu√©s de `t`. Si `t` no se encuentra en `s`, regresa `s` y dos strings vac√≠os. Use `str.rpartition()` para particionar en la √∫ltima ocurrencia de t (extremo derecho).|
| `s.replace(t, u, n)` | Regresa una copia de `s` con toda (o m√°ximo `n`, de ser especificado) ocurrencias de `t` reemplazadas con `u`. |
| `s.split(t, n)` | Regresa una lista de strings segmentando a lo m√°s `n` veces en `t`; si `n` no es especificado, segmenta el m√°ximo n√∫mero de veces posible; si `t` no es especificado, segmenta por espacios en blanco. Use `str.rsplit()` para particionar desde la derecha; esto produce resultados distintos solo si `n` es definido y es menor al m√°ximo n√∫mero de particiones posibles. |
| `s.splitlines(f)` | Regresa la lista de l√≠neas producidas al dividir `s` por los terminadores de l√≠neas. Elimina los terminadores a menos que `f` sea `True`. |
| `s.startswith()` | Regresa `True` si `s` (o el slice `start:end` de `s`) comienzan con `x` o con cualquiera de los strings en la tupla `x`; en caso contrario regresa `False`. Ver `str.endswith()`. |
| `s.strip(chars)` | Regresa una copia de `s` con los espacios en blanco previos o posteriores (o los caracteres en `chars`) eliminados. `str.lstrip()` elimina los caracteres de la izquierda, mientras que `str.rstrip()` elimina los caracteres de la derecha. |
| `s.swapcase()`| Regresa una copia de s con lso caracteres may√∫scula en min√∫scula y los caracteres min√∫scula en may√∫scula. Ver `str.lower()` y `str.upper()`. |
| `s.title()` | Regresa una copia de `s` con la primera letra de cada palabra en may√∫scula y las dem√°s en min√∫scula. Ver `str.istitle()`. |
| `s.translate()` | Regresa un string con cada caracter mapeado de acuerdo a una tabla de traducci√≥n.|
| `s.upper()` | Regresa una copia en may√∫sculas de s. Ver `str.lower()`. |
| `s.zfill(w)` | Regresa una copia de `s`, con padding si es m√°s corta que w con ceros para hacerla de longitud `w`. |

In [134]:
"Hello".center(50, "*")

'**********************Hello***********************'

In [137]:
opinion
opinion.replace("flexible", "extremely flexible")

'Slices in Python are extremely flexible, though unfamiliar for C programmers.'

In [139]:
opinion.title()

'Slices In Python Are Flexible, Though Unfamiliar For C Programmers.'