<div style="text-align: right">

*Programming without an overall architecture or design in mind is like exploring a cave with only a flashlight: You don’t know where you’ve been, you don’t know where you’re going, and you don’t know quite where you are*.

&mdash; Danny Thorpe
</div>

# Manejo de texto en Python

## Cadenas de texto: la clase `str`

En programación, es común referirse a los valores de texto como ***cadenas***, en ocasiones ***cadenas de texto*** o, en inglés, ***strings***, y Python las implementa en su clase `str`.

Los valores literales de texto se especifican entre comillas (`"`) o apóstrofes (`'`), de manera indistinta:

In [None]:
"Este es un ejemplo de texto entre comillas"

In [None]:
'Este es otro ejemplo, en este caso, el texto está entre apóstrofes'

Esto facilita especificar literales de texto que, a su vez, contengan comillas o apóstrofes.

In [None]:
restaurante = "McDonald's"
restaurante

---

El ejemplo anterior es de una cadena que contiene un apóstrofe, **modifica** la celda anterior para usar un ejemplo de una cadena literal que contenga comillas, como, por ejemplo: `Fonda "Doña Lucha"`.

---

Las literales de texto se pueden asignar a variables, que serán entonces variables de tipo texto (`str`):

In [None]:
ejemplo = "Este es un ejemplo"
otro_ejemplo = "Este es otro ejemplo"
print("ejemplo =", ejemplo)
print("otro_ejemplo =", otro_ejemplo)

---
**Contesta**: Observando las salidas de las celdas anteriores, ¿notas alguna diferencia entre las salidas cuando simplemente usas el nombre de la variable y cuando usas `print` para imprimir el valor?

**Respuesta**: 

---

## Operadores de texto: concatenación y replicación

Los valores de texto se pueden unir con el operador `+`. A esta operación se le llama ***concatenación***.

In [None]:
combinado = ejemplo + " y " + otro_ejemplo
combinado

---

**Contesta**: ¿En qué orden quedan las cadenas concatenadas?

**Respuesta**: 

---

También se pueden replicar con el operador `*`.

In [None]:
varios = ejemplo * 3
varios

El operador `*` tiene precedencia sobre el operador `+` y se pueden utilizar paréntesis para modificar la prioridad.

In [None]:
varios2 = (ejemplo + " ") * 3
varios2

---

**Contesta**: En los ejemplos anteriores, se está "multiplicando" (replicando) una cadena (`str`) por (`*`) un entero (`int`), ¿se puede cambiar el orden y poner primero el entero? 

**Respuesta**: 

---

**Contesta**: ¿Se puede usar un número real (`float`) en lugar de un entero?

**Respuesta**: 

---

## Longitud

La longitud de una cadena (su número de caracteres) se puede obtener con la función `len`.

In [None]:
longitud = len(ejemplo)
print("La cadena '" + ejemplo + "' tiene", longitud, "caracteres.")

---

**Contesta**: ¿La función `len` cuenta los espacios?

**Respuesta**: 

---

**Contesta**: ¿Cuenta las comillas que delimitan la literal de texto?

**Respuesta**: 

---

## *Slicing* de caracteres

Se puede acceder a los valores individuales de las cadenas mediante una técnica de indexado, que en Python se llama ***slicing***, que consiste en indicar, entre corchetes, la posición que se desea extraer.

In [None]:
ejemplo = 'Este es un ejemplo'
una_letra = ejemplo[6]
una_letra

El índice del primer carácter es `0` (cero).

In [None]:
primera_letra = ejemplo[0]
primera_letra

En consecuencia, el índice del último carácter será la longitud de la cadena menos uno.

In [None]:
ultima_letra = ejemplo[len(ejemplo) - 1]
ultima_letra

---

**Contesta**: ¿Por qué el índice del último carácter de la cadena es su longitud menos uno y no, simplemente, la longitud?

**Respuesta**: 

---

Python permite también el indexado negativo: `-1` es la última posición; `-2`, la penúltima, y así, sucesivamente.

Esto nos permite acceder de manera más concisa a los últimos elementos, sin necesidad de calcular la longitud de la cadena.

In [None]:
penultima = ejemplo[-2]
penultima

## *Slicing* de rangos

También se permite indexar rangos.

Para esto, se indica, entre corchetes, la posición inicial, dos puntos (`:`) y la posición final.

In [None]:
texto = "Algoritmos y Programación"
en_medio = texto[4:10]
en_medio

Observa que la subcadena incluye el elemento en la posición inicial y ***excluye*** el
elemento en la ***posición final***.

![Slicing](https://github.com/jz-ayp/manejo-de-texto/blob/main/assets/slices.png?raw=true "Slicing")

Se pueden omitir los valores antes o después de los dos puntos.

- Si se omite la posición inicial, se extraen caracteres desde el principio de la cadena.

In [None]:
s1 = texto[:4]    # desde la posición 0 hasta la 3
s1

- Si se omite la posición final, se extraen caracteres hasta el final de la cadena.

In [None]:
s2 = texto[17:]   # desde la posición 17 hasta el final
s2

- Si se omiten ambos, se extraen todos los caracteres.

In [None]:
s3 = texto[:]     # una copia de texto
s3

Se puede incluir un tercer parámetro después de otros dos puntos
(`:`), que indica el paso (de cuántos en cuántos caracteres se extraen).

In [None]:
s = 'Algoritmos y Programación'
x = s[5:14:2] # Asigna 'imsyP' a x
x

---

**Contesta**: ¿Qué ***posiciones*** extrajo la expresión de *slicing* de la celda de arriba para regresar la subcadena `"imsyP"`?

**Respuesta**: 

---

El paso puede ser negativo

In [None]:
y = s[::-1] # Invierte la cadena s
y

---

**Contesta**: En la siguiente celda se está usando la expresión `s[-1:0:-1]`, o sea, un *slicing* desde el último carácter hasta el primero con un paso negativo. Si ejecutas la celda, verás que no funciona, ¿por qué?

**Respuesta**: 

---

In [None]:
s[-1:0:-1]

## Algunas funciones de cadena

Función  | Resultado 
---------|--------------------
`chr(n)` |Regresa el carácter correspondiente al código Unicode (*code point*) `n`
`ord(c)` |Regresa el código Unicode (*code point*) correspondiente al carácter `c`
`len(s)` |Regresa la longitud de la cadena `s`
`str(x)` |Regresa *una copia* del argumento `x` convertido en cadena
`eval(s)`|Evalúa la expresión `s` y regresa su valor

Las funciones de cadena se caracterizan ya sea porque alguno de sus argumentos son cadenas o porque regresan cadenas.

Las computadoras almacenan la información, sean números, texto, imágenes, sonido o de cualquier otro tipo, en formato binario, que, en última instancia, se trata de un número expresado en base 2. En el caso de texto, existen tablas de equivalencia que asignan cada carácter a un número específico, a esta equivalencia hacen referencia los códigos (*code points*) que se mencionan en la tabla anterior.

Los códigos correspondientes a las letras son consecutivos y concuerdan con su orden alfabético.

In [None]:
print("Letra A:", ord("A"))
print("Letra B:", ord("B"))
print("Letra C:", ord("C"))
print("Letra D:", ord("D"))

A excepción de la Ñ y otras letras que no son del alfabeto inglés.

In [None]:
print("Letra Ñ:", ord("Ñ"))
print("Letra Ç:", ord("Ç"))

Esto nos permite calcular aritméticamente la siguiente letra, por ejemplo, entre otras operaciones aritméticas que se deseen realizar con letras.

In [None]:
print("La letra que le sigue a la W es:", chr(ord("W") + 1))

El ejemplo de la celda anterior nos muestra el uso de la función `chr`, que podemos considerar como el inverso de `ord`, ya que regresa el carácter correspondiente al *code point* que se le indique.

Hay que hacer notar que las letras minúsculas tienen sus propios códigos, diferentes a las mayúsculas.

In [None]:
print("Letra a:", ord("a"))
print("Letra b:", ord("b"))
print("Letra c:", ord("c"))
print("Letra d:", ord("d"))

Como dato curioso, puedes observar que la diferencia entre los códigos de una letra mayúscula y su minúscula es igual a 32, que, dicho sea de paso, es el código que corresponde al espacio.

In [None]:
ord("a") - ord("A")

In [None]:
chr(32)

---

**Experimenta** en la celda siguiente para comprobar que esta diferencia entre los códigos de diferentes letras, entre minúsculas y mayúsculas, se mantenga en 32.

---

In [None]:
ord("X")

---

**Contesta**: ¿La diferencia de 32 entre los códigos de mayúsculas y minúsculas se mantiene para las letras que no son del alfabeto ingles, como la eñe?

**Respuesta**: 

---

---

**Contesta**: ¿Cuál es mayor, el código de las letras mayúsculas o el de las minúsculas?

**Respuesta**: 

---

## Algunos métodos de cadenas (métodos de la clase `str`)

Además de poder operar con funciones sobre las cadenas, éstas, al ser objetos (como todo en Python), tienen ***métodos*** asociados.

Podemos considerar a un método como una función propia de un objeto. No es algo externo que opera sobre el objeto, sino es algo que el objeto mismo sabe como hacer. Podrías pensar que `alimentar` sería una *función* que puedes aplicar a un `gato` pero `maullar` es un *método* del `gato`, algo que ya sabe hacer. (Baste con esta analogía, la programación orientada a objetos excede el alcance de este curso.)

Estos son algunos métodos de las cadenas:

Método      |Resultado
------------|-----------------------------------
`.lower()`  | Regresa una copia en minúsculas
`.upper()`  | Regresa una copia en mayúsculas
`.strip()`  | Regresa una copia sin espacios a derecha e izquierda
`.isalpha()`| Verifica que todos los caracteres sean letras
`.isdigit()`| Verifica que todos los caracteres sean dígitos
`.islower()`| Verifica que todos los caracteres sean minúsculas
`.isupper()`| Verifica que todos los caracteres sean mayúsculas

Puedes consultar más métodos de la clase str en la documentación oficial: https://docs.python.org/3/library/stdtypes.html#string-methods

A diferencia de las funciones que se llaman con la sintaxis:

```Python
función(cadena)
```

La sintaxis de los métodos es:

```Python
cadena.método(argumentos)
```

Es decir, se escribe el identificador de la variable de tipo texto, seguido de un punto, el nombre (identificador) del método y sus argumentos entre paréntesis. Algunos métodos no requieren argumentos. 

Por ejemplo, para "convertir" una cadena a minúsculas, no se requiere mayor información que la cadena que se desea convertir a minúsculas, pero como el método pertenece a la cadena, el método ya conoce el contenido (valor) de la cadena.


In [None]:
ejemplo = "En un lugar de La Mancha, de cuyo nombre no quiero acordarme..."
mayusculas = ejemplo.upper()
minusculas = ejemplo.lower()
print("En mayúsculas:", mayusculas)
print("En minúsculas:", minusculas)

***Nota importante***: En el párrafo anterior escribí "convertir" entre comillas. Los métodos, en general, no afectan el valor original de los objetos, por eso en la tabla la frase que usé es: "regresa una copia...".

Esto lo podemos verificar, viendo que el valor de la variable original permanece sin cambios.

In [None]:
print(ejemplo)

Si queremos ***convertir*** la variable, podemos hacerlo asignando el resultado del método a la misma variable. *La conversión la hace la asignación*.

In [None]:
ejemplo = ejemplo.upper()
print(ejemplo)

Los métodos de la clase `str` se pueden aplicar no solo a variables, sino a cualquier objeto de la clase, a cualquier cadena.

Por ejemplo, a una literal.

In [None]:
"Un pescadito se fue al fondo del mar".upper()

O a una expresión, siempre que ésta regrese un valor de tipo `str`.

In [None]:
texto = "Mi abuela Ana decía que no por mucho madrugar amanecía más temprano"
(texto[7:10] + texto[20:24] + texto[37:44] + texto[-9:]).upper()

Algunos métodos sí requieren parámetros. Por ejemplo, para contar el número de veces que ocurre un carácter en una cadena, ademas de la cadena, necesitamos saber qué carácter se está buscando.

In [11]:
# ¿Cuántas veces ocurre la letra "a" en el texto?
texto.count("a")

10

---

**Contesta**: En la celda de arriba, ¿se contaron todas las "a"? ¿Qué crees que pasó?

**Respuesta**: 

***Nota***: Posiblemente, la siguiente celda te pueda ayudar en tu respuesta.

---

In [None]:
print(ord("A"), ord("a"), ord("á"))

---

**Modifica** el código de la siguiente celda, convirtiendo el texto a minúsculas antes de intentar contar las "a". Verifica cómo cambia el resultado. (Incluir en la cuenta las "a" acentuadas, desafortunadamente, no es tan sencillo.)

---

In [None]:
texto.count("a")

De nuevo te recuerdo que puedes consultar más métodos de la clase str en la documentación oficial de Python: https://docs.python.org/3/library/stdtypes.html#string-methods.

# Ejercicio

Codificar en la siguiente celda un programa para:

- Solicitar nombre, apellido paterno, apellido materno y año de nacimiento de una
persona.

- Crear una clave de identificación (toda en mayúsculas) formada por:
  - las primeras dos letras del apellido paterno,
  - la primera y la tercera letras del apellido materno,
  - la primera y la última letra del nombre y
  - los últimos dos dígitos del año de nacimiento.

- Dar salida a:
  - el nombre completo de la persona, primero sus apellidos en mayúsculas, seguidos de una coma y su(s) nombre(s) con la primera letra de cada en mayúsculas y el resto en minúsculas, y
  - La clave de identificación calculada.

Por ejemplo, con las siguientes entradas:

    Nombre: juan carlos
    Apellido paterno: martínez
    Apellido materno: gonzález
    Año de nacimiento: 1996

Se esperan las siguientes salidas:

    Nombre: MARTÍNEZ GONZÁLEZ, Juan Carlos
    Clave:  MAGNJS96

***Nota***: Observa que no hay espacio entre los apellidos y la coma.

***Tip***: Checa el método `.title` en la documentación.

In [None]:
# Codifica tu solución aquí
