<a href="https://colab.research.google.com/github/nferrucho/NPL/blob/main/Copia_de_3_manipulacion_strings.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

<img src="https://drive.google.com/uc?export=view&id=1pWL34MWc1rS0peIekOBe8GGBIEUFPyrG" width="100%">

# **Manipulación de Strings Desde _Python_**
---

En este taller guiado veremos las distintas operaciones en _Python_ para manipulación de strings.

## **1. Tipos de Strings**
---

Existen distintas formas de definir una cadena de caracteres en _Python_, veamos algunos casos:

### **1.1. Literales**
---

En _Python_ se pueden definir strings o cadenas de caracteres a partir de elementos conocidos como `Literal`. Por defecto un literal se puede crear a partir de comillas dobles o comillas simples.

Un ejemplo con comillas dobles:

In [None]:
x = "hello world"
print(x)

Un ejemplo con comillas simples:

In [None]:
x = 'hello world'
print(x)

En _Python_ no importa qué tipo de comillas usemos. Ambas generan el mismo resultado.

Veamos una validación:

In [None]:
print("hello world" == 'hello world')

También podemos definir literales de múltiples líneas con comillas triples:

In [None]:
x = """
hello
world
"""
print(x)

### **1.2. Tipos de Literales**
---

Existen distintas formas de definir literales dentro de _Python_:

| Tipo | Descripción |
| --- | --- |
| `b` | Literal de tipo bytes o binario. |
| `r` | Literal de tipo crudo o raw. |
| `u` | Literal de tipo unicode. |
| `f` | Literal de tipo formato. |
| `br` | Literal de tipo bytes crudo. |
| `fr` | Literal de tipo formato crudo. |

Estos tipos de literales se usan como letras que van antes de la definición del literal. Por ejemplo, podemos definir la siguiente cadena como bytes:

In [None]:
val = b"hola mundo"
print(val)

Lo interesante de estas cadenas de bytes es que cada elemento se puede interpretar directamente como un número (correspondiente al código ascii de cada carácter):

In [None]:
print(val[0])

El `104` es el código ASCII correspondiente a la letra `'h'`, veamos:

In [None]:
chr(104)

También podemos definir un literal crudo con el tipo `r`:

In [None]:
val = r"prueba de\n sonido"
print(val)

Los literales crudos no interpretan caracteres especiales (como el salto de línea `\n`) que los literales por defecto sí.

Veamos qué ocurre con un literal de defecto:

In [None]:
val = "prueba de\n sonido"
print(val)

### **1.3. Caracteres especiales**
---

Como puede ver, se interpretan caracteres especiales. En especial, _Python_ maneja los siguientes caracteres especiales:

| Secuencia | Descripción |
| --- | --- |
| `\n` | Salto de línea |
| `\\` | Backslash |
| `\'` | Comilla simple |
| `\"` | Comillas dobles |
| `\b` | Backspace en ASCII |
| `\f` | Salto de página |
| `\r` | Retorno de carro |
| `\t` | Tabulación horizontal |
| `\v` | Tabulación vertical |
| `\xff` | Número hexadecimal FF |
| `\uxxxx` | Número unicode xxxx |

El literal crudo `r` no interpreta ninguno de estos caracteres especiales. En el siguiente ejemplo podemos ver la diferencia:

In [None]:
val = "Hola\t\t amigos \nBuen día"
print(val)

Con el literal crudo:

In [None]:
val = r"Hola\t\t amigos \nBuen día"
print(val)

### **1.4. Formato de Strings**
---

<center>
<img src = "https://drive.google.com/uc?export=view&id=1-wGLYXQRNoqf_d8A3zjl2LAE1Z9Jdh7n" alt = "Cadenas con formato" width = "50%"></img>
</center>

Los f-strings o literales de formato presentan una forma rápida de dar formato a un literal a partir de una variable ya existente. Por ejemplo, si queremos reemplazar el valor de la variable `x` dentro del literal de formato (literal string interpolation), hacemos uso de las llaves `{}` y dentro de ellas especificamos el nombre de la variable que será sustituida en ese espacio, así:


In [None]:
name = "Juan"
val = f"Mi nombre es {name}"
print(val)

Con los f-strings podemos dar formato a valores numéricos para su impresión. Esto se consigue usando el operador `:` sobre la variable que se sustituirá y especificando el tipo de formato a aplicar.

<center>
<img src = "https://drive.google.com/uc?export=view&id=1oh7PbiOai4df3xomv3tQbdBUzwxhxPIQ" alt = "Cadenas con formato" width = "60%">  </img>
</center>

Por ejemplo, formateamos un número decimal con 2 cifras decimales:

In [None]:
number = 1245.67810
print(number)

Veamos el ejemplo luego del formato con f-strings, aplicando el formato `.2f` (dos cifras de punto flotante).

In [None]:
num_str = f"{number:.2f}"
print(num_str)

También es posible acotar el ancho del valor (en este caso 10) que se formatea y si se debe justificar a izquierda (<) o derecha (>).

In [None]:
names = ["Pedro", "Miguel", "Anapolo", "Anacleto"]
for name in names:
    print(f"this is {name:>10}")

**NOTA:** Puede encontrar más información de interés acerca de f-strings en los siguientes enlaces:
* [PEP 0498: f-strings](https://peps.python.org/pep-0498/)
* [Python 3's f-strings: an improved string formatting syntax (guide)](https://realpython.com/python-f-strings/)


## **2. Operaciones con Strings**
---

Los strings en _Python_ son elementos inmutables, es decir, no podemos modificar sus valores de no ser que creemos un nuevo elemento (copiado) con las modificaciones.

Por ello, no es posible asignar valores sobre una cadena de caracteres en _Python_ como el error que se muestra a continuación:

In [None]:
x = "hola mundo"
try:
    x[0] = 'a'
except Exception as e:
    print(e)

Por esto mismo, es importante entender los tipos de operaciones que podemos realizar sobre este tipo de datos. Veamos algunas de ellas:

### **2.1. Concatenación**
---

Podemos concatenar cadenas de caracteres con el operador suma:

In [None]:
x = "hola " + "a " + "todos."
print(x)

### **2.2. Comparación**
---

Podemos comparar dos cadenas de caracteres con el operador de igualdad `==`, note que los strings son sensibles a minúsculas:

In [None]:
x = "hola"
y = "Hola"
print(x == y)

### **2.3. Contiene**
---

Podemos validar si una subcadena está contenida en una cadena con el operador `in`:

In [None]:
x = "hola"
y = "hola mundo"
print(x in y)

### **2.4. Creación**
---

Podemos crear una cadena de caracteres a partir de cualquier variable en _Python_ con la función `str`:

In [None]:
x = 1.5
x_str = str(x)

Veamos el tipo de la nueva variable:

In [None]:
print(type(x_str))

Veamos su valor:

In [None]:
print(x_str)

### **2.5. Conversión**
---

Podemos convertir un string en otro tipo de variable con las funciones de los tipos correspondientes (por ejemplo: `int`, `float`):

In [None]:
x = "3.500"
x_float = float(x)

Veamos el tipo de la nueva variable:

In [None]:
print(type(x_float))

Veamos su valor:

In [None]:
print(x_float)

### **2.6. Indexación**
---

La indexación sobre strings funciona de la misma forma como cualquier iterable en _Python_. La notación es la siguiente:

```python
x[inicio:fin:salto]
```

Donde seleccionamos desde la posición `inicio`, hasta la posición `fin` dando saltos de un número de veces determinado por `salto`. Si no se especifica explícitamente alguno de estos valores, tomarán los siguientes valores por defecto:
- `inicio`: 0
- `fin`: longitud de la cadena
- `salto`: 1

Por ejemplo, la siguiente cadena tiene un mensaje oculto que podemos extraer dando saltos de a dos:

In [None]:
x = "m1e2n3s4a5j6e"

Podemos obtener la longitud de la cadena de caracteres con la función `len`, para saber hasta dónde podemos indexar:

In [None]:
print(len(x))

Veamos el mensaje:

In [None]:
print(x[0:13:2])

Usando los valores por defecto para `inicio` y `fin`:

In [None]:
print(x[::2])

También podemos extraer los números si comenzamos a indexar desde la posición 1:

In [None]:
print(x[1::2])

### **2.7. Iterables**
---

Las cadenas de caracteres se pueden iterar como cualquier elemento iterable en _Python_, por ejemplo, con ciclos `for`:

In [None]:
for letter in x:
    print(letter)

También es posible convertirlas a otros elementos iterables como listas:

In [None]:
print(list(x))

Una operación interesante es la creación de un conjunto (`set`) a partir de una cadena de caracteres. Esto permite extraer los caracteres únicos de la cadena:

In [None]:
print(set(x))

## **3. Métodos de Strings**
---

Existen distintos métodos que pueden ser utilizados con los strings. Muchos de estos son sumamente importantes para la transformación y preprocesamiento de información textual. En este caso los dividiremos en dos: **métodos generales** y **métodos avanzados**.

### **3.1. Métodos Generales**
---

Los métodos generales son aquellos que se usan muy frecuentemente y además son muy típicos en procesamiento de lenguaje natural. Entre ellos estaremos viendo los siguientes:

* Modificación de la grafía.
* Validaciones.
* Separación.
* Unión.

#### **3.1.1. Modificación de la grafía**
---
<center>
<img src = "https://drive.google.com/uc?export=view&id=15FCWTlCuEQkmuiT8uYUssJDIZJMxUecG" alt = "Cadenas con formato" width = "60%">  </img>
</center>

Los strings pueden modificar su grafía con distintos métodos, veamos algunos ejemplos sobre la siguiente cadena de caracteres:

In [None]:
x = "HeLlo wOrld"

Si deseamos convertir esta cadena de caracteres a minúsculas, podemos usar el método `lower`:

In [None]:
print(x.lower())

También podemos convertirlo todo a mayúsculas con el método `upper`

In [None]:
print(x.upper())

El texto se puede capitalizar (primera letra en mayúscula, el resto en minúscula) con el método `capitalize`:

In [None]:
print(x.capitalize())

También es posible capitalizar cada palabra con el método `title`:

In [None]:
print(x.title())

#### **3.1.2. Validaciones**
---

Podemos validar si una cadena de caracteres cumple determinadas condiciones. Algunas de estas operaciones son:

| Método | Descripción |
| --- | --- |
| `isascii` | Valida si todos los caracteres son ascii. |
| `isnumeric` | Valida si todos los caracteres son números. |
| `islower` | Valida si todos los caracteres son minúsculas. |
| `isupper` | Valida si todos los caracteres son mayúsculas. |
| `istitle` | Valida si todas las palabras están capitalizadas. |
| `isalnum` | Valida si todos los caracteres son alfanuméricos. |
| `isspace` | Valida si todos los caracteres son espacios. |

Por ejemplo, podemos validar si una variable se encuentra en minúsculas para convertirla si no lo está:

In [None]:
def convert_lower(x):
    if x.islower():
        return x
    else:
        return x.lower()

Veamos un ejemplo de esta función:

In [None]:
x = "Hello world"
print(convert_lower(x))

In [None]:
x = "hello world"
print(convert_lower(x))

#### **3.1.3. Separación**
---

Podemos dividir una cadena de caracteres usando el método `split`.

Veamos un ejemplo donde dividimos una cadena por espacios para obtener las palabras:

In [None]:
x = "Alan Mathison Turing fue un matemático, lógico, informático teórico, criptógrafo, filósofo y biólogo teórico británico"

Por defecto el método `split` divide por espacios:

In [None]:
print(x.split())

Esta operación es equivalente al `split(" ")` cuando se específica el espacio:

In [None]:
print(x.split(" "))

También es posible separar la cadena usando otros separadores, por ejemplo con una coma:

In [None]:
print(x.split(","))

Un método de separación bastante útil para la limpieza de textos es el método `strip`, el cual permite eliminar caracteres sobrantes al inicio y al final de una cadena de caracteres (por defecto usa espacios en blanco). Por ejemplo:

In [None]:
x = """


hello world



"""
print(x)

Al usar el método `strip`:

In [None]:
print(x.strip())

También puede usarse con otros caracteres, por ejemplo:

In [None]:
x = "---hello---"

Si le damos al método `strip` el caracter `"-"` como argumento, vemos cómo se eliminan los valores del inicio y del final:

In [None]:
print(x.strip("-"))

#### **3.1.4. Unión**
---

El método `join` permite concatenar distintas cadenas de caracteres usando el string original como separador. Por ejemplo:

In [None]:
x = ["este", "es", "un", "mensaje"]

Podemos unir las palabras separándolas por espacios:

In [None]:
print(" ".join(x))

También podemos unirlas por otros separadores más elaborados:

In [None]:
print(", ".join(x))

### **3.2. Métodos Avanzados**
---

Los métodos avanzados son una serie de procedimientos que se usan en algunas aplicaciones muy específicas, en este caso veremos:

* Búsquedas.
* Reemplazos.
* Conteos.
* Codificaciones.

#### **3.2.1. Búsquedas**
---

Podemos buscar el índice donde se encuentra una subcadena dentro de la cadena original con el método `find`:

In [None]:
x = "hola mundo"

Veamos el índice donde aparece la subcadena `"hola"`:

In [None]:
x.find("hola")

Ahora veamos el índice donde aparece la subcadena "mundo":

In [None]:
x.find("mundo")

Si una subcadena no se encuentra contenida en la cadena de texto, el resultado será -1:

In [None]:
x.find("inv")

#### **3.2.2. Reemplazos**
---

Es posible crear una nueva cadena de caracteres reemplazando una subcadena por otra. Por ejemplo, tenemos la siguiente secuencia separada por comas:

In [None]:
x = "1,2,3,4,5,6,7"

Con el método `replace` podemos sustituir la coma por otro separador como `";"`:

In [None]:
print(x.replace(",", ";"))

#### **3.2.3. Conteos**
---

Podemos contar el número de ocurrencias que tenga una subcadena dentro de la cadena original con el método `count`. Por ejemplo, vamos a tomar un segmento de la cadena de ADN de un chimpancé:

<center>
<img src = "https://drive.google.com/uc?export=view&id=14s4lGvHgccbfgG0iSTnSfSvBut6dNfyf" alt = "Cadenas con formato" width = "100%">  </img>
</center>

In [None]:
dna = "ATGCCCCAACTAAATACCGCCGTATGACCCACCATAATTACCCCCATACTCCTGACACTATTTCTCGTCACCCAACTAAAAATATTAAATTCAAATTACCATCTACCCCCCTCACCAAAACCCATAAAAATAAAAAACTACAATAAACCCTGAGAACCAAAATGAACGAAAATCTATTCGCTTCATTCGCTGCCCCCACAATCCTAG"

Con la función `count` podemos saber la cantidad de bases, por ejemplo, de adenina (`"A"`):

In [None]:
dna.count("A")

Podemos generar una gráfica donde veamos los conteos de las distintas bases en esta secuencia.

Primero sacamos las bases únicas, usando la función `set` como vimos anteriormente:

In [None]:
bases = list(set(dna))
print(bases)

Ahora, extraemos los conteos para cada una de las bases:

In [None]:
counts = [dna.count(base) for base in bases]

Finalmente, generamos un gráfico con `matplotlib`:

In [None]:
import matplotlib.pyplot as plt
fig, ax = plt.subplots()
ax.bar(bases, counts)
ax.set_xlabel("Bases")
ax.set_ylabel("Conteos");

#### **3.2.4. Codificaciones**
---

Es posible cambiar la codificación de los literales usando métodos como `encode`, así mismo, se puede cambiar la codificación de literales binarios con métodos como `decode`. Veamos un ejemplo:

In [None]:
x = "\xff\x2201234"

Codificamos esta cadena con el esquema `charmap` (ascii) y el método `encode`:

In [None]:
x_enc = x.encode("charmap")
print(x_enc)

Note que la variable `x_enc` ahora es de tipo `bytes` y no `str`:

In [None]:
print(type(x_enc))

Podemos decodificar el valor, con el método `decode`:

In [None]:
x_rec = x_enc.decode("charmap")
print(x_rec)

Note cómo obtuvimos una decodificación como caracteres de números que fueron definidos como hexadecimales.

> **NOTA**: Puede consultar otros tipos de codecs (codificaciones) en [este enlace](https://docs.python.org/3.11/library/codecs.html#standard-encodings).

## **Recursos Adicionales**
---

Los siguientes enlaces corresponden a sitios donde encontrará información muy útil para profundizar en los temas vistos en este notebook:

* [Lexical Analysis in Python](https://docs.python.org/3/reference/lexical_analysis.html#encodings).
* [PEP 0498: f-strings](https://peps.python.org/pep-0498/)
* [Python 3's f-strings: an improved string formatting syntax (guide)](https://realpython.com/python-f-strings/)
* _Origen de los íconos_
    - Flaticon. Monkey free icon [PNG]. https://www.flaticon.com/free-icon/monkey_6658003
    - Flaticon. Dna free icon [PNG]. https://www.flaticon.com/free-icon/dna_4341162

## **Créditos**
---

* **Profesor:** [Felipe Restrepo Calle](https://dis.unal.edu.co/~ferestrepoca/)
* **Asistentes docentes:**
    - [Juan Sebastián Lara Ramírez](https://www.linkedin.com/in/juan-sebastian-lara-ramirez-43570a214/).
* **Diseño de imágenes:**
    - [Rosa Alejandra Superlano Esquibel](mailto:rsuperlano@unal.edu.co).
* **Coordinador de virtualización:**
    - [Edder Hernández Forero](https://www.linkedin.com/in/edder-hernandez-forero-28aa8b207/).

**Universidad Nacional de Colombia** - *Facultad de Ingeniería*