<a href="https://colab.research.google.com/github/JuanFranco-hub/Python-Tutorial-for-ML/blob/main/Lecciones/Lec09_Procesamiento_Cadenas.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a> 

# Procesamiento de Cadenas

## Introducción

El manejo de cadenas de texto (strings) es una tarea fundamental en programación, especialmente en lenguajes como Python. En este chat hemos visto diferentes aspectos que debemos tener en cuenta para trabajar con strings de manera eficiente y efectiva. Desde cómo declarar y manipular strings, hasta cómo buscar y contar subcadenas y transformar el texto. También hemos visto cómo verificar la composición de los strings y cómo eliminar caracteres no deseados. Todo esto es esencial para cualquier programador, ya que trabajar con texto es una tarea común en muchos proyectos.

# Uso Cadenas en Python


### Longitud, búsqueda e iteración

Podemos encontrar la longitud de un string utilizando la función len(). También podemos buscar un sub-string en un string utilizando el operador in. Además, podemos iterar sobre los caracteres de un string utilizando un loop for. Por ejemplo:



In [1]:
s = "Huskies"
print(len(s)) 

7


In [2]:
print("usk" in s) 

True


In [3]:
print([c for c in s if c == 's']) 

['s', 's']


### Indexación y rebanado (slicing)

Podemos acceder a caracteres individuales dentro de un string utilizando su índice. Los índices en Python comienzan en 0 y se cuentan de izquierda a derecha. También podemos acceder a un rango de caracteres dentro de un string utilizando el rebanado (slicing) de strings. El rebanado se hace especificando un inicio y un final para el rango, separados por dos puntos. Por ejemplo:

In [4]:
s = "Huskies"
print(s[0]) 

H


In [5]:
print(s[1:]) 

uskies


### Indexación y rebanado (slicing)

Podemos acceder a caracteres individuales dentro de un string utilizando su índice. Los índices en Python comienzan en 0 y se cuentan de izquierda a derecha. También podemos acceder a un rango de caracteres dentro de un string utilizando el rebanado (slicing) de strings. El rebanado se hace especificando un inicio y un final para el rango, separados por dos puntos. Por ejemplo:



In [6]:
s = "Huskies"
print(s + " at NIU") 

Huskies at NIU


In [7]:
print(s * 2) 

HuskiesHuskies


### Comillas y caracteres escapados

Podemos utilizar tanto comillas simples como dobles para definir strings en Python. Además, podemos utilizar triples comillas dobles para definir strings que abarquen varias líneas. También podemos utilizar caracteres escapados como \n para representar saltos de línea y \t para representar tabulaciones. Por ejemplo:



Podemos crear cadenas de texto usando comillas simples o dobles:

In [8]:
s1 = 'string1'
print(s1)

string1


In [9]:
s2 = "string2"
print(s2)

string2


También podemos usar triple comillas dobles para crear cadenas de texto que abarquen varias líneas:

In [10]:
s3 = """Esta es una cadena de texto
que abarca varias líneas"""
print(s3)

Esta es una cadena de texto
que abarca varias líneas


Finalmente, en las cadenas de texto podemos usar caracteres especiales escapados como **\n** para indicar un salto de línea o **\t** para un tabulador:

In [11]:
s4 = "Una cadena de texto con\nun salto de línea y un\ttabulador."
print(s)

Huskies


In [12]:
s4 = "Primera línea\nSegunda línea" 
print(s4)

Primera línea
Segunda línea


In [13]:
s5 = "Nombre:\tJuan\nEdad:\t30"
print(s5)

Nombre:	Juan
Edad:	30


## Unicode and ASCII




### Sistemas conceptuales
Tanto Unicode como ASCII son sistemas de codificación de caracteres. Un sistema de codificación de caracteres es una forma de representar caracteres de texto en una computadora. Cada caracter se representa por un número entero llamado código de carácter.

### ASCII

ASCII (American Standard Code for Information Interchange) es un sistema de codificación de caracteres que fue desarrollado en los años 60. Fue uno de los primeros sistemas ampliamente utilizados y se basa en una tabla de 128 caracteres, cada uno representado por un número entero de 7 bits.La tabla ASCII incluye caracteres en inglés como letras mayúsculas y minúsculas, números, signos de puntuación y algunos caracteres especiales. Debido a que solo había 128 caracteres en la tabla, no se podían representar caracteres de otros idiomas.

### Unicode
Unicode es un sistema de codificación de caracteres moderno y más completo que ASCII. Fue desarrollado para abordar la limitación de ASCII de solo poder representar caracteres en inglés. Unicode puede representar más de 1 millón de caracteres de todos los idiomas del mundo, incluidos caracteres latinos, griegos, cirílicos, chinos, japoneses, coreanos, árabes y muchos más. Incluso incluye emojis y otros símbolos. \

Los caracteres Unicode se representan mediante un número hexadecimal de 4 o 5 dígitos, denominado "punto de código". Por ejemplo, la letra é se representa como U+00E9. Cada punto de código también tiene un nombre que describe el carácter correspondiente. El nombre del punto de código U+00E9 es "LATIN SMALL LETTER E WITH ACUTE".

### Uso en Python

Python es compatible con Unicode. Esto significa que podemos utilizar caracteres de cualquier idioma en nuestro código. Podemos escribir directamente caracteres Unicode en una cadena, o podemos representarlos mediante un código de escape Unicode. Un código de escape Unicode es una secuencia de caracteres que comienza con una barra invertida () seguida por una letra "u" y cuatro dígitos hexadecimales. Por ejemplo, "\u00E9" representa la letra é.

In [14]:
print("Hello, world! é")

Hello, world! é


In [15]:
print("\u00E9")

é


En Python, puedes escribir caracteres Unicode directamente en el código, como la letra **"é"**, o puedes usar su representación de código hexadecimal **"\u00e9"**.  \
Aquí hay un ejemplo de cómo usar Unicode en Python:

In [16]:
# Definir una cadena con un carácter Unicode
s = "La ville de Québec"

In [17]:
# Imprimir la cadena
print(s)

La ville de Québec


In [18]:
# Imprimir la representación Unicode de la cadena
print(s.encode('unicode_escape'))

b'La ville de Qu\\xe9bec'


En este ejemplo, definimos una cadena que contiene el carácter Unicode "é". Luego imprimimos la cadena y su representación Unicode usando el método encode con el argumento 'unicode_escape'.

## Strings son objetos con métodos

Los strings son objetos en Python y tienen una serie de métodos incorporados que podemos llamar para realizar diversas operaciones en ellos. Al igual que con otros objetos, podemos llamar a estos métodos en una cadena utilizando la sintaxis de punto.

Llamando métodos en stringsPodemos llamar a los métodos de los objetos string usando la siguiente sintaxis:


```
cadena.metodo(argumentos)
```



### Ejemplo de métodos string

A continuación, se muestra un ejemplo de cómo usar algunos métodos de strings:

In [19]:
s = "Pepe Picapiedras pica piedras. Piedras pica Pepe Picapiedras."
s.count('p')

7

In [20]:
"Pepe Picapiedras pica piedras. Piedras pica Pepe Picapiedras.".count('p')

7

In [21]:
"Pepe Picapiedras pica piedras. Piedras pica Pepe Picapiedras.".find("pica")

17

En este ejemplo, hemos creado una cadena `s` y luego llamado al método `count()` en ella para contar cuántas veces aparece la letra 'p' en la cadena. Luego, hemos usado una cadena literal para llamar al método `find()` y encontrar la primera ocurrencia de la subcadena "pica".

## Encontrar y contar subcadenas

Python proporciona una serie de funciones de cadena para encontrar y contar subcadenas en una cadena dada. Estas funciones son útiles cuando necesitamos buscar una subcadena específica dentro de una cadena o contar el número de veces que aparece una subcadena.

### Funciones de conteo de subcadenas

Las funciones de conteo de subcadenas nos permiten contar el número de veces que una subcadena específica aparece en una cadena dada. Aquí hay un par de funciones de conteo de subcadenas útiles en Python:

*   `s.count(sub):` Devuelve el número de ocurrencias de `sub` en `s`.
*   `sub in s:` Devuelve True si `sub` aparece al menos una vez en `s`.

### Funciones de búsqueda de subcadenas

Las funciones de búsqueda de subcadenas nos permiten encontrar la posición de una subcadena específica dentro de una cadena dada. Aquí hay un par de funciones de búsqueda de subcadenas útiles en Python:



*   `s.find(sub)`: Devuelve la posición de la primera ocurrencia de `sub` en `s`, o `-1` si `sub` no se encuentra en `s`.
*   `s.rfind(sub):` Devuelve la posición de la última ocurrencia de `sub` en `s`, o `-1` si `sub` no se encuentra en `s`.


Hay también funciones similares llamadas `s.index()` y `s.rindex()`, que funcionan de manera similar a `s.find()` y `s.rfind()`, respectivamente. La única diferencia es que `s.index()` y `s.rindex()` generan una excepción ValueError si `sub` no se encuentra en `s`.

### Funciones de verificación de prefijo y sufijo

Las funciones de verificación de prefijo y sufijo nos permiten verificar si una cadena comienza o termina con una subcadena específica. Aquí hay un par de funciones de verificación de prefijo y sufijo útiles en Python:

*   `s.startswith(sub)`: Devuelve `True` si `s` comienza con `sub`.
*   `s.endswith(sub)`: Devuelve `True` si `s` termina con `sub`.

## Eliminando los espacios en Blanco al principio y al final de una cadena

En Python, los strings son objetos y tienen muchos métodos integrados que se pueden utilizar para transformar, modificar y analizar cadenas de texto. Uno de los tipos comunes de transformaciones que se pueden realizar en cadenas de texto es la eliminación de caracteres no deseados en los bordes de la cadena, como los espacios en blanco.

Python proporciona varios métodos para eliminar caracteres no deseados de los bordes de una cadena. Estos métodos incluyen:

`s.strip()`: Este método devuelve una copia de la cadena `s` con todos los espacios en blanco eliminados del principio y del final de la cadena.

In [22]:
s = "  Hello, world!  "

In [23]:
# Eliminar espacios en blanco del principio y del final de la cadena
s_stripped = s.strip()
print(s_stripped)

Hello, world!


`s.lstrip()`: Este método devuelve una copia de la cadena `s` con todos los espacios en blanco eliminados del principio de la cadena.

In [24]:
# Eliminar espacios en blanco del principio de la cadena
s_lstripped = s.lstrip()
print(s_lstripped)

Hello, world!  


`s.rstrip()`: Este método devuelve una copia de la cadena `s` con todos los espacios en blanco eliminados del final de la cadena.

In [25]:
# Eliminar espacios en blanco del final de la cadena
s_rstripped = s.rstrip()
print(s_rstripped)

  Hello, world!


## Transformando Texto

En Python, las cadenas son objetos que tienen una variedad de métodos que se pueden utilizar para transformar y manipular el texto. En esta ocasión, nos enfocaremos en los métodos que permiten transformar el texto.


`s.replace(oldsub, newsub)`: Este método devuelve una copia de la cadena `s` con todas las ocurrencias de la subcadena `oldsub` reemplazadas por la subcadena `newsub`. Por ejemplo:

In [26]:
s = "La casa es roja y la puerta es verde"
s.replace("verde", "azul")
# Devuelve "La casa es roja y la puerta es azul"

'La casa es roja y la puerta es azul'

`s.upper()`: Este método devuelve una copia de la cadena s en mayúsculas. Por ejemplo:

In [27]:
s = "La casa es roja y la puerta es verde"
s.upper()

'LA CASA ES ROJA Y LA PUERTA ES VERDE'

s.lower(): Este método devuelve una copia de la cadena s en minúsculas. Por ejemplo:



In [28]:
s = "La casa es roja y la puerta es verde"
s.lower()

'la casa es roja y la puerta es verde'

`s.capitalize()`: Este método devuelve una copia de la cadena `s` con la primera letra en mayúscula y todas las demás en minúscula. Por ejemplo:

In [29]:
s = "la casa es roja y la puerta es verde"
s.capitalize()

'La casa es roja y la puerta es verde'

`s.title()`: Este método devuelve una copia de la cadena `s` con la primera letra de cada palabra en mayúscula y todas las demás en minúscula. Por ejemplo:



In [30]:
s = "la casa es roja y la puerta es verde"
s.title()

'La Casa Es Roja Y La Puerta Es Verde'

## Composición de las Cadenas

`isalnum()` Devuelve True si la cadena contiene solo caracteres alfanuméricos (es decir, dígitos y letras).

In [31]:
s = "abc123"
print(s.isalnum())

True


In [32]:
s = "abc$123"
print(s.isalnum())

False


`isalpha()` Devuelve True si la cadena contiene solo caracteres alfabéticos (es decir, letras).

In [33]:
s = "abc"
print(s.isalpha())

True


In [34]:
s = "abc123"
print(s.isalpha())

False


`isdecimal()` Devuelve True si la cadena contiene solo caracteres de números enteros decimales.

In [35]:
s = "123"
print(s.isdecimal())

True


In [36]:
s = "123.45"
print(s.isdecimal())

False


`isdigit()` Devuelve True si la cadena contiene solo dígitos (por ejemplo, '0', '1', '2').

In [37]:
s = "123"
print(s.isdigit())

True


In [38]:
s = "123abc"
print(s.isdigit())

False


`isidentifier()` Devuelve True si la cadena representa un identificador válido.

In [39]:
s = "my_var"
print(s.isidentifier())

True


In [40]:
s = "1var"
print(s.isidentifier())

False


`isnumeric()` Devuelve True si los caracteres en la cadena representan un valor numérico sin un signo más (+) o menos (-) o un punto (.).

In [41]:
s = "123"
print(s.isnumeric())

True


In [42]:
s = "123.45"
print(s.isnumeric())

False


`isspace()` Devuelve True si la cadena contiene solo caracteres de espacio en blanco.

In [43]:
s = "   "
print(s.isspace())

True


In [44]:
s = "  abc  "
print(s.isspace())

False


`istitle()` Devuelve True si el primer carácter de cada palabra es el único carácter en mayúscula en ella.



In [45]:
s = "This Is A Title"
print(s.istitle())

True


In [46]:
s = "This is Not a Title"
print(s.istitle())

False


`isupper()` Devuelve True si todos los caracteres alfabéticos en la cadena son caracteres en mayúsculas.



In [47]:
s = "HELLO"
print(s.isupper())

True


In [48]:
s = "Hello"
print(s.isupper()) 

False


## Spliting

En Python, podemos dividir una cadena en partes más pequeñas utilizando el método `.split()`. Este método devuelve una lista de las partes de la cadena que se han dividido en función del separador que se haya proporcionado. Aquí hay algunos ejemplos:

In [49]:
# Primero, definamos una cadena:
s = "Venkata, Ranjit, Pankaj, Ali, Karthika"

Luego, podemos usar `.split()` para dividir la cadena en una lista de nombres separados por comas:

In [50]:
names = s.split(',')
print(names)

['Venkata', ' Ranjit', ' Pankaj', ' Ali', ' Karthika']


Observe que los nombres tienen espacios en blanco antes de ellos. Esto se debe a que la coma y el espacio después de ella se consideran el separador, por lo que cada nombre en la lista incluye el espacio después de la coma. Podemos eliminar los espacios en blanco utilizando el método `.strip().`

También podemos especificar un número máximo de divisiones que deseamos hacer, usando el segundo argumento del método `.split().` Por ejemplo, si solo queremos dividir la cadena tres veces, podemos hacer lo siguiente:

In [51]:
names = s.split(',', 3)
print(names)

['Venkata', ' Ranjit', ' Pankaj', ' Ali, Karthika']


Observe que solo se han dividido los primeros tres nombres, y el último nombre está incluido como una sola cadena.

Además, si no se especifica un separador, se utiliza cualquier cantidad de espacios en blanco como separador:

In [52]:
s2 = "Venkata Ranjit    Pankaj     Ali Karthika"
names = s2.split()
print(names)

['Venkata', 'Ranjit', 'Pankaj', 'Ali', 'Karthika']


## Joining

El método `join` se utiliza para unir una lista de cadenas en una sola cadena, usando un separador determinado. En Python, este método se llama en el separador, y la lista de cadenas a unir se pasa como argumento. \
Por ejemplo, si tenemos una lista de nombres como `names = ['Venkata', 'Ranjit', 'Pankaj', 'Ali', 'Karthika']`, podemos unirlos en una cadena separada por comas con el siguiente código:

In [53]:
# Crear una lista de cadenas
frutas = ['apple', 'banana', 'orange', 'kiwi']

In [54]:
s = ','.join(frutas)
print(s)

apple,banana,orange,kiwi


También podemos unir una lista de cadenas de una función, como se muestra en el siguiente ejemplo:

In [55]:
def get_fruits():
  return ['apple', 'banana', 'orange', 'kiwi']

In [56]:
fruits = get_fruits()
fruits_string = ','.join(fruits)
print(fruits_string)

apple,banana,orange,kiwi


## Formating

El formateo de cadenas en Python es una técnica utilizada para construir una cadena de texto a partir de una plantilla predefinida, que contiene marcadores de posición para los valores que serán reemplazados posteriormente. El método más utilizado para el formateo de cadenas es el método `format()`.

para las info: [documentacion format](https://docs.python.org/3/library/string.html#format-specification-mini-language)

En la plantilla, los marcadores de posición se indican mediante llaves `{}`. Estos marcadores pueden ser numerados, lo que significa que hacen referencia a un argumento específico pasado al método `format()`, o pueden tener un nombre que se refiere a una clave específica en un diccionario de argumentos.

In [57]:
# Ejemplo 1: Uso básico de .format()
name = "Juan"
age = 30
print("Mi nombre es {} y tengo {} años.".format(name, age))

Mi nombre es Juan y tengo 30 años.


El método `format()` reemplaza los marcadores de posición en la plantilla con los valores correspondientes proporcionados como argumentos al método. Los argumentos se pueden pasar en el orden en que se encuentran en la plantilla, o se pueden nombrar explícitamente para permitir un mayor control sobre el formato resultante.

In [58]:
# Ejemplo 2: Cambio del orden de los argumentos
print("Tengo {1} años y mi nombre es {0}.".format(name, age))

Tengo 30 años y mi nombre es Juan.


In [59]:
# Ejemplo 3: Uso de nombres de argumentos
print("Mi nombre es {nombre} y tengo {edad} años.".format(nombre=name, edad=age))

Mi nombre es Juan y tengo 30 años.


In [60]:
# Ejemplo 4: Uso de especificadores de formato
pi = 3.14159
print("El valor de pi es aproximadamente {:.2f}.".format(pi))

El valor de pi es aproximadamente 3.14.


Además de la técnica de formateo de cadenas con `format()`, Python también ofrece otros métodos para justificar cadenas `ljust()`, `rjust()` y para rellenar con ceros `zfill()`. Estos métodos permiten ajustar el ancho de las cadenas de salida y formatearlas de manera uniforme.

In [61]:
# Ejemplo 5: Uso de ljust() y rjust()
text = "Hola"
print(text.ljust(10, "-"))
print(text.rjust(10, "-"))

Hola------
------Hola


In [62]:
# Ejemplo 6: Uso de zfill()
number = "42"
print(number.zfill(5))

00042


In [67]:
# Ejemplo 7: Uso de operaciones matematicas
import math
x = 2
message = f"The square root of {x} is {math.sqrt(x):.2f}"
print(message)

The square root of 2 is 1.41


## Tipos de Presentacion de format

Los "Format Mini-Language Presentation Types" es una parte de la sintaxis de los strings de formato en Python que permite especificar el tipo de dato que se está formateando. Algunos tipos son obvios, como las cadenas de texto y los enteros, pero otros tipos requieren una especificación adicional.



### Los tipos de presentación de cadenas disponibles son:

| Tipo   | Significado                                                      |
|--------|------------------------------------------------------------------|
| `'s'`  | Formato de cadena. Este es el tipo predeterminado para cadenas y se puede omitir. |
| Ninguno| Lo mismo que `'s'`.                                              |


Estos tipos de presentación son opcionales y no son necesarios en la mayoría de los casos. Sin embargo, pueden ser útiles en situaciones en las que se desea especificar explícitamente el tipo de dato que se está formateando.

### Los tipos de presentación de enteros disponibles son:

| Tipo   | Significado                                                                 |
|--------|-----------------------------------------------------------------------------|
| `'b'`  | Formato binario. Muestra el número en base 2.                               |
| `'c'`  | Caracter. Convierte el número entero al carácter Unicode correspondiente antes de imprimir. |
| `'d'`  | Entero decimal. Muestra el número en base 10.                               |
| `'o'`  | Formato octal. Muestra el número en base 8.                                 |
| `'x'`  | Formato hexadecimal. Da salida al número en base 16, usando letras minúsculas para los dígitos arriba de 9. |
| `'X'`  | Formato hexadecimal. Da salida al número en base 16, usando letras mayúsculas para los dígitos arriba de 9. En caso de que `'#'` se especifique, el prefijo también `'0x'` estará en mayúsculas: `'0X'`. |
| `'n'`  | Número. Esto es lo mismo que `'d'`, excepto que usa la configuración regional actual para insertar los caracteres de separación de números apropiados. |
| Ninguno| Lo mismo que `'d'`.                                                        |


In [63]:
# Enteros
x = 42
print(f"El número es: {x:d}")

El número es: 42


In [64]:
# Cadenas de texto
s = "hola mundo"
print(f"La cadena es: {s:s}")

La cadena es: hola mundo


In [65]:
# Notación científica
f = 123.456
print(f"El número en notación científica es: {f:e}")

El número en notación científica es: 1.234560e+02


In [66]:
# Notación de punto fijo
g = 123.456
print(f"El número en notación de punto fijo es: {g:.2f}")

El número en notación de punto fijo es: 123.46


### Number Formating
La sección de formato numérico permite dar formato a los números dentro de las cadenas. Aquí hay algunos ejemplos:

Para agregar un signo positivo (+) delante de números positivos, use el signo de más (+) después de los dos puntos (:) y antes de la letra de presentación de tipo, como se muestra en el siguiente ejemplo:

In [68]:
f'[{27:+10d}]'

'[       +27]'

Si desea agregar un espacio en blanco delante de los números positivos, pero solo mostrar los números negativos sin el espacio en blanco, puede usar un espacio en blanco después de los dos puntos (:) y antes de la letra de presentación de tipo, como se muestra en el siguiente ejemplo:

In [70]:
print(f'{27: d}\n{-27: d}')

 27
-27


Si desea separar los números con comas en función de su valor posicional, puede usar la coma (,) después del número de ancho de campo (si se usa) y antes de la letra de presentación de tipo, como se muestra en el siguiente ejemplo:

In [72]:
f'{12345678:,d}'

'12,345,678'

## Expresiones Regulares

Las expresiones regulares, también conocidas como regex, son una sintaxis utilizada en Python y otros lenguajes de programación para buscar patrones en cadenas de texto. Pueden ser muy útiles para encontrar y manipular texto de manera eficiente.

En Python, podemos utilizar el módulo re para trabajar con expresiones regulares. Para empezar, necesitamos importar el módulo:

In [73]:
import re

Una expresión regular se compone de caracteres especiales y literales que especifican un patrón a buscar en una cadena de texto. Por ejemplo, si queremos encontrar todas las ocurrencias de la palabra "python" en una cadena de texto, podemos hacer lo siguiente:

In [79]:
texto = "Python es un lenguaje de programación muy popular. Hay muchas razones para aprender python."
resultado = re.findall("python", texto)
print(resultado)

['python']


Esto nos dará como resultado una lista de todas las ocurrencias de la palabra "python" en el texto. \

Sin embargo, las expresiones regulares pueden ser mucho más poderosas que esto. Por ejemplo, si queremos encontrar todas las ocurrencias de cualquier palabra que comience con la letra "p", podemos utilizar el siguiente patrón:

In [82]:
texto = "Python es un lenguaje de programación muy popular. Hay muchas razones para aprender python."
resultado = re.findall("p\w+", texto)
print(resultado)

['programación', 'popular', 'para', 'prender', 'python']


En este patrón, `\w` representa cualquier carácter alfanumérico, y el signo `+` indica que deben haber uno o más caracteres que sigan a la "p". Esto nos dará como resultado una lista de todas las palabras que comienzan con "p".

Las expresiones regulares también pueden ser útiles para validar entradas de usuario, como correos electrónicos o números de teléfono. Por ejemplo, si queremos verificar si una cadena de texto es un correo electrónico válido, podemos hacer lo siguiente:

In [110]:
correo = "ejemplo@dominio.com"
patron = "\w+@\w+\.\w+"
if re.match(patron, correo):
  print("El correo es válido")
else:
  print("El correo no es válido")

El correo es válido


En este caso, el patrón `\w+@\w+\.\w+` especifica que debe haber una o más letras o números antes de la arroba, seguidos por una o más letras o números después de la arroba, y luego un punto y una o más letras o números después del punto.

## Metacharacters 
Metacharacters en Python son caracteres especiales que se utilizan en expresiones regulares para indicar acciones como repetir, agrupar, negar, etc. Aquí hay una explicación de cada uno de los metacaracteres comunes:

`.`: representa cualquier carácter excepto nueva línea (`\n`).

In [85]:
import re
text = "cat, bat, mat, hat, bad"
pattern = ".at"
matches = re.findall(pattern, text)
print(matches)

['cat', 'bat', 'mat', 'hat']


`^`: representa el inicio de una cadena.

In [86]:
import re
text = "apple, banana, orange"
pattern = "^apple"
matches = re.findall(pattern, text)
print(matches)

['apple']


`$`: representa el final de una cadena.

In [87]:
import re
text = "apple, banana, orange"
pattern = "orange$"
matches = re.findall(pattern, text)
print(matches)

['orange']


`[]`: define un conjunto de caracteres a buscar.

In [89]:
import re
text = "cat, bat, bad, mat, hat"
pattern = "[bmh]at"
matches = re.findall(pattern, text)
print(matches) # ['bat', 'mat', 'hat']

['bat', 'mat', 'hat']


`*`: coincide con el elemento anterior cero o más veces.

In [90]:
import re
text = "abbcccddddeeeee"
pattern = "c*"
matches = re.findall(pattern, text)
print(matches)

['', '', '', 'ccc', '', '', '', '', '', '', '', '', '', '']


`+`: coincide con el elemento anterior una o más veces.

In [91]:
import re
text = "abbcccddddeeeee"
pattern = "c+"
matches = re.findall(pattern, text)
print(matches)

['ccc']


`?`: coincide con el elemento anterior cero o una vez.

In [92]:
import re
text = "colour, color"
pattern = "colou?r"
matches = re.findall(pattern, text)
print(matches)

['colour', 'color']


`{m,n}`: coincide con el elemento anterior al menos `m` y como máximo `n` veces.

In [93]:
import re
text = "abbcccddddeeeee"
pattern = "c{2,4}"
matches = re.findall(pattern, text)
print(matches)

['ccc']


## Clases de Caracteres Predefinidas

Las clases de caracteres predefinidas son útiles para hacer coincidir diferentes tipos de caracteres en una cadena. Aquí hay una breve explicación de cada una de ellas con algunos ejemplos en Python

`\d`: coincidirá con cualquier dígito (0-9).

In [96]:
import re
string = "La respuesta es 42."
match = re.search(r'\d+', string)
print(match.group())

42


`\D`: coincidirá con cualquier carácter que no sea un dígito.

In [99]:
import re
string = "La respuesta es 42."
match = re.search(r'\D+', string)
print(match.group())

La respuesta es 


`\s`: coincidirá con cualquier carácter de espacio en blanco, como espacios, tabulaciones o saltos de línea.

In [100]:
import re
string = "Hola \t mundo\n!"
match = re.findall(r'\s', string)
print(match)

[' ', '\t', ' ', '\n']


`\S`: coincidirá con cualquier carácter que no sea un espacio en blanco.

In [101]:
import re
string = "Hola \t mundo\n!"
match = re.findall(r'\S', string)
print(match)

['H', 'o', 'l', 'a', 'm', 'u', 'n', 'd', 'o', '!']


`\w`: coincidirá con cualquier carácter de palabra, es decir, cualquier letra, número o guión bajo.

In [102]:
import re
string = "El correo electrónico es info@example.com"
match = re.findall(r'\w+', string)
print(match)

['El', 'correo', 'electrónico', 'es', 'info', 'example', 'com']


`\W`: coincidirá con cualquier carácter que no sea un carácter de palabra

In [103]:
import re
string = "El correo electrónico es info@example.com"
match = re.findall(r'\W+', string)
print(match)

[' ', ' ', ' ', ' ', '@', '.']


## métodos/atributos
métodos/atributos en Python para trabajar con expresiones regulares:

`match()`: Este método comprueba si la expresión regular coincide con el inicio de una cadena. Devuelve un objeto de tipo 'match' si hay una coincidencia, o 'None' en caso contrario. Por ejemplo:

In [104]:
import re
string = 'hola mundo'
pattern = r'hola'
# Comprobar si la expresión regular coincide con el inicio de la cadena
match_object = re.match(pattern, string)
if match_object:
  print("Coincidencia encontrada:", match_object.group())
else:
  print("No se encontró coincidencia")

Coincidencia encontrada: hola


`search()`: Este método busca la primera coincidencia de la expresión regular en la cadena. Devuelve un objeto de tipo 'match' si hay una coincidencia, o 'None' en caso contrario. Por ejemplo:

In [None]:
import re
string = 'hola mundo'
pattern = r'mundo'
# Buscar la primera coincidencia de la expresión regular en la cadena
match_object = re.search(pattern, string)
if match_object:
  print("Coincidencia encontrada:", match_object.group())
else:
  print("No se encontró coincidencia")

`findall()`: Este método busca todas las coincidencias de la expresión regular en la cadena y las devuelve como una lista de cadenas. Por ejemplo:

In [105]:
import re
string = 'hola 123 mundo 456'
pattern = r'\d+'
# Buscar todas las coincidencias de la expresión regular en la cadena
matches = re.findall(pattern, string)
print(matches)

['123', '456']


`finditer()`: Este método busca todas las coincidencias de la expresión regular en la cadena y las devuelve como un iterador de objetos 'match'. Por ejemplo:

In [106]:
import re
string = 'hola 123 mundo 456'
pattern = r'\d+'
# Buscar todas las coincidencias de la expresión regular en la cadena
matches_iterator = re.finditer(pattern, string)

for match_object in matches_iterator:
  print(match_object.group())

123
456


## Sustitución

La sustitución es un proceso que nos permite reemplazar cadenas que coinciden con un patrón de expresiones regulares con otra cadena deseada. En Python, podemos hacer esto usando la función `sub` del módulo `re`.

Veamos algunos ejemplos para entender mejor la sustitución:

In [107]:
import re
# Definir una cadena
s = 'La fecha actual es 02/03/2023'

# Sustituir el formato de la fecha
s_nueva = re.sub(r'(\d+)/(\d+)/(\d+)', r'\3-\2-\1', s)

# Imprimir la cadena original y la cadena con la sustitución
print(s)
print(s_nueva)

La fecha actual es 02/03/2023
La fecha actual es 2023-03-02


En este ejemplo, hemos definido una cadena `s` que contiene una fecha en formato "mes/día/año". Queremos cambiar este formato a "año-mes-día". Usando `re.sub`, hemos creado un patrón de expresión regular que busca cualquier cadena que coincida con el formato de fecha y lo hemos reemplazado por la cadena que queremos (`r'\3-\2-\1'`).

En la cadena de sustitución `r'\3-\2-\1'`, estamos usando los metacaracteres `\1`, `\2` y `\3`, que se refieren a los tres grupos de captura en nuestro patrón de expresión regular. El grupo de captura se define usando paréntesis en el patrón. En este caso, hemos definido tres grupos de captura: uno para el mes, otro para el día y otro para el año.

Otro ejemplo de sustitución es usar una función para generar la cadena de reemplazo:

In [108]:
import re

# Definir una cadena
s = 'La fecha actual es 02/03/2023'

# Función de sustitución
def cambiar_fecha(match):
  mes = int(match.group(1))
  dia = int(match.group(2))
  anio = int(match.group(3))
  return f'{anio}-{mes:02d}-{dia:02d}'

# Sustituir el formato de la fecha
s_nueva = re.sub(r'(\d+)/(\d+)/(\d+)', cambiar_fecha, s)

# Imprimir la cadena original y la cadena con la sustitución
print(s)
print(s_nueva)

La fecha actual es 02/03/2023
La fecha actual es 2023-02-03


En este ejemplo, hemos definido una función `cambiar_fecha` que toma un objeto de coincidencia como argumento y devuelve la cadena de reemplazo deseada. La función extrae el mes, día y año de la coincidencia y luego devuelve una cadena formateada en el formato "año-mes-día". Luego, usamos esta función como el segundo argumento en la llamada a `re.sub`. La función `re.sub` llamará a nuestra función de sustitución para cada coincidencia encontrada en la cadena y usará la cadena que devuelve para reemplazar la coincidencia en la cadena original.

## Conclusión
 
En resumen, en este chat hemos aprendido que Python es un lenguaje poderoso para trabajar con strings. Hemos visto diferentes métodos para manipular y transformar texto, así como para buscar y contar subcadenas. También hemos aprendido cómo verificar la composición de los strings y cómo eliminar caracteres no deseados. Estos conocimientos son esenciales para cualquier programador, y dominarlos nos permitirá trabajar de manera eficiente y efectiva con texto en nuestros proyectos. En definitiva, este chat ha sido una introducción útil para aquellos que quieran mejorar su manejo de strings en Python.

