# Operaciones de texto

En Pandas, las operaciones de texto son esenciales para la manipulación y transformación de datos textuales. Estas operaciones se realizan principalmente utilizando el atributo ``.str``, que proporciona una interfaz para aplicar métodos de cadena de texto sobre las Series de Pandas. 

* **Cambio de mayúsculas y minúsculas**: Es posible convertir el texto a minúsculas o mayúsculas con los métodos ``.str.lower()`` y ``.str.upper()`` respectivamente.

In [3]:
import pandas as pd

serie_texto = pd.Series(['Manzana', 'BANANA', 'Cereza'])
print(serie_texto.str.lower())
print(serie_texto.str.upper())

0    manzana
1     banana
2     cereza
dtype: object
0    MANZANA
1     BANANA
2     CEREZA
dtype: object


* **Eliminación de espacios en blanco**: Para eliminar espacios en blanco al inicio y al final de las cadenas de texto, se puede utilizar ``.str.strip()``. También existen ``.str.lstrip()`` y ``.str.rstrip()`` para eliminar espacios solo al inicio o al final.

In [7]:
serie_texto = pd.Series(['  manzana  ', '  banana  ', '  cereza  '])
print(serie_texto.str.strip())

0    manzana
1     banana
2     cereza
dtype: object


* **Reemplazo de subcadenas**: El método ``.str.replace()`` permite reemplazar subcadenas dentro de las cadenas de texto. Este método soporta expresiones regulares.

In [11]:
serie_texto = pd.Series(['manzana', 'banana', 'cereza'])
print(serie_texto.str.replace('a', 'o'))

0    monzono
1     bonono
2     cerezo
dtype: object


* **División y particionado**: Las cadenas de texto pueden dividirse en listas de subcadenas utilizando ``.str.split()``. También es posible particionar las cadenas en partes utilizando ``.str.partition()``.

In [14]:
serie_texto = pd.Series(['manzana,banana,cereza'])
print(serie_texto.str.split(','))

0    [manzana, banana, cereza]
dtype: object


* **Concatenación de cadenas**: Se pueden concatenar cadenas de texto utilizando el operador ``+`` o el método ``.str.cat()``. Este último ofrece más opciones, como especificar un separador.

In [19]:
serie_texto = pd.Series(['manzana', 'banana', 'cereza'])
print(serie_texto.str.cat(sep='^^ '))

manzana^^ banana^^ cereza


* **Extracción de subcadenas**: Para extraer subcadenas específicas, se puede utilizar ``.str.slice()`` o ``.str.extract()``. El primero permite extraer subcadenas basándose en índices, mientras que el segundo utiliza expresiones regulares.

In [26]:
serie_texto = pd.Series(['manzana', 'banana', 'cereza'])
print(serie_texto.str.slice(0, 3))  # Extrae los primeros tres caracteres
print(serie_texto.str.extract(r'(\w{4})'))  # Extrae las primeras cuatro letras usando regex

0    man
1    ban
2    cer
dtype: object
      0
0  manz
1  bana
2  cere


* **Comprobaciones de patrones**: Se pueden realizar comprobaciones sobre las cadenas de texto para verificar si cumplen ciertos patrones utilizando métodos como ``.str.contains()``, ``.str.startswith()``, y ``.str.endswith()``.

In [29]:
serie_texto = pd.Series(['manzana', 'banana', 'cereza'])
print(serie_texto.str.contains('an'))
print(serie_texto.str.startswith('ma'))
print(serie_texto.str.endswith('za'))

0     True
1     True
2    False
dtype: bool
0     True
1    False
2    False
dtype: bool
0    False
1    False
2     True
dtype: bool


* **Longitud de cadenas**: Es posible obtener la longitud de cada cadena de texto utilizando ``.str.len()``.

In [32]:
serie_texto = pd.Series(['manzana', 'banana', 'cereza'])
print(serie_texto.str.len())

0    7
1    6
2    6
dtype: int64
