<a href="https://colab.research.google.com/github/edelgado-1975/PandasOk/blob/main/03_Variables_tipo_texto.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Cómo trabajar con variables tipo texto en Pandas

Pandas cuenta con una gran funcionalidad a la hora de interactuar con texto, es super versatil si estas interesado en crear modelos de análisis de lenguaje natural.

Cuando queremos manejar texto utilizamos la función **.str** y con esta podemos concatenar otros métodos para **hacer mayúsculas o minúsculas todo el texto**, y otras funcionalidades. Podemos **contar los caracteres **del string o **separar por palabras**. Tambien podemos **buscar coincidencias** y **crear filtros**. Inclusive podemos utilizar **expresiones regulares** para realizar busquedas mas complejas y exhaustivas.

Comencemos cargando nuestra librería y creando un diccionario con nombres de personas.

In [1]:
import pandas as pd
data = {'names':['Sara Moreno 34',
                 'jUAn GOMez 23',
                 'CArlos mArtinez 89',
                 'Alfredo VelaZques 3',
                 'luis Mora 56',
                 '@freddier #platzi 10',pd.NA]}

Usemos los datos del diccionario para crear nuestro DataFrame. Nuestro DataFrame contiene una columna tipo texto, con variedades de caracteres especiales, números, mayúsculas e inclusive variables nulas.

In [None]:
df = pd.DataFrame(data)
df

Para usar las funciones asociadas a texto usamos **str** en nuestro DataFrame, por ejemplo, si se quiere colocar el texto en minúscula, basta con escribir:

In [None]:
df['names'].str.lower()

Para mayúsculas igualmente:

In [None]:
df['names'].str.upper()

O si queremos solo la primera letra en mayúscula:

In [None]:
df['names'].str.capitalize()

Para contar la longitud de nuestro texto usamos:

In [None]:
df['names'].str.len()

Para dividir el texto por espacios usamos **split** y definimos el carácter por el que queremos dividir, en este caso, un espacio vacío ' '  o **'#'**:

In [None]:
df['names'].str.split(' ')

In [None]:
df['names'].str.split('#')

Para seleccionar los primeros o últimos 5 caracteres usamos:

In [None]:
df['names'].str[:5]

In [None]:
df['names'].str[-5:]

Podemos reemplazar una secuencia de caracteres por otra mediante:

In [None]:
df['names'].str.replace('Alfredo','Antonio')

También podemos buscar una secuencia de texto en específico, en este caso, **'ara'**:

In [None]:
df['names'].str.findall('ara')

También podemos crear un filtro basándonos en una secuencia de texto en
específico, en este caso, las filas que tengan **'or'**:

In [None]:
df['names'].str.contains('or')

Así mismo, podemos contar el número de ocurrencias de un caracter en específico, por ejemplo, cuántas veces aparece la letra **'a'**:

In [None]:
df['names'].str.lower().str.count('a')

Existen comandos más avanzados usando **Regex (Expresiones Regulares)**, por ejemplo, si quiero extraer los caracteres numéricos:

In [None]:
df['names'].str.extract('([0-9]+)', expand=False)

O, por ejemplo, si quiero extraer las menciones **'@xxxx'** del texto:

In [None]:
df['names'].str.replace('@[^\s]+','')