# Operaciones vectorizadas con string

Uno de los puntos fuertes de Python es su relativa facilidad para manejar y manipular datos de cadenas.
Pandas se basa en esto y proporciona un conjunto completo de *operaciones vectorizadas de string* que se convierten en una pieza esencial del tipo de manipulación necesaria cuando se trabaja con (léase: limpieza) datos del mundo real.
En esta sección, recorreremos algunas de las operaciones de cadena de Pandas, y luego echaremos un vistazo a su uso para limpiar parcialmente un conjunto de datos muy desordenado de recetas recogidas de Internet.

## Introducción a las operaciones de string de Pandas

Hemos visto en secciones anteriores cómo herramientas como NumPy y Pandas generalizan las operaciones aritméticas para que podamos realizar fácil y rápidamente la misma operación sobre muchos elementos de un array. Por ejemplo:

In [None]:
import numpy as np
x = np.array([2, 3, 5, 7, 11, 13])
x * 2

Esta *vectorización* de las operaciones simplifica la sintaxis para operar con matrices de datos: ya no tenemos que preocuparnos por el tamaño o la forma de la matriz, sino sólo por la operación que queremos realizar.
Para matrices de cadenas, NumPy no proporciona un acceso tan simple, y por lo tanto estás atascado usando una sintaxis de bucle más largas:

In [None]:
data = ['peter', 'Paul', 'MARY', 'aLEX']
[s.capitalize() for s in data]

Esto puede ser suficiente para trabajar con algunos datos, pero se romperá si hay valores perdidos.
Por ejemplo:

In [None]:
data = ['peter', 'Paul', None, 'MARY', 'aLEX']
[s.capitalize() for s in data]

Pandas incluye características para hacer frente tanto a esta necesidad de operaciones vectorizadas de string como para manejar correctamente los datos que faltan a través del atributo ``str`` de los objetos Series e Index de Pandas que contienen string.
Así, por ejemplo, supongamos que creamos una Serie Pandas con estos datos:

In [None]:
import pandas as pd
names = pd.Series(data)
names

Ahora podemos llamar a un único método que pondrá en mayúsculas todas las entradas, saltándose los valores que falten:

In [None]:
names.str.capitalize()

Usando el tabulador en este atributo ``str`` listará todos los métodos vectorizados de string disponibles para Pandas.

## Tablas de métodos de string de Pandas

Si tiene una buena comprensión de la manipulación de string en Python, la mayor parte de la sintaxis de string de Pandas es lo suficientemente intuitiva como para que probablemente sea suficiente con listar una tabla de métodos disponibles; empezaremos con eso aquí, antes de profundizar en algunas de las sutilezas.
Los ejemplos de esta sección utilizan la siguiente serie de nombres:

In [None]:
monte = pd.Series(['Graham Chapman', 'John Cleese', 'Terry Gilliam',
                   'Eric Idle', 'Terry Jones', 'Michael Palin'])

### Métodos similares a los métodos de string de Python

Casi todos los métodos de string incorporados en Python son reflejados por un método de string vectorizado de Pandas. Aquí hay una lista de métodos ``str`` de Pandas que reflejan métodos de string de Python:

|             |                  |                  |                  |
|-------------|------------------|------------------|------------------|
|``len()``    | ``lower()``      | ``translate()``  | ``islower()``    | 
|``ljust()``  | ``upper()``      | ``startswith()`` | ``isupper()``    | 
|``rjust()``  | ``find()``       | ``endswith()``   | ``isnumeric()``  | 
|``center()`` | ``rfind()``      | ``isalnum()``    | ``isdecimal()``  | 
|``zfill()``  | ``index()``      | ``isalpha()``    | ``split()``      | 
|``strip()``  | ``rindex()``     | ``isdigit()``    | ``rsplit()``     | 
|``rstrip()`` | ``capitalize()`` | ``isspace()``    | ``partition()``  | 
|``lstrip()`` |  ``swapcase()``  |  ``istitle()``   | ``rpartition()`` |

Observa que tienen varios valores de retorno. Algunos, como ``lower()``, devuelven una serie de string:

In [None]:
monte.str.lower()

Pero otros devuelven números:

In [None]:
monte.str.len()

O valores booleanos:

In [None]:
monte.str.startswith('T')

Otros devuelven listas u otros valores compuestos para cada elemento:

In [None]:
monte.str.split()

Veremos más manipulaciones de este tipo de objeto serie-de-listas a medida que continuemos.

### Métodos que utilizan expresiones regulares

Además, hay varios métodos que aceptan expresiones regulares para examinar el contenido de cada elemento de string, y siguen algunas de las convenciones de la API del módulo incorporado ``re`` de Python:

| Método | Descripción |
|--------|-------------|
| ``match()`` | Llama a ``re.match()`` en cada elemento, devolviendo un booleano. |
| ``extract()`` | Llama a ``re.match()`` en cada elemento, devolviendo los grupos coincidentes como strings.|
| ``findall()`` | Llama a ``re.findall()`` en cada elemento |
| ``replace()`` | Sustituir las ocurrencias del patrón por otra string|
| ``contains()`` | Llama a ``re.search()`` en cada elemento, devolviendo un booleano |
| ``count()`` | Contar ocurrencias del patrón|
| ``split()``   | Equivalente a ``str.split()``, pero acepta expresiones regulares |
| ``rsplit()`` | Equivalente a ``str.rsplit()``, pero acepta expresiones regulares |

Con ellas se puede hacer una amplia gama de operaciones interesantes.
Por ejemplo, podemos extraer el nombre de pila de cada uno pidiendo un grupo contiguo de caracteres al principio de cada elemento:

In [None]:
monte.str.extract('([A-Za-z]+)', expand=False)

O podemos hacer algo más complicado, como buscar todos los nombres que empiecen y acaben por consonante, haciendo uso de los caracteres de expresión regular de inicio de string (``^``) y final de string (``$``):

In [None]:
monte.str.findall(r'^[^AEIOU].*[^aeiou]$')

La posibilidad de aplicar de forma concisa expresiones regulares a las entradas de ``Series`` o ``Dataframe`` abre muchas posibilidades de análisis y limpieza de datos.

### Métodos diversos

Por último, hay algunos métodos diversos que permiten realizar otras operaciones convenientes:

| Método | Descripción |
|--------|-------------|
| ``get()`` | Indexar cada elemento |
| ``slice()`` | Cortar cada elemento|
| ``slice_replace()`` | Reemplazar la rebanada en cada elemento con el valor pasado|
| ``cat()``      | Concatenar string|
| ``repeat()`` | Valores de repetición |
| ``normalize()`` | Devuelve la forma Unicode de la cadena |
| ``pad()`` | Añadir espacios en blanco a la izquierda, a la derecha o a ambos lados de las string|
| ``wrap()`` | Dividir string largas en líneas de longitud inferior a una anchura determinada|
| ``join()`` | Une las string de cada elemento de la Serie con el separador pasado|
| ``get_dummies()`` | extraer variables ficticias como marco de datos |

#### Acceso vectorial a los artículos y troceado

Las operaciones ``get()`` y ``slice()``, en particular, permiten el acceso vectorizado a los elementos de cada array.
Por ejemplo, podemos obtener una porción de los tres primeros caracteres de cada matriz utilizando ``str.slice(0, 3)``.

In [None]:
monte.str[0:3]

La indexación mediante ``df.str.get(i)`` y ``df.str[i]`` también es similar.

Estos métodos ``get()`` y ``slice()`` también permiten acceder a los elementos de las matrices devueltas por ``split()``.
Por ejemplo, para extraer el apellido de cada entrada, podemos combinar ``split()`` y ``get()``:

In [None]:
monte.str.split().str.get(-1)

#### Variables indicadoras

Otro método que requiere una explicación adicional es el método ``get_dummies()``.
Es útil cuando los datos tienen una columna que contiene algún tipo de indicador codificado.
Por ejemplo, podemos tener un conjunto de datos que contenga información en forma de códigos, como A="nacido en América", B="nacido en el Reino Unido", C="le gusta el queso", D="le gusta el spam":

In [None]:
full_monte = pd.DataFrame({'name': monte,
                           'info': ['B|C|D', 'B|D', 'A|C',
                                    'B|D', 'B|C', 'B|C|D']})
full_monte

La rutina ``get_dummies()`` permite dividir rápidamente estas variables indicadoras en un ``DataFrame``:

In [None]:
full_monte['info'].str.get_dummies('|')

Con estas operaciones como bloques de construcción, puede construir una gama interminable de procedimientos de procesamiento de string al limpiar sus datos.

## Ejemplo: Base de datos de recetas

Estas operaciones vectoriales de cadenas resultan muy útiles en el proceso de limpieza de datos desordenados del mundo real.
Aquí veremos un ejemplo, utilizando una base de datos abierta de recetas compilada a partir de varias fuentes de la Web.
Nuestro objetivo será analizar los datos de la receta en listas de ingredientes, para que podamos encontrar rápidamente una receta basada en algunos ingredientes que tenemos a mano.

Desde la primavera de 2016, esta base de datos ocupa unos 30 MB, y se puede descargar y descomprimir con estos comandos:

In [None]:
# !curl -L -o data/recipeitems-latest.json-full.zip https://github.com/sameergarg/scala-elasticsearch/raw/master/conf/recipeitems-latest.json-full.zip

In [None]:
import zipfile

# Ruta del archivo descargado
zip_path = 'data/recipeitems-latest.json-full.zip'
# Directorio donde se descomprimirá
extract_dir = 'data/'

# Descomprimir usando zipfile
with zipfile.ZipFile(zip_path, 'r') as zip_ref:
    zip_ref.extractall(extract_dir)

print(f"Archivo descomprimido en: {extract_dir}")

La base de datos está en formato JSON, así que probaremos ``pd.read_json`` para leerla:

In [None]:
try:
    recipes = pd.read_json('data/recipeitems-latest.json')
except ValueError as e:
    print("ValueError:", e)

¡Uy! Obtenemos un ``ValueError`` mencionando que hay "trailing data".
Buscando el texto de este error en Internet, parece que se debe a usar un fichero en el que *cada línea* es en sí misma un JSON válido, pero el fichero completo no lo es.
Comprobemos si esta interpretación es cierta:

In [None]:
from io import StringIO
with open('data/recipeitems-latest.json') as f:
    line = f.readline()

df = pd.read_json(StringIO(line))

Sí, aparentemente cada línea es un JSON válido, así que tendremos que encadenarlas.
Una forma de hacerlo es construir una representación de string que contenga todas estas entradas JSON, y luego cargarlo todo con ``pd.read_json``:

In [None]:
import json

# Leer el archivo con la codificación adecuada
with open('data/recipeitems-latest.json', 'r', encoding='utf-8') as f:
    data = [json.loads(line) for line in f]

# Normalizar los datos JSON en un DataFrame de pandas
recipes = pd.json_normalize(data)

In [None]:
recipes.shape

Vemos que hay casi 200.000 recetas y 17 columnas.
Echemos un vistazo a una fila para ver lo que tenemos:

In [None]:
recipes.iloc[0]

Hay mucha información, pero gran parte está desordenada, como suele ocurrir con los datos extraídos de Internet.
En concreto, la lista de ingredientes está en formato de cadena; vamos a tener que extraer cuidadosamente la información que nos interesa.
Empecemos por examinar más detenidamente los ingredientes:

In [None]:
recipes.ingredients.str.len().describe()

Las listas de ingredientes tienen una longitud media de 250 caracteres, con un mínimo de 0 y un máximo de casi 10.000.

Por curiosidad, veamos qué receta tiene la lista de ingredientes más larga:

In [None]:
recipes.name[np.argmax(recipes.ingredients.str.len())]

Desde luego parece una receta complicada.

Podemos hacer otras exploraciones agregadas; por ejemplo, veamos cuántas de las recetas son de comida para el desayuno:

In [None]:
recipes.description.str.contains('[Bb]reakfast').sum()

O cuántas de las recetas incluyen la canela como ingrediente:

In [None]:
recipes.ingredients.str.contains('[Cc]innamon').sum()

Incluso podríamos mirar si alguna receta escribe mal el ingrediente como "cinamon":

In [None]:
recipes.ingredients.str.contains('[Cc]inamon').sum()

Este es el tipo de exploración de datos esencial que es posible con las herramientas de cadenas de Pandas.
Es en este tipo de manipulación de datos donde Python realmente destaca.

### Un sencillo recomendador de recetas

Vayamos un poco más lejos, y empecemos a trabajar en un sencillo sistema de recomendación de recetas: dada una lista de ingredientes, encontrar una receta que utilice todos esos ingredientes.
Aunque conceptualmente es sencilla, la tarea se complica por la heterogeneidad de los datos: no es fácil, por ejemplo, extraer una lista limpia de ingredientes de cada fila.
Así que haremos un poco de trampa: empezaremos con una lista de ingredientes comunes, y simplemente buscaremos para ver si están en la lista de ingredientes de cada receta.
Para simplificar, vamos a ceñirnos a las hierbas y especias por el momento:

In [None]:
spice_list = ['salt', 'pepper', 'oregano', 'sage', 'parsley',
              'rosemary', 'tarragon', 'thyme', 'paprika', 'cumin']

A continuación, podemos construir un ``DataFrame`` booleano formado por los valores Verdadero y Falso, que indica si este ingrediente aparece en la lista:

In [None]:
import re
spice_df = pd.DataFrame(dict((spice, recipes.ingredients.str.contains(spice, re.IGNORECASE))
                             for spice in spice_list))
spice_df.head()

Ahora, como ejemplo, digamos que nos gustaría encontrar una receta que utilice perejil, pimentón y estragón.
Podemos calcular esto muy rápidamente usando el método ``query()`` de ``DataFrame``.

In [None]:
selection = spice_df.query('parsley & paprika & tarragon')
len(selection)

Sólo encontramos 10 recetas con esta combinación; utilicemos el índice devuelto por esta selección para descubrir los nombres de las recetas que tienen esta combinación:

In [None]:
recipes.name[selection.index]

Ahora que hemos reducido nuestra selección de recetas en un factor de casi 20.000, estamos en condiciones de tomar una decisión más informada sobre lo que nos gustaría cocinar para la cena.

### Ir más allá con las recetas

Espero que este ejemplo te haya dado una idea de los tipos de operaciones de limpieza de datos que se pueden realizar eficientemente con los métodos de string de Pandas.
Por supuesto, construir un sistema de recomendación de recetas muy robusto requeriría *mucho* más trabajo.
Extraer las listas completas de ingredientes de cada receta sería una parte importante de la tarea; por desgracia, la gran variedad de formatos utilizados hace que este proceso lleve bastante tiempo.
Esto apunta a la verdad de que en la ciencia de datos, la limpieza y manipulación de los datos del mundo real a menudo comprende la mayor parte del trabajo, y Pandas proporciona las herramientas que pueden ayudarle a hacer esto de manera eficiente.

<!--NAVIGATION-->
< [Pivot Tables](8-Pivot_tables.ipynb) | [Trabajar con Time Series](10-Trabajar_con_TimeSeries.ipynb) >
