# Operaciones con cadenas vectorizadas

Uno de los puntos fuertes de Python es su relativa facilidad para manejar y manipular datos de cadenas.
Pandas lo tiene como uno de sus pilares y proporciona un conjunto completo de *operaciones vectoriales de cadenas* que se convierten en una pieza esencial del tipo de manipulación necesaria cuando se trabaja con datos del mundo real.
En esta sección, recorreremos algunas de las operaciones de cadena de Pandas, y luego echaremos un vistazo a su uso para limpiar parcialmente un conjunto de datos muy desordenado de recetas recogidas de Internet.

## Introduciendo las operaciones de cadena de texto de Pandas

Hemos visto en secciones anteriores cómo herramientas como NumPy y Pandas generalizan las operaciones aritméticas para que podamos realizar fácil y rápidamente la misma operación en muchos elementos de un array. Por ejemplo:

In [1]:
import numpy as np
x = np.array([2, 3, 5, 7, 11, 13])
x * 2

array([ 4,  6, 10, 14, 22, 26])

Esta *vectorización* de las operaciones simplifica la sintaxis para operar con matrices de datos: ya no tenemos que preocuparnos por el tamaño o la forma de la matriz, sino sólo por la operación que queremos realizar.
Para matrices de cadenas de texto, NumPy no proporciona un acceso tan simple, y por lo tanto terminados algo atrapados, limitados a usar una sintaxis de bucle más compleja:

In [5]:
data = ['peter', 'Paul', 'MARY', 'gUIDO']
[s.capitalize() for s in data]

['Peter', 'Paul', 'Mary', 'Guido']

Esto puede ser suficiente para trabajar con pocos datos, pero no funcionará si hay valores que faltan.
Por ejemplo:

In [6]:
data = ['peter', 'Paul', None, 'MARY', 'gUIDO']
[s.capitalize() for s in data]

AttributeError: 'NoneType' object has no attribute 'capitalize'

Pandas incluye funcionalidades para hacer frente tanto a esta necesidad de operaciones vectorizadas de cadenas de texto, como para manejar correctamente los datos que faltan a través del atributo **``str`` de los objetos de Series e Índices de Pandas** que contienen cadenas de texto.


In [7]:
import pandas as pd
names = pd.Series(data)
names

0    peter
1     Paul
2     None
3     MARY
4    gUIDO
dtype: object

Ahora podemos llamar a un único método que pondrá en mayúsculas todas las entradas, saltándose los valores que falten:

In [8]:
names.str.capitalize()

0    Peter
1     Paul
2     None
3     Mary
4    Guido
dtype: object

Usando el tabulador en este atributo ``str`` se listarán todos los métodos vectoriales de cadena disponibles en Pandas.

## Métodos de cadena de texto de Pandas

Si tienes una buena comprensión de la manipulación de cadenas en Python, la mayor parte de la sintaxis de cadenas de texto de Pandas es lo suficientemente intuitiva como para que probablemente sea suficiente con listar una tabla de métodos disponibles; empezaremos con eso, antes de profundizar en algunas de las sutilezas.
Los ejemplos de esta sección utilizan la siguiente serie de nombres:

In [9]:
monte = pd.Series(['Graham Chapman', 'John Cleese', 'Terry Gilliam',
                   'Eric Idle', 'Terry Jones', 'Michael Palin'])

### Métodos similares de Python para el tratamiento de cadenas de texto
Casi todos los métodos de cadena de texto incorporados en Python se reflejan en un método de cadena vectorizado de Pandas. Aquí hay una lista de métodos ``str`` de Pandas que reflejan los métodos de cadena de texto de Python:

|             |                  |                  |                  |
|-------------|------------------|------------------|------------------|
|``len()``    | ``lower()``      | ``translate()``  | ``islower()``    | 
|``ljust()``  | ``upper()``      | ``startswith()`` | ``isupper()``    | 
|``rjust()``  | ``find()``       | ``endswith()``   | ``isnumeric()``  | 
|``center()`` | ``rfind()``      | ``isalnum()``    | ``isdecimal()``  | 
|``zfill()``  | ``index()``      | ``isalpha()``    | ``split()``      | 
|``strip()``  | ``rindex()``     | ``isdigit()``    | ``rsplit()``     | 
|``rstrip()`` | ``capitalize()`` | ``isspace()``    | ``partition()``  | 
|``lstrip()`` |  ``swapcase()``  |  ``istitle()``   | ``rpartition()`` |

Date cuenta que tienen varios valores de retorno/return. Algunos, como ``lower()``, devuelven una serie de cadenas:

In [10]:
monte.str.lower()

0    graham chapman
1       john cleese
2     terry gilliam
3         eric idle
4       terry jones
5     michael palin
dtype: object

Pero otras devuelven números:

In [11]:
monte.str.len()

0    14
1    11
2    13
3     9
4    11
5    13
dtype: int64

O valores booleanos:

In [12]:
monte.str.startswith('t')

0    False
1    False
2    False
3    False
4    False
5    False
dtype: bool

Otros devuelven listas u otros valores compuestos para cada elemento:

In [13]:
monte.str.split()

0    [Graham, Chapman]
1       [John, Cleese]
2     [Terry, Gilliam]
3         [Eric, Idle]
4       [Terry, Jones]
5     [Michael, Palin]
dtype: object

Veremos más tipos de manipulaciones para este tipo de objeto serie-de-listas a medida que vayamos viendo cosas nuevas.

###  Métodos que utilizan expresiones regulares

Además, hay varios métodos que aceptan expresiones regulares para examinar el contenido de cada elemento de cadena de texto, vamos a ver los métodos incorporado ``re`` de Python:

| Método | Descripción |
|--------|-------------|
| ``match()`` | Llama a ``re.match()`` en cada elemento, devolviendo un booleano. |
| ``extract()`` | Llama a ``re.match()`` en cada elemento, devolviendo los grupos coincidentes como cadenas de texto.|
| ``findall()`` | Llama a ``re.findall()`` en cada elemento. |
| ``replace()`` | Reemplazar las apariciones de un patrón por otra cadena. |
| ``contains()`` | Llama a ``re.search()`` en cada elemento, devolviendo un booleano. |
| ``count()`` | Cuenta ocurrencias del patrón |
| ``split()``   | Es equivalente a ``str.split()``, pero acepta expresiones regulares. |
| ``rsplit()`` | Equivale a ``str.rsplit()``, pero acepta expresiones regulares. |

Con ellas se puede hacer una amplia gama de operaciones interesantes.
Por ejemplo, podemos extraer el primer nombre de cada pidiendo un grupo contiguo de caracteres al principio de cada elemento:

In [14]:
monte

0    Graham Chapman
1       John Cleese
2     Terry Gilliam
3         Eric Idle
4       Terry Jones
5     Michael Palin
dtype: object

In [16]:
monte.str.extract('([A-Za-z]+)', expand=False) #BUSCA LAS LETRAS DE MAYUSCULA A MINUSCULA. Para cuando encuentra un espacio

0     Graham
1       John
2      Terry
3       Eric
4      Terry
5    Michael
dtype: object

O podemos hacer algo más complicado, como buscar todos los nombres que empiecen y acaben por consonante, haciendo uso de los caracteres de expresión regular de inicio de cadena de texto (``^``) y final de cadena de texto (``$``):

In [17]:
monte

0    Graham Chapman
1       John Cleese
2     Terry Gilliam
3         Eric Idle
4       Terry Jones
5     Michael Palin
dtype: object

In [18]:
monte.str.findall(r'^[^AEIOU].*[^aeiou]$') #Se carga las que empiezan o acaban en vocal

0    [Graham Chapman]
1                  []
2     [Terry Gilliam]
3                  []
4       [Terry Jones]
5     [Michael Palin]
dtype: object

La posibilidad de aplicar expresiones regulares de forma concisa a las elementos de ``Series`` o ``Dataframe`` abre muchas posibilidades para el análisis y la limpieza de datos.

### Métodos extras
Finalmente, hay algunos métodos que permiten otras operaciones interesantes:

| Métodos | Descripción |
|--------|-------------|
| ``get()`` | Indexar cada elemento |
| ``slice()`` | Rebanar cada elemento |
| ``slice_replace()`` | Reemplazar trozo en cada elemento con el valor pasado |
| ``cat()``      | Concatenar cadenas |
| ``repeat()`` | Repetir valores |
| ``normalize()`` | Devuelve la forma Unicode de la cadena |
| ``pad()`` | Añadir espacios en blanco a la izquierda, derecha o ambos lados de las cadenas. |
| ``wrap()`` | Dividir cadenas largas en líneas de longitud inferior a una anchura determinada. |
| ``join()`` | Unir cadenas en cada elemento de la serie con el separador pasado. |
| ``get_dummies()`` | Extraer variables ficticias como un marco de datos. |

#### Acceso y troceado de elementos vectorizados

Las operaciones ``get()`` y ``slice()``, en particular, permiten el acceso vectorizado a elementos de cada array.
Por ejemplo, podemos obtener los tres primeros caracteres de cada matriz utilizando ``str.slice(0, 3)``.
Date cuenta que este comportamiento también está disponible a través de la sintaxis normal de Python, por ejemplo, ``df.str.slice(0, 3)`` es equivalente a ``df.str[0:3]``:

In [19]:
monte.str[0:3]

0    Gra
1    Joh
2    Ter
3    Eri
4    Ter
5    Mic
dtype: object

La indexación mediante ``df.str.get(i)`` y ``df.str[i]`` también es similar.

Estos métodos ``get()`` y ``slice()`` también permiten acceder a los elementos de las matrices devueltas por ``split()``.
Por ejemplo, para extraer el apellido de cada entrada, podemos combinar ``split()`` y ``get()``:

In [20]:
monte.str.split().str.get(-1)

0    Chapman
1     Cleese
2    Gilliam
3       Idle
4      Jones
5      Palin
dtype: object

#### Variables indicadoras

Otro método que requiere que nos paremos con él es ``get_dummies()``.
Es útil cuando tus datos tienen una columna que contiene algún tipo de indicador codificado.
Por ejemplo, podemos tener un conjunto de datos que contenga información en forma de códigos, como A="nacido en América", B="nacido en el Reino Unido", C="le gusta el queso", D="le gusta el spam":

In [21]:
full_monte = pd.DataFrame({'name': monte,
                           'info': ['B,C,D', 'B,D', 'A,C',
                                    'B,D', 'B,C', 'B,C,D']})
full_monte

Unnamed: 0,name,info
0,Graham Chapman,"B,C,D"
1,John Cleese,"B,D"
2,Terry Gilliam,"A,C"
3,Eric Idle,"B,D"
4,Terry Jones,"B,C"
5,Michael Palin,"B,C,D"


El método de ``get_dummies()`` te permite dividir rápidamente estas variables indicadoras en un ``DataFrame``:

In [None]:
full_monte

In [23]:
full_monte['info'].str.get_dummies(',') #Contabiliza los elementos por comas y los devuelve en una matriz. Ocurrencia o no ocurrencia, O o 1

Unnamed: 0,A,B,C,D
0,0,1,1,1
1,0,1,0,1
2,1,0,1,0
3,0,1,0,1
4,0,1,1,0
5,0,1,1,1


In [24]:
full_monte['info'] = full_monte['info'].str.replace('|','')

In [25]:
pd.get_dummies(full_monte['info'])

Unnamed: 0,"A,C","B,C","B,C,D","B,D"
0,False,False,True,False
1,False,False,False,True
2,True,False,False,False
3,False,False,False,True
4,False,True,False,False
5,False,False,True,False


Con estas operaciones como bloques de construcción, podemos montar una conjunto interminable de procedimientos de procesamiento de cadenas de texto para limpiar datos.

No vamos a profundizar en estos métodos aquí, pero os recomiendo a leer ["Working with Text Data"](http://pandas.pydata.org/pandas-docs/stable/text.html) en la documentación online de Pandas.