# Operaciones de cadenas vectorizadas

Una fortaleza de Python es su relativa facilidad para manejar y manipular datos de tipo string (cadenas).
``Pandas`` se basa en esto y proporciona un conjunto completo de *operaciones de cadenas vectorizadas* que se convierten en una pieza esencial del tipo de manipulación necesaria cuando se trabaja con (limpieza) datos del mundo real.
En esta sección, analizaremos algunas de las operaciones de cadenas de Pandas y luego veremos cómo usarlas para limpiar parcialmente un conjunto de datos muy desordenado de recetas recopiladas de Internet.

## Presentamos las operaciones de cadenas de Pandas

Vimos en secciones anteriores cómo herramientas como ``NumPy`` y ``Pandas`` generalizan operaciones aritméticas para que podamos realizar fácil y rápidamente la misma operación en muchos elementos de una matriz. Por ejemplo:

In [1]:
import numpy as np
x = np.array([2, 3, 5, 7, 11, 13])
x * 2

array([ 4,  6, 10, 14, 22, 26])

Esta *vectorización* de operaciones simplifica la sintaxis de operar con matrices de datos: ya no tenemos que preocuparnos por el tamaño o la forma de la matriz, sino solo por qué operación queremos que se realice.
Para matrices de cadenas, ``NumPy`` no proporciona un acceso tan simple y, por lo tanto, no puede utilizar una sintaxis de bucle más detallada:

In [2]:
data = ['peter', 'Paul', 'MARY', 'gUIDO']
[s.capitalize() for s in data]

['Peter', 'Paul', 'Mary', 'Guido']

Quizás esto sea suficiente para trabajar con algunos datos, pero se interrumpirá si falta algún valor.
Por ejemplo:

In [9]:
data = ['peter', 'Paul', None, 'MARY', 'gUIDO', '123']
[s.capitalize() for s in data]

AttributeError: 'NoneType' object has no attribute 'capitalize'

Pandas incluye características para abordar tanto esta necesidad de operaciones de cadenas vectorizadas como para manejar correctamente los datos faltantes a través del atributo **``str`` de los objetos de índice y serie de ``Pandas``** que contienen cadenas.
Entonces, por ejemplo, supongamos que creamos una serie ``Pandas`` con estos datos:

In [10]:
import pandas as pd
names = pd.Series(data)
names

0    peter
1     Paul
2     None
3     MARY
4    gUIDO
5      123
dtype: object

Ahora podemos llamar a un método único que pondrá en mayúscula todas las entradas, y omitirá los valores faltantes:

In [11]:
names.str.capitalize()

0    Peter
1     Paul
2     None
3     Mary
4    Guido
5      123
dtype: object

Al utilizar la función de tabulación en este atributo ``str`` se enumerarán todos los métodos de cadena vectorizados disponibles para ``Pandas``.

## Tablas de métodos de cadenas de ``Pandas``

Si tiene un buen conocimiento de la manipulación de cadenas en Python, la mayor parte de la sintaxis de cadenas de ``Pandas`` es lo suficientemente intuitiva como para que probablemente sea suficiente enumerar una tabla de métodos disponibles; Comenzaremos con eso aquí, antes de profundizar en algunas de las sutilezas.
Los ejemplos de esta sección utilizan la siguiente serie de nombres:

In [17]:
monte = pd.Series(['Graham Chapman', 'John Cleese', 'Terry Gilliam',
                   'Eric Idle', 'Terry Jones', 'Michael Palin'])

### Métodos similares a los métodos de cadena de Python
Casi todos los métodos de cadena integrados de Python se reflejan en un método de cadena vectorizado de ``Pandas``. Aquí hay una lista de métodos ``str`` de ``Pandas`` que reflejan los métodos de cadena de Python:

|             |                  |                  |                  |
|-------------|------------------|------------------|------------------|
|``len()``    | ``lower()``      | ``translate()``  | ``islower()``    | 
|``ljust()``  | ``upper()``      | ``startswith()`` | ``isupper()``    | 
|``rjust()``  | ``find()``       | ``endswith()``   | ``isnumeric()``  | 
|``center()`` | ``rfind()``      | ``isalnum()``    | ``isdecimal()``  | 
|``zfill()``  | ``index()``      | ``isalpha()``    | ``split()``      | 
|``strip()``  | ``rindex()``     | ``isdigit()``    | ``rsplit()``     | 
|``rstrip()`` | ``capitalize()`` | ``isspace()``    | ``partition()``  | 
|``lstrip()`` |  ``swapcase()``  |  ``istitle()``   | ``rpartition()`` |

Observe que estos tienen varios valores de retorno. Algunos, como ``lower()``, devuelven una serie de cadenas:

In [18]:
monte.str.lower()

0    graham chapman
1       john cleese
2     terry gilliam
3         eric idle
4       terry jones
5     michael palin
dtype: object

Pero algunos otros devuelven números:

In [19]:
monte.str.len()

0    14
1    11
2    13
3     9
4    11
5    13
dtype: int64

O valores ``boolean``os:

In [22]:
monte.str.startswith('T')

0    False
1    False
2     True
3    False
4     True
5    False
dtype: bool

Otros devuelven listas u otros valores compuestos para cada elemento:

In [23]:
monte.str.split()

0    [Graham, Chapman]
1       [John, Cleese]
2     [Terry, Gilliam]
3         [Eric, Idle]
4       [Terry, Jones]
5     [Michael, Palin]
dtype: object

Veremos más manipulaciones de este tipo de objeto de serie de listas a medida que continuemos nuestra discusión.

### Métodos que utilizan expresiones regulares.

Además, existen varios métodos que aceptan expresiones regulares para examinar el contenido de cada elemento de cadena y siguen algunas de las convenciones API del módulo ``re`` integrado de Python:

| Método         | Descripción                                                                                                   |
|----------------|---------------------------------------------------------------------------------------------------------------|
| ``match()``    | Se aplica ``re.match()`` sobre la cadena, devuelve un booleano.                                               |
| ``extract()``  | Se aplica ``re.match()`` sobre la cadena, devuelve los grupos emparejados en formato string.                  |
| ``findall()``  | Se aplica ``re.findall()`` sobre la cadena, devuelve una lista con todos los patrones iguales encontrados.    |
| ``replace()``  | Reemplaza una subcadena (patron) por otro.                                                                    |
| ``contains()`` | Se aplica ``re.search()`` sobre la cadena, devolviendo un booleano.                                           |
| ``count()``    | Frecuencia de la subcadena indicada.                                                                          |
| ``split()``    | Se aplica ``re.split()`` sobre la cadena. Equivalente a ``str.split()``, pero acepta expresiones regulares.   |
| ``rsplit()``   | Se aplica ``re.rsplit()`` sobre la cadena. Equivalente a ``str.rsplit()``, pero acepta expresiones regulares. |

**Nota:** las expresiones regulares las veremos en el tema de *Feature Engineering*, al final de este módulo. Si se desea consultar información al respecto, visite la [documentación oficial](https://docs.python.org/3/library/re.html).  

Con ellos podrás realizar una amplia gama de operaciones interesantes.
Por ejemplo, podemos extraer el nombre de cada uno solicitando un grupo contiguo de caracteres al principio de cada elemento:

In [24]:
monte

0    Graham Chapman
1       John Cleese
2     Terry Gilliam
3         Eric Idle
4       Terry Jones
5     Michael Palin
dtype: object

In [25]:
monte.str.extract('([A-Za-z]+)', expand=False)
# busca la primera palabra que empiece con mayuscula y
# termine con minuscula

0     Graham
1       John
2      Terry
3       Eric
4      Terry
5    Michael
dtype: object

O podemos hacer algo más complicado, como encontrar todos los nombres que comienzan y terminan con una consonante, haciendo uso de las funciones regulares de inicio de cadena (``^``) y fin de cadena (``$``). caracteres de expresión:

In [27]:
monte.str.findall(r'^[^AEIOU].*[^aeiou]$')

0    [Graham Chapman]
1                  []
2     [Terry Gilliam]
3                  []
4       [Terry Jones]
5     [Michael Palin]
dtype: object

La capacidad de aplicar de manera concisa expresiones regulares en entradas de ``Series`` o ``Dataframe`` abre muchas posibilidades para el análisis y la limpieza de datos.

### Miscelanea de métodos
Finalmente, existen algunos métodos diversos que permiten otras operaciones convenientes:

| Método              | Descripción                                                                          |
|---------------------|--------------------------------------------------------------------------------------|
| ``get()``           | Indexa cada elemento.                                                                |
| ``slice()``         | Corta cada elemento.                                                                 |
| ``slice_replace()`` | Reemplaza el intervalo seleccionada en cada cadena por un valor nueva.               |
| ``cat()``           | Concatena cadenas.                                                                   |
| ``repeat()``        | Repitición de valores.                                                               |
| ``normalize()``     | Devuelve la forma Unicode de una cadena.                                             | 
| ``pad()``           | Agrega espacios en blanco a la izquierda, a la derecha o a ambos lados de la cadena. |
| ``wrap()``          | Dividir cadenas largas en líneas con una longitud menor que un ancho determinado.    |
| ``join()``          | Une los elementos de una cadena de una Serie mediante un separador determinado.      |
| ``get_dummies()``   | Crea variables dummy en formato DataFrame.                                           |

#### Acceso y corte de elementos vectorizados

Las operaciones ``get()`` y ``slice()``, en particular, permiten el acceso a elementos vectorizados desde cada matriz.
Por ejemplo, podemos obtener una porción de los primeros tres caracteres de cada matriz usando ``str.slice(0, 3)``.
Tenga en cuenta que este comportamiento también está disponible a través de la sintaxis de indexación normal de Python; por ejemplo, ``df.str.slice(0, 3)`` es equivalente a ``df.str[0:3]``:

In [28]:
monte.str[0:3]

0    Gra
1    Joh
2    Ter
3    Eri
4    Ter
5    Mic
dtype: object

La indexación mediante ``df.str.get(i)`` y ``df.str[i]`` es igualmente similar.

Estos métodos ``get()`` y ``slice()`` también le permiten acceder a elementos de matrices devueltas por ``split()``.
Por ejemplo, para extraer el segundo nombre de cada entrada, podemos combinar ``split()`` y ``get()``:

In [32]:
monte.str.split()

0    [Graham, Chapman]
1       [John, Cleese]
2     [Terry, Gilliam]
3         [Eric, Idle]
4       [Terry, Jones]
5     [Michael, Palin]
dtype: object

In [34]:
monte.str.split().str.get(-1)

0    Chapman
1     Cleese
2    Gilliam
3       Idle
4      Jones
5      Palin
dtype: object

#### Variables indicadoras

Otro método que requiere un poco de explicación adicional es el método ``get_dummies()``.
Esto es útil cuando sus datos tienen una columna que contiene algún tipo de indicador codificado.
Por ejemplo, podríamos tener un conjunto de datos que contenga información en forma de códigos, como A="nacido en Estados Unidos", B="nacido en el Reino Unido", C="le gusta el queso", D="le gusta el spam":

In [31]:
full_monte = pd.DataFrame({'name': monte,
                           'info': ['B|C|D', 'B|D', 'A|C',
                                    'B|D', 'B|C', 'B|C|D']})
full_monte

Unnamed: 0,name,info
0,Graham Chapman,B|C|D
1,John Cleese,B|D
2,Terry Gilliam,A|C
3,Eric Idle,B|D
4,Terry Jones,B|C
5,Michael Palin,B|C|D


La función ``get_dummies()`` le permite dividir rápidamente estas variables indicadoras en un ``DataFrame``:

In [35]:
full_monte['info'].str.get_dummies('|')
# obtengo dataframe con variables binarias

Unnamed: 0,A,B,C,D
0,0,1,1,1
1,0,1,0,1
2,1,0,1,0
3,0,1,0,1
4,0,1,1,0
5,0,1,1,1


In [36]:
full_monte['name'].str.get_dummies()

Unnamed: 0,Eric Idle,Graham Chapman,John Cleese,Michael Palin,Terry Gilliam,Terry Jones
0,0,1,0,0,0,0
1,0,0,1,0,0,0
2,0,0,0,0,1,0
3,1,0,0,0,0,0
4,0,0,0,0,0,1
5,0,0,0,1,0,0


In [37]:
full_monte['name'].str.get_dummies(' ')

Unnamed: 0,Chapman,Cleese,Eric,Gilliam,Graham,Idle,John,Jones,Michael,Palin,Terry
0,1,0,0,0,1,0,0,0,0,0,0
1,0,1,0,0,0,0,1,0,0,0,0
2,0,0,0,1,0,0,0,0,0,0,1
3,0,0,1,0,0,1,0,0,0,0,0
4,0,0,0,0,0,0,0,1,0,0,1
5,0,0,0,0,0,0,0,0,1,1,0


Con estas operaciones como componentes básicos, puede construir una gama infinita de procedimientos de procesamiento de cadenas al limpiar sus datos.

No profundizaremos más en estos métodos aquí, pero le recomiendo que lea ["Trabajar con datos de texto"](http://pandas.pydata.org/pandas-docs/stable/text.html) en Pandas. documentación en línea.