# Vectorized String Operations

One strength of Python is its relative ease in handling and manipulating string data.
Pandas builds on this and provides a comprehensive set of *vectorized string operations* that become an essential piece of the type of munging required when working with (read: cleaning up) real-world data.
In this section, we'll walk through some of the Pandas string operations, and then take a look at using them to partially clean up a very messy dataset of recipes collected from the Internet.

---

Una fortaleza de Python es su relativa facilidad para manejar y manipular datos de cadenas.
Pandas se basa en esto y proporciona un conjunto completo de * operaciones de cadena vectorizadas * que se convierten en una pieza esencial del tipo de munging requerido cuando se trabaja con (léase: limpieza) datos del mundo real.
En esta sección, analizaremos algunas de las operaciones de cadena de Pandas y luego veremos cómo usarlas para limpiar parcialmente un conjunto de datos muy desordenado de recetas recopiladas de Internet.

## Introducing Pandas String Operations

We saw in previous sections how tools like NumPy and Pandas generalize arithmetic operations so that we can easily and quickly perform the same operation on many array elements. For example:

---

Vimos en secciones anteriores cómo herramientas como NumPy y Pandas generalizan operaciones aritméticas para que podamos realizar fácil y rápidamente la misma operación en muchos elementos de la matriz. Por ejemplo:

In [4]:
import numpy as np
x = np.array([2, 3, 5, 7, 11, 13])
x * 2

array([ 4,  6, 10, 14, 22, 26])

This *vectorization* of operations simplifies the syntax of operating on arrays of data: we no longer have to worry about the size or shape of the array, but just about what operation we want done.
For arrays of strings, NumPy does not provide such simple access, and thus you're stuck using a more verbose loop syntax:

---

Esta * vectorización * de operaciones simplifica la sintaxis de operar en arreglos de datos: ya no tenemos que preocuparnos por el tamaño o la forma del arreglo, sino solo por la operación que queremos que se haga.
Para matrices de cadenas, NumPy no proporciona un acceso tan simple y, por lo tanto, está atascado con una sintaxis de bucle más detallada:

In [5]:
data = ['peter', 'Paul', 'MARY', 'gUIDO']
[s.capitalize() for s in data]

['Peter', 'Paul', 'Mary', 'Guido']

This is perhaps sufficient to work with some data, but it will break if there are any missing values.
For example:

---

Quizás esto sea suficiente para trabajar con algunos datos, pero se romperá si faltan valores. Por ejemplo:

In [6]:
data = ['peter', 'Paul', None, 'MARY', 'gUIDO']
[s.capitalize() for s in data]

AttributeError: 'NoneType' object has no attribute 'capitalize'

Pandas includes features to address both this need for vectorized string operations and for correctly handling missing data via the ``str`` attribute of Pandas Series and Index objects containing strings.
So, for example, suppose we create a Pandas Series with this data:

---

Pandas incluye características para abordar tanto esta necesidad de operaciones de cadenas vectorizadas como para manejar correctamente los datos faltantes a través del atributo ``str`` de los objetos de la serie Pandas y del índice que contienen cadenas. Entonces, por ejemplo, supongamos que creamos una serie Pandas con estos datos:

In [7]:
import pandas as pd
names = pd.Series(data)
names

0    peter
1     Paul
2     None
3     MARY
4    gUIDO
dtype: object

We can now call a single method that will capitalize all the entries, while skipping over any missing values:

---


Ahora podemos llamar a un solo método que capitalizará todas las entradas, mientras se saltan los valores faltantes:

In [8]:
names.str.capitalize()

0    Peter
1     Paul
2     None
3     Mary
4    Guido
dtype: object

Using tab completion on this ``str`` attribute will list all the vectorized string methods available to Pandas.

---

El uso de la terminación de tabulación en este atributo ``str`` enumerará todos los métodos de cadena vectorizados disponibles para Pandas.

## Tables of Pandas String Methods

If you have a good understanding of string manipulation in Python, most of Pandas string syntax is intuitive enough that it's probably sufficient to just list a table of available methods; we will start with that here, before diving deeper into a few of the subtleties.
The examples in this section use the following series of names:

---

Si tiene un buen conocimiento de la manipulación de cadenas en Python, la mayor parte de la sintaxis de cadenas de Pandas es lo suficientemente intuitiva como para que sea suficiente con enumerar una tabla de métodos disponibles; Empezaremos con eso aquí, antes de profundizar en algunas de las sutilezas. Los ejemplos de esta sección utilizan la siguiente serie de nombres:

In [9]:
monte = pd.Series(['Graham Chapman', 'John Cleese', 'Terry Gilliam',
                   'Eric Idle', 'Terry Jones', 'Michael Palin'])

### Methods similar to Python string methods
Nearly all Python's built-in string methods are mirrored by a Pandas vectorized string method. Here is a list of Pandas ``str`` methods that mirror Python string methods:

---

Casi todos los métodos de cadena integrados de Python se reflejan en un método de cadena vectorizado de Pandas. Aquí hay una lista de métodos str de Pandas que reflejan los métodos de string de Python:

|             |                  |                  |                  |
|-------------|------------------|------------------|------------------|
|``len()``    | ``lower()``      | ``translate()``  | ``islower()``    | 
|``ljust()``  | ``upper()``      | ``startswith()`` | ``isupper()``    | 
|``rjust()``  | ``find()``       | ``endswith()``   | ``isnumeric()``  | 
|``center()`` | ``rfind()``      | ``isalnum()``    | ``isdecimal()``  | 
|``zfill()``  | ``index()``      | ``isalpha()``    | ``split()``      | 
|``strip()``  | ``rindex()``     | ``isdigit()``    | ``rsplit()``     | 
|``rstrip()`` | ``capitalize()`` | ``isspace()``    | ``partition()``  | 
|``lstrip()`` |  ``swapcase()``  |  ``istitle()``   | ``rpartition()`` |

Notice that these have various return values. Some, like ``lower()``, return a series of strings:

---

Tenga en cuenta que estos tienen varios valores de retorno. Algunos, como ``lower()``, devuelven una serie de cadenas:

In [9]:
monte.str.lower()

0    graham chapman
1       john cleese
2     terry gilliam
3         eric idle
4       terry jones
5     michael palin
dtype: object

But some others return numbers:

In [10]:
monte.str.len()

0    14
1    11
2    13
3     9
4    11
5    13
dtype: int64

Or Boolean values:

In [11]:
monte.str.startswith('T')

0    False
1    False
2     True
3    False
4     True
5    False
dtype: bool

Still others return lists or other compound values for each element:

---

Otros devuelven listas u otros valores compuestos para cada elemento:

In [22]:
monte.str.split()

0    [Graham, Chapman]
1       [John, Cleese]
2     [Terry, Gilliam]
3         [Eric, Idle]
4       [Terry, Jones]
5     [Michael, Palin]
dtype: object

We'll see further manipulations of this kind of series-of-lists object as we continue our discussion.

---


Veremos más manipulaciones de este tipo de objeto de serie de listas a medida que continuamos nuestra discusión.

### Methods using regular expressions

In addition, there are several methods that accept regular expressions to examine the content of each string element, and follow some of the API conventions of Python's built-in ``re`` module:

---

Además, existen varios métodos que aceptan expresiones regulares para examinar el contenido de cada elemento de cadena y siguen algunas de las convenciones de la API del módulo ``re`` integrado de Python:

| Method | Description |
|--------|-------------|
| ``match()`` | Call ``re.match()`` on each element, returning a boolean. |
| ``extract()`` | Call ``re.match()`` on each element, returning matched groups as strings.|
| ``findall()`` | Call ``re.findall()`` on each element |
| ``replace()`` | Replace occurrences of pattern with some other string|
| ``contains()`` | Call ``re.search()`` on each element, returning a boolean |
| ``count()`` | Count occurrences of pattern|
| ``split()``   | Equivalent to ``str.split()``, but accepts regexps |
| ``rsplit()`` | Equivalent to ``str.rsplit()``, but accepts regexps |

---
| Method | Description |
|--------|-------------|
| ``match ()`` | Llame a ``re.match()`` en cada elemento, devolviendo un booleano. |
| ``extract()`` | Llame a ``re.match()`` en cada elemento, devolviendo grupos coincidentes como cadenas.
| ``findall()`` | Llame a ``re.findall()`` en cada elemento |
| ``replace()`` | Reemplazar ocurrencias de patrón con alguna otra cadena |
| ``contains()`` | Llame a ``re.search()`` en cada elemento, devolviendo un booleano |
| ``count()`` | Contar ocurrencias de patrón|
| ``split()`` | Equivalente a ``str.split()``, pero acepta expresiones regulares |
| ``rsplit()``| Equivalente a ``str.rsplit()``, pero acepta expresiones regulares |

With these, you can do a wide range of interesting operations.
For example, we can extract the first name from each by asking for a contiguous group of characters at the beginning of each element:

---


Con estos, puede realizar una amplia gama de operaciones interesantes. Por ejemplo, podemos extraer el nombre de cada uno pidiendo un grupo contiguo de caracteres al comienzo de cada elemento:

In [25]:
monte.str.extract('([A-Za-z]+)', expand= )

0     Graham
1       John
2      Terry
3       Eric
4      Terry
5    Michael
dtype: object

Or we can do something more complicated, like finding all names that start and end with a consonant, making use of the start-of-string (``^``) and end-of-string (``$``) regular expression characters:

---


O podemos hacer algo más complicado, como encontrar todos los nombres que comienzan y terminan con una consonante, haciendo uso de los caracteres de expresión regular de inicio de cadena (``^``) y final de cadena (``$``):

In [26]:
monte.str.findall(r'^[^AEIOU].*[^aeiou]$')

0    [Graham Chapman]
1                  []
2     [Terry Gilliam]
3                  []
4       [Terry Jones]
5     [Michael Palin]
dtype: object

The ability to concisely apply regular expressions across ``Series`` or ``Dataframe`` entries opens up many possibilities for analysis and cleaning of data.

---

La capacidad de aplicar de manera concisa expresiones regulares en las entradas de ``Series`` o ``Dataframe`` abre muchas posibilidades para el análisis y la limpieza de datos.

### Miscellaneous methods
Finally, there are some miscellaneous methods that enable other convenient operations:

| Method | Description |
|--------|-------------|
| ``get()`` | Index each element |
| ``slice()`` | Slice each element|
| ``slice_replace()`` | Replace slice in each element with passed value|
| ``cat()``      | Concatenate strings|
| ``repeat()`` | Repeat values |
| ``normalize()`` | Return Unicode form of string |
| ``pad()`` | Add whitespace to left, right, or both sides of strings|
| ``wrap()`` | Split long strings into lines with length less than a given width|
| ``join()`` | Join strings in each element of the Series with passed separator|
| ``get_dummies()`` | extract dummy variables as a dataframe |

#### Vectorized item access and slicing

The ``get()`` and ``slice()`` operations, in particular, enable vectorized element access from each array.
For example, we can get a slice of the first three characters of each array using ``str.slice(0, 3)``.
Note that this behavior is also available through Python's normal indexing syntax–for example, ``df.str.slice(0, 3)`` is equivalent to ``df.str[0:3]``:

---

Las operaciones ``get()`` y ``slice()``, en particular, permiten el acceso a elementos vectorizados desde cada matriz. Por ejemplo, podemos obtener una porción de los primeros tres caracteres de cada matriz usando ``str.slice(0, 3)``. Tenga en cuenta que este comportamiento también está disponible a través de la sintaxis de indexación normal de Python; por ejemplo, ``df.str.slice(0, 3)`` es equivalente a ``df.str[0:3]``:

In [15]:
monte.str[0:3]

0    Gra
1    Joh
2    Ter
3    Eri
4    Ter
5    Mic
dtype: object

Indexing via ``df.str.get(i)`` and ``df.str[i]`` is likewise similar.

These ``get()`` and ``slice()`` methods also let you access elements of arrays returned by ``split()``.
For example, to extract the last name of each entry, we can combine ``split()`` and ``get()``:

---

La indexación a través de ``df.str.get(i)`` y ``df.str[i]`` es igualmente similar.

Estos métodos ``get()`` y ``slice()``  también le permiten acceder a elementos de matrices devueltos por ``split()``. Por ejemplo, para extraer el apellido de cada entrada, podemos combinar ``split()`` y ``get()``:

In [29]:
monte.str.split()

0    [Graham, Chapman]
1       [John, Cleese]
2     [Terry, Gilliam]
3         [Eric, Idle]
4       [Terry, Jones]
5     [Michael, Palin]
dtype: object

In [16]:
monte.str.split().str.get(-1)

0    Chapman
1     Cleese
2    Gilliam
3       Idle
4      Jones
5      Palin
dtype: object

#### Indicator variables

Another method that requires a bit of extra explanation is the ``get_dummies()`` method.
This is useful when your data has a column containing some sort of coded indicator.
For example, we might have a dataset that contains information in the form of codes, such as A="born in America," B="born in the United Kingdom," C="likes cheese," D="likes spam":

---

Otro método que requiere un poco de explicación adicional es el método ``get_dummies()``. Esto es útil cuando sus datos tienen una columna que contiene algún tipo de indicador codificado. Por ejemplo, podríamos tener un conjunto de datos que contenga información en forma de códigos, como A = "nacido en Estados Unidos," B = "nacido en el Reino Unido," C = "le gusta el queso," D = "le gusta el spam". :

In [31]:
full_monte = pd.DataFrame({'name': monte,
                           'info': ['B|C|D', 'B|D', 'A|C',
                                    'B|D', 'B|C'
                                    ,'B|C|D']})
full_monte

Unnamed: 0,name,info
0,Graham Chapman,B|C|D
1,John Cleese,B|D
2,Terry Gilliam,A|C
3,Eric Idle,B|D
4,Terry Jones,B|C
5,Michael Palin,B|C|D


The ``get_dummies()`` routine lets you quickly split-out these indicator variables into a ``DataFrame``:

---

La rutina ``get_dummies()`` le permite dividir rápidamente estas variables indicadoras en un ``DataFrame``:

In [32]:
full_monte['info']

0    B|C|D
1      B|D
2      A|C
3      B|D
4      B|C
5    B|C|D
Name: info, dtype: object

In [18]:
full_monte['info'].str.get_dummies('|')

Unnamed: 0,A,B,C,D
0,0,1,1,1
1,0,1,0,1
2,1,0,1,0
3,0,1,0,1
4,0,1,1,0
5,0,1,1,1


With these operations as building blocks, you can construct an endless range of string processing procedures when cleaning your data.

We won't dive further into these methods here, but I encourage you to read through ["Working with Text Data"](http://pandas.pydata.org/pandas-docs/stable/text.html) in the Pandas online documentation, or to refer to the resources listed in [Further Resources](03.13-Further-Resources.ipynb).

---

Con estas operaciones como bloques de construcción, puede construir una gama infinita de procedimientos de procesamiento de cadenas al limpiar sus datos.

No profundizaremos más en estos métodos aquí, pero te animo a que leas ["Trabajar con datos de texto"](http://pandas.pydata.org/pandas-docs/stable/text.html) en la documentación en línea de Pandas o que consultes los recursos enumerados en [Recursos adicionales](03.13-Further-Resources.ipynb)

## When you finish this, start with the exercise: 

#### "Data wrangling with Json.ipynb"