# Operaciones Vectorizadas con Strings

Uno de los puntos fuertes de Python es su relativa facilidad para manejar y manipular datos de cadenas.
Pandas se basa en esto y proporciona un conjunto completo de *operaciones vectorizadas de cadenas* que se convierten en una pieza esencial del tipo de manipulación necesaria cuando se trabaja con (léase: limpieza) datos del mundo real.
En esta sección, recorreremos algunas de las operaciones de cadena de Pandas, y luego echaremos un vistazo a su uso para limpiar parcialmente un conjunto de datos muy desordenado de recetas recogidas de Internet.

## Operaciones en Pandas

Hemos visto en secciones anteriores cómo herramientas como NumPy y Pandas generalizan las operaciones aritméticas para que podamos realizar fácil y rápidamente la misma operación en muchos elementos de array. Por ejemplo:

In [1]:
import numpy as np
x = np.array([2, 3, 5, 7, 11, 13])
x * 2

array([ 4,  6, 10, 14, 22, 26])

Esta *vectorización* de las operaciones simplifica la sintaxis para operar con matrices de datos: ya no tenemos que preocuparnos por el tamaño o la forma de la matriz, sino sólo por la operación que queremos realizar.
Para matrices de cadenas, NumPy no proporciona un acceso tan simple, y por lo tanto estás atascado usando una sintaxis de bucle más verbosa:

In [2]:
data = ['peter', 'Paul', 'MARY', 'gUIDO']
[s.capitalize() for s in data]

['Peter', 'Paul', 'Mary', 'Guido']

Esto puede ser suficiente para trabajar con algunos datos, pero se romperá si hay valores perdidos.
Por ejemplo:

In [3]:
data = ['peter', 'Paul', None, 'MARY', 'gUIDO']
[s.capitalize() for s in data]

AttributeError: 'NoneType' object has no attribute 'capitalize'

Pandas incluye características para hacer frente tanto a esta necesidad de operaciones vectorizadas de cadenas como para manejar correctamente los datos que faltan a través del atributo **``str`` de los objetos de Series e Índices de Pandas** que contienen cadenas.
Así, por ejemplo, supongamos que creamos una Serie Pandas con estos datos:

In [4]:
import pandas as pd
names = pd.Series(data)
names

0    peter
1     Paul
2     None
3     MARY
4    gUIDO
dtype: object

Ahora podemos llamar a un único método que pondrá en mayúsculas todas las entradas, saltándose los valores que falten:

In [5]:
names.str.capitalize()

0    Peter
1     Paul
2     None
3     Mary
4    Guido
dtype: object

Usando el tabulador en este atributo ``str`` listará todos los métodos vectorizados de cadena disponibles para Pandas.

## Métodos para cadenas en Series y Dataframes

Si tiene una buena comprensión de la manipulación de cadenas en Python, la mayor parte de la sintaxis de cadenas de Pandas es lo suficientemente intuitiva como para que probablemente sea suficiente con listar una tabla de métodos disponibles; empezaremos con eso aquí, antes de profundizar en algunas de las sutilezas.
Los ejemplos de esta sección utilizan la siguiente serie de nombres:

In [6]:
monte = pd.Series(['Graham Chapman', 'John Cleese', 'Terry Gilliam',
                   'Eric Idle', 'Terry Jones', 'Michael Palin'])

### Métodos similares a los nativos en Python
Casi todos los métodos de cadena incorporados en Python son reflejados por un método de cadena vectorizado de Pandas. Aquí hay una lista de métodos ``str`` de Pandas que reflejan métodos de cadena de Python:
|             |                  |                  |                  |
|-------------|------------------|------------------|------------------|
|``len()``    | ``lower()``      | ``translate()``  | ``islower()``    | 
|``ljust()``  | ``upper()``      | ``startswith()`` | ``isupper()``    | 
|``rjust()``  | ``find()``       | ``endswith()``   | ``isnumeric()``  | 
|``center()`` | ``rfind()``      | ``isalnum()``    | ``isdecimal()``  | 
|``zfill()``  | ``index()``      | ``isalpha()``    | ``split()``      | 
|``strip()``  | ``rindex()``     | ``isdigit()``    | ``rsplit()``     | 
|``rstrip()`` | ``capitalize()`` | ``isspace()``    | ``partition()``  | 
|``lstrip()`` |  ``swapcase()``  |  ``istitle()``   | ``rpartition()`` |

Observa que tienen varios valores de retorno. Algunos, como ``lower()``, devuelven una serie de cadenas:

In [7]:
monte.str.lower()

0    graham chapman
1       john cleese
2     terry gilliam
3         eric idle
4       terry jones
5     michael palin
dtype: object

Pero otros devuelven números:

In [8]:
monte.str.len()

0    14
1    11
2    13
3     9
4    11
5    13
dtype: int64

O valores booleanos:

In [9]:
monte.str.startswith('t')

0    False
1    False
2    False
3    False
4    False
5    False
dtype: bool

Incluso listas:

In [10]:
monte.str.split()

0    [Graham, Chapman]
1       [John, Cleese]
2     [Terry, Gilliam]
3         [Eric, Idle]
4       [Terry, Jones]
5     [Michael, Palin]
dtype: object

# Expresiones regulares

Plantearos ¿cómo rellenamos nuestro correo cuando nos lo piden en un campo?

* 609 609 609 o +34 609609609 o 666-666-666

Cuanto más flexible es el formato más difícil es consolidar la información. Pensad en las direcciones postales...

Las expresiones regulares (llamadas RE, o regex, o patrones de regex) son esencialmente en un lenguaje de programación diminuto y altamente especializado incrustado dentro de Python y disponible a través del módulo re. Usando este pequeño lenguaje, especificas las reglas para el conjunto de cadenas de caracteres posibles que deseas hacer coincidir; este conjunto puede contener frases en inglés, o direcciones de correo electrónico, o comandos TeX, o cualquier cosa que desee. A continuación, puede hacer preguntas como «¿Coincide esta cadena con el patrón?» o «¿Hay alguna coincidencia con el patrón en alguna parte de esta cadena?». También puede utilizar RE para modificar una cadena de caracteres o dividirla de varias formas.

https://docs.python.org/es/3/howto/regex.html

Podemos aprender sobre la sintaxis base aquí: https://docs.python.org/es/3/library/re.html#re-syntax

In [11]:
print('Tabulador sin raw string: \tTabulador')
print(r'Tabulador con raw string: \tTabulador')

Tabulador sin raw string: 	Tabulador
Tabulador con raw string: \tTabulador


In [12]:
import re

p = re.compile(r'\d+') # \d digitos, + indica 1 o más digitos

p.findall('12 drummers drumming, 11 pipers piping, 10 lords a-leaping')

['12', '11', '10']

In [13]:
p = re.compile(r'\d') # \d digitos

p.findall('12 drummers drumming, 11 pipers piping, 10 lords a-leaping')

['1', '2', '1', '1', '1', '0']

In [14]:
p = re.compile("m*") # caracter m, * o o más repeticiones

p.findall('12 drummers drumming, 11 pipers piping, 10 lords a-leaping')

['',
 '',
 '',
 '',
 '',
 '',
 'mm',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 'mm',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '']

In [15]:
p = re.compile("[pi]+") # caracter p o i, + 1 o más

p.findall('12 drummers drumming, 11 pipers piping, 10 lords a-leaping')

['i', 'pip', 'pipi', 'pi']

In [16]:
regex = re.compile(r'([A-Za-z0-9]+[.-_])*[A-Za-z0-9]+@[A-Za-z0-9-]+(\.[A-Z|a-z]{2,})+')

def isValid(email):
    if re.fullmatch(regex, email):
      print("Valid email")
    else:
      print("Invalid email")

isValid("iraitz@thebridge.com")

Valid email


In [17]:
isValid("This is a random text cotaining @ and some site end like .com")

Invalid email


In [18]:
isValid("iraitz@thebridge")

Invalid email


In [19]:
isValid("iraitz@thebridge.e")

Invalid email


In [20]:
text_to_search = """

Disponemos de multitud de dominios que podría usted utilizar:

* http://www.profesor.com
* https://www.profesor.com
* http://profesor.com
* https://profesor.com
* httpss://profesor.com

Incluso albergando subdominios:

* http://app.profesor.com
* http://api.profesor.com

"""

pattern = re.compile(r'https?://www.[A-Z|a-z]+(\.\w{2,})+')
matches = pattern.finditer(text_to_search)

for match in matches:
    print(match)

<re.Match object; span=(67, 90), match='http://www.profesor.com'>
<re.Match object; span=(93, 117), match='https://www.profesor.com'>


In [21]:
pattern = re.compile(r'https?://(\w).[A-Z|a-z]+(\.\w{2,})+')
matches = pattern.finditer(text_to_search)

for match in matches:
    print(match)

<re.Match object; span=(67, 90), match='http://www.profesor.com'>
<re.Match object; span=(93, 117), match='https://www.profesor.com'>
<re.Match object; span=(120, 139), match='http://profesor.com'>
<re.Match object; span=(142, 162), match='https://profesor.com'>
<re.Match object; span=(223, 246), match='http://app.profesor.com'>
<re.Match object; span=(249, 272), match='http://api.profesor.com'>


In [22]:
pattern = re.compile(r'https+://(\w).[A-Z|a-z]+(\.\w{2,})+')
matches = pattern.finditer(text_to_search)

for match in matches:
    print(match)

<re.Match object; span=(93, 117), match='https://www.profesor.com'>
<re.Match object; span=(142, 162), match='https://profesor.com'>
<re.Match object; span=(165, 186), match='httpss://profesor.com'>


### Usando expresiones regulares

Además, hay varios métodos que aceptan expresiones regulares para examinar el contenido de cada elemento de cadena, y siguen algunas de las convenciones de la API del módulo incorporado ``re`` de Python:

| Método | Descripción |
|--------|-------------|
| ``match()`` | Llama ``re.match()`` en cada elemento, devuelve booleano. |
| ``extract()`` | Llama ``re.match()`` en cada elemento, devuelve strings.|
| ``findall()`` | Llama ``re.findall()`` en cada elemento. |
| ``replace()`` | Reemplaca las ocurrencias que encajen en el patrón dado. |
| ``contains()`` | Llama ``re.search()`` en cada elemento, devuelve booleano. |
| ``count()`` | Cuenta ocurrencias en el patrón. |
| ``split()``   | Equivale a ``str.split()``, pero accepta expresiones regulares. |
| ``rsplit()`` | Equivale a ``str.rsplit()``, pero accepta expresiones regulares. |

Con ellas se puede hacer una amplia gama de operaciones interesantes.
Por ejemplo, podemos extraer el nombre de pila de cada uno pidiendo un grupo contiguo de caracteres al principio de cada elemento:

In [23]:
monte

0    Graham Chapman
1       John Cleese
2     Terry Gilliam
3         Eric Idle
4       Terry Jones
5     Michael Palin
dtype: object

In [24]:
monte.str.extract('([A-Za-z]+)', expand=False) # Secuencia de caracteres sin espacios

0     Graham
1       John
2      Terry
3       Eric
4      Terry
5    Michael
dtype: object

O podemos hacer algo más complicado, como buscar todos los nombres que empiecen y acaben por consonante, haciendo uso de los caracteres de expresión regular de inicio de cadena (``^``) y final de cadena (``$``):

In [25]:
monte

0    Graham Chapman
1       John Cleese
2     Terry Gilliam
3         Eric Idle
4       Terry Jones
5     Michael Palin
dtype: object

In [26]:
monte.str.findall(r'^[^AEIOU].*[^aeiou]$') # 

0    [Graham Chapman]
1                  []
2     [Terry Gilliam]
3                  []
4       [Terry Jones]
5     [Michael Palin]
dtype: object

Podéis emplear recursos como https://regex101.com/ para validar vuestras expresiones regulares.

La posibilidad de aplicar de forma concisa expresiones regulares a las entradas de ``Series`` o ``Dataframe`` abre muchas posibilidades de análisis y limpieza de datos.

### Métodos varios

Por último, hay algunos métodos diversos que permiten realizar otras operaciones convenientes:

| Método | Descripción |
|--------|-------------|
| ``get()`` | Indexa cada elemento |
| ``slice()`` | Separa cada elemento |
| ``slice_replace()`` | Reemplaza cada slice con el elemento dado |
| ``cat()``      | Concatena |
| ``repeat()`` | Repite valores |
| ``normalize()`` | Devuelve la forma unicode |
| ``pad()`` | Añade espacios en blando |
| ``wrap()`` | Separa cadenas largas en líneas acorde al valor dado |
| ``join()`` | Dado un separador junta lineas en una sola cadena |
| ``get_dummies()`` | Obtiene variables dummy para los valores de la cadena |

#### Acceso vectorizado y slicing

Las operaciones ``get()`` y ``slice()``, en particular, permiten el acceso vectorizado a los elementos de cada array.
Por ejemplo, podemos obtener una porción de los tres primeros caracteres de cada array usando ``str.slice(0, 3)``.
Ten en cuenta que este comportamiento también está disponible a través de la sintaxis de indexación normal de Python, por ejemplo, ``df.str.slice(0, 3)`` es equivalente a ``df.str[0:3]``:

In [27]:
monte.str[0:3]

0    Gra
1    Joh
2    Ter
3    Eri
4    Ter
5    Mic
dtype: object

La indexación mediante ``df.str.get(i)`` y ``df.str[i]`` también es similar.

Estos métodos ``get()`` y ``slice()`` también permiten acceder a los elementos de las matrices devueltas por ``split()``.
Por ejemplo, para extraer el apellido de cada entrada, podemos combinar ``split()`` y ``get()``:

In [28]:
monte.str.split().str.get(-1)

0    Chapman
1     Cleese
2    Gilliam
3       Idle
4      Jones
5      Palin
dtype: object

#### Variables de indicación

Otro método que requiere un poco de explicación extra es el método ``get_dummies()``.
Es útil cuando tus datos tienen una columna que contiene algún tipo de indicador codificado.
Por ejemplo, podemos tener un conjunto de datos que contenga información en forma de códigos, como A="nacido en América", B="nacido en el Reino Unido", C="le gusta el queso", D="le gusta el spam":

In [35]:
full_monte = pd.DataFrame({'name': monte,
                           'info': ['B,C,D', 'B,D', 'A,C',
                                    'B,D', 'B,C', 'B,C,D']})
full_monte

Unnamed: 0,name,info
0,Graham Chapman,"B,C,D"
1,John Cleese,"B,D"
2,Terry Gilliam,"A,C"
3,Eric Idle,"B,D"
4,Terry Jones,"B,C"
5,Michael Palin,"B,C,D"


In [36]:
full_monte[full_monte['info'].str.contains('C')]

Unnamed: 0,name,info
0,Graham Chapman,"B,C,D"
2,Terry Gilliam,"A,C"
4,Terry Jones,"B,C"
5,Michael Palin,"B,C,D"


La rutina ``get_dummies()`` permite dividir rápidamente estas variables indicadoras en un ``DataFrame``:

In [37]:
full_monte

Unnamed: 0,name,info
0,Graham Chapman,"B,C,D"
1,John Cleese,"B,D"
2,Terry Gilliam,"A,C"
3,Eric Idle,"B,D"
4,Terry Jones,"B,C"
5,Michael Palin,"B,C,D"


In [38]:
full_monte['info'].str.get_dummies(',')

Unnamed: 0,A,B,C,D
0,0,1,1,1
1,0,1,0,1
2,1,0,1,0
3,0,1,0,1
4,0,1,1,0
5,0,1,1,1


In [39]:
full_monte['info'] = full_monte['info'].str.replace(',','')

In [40]:
full_monte['info'].str.get_dummies(',')

Unnamed: 0,AC,BC,BCD,BD
0,0,0,1,0
1,0,0,0,1
2,1,0,0,0
3,0,0,0,1
4,0,1,0,0
5,0,0,1,0


In [42]:
pd.get_dummies(full_monte['info'])

Unnamed: 0,AC,BC,BCD,BD
0,False,False,True,False
1,False,False,False,True
2,True,False,False,False
3,False,False,False,True
4,False,True,False,False
5,False,False,True,False


Con estas operaciones como bloques de construcción, puede construir una gama interminable de procedimientos de procesamiento de cadenas al limpiar sus datos.

No vamos a profundizar en estos métodos aquí, pero os animo a leer ["Working with Text Data"](http://pandas.pydata.org/pandas-docs/stable/text.html) en la documentación online de Pandas, o a consultar los recursos listados en [Further Resources](03.13-Further-Resources.ipynb).