## Métodos de strings

Series e Index están equipados con un conjunto de métodos de procesamiento de cadenas que facilitan la operación en cada elemento de la matriz. Quizás lo más importante es que estos métodos excluyen automáticamente los valores faltantes/NA. Se accede a estos a través del atributo str y generalmente tienen nombres que coinciden con los métodos de cadena incorporados equivalentes (escalares)

In [3]:
import numpy as np
import pandas as pd

### Métodos de string más utilizados

In [19]:
# capitalize()	Converts the first character to upper case
# casefold()	Converts string into lower case
# center()	Returns a centered string
# count()	Returns the number of times a specified value occurs in a string
# encode()	Returns an encoded version of the string
# endswith()	Returns true if the string ends with the specified value
# expandtabs()	Sets the tab size of the string
# find()	Searches the string for a specified value and returns the position of where it was found
# format()	Formats specified values in a string
# format_map()	Formats specified values in a string
# index()	Searches the string for a specified value and returns the position of where it was found
# isalnum()	Returns True if all characters in the string are alphanumeric
# isalpha()	Returns True if all characters in the string are in the alphabet
# isascii()	Returns True if all characters in the string are ascii characters
# isdecimal()	Returns True if all characters in the string are decimals
# isdigit()	Returns True if all characters in the string are digits
# isidentifier()	Returns True if the string is an identifier
# islower()	Returns True if all characters in the string are lower case
# isnumeric()	Returns True if all characters in the string are numeric
# isprintable()	Returns True if all characters in the string are printable
# isspace()	Returns True if all characters in the string are whitespaces
# istitle()	Returns True if the string follows the rules of a title
# isupper()	Returns True if all characters in the string are upper case
# join()	Converts the elements of an iterable into a string
# ljust()	Returns a left justified version of the string
# len()---Compute string lengths
# lower()	Converts a string into lower case
# lstrip()	Returns a left trim version of the string
# maketrans()	Returns a translation table to be used in translations
# partition()	Returns a tuple where the string is parted into three parts
# replace()	Returns a string where a specified value is replaced with a specified value
# rfind()	Searches the string for a specified value and returns the last position of where it was found
# rindex()	Searches the string for a specified value and returns the last position of where it was found
# rjust()	Returns a right justified version of the string
# rpartition()	Returns a tuple where the string is parted into three parts
# rsplit()	Splits the string at the specified separator, and returns a list
# rstrip()	Returns a right trim version of the string
# split()	Splits the string at the specified separator, and returns a list
# splitlines()	Splits the string at line breaks and returns a list
# startswith()	Returns true if the string starts with the specified value
# strip()	Returns a trimmed version of the string
# swapcase()	Swaps cases, lower case becomes upper case and vice versa
# title()	Converts the first character of each word to upper case
# translate()	Returns a translated string
# upper()	Converts a string into upper case
# zfill()	Fills the string with a specified number of 0 values at the beginning

In [4]:
s = pd.Series(
    ["A", "B", "C", "Aaba", "Baca", np.nan, "CABA", "dog", "cat"], dtype="string"
)

In [5]:
# Colocar todas las letras en minúsculas 
s.str.lower()

0       a
1       b
2       c
3    aaba
4    baca
5    <NA>
6    caba
7     dog
8     cat
dtype: string

In [6]:
# Colocar todas las letras en mayúsculas
s.str.upper()

0       A
1       B
2       C
3    AABA
4    BACA
5    <NA>
6    CABA
7     DOG
8     CAT
dtype: string

In [7]:
# Contar la cantidad de letras que tiene cada registro
s.str.len()

0       1
1       1
2       1
3       4
4       4
5    <NA>
6       4
7       3
8       3
dtype: Int64

In [8]:
idx = pd.Index([" jack", "jill ", " jesse ", "frank"])

In [9]:
# Eliminar los espacios en blanco
idx.str.strip()

Index(['jack', 'jill', 'jesse', 'frank'], dtype='object')

In [11]:
idx.str.lstrip("j")

Index([' jack', 'ill ', ' jesse ', 'frank'], dtype='object')

In [12]:
idx.str.rstrip()

Index([' jack', 'jill', ' jesse', 'frank'], dtype='object')

#### Los métodos de cadena en Index son especialmente útiles para limpiar o transformar columnas de DataFrame.

In [13]:
df = pd.DataFrame(
    np.random.randn(3, 2), columns=[" Column A ", " Column B "], index=range(3)
)

In [14]:
df

Unnamed: 0,Column A,Column B
0,-1.128587,-0.813343
1,-0.986719,-0.161072
2,0.762742,1.858756


In [15]:
# Debemos especificar que vamos a cortar el nombre de las columnas con "columns"
df.columns.str.strip()

Index(['Column A', 'Column B'], dtype='object')

In [16]:
df.columns.str.lower()

Index([' column a ', ' column b '], dtype='object')

In [17]:
# Aquí estamos eliminando los espacios en blanco iniciales y finales, en minúsculas todos los nombres 
# y reemplazando los espacios en blanco restantes con guiones bajos
df.columns = (df
              .columns
              .str.strip()
              .str.lower()
              .str.replace(" ", "_"))

In [18]:
df

Unnamed: 0,column_a,column_b
0,-1.128587,-0.813343
1,-0.986719,-0.161072
2,0.762742,1.858756


## Dividir y reemplazar strings - split()

In [20]:
s2 = pd.Series(["a_b_c", "c_d_e", np.nan, "f_g_h"], dtype="string")

In [21]:
s2.str.split("_")

0    [a, b, c]
1    [c, d, e]
2         <NA>
3    [f, g, h]
dtype: object

In [23]:
# Se puede acceder a los elementos de las listas divididas mediante la notación get o corchetes "[]"
# Seleccionar la primera letra
s2.str.split("_").str.get(1)

0       b
1       d
2    <NA>
3       g
dtype: object

In [24]:
s2.str.split("_").str[1]

0       b
1       d
2    <NA>
3       g
dtype: object

In [25]:
# rsplit es similar a split excepto que funciona en la dirección inversa, es decir, desde el final 
# de la cadena hasta el principio de la cadena
s2.str.rsplit("_", expand=True, n=1)

Unnamed: 0,0,1
0,a_b,c
1,c_d,e
2,,
3,f_g,h


### Replace

In [29]:
s3 = pd.Series(
    ["A", "B", "C", "Aaba", "Baca", "", np.nan, "CABA", "dog", "cat"],
    dtype="string",
)

In [30]:
s3

0       A
1       B
2       C
3    Aaba
4    Baca
5        
6    <NA>
7    CABA
8     dog
9     cat
dtype: string

In [31]:
# Remplazo con Expresiones Regulares
s3.str.replace("^.a|dog", "XX-XX ", case=False, regex=True)

0           A
1           B
2           C
3    XX-XX ba
4    XX-XX ca
5            
6        <NA>
7    XX-XX BA
8      XX-XX 
9     XX-XX t
dtype: string

## Concatenar

#### Hay varias formas de concatenar una Serie o Índice, ya sea consigo mismo o con otros, todos basados en cat(), resp. Index.str.cat.

In [32]:
# Concatenación de una sola serie en una cadena
s = pd.Series(["a", "b", "c", "d"], dtype= "string")

In [33]:
s

0    a
1    b
2    c
3    d
dtype: string

In [34]:
s.str.cat(sep=",")

'a,b,c,d'

In [35]:
# los valores nulos son ignorados por defecto
t = pd.Series(["a", "b", np.nan, "d"], dtype="string")

In [36]:
t.str.cat(sep=",")

'a,b,d'

In [37]:
t.str.cat(sep=",", na_rep="-")

'a,b,-,d'

In [38]:
# Concatenar una serie y algo similar a una lista en una serie

In [39]:
s.str.cat(["A", "B", "C", "D"])

0    aA
1    bB
2    cC
3    dD
dtype: string

In [40]:
s.str.cat(t)

0      aa
1      bb
2    <NA>
3      dd
dtype: string

In [41]:
s.str.cat(t, na_rep="-")

0    aa
1    bb
2    c-
3    dd
dtype: string

In [42]:
# Concatenar una serie y un objeto indexado en una serie, con alineación
# Para la concatenación con Series o DataFrame, es posible alinear 
# los índices antes de la concatenación configurando la palabra clave de unión.
u = pd.Series(["b", "d", "a", "c"], index=[1, 3, 0, 2], dtype="string")

In [43]:
u

1    b
3    d
0    a
2    c
dtype: string

In [44]:
s

0    a
1    b
2    c
3    d
dtype: string

In [45]:
s.str.cat(u)

0    aa
1    bb
2    cc
3    dd
dtype: string

In [46]:
s.str.cat(u, join = "left")

0    aa
1    bb
2    cc
3    dd
dtype: string

In [48]:
# Las opciones habituales están disponibles para join ('left', 'outer', 'inner', 'right'). En particular, 
# la alineación también significa que las diferentes longitudes ya no necesitan coincidir.
v = pd.Series(["z", "a", "b", "d", "e"], index=[-1, 0, 1, 3, 4], dtype="string")

In [49]:
s

0    a
1    b
2    c
3    d
dtype: string

In [50]:
v

-1    z
 0    a
 1    b
 3    d
 4    e
dtype: string

In [52]:
s.str.cat(v, join = "left", na_rep = "-")

0    aa
1    bb
2    c-
3    dd
dtype: string

In [53]:
s.str.cat(v, join="outer", na_rep="-")

-1    -z
 0    aa
 1    bb
 2    c-
 3    dd
 4    -e
dtype: string

In [54]:
# Concatenar una Serie y muchos objetos en una Serie

In [55]:
s

0    a
1    b
2    c
3    d
dtype: string

In [56]:
u

1    b
3    d
0    a
2    c
dtype: string

In [57]:
s.str.cat([u, u.to_numpy()], join="left")

0    aab
1    bbd
2    cca
3    ddc
dtype: string

In [58]:
v

-1    z
 0    a
 1    b
 3    d
 4    e
dtype: string

In [59]:
s.str.cat([v, u, u.to_numpy()], join="outer", na_rep="-")

-1    -z--
 0    aaab
 1    bbbd
 2    c-ca
 3    dddc
 4    -e--
dtype: string

## Indexar con .str

#### Puede usar la notación [] para indexar directamente por ubicaciones de posición. Si indexa más allá del final de la cadena, el resultado será un NaN.

In [60]:
s = pd.Series(
    ["A", "B", "C", "Aaba", "Baca", np.nan, "CABA", "dog", "cat"], dtype="string"
)

In [61]:
s.str[0]

0       A
1       B
2       C
3       A
4       B
5    <NA>
6       C
7       d
8       c
dtype: string

In [62]:
s.str[1]

0    <NA>
1    <NA>
2    <NA>
3       a
4       a
5    <NA>
6       A
7       o
8       a
dtype: string

## Extraer substrings

#### El método de extracción acepta una expresión regular con al menos un grupo de captura. Extraer una expresión regular con más de un grupo devuelve un DataFrame con una columna por grupo.

In [63]:
pd.Series(
    ["a1", "b2", "c3"],
    dtype="string",
).str.extract(r"([ab])(\d)", expand=False)

Unnamed: 0,0,1
0,a,1.0
1,b,2.0
2,,


In [64]:
pd.Series(["a1", "b2", "c3"], dtype="string").str.extract(
    r"(?P<letter>[ab])(?P<digit>\d)", expand=False
)

Unnamed: 0,letter,digit
0,a,1.0
1,b,2.0
2,,


In [65]:
pd.Series(
    ["a1", "b2", "3"],
    dtype="string",
).str.extract(r"([ab])?(\d)", expand=False)

Unnamed: 0,0,1
0,a,1
1,b,2
2,,3


## Extraer todas las coincidencias en cada elemento (extractall)

#### El método extractall devuelve cada coincidencia. El resultado de extractall es siempre un DataFrame con un MultiIndex en sus filas. El último nivel del MultiIndex se denomina coincidencia e indica el orden en el asunto.

In [66]:
s = pd.Series(["a1a2", "b1", "c1"], index=["A", "B", "C"], dtype="string")

In [67]:
s

A    a1a2
B      b1
C      c1
dtype: string

In [68]:
two_groups = "(?P<letter>[a-z])(?P<digit>[0-9])"

In [69]:
s.str.extract(two_groups, expand=True)

Unnamed: 0,letter,digit
A,a,1
B,b,1
C,c,1


In [70]:
s = pd.Series(["a3", "b3", "c2"], dtype="string")

In [71]:
s

0    a3
1    b3
2    c2
dtype: string

In [72]:
extract_result = s.str.extract(two_groups, expand=True)

In [73]:
extract_result

Unnamed: 0,letter,digit
0,a,3
1,b,3
2,c,2


In [74]:
extractall_result = s.str.extractall(two_groups)

In [75]:
extractall_result

Unnamed: 0_level_0,Unnamed: 1_level_0,letter,digit
Unnamed: 0_level_1,match,Unnamed: 2_level_1,Unnamed: 3_level_1
0,0,a,3
1,0,b,3
2,0,c,2


In [76]:
extractall_result.xs(0, level="match")

Unnamed: 0,letter,digit
0,a,3
1,b,3
2,c,2


## Probar cadenas que coincidan o contengan un patrón

In [81]:
pattern = r"[0-9][a-z]"

In [82]:
# Si contiene el patrón
pd.Series(
    ["1", "2", "3a", "3b", "03c", "4dx"],
    dtype="string",
).str.contains(pattern)

0    False
1    False
2     True
3     True
4     True
5     True
dtype: boolean

In [83]:
# Si coincide el patron
pd.Series(
    ["1", "2", "3a", "3b", "03c", "4dx"],
    dtype="string",
).str.match(pattern)

0    False
1    False
2     True
3     True
4    False
5     True
dtype: boolean

In [84]:
# Si existe coincidencia total con el patron 
pd.Series(
    ["1", "2", "3a", "3b", "03c", "4dx"],
    dtype="string",
).str.fullmatch(pattern)

0    False
1    False
2     True
3     True
4    False
5    False
dtype: boolean

In [85]:
s4 = pd.Series(
    ["A", "B", "C", "Aaba", "Baca", np.nan, "CABA", "dog", "cat"], dtype="string"
)

In [86]:
s4

0       A
1       B
2       C
3    Aaba
4    Baca
5    <NA>
6    CABA
7     dog
8     cat
dtype: string

## Creación de variables indicadoras

#### Puede extraer variables ficticias de columnas de cadena. Por ejemplo, si están separados por un '|':

In [87]:
s = pd.Series(["a", "a|b", np.nan, "a|c"], dtype="string")

In [88]:
s

0       a
1     a|b
2    <NA>
3     a|c
dtype: string

In [89]:
s.str.get_dummies(sep="|")

Unnamed: 0,a,b,c
0,1,0,0
1,1,1,0
2,0,0,0
3,1,0,1
