# Métodos útiles para trabajar con cadenas

## split

In [1]:
#División en una lista de subcadenas
cadena = 'Hola, mi nombre es Juan'

#Si no indicamos separador utiliza el espacio
print(cadena.split())

#Podemos pasar como parámetro el separador
print(cadena.split(','))

#El separador puede ser una cadena de más de un caracter
print(cadena.split('mi nombre es'))

['Hola,', 'mi', 'nombre', 'es', 'Juan']
['Hola', ' mi nombre es Juan']
['Hola, ', ' Juan']


## strip

In [None]:
cadena = '        Hola, esto es una cadena     '
print(cadena.strip())

In [None]:
'      Hola     '.strip()

In [None]:
#División en una lista de subcadenas
cadena = 'Hola, mi nombre es Juan'

print(cadena.split(','))

#Imprimimos las subcadenas eliminando espacios
[subcadena.strip() for subcadena in cadena.split(',')]


## join

In [None]:
#Imagina que quieres imprimir cinco números separados por "-"
lista_numeros = ['1', '2', '3', '4', '5']

#Inicializamos cada número
uno, dos, tres, cuatro, cinco = lista_numeros

#Podemos utilizar el operador de concatenación '+':
cadena_sinjoin = uno + '-' + dos + '-' + tres + '-' + cuatro + '-' + cinco
print(cadena_sinjoin)

#Con el método join es más simple
cadena_conjoin = '-'.join(lista_numeros)
print(cadena_conjoin)

## index y find

In [None]:
cadena='Esto es una cadena que está formada por caracteres'
#En caso de que la subcadena exista, ambas devuelven la posición de la primera ocurrencia.
print(cadena.find('es'))
print(cadena.index('es'))

In [None]:
#Si la subcadena no existe, find devuelve "-1"
print(cadena.find('no'))
#Si la subcadena no existe, index devuelve una excepción de tipo ValueError
print(cadena.index('no'))


## rfind

In [None]:
#rfind devuelve la posición de la última coincidencia
cadena='Esto es una cadena que está formada por caracteres'
print(cadena.rfind('es'))

## count

In [None]:
#Con count obtenemos el número de ocurrencias
cadena='Esto es una cadena que está formada por caracteres'
print(cadena.count('es'))

## replace

In [None]:
cadena='Esto es una cadena que está formada por caracteres'

#Reemplazamos todas las ocurrencias de "es" por "era"
print(cadena.replace('es', 'era'))

#Reemplazamos solo la primera ocurrencia de "es" por "era"
print(cadena.replace('es', 'era', 1))

# Expresiones regulares

## split

In [None]:

cadena = 'Cadena#que##separa###las####palabras#####de#forma##no###uniforme'

#Si no usamos expresiones regulares
print(cadena.split('#'))


In [None]:
#Podemos usar las expresiones regulares
import re
re.split('#+', cadena)

## compile

In [None]:
import re
#Precompilamos la búsqueda. Es más eficiente si la vamos a reutilizar varias veces
expresion = re.compile(r'#+')
print(expresion.split('Primera#cadena'))
print(expresion.split('Segunda#cadena'))

¿Hay mejoras en rendimiento si precompilamos el patrón?

In [None]:
%%timeit -n 200 -r 50
re.split('#+', 'Primera#cadena')

In [None]:
%%timeit -n 200 -r 50
expresion.split('Primera#cadena')

## findall

In [None]:
#Cadena con la que trabajaremos. Contiene 3 direcciones de correo
cadena_correos='''
Juan:juan#juan.es
María:maria@maria.es
Pedro:pedro@pedro.es
'''
#Para facilitar legibilidad definimos el patrón
patron = r'[A-Z0-9._%+-]+@[A-Z0-9._]+\.[A-Z]{2,4}'

#Compilamos el patrón. No queremos distinguir entre mayúsculas y minúsculas
expresion = re.compile(patron, flags=re.IGNORECASE)

#Buscamos las cadenas que coinciden con la expresión
expresion.findall(cadena_correos)


In [None]:
#Sin precompilar la expresión
re.findall(patron, cadena_correos, flags=re.IGNORECASE)

In [None]:
#Si queremos obtener un iterable
re.finditer(patron, cadena_correos, flags=re.IGNORECASE)

In [None]:
#Recorremos el iterable.
# Cada elemento del iterable permite obtener la posición de inicio con el método .start()
# y de fin con el .end()
for correo in re.finditer(patron, cadena_correos, flags=re.IGNORECASE):
    print(cadena_correos[correo.start():correo.end()])

In [None]:
#Para descomponer las direcciones a su vez en los 3 componentes
#Para facilitar legibilidad definimos el patrón
patron = r'([A-Z0-9._%+-]+)@([A-Z0-9._]+)\.([A-Z]{2,4})'

#Compilamos el patrón. No queremos distinguir entre mayúsculas y minúsculas
expresion = re.compile(patron, flags=re.IGNORECASE)

#Buscamos las cadenas que coinciden con la expresión
expresion.findall(cadena_correos)

## search

In [None]:
#Primera ocurrencia del patrón
result = expresion.search(cadena_correos)
print(result)
print("------------------")

#Con el método group() podemos obtener la cadena que cumple la expresión
print(result.group())
#Con span() obtenemos una tupla con la posición de inicio y fin
print(result.span())

## match

In [None]:
#Con el método match la coincidencia debe ser completa
print(expresion.match(cadena_correos))

In [None]:
#Probamos con otro que sí cumpla el criterio
print(expresion.match('juan@juan.es'))

## sub

In [None]:
#Sustituye cualquier ocurrencia de la expresión por la cadena indicada
print(expresion.sub("ELIMINADO", cadena_correos))

#En la anterior estamos usando una expresión precompilada.
# Es equivalente a:
patron = r'[A-Z0-9._%+-]+@[A-Z0-9._]+\.[A-Z]{2,4}'
print(re.sub(patron, "ELIMINADO", cadena_correos, flags=re.IGNORECASE))

In [None]:
#Para sustituir solo la primera ocurrencia
print(expresion.sub("ELIMINADO", cadena_correos, count=1))

In [None]:
#Acceso a elementos dentro de la cadena encontrada
print(expresion.sub(r'Usuario: \1, Dominio: \2, Dom_raiz: \3', cadena_correos))

# Pandas, métodos con cadenas y expresiones regulares

## En caso de no tener NaN

In [None]:
import numpy as np
import pandas as pd

df_correos = pd.DataFrame({
    'Nombre': ['Juan', 'María', 'Pedro'],
    'Apellidos': ['Fernández', 'Martínez', 'Álvarez'],
    'email': ['juan#juan.es', 'maria@maria.es', 'pedro@pedro.es']
})
df_correos

#Fíjate que uno de los emails está mal construido

In [None]:
#Sustituimos ocurrencias de ".es" por ".com"
df_correos['email'] = df_correos['email'].map(lambda cadena: cadena.replace('.es','.com'))
df_correos

In [None]:
#Para facilitar legibilidad definimos el patrón
patron = r'[A-Z0-9._%+-]+@[A-Z0-9._]+\.[A-Z]{2,4}'

#Reseteamos aquellos valores que siguen patrón de email con la cadena "DESCONOCIDO"
df_correos['email'] = df_correos['email'].map(
    lambda cadena: re.sub(patron, "DESCONOCIDO", cadena, flags=re.IGNORECASE))
df_correos

## En caso de tener NaN

In [None]:
df_correos = pd.DataFrame({
    'Nombre': ['Juan', 'María', 'Pedro'],
    'Apellidos': ['Fernández', 'Martínez', 'Álvarez'],
    'email': [np.NaN, 'maria@maria.es', 'pedro@pedro.es']
})
df_correos

In [None]:
#Si intentamos utilizar .map, fallará
df_correos['email'] = df_correos['email'].map(lambda cadena: cadena.replace('.es','.com'))

In [None]:
#Sustituimos .es por .com
#El método replace de pandas permite trabajar tanto con literales como con expresiones regulares.
#Con regex=False indicamos que no es expresión regular.
df_correos['email'] = df_correos['email'].str.replace('.es','.com',regex=False)
df_correos

# Índices jerárquicos (multi-índices)

In [None]:
import pandas as pd
# Definimos un dataframe con dos niveles de índices
df_ejemplo = pd.DataFrame(
    [[3.56,'SI'],[7.45,'NO'],[23.89,'SI'],[101.34,'SI'],[204.01,'NO'],[45.34,'NO']],
    index = [
        ['ID1','ID1','ID2','ID2','ID2','ID3'],
        ['PID1','PID2','PID1','PID2','PID3','PID1']
    ],
    columns = ['Importe','Pagado']
)

#Le damos un nombre a cada nivel del índice
df_ejemplo.index.names=['IDCliente', 'IDPedido']
df_ejemplo

In [None]:
#Recuperamos todos los pedidos del cliente ID2
df_ejemplo.loc['ID2']

In [None]:
#Recuperamos el pedido PID3 del cliente ID2
df_ejemplo.loc['ID2','PID3']

In [None]:
#Todos los pedidos de clientes entre ID2 e ID3
df_ejemplo.loc['ID2':'ID3']

In [None]:
#Los importes de todos los pedidos del cliente ID2
df_ejemplo.loc['ID2','Importe']

In [None]:
#Los importes de los pedidos PID2 de cualquier cliente
df_ejemplo['Importe'].loc[:,'PID2']

In [None]:
#Intercambiamos los niveles del multi-índice
df_ejemplo = df_ejemplo.swaplevel('IDCliente','IDPedido')
df_ejemplo

In [None]:
#Ahora ordenamos por el IDPedido para que quede agrupado
df_ejemplo.sort_index(level=0, inplace=True)

#Vemos cómo ha quedado
df_ejemplo

In [None]:
# Definimos un dataframe sin indicar índices
df_ejemplo = pd.DataFrame({
    'Importe': [3.56,7.45,23.89,101.34,204.01,45.34],
    'Pagado': ['SI','NO','SI','SI','NO','NO'],
    'IDCliente': ['ID1','ID1','ID2','ID2','ID2','ID3'],
    'IDPedido': ['PID1','PID2','PID1','PID2','PID3','PID1'],
})

df_ejemplo

In [None]:
#Hacemos que IDCliente sea índice
df_ejemplo.set_index(['IDCliente'], inplace=True)
df_ejemplo

In [None]:
#Añadimos al índice el IDPedido, creando un multi-índice
df_ejemplo.set_index(['IDPedido'], append=True, inplace=True)
df_ejemplo

In [None]:
#Multi nivel en columnasl
# Definimos un dataframe con dos niveles de columnas
df_ejemplo = pd.DataFrame(
    [[29, 50, 18, 80],[16, 30, 8, 40]],
    index = ['CiudadA','CiudadB'],
    columns = [['Día','Día','Noche','Noche'],['Temperatura','Humedad','Temperatura','Humedad']]
)
print(df_ejemplo)
print("--------------------------------------------------------")

#Le damos nombres a los índices y columnas
df_ejemplo.index.names=['Ciudad']
df_ejemplo.columns.names=['Franja', 'Parámetros']

df_ejemplo


# Combinación de dataframes

## merge

In [None]:
df_edades = pd.DataFrame({
    'nombre':['Juan','María','Pedro','Patricia','Ana'],
    'edad': [10, 12, 20, 23, 5]
})
df_alturas = pd.DataFrame({
    'nombre':['Juan','María'],
    'altura': [100, 120]
})
print(df_edades)
print("---------------------")
print(df_alturas)

In [None]:
#Obtenemos un nuevo dataframe con la edad y altura
pd.merge(df_edades,df_alturas)

In [None]:
#Podemos indicar la columna sobre la que hacer el join
pd.merge(df_edades,df_alturas, on='nombre')

In [None]:
#Modificamos los dataframes para que la columna clave no se llame igual
df_edades.columns=['nomEdad', 'edad']
df_alturas.columns=['nomAltura', 'altura']

#Si hacemos el merge sin especificar columnas dará un error al no existir ninguna columna en común
#Especificamos ambas
pd.merge(df_edades, df_alturas, left_on='nomEdad', right_on='nomAltura')

In [None]:
#¿Qué ocurre si existe una columna que se llama igual en ambos dataframes
# y no se usa como clave de join?

#Añadimos una columna a cada dataframe que se llame igual
df_edades['País'] = ['España', 'Francia', 'Alemania', 'Francia', 'España']
df_alturas['País'] = ['España', 'Francia']

pd.merge(df_edades, df_alturas, left_on='nomEdad', right_on='nomAltura')

In [None]:
#Hacemos el merge indicando los sufijos para las columnas comunes
pd.merge(df_edades, df_alturas, left_on='nomEdad', right_on='nomAltura',
         suffixes=('_primera','_segunda'))

In [None]:
#Hacemos un left outer join
pd.merge(df_edades, df_alturas, left_on='nomEdad', right_on='nomAltura',
         suffixes=('_primera','_segunda'), how='left')

In [None]:
#Hacemos un right outer join
pd.merge(df_edades, df_alturas, left_on='nomEdad', right_on='nomAltura',
         suffixes=('_primera','_segunda'), how='right')

In [None]:
#En caso de tener relaciones Many to Many, el resultado es el producto cartesiano
df_edades = pd.DataFrame({
    'nombre':['Juan','María','Juan','Patricia','Ana'],
    'edad': [10, 12, 20, 23, 5]
})
df_alturas = pd.DataFrame({
    'nombre':['Juan','María','Juan'],
    'altura': [100, 120, 150]
})
pd.merge(df_edades,df_alturas)

In [None]:
#Definimos los dataframes para mergear por el índice
df_edades = pd.DataFrame(
    [[10, 'España'], [12, 'Francia'], [20,'Alemania' ], [23, 'Francia'], [5, 'España']],
    index = ['Juan','María','Pedro','Patricia','Ana'],
    columns = ['edad', 'país']
)
df_alturas = pd.DataFrame(
    [[100, 'España'],[120, 'Francia']],
    index = ['Juan','María'],
    columns = ['altura','país']
)

print(df_edades)
print("--------------------------")
print(df_alturas)


In [None]:
#Hacemos el merge usando como clave el índice de ambos dataframes
pd.merge(df_edades, df_alturas, left_index=True, right_index=True)

In [None]:
#Definimos un dataframe con la clave (nombre) en el índice.
# El otro dataframe la tiene en la columna
df_edades = pd.DataFrame(
    [[10, 'España'], [12, 'Francia'], [20,'Alemania' ], [23, 'Francia'], [5, 'España']],
    index = ['Juan','María','Pedro','Patricia','Ana'],
    columns = ['edad', 'país']
)
df_alturas = pd.DataFrame({
    'nombre':['Juan','María'],
    'altura': [100, 120],
    'país': ['España', 'Francia']
})

print(df_edades)
print(df_alturas)

#Hacemos merge entre ambas
pd.merge(df_edades, df_alturas, left_index=True, right_on='nombre')

In [None]:
#Merge utilizando método join
#Definimos los dataframes para mergear por el índice
df_edades = pd.DataFrame(
    [[10, 'España'], [12, 'Francia'], [20,'Alemania' ], [23, 'Francia'], [5, 'España']],
    index = ['Juan','María','Pedro','Patricia','Ana'],
    columns = ['edad', 'país']
)
df_alturas = pd.DataFrame(
    [[100, 'España'],[120, 'Francia']],
    index = ['Juan','María'],
    columns = ['altura','país']
)

print(df_edades)
print("--------------------------")
print(df_alturas)

df_edades.join(df_alturas,lsuffix='_primera')

## concat

In [None]:
df_edades = pd.DataFrame(
    [[10, 'España'], [12, 'Francia'], [20,'Alemania' ], [23, 'Francia'], [5, 'España']],
    index = ['Juan','María','Pedro','Patricia','Ana'],
    columns = ['edad', 'país']
)
df_alturas = pd.DataFrame(
    [[100, 'España'],[120, 'Francia']],
    index = ['Juan','María'],
    columns = ['altura','país']
)
print(df_edades)
print("---------------------------")
print(df_alturas)

In [None]:
#Concatenación de filas
pd.concat([df_edades, df_alturas])

In [None]:
#Concarenamos las filas, ignorando los índices existentes
pd.concat([df_edades, df_alturas], ignore_index=True)

In [None]:
#Concatenación de filas generando multiíndice
pd.concat([df_edades, df_alturas], keys=['Tabla1', 'Tabla2'])

In [None]:
#Equivalente al anterior. Concatenación en filas generando multiíndice
pd.concat({'Tabla1': df_edades, 'Tabla2': df_alturas})

In [None]:
#Concatenación de columnas
pd.concat([df_edades, df_alturas], axis=1)

In [None]:
#Concatenación de columnas reseteando los nombre de columnas
pd.concat([df_edades, df_alturas], ignore_index = True, axis=1)

In [None]:
#Generación de varios niveles de nombre de columnas
pd.concat([df_edades, df_alturas], keys=['Tabla1', 'Tabla2'], axis=1)

In [None]:
#Equivalente al anterior, mediante un diccionario
pd.concat({'Tabla1': df_edades, 'Tabla2': df_alturas}, axis=1)

## combine_first

In [None]:
#Dataframes para el ejemplo
df_edades = pd.DataFrame(
    [[10, np.NaN], [12, 'Francia'], [20,'Alemania' ], [23, np.NaN], [5, 'España']],
    index = ['Juan','María','Pedro','Patricia','Ana'],
    columns = ['edad', 'país']
)
df_paises = pd.DataFrame(
    ['España','Francia'],
    index = ['Juan','María'],
    columns = ['país']
)
print(df_edades)
print("---------------------------")
print(df_paises)

In [None]:
#Combinamos rellenando huecos
df_edades.combine_first(df_paises)

In [None]:
#Dataframes para el ejemplo
df_edades = pd.DataFrame(
    [[10, np.NaN], [12, 'Francia'], [20,'Alemania' ], [23, np.NaN], [5, 'España']],
    index = ['Juan','María','Pedro','Patricia','Ana'],
    columns = ['edad', 'país']
)
df_alturas = pd.DataFrame(
    [[100, 'España'],[120, 'Francia']],
    index = ['Juan','María'],
    columns = ['altura','país']
)
print(df_edades)
print("---------------------------")
print(df_alturas)

In [None]:
df_edades.combine_first(df_alturas)