<a href="https://colab.research.google.com/github/patofw/imf_master/blob/master/Google_Colab/FunWithStrings.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>




# Manipulación de cadenas de texto (strings)

El tratamiento de datos de texto es uno de las áreas con mayor desarrollo en la ciencia de datos, sobre todo con el 'boom' que ha tenido el procesamiento del lenguaje natural (NLP) en diferentes áreas de la inteligencia artificial. 
Python, en su base tiene varias herramientas que nos pueden ayudar a tratar cadenas de texto. En este tutorial veremos las más comunes, pero hay mucnas más en la documentación oficial.   <a href="https://docs.python.org/3.2/library/stdtypes.html#string-methods">Python</a>. 

## Formato de las cadenas

Antes de empezar con la limpieza de cadenas de texto, quiero comentarles que Python permite añadir variables a tus cadenas de texto de múltiples formas. Esto es especialmente útil cuando queremos que nuestros prints se actualicen con una variable previamente declarada. Hay varias formas de haecerlo. Por ejemplo:

In [3]:
# Esta es la opción más "pytónica" y elegante
var1 = "Patricio"
var2 = "España"
print(f"Hola mi nombre es {var1} y vivo en {var2}") 


Hola mi nombre es Patricio y vivo en España


In [4]:
# utilizando comas para separar 
print("Hola mi nombre es", var1, "y vivo en", var2)

Hola mi nombre es Patricio y vivo en España


In [5]:
print("Hola mi nombre es {} y vivo en {}".format(var1, var2))

Hola mi nombre es Patricio y vivo en España


# Tratamiento de Texto

En muchos casos vamos a recibir el texto en una lista de elementos. Python nos permite unir los elementos de texto con la función join.

In [6]:
" ".join(["No", "quiero", "estar en una lista"])

'No quiero estar en una lista'

In [7]:
# Podemos agregar cualquier separador entre las palabras en medio de las comillas del join
"--".join(["A", "B", "C"])

'A--B--C'

In [8]:
# Esto solo funcionará con cadénas de texto 
", ".join([1, 2, 3])

TypeError: sequence item 0: expected str instance, int found

In [9]:
# Esto solo funcionará con cadénas de texto 
# Al poner comillas en cada número, las transformamos a texto
", ".join(["1", "2", "3"])

'1, 2, 3'

Hay veces que el texto vendrá con demasiados espacios en blanco. Podemos eliminarlos fácilmente con el método strip()

In [None]:
# Eliminamos todos los espacios de la izquierda y derecha del texto
s = "     This is some text.......      "
s.strip()

'This is some text.......'

In [None]:
# Solo los de la izquierda
s.lstrip()

'This is some text.......      '

In [None]:
# Solo derecha
s.rstrip()

'     This is some text.......'

In [None]:
# También podemos eliminar caracteres 
# Quitemos los puntos de la derecha y los espacios 
s.rstrip(" .")

'     This is some text'

In [None]:
# Strip solo funciona en el inicio y el final de una cadena. 
# No reemplaza lo que está en el medio 
s.strip(" Tt.")

'his is some tex'

## Manipulando las mayúsculas y minúsculas del texto. 

In [None]:
# Ponemos mayúscula a la primera letra 
"soy una oración.".capitalize()

'Soy un título.'

In [None]:
# Todo a minúsculas 
"NO QUIERO PARECER QUE ESTOY GRITANDO!!".lower()

'no quiero parecer que estoy gritando!!'

In [None]:
# 'Swap', mayúsculas pasan a minúsculas y viceversa
"this IS a TeST!".swapcase()

'THIS is A tEst!'

In [None]:
# Todas las palabras con la primera mayúscula
"soy un título y quiero verme como tal".title()

'Soy Un Título Y Quiero Verme Como Tal'

### .upper(): return a copy of the string with all characters in uppercase.

In [None]:
# Todo a mayúscula
"yo si quiero parecer como si estuviera gritando!".upper()

'YO SI QUIERO PARECER COMO SI ESTUVIERA GRITANDO!'

# Búsqueda y partición en las cadenas 

In [None]:
# Contar cuantas veces hay la aparición de una cadena
"This is a test for counting 'is' in a string.".count("is")

3

In [None]:
# podemos poner un rango (en este caso de la pos 0 a la pos 10 del texto)
"This is a test for counting 'is' in a string.".count("is", 0, 10)

2

In [None]:
# Devolver la posición donde encontramos una subcadena 
"Where is the dog?".find("dog")

13

In [None]:
# Si no lo encuentra devuelve -1
"I can only find a cat.".find("dog")

-1

In [None]:
# Qué pasa si tenemos dos veces la subcadena? 
# Devuelve la primera posición 
"Is a bulldog a dog?".find("dog")

9

In [None]:
# Si queremos sacar la última posición utilizamos rfind
"Is a bulldog a dog?".rfind("dog")

15

In [None]:
# Partition divide el texto en una tupla de 3 partes, utilizando como referencia una subcadena
# Dividimos el texto por la subcadena "c" en una tupla de 3 elementos
# Se toma la primera aparición de la cadena como punto de partición
s = "Does this string contain a 'c'?"
s.partition("c")

('Does this string ', 'c', "ontain a 'c'?")

In [None]:
# Otro ejemplo
s.partition("string")

('Does this ', 'string', " contain a 'c'?")

In [None]:
# Si no encuentra la subcadena, igual realiza la partición
s.partition("elementoNoExistente")

("Does this string contain a 'c'?", '', '')

# Reemplazar dentro de una cadena de texto

In [None]:
# Utilizamos reemplazar, donde el primer elemento es la subcadena que 
# queremos reemplazar, y el segundo es la subcadena que usaremos en su lugar
print("Esto no es una pregunta?".replace("?", "!"))

Esto no es una pregunta!


In [None]:
# Podemos también especificar el número de veces que queremos reemplazar 
# el texto. 
s = "One, two, three, two"
print(s.replace("two", "four"))
print(s.replace("two", "four", 1))

One, four, three, four
One, four, three, two


# Split (Separa el texto en una lista)

In [None]:
s = "La película split me encanta"
# Si ejecutamos split sin argumento, separa las cadenas separadas por espacios
words = s.split()
print(words)


['La', 'película', 'split', 'me', 'encanta']


In [None]:
# Podemos también pasarle como argumento, la subcadena que queremos que considere
# para realizar el corte
s = "La película split | me encanta"
lista = s.split(" | ")
print(lista)

['La película split', 'me encanta']


In [None]:
# Otro ejemplo
"1 --- 2 --- 3 --- 4 --- 5".split(" --- ")

['1', '2', '3', '4', '5']

In [None]:
# Podemos hacer algo similar con la función split lines, 
# Que separará texto por líneas 
text= '''First line
Second line

Fourth line'''
text.splitlines()

['First line', 'Second line', '', 'Fourth line']

# Revisando propiedes de las cadenas de texto

In [None]:
# Devuelve True or False si cumple la condición. Por ejemplo
"Python".endswith("on")

True

In [None]:
# Recuerda que las cadenas consideran si el texto está en mayúscula o minuscula
"Python".startswith("py")

False

In [None]:
# Podemos utilizar la función lower que vimos antes para resolverlo
"Python".lower().startswith("py")

True

In [None]:
# También Python nos puede decir si la cadena tiene sólo caracteres alphanuméricos
"123algo".isalnum()

True

In [None]:
# Da falso si no hay algo que no sea letra o número
"123!!".isalnum()

False

In [None]:
# También nos puede decir si la cadena solo tiene números 
"123".isdigit()

True

# Indexación 
Las cadenas se pueden indexar utilizando corchetes como en los elementos iterables. En realidad,una cadena de texto es un elemento iterable...

In [None]:
s = "123456789"
print(s[0:5])

12345


In [None]:
s="8980989089809898"
print(s[-6:-1])

80989


# Challenge 

Me ha llegado la información de unas entradas y tengo que procesarlas. El objetivo es estructurar los datos en una tabla, pero la información llegó con varios problemas... Me podrías ayudar a limpiar y estructurar el mensaje?
Las instrucciones de cómo hacerlo están en el mismo mensaje :)

* Esta es una línea de comentario y no sirve para nada 
* La estructura de la información relevante es: 
* primeros 5 digitos : id del cliente
* los siguientes 3 digitos: id del canal 
* los siguientes 5 digitos: id del evento
* Una cantidad variable de caracteres inútiles 
* El caracter "-" marca el inicio y final del precio de venta. 
* Necesitamos una tabla que estructure la información descrita anteriormente

In [180]:

mensaje = """
* Esta es una línea de comentario y no sirve para nada 
* La estructura de la información relevante es: 
* primeros 5 digitos : id del cliente
* los siguientes 3 digitos: id del canal 
* los siguientes 5 digitos: id del evento
* Una cantidad variable de caracteres inútiles 
* El caracter "-" marca el inicio y final del precio de venta. 
* Necesitamos una tabla que estructure la información descrita anteriormente 
Patricio Fernadez, 0123400111111jkljlkjhjkhjkhjkhjkh-25.6-ergfgfggfhgfhgfh
Borja Mon de York, 0123500111111jklfgfglkjhjkhjkhjkhjkh-25.6-rtytry
Patricio Fernandez, 0123400111111jkljassaslkjhjkhjkhjkhjkh-55.3-tyt
Bruce Wayne, 0123400111111jkljlkjhjkhjkhjkhjkh-75.6-asfdsf
Micheal Jordan, 0123600111111jkljlkjhjkhjkhjkhjkh-125.6-fdgdghrtt
Patricio Fernandez, 0123600211111jkljlkjhjkhjkhjkhjkh-28.6-ererggfdv

Elidolo DelEcuador, 0123400111111jkljlkjhjkhjkrrrhjkhjkh-25.6-dsgfdgrd
* Esto es una trampa!
Peter Parker, 0123900511111jkljlkjhjkhjkhjkhjkh-75.2-fgbfb
Ignacio Gonzalez, 0123400111111jkljlkjhjkhjkhjkhjkh-25.6-dgergetg

Clark Kent, 0122200111111jkljlkgfghfhjhjkhjkhjkhjkh-15.8-sdfgfdgdg
Bruce Wayne, 0123900111111jkljlkrrrrjhjkhjkhjkhjkh-35.2-gregregr
Pepe Fulano, 0123400111111jkljlkjhjkhjkhjkhjkh-25.6-wrgrgreg"""



In [181]:
mensaje = mensaje.splitlines()
mensaje[5]

'* los siguientes 5 digitos: id del evento'

In [182]:
texto =[]
for i in mensaje :
    if i.startswith('*') == False and i !="":
        j=i.split(",")
        nombre=j[0]
        id=j[1][0:6]
        canal=j[1][6:9]
        evento=j[1][9:14]
        valor =j[1].split("-")[1]
        texto.append([nombre,id,canal,evento,valor])

texto

[['Patricio Fernadez', ' 01234', '001', '11111', '25.6'],
 ['Borja Mon de York', ' 01235', '001', '11111', '25.6'],
 ['Patricio Fernandez', ' 01234', '001', '11111', '55.3'],
 ['Bruce Wayne', ' 01234', '001', '11111', '75.6'],
 ['Micheal Jordan', ' 01236', '001', '11111', '125.6'],
 ['Patricio Fernandez', ' 01236', '002', '11111', '28.6'],
 ['Elidolo DelEcuador', ' 01234', '001', '11111', '25.6'],
 ['Peter Parker', ' 01239', '005', '11111', '75.2'],
 ['Ignacio Gonzalez', ' 01234', '001', '11111', '25.6'],
 ['Clark Kent', ' 01222', '001', '11111', '15.8'],
 ['Bruce Wayne', ' 01239', '001', '11111', '35.2'],
 ['Pepe Fulano', ' 01234', '001', '11111', '25.6']]

In [183]:
import pandas as pd

In [184]:
df_listado= pd.DataFrame(texto, columns=['nombre','id','canal','evento','valor'])
df_listado

Unnamed: 0,nombre,id,canal,evento,valor
0,Patricio Fernadez,1234,1,11111,25.6
1,Borja Mon de York,1235,1,11111,25.6
2,Patricio Fernandez,1234,1,11111,55.3
3,Bruce Wayne,1234,1,11111,75.6
4,Micheal Jordan,1236,1,11111,125.6
5,Patricio Fernandez,1236,2,11111,28.6
6,Elidolo DelEcuador,1234,1,11111,25.6
7,Peter Parker,1239,5,11111,75.2
8,Ignacio Gonzalez,1234,1,11111,25.6
9,Clark Kent,1222,1,11111,15.8


In [185]:
df_listado = df_listado[['id','nombre','canal','evento','valor']]
df_listado

Unnamed: 0,id,nombre,canal,evento,valor
0,1234,Patricio Fernadez,1,11111,25.6
1,1235,Borja Mon de York,1,11111,25.6
2,1234,Patricio Fernandez,1,11111,55.3
3,1234,Bruce Wayne,1,11111,75.6
4,1236,Micheal Jordan,1,11111,125.6
5,1236,Patricio Fernandez,2,11111,28.6
6,1234,Elidolo DelEcuador,1,11111,25.6
7,1239,Peter Parker,5,11111,75.2
8,1234,Ignacio Gonzalez,1,11111,25.6
9,1222,Clark Kent,1,11111,15.8


In [186]:
df_listado.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 12 entries, 0 to 11
Data columns (total 5 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   id      12 non-null     object
 1   nombre  12 non-null     object
 2   canal   12 non-null     object
 3   evento  12 non-null     object
 4   valor   12 non-null     object
dtypes: object(5)
memory usage: 608.0+ bytes


In [187]:
df_listado.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 12 entries, 0 to 11
Data columns (total 5 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   id      12 non-null     object
 1   nombre  12 non-null     object
 2   canal   12 non-null     object
 3   evento  12 non-null     object
 4   valor   12 non-null     object
dtypes: object(5)
memory usage: 608.0+ bytes


In [190]:
df_listado 

Unnamed: 0,id,nombre,canal,evento,valor
0,1234,Patricio Fernadez,1,11111,25.6
1,1235,Borja Mon de York,1,11111,25.6
2,1234,Patricio Fernandez,1,11111,55.3
3,1234,Bruce Wayne,1,11111,75.6
4,1236,Micheal Jordan,1,11111,125.6
5,1236,Patricio Fernandez,2,11111,28.6
6,1234,Elidolo DelEcuador,1,11111,25.6
7,1239,Peter Parker,5,11111,75.2
8,1234,Ignacio Gonzalez,1,11111,25.6
9,1222,Clark Kent,1,11111,15.8


In [191]:
df_listado[df_listado['id'] == " 01234"]

Unnamed: 0,id,nombre,canal,evento,valor
0,1234,Patricio Fernadez,1,11111,25.6
2,1234,Patricio Fernandez,1,11111,55.3
3,1234,Bruce Wayne,1,11111,75.6
6,1234,Elidolo DelEcuador,1,11111,25.6
8,1234,Ignacio Gonzalez,1,11111,25.6
11,1234,Pepe Fulano,1,11111,25.6


In [192]:
df_listado[df_listado['id'] == ' 01234']['nombre'].value_counts()

Patricio Fernadez     1
Patricio Fernandez    1
Bruce Wayne           1
Elidolo DelEcuador    1
Ignacio Gonzalez      1
Pepe Fulano           1
Name: nombre, dtype: int64

In [193]:
df_listado[df_listado['id'] == ' 01234']['nombre'].value_counts().idxmax()

'Patricio Fernadez'

In [194]:
df_listado.loc[df_listado['id'] == ' 01234','nombre'] = 'Patricio Fernandez'
df_listado

Unnamed: 0,id,nombre,canal,evento,valor
0,1234,Patricio Fernandez,1,11111,25.6
1,1235,Borja Mon de York,1,11111,25.6
2,1234,Patricio Fernandez,1,11111,55.3
3,1234,Patricio Fernandez,1,11111,75.6
4,1236,Micheal Jordan,1,11111,125.6
5,1236,Patricio Fernandez,2,11111,28.6
6,1234,Patricio Fernandez,1,11111,25.6
7,1239,Peter Parker,5,11111,75.2
8,1234,Patricio Fernandez,1,11111,25.6
9,1222,Clark Kent,1,11111,15.8


In [195]:
df_listado[df_listado['id'] == " 01234"]

Unnamed: 0,id,nombre,canal,evento,valor
0,1234,Patricio Fernandez,1,11111,25.6
2,1234,Patricio Fernandez,1,11111,55.3
3,1234,Patricio Fernandez,1,11111,75.6
6,1234,Patricio Fernandez,1,11111,25.6
8,1234,Patricio Fernandez,1,11111,25.6
11,1234,Patricio Fernandez,1,11111,25.6
