##**Cadena de caracteres (String)**

Para el procesamiento y análisis de documentos de texto, uno de los tipos de datos más usuales es la cadena de caracteres, o "string" por su nombre en inglés. Es común también en español referirnos a este tipo de datos simplemente como "string".

La manera estándar de introducir una frase es mediante dobles comillas:



In [None]:
doc = "Vine a Comala porque me dijeron que acá vivía mi padre, un tal Pedro Páramo. Mi madre me lo dijo." 

doc  # es un String (str)

In [None]:
type(doc)   # Podemos verificar el tipo de dato de cualquier objeto de Python con esta función.

In [None]:
doc[3]  # podemos tener acceso a cada caracter individual, los cuales están indexados a partir del primer caracter que incia con 0.

In [None]:
doc[:9]   # la notación de ":" nos permite definir un rango, en este caso del índice 0 al 8 (9-1).

In [None]:
doc[-1]   # también podemos usar índices negativos...

In [None]:
doc[-8:-1]

In [None]:
len(doc) # podemos obtener el total de caracteres... reucerda que los espacios en blanco también son caracteres.

In [None]:
doc.lower()   # podemos transformar todo a minúsculas...

In [None]:
doc.upper()    # o todo a mayúsculas.

In [None]:
# Podemos hacer algunas operaciones entre strings:

x = "Hola"
y = 'mundo'

x + ' ' + y



También se pueden usar comillas sencillas para definir una cadena de caracteres o string:

In [None]:
w = '¡Buenos días, Señor Sol!'

w

Sin embargo, si dentro del enunciado se requieren usar comillas sencillas, no podemos usarlas con el mismo tipo de comillas del string porque se genera un error de sintaxis. 

Así, en el caso de que el enunciado requiera el uso de comillas, se puede proceder de cualquiera de las formas que se muestran en el ejemplo siguiente:

In [None]:
t1 = "Y me preguntó, '¿qué te pasó?', a lo cual no supe contestar."   # intenta ejecutar esta instrucción usando solamente comillas sencillas"

t2 = 'Y me preguntó, "¿qué te pasó?", a lo cual no supe contestar.'

t3 = 'Y me preguntó, \'¿qué te pasó?\', a lo cual no supe contestar.'

print(t1)
print(t2)
print(t3)

##**Listas y segmentación con Python: split(), strip()**

Puedes encontrar más información en la documentación de los métodos "split()" y "strip()" de Python, en las siguientes ligas:

https://python-reference.readthedocs.io/en/latest/docs/str/split.html 

https://python-reference.readthedocs.io/en/latest/docs/str/strip.html 

Al aplicar el método "split()" obtenemos una lista de strings y al aplicar el método "strip()" obtenemos un string.

In [None]:
# Definamos el siguiente string con el siguiente poema infantil-
# Observa que estamos utilizando el salto de línea (new line) "\n":

doc = "Aquel caracol\nQue va por el sol\nEn cada ramita\nLleva una flor.\n\nQue viva la gracia\nQue viva el amor\nQue viva la gracia\nDe aquel caracol."

print(doc)


In [None]:
len(doc)

In [None]:
milista = doc.split()   # Como valor predeterminado separa por espacios en blanco " " y saltos de línea "\n".

milista  # Ahora tenemos una lista, la cual se identifica por las corcheas al inicio y al final de la lista de strings.

In [None]:
len(milista)   # Este es el total de palabras (tokens) que tenemos en esta lista.

In [None]:
milista[1]    # Y podemos accesar cada palabra (token) de la lista con el índice correspondiente.

In [None]:
type(milista)   # Recuerda que también puedes verificar el tipo de dato con esta instrucción.

Regresando con la cadena de caracteres (string) y para entender mejor la manera en que puede aplicarse el método "split()", podemos aplicar las siguientes variantes:

In [None]:
doc.split('\n')   # Si segmentamos por salto de línea de manera explícita, los espacios en blanco ya no se toman en cuenta.

In [None]:
doc.split(' ')    # O bien separar solamente por espacios en blanco.

In [None]:
doc.split('el')   # Pero en general podemos separar con respecto a cualquier caracter o cadena de caracteres que indiquemos...

In [None]:
doc.split(' ', 4)   # Se puede indicar un máximo de separaciones a aplicar con el separador en cuestión.

In [None]:
doc.upper().split()    # También podemos hacer algunas combinaciones de métodos...

También podemos eliminar espacios en blanco al inicio o al final de una frase, lo cual es un caso muy común cuando se analizan documentos de texto.

In [None]:
# Se pueden omitir espacios en blanco al principio o final de un string, mientras
# no haya algún tipo de caracter antes o después:

txt = "                    Hola      mundo      .   "

x = txt.strip(' ')

In [None]:
txt    # string original

In [None]:
x   # se omiten los espacios en blanco, pero solo al inicio y al final del string.

In [None]:
type(x)    # En este caso tenemos un solo string.

In [None]:
txt.find('o')   # Nos regresa el índice de la primera aparición del caracter indicado.

In [None]:

'!!¡!¡¡hola¡¡¡!!!¡!!!'.strip('¡!')    # puedes indicar caracteres que se irán quitando tanto del inicio como del final de manera iterativa.

###También tenemos el método "splitlines()" para separar por saltos de línea. Veamos un ejemplo:

In [None]:
txt ='Hola mundo de terrícolas\nHemos llegado a visitarlos\nSaludos\n'

# Observa la diferencia entre ambas salidas:

print(txt)

txt

In [None]:
print('Separando por espacios en blanco y saltos de línea con split:\n\t', txt.split())

print('\nSeparando solo por saltos de línea con splitlines:\n\t', txt.splitlines())

##**replace()**

Recuerda siempre consultar la documentación correspondiente para obtener más información de cualquier función o método.

En particular para el método "replace" de una cadena de caracteres (String) puedes consultar esta documentación:

https://www.w3schools.com/python/ref_string_replace.asp 

In [None]:
doc.replace('a', 'A').split()    # podemos sustituir un string por otro que se indique en una cadena de caracteres.

##**join()**

En un String podemos unir los elementos indicados en su argumento mediante el string indicado.

Este método nos será más útil al aplicarlo a una lista. Veamos algunos ejemplos:[texto del enlace](https://)


In [None]:
txt = 'Hola'   # Podemos aplicar el método a un String donde cada caracter del argumento "Hola" 
               # se une con el string o caracter indicado entre las comillas.
'-'.join(txt)

In [None]:
# Sin embargo, se obtienen resultados más útiles con otro tipo de datos, como una lista de strings:

unalista = ['Mucha','luz','es','como','mucha','sombra','no','deja','ver','Octavio','Paz']
unalista

In [None]:
u = ' '.join(unalista)   # Y podemos conjuntar ahora los elementos de la lista de strings separándolos con un espacio en blanco,
                         # para obtener un solo string.

u    # string

##**find() y findall()**

Estos métodos encuentran un patrón o patrones de caracteres indicados. 

https://pandas.pydata.org/docs/reference/api/pandas.Series.str.find.html

https://pandas.pydata.org/docs/reference/api/pandas.Series.str.findall.html

###**También podemos usar el método find() en un String.** 

Veamos algún par de ejemplos, con la siguiente frase de Octavio Paz:

In [None]:
op = 'Mucha luz es como mucha sombra, no deja ver.'

In [None]:
op.find('mucha')    # Recuerda que mayúsculas y minúsculas son caracteres diferentes.

In [None]:
op.lower().find('mucha')

In [None]:
op.lower().find('mucha', 1)   # Si deseamos encontrar la segunda coincidencia de "mucha", en este caso 
                              # debemos realizar la búsqueda a partir del índice 1 y no del 0.

In [None]:
op.lower().rfind('mucha')     # O bien, podemos realizar la búsqueda en orden inverso: "reverse find".

##**Podemos separar una oración con respecto a sus palabras, caracteres especiales y signos de puntuación.**

### Por ejemplo:

In [None]:
import re

In [None]:
X = "-¿Qué eres? -Definirse es limitarse."

In [None]:
x = re.split(r' ', X)  # Separa con respecto a los espacios en blanco.
x

In [None]:
# O bien, si tenemos una frase en dos renglones:
X = """-¿Qué eres?
-Definirse es limitarse. Lao-Tse"""

In [None]:
x1 = re.split(r' ', X)  # Separa con respecto a los espacios en blanco.
x2 = re.split(r'[\n]', X)  # salto de línea.
x3 = re.split(r'[ \n]', X)  # espacios en blanco o salto de línea.
x4 = re.split(r'[-]', X)  # por el caracter "-" ... agrega un caracter vacío...
x5 = re.split(r'[ \n-]', X)
x6 = re.split(r'\W+', X)   # separamos con respecto a todo lo que no sea palabra: espacios en blanco, "-", signos de interrogación, el punto y seguido, en este caso.

x7 = re.findall(r'\w+', X)  # ... ahora sí, haciendo la búsqueda con respecto a las palabras :)

print('1:',x1)
print('2 ',x2)
print('3 ',x3)
print('4 ',x4)
print('5 ',x5)
print('6 ',x6)
print('7 ',x7)

### Veamos un ejemplo estándar para el caso del idioma inglés:

In [None]:
Y = "To say 'I don't have time', is like saying, 'I don't want to'. -Lao-Tzu"

In [None]:
y1 = re.findall(r"\w+", Y)  # Se tiene el inconveniente de que "don't" quedó separado, lo mismo que el nombre de Lao-Tzu.
y2 = re.findall(r"\w+|\S\w*", Y)  # primero busca palabras, de lo contrario todo lo que no sea espacio en blanco, seguido tal vez de palabras.
y3 = re.findall(r"\w+(?:['-]\w+)*", Y) # Si no agregamos "?:" no se obtiene lo deseado, ya que los paréntesis () tienen como segunda función 
                                       # buscar lo que está dentro, haciendo match con lo de afuera y una vez localizado solo extrae lo de adentro.
                                       # Así, esta última instrucción es la que extrae como tokens las negaciones con sus contracciones
                                       # y el nombre de Lao-Tzu, como una sola entidad.... Quita "?:" y observa lo que queda.

print(y1)
print(y2)
print(y3)

###**La combinación ?: con paréntesis redondos y findall**

In [None]:
re.findall(r"\w+(ing|ed)", "cat playing red")   # El paréntesis introduce prioridad y por lo tanto inicia buscando lo que haga match 
                                         # con "ing" o con "ed", además de con lo que está afuera y una vez que lo encuentra, 
                                         # se termina y da como salida solo lo que encontró dentro del paréntesis.
                                         # Si nada hace match dentro del paréntesis, regresa vacío.

In [None]:
re.findall(r"\w+(?:ing|ed)", "cat playing red") # La combinación "?:" cancela la instrucción de que una vez encontrado el match (en dado caso)
                                                # dentro y fuera del paréntesis, regrese solo lo que está dentro, sino que regrese todo
                                                # lo que hizo match.

Recuerda que no existe una única manera de resolver los ejemplos anteriores y tú puedes proponer algunas otras formas.

###**Fin del los ejercicios complementarios para practicar de la Semana 2**