  # Cuaderno 2: Cadenas de caracteres (strings)
  
  Entre los tipos de datos más utilizados se encuentran los tipos **string** y **list**.
  
  Una cadena de caracteres (*string*) es una secuencia de caracteres delimitada por comillas simples o dobles.

### Aspectos básicos

In [None]:
S = "Hola mundo"
print(S)

En el lenguaje Python, la función `type` retorna el tipo de un objeto:

In [None]:
print(type(S))

Para acceder a los caracteres individuales de una cadena se utilizan índices entre corchetes.

In [None]:
print(S[0])
print(S[3])

El índice de -1 se refiere al último elemento, -2 al penúltimo elemento y así sucesivamente. 

In [None]:
print(S[-1])
print(S[-5])

El operador `+` se usa para concatenar varias cadenas de caracteres.

In [None]:
S1 = 'Hola mundo'
S2 = '!!!'
print(S1+S2)
print(S2+S1)

El operador `*` crea nuevas cadenas, repitiendo múltiples copias de la misma cadena.

In [None]:
print(S*3)
print((S+'-')*10)



La función`len` devuelve la longitud de una cadena de caracteres.

In [None]:
print(len(S))

El operador `in` permite consultar si un caracter (o una subcadena de caracteres) aparece dentro de otra cada. Este operador devuelve como resultado los valores de `True` o `False`.

In [None]:
print('o' in 'carro')
print('ro' in 'carro')
print('or' in 'carro')

Una cadena de caracteres es una estructura de datos *iterable*: es posible utilizar el operador `in` en combinación con la instrucción de iteración `for` para examinar cada uno de los caracteres de la cadena. Veremos más acerca de de las estructuras de iteración en el Cuaderno 7.

In [None]:
for c in 'carro':
    print(c)

De manera similar, puede iterarse sobre una cadena de caracteres empleando la instrucción `while` combinada con una variable de indexación y la función `len`:

In [None]:
i=0
s='carro'
while(i<len(s)):
    print(s[i])
    i+= 1

Una de las características importantes del tipo *string* es que es un tipo  *inmutable*. Esto significa que los caracteres de un string no se pueden cambiar individualmente.

In [None]:
# ERROR: strings son inmutables
S[0]='h'

Sin embargo, es posible usar el mismo nombre de variable para crear un nuevo string.

In [None]:
S = "Hola mundo"
print(S)
S = 'h' + S[1:]
print(S)

### Extrayendo subcadenas (slicing)

Una característica especial de Python es la posibilidad de extraer subcadenas de una cadena mayor, utilizando una notación conocida como *slicing*. Pueden especificarse rangos empleando `[a:b]`. Notar que`b` es el índice del elemento *posterior* al final del rango.

In [None]:
print(S)
print(S[0:3])
print(S[1:6])

Se puede omitir el índice del inicio o del final del rango. En ese caso, se entiende que se se trata del primer o del último elemento, respectivamente.

In [None]:
print(S[:3])
print(S[3:])

También pueden usarse índices negativos para cualquiera de los dos extremos del rango. 

In [None]:
print(S)
print(S[-2])
print(S[:-3])
print(S[1:-1])
print(S[-2:-1])


### Otras funciones y métodos útiles



El método `S.find(T)` determina la posición de la primera aparición de la subcadena `T` dentro de la cadena `S`. Si la cadena `S` no contiene a `T`, este método retorna -1.

In [None]:
print(S)
print(S.find('ol'))
print(S.find('do'))
print(S.find('od'))

El método `S.replace(T,U)` reemplaza todas las apariciones de la subcadena `T` por la subcadena `U` dentro de la cadena `S`.

In [None]:
print(S)
print(S.replace('ho', '*'))
print(S.replace('o','ee'))

Los métodos `S.upper()` y `S.lower()` convierten la cadena `S` a letras mayúsculas y minúsculas, respectivamente.

In [None]:
S = 'Hola Mundo'
print(S)
print(S.upper())
print(S.lower())
print(S)

El método `S.isalpha` verifica si la cadena `S` está formada únicamente por caracteres alfabéticos.

In [None]:
print(S)
print(S.isalpha()) # el espacio NO se considera un caracter alfabetico
S2 = 'HolaMundo'
print(S2.isalpha())

El método `S.isdigit` verifica si la cadena `S` está formada únicamente por dígitos.

In [None]:
print(S.isdigit())
print('34567'.isdigit())
print('34.567'.isdigit())

### Formateo mediante el operador  %
Este operador es único para cadenas de caracteres y se usa para formatear mensajes de salida al estilo de la familia `printf` el lenguaje C. 

In [None]:
S = 'La palabra %8d dice: %s en el tiempo %10.3f'
print(S)
print(S % (0, 'Hola', 45.36))
print(S % (27, 'Chao', 1500.8829))

### Formateo mediante método .format
Alternativamente, los mensajes de salida pueden formatearse empleando el método `S.format`.

In [None]:
S = 'La palabra {} dice: {} en el tiempo {:15,.2f}'
print(S.format(0, -35, 45.367))
print(S.format(1, 'mundo', 3211500.8822))
x = 3 + 5 * 4
y = 4*3
print('x= {}'.format(x))
# pueden usarse índices en las llaves para referirse a elementos específicos
print('x= {0}, y={1}, x+y={0}+{1}'.format(x,y))

print('x= {0:5d}, y={1:5d}, x+y={0:8d}+{1:8d}'.format(x,y))

### Caracteres especiales
Al igual que en el lenguaje C, existen caracteres especiales que pueden accederse a través del *caracter de escape* \\.

In [None]:
S = '\'Saltos de linea,\n tabulaciones\ttabulaciones, cero caracter \0\0'
print(S)
print('Hola\0\thola\n')

### Expresiones regulares
Una expresión regular es una cadena de texto especial que se utiliza para describir un patrón de búsqueda dentro de una cadena de caracteres. Las expresiones regulares son una herramienta potente para el procesamiento de textos.

En Python, el módulo *re* proporciona aceso a funciones de expresiones regulares.

In [None]:
S='Luis Miguel <luis.torres@epn.edu.ec>'
print (S)

In [None]:
import re
match= re.match('.*<(.*)@(.*)>', S)
usuario= match.group(1)
print ('usuario: ' + usuario)

In [None]:
servidor= match.group(2)
print ('servidor: ' + servidor)
email = usuario + '@' + servidor
print ('cuenta: ' + email)

### Más información...

Para ver todos los métodos disponibles en la clase *string*:

In [None]:
print(dir(S))

Para obtener ayuda acerca de un método específico:

In [None]:
help(S.title)

In [None]:
print('hola mundo'.title())

Para consultar la información disponible en el sitio web oficial de Python:

* Sobre la clase [string](https://docs.python.org/es/3/library/string.html)
* Sobre [expresiones regulares](https://docs.python.org/es/3/library/re.html)