  # Cuaderno 2: Cadenas de caracteres (strings)
  
  Entre los tipos de datos más utilizados se encuentran los tipos **string** y **list**.
  
  Una cadena de caracteres (*string*) es una secuencia de caracteres delimitada por comillas simples o dobles.

### Aspectos básicos

In [1]:
S = 'Hola mundo'
print(S)

Hola mundo


Para acceder a los caracteres individuales de una cadena se utilizan índices entre corchetes.

In [2]:
print(S[0])
print(S[3])

H
a


El operador `+` se usa para concatenar varias cadenas de caracteres.

In [3]:
S1 = 'Hola mundo'
S2 = '!!!'
print(S2+S1)

!!!Hola mundo


El operador `*` crea nuevas cadenas, repitiendo múltiples copias de la misma cadena.

In [4]:
print(S*3)
print((S+'-')*10)

Hola mundoHola mundoHola mundo
Hola mundo-Hola mundo-Hola mundo-Hola mundo-Hola mundo-Hola mundo-Hola mundo-Hola mundo-Hola mundo-Hola mundo-




La función`len` devuelve la longitud de una cadena de caracteres.

In [5]:
print(len(S))

10


El operador `in` permite consultar si un caracter (o una subcadena de caracteres) aparece dentro de otra cada. Este operador devuelve como resultado los valores de `True` o `False`.

In [6]:
print('o' in 'carro')
print('ro' in 'carro')
print('i' in 'carro')

True
True
False


Una cadena de caracteres es una estructura de datos *iterable*: es posible utilizar el operador `in` en combinación con la instrucción de iteración `for` para examinar cada uno de los caracteres de la cadena. Veremos más acerca de de las estructuras de iteración en el Cuaderno 7.

In [7]:
for c in 'carro':
    print(c)

c
a
r
r
o


De manera similar, puede iterarse sobre una cadena de caracteres empleando la instrucción `while` combinada con una variable de indexación y la función `len`:

In [8]:
i=0
s='carro'
while(i<len(s)):
    print(s[i])
    i+= 1

c
a
r
r
o


Una de las características importantes del tipo *string* es que es un tipo  *inmutable*. Esto significa que los caracteres de un string no se pueden cambiar individualmente.

In [9]:
# ERROR: strings son inmutables
S[0]='h'

TypeError: 'str' object does not support item assignment

Sin embargo, es posible usar el mismo nombre de variable para crear un nuevo string.

In [10]:
S = "Hola mundo"
print(S)
S = 'h' + S[1:]
print(S)

Hola mundo
hola mundo


### Extrayendo subcadenas (slicing)

Una característica especial de Python es la posibilidad de extraer subcadenas de una cadena mayor, utilizando una notación conocida como *slicing*. Pueden especificarse rangos empleando `[a:b]`. Notar que`b` es el índice del elemento *posterior* al final del rango.

In [11]:
print(S[0:4])
print(S[1:6])

hola
ola m


Se puede omitir el índice del inicio o del final del rango. En ese caso, se entiende que se se trata del primer o del último elemento, respectivamente.

In [12]:
print(S[:3])
print(S[3:])

hol
a mundo


El índice de -1 se refiere al último elemento, -2 al penúltimo elemento y así sucesivamente. 

In [13]:
print(S[-2])
print(S[:-3])
print(S[1:-1])
print(S[-2:-1])

d
hola mu
ola mund
d


### Otras funciones y métodos útiles



El método `S.find(T)` determina la posición de la primera aparición de la subcadena `T` dentro de la cadena `S`. Si la cadena `S` no contiene a `T`, este método retorna -1.

In [14]:
print(S)
print(S.find('ol'))
print(S.find('do'))
print(S.find('od'))

hola mundo
1
8
-1


El método `S.replace(T,U)` reemplaza todas las apariciones de la subcadena `T` por la subcadena `U` dentro de la cadena `S`.

In [15]:
print(S.replace('o', '*'))

h*la mund*


Los métodos `S.upper()` y `S.lower()` convierten la cadena `S` a letras mayúsculas y minúsculas, respectivamente.

In [16]:
print(S.upper())
print(S.lower())

HOLA MUNDO
hola mundo


El método `S.isalpha` verifica si la cadena `S` está formada únicamente por caracteres alfabéticos.

In [19]:
print(S)
print(S.isalpha()) # el espacio NO se considera un caracter alfabetico
S2 = 'Hola'
print(S2.isalpha())

hola mundo
False
True


El método `S.isdigit` verifica si la cadena `S` está formada únicamente por dígitos.

In [23]:
print(S.isdigit())
print('34567'.isdigit())

False
True


### Formateo mediante el operador  %
Este operador es único para cadenas de caracteres y se usa para formatear mensajes de salida al estilo de la familia `printf` el lenguaje C. 

In [28]:
S = 'La palabra %8d dice: %s en el tiempo %10.3f'
print(S % (0, 'Hola', 45.367))
print(S % (27, 'mundo', 1500.8829))

La palabra        0 dice: Hola en el tiempo     45.367
La palabra       27 dice: mundo en el tiempo   1500.883


### Formateo mediante método .format
Alternativamente, los mensajes de salida pueden formatearse empleando el método `S.format`.

In [29]:
S = 'La palabra {} dice: {} en el tiempo {:,.2f}'
print(S.format(0, -35, 45.367))
print(S.format(1, 'mundo', 3211500.8822))
print('Hola mundo {}!!!'.format('hoy es jueves'))

La palabra 0 dice: -35 en el tiempo 45.37
La palabra 1 dice: mundo en el tiempo 3,211,500.88
Hola mundo hoy es jueves!!!


### Caracteres especiales
Al igual que en el lenguaje C, existen caracteres especiales que pueden accederse a través del *caracter de escape* \\.

In [36]:
S = '\'Saltos de linea,\n tabulaciones\ttabulaciones, cero caracter \0\0'
print(S)
print('Hola\0\thola\n')

'Saltos de linea,
 tabulaciones	tabulaciones, cero caracter   
Hola 	hola



### Expresiones regulares
Una expresión regular es una cadena de texto especial que se utiliza para describir un patrón de búsqueda dentro de una cadena de caracteres. Las expresiones regulares son una herramienta potente para el procesamiento de textos.

En Python, el módulo *re* proporciona aceso a funciones de expresiones regulares.

In [37]:
S='Luis Miguel <luis.torres@epn.edu.ec>'
print (S)

Luis Miguel <luis.torres@epn.edu.ec>


In [38]:
import re
match= re.match('.*<(.*)@(.*)>', S)
usuario= match.group(1)
print ('usuario: ' + usuario)

usuario: luis.torres


In [40]:
servidor= match.group(2)
print ('servidor: ' + servidor)
email = usuario + '@' + servidor
print ('cuenta: ' + email)

servidor: epn.edu.ec
cuenta: luis.torres@epn.edu.ec


### Más información...

Para ver todos los métodos disponibles en la clase *string*:

In [42]:
print(type(S))
print(dir(S))

<class 'str'>
['__add__', '__class__', '__contains__', '__delattr__', '__dir__', '__doc__', '__eq__', '__format__', '__ge__', '__getattribute__', '__getitem__', '__getnewargs__', '__gt__', '__hash__', '__init__', '__init_subclass__', '__iter__', '__le__', '__len__', '__lt__', '__mod__', '__mul__', '__ne__', '__new__', '__reduce__', '__reduce_ex__', '__repr__', '__rmod__', '__rmul__', '__setattr__', '__sizeof__', '__str__', '__subclasshook__', 'capitalize', 'casefold', 'center', 'count', 'encode', 'endswith', 'expandtabs', 'find', 'format', 'format_map', 'index', 'isalnum', 'isalpha', 'isascii', 'isdecimal', 'isdigit', 'isidentifier', 'islower', 'isnumeric', 'isprintable', 'isspace', 'istitle', 'isupper', 'join', 'ljust', 'lower', 'lstrip', 'maketrans', 'partition', 'replace', 'rfind', 'rindex', 'rjust', 'rpartition', 'rsplit', 'rstrip', 'split', 'splitlines', 'startswith', 'strip', 'swapcase', 'title', 'translate', 'upper', 'zfill']


Para obtener ayuda acerca de un método específico:

In [43]:
help(S.swapcase)

Help on built-in function swapcase:

swapcase() method of builtins.str instance
    Convert uppercase characters to lowercase and lowercase characters to uppercase.



In [44]:
print(S)
print(S.swapcase())

Luis Miguel <luis.torres@epn.edu.ec>
lUIS mIGUEL <LUIS.TORRES@EPN.EDU.EC>
