# Lab 0.2 Strings

## 1. String literales

En programación, es muy frecuente trabajar con secuencias de caracteres, llamadas **strings**. In Python 3, se representan los strings por defecto usando el [estándar Unicode](https://en.wikipedia.org/wiki/Unicode), en particular [la codificación UTF-8](https://docs.python.org/3/howto/unicode.html#the-string-type). En la práctica, esto permite que podamos escribir caracteres de cualquier idioma o alfabeto del mundo.

In [1]:
spanish = '¿Cómo estás?'
russian = 'Как поживаешь?'
hebrew = 'מה שלומך?'
farsi = 'حالتون چطوره؟'

In [10]:
print('♠,♥,♦,♣')

♠,♥,♦,♣


En Python, los **valores literales de tipo string** se pueden representar de tres formas:

In [7]:
# Entre comillas simples. Se pueden incluir comillas dobles dentro del string
single_quotes = 'This is an "example" of string between single quotes'

# Entre comillas dobles. Se pueden incluir comillas simples dentro del string
double_quotes = "This is 'another example' with a string between double quotes"

# Entre triple comilla simple o doble. Se puede incluir cualquier tipo de comilla dentro del string.
triple_quotes = """Triple quotes '"'" are very long"""

# En este último caso, podemos escribir un string en múltiples líneas (contiene saltos de línea)
# Fuente: https://www.familyfriendpoems.com/poems/other/short/
line_breaks = """Simple Sam was a simple man.
He lived each day by a simple plan.
Enjoy your life and live while you can.
Make each day count and take a stand.
"""
print(single_quotes)
print(double_quotes)
print(triple_quotes)
print(line_breaks)

This is an "example" of string between single quotes
This is 'another example' with a string between double quotes
Triple quotes '"'" are very long
Simple Sam was a simple man.
He lived each day by a simple plan.
Enjoy your life and live while you can.
Make each day count and take a stand.



Por tanto, podemos elegir dependiendo del tipo de contenido que queremos incluir dentro del string.

Finalmente, otro detalle importante sobre los strings es que son **inmutables**, es decir, que **una vez creados no se pueden modificar**. Por tant, para alterar el contenido de un string se debe crear un nuevo, sustituyendo los caracteres deseados por otros, añadiendo nuevos caracteres como prefijo o sufijo, juntando dos o más strings, etc.

In [6]:
adios = "Adios"
print(adios[0])
 

A


In [8]:
adios = "Adios"
adios = 3.0
print(adios)
adios = True
print(adios)

3.0
True


In [8]:
single_quotes[3] = 'c'  # Intentamos cambiar la cuarta letra del string

TypeError: 'str' object does not support item assignment

### 1.1 Imprimir strings

Muchos objetos en Python, incluyendo números (`int`, `float`) y valores lógicos (`True` o `False`) se pueden transformar automáticamente en strings cuando los pasamos a la función `print()`:

In [37]:
area_triangle = 99.0
print('Area of triangle:', area_triangle)

condition = True
print('The status of condition is:', condition)

Area of triangle: 99.0
The status of condition is: True


Ten en cuenta que en los ejemplos anteriores estamos **separando los elementos que le pasamos a `print()` con comas**, en lugar de usar el operador `+` (que explicamos más adelante). Cuando usamos comas, `print()` traduce cada elemento que pasamos entre paréntesis a una representación de tipo `str`, y junta todos los strings individuales en un solo, **añadiendo además espacios en blanco entre los elementos**, para mostrar el mensaje.

Por contra, tal y como hemos visto ya en el notebook 0.1, el operador `+` debe usarse con elementos del mismo tipo. Si no, el intérprete Python devuelve un error:

In [6]:
print('The status of condition is: ' + condition)

TypeError: must be str, not bool

In [7]:
print('The status of condition is: ' + str(condition))

The status of condition is: True


### 1.2 Caracteres especiales

Algunos caracteres especiales no se pueden insertar sin más en un string, excepto el espacio en blanco y los signos de puntuación. Por ejemplo, los caracteres especiales incluyen el carácter de *nueva línea* or el tabulador. En estos casos, usamos el carácter `\` (llamado el **carácter de escape**) para representar estos caracteres especiales. Otro uso del carácter de escape es para incluir comillas simples o dobles dentro de un string delimitado por el mismo tipo de comillas:

* El carácter nueva línea es `\n`.
* El tabulador es `\t`.
* Las comillas simples se pueden escapar con `\'` (es decir, se interpretará como el carácter comilla simple, no como el delimitador de un string).
* Las comillas dobles se pueden escapar con `\"` (para representar el carácter doble comilla, y no el delimitador de un string).
* También funciona con comillas triples: `\'''` o `\"""`.
* Puedes escapar la barra invertida con la propia barra invertida: `\\`.

In [28]:
# String con caracteres de nueva línea
# Fíjate que los espacios en blanco se mantienen en la segunda y tercera línea
# No se necesita escapar los espacios en blanco
print("This is a test\n This will be in a new line\nThis will be displayed in the third line.")

This is a test
 This will be in a new line
This will be displayed in the third line.


In [31]:
# String con tabuladores
print("First item\tSecond item separated with tab\t\tThird one, two tabs away from the previous one.")

First item	Second item separated with tab		Third one, two tabs away from the previous one.


In [8]:
# Escapar comillas
print('This is said to \'escape single quotes\'')
print("And this to \"escape double quotes\"")
print('''Escape triple quotes with \''' or \"""''')

# Escapar la barra invertida
print('This is a backslash displayed: \\')

This is said to 'escape single quotes'
And this to "escape double quotes"
Escape triple quotes with ''' or """
This is a backslash displayed: \


In [35]:
logico = True
numero1 = 5
numero2 = 3.14
mi_string = 'hola'
print(logico, numero1, numero2, mi_string, sep='\n')

True
5
3.14
hola


Además de esto, el string vacío (una secuencia de cero caracteres) también es válida, delimitada por cualquiera de las opciones disponibles:

In [15]:
empty_1 = ''
empty_2 = ""
empty_3 = ''''''
empty_4 = """"""

Es interesante conocer el **valor lógico** asignado al string vacío, comparado con cualquier otro string con al menos un carácter (incluso si es el espacio en blanco):

In [9]:
bool('')  # Devuelve False

False

In [11]:
bool(' ')  # Devuelve True, incluso un espacio en blanco

True

### 1.3 Constantes string

El **módulo string** proporciona una colección de constantes y funciones para facilitar tareas comunes con string. Podemos usarlas en nuestro programa con la sentencia de importación:

```python
import string
```

La documentación Python incluye una lista muy útil de [constantes string](https://docs.python.org/2/library/string.html#string-constants) que podemos aprovechar para ahorrar tiempo en nuestra creació de código:

In [13]:
import string


print("Letra minúsculas y mayúsculas en alfabeto latino occidental: ", string.ascii_letters)
print("Lista de signos de puntuación: ", string.punctuation)

Letra minúsculas y mayúsculas en alfabeto latino occidental:  abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ
Lista de signos de puntuación:  !"#$%&'()*+,-./:;<=>?@[\]^_`{|}~


## 2. Operadores string

Una característica muy potente del lenguaje Python es que el significado de los operadores aritméticos de suma `+` y multiplicación `*` cambia cuando se aplican a variables o valores de tipo string.

Cuando se aplica a operandos de tipo string, el operador `+` se convierte en **concatenación**, es decir, crea un nuevo string añadiendo el segundo operando a continuación del primero. Recuerda que este tipo de operaciones siempre **crea un nuevo string**, puesto que los valores string no se pueden modificar (son *inmutables*):

In [39]:
# Fíjate en que los strings se unenn sin espacios en blanco entre ellos
'First string' + 'Second string' + 'Third string'

'First stringSecond stringThird string'

El segundo operador ocn un significado especial cuando se aplica a strings es `*`, que se convierte en **replicación**. La sintaxis es:

```python
string_value_or_var * int_num_times_to_replicate
```

In [40]:
# De nuevo, no hay espacios en blanco entre las réplicas
cadena = 'This string will be replicated twice'
cadena_2 = cadena * 2
print(cadena)
cadena_3 = cadena * 3 + 'ADIOS'
cadena_3

This string will be replicated twice


'This string will be replicated twiceThis string will be replicated twiceThis string will be replicated twiceADIOS'

## 3. Indexación de strings

En la primera sección de este notebook, hemos dicho que los valores o variables string representan una *secuencia* de caracteres, es decir, una colección de letras que están ordenadas en posiciones consecutivas. También hemos dicho que los string son *inmutable*, y no se pueden alterar una vez creados.

Sin embargo, los objetos de tipo secuencia en Python guardan información sobre la **posición de cada elemento** en la secuencia. Como resultado, podemos usar esta informaión para recuperar elementos individuales a partir de la secuencia. Esto lo conseguimos mediante la **indexación de secuencias**. Se usa una sintaxis especial para decirle al intérprete que queremos recuperar uno o varios elementos de la secuencia, especificando su posición dentro de la misma.

La sintaxis para indexación de secuencias (colecciones ordenadas de elementos) en Python es:

```python
nombre_sec[indice]  # Donde indice debe ser un entero
```

La convención que se sigue en Python (y muchos otros lenguajes de programación, *pero no en todos*) es identificar los elementos de la secuencia de esta forma:

* **El primer elemento** en la secuencia tiene **índice 0**.
* **El segundo elemento** en la secuencia tiene **índice 1**.
* Etc...

En otras palabras, en lugar de indicar el identificador *ordinal* (primero $\rightarrow$ 1, segundo $\rightarrow$ 2, etc.) debemos usar un [**offset**](https://en.wikipedia.org/wiki/Offset_(computer_science)), que es la distancia (en número de posiciones) entre el comienzo de la secuencia y el elemento deseado:

In [42]:
my_string = 'abcdefg'
print(my_string[0])  # Primer elemento
print(my_string[1])  # Segundo elemento


a
b


En resumen, un string que contiene $n$ caracteres tendrá índices válidos dentro del rango $\{0, \dots, n-1\}$. Si intentamos recuperar un elemento usando un índice que caiga fuera de este rango, el intérprete devuelve un error (con un mensaje muy elocuente explicando los motivos):

In [6]:
my_string[20]

IndexError: string index out of range

Por lot tanto, para evitar problemas podemos calcular primero la longitud de la secuencia, usando la función integrada **len()**:

In [46]:
my_string[len(my_string) - 1]  # Evitamos caer fuera de los límites de índices del string

'g'

Sin embargo, esta operación es tan frecuente en Ptyhon que existe una **sintaxis especial para recuperar el último elemento** de cualquier secuencia:

In [44]:
my_string[-1]  # Sintaxis especial para indexar desde el final de la secuencia

'g'

De hecho, se puede generalizar esta notación para indexar cualquier elemento de una secuencia, pero indicando  **su posición desde el final de la secuencia**, en lugar del offset desde el comienzo (**Cuidado: con la notación de índice negativo, tenemos que usar la posición del elemento, no el *offset* desde el final de la secuencia**):

In [9]:
my_string[-3]

'e'

In [10]:
my_string[-20]  # Cuidado con caer fuera de los límites de índices del string

IndexError: string index out of range

### *3.1 Slicing*

También podemos recuperar un **subconjunto de elementos** de una secuencia, en lugar de componentes individuales. La notación que usamos es:

```python
nombre_sec[primero:ultimo]  # Donde primero y ultimo son ambos enteros
```

En Python, esto se denomina **slicing de secuencias**. Una advertencia sobre la forma en la que Python calcula la longitud de la *slice* recuperada: **la slice comenzará en el offset `primero` y acaba un elemento antes del offset `ultimo`**. Veamos un ejemplo:

In [51]:
my_string[1:4]  # Incluye elementos con offset 1, 2 y 3

'bcd'

In [53]:
my_string[1:-1]  # Elements elementos con offset 1, 2... hasta el penúltimo elemento

'bcdef'

La slice vacía también es válida, y devuelve una copia de todos los elementos de la secuencia original:

In [13]:
my_string[:]

'abcdefg'

In [2]:
saludo = "Hola que tal"
nuevo_saludo = saludo[0:5] + "k" + saludo[8:]
nuevo_saludo

'Hola k tal'

## 4. Métodos para strings

Podemos llamar en cualquier string a los [métodos para tipo string](https://docs.python.org/3/library/stdtypes.html#string-methods) que tiene disponibles cualquier literal o variable de este tipo. La forma en que llamamos a estos métodos es mediante la *sintaxis punto* sobre el propio literal o el nombre de la variable:

```python
str_valor.nombre_metodo
str_var.nombre_metodo
```

Veamos algunos ejemplos:

In [14]:
my_string.capitalize()  # Pasa primer carácter a mayúsucula

'Abcdefg'

In [15]:
my_string.upper()  # Todos los caracteres a mayúsculas

'ABCDEFG'

In [16]:
my_string.startswith('abc')  # Comprueba el comienzo de la secuencia

True

In [17]:
my_string.endswith('efg')  # Comprueba fin de la secuencia

True

In [55]:
'-12345'.isdigit()  # Comprueba si todos los caracteres son dígitos

False

In [63]:
import string
spaces = "   ...........  blank spaces   "
spaces.lstrip(string.punctuation + "a ")  # Quita espacios en blanco a la izquierda string.punctuation hace que se borre lo que hay, al primero que falle deja de quitar, por lo tanto la a no se quita

'blank spaces   '

In [64]:
spaces.rstrip()  # Quita espacios en blanco a la derecha

'   ...........  blank spaces'

In [65]:
spaces.strip()  # Quita espacios en blanco a izquierda y derecha

'...........  blank spaces'

In [12]:
# Devuelve una lista de elementos, separados por el delimitador escogido, parte los elementos por el caracter que pongas, en este caso por la coma
'First pack, second pack, third pack'.split(",")

['First pack', ' second pack', ' third pack']

In [23]:
long_str = 'This is a ver very long sentences in which we need to find a substring'
long_str.find("need")  # Encuentra la posición de una cadena dentro del string

46

In [24]:
'need' in long_str  # Comprueba la presencia de una cadena dentro del string

True

In [15]:
string = '   1   2    3'               # Borrar un caracter de todos los lados
string = string.replace(' ','')
string

'123'

In [31]:
string = 'hola que tal'                  #Elimina solo la primera a
string.replace('a', '', 1)


'hol que tal'

In [38]:
string.replace('a', '').replace('e','').replace('o','') # Varias seguidas


'hl qu tl'

In [39]:
(string.replace('h', '')      # Para escribir en dos diferentes se pone parentesis al principio y al final
      .replace('q', '')
      .replace('u', ''))

'ola e tal'

In [45]:
import re # Cómo sustituir dos caracteres de una, re = regular expresions 1-que quiero que busque,2-en que quiero que lo cconvierta,3-donde
re.sub("a|e|o", "", string)

'hl qu tl'

In [47]:
string.translate(string.maketrans('', '', 'aeo' )) #Se hace asi porque no tienen mismo numero de caracteres, para traducir a caracter inexistente

'hl qu tl'

In [53]:
traduccion = {'a':'', 'e':'', 'o':''}  
string.translate(string.maketrans(traduccion))


'hl qu tl'

## Ejercicios

### 1. Encontrar subsecuencias en datos de secuendias de ADN

Considera los siguientes strings, que representan secuencias de nucleótidos:

In [2]:
subseq1 = 'actg'
subseq2 = 'agct'
subseq3 = 'tcga'
subseq4 = 'TGGATCCA'

In [58]:
subseq1 = subseq1.upper()  # Tambien se puede poner seq_dna.find(subseq1.upper())
subseq2 = subseq2.upper()
subseq3 = subseq3.upper()

Usando los métodos para strings adecuados, encuentra la posición de todas las apariciones de los strings anteriores dentor de la secuencia:

In [56]:
seq_dna= """ACAAGATGCCATTGTCCCCCGGCCTCCTGCTGCTGCTGCTCTCCGGGGCCACGGCCACCGCTGCCCTGCC
CCTGGAGGGTGGCCCCACCGGCCGAGACAGCGAGCATATGCAGGAAGCGGCAGGAATAAGGAAAAGCAGC
CTCCTGACTTTCCTCGCTTGGTGGTTTGAGTGGACCTCCCAGGCCAGTGCCGGGCCCCTCATAGGAGAGG
AAGCTCGGGAGGTGGCCAGGCGGCAGGAAGGCGCACCCCCCCAGCAATCCGCGCGCCGGGACAGAATGCC
CTGCAGGAACTTCTTCTGGAAGACCTTCTCCTCCTGCAAATAAAACCTCACCCATGAATGCTCACGCAAG
TTTAATTACAGACCTGAA"""

In [64]:
seq_dna.find(subseq1) #214 = indice(index) es la posicion del primer caracter de la subsecuencia

-1

In [70]:
seq_dna.find(subseq2) # La primera vez que sale, hay que buscar todas


214

In [71]:
seq_dna.find(subseq2, 215) #Empieza a ver si hay otro a partir del siguiente caracter

-1

In [66]:
seq_dna.find(subseq3)

-1

In [67]:
seq_dna.find(subseq4)

-1

### 2. Comprobar formato de datos string de entrada

Considera un programa en Python en el que hay que comprobar que un string de entrada introducido por el usuario cumple las siguientes reglas:

- Todos los caracteres son minúsculas.
- Todos los caracteres son alfabéticos.
- Todos los caracteres son alguno de los incluidos en el conjunto $\{a, c, g, t\}$

Usa funciones para strings en una variable que simule guardar datos de entrada introducidos por el usuario para forzar a que se cumplan estas reglas.