# Sesi√≥n 02: Strings en Python
--- 

## Indexaci√≥n y Rebanado (Slicing)

En programaci√≥n los textos no se componen de frases o palabras, sino de caracteres. A estas cadenas de caracteres las llamamos **strings**. 

Python permite "sumar" y "multiplicar" strings, pero los resultados son muy distintos a los que vimos trabajando con datos num√©ricos...


In [1]:
print(f"He aqu√≠ la suma de dos caracteres: {'chachi'+'piruli'}") # La suma no es sino una concatenaci√≥n de 2 strings
print(f"Y aqu√≠ la multiplicaci√≥n de dos caracteres: {5*'bla'}") #¬†La multiplicaci√≥n concatena n veces una misma secuencia

He aqu√≠ la suma de dos caracteres: chachipiruli
Y aqu√≠ la multiplicaci√≥n de dos caracteres: blablablablabla


Estos strings son **datos estructurados**, una especie de "vectores" en los que cada car√°cter es una variable en s√≠ misma, parte de la cadena pero accesible "independientemente". 

Cada caracter de un string ocupa una posici√≥n fija llamada **√≠ndice**. Para acceder a ese caracter se utilizan los corchetes: **[√≠ndice]**

In [4]:
cadena = "¬°vivan las cadenas! üîó"

print(f"Primer caracter: {cadena[0]}") # El 0 es el primer √≠ndice
print(f"√öltimo caracter: {cadena[-1]}") # El -1 es el √∫ltimo en cambio

Primer caracter: ¬°
√öltimo caracter: üîó


No solo podemos acceder a caract√©res en particular, tambi√©n a conjuntos de ellos. Esto se hace incluyendo un par de indices dentro de los corchetes, separados por "**:**" as√≠: **[√≠ndice_inicio :√≠ndice_final]**

In [5]:
print(f"Primeros tres caracteres: {cadena[0:3]}")  # Del √≠ndice 0 al 2 (el 3 no se incluye)
print(f"Desde el √≠ndice 4 hasta el final: {cadena[4:]}") #¬†Del √≠ndice 4 (5¬∫ elemento) hasta el final
print(f"Desde el √≠ndice 4 hasta el final: {cadena[:-4]}") # Desde el principio hasta el √≠ndice 4 (5¬∫ elemento) contando desde el final

Primeros tres caracteres: ¬°vi
Desde el √≠ndice 4 hasta el final: an las cadenas! üîó
Desde el √≠ndice 4 hasta el final: ¬°vivan las cadena


La versi√≥n m√°s avanzada de este proceso permite recorrer las cadenas o strings entre dos √≠ndices, con un "paso" concreto: **[√≠ndice_inicio:√≠ndice_final:paso]**

La aplicaci√≥n m√°s interesante es la inversi√≥n de cadenas, pues Python entiende autom√°ticamente que si el **paso es negativo** debe recorrer la cadena en **direcci√≥n contraria, empezando por el final**. 

In [6]:
print(f"Solo los caracteres pares: {cadena[::2]}")
print(f"Solo los caracteres impares: {cadena[1::2]}")

print(50*"-")

print(f"Toda la cadena invertida: {cadena[::-1]}")
print(f"Solo pares empezando por el final: {cadena[::-2]}")

Solo los caracteres pares: ¬°ia a aea!üîó
Solo los caracteres impares: vvnlscdns 
--------------------------------------------------
Toda la cadena invertida: üîó !sanedac sal naviv¬°
Solo pares empezando por el final: üîó!aea a ai¬°


## Limpieza y Normalizaci√≥n
Trabajando con strings es habitual encontrar errores y problemas de formato (min√∫sculas, espacios, etc.). No obstante, Python tiene m√©todos integrados para limpiar y normalizar el texto.

Esto permite gestionar cadenas erroneas o "sucias".

In [7]:
cadena_sucia = "   #VivAn_LaS$_CadEnAS$!   "

cadena_limpia = cadena_sucia.strip()  # Quita espacios

cadena_limpia = cadena_limpia.replace("$", "")      # Quita caracteres extra√±os
cadena_limpia = cadena_limpia.replace("_", " ")      # Subsana problemas de representaci√≥n (no todos los sitemas trabajan bien con espacios, por ejemplo)
cadena_limpia = cadena_limpia.replace("#", "¬°")      # Sustituye caracteres erroneos

cadena_limpia = cadena_limpia.lower()            # Todo a min√∫sculas (para may√∫sculas puede usarse "upper()")

print(f"Original: '{cadena_sucia}'")
print(f"Procesada: '{cadena_limpia}'")

Original: '   #VivAn_LaS$_CadEnAS$!   '
Procesada: '¬°vivan las cadenas!'


### Localizaci√≥n de patrones
A veces necesitamos saber si un patr√≥n existe dentro de una cadena de miles o millones de caracteres.

Usando ciertas funciones podemos construir un "buscador avanzado" con Python

In [13]:
carta_restaurante = """Pizza Margarita - INGREDIENTES: Tomate, Mozzarella, Albahaca, Queso - PRECIO: 09.50‚Ç¨
Pizza Carbonara - INGREDIENTES: Nata, Bacon, Cebolla, Queso, Champi√±√≥n - PRECIO: 11.00‚Ç¨
Pizza Barbacoa - INGREDIENTES: Pollo, Bacon, Salsa BBQ, Queso - PRECIO: 12.00‚Ç¨
Pizza Diabola - INGREDIENTES: Salami Picante, Guindilla, Tomate, Queso - PRECIO: 10.50‚Ç¨
Pizza Vegetal 100% - INGREDIENTES: Pimiento, Champi√±√≥n, Calabac√≠n, Tomate - PRECIO: 10.00‚Ç¨
Pizza Hawaiana - INGREDIENTES: Jam√≥n York, Pi√±a, Tomate, Queso - PRECIO: 11.50‚Ç¨
Pizza Marinera - INGREDIENTES: At√∫n, Gambas, Mejillones, Ajo, Queso - PRECIO: 13.50‚Ç¨
Pizza Cuatro Quesos - INGREDIENTES: Parmesano, Gorgonzola, Roquefort, Mozzarella - PRECIO: 12.00‚Ç¨
Pizza Calzone - INGREDIENTES: Jam√≥n, Huevo, Champi√±√≥n, Queso - PRECIO: 12.50‚Ç¨
Pizza Intoxicaci√≥n C√°rnica - INGREDIENTES: Bacon, Ternera, Pollo, Salami Picante, Jam√≥n, y el resto de carnes en carta - PRECIO: 15.00‚Ç¨
"""

longitud = len(carta_restaurante)
l√≠neas = len(carta_restaurante.splitlines())
posicion = carta_restaurante.find("Queso")
count_queso = carta_restaurante.count("Queso")

print(f"La carta tiene {longitud} caracteres y {l√≠neas} platos")
print(f"La primera menci√≥n a 'Queso' est√° en: {posicion}")
print(f"Hay {count_queso} pizzas con queso, solo {l√≠neas-count_queso} son aptas para intolerantes a la lactosa")
print(f"¬øHay carne de 'Avestruz' en la carta? {'Avestruz' in carta_restaurante}")

La carta tiene 908 caracteres y 10 platos
La primera menci√≥n a 'Queso' est√° en: 62
Hay 8 pizzas con queso, solo 2 son aptas para intolerantes a la lactosa
¬øHay carne de 'Avestruz' en la carta? False


## 4. Bloque de Debugging üõ†Ô∏è
Un investigador ha intentado programar un corrector autom√°tico de ADN. El c√≥digo no da error de ejecuci√≥n, pero **no hace nada de lo que se le pide**. 

**Misi√≥n:** Encuentra por qu√© la variable `secuencia` no cambia.

In [8]:
secuencia = "  atgcgtac  "

secuencia = secuencia.strip()
secuencia = secuencia.upper()
secuencia = secuencia.replace("a", "T")

print(f"Resultado esperado: TGCGTAC")
print(f"Resultado real: '{secuencia}'")

Resultado esperado: TGCGTAC
Resultado real: 'ATGCGTAC'


## 5. Retos de Programaci√≥n üöÄ

### üü¢ Reto 1: El Validador de Secuencias
Pide una secuencia al usuario. El programa debe imprimirla limpia (sin espacios), en may√∫sculas y decir cu√°ntos nucle√≥tidos tiene en total.

In [None]:
# Tu c√≥digo aqu√≠


### üü° Reto 2: El Ratio de Estabilidad (GC)
Calcula el % de GC sobre el total. 
F√≥rmula: `(G + C) / Longitud * 100`

In [None]:
# Tu c√≥digo aqu√≠


### üü† Reto 3: Extractor de Genes
Pide una secuencia. Busca 'ATG'. Si lo encuentra, imprime la secuencia que va desde ese 'ATG' hasta el final. Si no lo encuentra, indica 'No es un gen v√°lido'.

In [None]:
# Tu c√≥digo aqu√≠


### üî¥ Reto 4 (Ninja): Complemento Inverso
En bioinform√°tica es com√∫n invertir la cadena y cambiar las bases: A->T, T->A, G->C, C->G. 
**Misi√≥n:** Pide una secuencia y devuelve su complemento inverso.
*Pista: Para no sobreescribir las letras al usar replace, prueba a pasar los cambios a min√∫sculas temporalmente.*

In [None]:
# Tu c√≥digo aqu√≠
