# Sesi√≥n 02: Strings en Python
--- 

## Indexaci√≥n y Rebanado (Slicing)

En programaci√≥n los textos no se componen de frases o palabras, sino de caracteres. A estas cadenas de caracteres las llamamos **strings**. 

Python permite "sumar" y "multiplicar" strings, pero los resultados son muy distintos a los que vimos trabajando con datos num√©ricos...


In [None]:
print(f"He aqu√≠ la suma de dos cadenas: {'chachi'+'piruli'}") # La suma no es sino una concatenaci√≥n de 2 strings
print(f"Y aqu√≠ la multiplicaci√≥n de una: {5*'bla'}") #¬†La multiplicaci√≥n concatena n veces una misma secuencia

Estos strings son **datos estructurados**, una especie de "vectores" en los que cada car√°cter es una variable en s√≠ misma: parte de la cadena pero accesible "independientemente". 

Cada caracter de un string ocupa una posici√≥n fija llamada **√≠ndice**. Para acceder a ese caracter se utilizan los corchetes: `string[√≠ndice]`

In [None]:
cadena = "¬°vivan las cadenas! üîó"

print(f"Primer caracter: {cadena[0]}") # El 0 es el primer √≠ndice
print(f"√öltimo caracter: {cadena[-1]}") # El -1 es el √∫ltimo en cambio

No solo podemos acceder a caract√©res en particular, tambi√©n a conjuntos de ellos. Esto se hace incluyendo un par de indices dentro de los corchetes, separados por "**:**", as√≠: `string[√≠ndice_inicio :√≠ndice_final]`

In [None]:
print(f"Primeros tres caracteres: {cadena[0:3]}")  # Del √≠ndice 0 al 2 (el 3 no se incluye)
print(f"Desde el √≠ndice 4 hasta el final: {cadena[4:]}") #¬†Del √≠ndice 4 (5¬∫ elemento) hasta el final
print(f"Desde el √≠ndice 4 hasta el final: {cadena[:-4]}") # Desde el principio hasta el √≠ndice 4 (5¬∫ elemento) contando desde el final

La versi√≥n m√°s avanzada de este proceso permite recorrer las cadenas o strings entre dos √≠ndices, con un "paso" concreto: `string[√≠ndice_inicio:√≠ndice_final:paso]`

La aplicaci√≥n m√°s interesante es la inversi√≥n de cadenas, pues Python entiende que si el **paso es negativo** debe recorrer la cadena en **direcci√≥n contraria, empezando por el final**. 

In [None]:
print(f"Solo los caracteres pares: {cadena[::2]}")
print(f"Solo los caracteres impares: {cadena[1::2]}")

print(50*"-")

print(f"Toda la cadena invertida: {cadena[::-1]}")
print(f"Solo pares empezando por el final: {cadena[::-2]}")

## Limpieza y Normalizaci√≥n
Trabajando con strings es habitual encontrar errores y problemas de formato (min√∫sculas, espacios, etc.). No obstante, Python tiene m√©todos integrados para limpiar y normalizar el texto.

Esto permite gestionar cadenas erroneas o "sucias".

In [None]:
cadena_sucia = "   #VivAn LaS$ CadEnAS$!   "

cadena_limpia = cadena_sucia.strip()   # Quita espacios "excesivos", al principio o al final

cadena_limpia = cadena_limpia.replace("$", "")      # Quita caracteres extra√±os
cadena_limpia = cadena_limpia.replace("#", "¬°")      # Sustituye caracteres erroneos

cadena_limpia = cadena_limpia.lower()   # Todo a min√∫sculas (para may√∫sculas puede usarse "upper()")

print(f"Original: '{cadena_sucia}'")
print(f"Procesada: '{cadena_limpia}'")

### Localizaci√≥n de patrones
A veces necesitamos saber si un patr√≥n existe dentro de una cadena de miles o millones de caracteres, y por supuesto hacerlo a mano no es una opci√≥n.

Usando ciertas funciones podemos construir un "buscador avanzado" con Python.

In [None]:
carta_restaurante = """Pizza Margarita - INGREDIENTES: Tomate, Mozzarella, Albahaca, Queso - PRECIO: 10.00‚Ç¨
Pizza Carbonara - INGREDIENTES: Nata, Bacon, Cebolla, Queso, Champi√±√≥n - PRECIO: 11.00‚Ç¨
Pizza Barbacoa - INGREDIENTES: Pollo, Bacon, Salsa BBQ, Queso - PRECIO: 12.00‚Ç¨
Pizza Diabola - INGREDIENTES: Salami Picante, Guindilla, Tomate, Queso - PRECIO: 10.50‚Ç¨
Pizza Vegetal 100% - INGREDIENTES: Pimiento, Champi√±√≥n, Calabac√≠n, Tomate - PRECIO: 10.00‚Ç¨
Pizza Hawaiana - INGREDIENTES: Jam√≥n York, Pi√±a, Tomate, Queso - PRECIO: 11.50‚Ç¨
Pizza Marinera - INGREDIENTES: At√∫n, Gambas, Mejillones, Ajo, Queso - PRECIO: 13.50‚Ç¨
Pizza Cuatro Quesos - INGREDIENTES: Parmesano, Gorgonzola, Roquefort, Mozzarella - PRECIO: 12.00‚Ç¨
Pizza Calzone - INGREDIENTES: Jam√≥n, Huevo, Champi√±√≥n, Queso - PRECIO: 12.50‚Ç¨
Pizza Intoxicaci√≥n C√°rnica - INGREDIENTES: Bacon, Ternera, Pollo, Salami Picante, Jam√≥n, y el resto de carnes en carta - PRECIO: 15.00‚Ç¨
"""

longitud = len(carta_restaurante)
l√≠neas = len(carta_restaurante.splitlines())
posicion = carta_restaurante.find("Queso")
count_queso = carta_restaurante.count("Queso")

print(f"La carta tiene {longitud} caracteres y {l√≠neas} platos")
print(f"La primera menci√≥n a 'Queso' est√° en: {posicion}")
print(f"Hay {count_queso} pizzas con queso, solo {l√≠neas-count_queso} son aptas para intolerantes a la lactosa")
print(f"¬øHay carne de 'Avestruz' en la carta? {'Avestruz' in carta_restaurante}")

---
# Debugging üõ†Ô∏è
Los strings no son solo importantes en lenguajes, tambi√©n son muy utiles para cualquier informaci√≥n "estructurada". Por ejemplo, el ADN. 

Un investigador ha intentado programar un corrector autom√°tico de ADN, que limpie y prepare una cadena original "bruta", no normalizada, y despu√©s modifique la primera letra. El c√≥digo no da error de ejecuci√≥n, pero **no hace lo que quiere**. Encuentra por qu√© la variable `secuencia` no cambia y completa el programa para que el resultado real coincida con el esperado.

In [None]:
### C√ìDIGO CON ERRORES ###

secuencia = "  atgcgtac  "

secuencia.strip()
secuencia.upper()
secuencia.replace("a", "T")

print(f"Resultado esperado: TGCGTAC")
print(f"El resultado real : {secuencia}")

---
## Retos

### üü¢ El Validador de Secuencias
Pide una secuencia al usuario. El programa debe imprimirla limpia (sin espacios), en may√∫sculas e indicar### DESARROLLA AQU√ç TO PROGRAMA ### cu√°ntos nucle√≥tidos tiene en total.

In [None]:
### DESARROLLA AQU√ç TU PROGRAMA ###

### üü° El Ratio de Estabilidad (GC)
El "enlace" entre G y C es mucho m√°s fuerte que el formado por A y T. Por tanto, la estabilidad de una cadena de ADN depende en gran medida del porcentaje que tenga de guanina y citosina. 

Calcula el % de GC sobre el total. 
F√≥rmula: `(G + C) / Longitud * 100`

In [None]:
### DESARROLLA AQU√ç TU PROGRAMA ###

### üü† Extractor de Genes
El ADN est√° formado por nucle√≥tidos, cuya secuencia determina las proteinas que el cuerpo produce para su funcionamiento. A esta secuencia codificadora la llamamos **gen**. 

EN este contexto, un triplete es un conjunto de tres nucle√≥tidos, que codifica un amino√°cido. Una proteina no es m√°s que el conjuto de los amino√°cidos, uno tras otro, codificados por los tripletes de un gen en particular.

No obstante, es necesario diferenciar que es parte de un gen y que no, as√≠ que la naturaleza tiene un recurso inteligente: "se√±ales de control". Al triplete **ATG** se la denomina cod√≥n de inicio, e indica a cual es el inicio de un gen. 

Pide una secuencia al usuario, busca en ella el triplete 'ATG', e imprime el gen completo (considerando que el gen empieza en el triplete y acaba al final de la cadena dada).

In [None]:
### DESARROLLA AQU√ç TU PROGRAMA ###

### üî¥ Complemento Inverso

En bioinform√°tica es com√∫n invertir una cadena de ADN y cambiar las bases: A->T, T->A, G->C, C->G. 

Genera un c√≥digo que pida una secuencia y devuelva su complemento inverso.

In [None]:
### DESARROLLA AQU√ç TU PROGRAMA ###