# Domina Python para LLMs - Parte 1: 

## Técnicas de manipulación de texto que todo científico de datos debe conocer

### Estructuras de datos optimizadas para texto en Python para LLMs

#### Trabajando con strings y su manipulación

##### 1. Operaciones básicas con strings

**Formateo de strings con f-strings**

In [3]:
# Creación de strings
texto = "Procesamiento de LLMs"
print(f"String original: {texto}")

#Resultado:
#String original: Procesamiento de LLMs

String original: Procesamiento de LLMs


**Funciones aplicadas sobre cadenas**

In [2]:
# Longitud del string
longitud = len(texto)
print(f"Longitud del texto: {longitud}")
# Resultado: Longitud del texto: 21

Longitud del texto: 21


**Slicing**

In [4]:
# Acceso a caracteres
primer_caracter = texto[0]
ultimo_caracter = texto[-1]
palabra_de = texto[14:16] 

print(f"Primer caracter: {primer_caracter}")
print(f"Último caracter: {ultimo_caracter}")
print(f"Palabra intermedia: {palabra_de}")

# Resultado:
# Primer caracter: P
# Último caracter: s
# Palabra intermedia: de

Primer caracter: P
Último caracter: s
Palabra intermedia: de


##### 2. Métodos de limpieza y normalización

In [5]:
# Eliminación de espacios en blanco
texto_con_espacios = "   LLMs en producción   "
texto_limpio = texto_con_espacios.strip()
print(f"Original: '{texto_con_espacios}'")
print(f"Limpio: '{texto_limpio}'")
# Resultado:
# Original: '   LLMs en producción   '
# Limpio: 'LLMs en producción'

Original: '   LLMs en producción   '
Limpio: 'LLMs en producción'


In [6]:
# Conversión a minúsculas/mayúsculas
texto_lower = texto_limpio.lower()
texto_upper = texto_limpio.upper()
print(f"Minúsculas: {texto_lower}")
print(f"Mayúsculas: {texto_upper}")
# Resultado:
# Minúsculas: llms en producción
# Mayúsculas: LLMS EN PRODUCCIÓN

Minúsculas: llms en producción
Mayúsculas: LLMS EN PRODUCCIÓN


##### 3. Tokenización y división de texto

In [7]:
# División básica por espacios
texto = "Los modelos de lenguaje son fascinantes"
tokens = texto.split()
print("Tokens:", tokens)
# Resultado: Tokens: ['Los', 'modelos', 'de', 'lenguaje', 'son', 'fascinantes']

# División por carácter específico
texto_csv = "modelo,temperatura,tokens,prompt"
campos = texto_csv.split(',')
print("Campos:", campos)
# Resultado: Campos: ['modelo', 'temperatura', 'tokens', 'prompt']


Tokens: ['Los', 'modelos', 'de', 'lenguaje', 'son', 'fascinantes']
Campos: ['modelo', 'temperatura', 'tokens', 'prompt']


In [8]:
# Dividir con límite
texto_largo = "a:b:c:d:e:f"
primeros_tres = texto_largo.split(':', 2)
print("Primeros tres:", primeros_tres)
# Resultado: Primeros tres: ['a', 'b', 'c:d:e:f']

Primeros tres: ['a', 'b', 'c:d:e:f']


##### 4. Construcción de prompts con f-strings

In [10]:
# Prompt simple
sistema = "Eres un asistente experto en Python"
usuario = "¿Cómo uso list comprehension?"
prompt = f"Sistema: {sistema}\nUsuario: {usuario}"
print(prompt)
# Resultado:
# Sistema: Eres un asistente experto en Python
# Usuario: ¿Cómo uso list comprehension?

# Prompt con múltiples variables y formato
temperatura = 0.7
max_tokens = 150
prompt_config = f"""
Configuración:
- Modelo: GPT-4
- Temperatura: {temperatura:.1f}
- Tokens máximos: {max_tokens}
""".strip()
print(prompt_config)
# Resultado:
# Configuración:
# - Modelo: GPT-4
# - Temperatura: 0.7
# - Tokens máximos: 150


Sistema: Eres un asistente experto en Python
Usuario: ¿Cómo uso list comprehension?
Configuración:
- Modelo: GPT-4
- Temperatura: 0.7
- Tokens máximos: 150
