# Domina Python para LLMs - Parte 2: 

## Técnicas de manipulación de texto que todo científico de datos debe conocer

### 1. Operaciones con listas de tokens

#### Manipulación básica de listas

In [2]:
# Creación y manipulación básica
tokens = ['[START]', 'Hola', 'mundo', '[END]']

#### Slicing para eliminar tokens especiales

In [3]:
tokens_limpios = tokens[1:-1]
print("Tokens sin marcadores:", tokens_limpios)
# Resultado: Tokens sin marcadores: ['Hola', 'mundo']

Tokens sin marcadores: ['Hola', 'mundo']


#### Listas por comprensión para procesamiento

In [4]:
tokens_mayusculas = [t.upper() for t in tokens_limpios]
print("Tokens en mayúsculas:", tokens_mayusculas)
# Resultado: Tokens en mayúsculas: ['HOLA', 'MUNDO']

Tokens en mayúsculas: ['HOLA', 'MUNDO']


#### Filtrado con condiciones

In [5]:
# Filtrado con condiciones
tokens_largos = [t for t in tokens if len(t) > 3]
print("Tokens con más de 3 caracteres:", tokens_largos)
# Resultado: Tokens con más de 3 caracteres: ['[START]', 'mundo', '[END]']

Tokens con más de 3 caracteres: ['[START]', 'Hola', 'mundo', '[END]']


### 2. Diccionarios para configuración y metadata

In [6]:
# Configuración básica de LLM
config = {
    'modelo': 'gpt-3.5-turbo',
    'temperatura': 0.7,
    'max_tokens': 100
}

#### Creación y llenado de diccionarios

In [8]:
config = {}
config['modelo'] = 'gpt-3.5-turbo'
config['temperatura'] = 0.7
config['max_tokens'] = 100

#### Acceso a valores en un diccionario

In [9]:
# Acceso a valores
print(f"Modelo seleccionado: {config['modelo']}")
# Resultado: Modelo seleccionado: gpt-3.5-turbo

Modelo seleccionado: gpt-3.5-turbo


#### Diccionarios anidados

In [10]:
# Diccionarios anidados
config_completo = {
    'modelo': {
        'nombre': 'gpt-4',
        'version': '2024',
        'parametros': {
            'temperatura': 0.7,
            'presencia_penalizacion': 0.1
        }
    },
    'api': {
        'timeout': 30,
        'reintentos': 3
    }
}

In [11]:
# Acceso a valores anidados
temp = config_completo['modelo']['parametros']['temperatura']
print(f"Temperatura configurada: {temp}")
# Resultado: Temperatura configurada: 0.7

# Actualización de valores
config_completo['api']['reintentos'] = 5
print("Reintentos actualizados:", config_completo['api']['reintentos'])
# Resultado: Reintentos actualizados: 5

Temperatura configurada: 0.7
Reintentos actualizados: 5


### 3. Sets para filtrado eficiente

#### Creación de un set

In [12]:
# Creación de set de stop words
stop_words = {'de', 'la', 'el', 'en', 'y', 'a', 'los', 'las'}

In [13]:
# Texto de ejemplo
texto_tokens = ['el', 'modelo', 'procesa', 'el', 'texto', 'y', 'genera', 'respuestas']

# Filtrado de tokens
tokens_filtrados = [t for t in texto_tokens if t not in stop_words]
print("Tokens originales:", texto_tokens)
print("Tokens sin stop words:", tokens_filtrados)
# Resultado:
# Tokens originales: ['el', 'modelo', 'procesa', 'el', 'texto', 'y', 'genera', 'respuestas']
# Tokens sin stop words: ['modelo', 'procesa', 'texto', 'genera', 'respuestas']

Tokens originales: ['el', 'modelo', 'procesa', 'el', 'texto', 'y', 'genera', 'respuestas']
Tokens sin stop words: ['modelo', 'procesa', 'texto', 'genera', 'respuestas']


#### Operaciones con sets

In [14]:
# Operaciones con sets
palabras_positivas = {'bueno', 'excelente', 'fantástico'}
palabras_negativas = {'malo', 'pésimo', 'terrible'}

# Unión de sets
todas_palabras = palabras_positivas | palabras_negativas
print("Todas las palabras:", todas_palabras)
# Resultado: Todas las palabras: {'bueno', 'malo', 'excelente', 'fantástico', 'pésimo', 'terrible'}

Todas las palabras: {'bueno', 'malo', 'pésimo', 'fantástico', 'excelente', 'terrible'}


### 4. Tuplas para datos inmutables

In [15]:
from collections import namedtuple

# Creación de una tupla nombrada para configuración
Config = namedtuple('Config', ['modelo', 'temperatura', 'max_tokens'])

# Instanciación de la configuración
config_default = Config('gpt-4', 0.7, 100)

#### Acceder a los valores de la tupla

In [16]:
# Acceso a valores
print(f"""
Configuración:
- Modelo: {config_default.modelo}
- Temperatura: {config_default.temperatura}
- Tokens máx.: {config_default.max_tokens}
""")
# Resultado:
# Configuración:
# - Modelo: gpt-4
# - Temperatura: 0.7
# - Tokens máx.: 100


Configuración:
- Modelo: gpt-4
- Temperatura: 0.7
- Tokens máx.: 100



#### Inmutabilidad

In [17]:
# Intento de modificación (generará error)
try:
    config_default.temperatura = 0.8
except AttributeError as e:
    print("Error al modificar:", str(e))
# Resultado: Error al modificar: can't set attribute

Error al modificar: can't set attribute
