# Tokenización

La tokenización es el proceso de dividir un texto en unidades más pequeñas llamadas tokens. Estos tokens pueden ser palabras, frases, o incluso caracteres, dependiendo del nivel de granularidad deseado.

Métodos Comunes:

1. Tokenización de Palabras: 
Divide el texto en palabras. Ejemplo: "Hola, ¿cómo estás?" se convierte en ["Hola", "¿", "cómo", "estás", "?"].

2. Tokenización de Frases: Divide el texto en frases. Ejemplo: "Hoy es un buen día." se convierte en ["Hoy es un buen día."].

3. Tokenización de Caracteres: Divide el texto en caracteres. Ejemplo: "Hola" se convierte en ["H", "o", "l", "a"].

conda install anaconda::nltk


Tokenizacion
NLP: https://www.nltk.org/

In [4]:
import nltk
from nltk.tokenize import word_tokenize

nltk.download('punkt')
texto = "Hola ¿cómo estás?"
tokens = word_tokenize(texto)
print(tokens)
# Salida: ['Hola', ',', '¿', 'cómo', 'estás', '?']

['Hola', '¿cómo', 'estás', '?']


[nltk_data] Downloading package punkt to
[nltk_data]     /Users/wilfredysantamariaruiz/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


Paso 1: Tokenización
Primero, tokenizamos el documento:

Documento: "Hola ¿cómo estás?"
Tokens: ["Hola", "¿", "cómo", "estás", "?"]
Vamos a considerar solo las palabras significativas para el cálculo de TF-IDF, omitiendo los signos de puntuación y stop words. Para simplificar, usaremos ["Hola", "cómo", "estás"].

Paso 2: Calcular TF (Term Frequency)
La frecuencia de términos (TF) se calcula como el número de veces que una palabra aparece en el documento dividido por el número total de palabras en el documento.

Para cada palabra en 
D1:

TF("Hola"): 1/3
TF("cómo"): 1/3
TF("estás"): 1/3
Paso 3: Calcular IDF (Inverse Document Frequency)
La frecuencia inversa de documentos (IDF) se calcula como el logaritmo del número total de documentos en el corpus dividido por el número de documentos que contienen el término.

Supongamos que 

D1 es el único documento en el corpus. Para cada palabra en 

Número total de documentos (N): 1
Documentos que contienen "Hola" (df("Hola")): 1
Documentos que contienen "cómo" (df("cómo")): 1
Documentos que contienen "estás" (df("estás")): 1
IDF se calcula como:

IDF(t)=log( N/df(t))+1

Añadimos 1 al logaritmo para evitar divisiones por cero.

IDF("Hola"): log(1/1))+1=1
IDF("cómo"): log(1/1))+1=1
IDF("estás"): log(1/1))+1=1

Paso 4: Calcular TF-IDF
TF-IDF se calcula multiplicando TF y IDF para cada palabra.

Para cada palabra en 
D1:
TF-IDF("Hola"): (1/3)×1=1/3≈0.333

TF-IDF("cómo"): (1/3)×1=1/3≈0.333

TF-IDF("estás"): (1/3)×1=1/3≈0.333

Normalización (Vector de Características)
Para vectorizar el documento y usarlo en algoritmos de aprendizaje automático, los valores TF-IDF se normalizan para que el vector tenga una longitud unitaria.

El vector TF-IDF para D1:

TF-IDF(D1)=[0.333,0.333,0.333]

La normalización se realiza dividiendo cada componente del vector por la norma 𝐿2

L2 (longitud) del vector:

norma(D1)= sqtr((0.33)*2  +((0.33)*2)+ ((0.33)*2))= sqtr(3* 0.11)  ≈0.577

Vector normalizado:

TF-IDF normalizado
𝐷1=(0.333/0.577, 0.333/0.577,0.333/0.577)
D1=[0.577,0.577,0.577]



**Vectorización con TF-IDF:**

La vectorización es el proceso de convertir los tokens (o textos) en vectores numéricos que los algoritmos de machine learning pueden utilizar. Es esencial para transformar datos textuales en formatos adecuados para modelos matemáticos y computacionales.

Métodos Comunes:


1. Bag of Words (BoW): Representa el texto como una matriz de frecuencia de palabras. 

Texto: "Hola, ¿cómo estás?"

BoW: {"Hola": 1, "cómo": 1, "estás": 1}

2. TF-IDF (Term Frequency-Inverse Document Frequency): Ajusta la frecuencia de las palabras considerando su relevancia en el corpus completo. 

Texto: "Hola, ¿cómo estás?"

TF-IDF: {"Hola": 0.5, "cómo": 0.7, "estás": 0.3}

3. Word Embeddings: Representa palabras en un espacio continuo de alta dimensión. 

"Hola" -> [0.1, 0.2, 0.3], "cómo" -> [0.4, 0.5, 0.6]

4. Modelos Preentrenados: Utiliza embeddings generados por modelos como BERT, GPT, etc. 

"Hola" -> [vector de 768 dimensiones], "cómo" -> [vector de 768 dimensiones]


In [5]:
from sklearn.feature_extraction.text import TfidfVectorizer

corpus = [texto]
vectorizer = TfidfVectorizer()
X = vectorizer.fit_transform(corpus)
print(X.toarray())
# Salida: [array de valores TF-IDF]

[[0.57735027 0.57735027 0.57735027]]


sklearn

In [8]:
from sklearn.feature_extraction.text import TfidfVectorizer
import numpy as np

# Documentos de ejemplo
D1 = "Hola ¿cómo estás?"
#D2 = "Estoy bien, gracias."
#D3 = "Hola, ¿cómo te sientes hoy?"

# Crear un corpus con los documentos
#corpus = [D1, D2, D3]
corpus = [D1]


# Inicializar el vectorizador TF-IDF
vectorizer = TfidfVectorizer()

# Ajustar y transformar el corpus
X = vectorizer.fit_transform(corpus)

# Convertir la matriz TF-IDF a un arreglo denso
tfidf_array = X.toarray()

# Obtener los nombres de las características (palabras)
feature_names = vectorizer.get_feature_names_out()

# Mostrar los resultados
print("Características (Palabras):", feature_names)
print("Arreglo TF-IDF:")
print(tfidf_array)




Características (Palabras): ['cómo' 'estás' 'hola']
Arreglo TF-IDF:
[[0.57735027 0.57735027 0.57735027]]


In [26]:
def obtener_mejor_plato(n, rating):
    mejor_id = -1  # Iniciamos con -1 para asegurar que cualquier ID lo reemplace
    mejor_calificacion = -1  # Iniciamos con -1 para asegurar que cualquier calificación lo reemplace
    
    for plato_id, calificacion in rating:
        # Si encontramos una mejor calificación o una calificación igual con un ID mayor
        if calificacion > mejor_calificacion or (calificacion == mejor_calificacion and plato_id > mejor_id):
            mejor_calificacion = calificacion
            mejor_id = plato_id
    
    return mejor_id




In [27]:
n = 5
rating = [(512, 2), (123, 3), (987, 4), (123, 5)]
resultado = obtener_mejor_plato(n, rating)
print(resultado)  # Esto imprimirá 123

123


In [28]:
n = 5
rating = [(987654171, 3), (987654478, 3), (987654092, 4), (987654421, 3), (986754001, 4)]
resultado = obtener_mejor_plato(n, rating)
print(resultado)  # Esto imprimirá 986754001

987654092


In [29]:
n = 5
rating = [(987654423, 4), (987654420, 5), (987654202, 4), (987654250, 1), (987654419, 5)]
resultado = obtener_mejor_plato(n, rating)
print(resultado)  # Esto imprimirá 986754001

987654420


In [34]:
def formatear_duracion(segundos):
    
    un_minuto = 60
    una_hora = un_minuto * 60
    un_dia = una_hora * 24
    un_ano = un_dia * 365
    
    anos = segundos // un_ano
    segundos %= un_ano
    
    dias = segundos // un_dia
    segundos %= un_dia
    
    horas = segundos // una_hora
    segundos %= una_hora
    
    minutos = segundos // un_minuto
    segundos %= un_minuto
    
    
    partes = []
    if anos > 0:
        partes.append(f"{anos} year{'s' if anos > 1 else ''}")
    if dias > 0:
        partes.append(f"{dias} day{'s' if dias > 1 else ''}")
    if horas > 0:
        partes.append(f"{horas} hour{'s' if horas > 1 else ''}")
    if minutos > 0:
        partes.append(f"{minutos} minute{'s' if minutos > 1 else ''}")
    if segundos > 0:
        partes.append(f"{segundos} second{'s' if segundos > 1 else ''}")
    
   
    if not partes:
        return "now"
    

    if len(partes) == 1:
        return partes[0]
    else:
        return ', '.join(partes[:-1]) + ' and ' + partes[-1]



In [35]:
# Ejemplos de uso
print(formatear_duracion(62))      # 1 minuto y 2 segundos
print(formatear_duracion(3662))    # 1 hora, 1 minuto y 2 segundos
print(formatear_duracion(31536000)) # 1 año


1 minute and 2 seconds
1 hour, 1 minute and 2 seconds
1 year


In [50]:
def formatear_duracion(seconds):
    # Definimos las unidades de tiempo en segundos
    unidades = [
        ("year", 365 * 24 * 60 * 60),
        ("day", 24 * 60 * 60),
        ("hour", 60 * 60),
        ("minute", 60),
        ("second", 1)
    ]
    
    partes = []
    
    for nombre, duracion in unidades:
        cantidad = seconds // duracion
        if cantidad:
            partes.append(f"{cantidad} {nombre}{'s' if cantidad > 1 else ''}")
        seconds %= duracion
    
    
    if len(partes) == 1:
        return partes[0]
    elif len(partes) > 1:
        return ', '.join(partes[:-1]) + ' and ' + partes[-1]
    else:
        return " now "



In [51]:
# Ejemplos de uso
print(formatear_duracion(62))      # 1 minuto y 2 segundos
print(formatear_duracion(3662))    # 1 hora, 1 minuto y 2 segundos
print(formatear_duracion(31536000)) # 1 año

1 minute and 2 seconds
1 hour, 1 minute and 2 seconds
1 year


In [42]:
from itertools import product

def obtener_variaciones_pin(pin):
    # Mapa de adyacencias para cada dígito en el teclado, en el orden específico deseado
    adyacencias = {
        '1': ['1', '2', '4'],
        '2': ['1', '2', '3', '5'],
        '3': ['2', '3', '6'],
        '4': ['1', '4', '5', '7'],
        '5': ['2', '4', '5', '6', '8'],
        '6': ['3', '5', '6', '9'],
        '7': ['4', '7', '8'],
        '8': ['0', '5', '7', '8', '9'], 
        '9': ['6', '8', '9'],
        '0': ['8', '0']
    }
    
   
    posibles_digitos = [adyacencias[d] for d in pin]
    
   
    combinaciones = [''.join(p) for p in product(*posibles_digitos)]
    
    return combinaciones



In [43]:
# Ejemplo de uso
pin = "8"
variaciones = obtener_variaciones_pin(pin)
print(variaciones)
# Output esperado: ['0', '5', '7', '8', '9']


['0', '5', '7', '8', '9']


In [44]:
def obtener_variaciones_pin(pin):
    # Mapa de adyacencias para cada dígito en el teclado
    adyacencias = {
        '1': ['1', '2', '4'],
        '2': ['1', '2', '3', '5'],
        '3': ['2', '3', '6'],
        '4': ['1', '4', '5', '7'],
        '5': ['2', '4', '5', '6', '8'],
        '6': ['3', '5', '6', '9'],
        '7': ['4', '7', '8'],
        '8': ['0', '5', '7', '8', '9'],
        '9': ['6', '8', '9'],
        '0': ['8', '0']
    }
    
    def generar_combinaciones(prefix, indices):
        if not indices:
            combinaciones.append(prefix)
            return
        
        current_digit = indices[0]
        for replacement in adyacencias[current_digit]:
            generar_combinaciones(prefix + replacement, indices[1:])
    
    combinaciones = []
    generar_combinaciones('', list(pin))
    
    return combinaciones



In [45]:
# Ejemplo de uso
pin = "8"
variaciones = obtener_variaciones_pin(pin)
print(variaciones)
# Output esperado: ['0', '5', '7', '8', '9']


['0', '5', '7', '8', '9']


In [46]:
def generate_pins(pin):
    # Mapa de adyacencias para cada número en el teclado
    adj = {
        '0': ['0', '8'],
        '1': ['1', '2', '4'],
        '2': ['1', '2', '3', '5'],
        '3': ['2', '3', '6'],
        '4': ['1', '4', '5', '7'],
        '5': ['2', '4', '5', '6', '8'],
        '6': ['3', '5', '6', '9'],
        '7': ['4', '7', '8'],
        '8': ['5', '7', '8', '9', '0'],
        '9': ['6', '8', '9']
    }
    def backtrack(index, current):
        if index == len(pin):
            results.append(''.join(current))
            return
        
        for digit in adj[pin[index]]:
            backtrack(index + 1, current + [digit])
    
    results = []
    backtrack(0, [])
    results.sort()
    return results


In [47]:
# Ejemplo de uso
pin = "8"
combinations = generate_pins(pin)
print(combinations)


['0', '5', '7', '8', '9']
