# Tokenización

La tokenización es el proceso de dividir un texto en unidades más pequeñas llamadas tokens. Estos tokens pueden ser palabras, frases, o incluso caracteres, dependiendo del nivel de granularidad deseado.

Métodos Comunes:

1. Tokenización de Palabras: 
Divide el texto en palabras. Ejemplo: "Hola, ¿cómo estás?" se convierte en ["Hola", "¿", "cómo", "estás", "?"].

2. Tokenización de Frases: Divide el texto en frases. Ejemplo: "Hoy es un buen día." se convierte en ["Hoy es un buen día."].

3. Tokenización de Caracteres: Divide el texto en caracteres. Ejemplo: "Hola" se convierte en ["H", "o", "l", "a"].

conda install anaconda::nltk


Tokenizacion
NLP: https://www.nltk.org/

In [4]:
import nltk
from nltk.tokenize import word_tokenize

nltk.download('punkt')
texto = "Hola ¿cómo estás?"
tokens = word_tokenize(texto)
print(tokens)
# Salida: ['Hola', ',', '¿', 'cómo', 'estás', '?']

['Hola', '¿cómo', 'estás', '?']


[nltk_data] Downloading package punkt to
[nltk_data]     /Users/wilfredysantamariaruiz/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


Paso 1: Tokenización
Primero, tokenizamos el documento:

Documento: "Hola ¿cómo estás?"
Tokens: ["Hola", "¿", "cómo", "estás", "?"]
Vamos a considerar solo las palabras significativas para el cálculo de TF-IDF, omitiendo los signos de puntuación y stop words. Para simplificar, usaremos ["Hola", "cómo", "estás"].

Paso 2: Calcular TF (Term Frequency)
La frecuencia de términos (TF) se calcula como el número de veces que una palabra aparece en el documento dividido por el número total de palabras en el documento.

Para cada palabra en 
D1:

TF("Hola"): 1/3
TF("cómo"): 1/3
TF("estás"): 1/3
Paso 3: Calcular IDF (Inverse Document Frequency)
La frecuencia inversa de documentos (IDF) se calcula como el logaritmo del número total de documentos en el corpus dividido por el número de documentos que contienen el término.

Supongamos que 

D1 es el único documento en el corpus. Para cada palabra en 

Número total de documentos (N): 1
Documentos que contienen "Hola" (df("Hola")): 1
Documentos que contienen "cómo" (df("cómo")): 1
Documentos que contienen "estás" (df("estás")): 1
IDF se calcula como:

IDF(t)=log( N/df(t))+1

Añadimos 1 al logaritmo para evitar divisiones por cero.

IDF("Hola"): log(1/1))+1=1
IDF("cómo"): log(1/1))+1=1
IDF("estás"): log(1/1))+1=1

Paso 4: Calcular TF-IDF
TF-IDF se calcula multiplicando TF y IDF para cada palabra.

Para cada palabra en 
D1:
TF-IDF("Hola"): (1/3)×1=1/3≈0.333

TF-IDF("cómo"): (1/3)×1=1/3≈0.333

TF-IDF("estás"): (1/3)×1=1/3≈0.333

Normalización (Vector de Características)
Para vectorizar el documento y usarlo en algoritmos de aprendizaje automático, los valores TF-IDF se normalizan para que el vector tenga una longitud unitaria.

El vector TF-IDF para D1:

TF-IDF(D1)=[0.333,0.333,0.333]

La normalización se realiza dividiendo cada componente del vector por la norma 𝐿2

L2 (longitud) del vector:

norma(D1)= sqtr((0.33)*2  +((0.33)*2)+ ((0.33)*2))= sqtr(3* 0.11)  ≈0.577

Vector normalizado:

TF-IDF normalizado
𝐷1=(0.333/0.577, 0.333/0.577,0.333/0.577)
D1=[0.577,0.577,0.577]



**Vectorización con TF-IDF:**

La vectorización es el proceso de convertir los tokens (o textos) en vectores numéricos que los algoritmos de machine learning pueden utilizar. Es esencial para transformar datos textuales en formatos adecuados para modelos matemáticos y computacionales.

Métodos Comunes:


1. Bag of Words (BoW): Representa el texto como una matriz de frecuencia de palabras. 

Texto: "Hola, ¿cómo estás?"

BoW: {"Hola": 1, "cómo": 1, "estás": 1}

2. TF-IDF (Term Frequency-Inverse Document Frequency): Ajusta la frecuencia de las palabras considerando su relevancia en el corpus completo. 

Texto: "Hola, ¿cómo estás?"

TF-IDF: {"Hola": 0.5, "cómo": 0.7, "estás": 0.3}

3. Word Embeddings: Representa palabras en un espacio continuo de alta dimensión. 

"Hola" -> [0.1, 0.2, 0.3], "cómo" -> [0.4, 0.5, 0.6]

4. Modelos Preentrenados: Utiliza embeddings generados por modelos como BERT, GPT, etc. 

"Hola" -> [vector de 768 dimensiones], "cómo" -> [vector de 768 dimensiones]


In [5]:
from sklearn.feature_extraction.text import TfidfVectorizer

corpus = [texto]
vectorizer = TfidfVectorizer()
X = vectorizer.fit_transform(corpus)
print(X.toarray())
# Salida: [array de valores TF-IDF]

[[0.57735027 0.57735027 0.57735027]]


sklearn

In [8]:
from sklearn.feature_extraction.text import TfidfVectorizer
import numpy as np

# Documentos de ejemplo
D1 = "Hola ¿cómo estás?"
#D2 = "Estoy bien, gracias."
#D3 = "Hola, ¿cómo te sientes hoy?"

# Crear un corpus con los documentos
#corpus = [D1, D2, D3]
corpus = [D1]


# Inicializar el vectorizador TF-IDF
vectorizer = TfidfVectorizer()

# Ajustar y transformar el corpus
X = vectorizer.fit_transform(corpus)

# Convertir la matriz TF-IDF a un arreglo denso
tfidf_array = X.toarray()

# Obtener los nombres de las características (palabras)
feature_names = vectorizer.get_feature_names_out()

# Mostrar los resultados
print("Características (Palabras):", feature_names)
print("Arreglo TF-IDF:")
print(tfidf_array)




Características (Palabras): ['cómo' 'estás' 'hola']
Arreglo TF-IDF:
[[0.57735027 0.57735027 0.57735027]]
