# Tokenizaci√≥n

La tokenizaci√≥n es el proceso de dividir un texto en unidades m√°s peque√±as llamadas tokens. Estos tokens pueden ser palabras, frases, o incluso caracteres, dependiendo del nivel de granularidad deseado.

M√©todos Comunes:

1. Tokenizaci√≥n de Palabras: 
Divide el texto en palabras. Ejemplo: "Hola, ¬øc√≥mo est√°s?" se convierte en ["Hola", "¬ø", "c√≥mo", "est√°s", "?"].

2. Tokenizaci√≥n de Frases: Divide el texto en frases. Ejemplo: "Hoy es un buen d√≠a." se convierte en ["Hoy es un buen d√≠a."].

3. Tokenizaci√≥n de Caracteres: Divide el texto en caracteres. Ejemplo: "Hola" se convierte en ["H", "o", "l", "a"].

conda install anaconda::nltk


Tokenizacion
NLP: https://www.nltk.org/

In [4]:
import nltk
from nltk.tokenize import word_tokenize

nltk.download('punkt')
texto = "Hola ¬øc√≥mo est√°s?"
tokens = word_tokenize(texto)
print(tokens)
# Salida: ['Hola', ',', '¬ø', 'c√≥mo', 'est√°s', '?']

['Hola', '¬øc√≥mo', 'est√°s', '?']


[nltk_data] Downloading package punkt to
[nltk_data]     /Users/wilfredysantamariaruiz/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


Paso 1: Tokenizaci√≥n
Primero, tokenizamos el documento:

Documento: "Hola ¬øc√≥mo est√°s?"
Tokens: ["Hola", "¬ø", "c√≥mo", "est√°s", "?"]
Vamos a considerar solo las palabras significativas para el c√°lculo de TF-IDF, omitiendo los signos de puntuaci√≥n y stop words. Para simplificar, usaremos ["Hola", "c√≥mo", "est√°s"].

Paso 2: Calcular TF (Term Frequency)
La frecuencia de t√©rminos (TF) se calcula como el n√∫mero de veces que una palabra aparece en el documento dividido por el n√∫mero total de palabras en el documento.

Para cada palabra en 
D1:

TF("Hola"): 1/3
TF("c√≥mo"): 1/3
TF("est√°s"): 1/3
Paso 3: Calcular IDF (Inverse Document Frequency)
La frecuencia inversa de documentos (IDF) se calcula como el logaritmo del n√∫mero total de documentos en el corpus dividido por el n√∫mero de documentos que contienen el t√©rmino.

Supongamos que 

D1 es el √∫nico documento en el corpus. Para cada palabra en 

N√∫mero total de documentos (N): 1
Documentos que contienen "Hola" (df("Hola")): 1
Documentos que contienen "c√≥mo" (df("c√≥mo")): 1
Documentos que contienen "est√°s" (df("est√°s")): 1
IDF se calcula como:

IDF(t)=log( N/df(t))+1

A√±adimos 1 al logaritmo para evitar divisiones por cero.

IDF("Hola"): log(1/1))+1=1
IDF("c√≥mo"): log(1/1))+1=1
IDF("est√°s"): log(1/1))+1=1

Paso 4: Calcular TF-IDF
TF-IDF se calcula multiplicando TF y IDF para cada palabra.

Para cada palabra en 
D1:
TF-IDF("Hola"): (1/3)√ó1=1/3‚âà0.333

TF-IDF("c√≥mo"): (1/3)√ó1=1/3‚âà0.333

TF-IDF("est√°s"): (1/3)√ó1=1/3‚âà0.333

Normalizaci√≥n (Vector de Caracter√≠sticas)
Para vectorizar el documento y usarlo en algoritmos de aprendizaje autom√°tico, los valores TF-IDF se normalizan para que el vector tenga una longitud unitaria.

El vector TF-IDF para D1:

TF-IDF(D1)=[0.333,0.333,0.333]

La normalizaci√≥n se realiza dividiendo cada componente del vector por la norma ùêø2

L2 (longitud) del vector:

norma(D1)= sqtr((0.33)*2  +((0.33)*2)+ ((0.33)*2))= sqtr(3* 0.11)  ‚âà0.577

Vector normalizado:

TF-IDF¬†normalizado
ùê∑1=(0.333/0.577, 0.333/0.577,0.333/0.577)
D1=[0.577,0.577,0.577]



**Vectorizaci√≥n con TF-IDF:**

La vectorizaci√≥n es el proceso de convertir los tokens (o textos) en vectores num√©ricos que los algoritmos de machine learning pueden utilizar. Es esencial para transformar datos textuales en formatos adecuados para modelos matem√°ticos y computacionales.

M√©todos Comunes:


1. Bag of Words (BoW): Representa el texto como una matriz de frecuencia de palabras. 

Texto: "Hola, ¬øc√≥mo est√°s?"

BoW: {"Hola": 1, "c√≥mo": 1, "est√°s": 1}

2. TF-IDF (Term Frequency-Inverse Document Frequency): Ajusta la frecuencia de las palabras considerando su relevancia en el corpus completo. 

Texto: "Hola, ¬øc√≥mo est√°s?"

TF-IDF: {"Hola": 0.5, "c√≥mo": 0.7, "est√°s": 0.3}

3. Word Embeddings: Representa palabras en un espacio continuo de alta dimensi√≥n. 

"Hola" -> [0.1, 0.2, 0.3], "c√≥mo" -> [0.4, 0.5, 0.6]

4. Modelos Preentrenados: Utiliza embeddings generados por modelos como BERT, GPT, etc. 

"Hola" -> [vector de 768 dimensiones], "c√≥mo" -> [vector de 768 dimensiones]


In [5]:
from sklearn.feature_extraction.text import TfidfVectorizer

corpus = [texto]
vectorizer = TfidfVectorizer()
X = vectorizer.fit_transform(corpus)
print(X.toarray())
# Salida: [array de valores TF-IDF]

[[0.57735027 0.57735027 0.57735027]]


sklearn

In [8]:
from sklearn.feature_extraction.text import TfidfVectorizer
import numpy as np

# Documentos de ejemplo
D1 = "Hola ¬øc√≥mo est√°s?"
#D2 = "Estoy bien, gracias."
#D3 = "Hola, ¬øc√≥mo te sientes hoy?"

# Crear un corpus con los documentos
#corpus = [D1, D2, D3]
corpus = [D1]


# Inicializar el vectorizador TF-IDF
vectorizer = TfidfVectorizer()

# Ajustar y transformar el corpus
X = vectorizer.fit_transform(corpus)

# Convertir la matriz TF-IDF a un arreglo denso
tfidf_array = X.toarray()

# Obtener los nombres de las caracter√≠sticas (palabras)
feature_names = vectorizer.get_feature_names_out()

# Mostrar los resultados
print("Caracter√≠sticas (Palabras):", feature_names)
print("Arreglo TF-IDF:")
print(tfidf_array)




Caracter√≠sticas (Palabras): ['c√≥mo' 'est√°s' 'hola']
Arreglo TF-IDF:
[[0.57735027 0.57735027 0.57735027]]
