<a href="https://colab.research.google.com/github/sgevatschnaider/NLP_Projecto/blob/main/NLP_Tokenizaci%C3%B3n.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [1]:
from IPython.display import display, HTML

# Contenido HTML sobre Tokenización
html_content = """
<!DOCTYPE html>
<html lang="es">
<head>
    <meta charset="UTF-8">
    <meta name="viewport" content="width=device-width, initial-scale=1.0">
    <title>Tokenización en NLP</title>
    <link href="https://fonts.googleapis.com/css2?family=Roboto:wght@400;700&display=swap" rel="stylesheet">
    <style>
        body {
            font-family: 'Roboto', Arial, sans-serif;
            line-height: 1.6;
            margin: 20px;
            padding: 20px;
            background-color: #f9f9f9;
            color: #333;
        }
        h1 {
            color: #2c3e50;
            text-align: center;
            font-size: 2.5em;
            margin-bottom: 20px;
        }
        h2 {
            color: #2980b9;
            font-size: 1.8em;
            margin-top: 30px;
        }
        p {
            font-size: 1.2em;
            margin-bottom: 15px;
        }
        code {
            background-color: #f0f0f0;
            padding: 2px 5px;
            border-radius: 3px;
            font-family: 'Courier New', Courier, monospace;
        }
        pre {
            background-color: #f0f0f0;
            padding: 10px;
            border-radius: 5px;
            font-size: 1.1em;
            overflow-x: auto;
        }
    </style>
</head>
<body>
    <h1>Tokenización: Un Paso Clave en el Procesamiento del Lenguaje Natural</h1>

    <p>La tokenización es una de las primeras y más importantes etapas en el procesamiento del lenguaje natural (NLP). Consiste en dividir un texto grande y continuo en unidades más pequeñas llamadas <strong>tokens</strong>. Estas unidades permiten que el texto sea más manejable y que los algoritmos de NLP puedan trabajar con mayor facilidad. Los tokens pueden ser palabras, subpalabras, caracteres o incluso oraciones, dependiendo del método de tokenización que se aplique.</p>

    <h2>¿Por qué es importante la tokenización?</h2>
    <p>El texto sin procesar es una secuencia de caracteres sin estructura definida desde el punto de vista de una máquina. Los modelos y algoritmos de NLP requieren que el texto esté en una forma estructurada y entendible. Aquí es donde la tokenización juega un papel clave, transformando la secuencia no estructurada en componentes básicos que puedan ser analizados y utilizados por sistemas automatizados.</p>

    <h2>Métodos comunes de tokenización</h2>
    <ul>
        <li><strong>Tokenización a nivel de palabras</strong>: El texto se divide en palabras individuales. Cada palabra se considera un token. Es útil para tareas como análisis de sentimientos o clasificación de textos.</li>
    </ul>

    <pre><code>['El', 'sol', 'brilla']</code></pre>

    <ul>
        <li><strong>Tokenización a nivel de subpalabras</strong>: Se dividen las palabras en fragmentos más pequeños llamados subpalabras. Útil para manejar palabras raras o desconocidas, utilizado por modelos como BERT o GPT.</li>
    </ul>

    <pre><code>['Token', 'ization']</code></pre>

    <ul>
        <li><strong>Tokenización a nivel de caracteres</strong>: Cada carácter individual es tratado como un token. Útil para lenguajes sin delimitadores claros, como el chino o japonés.</li>
    </ul>

    <pre><code>['H', 'o', 'l', 'a']</code></pre>

    <ul>
        <li><strong>Tokenización basada en oraciones</strong>: El texto se divide en oraciones completas, en lugar de palabras o caracteres. Ideal para tareas como análisis sintáctico o resumen de textos.</li>
    </ul>

    <pre><code>['Hola.', '¿Cómo estás?']</code></pre>

    <h2>Métodos de tokenización empleados en la práctica</h2>
    <p>En Python, bibliotecas como <code>spaCy</code>, <code>NLTK</code> o <code>Hugging Face's Tokenizers</code> proveen métodos eficientes para tokenización.</p>

    <p>Ejemplo sencillo de tokenización con NLTK:</p>

    <pre><code>import nltk
nltk.download('punkt')
from nltk.tokenize import word_tokenize

text = "Tokenizing text is a core task of NLP."
tokens = word_tokenize(text)
print(tokens)</code></pre>

    <p>Salida:</p>

    <pre><code>['Tokenizing', 'text', 'is', 'a', 'core', 'task', 'of', 'NLP', '.']</code></pre>

    <h2>Consideraciones finales</h2>
    <p>La tokenización es esencial en todas las aplicaciones de NLP porque convierte el lenguaje humano en algo que las máquinas pueden entender. El método de tokenización que elijas dependerá de la tarea específica y de los requerimientos del modelo. Elegir entre tokenización a nivel de palabra, subpalabra o carácter puede afectar la precisión y eficiencia del modelo.</p>
</body>
</html>
"""

# Mostrar el contenido HTML en Google Colab
display(HTML(html_content))


In [14]:
import nltk
# Descargamos los recursos necesarios para tokenización, etiquetado y stemming
nltk.download('punkt')
nltk.download('averaged_perceptron_tagger')
nltk.download('wordnet')

# Importamos las funcionalidades necesarias
from nltk.tokenize import word_tokenize
from nltk import pos_tag
from nltk.stem import PorterStemmer
from nltk.stem import WordNetLemmatizer

# Frase para analizar en inglés
text = "Artificial intelligence is going to revolutionize the world of work."

# Tokenización: dividir el texto en palabras
tokens = word_tokenize(text)
print("Tokens:", tokens)

# Etiquetado gramatical (POS tagging): obtener la categoría gramatical de cada palabra
tagged_tokens = pos_tag(tokens)
print("Etiquetas gramaticales:", tagged_tokens)

# Stemming: reducir las palabras a su raíz
stemmer = PorterStemmer()
stemmed_tokens = [stemmer.stem(token) for token in tokens]
print("Stemming:", stemmed_tokens)

# Lematización: reducir las palabras a su forma base
lemmatizer = WordNetLemmatizer()
lemmatized_tokens = [lemmatizer.lemmatize(token) for token in tokens]
print("Lematización:", lemmatized_tokens)




Tokens: ['Artificial', 'intelligence', 'is', 'going', 'to', 'revolutionize', 'the', 'world', 'of', 'work', '.']
Etiquetas gramaticales: [('Artificial', 'JJ'), ('intelligence', 'NN'), ('is', 'VBZ'), ('going', 'VBG'), ('to', 'TO'), ('revolutionize', 'VB'), ('the', 'DT'), ('world', 'NN'), ('of', 'IN'), ('work', 'NN'), ('.', '.')]
Stemming: ['artifici', 'intellig', 'is', 'go', 'to', 'revolution', 'the', 'world', 'of', 'work', '.']
Lematización: ['Artificial', 'intelligence', 'is', 'going', 'to', 'revolutionize', 'the', 'world', 'of', 'work', '.']


[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     /root/nltk_data...
[nltk_data]   Package averaged_perceptron_tagger is already up-to-
[nltk_data]       date!
[nltk_data] Downloading package wordnet to /root/nltk_data...
[nltk_data]   Package wordnet is already up-to-date!


In [15]:
from IPython.display import display, HTML

# Contenido HTML sobre Introducción a NLTK
html_content = """
<!DOCTYPE html>
<html lang="es">
<head>
    <meta charset="UTF-8">
    <meta name="viewport" content="width=device-width, initial-scale=1.0">
    <title>Introducción a NLTK</title>
    <link href="https://fonts.googleapis.com/css2?family=Roboto:wght@400;700&display=swap" rel="stylesheet">
    <style>
        body {
            font-family: 'Roboto', Arial, sans-serif;
            line-height: 1.6;
            margin: 20px;
            padding: 20px;
            background-color: #f9f9f9;
            color: #333;
        }
        h1 {
            color: #2c3e50;
            text-align: center;
            font-size: 2.5em;
            margin-bottom: 20px;
        }
        h2 {
            color: #2980b9;
            font-size: 1.8em;
            margin-top: 30px;
        }
        p {
            font-size: 1.2em;
            margin-bottom: 15px;
        }
        code {
            background-color: #f0f0f0;
            padding: 2px 5px;
            border-radius: 3px;
            font-family: 'Courier New', Courier, monospace;
        }
        pre {
            background-color: #f0f0f0;
            padding: 10px;
            border-radius: 5px;
            font-size: 1.1em;
            overflow-x: auto;
        }
    </style>
</head>
<body>
    <h1>Introducción a NLTK: El Kit de Herramientas para el Procesamiento del Lenguaje Natural</h1>

    <p><strong>NLTK</strong> (Natural Language Toolkit) es una biblioteca de Python ampliamente utilizada para el procesamiento del lenguaje natural (NLP). Proporciona una amplia gama de herramientas que permiten trabajar con texto de manera efectiva, como:</p>

    <ul>
        <li>Tokenización: Dividir un texto en palabras o frases.</li>
        <li>Etiquetado gramatical (POS tagging): Asignar categorías gramaticales a las palabras de un texto.</li>
        <li>Stemming: Reducir las palabras a su raíz o forma base.</li>
        <li>Lematización: Convertir palabras a su forma base o "diccionario".</li>
        <li>Acceso a corpus: Incluye acceso a varios corpus de texto precompilados.</li>
    </ul>

    <h2>¿Por qué usar NLTK?</h2>
    <p>NLTK es ideal tanto para principiantes como para expertos en NLP. Te permite realizar tareas complejas de procesamiento de texto de manera sencilla utilizando módulos predefinidos.</p>

    <h2>Ejemplo de Código con NLTK</h2>
    <p>El siguiente código muestra cómo usar algunas de las funcionalidades más básicas de NLTK: tokenización, etiquetado gramatical (POS tagging), stemming, y lematización.</p>

    <pre><code>import nltk
# Descargar recursos necesarios
nltk.download('punkt')
nltk.download('averaged_perceptron_tagger')
nltk.download('wordnet')

# Importar las funcionalidades necesarias
from nltk.tokenize import word_tokenize
from nltk import pos_tag
from nltk.stem import PorterStemmer
from nltk.stem import WordNetLemmatizer

# Frase para analizar
text = "Artificial intelligence is going to revolutionize the world of work."

# Tokenización: dividir el texto en palabras
tokens = word_tokenize(text)
print("Tokens:", tokens)

# Etiquetado gramatical: obtener la categoría gramatical de cada palabra
tagged_tokens = pos_tag(tokens)
print("Etiquetas gramaticales:", tagged_tokens)

# Stemming: reducir las palabras a su raíz
stemmer = PorterStemmer()
stemmed_tokens = [stemmer.stem(token) for token in tokens]
print("Stemming:", stemmed_tokens)

# Lematización: reducir las palabras a su forma base
lemmatizer = WordNetLemmatizer()
lemmatized_tokens = [lemmatizer.lemmatize(token) for token in tokens]
print("Lematización:", lemmatized_tokens)</code></pre>

    <h2>Explicación del Código</h2>
    <ul>
        <li><strong>Tokenización</strong>: Convierte el texto en una lista de palabras o tokens.</li>
        <li><strong>Etiquetado gramatical</strong>: Asigna una categoría gramatical a cada palabra.</li>
        <li><strong>Stemming</strong>: Reduce las palabras a su raíz o forma básica.</li>
        <li><strong>Lematización</strong>: Convierte las palabras a su forma base o diccionario.</li>
    </ul>

    <h2>Salida esperada</h2>
    <pre><code>Tokens: ['Artificial', 'intelligence', 'is', 'going', 'to', 'revolutionize', 'the', 'world', 'of', 'work', '.']
Etiquetas gramaticales: [('Artificial', 'JJ'), ('intelligence', 'NN'), ('is', 'VBZ'), ('going', 'VBG'), ('to', 'TO'), ('revolutionize', 'VB'), ('the', 'DT'), ('world', 'NN'), ('of', 'IN'), ('work', 'NN'), ('.', '.')]
Stemming: ['artifici', 'intellig', 'is', 'go', 'to', 'revolution', 'the', 'world', 'of', 'work', '.']
Lematización: ['Artificial', 'intelligence', 'is', 'going', 'to', 'revolutionize', 'the', 'world', 'of', 'work', '.']</code></pre>

    <h2>Conclusión</h2>
    <p>NLTK es una poderosa biblioteca para el procesamiento del lenguaje natural. Con este código, has aprendido cómo tokenizar, etiquetar gramaticalmente, aplicar stemming y lematización a un texto. NLTK ofrece una forma rápida y sencilla de abordar tareas complejas de procesamiento de texto.</p>
</body>
</html>
"""

# Mostrar el contenido HTML en Google Colab
display(HTML(html_content))


In [1]:
from IPython.display import display, HTML

# Contenido HTML que explica qué es spaCy y cómo usarlo en Python
html_content = """
<!DOCTYPE html>
<html lang="es">
<head>
    <meta charset="UTF-8">
    <meta name="viewport" content="width=device-width, initial-scale=1.0">
    <title>Introducción a spaCy</title>
    <link href="https://fonts.googleapis.com/css2?family=Roboto:wght@400;700&display=swap" rel="stylesheet">
    <style>
        body {
            font-family: 'Roboto', Arial, sans-serif;
            line-height: 1.6;
            margin: 20px;
            padding: 20px;
            background-color: #f9f9f9;
            color: #333;
        }
        h1 {
            color: #2c3e50;
            text-align: center;
            font-size: 2.5em;
            margin-bottom: 20px;
        }
        h2 {
            color: #2980b9;
            font-size: 1.8em;
            margin-top: 30px;
        }
        p {
            font-size: 1.2em;
            margin-bottom: 15px;
        }
        code {
            background-color: #f0f0f0;
            padding: 2px 5px;
            border-radius: 3px;
            font-family: 'Courier New', Courier, monospace;
        }
        pre {
            background-color: #f0f0f0;
            padding: 10px;
            border-radius: 5px;
            font-size: 1.1em;
            overflow-x: auto;
        }
    </style>
</head>
<body>
    <h1>¿Qué es spaCy?</h1>
    <p><strong>spaCy</strong> es una biblioteca poderosa y moderna para el procesamiento del lenguaje natural (NLP) en Python, optimizada para el uso en aplicaciones del mundo real. Su enfoque está en el rendimiento, y es fácil de usar en producción.</p>

    <h2>Principales características de spaCy:</h2>
    <ul>
        <li><strong>Tokenización avanzada</strong>: Divide el texto en palabras o frases de manera eficiente.</li>
        <li><strong>Etiquetado gramatical (POS tagging)</strong>: Asigna categorías gramaticales a las palabras (sustantivos, verbos, etc.).</li>
        <li><strong>Lematización</strong>: Devuelve la forma base de una palabra (por ejemplo, infinitivos de verbos).</li>
        <li><strong>Dependencia sintáctica</strong>: Analiza las relaciones gramaticales entre palabras.</li>
        <li><strong>Reconocimiento de entidades nombradas (NER)</strong>: Detecta entidades como nombres de personas, fechas, lugares, etc.</li>
    </ul>

    <h2>Ejemplo práctico utilizando spaCy</h2>
    <p>El siguiente código muestra cómo usar spaCy para realizar tokenización, etiquetado gramatical, lematización y obtener más detalles de los tokens en una oración.</p>

    <pre><code>import spacy

# Cargar el modelo en inglés (pequeño)
nlp = spacy.load("en_core_web_sm")

# Frase para analizar
text = "Artificial intelligence is going to revolutionize the world of work."

# Procesar el texto
doc = nlp(text)

# Tokenización: Dividir el texto en tokens (palabras)
tokens = [token.text for token in doc]
print("Tokens:", tokens)

# Etiquetado gramatical (POS tagging): Obtener la categoría gramatical de cada palabra
pos_tags = [(token.text, token.pos_) for token in doc]
print("Etiquetas gramaticales (POS):", pos_tags)

# Lematización: Reducir las palabras a su forma base
lemmas = [(token.text, token.lemma_) for token in doc]
print("Lematización:", lemmas)

# Información adicional de los tokens
token_details = [(token.text, token.lemma_, token.pos_, token.tag_, token.dep_, token.shape_, token.is_alpha, token.is_stop) for token in doc]
print("\\nDetalles de cada token:")
for detail in token_details:
    print(detail)</code></pre>

    <h2>Explicación detallada del código</h2>
    <ul>
        <li><strong>Carga del modelo:</strong> spaCy utiliza un modelo preentrenado en inglés, que contiene las reglas gramaticales y semánticas necesarias.</li>
        <li><strong>Tokenización:</strong> Divide la frase en palabras y signos de puntuación.</li>
        <li><strong>Etiquetado gramatical (POS tagging):</strong> Asigna una categoría gramatical a cada palabra.</li>
        <li><strong>Lematización:</strong> Devuelve la forma base o raíz de cada palabra.</li>
        <li><strong>Detalles de los tokens:</strong> spaCy ofrece información adicional sobre cada palabra, como su función en la oración, si es una palabra alfabética o una palabra de parada (stop word).</li>
    </ul>

    <h2>Salida esperada:</h2>
    <pre><code>Tokens: ['Artificial', 'intelligence', 'is', 'going', 'to', 'revolutionize', 'the', 'world', 'of', 'work', '.']
Etiquetas gramaticales (POS): [('Artificial', 'ADJ'), ('intelligence', 'NOUN'), ('is', 'AUX'), ('going', 'VERB'), ('to', 'PART'), ('revolutionize', 'VERB'), ('the', 'DET'), ('world', 'NOUN'), ('of', 'ADP'), ('work', 'NOUN'), ('.', 'PUNCT')]
Lematización: [('Artificial', 'artificial'), ('intelligence', 'intelligence'), ('is', 'be'), ('going', 'go'), ('to', 'to'), ('revolutionize', 'revolutionize'), ('the', 'the'), ('world', 'world'), ('of', 'of'), ('work', 'work'), ('.', '.')]
Detalles de cada token: [('Artificial', 'artificial', 'ADJ', 'JJ', 'amod', 'Xxxxx', True, False), ...]</code></pre>

    <h2>Conclusión</h2>
    <p>spaCy ofrece una solución poderosa y eficiente para el procesamiento del lenguaje natural, permitiendo analizar, tokenizar, etiquetar y lematizar texto de manera rápida y precisa. Es ideal para aplicaciones de NLP en producción.</p>
</body>
</html>
"""

# Mostrar el contenido HTML en Google Colab
display(HTML(html_content))



In [5]:
!pip install spacy
!python -m spacy download es_core_news_sm


Collecting es-core-news-sm==3.7.0
  Downloading https://github.com/explosion/spacy-models/releases/download/es_core_news_sm-3.7.0/es_core_news_sm-3.7.0-py3-none-any.whl (12.9 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m12.9/12.9 MB[0m [31m28.9 MB/s[0m eta [36m0:00:00[0m
Installing collected packages: es-core-news-sm
Successfully installed es-core-news-sm-3.7.0
[38;5;2m✔ Download and installation successful[0m
You can now load the package via spacy.load('es_core_news_sm')
[38;5;3m⚠ Restart to reload dependencies[0m
If you are in a Jupyter or Colab notebook, you may need to restart Python in
order to load all the package's dependencies. You can do this by selecting the
'Restart kernel' or 'Restart runtime' option.


In [16]:
import spacy

# Cargar el modelo en inglés (pequeño)
nlp = spacy.load("en_core_web_sm")

# Frase para analizar
text = "Artificial intelligence is going to revolutionize the world of work."

# Procesar el texto
doc = nlp(text)

# Tokenización: Dividir el texto en tokens (palabras)
tokens = [token.text for token in doc]
print("Tokens:", tokens)

# Etiquetado gramatical (POS tagging): Obtener la categoría gramatical de cada palabra
pos_tags = [(token.text, token.pos_) for token in doc]
print("Etiquetas gramaticales (POS):", pos_tags)

# Lematización: Reducir las palabras a su forma base
lemmas = [(token.text, token.lemma_) for token in doc]
print("Lematización:", lemmas)

# Información adicional de los tokens
token_details = [(token.text, token.lemma_, token.pos_, token.tag_, token.dep_, token.shape_, token.is_alpha, token.is_stop) for token in doc]
print("\nDetalles de cada token:")
for detail in token_details:
    print(detail)


Tokens: ['Artificial', 'intelligence', 'is', 'going', 'to', 'revolutionize', 'the', 'world', 'of', 'work', '.']
Etiquetas gramaticales (POS): [('Artificial', 'ADJ'), ('intelligence', 'NOUN'), ('is', 'AUX'), ('going', 'VERB'), ('to', 'PART'), ('revolutionize', 'VERB'), ('the', 'DET'), ('world', 'NOUN'), ('of', 'ADP'), ('work', 'NOUN'), ('.', 'PUNCT')]
Lematización: [('Artificial', 'artificial'), ('intelligence', 'intelligence'), ('is', 'be'), ('going', 'go'), ('to', 'to'), ('revolutionize', 'revolutionize'), ('the', 'the'), ('world', 'world'), ('of', 'of'), ('work', 'work'), ('.', '.')]

Detalles de cada token:
('Artificial', 'artificial', 'ADJ', 'JJ', 'amod', 'Xxxxx', True, False)
('intelligence', 'intelligence', 'NOUN', 'NN', 'nsubj', 'xxxx', True, False)
('is', 'be', 'AUX', 'VBZ', 'aux', 'xx', True, True)
('going', 'go', 'VERB', 'VBG', 'ROOT', 'xxxx', True, False)
('to', 'to', 'PART', 'TO', 'aux', 'xx', True, True)
('revolutionize', 'revolutionize', 'VERB', 'VB', 'xcomp', 'xxxx', Tru

In [6]:
import spacy

# Cargar el modelo en español
nlp = spacy.load("es_core_news_sm")

# Frase a tokenizar
text = "La inteligencia artificial está transformando el mundo rápidamente."

# Procesar el texto
doc = nlp(text)

# Extraer los tokens
tokens = [token.text for token in doc]

# Imprimir los tokens
print(tokens)


['La', 'inteligencia', 'artificial', 'está', 'transformando', 'el', 'mundo', 'rápidamente', '.']


In [7]:
!pip install tokenizers




In [6]:
    from IPython.display import display, HTML

# Contenido HTML que explica cómo funciona el Tokenizador de Hugging Face con BERT
html_content = """
<!DOCTYPE html>
<html lang="es">
<head>
    <meta charset="UTF-8">
    <meta name="viewport" content="width=device-width, initial-scale=1.0">
    <title>Tokenización con Hugging Face y BERT</title>
    <link href="https://fonts.googleapis.com/css2?family=Roboto:wght@400;700&display=swap" rel="stylesheet">
    <style>
        body {
            font-family: 'Roboto', Arial, sans-serif;
            line-height: 1.6;
            margin: 20px;
            padding: 20px;
            background-color: #f9f9f9;
            color: #333;
        }
        h1 {
            color: #2c3e50;
            text-align: center;
            font-size: 2.5em;
            margin-bottom: 20px;
        }
        h2 {
            color: #2980b9;
            font-size: 1.8em;
            margin-top: 30px;
        }
        p {
            font-size: 1.2em;
            margin-bottom: 15px;
        }
        code {
            background-color: #f0f0f0;
            padding: 2px 5px;
            border-radius: 3px;
            font-family: 'Courier New', Courier, monospace;
        }
        pre {
            background-color: #f0f0f0;
            padding: 10px;
            border-radius: 5px;
            font-size: 1.1em;
            overflow-x: auto;
        }
    </style>
</head>
<body>
    <h1>Tokenización con Hugging Face y BERT</h1>
    <p>En este tutorial, aprenderás cómo utilizar el <strong>Tokenizador de Hugging Face</strong> con el modelo <strong>BERT</strong> para realizar tareas de procesamiento del lenguaje natural (NLP), como la tokenización y la decodificación.</p>

    <h2>¿Qué es un Tokenizador?</h2>
    <p>Un <strong>tokenizador</strong> divide el texto en palabras, subpalabras o caracteres. Modelos como <strong>BERT</strong> utilizan un tokenizador de tipo <em>WordPiece</em>, que descompone palabras desconocidas en subpalabras más pequeñas.</p>

    <h2>Código de Ejemplo</h2>
    <p>El siguiente código muestra cómo tokenizar una frase en inglés, obtener los identificadores de los tokens (IDs), agregar los tokens especiales [CLS] y [SEP], y finalmente decodificar los tokens nuevamente a texto.</p>

    <pre><code>from transformers import AutoTokenizer

# Cargar un tokenizador preentrenado (BERT en inglés)
tokenizer = AutoTokenizer.from_pretrained("bert-base-uncased")

# Frase para tokenizar
text = "Artificial intelligence is going to revolutionize the world of work."

# Tokenización
tokens = tokenizer.tokenize(text)
print("Tokens:", tokens)

# Convertir tokens a IDs
token_ids = tokenizer.convert_tokens_to_ids(tokens)
print("IDs de los tokens:", token_ids)

# Agregar tokens especiales [CLS] y [SEP]
tokens_with_special = tokenizer.encode(text)
print("Tokens con [CLS] y [SEP]:", tokens_with_special)

# Decodificación de los IDs a texto
decoded_text = tokenizer.decode(tokens_with_special)
print("Texto decodificado:", decoded_text)</code></pre>

    <h2>Explicación del Código</h2>
    <ul>
        <li><strong>Tokenización:</strong> Convierte el texto en tokens utilizando el tokenizador de BERT.</li>
        <li><strong>IDs de los tokens:</strong> Convierte los tokens en sus correspondientes identificadores numéricos en el vocabulario de BERT.</li>
        <li><strong>Tokens especiales:</strong> Agrega [CLS] (inicio) y [SEP] (fin) a la secuencia tokenizada.</li>
        <li><strong>Decodificación:</strong> Convierte los IDs de vuelta a texto.</li>
    </ul>

    <h2>Ejemplo de Salida</h2>
    <pre><code>Tokens: ['artificial', 'intelligence', 'is', 'going', 'to', 're', '##vol', '##ution', '##ize', 'the', 'world', 'of', 'work', '.']
IDs de los tokens: [21328, 17515, 2003, 2183, 2000, 2128, 14893, 21107, 1045, 1996, 2088, 1997, 2147, 1012]
Tokens con [CLS] y [SEP]: [101, 21328, 17515, 2003, 2183, 2000, 2128, 14893, 21107, 1045, 1996, 2088, 1997, 2147, 1012, 102]
Texto decodificado: artificial intelligence is going to revolutionize the world of work.</code></pre>

    <h2>Conclusión</h2>
    <p>Este ejemplo muestra cómo puedes utilizar el tokenizador de Hugging Face para dividir texto en tokens, obtener los IDs de los tokens, agregar tokens especiales y decodificar los IDs a texto. Es un proceso fundamental en el trabajo con modelos como <strong>BERT</strong> en tareas de NLP.</p>
</body>
</html>
"""

# Mostrar el contenido HTML en Google Colab
display(HTML(html_content))




In [9]:
!pip install transformers




In [3]:
from transformers import AutoTokenizer

# Cargar un tokenizador preentrenado (por ejemplo, BERT en inglés)
tokenizer = AutoTokenizer.from_pretrained("bert-base-uncased")

# Frase en inglés para tokenizar
text = "Artificial intelligence is going to revolutionize the world of work."

# Tokenizar la frase
tokens = tokenizer.tokenize(text)
print("Tokens:", tokens)

# Obtener los IDs de los tokens (números que representan cada token en el vocabulario de BERT)
token_ids = tokenizer.convert_tokens_to_ids(tokens)
print("IDs de los tokens:", token_ids)

# Agregar los tokens especiales [CLS] (inicio) y [SEP] (separador/final) como BERT espera
tokens_with_special = tokenizer.encode(text)
print("Tokens con [CLS] y [SEP]:", tokens_with_special)

# Decodificar los IDs de tokens a texto (reconstruir el texto a partir de los tokens)
decoded_text = tokenizer.decode(tokens_with_special)
print("Texto decodificado:", decoded_text)

# Información adicional de los tokens
token_info = [{"token": token, "id": token_id} for token, token_id in zip(tokens, token_ids)]
print("\nInformación detallada de los tokens:")
for info in token_info:
    print(info)




Tokens: ['artificial', 'intelligence', 'is', 'going', 'to', 'revolution', '##ize', 'the', 'world', 'of', 'work', '.']
IDs de los tokens: [7976, 4454, 2003, 2183, 2000, 4329, 4697, 1996, 2088, 1997, 2147, 1012]
Tokens con [CLS] y [SEP]: [101, 7976, 4454, 2003, 2183, 2000, 4329, 4697, 1996, 2088, 1997, 2147, 1012, 102]
Texto decodificado: [CLS] artificial intelligence is going to revolutionize the world of work. [SEP]

Información detallada de los tokens:
{'token': 'artificial', 'id': 7976}
{'token': 'intelligence', 'id': 4454}
{'token': 'is', 'id': 2003}
{'token': 'going', 'id': 2183}
{'token': 'to', 'id': 2000}
{'token': 'revolution', 'id': 4329}
{'token': '##ize', 'id': 4697}
{'token': 'the', 'id': 1996}
{'token': 'world', 'id': 2088}
{'token': 'of', 'id': 1997}
{'token': 'work', 'id': 2147}
{'token': '.', 'id': 1012}


