# ¿Qué es Hugging Face?

Hugging Face es una plataforma que democratiza el acceso a la inteligencia artificial, especialmente en el procesamiento de lenguaje natural (NLP). Es como el "GitHub de la IA" donde puedes encontrar, usar y compartir modelos pre-entrenados.

## ¿Qué aprenderás?

- Qué es Hugging Face y por qué es importante
- Cómo usar modelos pre-entrenados
- Conceptos básicos de transformers
- Aplicaciones prácticas en análisis de datos


## 1. ¿Qué es Hugging Face?

Hugging Face es una empresa y plataforma que se ha convertido en el estándar para el desarrollo de aplicaciones de IA, especialmente en procesamiento de lenguaje natural (NLP). Su misión es democratizar la IA haciendo que sea accesible para todos.

### Características principales:
- **Modelos pre-entrenados**: Miles de modelos listos para usar
- **Transformers**: Librería de Python para trabajar con modelos de IA
- **Datasets**: Colección de datasets para entrenar modelos
- **Spaces**: Plataforma para compartir aplicaciones de IA


## 2. ¿Por qué es importante para análisis de datos?

### Ventajas para analistas de datos:

1. **Acceso inmediato a IA avanzada**: Sin necesidad de entrenar modelos desde cero
2. **Modelos especializados**: Para tareas específicas como análisis de sentimientos
3. **Fácil integración**: Se integra perfectamente con pandas y scikit-learn
4. **Actualizaciones constantes**: Modelos que mejoran continuamente
5. **Comunidad activa**: Soporte y ejemplos de la comunidad


## 3. Casos de uso en análisis de datos

A continuación veremos ejemplos prácticos de cómo usar Hugging Face para diferentes tareas de procesamiento de lenguaje natural.


### 3.1. Análisis de Sentimientos

El análisis de sentimientos permite determinar si un texto expresa una opinión positiva, negativa o neutra.


In [None]:
"""
Ejemplo práctico: Análisis de Sentimientos

Usaremos un pipeline pre-entrenado de Hugging Face para analizar el sentimiento
de diferentes textos. Este modelo ha sido entrenado en millones de ejemplos
y puede detectar sentimientos en múltiples idiomas.
"""
from transformers import pipeline

# Crear pipeline de análisis de sentimientos
# El modelo se descarga automáticamente la primera vez que se ejecuta
sentiment_analyzer = pipeline("sentiment-analysis")

# Analizar diferentes textos
textos = [
    "Me encanta este producto! Es increíble.",
    "No me gustó para nada, muy decepcionado.",
    "El servicio fue aceptable, nada especial.",
    "Hugging Face es una herramienta fantástica para IA.",
]

print("Análisis de Sentimientos:\n")
for texto in textos:
    result = sentiment_analyzer(texto)
    print(f"Texto: {texto}")
    print(f"Resultado: {result[0]['label']} (confianza: {result[0]['score']:.4f})\n")

No model was supplied, defaulted to distilbert/distilbert-base-uncased-finetuned-sst-2-english and revision 714eb0f (https://huggingface.co/distilbert/distilbert-base-uncased-finetuned-sst-2-english).
Using a pipeline without specifying a model name and revision in production is not recommended.


config.json:   0%|          | 0.00/629 [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/268M [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/48.0 [00:00<?, ?B/s]

vocab.txt: 0.00B [00:00, ?B/s]

Device set to use cuda:0


Análisis de Sentimientos:

Texto: Me encanta este producto! Es increíble.
Resultado: NEGATIVE (confianza: 0.9364)

Texto: No me gustó para nada, muy decepcionado.
Resultado: NEGATIVE (confianza: 0.9933)

Texto: El servicio fue aceptable, nada especial.
Resultado: NEGATIVE (confianza: 0.9652)

Texto: Hugging Face es una herramienta fantástica para IA.
Resultado: POSITIVE (confianza: 0.9963)



### 3.2. Clasificación de Texto (Zero-Shot)

La clasificación zero-shot permite clasificar texto en categorías sin necesidad de entrenar un modelo específico.


In [None]:
"""
Ejemplo práctico: Clasificación Zero-Shot

La clasificación zero-shot permite clasificar texto en categorías personalizadas
sin necesidad de entrenar un modelo. Es muy útil cuando no tienes datos etiquetados.
"""
from transformers import pipeline

# Crear pipeline de clasificación zero-shot
classifier = pipeline("zero-shot-classification")

# Textos a clasificar
textos = [
    "El equipo ganó el partido 3-0 en el último minuto",
    "La nueva ley fue aprobada por el congreso",
    "El nuevo modelo de IA supera a los anteriores",
]

# Categorías posibles
categorias = ["deportes", "política", "tecnología", "economía", "salud"]

print("Clasificación Zero-Shot:\n")
for texto in textos:
    result = classifier(texto, candidate_labels=categorias)
    print(f"Texto: {texto}")
    print(
        f"Mejor categoría: {result['labels'][0]} (confianza: {result['scores'][0]:.4f})"
    )
    print("Top 3 categorías:")
    for label, score in zip(result["labels"][:3], result["scores"][:3]):
        print(f"  - {label}: {score:.4f}")
    print()

No model was supplied, defaulted to facebook/bart-large-mnli and revision d7645e1 (https://huggingface.co/facebook/bart-large-mnli).
Using a pipeline without specifying a model name and revision in production is not recommended.


config.json: 0.00B [00:00, ?B/s]

model.safetensors:   0%|          | 0.00/1.63G [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/26.0 [00:00<?, ?B/s]

vocab.json: 0.00B [00:00, ?B/s]

merges.txt: 0.00B [00:00, ?B/s]

tokenizer.json: 0.00B [00:00, ?B/s]

Device set to use cuda:0


Clasificación Zero-Shot:

Texto: El equipo ganó el partido 3-0 en el último minuto
Mejor categoría: deportes (confianza: 0.2503)
Top 3 categorías:
  - deportes: 0.2503
  - economía: 0.2326
  - política: 0.2162

Texto: La nueva ley fue aprobada por el congreso
Mejor categoría: política (confianza: 0.7970)
Top 3 categorías:
  - política: 0.7970
  - economía: 0.0626
  - salud: 0.0521

Texto: El nuevo modelo de IA supera a los anteriores
Mejor categoría: tecnología (confianza: 0.7536)
Top 3 categorías:
  - tecnología: 0.7536
  - política: 0.1247
  - economía: 0.0607



### 3.3. Generación de Resúmenes

Los modelos de resumen pueden condensar texto largo en versiones más cortas manteniendo la información clave.


In [1]:
"""
Ejemplo práctico: Generación de Resúmenes

Los modelos de resumen automático pueden condensar textos largos en versiones
más cortas manteniendo la información más importante.
"""
from transformers import pipeline

# Crear pipeline de resumen
# Nota: Este modelo puede tardar en cargar la primera vez
summarizer = pipeline("summarization", model="facebook/bart-large-cnn")

# Texto largo a resumir (ejemplo sobre inteligencia artificial)
texto_largo = """
La inteligencia artificial (IA) ha revolucionado numerosos campos en las últimas décadas.
Desde el reconocimiento de imágenes hasta el procesamiento de lenguaje natural, los avances
han sido extraordinarios. Los modelos de aprendizaje profundo, especialmente los transformers,
han permitido avances significativos en tareas que antes eran consideradas imposibles para las máquinas.

Hugging Face ha desempeñado un papel crucial en la democratización de la IA, proporcionando
acceso a miles de modelos pre-entrenados que pueden ser utilizados por investigadores y
desarrolladores de todo el mundo. Esto ha acelerado la innovación y ha hecho que la IA sea
más accesible para personas sin recursos computacionales masivos.

El futuro de la IA promete aún más avances, con modelos cada vez más grandes y capaces,
pero también con un enfoque creciente en la eficiencia y la accesibilidad.
"""

# Generar resumen
print("Texto original:")
print(texto_largo)
print("\n" + "=" * 80 + "\n")

summary = summarizer(texto_largo, max_length=100, min_length=30, do_sample=False)
print("Resumen generado:")
print(summary[0]["summary_text"])

Device set to use cuda:0


Texto original:

La inteligencia artificial (IA) ha revolucionado numerosos campos en las últimas décadas.
Desde el reconocimiento de imágenes hasta el procesamiento de lenguaje natural, los avances
han sido extraordinarios. Los modelos de aprendizaje profundo, especialmente los transformers,
han permitido avances significativos en tareas que antes eran consideradas imposibles para las máquinas.

Hugging Face ha desempeñado un papel crucial en la democratización de la IA, proporcionando
acceso a miles de modelos pre-entrenados que pueden ser utilizados por investigadores y
desarrolladores de todo el mundo. Esto ha acelerado la innovación y ha hecho que la IA sea
más accesible para personas sin recursos computacionales masivos.

El futuro de la IA promete aún más avances, con modelos cada vez más grandes y capaces,
pero también con un enfoque creciente en la eficiencia y la accesibilidad.



Resumen generado:
La inteligencia artificial (IA) ha revolucionado numerosos campos. Esto ha ace

### 3.4. Análisis de Sentimientos con Modelo en Español

Para textos en español, podemos usar modelos específicamente entrenados en español para mejores resultados.


In [2]:
"""
Ejemplo práctico: Análisis de Sentimientos en Español

Para obtener mejores resultados con textos en español, podemos usar modelos
específicamente entrenados en español. Hugging Face tiene varios modelos disponibles.
"""
from transformers import pipeline

# Usar un modelo específico para español
# Este modelo está optimizado para análisis de sentimientos en español
sentiment_es = pipeline(
    "sentiment-analysis", model="nlptown/bert-base-multilingual-uncased-sentiment"
)

# Textos en español para analizar
textos_es = [
    "Este producto es excelente, lo recomiendo totalmente",
    "No estoy satisfecho con la calidad del servicio",
    "La película fue entretenida pero nada del otro mundo",
    "¡Increíble! Superó todas mis expectativas",
]

print("Análisis de Sentimientos en Español:\n")
for texto in textos_es:
    result = sentiment_es(texto)
    print(f"Texto: {texto}")
    print(f"Resultado: {result[0]['label']} (confianza: {result[0]['score']:.4f})\n")

config.json:   0%|          | 0.00/953 [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/669M [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/39.0 [00:00<?, ?B/s]

vocab.txt: 0.00B [00:00, ?B/s]

special_tokens_map.json:   0%|          | 0.00/112 [00:00<?, ?B/s]

Device set to use cuda:0


Análisis de Sentimientos en Español:

Texto: Este producto es excelente, lo recomiendo totalmente
Resultado: 5 stars (confianza: 0.7752)

Texto: No estoy satisfecho con la calidad del servicio
Resultado: 2 stars (confianza: 0.4958)

Texto: La película fue entretenida pero nada del otro mundo
Resultado: 3 stars (confianza: 0.4856)

Texto: ¡Increíble! Superó todas mis expectativas
Resultado: 5 stars (confianza: 0.9232)



### 3.5. Extracción de Respuestas (Question Answering)

Los modelos de question answering pueden responder preguntas basándose en un contexto dado.


In [3]:
"""
Ejemplo práctico: Question Answering

Los modelos de question answering pueden responder preguntas basándose en un
contexto proporcionado. Esto es útil para sistemas de búsqueda, chatbots, etc.
"""
from transformers import pipeline

# Crear pipeline de question answering
qa_pipeline = pipeline("question-answering")

# Contexto sobre el que se harán las preguntas
contexto = """
Hugging Face es una plataforma de código abierto que proporciona herramientas
y modelos de inteligencia artificial, especialmente para procesamiento de lenguaje natural.
La plataforma fue fundada en 2016 y se ha convertido en el estándar de la industria
para compartir y usar modelos de IA pre-entrenados. Ofrece miles de modelos gratuitos
que pueden ser utilizados para tareas como análisis de sentimientos, traducción,
generación de texto y muchas otras aplicaciones.
"""

# Preguntas a responder
preguntas = [
    "¿Qué es Hugging Face?",
    "¿Cuándo fue fundada Hugging Face?",
    "¿Qué tipo de modelos ofrece Hugging Face?",
    "¿Para qué se pueden usar los modelos de Hugging Face?",
]

print("Question Answering:\n")
print(f"Contexto: {contexto}\n")
print("=" * 80 + "\n")

for pregunta in preguntas:
    result = qa_pipeline(question=pregunta, context=contexto)
    print(f"Pregunta: {pregunta}")
    print(f"Respuesta: {result['answer']}")
    print(f"Confianza: {result['score']:.4f}")
    print(f"Posición en el texto: {result['start']}-{result['end']}\n")

No model was supplied, defaulted to distilbert/distilbert-base-cased-distilled-squad and revision 564e9b5 (https://huggingface.co/distilbert/distilbert-base-cased-distilled-squad).
Using a pipeline without specifying a model name and revision in production is not recommended.


config.json:   0%|          | 0.00/473 [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/261M [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/49.0 [00:00<?, ?B/s]

vocab.txt: 0.00B [00:00, ?B/s]

tokenizer.json: 0.00B [00:00, ?B/s]

Device set to use cuda:0


Question Answering:

Contexto: 
Hugging Face es una plataforma de código abierto que proporciona herramientas
y modelos de inteligencia artificial, especialmente para procesamiento de lenguaje natural.
La plataforma fue fundada en 2016 y se ha convertido en el estándar de la industria
para compartir y usar modelos de IA pre-entrenados. Ofrece miles de modelos gratuitos
que pueden ser utilizados para tareas como análisis de sentimientos, traducción,
generación de texto y muchas otras aplicaciones.



Pregunta: ¿Qué es Hugging Face?
Respuesta: una plataforma de código abierto
Confianza: 0.0824
Posición en el texto: 17-49

Pregunta: ¿Cuándo fue fundada Hugging Face?
Respuesta: 2016 y se ha convertido
Confianza: 0.0478
Posición en el texto: 200-223

Pregunta: ¿Qué tipo de modelos ofrece Hugging Face?
Respuesta: modelos de inteligencia artificial
Confianza: 0.0099
Posición en el texto: 81-115

Pregunta: ¿Para qué se pueden usar los modelos de Hugging Face?
Respuesta: Ofrece miles de modelos