<table align="left">
  <td>
    <a href="https://colab.research.google.com/drive/1rvJUY3GLe43pTxsh9VpllFfmIP9ddOLl" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>
  </td>
</table>

# **Modelos de lenguaje**

In [1]:
!pip install -q transformers
!pip install -q sentencepiece

import transformers
from transformers import pipeline
import torch

# Comprobar si hay una GPU disponible
device = 0 if torch.cuda.is_available() else -1

# https://huggingface.co/docs/transformers/main_classes/logging
transformers.utils.logging.set_verbosity_error()

[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m7.7/7.7 MB[0m [31m56.1 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m302.0/302.0 kB[0m [31m32.1 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m3.8/3.8 MB[0m [31m69.5 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m1.3/1.3 MB[0m [31m62.2 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m295.0/295.0 kB[0m [31m29.7 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m1.3/1.3 MB[0m [31m9.5 MB/s[0m eta [36m0:00:00[0m
[?25h

## Modelos de lenguaje estocásticos

In [2]:
texto = """
El perro salta sobre el muro.
El gato duerme en el sofá.
El niño juega en el parque.
La niña canta en el coro.
El perro corre tras el gato.
La niña lee un libro.
El niño dibuja un perro.
"""

# Limpiamos y tokenizamos el texto
texto = texto.lower().replace('\n', ' ').replace('.', '').strip()
palabras = texto.split(' ')

In [None]:
from collections import defaultdict

bigramas = defaultdict(int)

for i in range(len(palabras) - 1):
    bigrama = (palabras[i], palabras[i+1])
    bigramas[bigrama] += 1

In [None]:
def predecir_siguiente_palabra(palabra, bigramas):
    siguientes_palabras = {k[1]: v for k, v in bigramas.items() if k[0] == palabra}
    if not siguientes_palabras:
        return "No se puede predecir."

    palabra_predicha = max(siguientes_palabras, key=siguientes_palabras.get)
    return palabra_predicha

# Ejemplos de uso
print(predecir_siguiente_palabra('el', bigramas))  # Debería mostrar 'perro', 'gato', 'niño' o 'niña' dependiendo de las frecuencias
print(predecir_siguiente_palabra('la', bigramas))  # Debería mostrar 'niña'
print(predecir_siguiente_palabra('niña', bigramas))  # Debería mostrar 'canta' o 'lee' dependiendo de las frecuencias

perro
niña
canta


## Modelos de lenguaje basados en deep learning


### Análisis de sentimientos

In [None]:
from transformers import pipeline

nlp = pipeline("text-classification", model="nlptown/bert-base-multilingual-uncased-sentiment", device=device)

# Analizar el sentimiento del texto
result = nlp("No me importa nada")[0]
print(f"label: {result['label']}, with score: {round(result['score'], 4)}")

# Analizar el sentimiento del texto
result = nlp("Estoy loco por ti")[0]
print(f"label: {result['label']}, with score: {round(result['score'], 4)}")


Downloading (…)lve/main/config.json:   0%|          | 0.00/953 [00:00<?, ?B/s]

Downloading pytorch_model.bin:   0%|          | 0.00/669M [00:00<?, ?B/s]

Downloading (…)okenizer_config.json:   0%|          | 0.00/39.0 [00:00<?, ?B/s]

Downloading (…)solve/main/vocab.txt:   0%|          | 0.00/872k [00:00<?, ?B/s]

Downloading (…)cial_tokens_map.json:   0%|          | 0.00/112 [00:00<?, ?B/s]

label: 1 star, with score: 0.712
label: 5 stars, with score: 0.3148


### Traducción automática

In [None]:
from transformers import pipeline

# https://github.com/facebookresearch/flores/blob/main/flores200/README.md#languages-in-flores-200
nlp = pipeline("translation", model="facebook/nllb-200-distilled-600M", src_lang="spa_Latn", tgt_lang="eng_Latn", device=device)

# traducción del texto
result = nlp("No me importa nada")
print(result)


Downloading (…)lve/main/config.json:   0%|          | 0.00/846 [00:00<?, ?B/s]

Downloading pytorch_model.bin:   0%|          | 0.00/2.46G [00:00<?, ?B/s]

Downloading (…)neration_config.json:   0%|          | 0.00/189 [00:00<?, ?B/s]

Downloading (…)okenizer_config.json:   0%|          | 0.00/564 [00:00<?, ?B/s]

Downloading (…)tencepiece.bpe.model:   0%|          | 0.00/4.85M [00:00<?, ?B/s]

Downloading tokenizer.json:   0%|          | 0.00/17.3M [00:00<?, ?B/s]

Downloading (…)cial_tokens_map.json:   0%|          | 0.00/3.55k [00:00<?, ?B/s]

[{'translation_text': "I don't care about anything"}]


### Clasificación de tokens

In [None]:
# Use a pipeline as a high-level helper
from transformers import pipeline

nlp = pipeline("token-classification", model="xlm-roberta-large-finetuned-conll03-english", device=device)

result = nlp("El perro del tío Braulio no es un perro, es un demonio.")
print(result)


Downloading pytorch_model.bin:   0%|          | 0.00/2.24G [00:00<?, ?B/s]

Downloading (…)tencepiece.bpe.model:   0%|          | 0.00/5.07M [00:00<?, ?B/s]

Downloading (…)/main/tokenizer.json:   0%|          | 0.00/9.10M [00:00<?, ?B/s]

[{'entity': 'I-PER', 'score': 0.9999851, 'index': 7, 'word': '▁Bra', 'start': 17, 'end': 20}, {'entity': 'I-PER', 'score': 0.9999745, 'index': 8, 'word': 'ulio', 'start': 20, 'end': 24}]


### Resúmenes de textos

In [None]:
nlp = pipeline("summarization", model="csebuetnlp/mT5_multilingual_XLSum", device=device)

texto="""
Los Sesgos en la Inteligencia Artificial: Un Asunto Urgente
Introducción
La inteligencia artificial (IA) ha llegado a ser parte integral de nuestras vidas, desde recomendaciones de productos en línea hasta diagnósticos médicos. Sin embargo, a medida que la IA se integra más en nuestros sistemas sociales y económicos, el problema del sesgo en estos modelos se ha convertido en un tema cada vez más preocupante.

¿Qué es el Sesgo en la IA?
El sesgo en la IA es la tendencia de un modelo a hacer generalizaciones erróneas basadas en los datos de entrenamiento. Estas generalizaciones pueden reflejar y perpetuar prejuicios humanos, ya sean raciales, de género, socioeconómicos o de otro tipo. Es decir, la IA no es intrínsecamente justa o injusta, sino que reproduce los sesgos que ya existen en la sociedad.

¿Cómo se Introduce el Sesgo?
El sesgo puede introducirse de varias maneras en los modelos de IA:

Datos de Entrenamiento: Si los datos usados para entrenar el modelo contienen sesgos, el modelo aprenderá esos sesgos.
Diseño del Modelo: Los algoritmos también pueden introducir sesgos si están diseñados de manera que priorizan ciertas características.
Interacción Humana: Los usuarios pueden, consciente o inconscientemente, alimentar el sistema con datos sesgados.
Casos Reales de Sesgo en la IA
Un ejemplo claro es el de los sistemas de reconocimiento facial que tienen dificultades para identificar a personas con tonos de piel más oscuros. También hay casos de chatbots que han aprendido lenguaje ofensivo y discriminatorio de las interacciones en línea. En ambos casos, las consecuencias del sesgo pueden ser graves.

Consecuencias del Sesgo
Las implicaciones del sesgo en la IA son inmensas, desde la discriminación en el acceso a servicios y oportunidades, hasta la injusticia en sistemas legales y penales. En el peor de los casos, los sesgos de IA pueden reforzar círculos viciosos de desigualdad.

Mitigando el Sesgo
Es fundamental que los ingenieros, los responsables políticos y otros interesados trabajen juntos para minimizar los sesgos. Algunas estrategias incluyen la revisión ética, la auditoría de algoritmos, y la adopción de técnicas de "aprendizaje justo".

Conclusión
El sesgo en la IA es un problema crítico que requiere una atención inmediata y colaborativa. A medida que la IA sigue evolucionando, es fundamental abordar este problema de frente para asegurar que la tecnología actúe como una fuerza para el bien, en lugar de perpetuar las desigualdades existentes.
"""

resumen = nlp(texto)

print(resumen)

del nlp


Downloading (…)lve/main/config.json:   0%|          | 0.00/730 [00:00<?, ?B/s]

Downloading pytorch_model.bin:   0%|          | 0.00/2.33G [00:00<?, ?B/s]

Downloading (…)okenizer_config.json:   0%|          | 0.00/375 [00:00<?, ?B/s]

Downloading spiece.model:   0%|          | 0.00/4.31M [00:00<?, ?B/s]

Downloading (…)cial_tokens_map.json:   0%|          | 0.00/65.0 [00:00<?, ?B/s]



[{'summary_text': 'El sesgo en la inteligencia artificial (IA) es un problema crítico que requiere atención inmediata y colaborativa.'}]


### Un chatbot

In [None]:
from transformers import pipeline, Conversation

chatbot = pipeline("conversational", model="facebook/blenderbot-400M-distill")

while True:
    user = Conversation(input("You: "))
    response = chatbot([user])
    print("Chatbot:", response)


Downloading (…)lve/main/config.json:   0%|          | 0.00/1.57k [00:00<?, ?B/s]

Downloading pytorch_model.bin:   0%|          | 0.00/730M [00:00<?, ?B/s]

Downloading (…)neration_config.json:   0%|          | 0.00/347 [00:00<?, ?B/s]

Downloading (…)okenizer_config.json:   0%|          | 0.00/1.15k [00:00<?, ?B/s]

Downloading (…)olve/main/vocab.json:   0%|          | 0.00/127k [00:00<?, ?B/s]

Downloading (…)olve/main/merges.txt:   0%|          | 0.00/62.9k [00:00<?, ?B/s]

Downloading (…)in/added_tokens.json:   0%|          | 0.00/16.0 [00:00<?, ?B/s]

Downloading (…)cial_tokens_map.json:   0%|          | 0.00/772 [00:00<?, ?B/s]

Downloading (…)/main/tokenizer.json:   0%|          | 0.00/310k [00:00<?, ?B/s]

Chatbot: Conversation id: 960c07cb-3009-4c41-90fb-0541e0c34c2f
user: el niño
assistant:  El niro is an Italian actor, director, and producer. Have you seen any of his movies?

