QuBERT

LlamaRoBERTa es un modelo de lenguaje basado en RoBERTa para el quechua. Nuestro modelo de lenguaje fue pre-entrenado con texto del quechua sureño (Collao y Chanka).

Acerca del modelo

Modulo	Descarga
LlamaRoBERTa	config.json, pytorch_model.bin
Tokenizer	merges.txt, vocab.json

El modelo utiliza un tokenizador Byte-level BPE con un vocabulario de 52000 tokens de subpalabras.

Usabilidad

Una vez descargado los pesos y el tokenizador en la seccion de arriba es necesario adjuntarlo en un sola carpeta, en este caso fue LlamaRoBERTa.

from transformers import pipeline

fill_mask = pipeline(
    "fill-mask",
    model="./LlamaRoBERTa",
    tokenizer="./LlamaRoBERTa"
)

Se hace la prueba, la cual esta en fases de mejoras.

fill_mask("allinllachu <mask> allinlla huk wasipita.")

[{'score': 0.23992203176021576,
 'sequence': 'allinllachu nisqaqa allinlla huk wasipita.',
 'token': 334,
 'token_str': ' nisqaqa'},
{'score': 0.061005301773548126,
 'sequence': 'allinllachu, allinlla huk wasipita.',
 'token': 16,
 'token_str': ','},
 {'score': 0.028720015659928322,
 'sequence': "allinllachu' allinlla huk wasipita.",
 'token': 11,
 'token_str': "'"},
{'score': 0.012927944771945477,
'sequence': 'allinllachu kay allinlla huk wasipita.',
'token': 377,
'token_str': ' kay'},
{'score': 0.01230092253535986,
'sequence': 'allinllachu. allinlla huk wasipita.',
 'token': 18,
'token_str': '.'}]

Name		Name	Last commit message	Last commit date
Latest commit History 28 Commits
Charts		Charts
notebook		notebook
resource		resource
LICENSE		LICENSE
README.md		README.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

QuBERT

Acerca del modelo

Usabilidad

About

Releases 5

Packages

Contributors 3

Languages

License

Llamacha/QuBERT

Folders and files

Latest commit

History

Repository files navigation

QuBERT

Acerca del modelo

Usabilidad

About

Topics

Resources

License

Stars

Watchers

Forks

Releases 5

Packages 0

Contributors 3

Languages

Packages