<a href="https://colab.research.google.com/github/LUMII-AILab/NLP_Course/blob/main/notebooks/LangID.ipynb" target="_new"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open in Colab"/></a>

# Python libs for language identification

## LangID

LangID (2016): https://github.com/saffsd/langid.py
* Lightweight;
* Trained on Wikipedia, etc.;
* Using character n-grams and NB classification.


In [None]:
!pip install langid

import langid

In [None]:
print("1", langid.classify("this is just a test"))
print("2", langid.classify("šis ir tikai tests"))
print("3", langid.classify("tai tik testas"))

In [None]:
langid.set_languages(['en','lv'])

print("1", langid.classify("this is just a test"))
print("2", langid.classify("šis ir tikai tests"))

In [None]:
langid.set_languages(['lv','lt'])

print("1", langid.rank("šis ir tests"))
print("2", langid.rank("šis ir tests latviešu valodā"))

In [None]:
langid.set_languages(['uk','ru'])

print("1", langid.classify("зазнав ракетного удару агресора"))
print("2", langid.classify("зазнав ракетного удару агресора: є загиблі"))
print("3", langid.classify("але загроза затоплення не минула"))

print("4", langid.classify("Сборная Латвии по хоккею сыграет свою первую игру на чемпионате мира в Чехии в субботу"))

In [None]:
def get_top_k(text, k=3):
    # Rank all languages by probability
    all_predictions = langid.rank(text)

    # Return the top-k languages
    return all_predictions[:k]

# Reset languages
langid.set_languages()

print(get_top_k("Latvijas hokeja valstsvienība sestdien Čehijā aizvadīs pirmo spēli pasaules čempionātā", k=5))
print(get_top_k("Сборная Латвии по хоккею сыграет свою первую игру на чемпионате мира в Чехии в субботу", k=5))

# See https://en.wikipedia.org/wiki/List_of_ISO_639_language_codes

## fastText

fastText (2020): https://fasttext.cc
* A library for word embedding calculation and text classification;
* Pre-trained models for 176 languages;
* Robust language detection (incl. short texts).

In [None]:
!pip install fasttext

!wget https://dl.fbaipublicfiles.com/fasttext/supervised-models/lid.176.bin

import fasttext

In [None]:
# Load the pre-trained language detection model
model = fasttext.load_model('lid.176.bin')

In [None]:
# P.S. See https://stackoverflow.com/questions/66353366/cant-suppress-fasttext-warning-load-model-does-not-return

!pip show fasttext

fasttext.FastText.eprint = lambda x: None

In [None]:
test_set = [
    "šis ir tikai tests", # +'vienkāršs' (fastText, LangID)
    "tai tik testas",
    "šis ir tests latviešu valodā",
    "зазнав ракетного удару агресора",
    "але загроза затоплення не минула",
    "сыграет игру на чемпионате мира"
]

for test in test_set:
    # Return the TOP k predictions
    predictions = model.predict(test, k=5)

    print(test)
    for k in range(len(predictions[0])):
        print(f"{predictions[0][k][-2:]}={round(predictions[1][k], 5):.5f}", end=' ')
    print('\n')