# Language detection in Python

Language detection libraries used:
* langdetect - https://pypi.python.org/pypi/langdetect
* langid.py - https://github.com/saffsd/langid.py

## Langdetect

To detect the language of the text (Slovak):

In [1]:
from langdetect import detect
detect("Google, Inc. je spoločnosť so sídlom v Kalifornii v USA.")

'sk'

To find out the probabilities for the top languages:

In [2]:
from langdetect import detect_langs
detect_langs("Germany (Deutschland) is officially the Federal Republic of Germany (Bundesrepublik Deutschland).")

[en:0.5714278178312677, de:0.42857033997412247]

In [3]:
detect_langs("Germany (Deutschland), the Federal Republic of Germany (Bundesrepublik Deutschland).")

[en:0.5714284841180953, de:0.4285715130511789]

** Langdetect works better with longer texts**

Testing with longer czech text:

In [4]:
text = """
Logistická regrese je označení metody matematické statistiky 
zabývající se problematikou odhadu pravděpodobnosti nějakého 
jevu (závisle proměnné) na základě určitých známých skutečností 
(nezávisle proměnných), které mohou ovlivnit výskyt jevu. 

Událost, zda zkoumaný jev nastal, se modeluje pomocí náhodné veličiny, 
která nabývá hodnoty 0, pokud jev nenastal, nebo 1, 
pokud jev nastal (viz též charakteristická funkce). 
"""

print(detect(text))
print(detect_langs(text))

cs
[cs:0.9999965325961008]


## Langid.py

In [5]:
import langid

To detect the language of the text (Slovak):

In [6]:
langid.classify("Google, Inc. je spoločnosť so sídlom v Kalifornii v USA.")

('sk', -131.58850479125977)

Detect longer czech text:

In [7]:
text = """
Logistická regrese je označení metody matematické statistiky 
zabývající se problematikou odhadu pravděpodobnosti nějakého 
jevu (závisle proměnné) na základě určitých známých skutečností 
(nezávisle proměnných), které mohou ovlivnit výskyt jevu. 

Událost, zda zkoumaný jev nastal, se modeluje pomocí náhodné veličiny, 
která nabývá hodnoty 0, pokud jev nenastal, nebo 1, 
pokud jev nastal (viz též charakteristická funkce). 
"""

langid.classify(text)

('cs', -1443.309737443924)

** Langid allows limiting the possible languages **

In [8]:
langid.set_languages(['en','sk'])

This will cause it to skip German classification:

In [9]:
langid.classify("Germany (Deutschland), the Federal Republic of Germany (Bundesrepublik Deutschland).")

('en', -293.22873401641846)