# Detecting Text Language by Counting Stop Words

Based on [Detecting Text Language With Python and NLTK by Alejandro Nolla](http://blog.alejandronolla.com/2013/05/15/detecting-text-language-with-python-and-nltk/)

*Stop words* are words which are filtered out before processing because they are mostly grammatical as opposed to semantic in nature e.g. search engines remove words like 'want'.

## 1. Tokenizing

In [12]:
text = "Yo man, it's time for you to shut yo' mouth! I ain't even messin' dawg."

In [2]:
import sys

try:
    from nltk.tokenize import wordpunct_tokenize # RE-based tokenizer which splits text on whitespace and punctuation (except for underscore)
except ImportError:
    print('[!] You need to install nltk (http://nltk.org/index.html)')

In [13]:
test_tokens = wordpunct_tokenize(text)
test_tokens

['Yo',
 'man',
 ',',
 'it',
 "'",
 's',
 'time',
 'for',
 'you',
 'to',
 'shut',
 'yo',
 "'",
 'mouth',
 '!',
 'I',
 'ain',
 "'",
 't',
 'even',
 'messin',
 "'",
 'dawg',
 '.']

There are other tokenizers e.g. `RegexpTokenizer` where you can enter your own regexp, `WhitespaceTokenizer` (similar to Python's `string.split()`) and `BlanklineTokenizer`.

## 2. Exploring NLTK's stop words corpus

NLTK comes with a corpus of stop words in various languages.

In [14]:
from nltk.corpus import stopwords
stopwords.readme().replace('\n', ' ') # Since this is raw text, we need to replace \n's with spaces for it to be readable.

'Stopwords Corpus  This corpus contains lists of stop words for several languages.  These are high-frequency grammatical words which are usually ignored in text retrieval applications.  They were obtained from: http://anoncvs.postgresql.org/cvsweb.cgi/pgsql/src/backend/snowball/stopwords/  The stop words for the Romanian language were obtained from: http://arlc.ro/resources/  The English list has been augmented https://github.com/nltk/nltk_data/issues/22  The German list has been corrected https://github.com/nltk/nltk_data/pull/49  A Kazakh list has been added https://github.com/nltk/nltk_data/pull/52  A Nepali list has been added https://github.com/nltk/nltk_data/pull/83  An Azerbaijani list has been added https://github.com/nltk/nltk_data/pull/100  A Greek list has been added https://github.com/nltk/nltk_data/pull/103  An Indonesian list has been added https://github.com/nltk/nltk_data/pull/112 '

In [19]:
stopwords.fileids() # Most corpora consist of a set of files, each containing a piece of text. A list of identifiers for these files is accessed via fileids().

['arabic',
 'azerbaijani',
 'danish',
 'dutch',
 'english',
 'finnish',
 'french',
 'german',
 'greek',
 'hungarian',
 'indonesian',
 'italian',
 'kazakh',
 'nepali',
 'norwegian',
 'portuguese',
 'romanian',
 'russian',
 'spanish',
 'swedish',
 'turkish']

Corpus readers provide a variety of methods to read data from the corpus:

In [52]:
import codecs
fileObj = codecs.open( "stopwords_polish.txt", "r", "latin2" )
u = fileObj.read()
u

'a\r\naby\r\nach\r\nacz\r\naczkolwiek\r\naj\r\nalbo\r\nale\r\nalez\r\należ\r\nani\r\naz\r\naż\r\nbardziej\r\nbardzo\r\nbeda\r\nbedzie\r\nbez\r\ndeda\r\nbędš\r\nbede\r\nbędę\r\nbędzie\r\nbo\r\nbowiem\r\nby\r\nbyc\r\nbyć\r\nbyl\r\nbyla\r\nbyli\r\nbylo\r\nbyly\r\nbył\r\nbyła\r\nbyło\r\nbyły\r\nbynajmniej\r\ncala\r\ncali\r\ncaly\r\ncała\r\ncały\r\nci\r\ncie\r\nciebie\r\ncię\r\nco\r\ncokolwiek\r\ncos\r\nco\x9c\r\nczasami\r\nczasem\r\nczemu\r\nczy\r\nczyli\r\ndaleko\r\ndla\r\ndlaczego\r\ndlatego\r\ndo\r\ndobrze\r\ndokad\r\ndokšd\r\ndosc\r\ndo\x9cć\r\nduzo\r\ndużo\r\ndwa\r\ndwaj\r\ndwie\r\ndwoje\r\ndzis\r\ndzisiaj\r\ndzi\x9c\r\ngdy\r\ngdyby\r\ngdyz\r\ngdyż\r\ngdzie\r\ngdziekolwiek\r\ngdzies\r\ngdzie\x9c\r\ngo\r\ni\r\nich\r\nile\r\nim\r\ninna\r\ninne\r\ninny\r\ninnych\r\niz\r\niż\r\nja\r\njak\r\njakas\r\njaka\x9c\r\njakby\r\njaki\r\njakichs\r\njakich\x9c\r\njakie\r\njakis\r\njaki\x9c\r\njakiz\r\njakiż\r\njakkolwiek\r\njako\r\njakos\r\njako\x9c\r\njš\r\nje\r\njeden\r\njedna\r\njednak\r\njednakz

In [60]:
u = u.replace('\r\n', ' ') # Better
u

'a aby ach acz aczkolwiek aj albo ale alez ależ ani az aż bardziej bardzo beda bedzie bez deda będš bede będę będzie bo bowiem by byc być byl byla byli bylo byly był była było były bynajmniej cala cali caly cała cały ci cie ciebie cię co cokolwiek cos co\x9c czasami czasem czemu czy czyli daleko dla dlaczego dlatego do dobrze dokad dokšd dosc do\x9cć duzo dużo dwa dwaj dwie dwoje dzis dzisiaj dzi\x9c gdy gdyby gdyz gdyż gdzie gdziekolwiek gdzies gdzie\x9c go i ich ile im inna inne inny innych iz iż ja jak jakas jaka\x9c jakby jaki jakichs jakich\x9c jakie jakis jaki\x9c jakiz jakiż jakkolwiek jako jakos jako\x9c jš je jeden jedna jednak jednakze jednakże jedno jego jej jemu jesli jest jestem jeszcze je\x9cli jezeli jeżeli juz już kazdy każdy kiedy kilka kims kim\x9c kto ktokolwiek ktora ktore ktorego ktorej ktory ktorych ktorym ktorzy ktos kto\x9c która które którego której który których którym którzy ku lat lecz lub ma majš mało mam mi miedzy między mimo mna mnš mnie moga mogš moi moi

In [59]:
u.replace('\x9c', 'ś')

'a aby ach acz aczkolwiek aj albo ale alez ależ ani az aż bardziej bardzo beda bedzie bez deda będš bede będę będzie bo bowiem by byc być byl byla byli bylo byly był była było były bynajmniej cala cali caly cała cały ci cie ciebie cię co cokolwiek cos coś czasami czasem czemu czy czyli daleko dla dlaczego dlatego do dobrze dokad dokšd dosc dość duzo dużo dwa dwaj dwie dwoje dzis dzisiaj dziś gdy gdyby gdyz gdyż gdzie gdziekolwiek gdzies gdzieś go i ich ile im inna inne inny innych iz iż ja jak jakas jakaś jakby jaki jakichs jakichś jakie jakis jakiś jakiz jakiż jakkolwiek jako jakos jakoś jš je jeden jedna jednak jednakze jednakże jedno jego jej jemu jesli jest jestem jeszcze jeśli jezeli jeżeli juz już kazdy każdy kiedy kilka kims kimś kto ktokolwiek ktora ktore ktorego ktorej ktory ktorych ktorym ktorzy ktos ktoś która które którego której który których którym którzy ku lat lecz lub ma majš mało mam mi miedzy między mimo mna mnš mnie moga mogš moi moim moj moja moje moze mozliwe mozn

In [18]:
stopwords.raw('greek')

"αλλα\nαν\nαντι\nαπο\nαυτα\nαυτεσ\nαυτη\nαυτο\nαυτοι\nαυτοσ\nαυτουσ\nαυτων\nαἱ\nαἳ\nαἵ\nαὐτόσ\nαὐτὸς\nαὖ\nγάρ\nγα\nγα^\nγε\nγια\nγοῦν\nγὰρ\nδ'\nδέ\nδή\nδαί\nδαίσ\nδαὶ\nδαὶς\nδε\nδεν\nδι'\nδιά\nδιὰ\nδὲ\nδὴ\nδ’\nεαν\nειμαι\nειμαστε\nειναι\nεισαι\nειστε\nεκεινα\nεκεινεσ\nεκεινη\nεκεινο\nεκεινοι\nεκεινοσ\nεκεινουσ\nεκεινων\nενω\nεπ\nεπι\nεἰ\nεἰμί\nεἰμὶ\nεἰς\nεἰσ\nεἴ\nεἴμι\nεἴτε\nη\nθα\nισωσ\nκ\nκαί\nκαίτοι\nκαθ\nκαι\nκατ\nκατά\nκατα\nκατὰ\nκαὶ\nκι\nκἀν\nκἂν\nμέν\nμή\nμήτε\nμα\nμε\nμεθ\nμετ\nμετά\nμετα\nμετὰ\nμη\nμην\nμἐν\nμὲν\nμὴ\nμὴν\nνα\nο\nοι\nομωσ\nοπωσ\nοσο\nοτι\nοἱ\nοἳ\nοἷς\nοὐ\nοὐδ\nοὐδέ\nοὐδείσ\nοὐδεὶς\nοὐδὲ\nοὐδὲν\nοὐκ\nοὐχ\nοὐχὶ\nοὓς\nοὔτε\nοὕτω\nοὕτως\nοὕτωσ\nοὖν\nοὗ\nοὗτος\nοὗτοσ\nπαρ\nπαρά\nπαρα\nπαρὰ\nπερί\nπερὶ\nποια\nποιεσ\nποιο\nποιοι\nποιοσ\nποιουσ\nποιων\nποτε\nπου\nποῦ\nπρο\nπροσ\nπρόσ\nπρὸ\nπρὸς\nπως\nπωσ\nσε\nστη\nστην\nστο\nστον\nσόσ\nσύ\nσύν\nσὸς\nσὺ\nσὺν\nτά\nτήν\nτί\nτίς\nτίσ\nτα\nταῖς\nτε\nτην\nτησ\nτι\nτινα\nτις\nτισ\nτο\nτοί\nτοι\nτοιοῦτος\nτοιοῦτοσ\nτον\nτοτε\

In [8]:
stopwords.raw('greek').replace('\n', ' ') # Better

"αλλα αν αντι απο αυτα αυτεσ αυτη αυτο αυτοι αυτοσ αυτουσ αυτων αἱ αἳ αἵ αὐτόσ αὐτὸς αὖ γάρ γα γα^ γε για γοῦν γὰρ δ' δέ δή δαί δαίσ δαὶ δαὶς δε δεν δι' διά διὰ δὲ δὴ δ’ εαν ειμαι ειμαστε ειναι εισαι ειστε εκεινα εκεινεσ εκεινη εκεινο εκεινοι εκεινοσ εκεινουσ εκεινων ενω επ επι εἰ εἰμί εἰμὶ εἰς εἰσ εἴ εἴμι εἴτε η θα ισωσ κ καί καίτοι καθ και κατ κατά κατα κατὰ καὶ κι κἀν κἂν μέν μή μήτε μα με μεθ μετ μετά μετα μετὰ μη μην μἐν μὲν μὴ μὴν να ο οι ομωσ οπωσ οσο οτι οἱ οἳ οἷς οὐ οὐδ οὐδέ οὐδείσ οὐδεὶς οὐδὲ οὐδὲν οὐκ οὐχ οὐχὶ οὓς οὔτε οὕτω οὕτως οὕτωσ οὖν οὗ οὗτος οὗτοσ παρ παρά παρα παρὰ περί περὶ ποια ποιεσ ποιο ποιοι ποιοσ ποιουσ ποιων ποτε που ποῦ προ προσ πρόσ πρὸ πρὸς πως πωσ σε στη στην στο στον σόσ σύ σύν σὸς σὺ σὺν τά τήν τί τίς τίσ τα ταῖς τε την τησ τι τινα τις τισ το τοί τοι τοιοῦτος τοιοῦτοσ τον τοτε του τούσ τοὺς τοῖς τοῦ των τό τόν τότε τὰ τὰς τὴν τὸ τὸν τῆς τῆσ τῇ τῶν τῷ ωσ ἀλλ' ἀλλά ἀλλὰ ἀλλ’ ἀπ ἀπό ἀπὸ ἀφ ἂν ἃ ἄλλος ἄλλοσ ἄν ἄρα ἅμα ἐάν ἐγώ ἐγὼ ἐκ ἐμόσ ἐμὸς ἐν ἐξ ἐπί ἐπεὶ 

In [9]:
stopwords.words('english')[:10]

['i', 'me', 'my', 'myself', 'we', 'our', 'ours', 'ourselves', 'you', "you're"]

We can also use `.sents()` which returns sentences. However, in our particular case, this will cause an error:

In [10]:
stopwords.sents('greek')

AttributeError: 'WordListCorpusReader' object has no attribute 'sents'

The erro is because the `stopwords` corpus reader is of type `WordListCorpusReader` so there are no sentences.
It's the same for `.paras()`.

In [11]:
len(stopwords.words(['english', 'greek'])) # There is a total of 444 Greek and English stop words

444

## 3. The classification

We loop through the list of stop words in all languages and check how many stop words our test text contains in each language. The text is then classified to be in the language in which it has the most stop words.

In [12]:
language_ratios = {}

test_words = [word.lower() for word in test_tokens] # lowercase all tokens
test_words_set = set(test_words)

for language in stopwords.fileids():
    stopwords_set = set(stopwords.words(language)) # For some languages eg. Russian, it would be a wise idea to tokenize the stop words by punctuation too.
    common_elements = test_words_set.intersection(stopwords_set)
    language_ratios[language] = len(common_elements) # language "score"
    
language_ratios

{'arabic': 0,
 'azerbaijani': 0,
 'danish': 3,
 'dutch': 0,
 'english': 8,
 'finnish': 0,
 'french': 2,
 'german': 1,
 'greek': 0,
 'hungarian': 1,
 'italian': 1,
 'kazakh': 0,
 'nepali': 0,
 'norwegian': 3,
 'portuguese': 1,
 'romanian': 2,
 'russian': 0,
 'spanish': 1,
 'swedish': 2,
 'turkish': 0}

In [13]:
most_rated_language = max(language_ratios, key=language_ratios.get) # The key parameter to the max() function is a function that computes a key. In our case, we already have a key so we set key to languages_ratios.get which actually returns the key.
most_rated_language

'english'

In [14]:
test_words_set.intersection(set(stopwords.words(most_rated_language))) # We can see which English stop words were found.

{'ain', 'for', 'i', 'it', 's', 't', 'to', 'you'}