# Detecting Text Language by Counting Stop Words

*Stop words* are words which are filtered out before processing because they are mostly grammatical as opposed to semantic in nature e.g. search engines remove words/phrases like 'I want'.

## 1. Tokenizing

In [None]:
from nltk.tokenize import wordpunct_tokenize
import nltk
nltk.download('stopwords')
nltk.download('webtext')
nltk.download('reuters')
nltk.download('gutenberg')
nltk.download('punkt')
nltk.download('brown')
nltk.download('genesis')



[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.
[nltk_data] Downloading package webtext to /root/nltk_data...
[nltk_data]   Unzipping corpora/webtext.zip.
[nltk_data] Downloading package reuters to /root/nltk_data...
[nltk_data] Downloading package gutenberg to /root/nltk_data...
[nltk_data]   Unzipping corpora/gutenberg.zip.
[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.
[nltk_data] Downloading package brown to /root/nltk_data...
[nltk_data]   Unzipping corpora/brown.zip.
[nltk_data] Downloading package genesis to /root/nltk_data...
[nltk_data]   Unzipping corpora/genesis.zip.


True

In [None]:
# text = "Dieu les bénit , et Dieu leur dit : Soyez féconds , multipliez , remplissez la terre , et l ' assujettissez ; et dominez sur les poissons de la mer ,"
text = "I can do this all day. I love you 3000."


print(text)

I can do this all day. I love you 3000.


In [None]:
from nltk.corpus import genesis
genesis.fileids()

['english-kjv.txt',
 'english-web.txt',
 'finnish.txt',
 'french.txt',
 'german.txt',
 'lolcat.txt',
 'portuguese.txt',
 'swedish.txt']

In [None]:
test_tokens = wordpunct_tokenize(text)
test_tokens

['I', 'can', 'do', 'this', 'all', 'day', '.', 'I', 'love', 'you', '3000', '.']

There are other tokenizers e.g. `RegexpTokenizer` where you can enter your own regexp, `WhitespaceTokenizer` (similar to Python's `string.split()`) and `BlanklineTokenizer`.

## 2. Exploring NLTK's stop words corpus

NLTK comes with a corpus of stop words in various languages.

In [None]:
from nltk.corpus import stopwords
print(stopwords.readme())

Stopwords Corpus

This corpus contains lists of stop words for several languages.  These
are high-frequency grammatical words which are usually ignored in text
retrieval applications.

They were obtained from:
http://anoncvs.postgresql.org/cvsweb.cgi/pgsql/src/backend/snowball/stopwords/

The stop words for the Romanian language were obtained from:
http://arlc.ro/resources/

The English list has been augmented
https://github.com/nltk/nltk_data/issues/22

The German list has been corrected
https://github.com/nltk/nltk_data/pull/49

A Kazakh list has been added
https://github.com/nltk/nltk_data/pull/52

A Nepali list has been added
https://github.com/nltk/nltk_data/pull/83

An Azerbaijani list has been added
https://github.com/nltk/nltk_data/pull/100

A Greek list has been added
https://github.com/nltk/nltk_data/pull/103

An Indonesian list has been added
https://github.com/nltk/nltk_data/pull/112



In [None]:
stopwords.fileids() # Most corpora consist of a set of files, each containing a piece of text. A list of identifiers for these files is accessed via fileids().

['arabic',
 'azerbaijani',
 'basque',
 'bengali',
 'catalan',
 'chinese',
 'danish',
 'dutch',
 'english',
 'finnish',
 'french',
 'german',
 'greek',
 'hebrew',
 'hinglish',
 'hungarian',
 'indonesian',
 'italian',
 'kazakh',
 'nepali',
 'norwegian',
 'portuguese',
 'romanian',
 'russian',
 'slovene',
 'spanish',
 'swedish',
 'tajik',
 'turkish']

Corpus readers provide a variety of methods to read data from the corpus:

In [None]:
stopwords.raw('greek')

"αλλα\nαν\nαντι\nαπο\nαυτα\nαυτεσ\nαυτη\nαυτο\nαυτοι\nαυτοσ\nαυτουσ\nαυτων\nαἱ\nαἳ\nαἵ\nαὐτόσ\nαὐτὸς\nαὖ\nγάρ\nγα\nγα^\nγε\nγια\nγοῦν\nγὰρ\nδ'\nδέ\nδή\nδαί\nδαίσ\nδαὶ\nδαὶς\nδε\nδεν\nδι'\nδιά\nδιὰ\nδὲ\nδὴ\nδ’\nεαν\nειμαι\nειμαστε\nειναι\nεισαι\nειστε\nεκεινα\nεκεινεσ\nεκεινη\nεκεινο\nεκεινοι\nεκεινοσ\nεκεινουσ\nεκεινων\nενω\nεπ\nεπι\nεἰ\nεἰμί\nεἰμὶ\nεἰς\nεἰσ\nεἴ\nεἴμι\nεἴτε\nη\nθα\nισωσ\nκ\nκαί\nκαίτοι\nκαθ\nκαι\nκατ\nκατά\nκατα\nκατὰ\nκαὶ\nκι\nκἀν\nκἂν\nμέν\nμή\nμήτε\nμα\nμε\nμεθ\nμετ\nμετά\nμετα\nμετὰ\nμη\nμην\nμἐν\nμὲν\nμὴ\nμὴν\nνα\nο\nοι\nομωσ\nοπωσ\nοσο\nοτι\nοἱ\nοἳ\nοἷς\nοὐ\nοὐδ\nοὐδέ\nοὐδείσ\nοὐδεὶς\nοὐδὲ\nοὐδὲν\nοὐκ\nοὐχ\nοὐχὶ\nοὓς\nοὔτε\nοὕτω\nοὕτως\nοὕτωσ\nοὖν\nοὗ\nοὗτος\nοὗτοσ\nπαρ\nπαρά\nπαρα\nπαρὰ\nπερί\nπερὶ\nποια\nποιεσ\nποιο\nποιοι\nποιοσ\nποιουσ\nποιων\nποτε\nπου\nποῦ\nπρο\nπροσ\nπρόσ\nπρὸ\nπρὸς\nπως\nπωσ\nσε\nστη\nστην\nστο\nστον\nσόσ\nσύ\nσύν\nσὸς\nσὺ\nσὺν\nτά\nτήν\nτί\nτίς\nτίσ\nτα\nταῖς\nτε\nτην\nτησ\nτι\nτινα\nτις\nτισ\nτο\nτοί\nτοι\nτοιοῦτος\nτοιοῦτοσ\nτον\nτοτε\

In [None]:
stopwords.raw('greek').replace('\n', ' ') # Better

"αλλα αν αντι απο αυτα αυτεσ αυτη αυτο αυτοι αυτοσ αυτουσ αυτων αἱ αἳ αἵ αὐτόσ αὐτὸς αὖ γάρ γα γα^ γε για γοῦν γὰρ δ' δέ δή δαί δαίσ δαὶ δαὶς δε δεν δι' διά διὰ δὲ δὴ δ’ εαν ειμαι ειμαστε ειναι εισαι ειστε εκεινα εκεινεσ εκεινη εκεινο εκεινοι εκεινοσ εκεινουσ εκεινων ενω επ επι εἰ εἰμί εἰμὶ εἰς εἰσ εἴ εἴμι εἴτε η θα ισωσ κ καί καίτοι καθ και κατ κατά κατα κατὰ καὶ κι κἀν κἂν μέν μή μήτε μα με μεθ μετ μετά μετα μετὰ μη μην μἐν μὲν μὴ μὴν να ο οι ομωσ οπωσ οσο οτι οἱ οἳ οἷς οὐ οὐδ οὐδέ οὐδείσ οὐδεὶς οὐδὲ οὐδὲν οὐκ οὐχ οὐχὶ οὓς οὔτε οὕτω οὕτως οὕτωσ οὖν οὗ οὗτος οὗτοσ παρ παρά παρα παρὰ περί περὶ ποια ποιεσ ποιο ποιοι ποιοσ ποιουσ ποιων ποτε που ποῦ προ προσ πρόσ πρὸ πρὸς πως πωσ σε στη στην στο στον σόσ σύ σύν σὸς σὺ σὺν τά τήν τί τίς τίσ τα ταῖς τε την τησ τι τινα τις τισ το τοί τοι τοιοῦτος τοιοῦτοσ τον τοτε του τούσ τοὺς τοῖς τοῦ των τό τόν τότε τὰ τὰς τὴν τὸ τὸν τῆς τῆσ τῇ τῶν τῷ ωσ ἀλλ' ἀλλά ἀλλὰ ἀλλ’ ἀπ ἀπό ἀπὸ ἀφ ἂν ἃ ἄλλος ἄλλοσ ἄν ἄρα ἅμα ἐάν ἐγώ ἐγὼ ἐκ ἐμόσ ἐμὸς ἐν ἐξ ἐπί ἐπεὶ 

In [None]:
stopwords.words('english')[:15]

['i',
 'me',
 'my',
 'myself',
 'we',
 'our',
 'ours',
 'ourselves',
 'you',
 "you're",
 "you've",
 "you'll",
 "you'd",
 'your',
 'yours']

In [None]:
len(stopwords.words(['english', 'greek'])) # There is a total of 444 Greek and English stop words

444

## 3. The classification

We loop through the list of stop words in all languages and check how many stop words our test text contains in each language. The text is then classified to be in the language in which it has the most stop words.

In [None]:
language_ratios = {}

test_words = [word.lower() for word in test_tokens] # lowercase all tokens
test_words_set = set(test_words)
print(test_words_set)
for language in stopwords.fileids():
    stopwords_set = set(stopwords.words(language)) # For some languages eg. Russian, it would be a wise idea to tokenize the stop words by punctuation too.
    common_elements = test_words_set.intersection(stopwords_set)
    language_ratios[language] = len(common_elements) # language "score" by counting
    
language_ratios

{'can', 'all', 'love', 'this', '.', 'do', 'you', '3000', 'day', 'i'}


{'arabic': 0,
 'azerbaijani': 0,
 'basque': 0,
 'bengali': 0,
 'catalan': 1,
 'chinese': 0,
 'danish': 1,
 'dutch': 0,
 'english': 6,
 'finnish': 0,
 'french': 0,
 'german': 0,
 'greek': 0,
 'hebrew': 0,
 'hinglish': 6,
 'hungarian': 0,
 'indonesian': 0,
 'italian': 2,
 'kazakh': 0,
 'nepali': 0,
 'norwegian': 1,
 'portuguese': 1,
 'romanian': 1,
 'russian': 0,
 'slovene': 1,
 'spanish': 0,
 'swedish': 1,
 'tajik': 0,
 'turkish': 0}

In [None]:
most_rated_language = max(language_ratios, key=language_ratios.get) # The key parameter to the max() function is a function that computes a key. In our case, we already have a key so we set key to languages_ratios.get which actually returns the key.
most_rated_language

'english'

In [None]:
test_words_set.intersection(set(stopwords.words(most_rated_language))) # We can see which English stop words were found.

{'all', 'can', 'do', 'i', 'this', 'you'}

# ICP: Perform language detection on a corpus/custom text. 

Choose your own sentence/paragraph and perform language classification above by loading a longer `.txt` file or a random sentence from a corpus from NLTK

Hint (if you are using NLTK):

```python
import nltk.corpus
from nltk.corpus import genesis
```



In [None]:
import nltk.corpus
from nltk.corpus import genesis
genesis.fileids()

['english-kjv.txt',
 'english-web.txt',
 'finnish.txt',
 'french.txt',
 'german.txt',
 'lolcat.txt',
 'portuguese.txt',
 'swedish.txt']

# Loading a foreign language



In [None]:
sample = genesis.raw('finnish.txt')
sample

'Alussa Jumala loi taivaan ja maan. \nMaa oli\nautio ja tyhjä, pimeys peitti syvyydet, ja Jumalan\nhenki liikkui vetten yllä.\nJumala sanoi: "Tulkoon valo!" Ja valo tuli.\nJumala näki, että valo oli hyvä. Jumala erotti\nvalon pimeydestä, \nja hän nimitti valon päiväksi,\nja pimeyden hän nimitti yöksi. Tuli ilta ja tuli\naamu, näin meni ensimmäinen päivä.\nJumala sanoi: "Tulkoon kaartuva kansi vesien\nväliin, erottamaan vedet toisistaan." \nJumala teki\nkannen ja erotti toiset vedet sen alapuolelle ja\ntoiset sen yläpuolelle. Niin tapahtui, \nja Jumala\nnimitti kannen taivaaksi. Tuli ilta ja tuli aamu,\nnäin meni toinen päivä.\nJumala sanoi: "Kokoontukoot taivaankannen\nalapuolella olevat vedet yhteen paikkaan, niin että\nmaan kamara tulee näkyviin." Ja niin tapahtui.\nJumala nimitti kiinteän kamaran maaksi, ja sen\npaikan, mihin vedet olivat kokoontuneet, hän nimitti\nmereksi. Ja Jumala näki, että niin oli hyvä.\nJumala sanoi: "Kasvakoon maa vihreyttä, siementä\ntekeviä kasveja ja hede

In [None]:
from nltk.tokenize import wordpunct_tokenize
test = wordpunct_tokenize(sample)
test


['Alussa',
 'Jumala',
 'loi',
 'taivaan',
 'ja',
 'maan',
 '.',
 'Maa',
 'oli',
 'autio',
 'ja',
 'tyhjä',
 ',',
 'pimeys',
 'peitti',
 'syvyydet',
 ',',
 'ja',
 'Jumalan',
 'henki',
 'liikkui',
 'vetten',
 'yllä',
 '.',
 'Jumala',
 'sanoi',
 ':',
 '"',
 'Tulkoon',
 'valo',
 '!"',
 'Ja',
 'valo',
 'tuli',
 '.',
 'Jumala',
 'näki',
 ',',
 'että',
 'valo',
 'oli',
 'hyvä',
 '.',
 'Jumala',
 'erotti',
 'valon',
 'pimeydestä',
 ',',
 'ja',
 'hän',
 'nimitti',
 'valon',
 'päiväksi',
 ',',
 'ja',
 'pimeyden',
 'hän',
 'nimitti',
 'yöksi',
 '.',
 'Tuli',
 'ilta',
 'ja',
 'tuli',
 'aamu',
 ',',
 'näin',
 'meni',
 'ensimmäinen',
 'päivä',
 '.',
 'Jumala',
 'sanoi',
 ':',
 '"',
 'Tulkoon',
 'kaartuva',
 'kansi',
 'vesien',
 'väliin',
 ',',
 'erottamaan',
 'vedet',
 'toisistaan',
 '."',
 'Jumala',
 'teki',
 'kannen',
 'ja',
 'erotti',
 'toiset',
 'vedet',
 'sen',
 'alapuolelle',
 'ja',
 'toiset',
 'sen',
 'yläpuolelle',
 '.',
 'Niin',
 'tapahtui',
 ',',
 'ja',
 'Jumala',
 'nimitti',
 'kannen',
 '

# Importing Finnish stopwords

In [None]:
from nltk.corpus import stopwords
stopwords.raw('finnish')

'olla\nolen\nolet\non\nolemme\nolette\novat\nole\noli\nolisi\nolisit\nolisin\nolisimme\nolisitte\nolisivat\nolit\nolin\nolimme\nolitte\nolivat\nollut\nolleet\nen\net\nei\nemme\nette\neivät\nminä\nminun\nminut\nminua\nminussa\nminusta\nminuun\nminulla\nminulta\nminulle\nsinä\nsinun\nsinut\nsinua\nsinussa\nsinusta\nsinuun\nsinulla\nsinulta\nsinulle\nhän\nhänen\nhänet\nhäntä\nhänessä\nhänestä\nhäneen\nhänellä\nhäneltä\nhänelle\nme\nmeidän\nmeidät\nmeitä\nmeissä\nmeistä\nmeihin\nmeillä\nmeiltä\nmeille\nte\nteidän\nteidät\nteitä\nteissä\nteistä\nteihin\nteillä\nteiltä\nteille\nhe\nheidän\nheidät\nheitä\nheissä\nheistä\nheihin\nheillä\nheiltä\nheille\ntämä\ntämän\ntätä\ntässä\ntästä\ntähän\ntallä\ntältä\ntälle\ntänä\ntäksi\ntuo\ntuon\ntuotä\ntuossa\ntuosta\ntuohon\ntuolla\ntuolta\ntuolle\ntuona\ntuoksi\nse\nsen\nsitä\nsiinä\nsiitä\nsiihen\nsillä\nsiltä\nsille\nsinä\nsiksi\nnämä\nnäiden\nnäitä\nnäissä\nnäistä\nnäihin\nnäillä\nnäiltä\nnäille\nnäinä\nnäiksi\nnuo\nnoiden\nnoita\nnoissa\nnoista\n

In [None]:
# for better visualization
stopwords.raw('finnish').replace('\n', ' ') 

'olla olen olet on olemme olette ovat ole oli olisi olisit olisin olisimme olisitte olisivat olit olin olimme olitte olivat ollut olleet en et ei emme ette eivät minä minun minut minua minussa minusta minuun minulla minulta minulle sinä sinun sinut sinua sinussa sinusta sinuun sinulla sinulta sinulle hän hänen hänet häntä hänessä hänestä häneen hänellä häneltä hänelle me meidän meidät meitä meissä meistä meihin meillä meiltä meille te teidän teidät teitä teissä teistä teihin teillä teiltä teille he heidän heidät heitä heissä heistä heihin heillä heiltä heille tämä tämän tätä tässä tästä tähän tallä tältä tälle tänä täksi tuo tuon tuotä tuossa tuosta tuohon tuolla tuolta tuolle tuona tuoksi se sen sitä siinä siitä siihen sillä siltä sille sinä siksi nämä näiden näitä näissä näistä näihin näillä näiltä näille näinä näiksi nuo noiden noita noissa noista noihin noilla noilta noille noina noiksi ne niiden niitä niissä niistä niihin niillä niiltä niille niinä niiksi kuka kenen kenet ketä ken

In [None]:
stopwords.words('english')[:15]

['i',
 'me',
 'my',
 'myself',
 'we',
 'our',
 'ours',
 'ourselves',
 'you',
 "you're",
 "you've",
 "you'll",
 "you'd",
 'your',
 'yours']

In [None]:
len(stopwords.words(['english', 'finnish']))

414

# Classification

In [None]:
language_ratios = {}

test_words = [word.lower() for word in test] # lowercase all tokens
test_words_set = set(test_words)
print(test_words_set)
for language in stopwords.fileids():
    stopwords_set = set(stopwords.words(language)) # For some languages eg. Russian, it would be a wise idea to tokenize the stop words by punctuation too.
    common_elements = test_words_set.intersection(stopwords_set)
    language_ratios[language] = len(common_elements) # language "score" by counting
    
language_ratios

{'koossa', 'hienointa', 'aikaa', 'mailta', 'efratan', 'tema', 'heräsi', 'sibeon', 'ääni', 'järjestyksessä', 'takertunut', 'jolloin', 'heistä', 'edellään', 'pyhäkkö', 'viljelemään', 'kuolivat', 'abramista', 'heitä', 'hänelläkin', 'gadin', 'elisa', 'kamelinsa', 'syliisi', 'abrahamia', 'eräänä', 'sittemmin', 'tyttäreni', 'polttouhria', 'orja', 'arkilaiset', 'saaliin', 'lähdetään', 'tältä', 'auttakoon', 'makpelan', 'valvokoon', 'tarjottavaa', 'kohotti', 'orjattaret', 'osoittaa', 'parasta', 'hepreaksi', 'henki', 'savuava', 'jaakobilla', 'haltuunsa', 'kuluttua', 'tarkoitin', 'bela', 'nälänhädän', 'häneltä', 'näkyviin', 'hallitsi', 'neljäkymmentäviisi', 'selan', 'ylistivät', 'i', 'palkkasi', 'elinikä', 'veljiesi', 'kesti', 'jidlaf', 'veroiseksi', 'siinä', 'nauruun', 'huolta', 'yritän', 'sanoo', 'kasvitkin', 'kovin', 'negeviin', 'puhunut', 'hakemaan', 'hallitkoon', 'saan', 'jumalat', 'runsaasti', 'voikaan', 'pysähdy', 'painavan', 'magog', 'eno', 'jäljelle', 'karjaeläinten', 'ylleen', 'ismaelil

{'arabic': 0,
 'azerbaijani': 4,
 'basque': 3,
 'bengali': 0,
 'catalan': 14,
 'chinese': 0,
 'danish': 7,
 'dutch': 8,
 'english': 9,
 'finnish': 172,
 'french': 10,
 'german': 2,
 'greek': 0,
 'hebrew': 0,
 'hinglish': 23,
 'hungarian': 5,
 'indonesian': 9,
 'italian': 13,
 'kazakh': 0,
 'nepali': 0,
 'norwegian': 10,
 'portuguese': 9,
 'romanian': 12,
 'russian': 0,
 'slovene': 13,
 'spanish': 8,
 'swedish': 6,
 'tajik': 0,
 'turkish': 2}

In [None]:
most_rated_language = max(language_ratios, key=language_ratios.get) # The key parameter to the max() function is a function that computes a key. In our case, we already have a key so we set key to languages_ratios.get which actually returns the key.
most_rated_language

'finnish'

In [None]:
test_words_set.intersection(set(stopwords.words(most_rated_language))) # We can see which English stop words were found.

{'ei',
 'eivät',
 'emme',
 'en',
 'et',
 'ette',
 'että',
 'he',
 'heidän',
 'heidät',
 'heille',
 'heillä',
 'heiltä',
 'heistä',
 'heitä',
 'hän',
 'häneen',
 'hänelle',
 'hänellä',
 'häneltä',
 'hänen',
 'hänessä',
 'hänestä',
 'hänet',
 'häntä',
 'itse',
 'ja',
 'johon',
 'joiden',
 'joilla',
 'joina',
 'joissa',
 'joista',
 'joita',
 'joka',
 'jolla',
 'jolle',
 'jolta',
 'jona',
 'jonka',
 'jos',
 'jossa',
 'josta',
 'jota',
 'jotka',
 'kanssa',
 'keitä',
 'kenelle',
 'kenen',
 'koska',
 'kuin',
 'kuka',
 'kun',
 'me',
 'meidän',
 'meidät',
 'meihin',
 'meille',
 'meillä',
 'meiltä',
 'meistä',
 'meitä',
 'mihin',
 'miksi',
 'mikä',
 'minkä',
 'minua',
 'minulla',
 'minulle',
 'minulta',
 'minun',
 'minusta',
 'minut',
 'minuun',
 'minä',
 'missä',
 'mistä',
 'mitä',
 'mukaan',
 'mutta',
 'ne',
 'niiden',
 'niihin',
 'niiksi',
 'niille',
 'niillä',
 'niin',
 'niinä',
 'niissä',
 'niistä',
 'niitä',
 'noiden',
 'noihin',
 'noille',
 'noin',
 'noina',
 'nuo',
 'nyt',
 'näiden',
 'n

# Language Detection

In [None]:
!pip install spacy_cld
!pip install spacy-langdetect

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting spacy_cld
  Downloading spacy_cld-0.1.0.tar.gz (3.3 kB)
Collecting spacy<3.0.0,>=2.0.0
  Downloading spacy-2.3.7-cp37-cp37m-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (10.4 MB)
[K     |████████████████████████████████| 10.4 MB 8.6 MB/s 
[?25hCollecting pycld2>=0.31
  Downloading pycld2-0.41.tar.gz (41.4 MB)
[K     |████████████████████████████████| 41.4 MB 1.9 MB/s 
Collecting thinc<7.5.0,>=7.4.1
  Downloading thinc-7.4.5-cp37-cp37m-manylinux2014_x86_64.whl (1.0 MB)
[K     |████████████████████████████████| 1.0 MB 43.1 MB/s 
[?25hCollecting srsly<1.1.0,>=1.0.2
  Downloading srsly-1.0.5-cp37-cp37m-manylinux2014_x86_64.whl (184 kB)
[K     |████████████████████████████████| 184 kB 55.5 MB/s 
Collecting catalogue<1.1.0,>=0.0.7
  Downloading catalogue-1.0.0-py2.py3-none-any.whl (7.7 kB)
Collecting plac<1.2.0,>=0.9.6
  Downloading plac-1.1.3-py2.py3-none-any.whl (20 kB)
Bui

In [None]:
import spacy
# Load our languages
from spacy_cld import LanguageDetector

In [None]:
!python -m spacy download en
!python -m spacy download fi_core_news_sm

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting en_core_web_sm==2.3.1
  Downloading https://github.com/explosion/spacy-models/releases/download/en_core_web_sm-2.3.1/en_core_web_sm-2.3.1.tar.gz (12.0 MB)
[K     |████████████████████████████████| 12.0 MB 9.0 MB/s 
Building wheels for collected packages: en-core-web-sm
  Building wheel for en-core-web-sm (setup.py) ... [?25l[?25hdone
  Created wheel for en-core-web-sm: filename=en_core_web_sm-2.3.1-py3-none-any.whl size=12047105 sha256=66a2872a1bf55d379f510db64bd705a607b68532b19b6659dea20ff7dab70ed4
  Stored in directory: /root/.cache/pip/wheels/b7/0d/f0/7ecae8427c515065d75410989e15e5785dd3975fe06e795cd9
Successfully built en-core-web-sm
Installing collected packages: en-core-web-sm
  Attempting uninstall: en-core-web-sm
    Found existing installation: en-core-web-sm 3.4.0
    Uninstalling en-core-web-sm-3.4.0:
      Successfully uninstalled en-core-web-sm-3.4.0
Successfull

In [None]:
nlp = spacy.load('en')

In [None]:
language_detector = LanguageDetector()

In [None]:
nlp.add_pipe(language_detector)

In [None]:
en_text = genesis.raw('english-web.txt')
en_text

'In the beginning God created the heavens and the earth.\nNow the earth was formless and empty.  Darkness was on the surface\nof the deep.  God\'s Spirit was hovering over the surface\nof the waters.\nGod said, "Let there be light," and there was light.\nGod saw the light, and saw that it was good.  God divided\nthe light from the darkness.\nGod called the light Day, and the darkness he called Night.\nThere was evening and there was morning, one day.\nGod said, "Let there be an expanse in the middle of the waters,\nand let it divide the waters from the waters."\nGod made the expanse, and divided the waters which were under\nthe expanse from the waters which were above the expanse;\nand it was so.\nGod called the expanse sky.  There was evening and there\nwas morning, a second day.\nGod said, "Let the waters under the sky be gathered together\nto one place, and let the dry land appear;" and it was so.\nGod called the dry land Earth, and the gathering together\nof the waters he called Se

# Language Detections

In [None]:


docx = nlp(en_text)



In [None]:
docx._.languages

['en']

In [None]:
docx._.languages

['en']

# Language Score

In [None]:
docx._.language_scores['en']

0.99

# Examining on other languages

In [None]:
fi_text = genesis.raw('finnish.txt')
fi_text

'Alussa Jumala loi taivaan ja maan. \nMaa oli\nautio ja tyhjä, pimeys peitti syvyydet, ja Jumalan\nhenki liikkui vetten yllä.\nJumala sanoi: "Tulkoon valo!" Ja valo tuli.\nJumala näki, että valo oli hyvä. Jumala erotti\nvalon pimeydestä, \nja hän nimitti valon päiväksi,\nja pimeyden hän nimitti yöksi. Tuli ilta ja tuli\naamu, näin meni ensimmäinen päivä.\nJumala sanoi: "Tulkoon kaartuva kansi vesien\nväliin, erottamaan vedet toisistaan." \nJumala teki\nkannen ja erotti toiset vedet sen alapuolelle ja\ntoiset sen yläpuolelle. Niin tapahtui, \nja Jumala\nnimitti kannen taivaaksi. Tuli ilta ja tuli aamu,\nnäin meni toinen päivä.\nJumala sanoi: "Kokoontukoot taivaankannen\nalapuolella olevat vedet yhteen paikkaan, niin että\nmaan kamara tulee näkyviin." Ja niin tapahtui.\nJumala nimitti kiinteän kamaran maaksi, ja sen\npaikan, mihin vedet olivat kokoontuneet, hän nimitti\nmereksi. Ja Jumala näki, että niin oli hyvä.\nJumala sanoi: "Kasvakoon maa vihreyttä, siementä\ntekeviä kasveja ja hede

In [None]:
docx = nlp(fi_text)

In [None]:
docx._.languages

['fi']

# Language Score on Other language

In [None]:
docx._.language_scores['fi']

0.99

# Examining on French Text

In [None]:
fr_text = genesis.raw('french.txt')
fr_text

"Au commencement, Dieu créa les cieux et la terre.\nLa terre était informe et vide: il y avait des ténèbres à la surface de l'abîme, et l'esprit de Dieu se mouvait au-dessus des eaux.\nDieu dit: Que la lumière soit! Et la lumière fut.\nDieu vit que la lumière était bonne; et Dieu sépara la lumière d'avec les ténèbres.\nDieu appela la lumière jour, et il appela les ténèbres nuit. Ainsi, il y eut un soir, et il y eut un matin: ce fut le premier jour.\nDieu dit: Qu'il y ait une étendue entre les eaux, et qu'elle sépare les eaux d'avec les eaux.\nEt Dieu fit l'étendue, et il sépara les eaux qui sont au-dessous de l'étendue d'avec les eaux qui sont au-dessus de l'étendue. Et cela fut ainsi.\nDieu appela l'étendue ciel. Ainsi, il y eut un soir, et il y eut un matin: ce fut le second jour.\nDieu dit: Que les eaux qui sont au-dessous du ciel se rassemblent en un seul lieu, et que le sec paraisse. Et cela fut ainsi.\nDieu appela le sec terre, et il appela l'amas des eaux mers. Dieu vit que cela

In [None]:
docx = nlp(fr_text)

In [None]:
docx._.languages

['fr', 'da']

In [None]:
docx._.language_scores['fr']

0.99

In [None]:
docx._.language_scores['da']

0.0