<h2>Tokenizing</h2>

In [1]:
text_str = "Facebook is an American online social media and social networking service owned by Facebook, Inc."

In [2]:
from nltk.tokenize import wordpunct_tokenize

tokens = wordpunct_tokenize(text_str)

In [3]:
tokens

['Facebook',
 'is',
 'an',
 'American',
 'online',
 'social',
 'media',
 'and',
 'social',
 'networking',
 'service',
 'owned',
 'by',
 'Facebook',
 ',',
 'Inc',
 '.']

<h2>NLTK's Stop words corpus</h2>

In [4]:
from nltk.corpus import stopwords
stopwords.readme().replace('\n',' ')

'Stopwords Corpus  This corpus contains lists of stop words for several languages.  These are high-frequency grammatical words which are usually ignored in text retrieval applications.  They were obtained from: http://anoncvs.postgresql.org/cvsweb.cgi/pgsql/src/backend/snowball/stopwords/  The stop words for the Romanian language were obtained from: http://arlc.ro/resources/  The English list has been augmented https://github.com/nltk/nltk_data/issues/22  The German list has been corrected https://github.com/nltk/nltk_data/pull/49  A Kazakh list has been added https://github.com/nltk/nltk_data/pull/52  A Nepali list has been added https://github.com/nltk/nltk_data/pull/83  An Azerbaijani list has been added https://github.com/nltk/nltk_data/pull/100  A Greek list has been added https://github.com/nltk/nltk_data/pull/103  An Indonesian list has been added https://github.com/nltk/nltk_data/pull/112 '

In [5]:
stopwords.fileids()

['arabic',
 'azerbaijani',
 'danish',
 'dutch',
 'english',
 'finnish',
 'french',
 'german',
 'greek',
 'hungarian',
 'indonesian',
 'italian',
 'kazakh',
 'nepali',
 'norwegian',
 'portuguese',
 'romanian',
 'russian',
 'slovene',
 'spanish',
 'swedish',
 'tajik',
 'turkish']

<h2>Corpus reader have a variety of ways to read data from corpus like .words(), .raw(), .sents() etc</h2>

In [13]:
stopwords.raw('spanish').replace('\n',' ')

'de la que el en y a los del se las por un para con no una su al lo como más pero sus le ya o este sí porque esta entre cuando muy sin sobre también me hasta hay donde quien desde todo nos durante todos uno les ni contra otros ese eso ante ellos e esto mí antes algunos qué unos yo otro otras otra él tanto esa estos mucho quienes nada muchos cual poco ella estar estas algunas algo nosotros mi mis tú te ti tu tus ellas nosotras vosotros vosotras os mío mía míos mías tuyo tuya tuyos tuyas suyo suya suyos suyas nuestro nuestra nuestros nuestras vuestro vuestra vuestros vuestras esos esas estoy estás está estamos estáis están esté estés estemos estéis estén estaré estarás estará estaremos estaréis estarán estaría estarías estaríamos estaríais estarían estaba estabas estábamos estabais estaban estuve estuviste estuvo estuvimos estuvisteis estuvieron estuviera estuvieras estuviéramos estuvierais estuvieran estuviese estuvieses estuviésemos estuvieseis estuviesen estando estado estada estados 

In [16]:
stopwords.words('english')[15:35]

['yourself',
 'yourselves',
 'he',
 'him',
 'his',
 'himself',
 'she',
 "she's",
 'her',
 'hers',
 'herself',
 'it',
 "it's",
 'its',
 'itself',
 'they',
 'them',
 'their',
 'theirs',
 'themselves']

In [17]:
stopwords.words('german')

['aber',
 'alle',
 'allem',
 'allen',
 'aller',
 'alles',
 'als',
 'also',
 'am',
 'an',
 'ander',
 'andere',
 'anderem',
 'anderen',
 'anderer',
 'anderes',
 'anderm',
 'andern',
 'anderr',
 'anders',
 'auch',
 'auf',
 'aus',
 'bei',
 'bin',
 'bis',
 'bist',
 'da',
 'damit',
 'dann',
 'der',
 'den',
 'des',
 'dem',
 'die',
 'das',
 'dass',
 'daß',
 'derselbe',
 'derselben',
 'denselben',
 'desselben',
 'demselben',
 'dieselbe',
 'dieselben',
 'dasselbe',
 'dazu',
 'dein',
 'deine',
 'deinem',
 'deinen',
 'deiner',
 'deines',
 'denn',
 'derer',
 'dessen',
 'dich',
 'dir',
 'du',
 'dies',
 'diese',
 'diesem',
 'diesen',
 'dieser',
 'dieses',
 'doch',
 'dort',
 'durch',
 'ein',
 'eine',
 'einem',
 'einen',
 'einer',
 'eines',
 'einig',
 'einige',
 'einigem',
 'einigen',
 'einiger',
 'einiges',
 'einmal',
 'er',
 'ihn',
 'ihm',
 'es',
 'etwas',
 'euer',
 'eure',
 'eurem',
 'euren',
 'eurer',
 'eures',
 'für',
 'gegen',
 'gewesen',
 'hab',
 'habe',
 'haben',
 'hat',
 'hatte',
 'hatten',
 '

In [18]:
len(stopwords.words(['spanish','german']))

545

<h2>Classification</h2>

In [21]:
language_ratios = {}
words = [word.lower() for word in tokens]

words_set = set(words)


for language in stopwords.fileids():
    stopwords_set = set(stopwords.words(language))
    overlapping_words = words_set.intersection(stopwords_set)
    language_ratios[language] = len(overlapping_words)

language_ratios


{'arabic': 0,
 'azerbaijani': 0,
 'danish': 0,
 'dutch': 1,
 'english': 4,
 'finnish': 0,
 'french': 0,
 'german': 1,
 'greek': 0,
 'hungarian': 0,
 'indonesian': 0,
 'italian': 0,
 'kazakh': 0,
 'nepali': 0,
 'norwegian': 0,
 'portuguese': 0,
 'romanian': 0,
 'russian': 0,
 'slovene': 0,
 'spanish': 0,
 'swedish': 0,
 'tajik': 0,
 'turkish': 0}

In [22]:
highest_scoring_language = max(language_ratios, key=language_ratios.get)
highest_scoring_language

'english'

In [23]:
words_set.intersection(set(stopwords.words(highest_scoring_language)))

{'an', 'and', 'by', 'is'}