In [None]:
from google.colab import drive
drive.mount('/content/drive')

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


# FastText

- FastText is similar to Word2Vec with one differnce:
    - Word2Vec is based on Words, whereas in fastText we train on n-gram characters
    - Benefits:
        - You are capturing fine level more granular info.
        - OOV problem is tackld to a major extent
        - Train custom Word Embeddings for your own domain
    - It is a technique and a library

In [None]:
# !pip install fasttext # Note: fasttext may not be convenient with windows, this is why I used colab and google drive for this mini project.

Collecting fasttext
  Downloading fasttext-0.9.2.tar.gz (68 kB)
[?25l     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m0.0/68.8 kB[0m [31m?[0m eta [36m-:--:--[0m[2K     [91m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m[91m╸[0m[90m━━━━[0m [32m61.4/68.8 kB[0m [31m1.8 MB/s[0m eta [36m0:00:01[0m[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m68.8/68.8 kB[0m [31m1.5 MB/s[0m eta [36m0:00:00[0m
[?25h  Preparing metadata (setup.py) ... [?25l[?25hdone
Collecting pybind11>=2.2 (from fasttext)
  Using cached pybind11-2.11.1-py3-none-any.whl (227 kB)
Building wheels for collected packages: fasttext
  Building wheel for fasttext (setup.py) ... [?25l[?25hdone
  Created wheel for fasttext: filename=fasttext-0.9.2-cp310-cp310-linux_x86_64.whl size=4199774 sha256=442293c63b7eaa7b56e85cd7e5b782d5b6afbaa4740937dee6e78bdfed32a723
  Stored in directory: /root/.cache/pip/wheels/a5/13/75/f811c84a8ab36eedbaef977a6a58a98990e8e0f1967f98f394
Successfully built fa

In [None]:
import fasttext

Fasttext is trained on [Wikipedia](https://www.wikipedia.org/) and [Common Crawl](https://commoncrawl.org/).

### Pre-trained Models

Here, I downloaded and used the Arabic model. You can use this link [fastText](https://fasttext.cc/docs/en/crawl-vectors.html) to download whatever model you want. Notice that the download may take time

In [None]:
file = 'drive/MyDrive/Colab Notebooks/cc.ar.300.bin'
model_ar = fasttext.load_model(file)



In [None]:
# Get similar words
model_ar.get_nearest_neighbors('سعادة')
model_ar.get_nearest_neighbors('أب')
model_ar.get_nearest_neighbors('غريب')
model_ar.get_nearest_neighbors('مرحبا')
model_ar.get_nearest_neighbors('ملوخية', k=15)

[(0.7552084922790527, 'وملوخية'),
 (0.7125478982925415, 'ملوخيه'),
 (0.6418208479881287, 'الملوخية'),
 (0.6359454393386841, 'بالملوخية'),
 (0.6341190338134766, 'بامية'),
 (0.61391282081604, 'طعمية'),
 (0.6041226983070374, 'شاورمة'),
 (0.5958276391029358, 'كالملوخية'),
 (0.5935855507850647, 'للملوخية'),
 (0.586591362953186, 'والملوخية'),
 (0.5819165706634521, 'وكفتة'),
 (0.5795913338661194, 'كبدة'),
 (0.5737639665603638, 'وملوخيه'),
 (0.5696524381637573, 'فريكة'),
 (0.5644925832748413, 'تقلية')]

We can see that we are not getting good results, we have the same word but concatenated with diacritics or prepositions (treated as one different word).

In [None]:
# Try OOV word
model_ar.get_nearest_neighbors('يبسيبا')
model_ar.get_word_vector('يبسيبا')

array([-0.03157076,  0.00176952,  0.03622275,  0.11552928,  0.01040021,
        0.0181135 ,  0.01454106,  0.00864211, -0.00445204, -0.06367079,
       -0.00637065, -0.01882795,  0.03470982,  0.0564304 , -0.01019791,
        0.04273491, -0.00170732,  0.02038336,  0.01482184,  0.03989518,
        0.00127971, -0.00116394,  0.05088668, -0.00465753,  0.02167557,
        0.01498103,  0.01558531,  0.03662361,  0.01400687, -0.01117589,
       -0.02574238,  0.02709552, -0.03121319, -0.0038324 ,  0.02592092,
       -0.01286258, -0.00313888, -0.01036882,  0.01045522, -0.03895738,
        0.01449157,  0.00245762,  0.00567389, -0.0139898 ,  0.03512364,
        0.00579257, -0.01669433, -0.01056536, -0.015738  , -0.00853304,
        0.03449068,  0.00568154,  0.03193806,  0.01269338, -0.02150298,
        0.0031054 , -0.01355327,  0.01010045, -0.01579143, -0.03674832,
        0.07181165, -0.0569393 ,  0.03484503, -0.01657837,  0.00287214,
       -0.02598459,  0.01959526, -0.00632874,  0.00638888,  0.03

In [None]:
model_ar.get_analogies('القاهرة',"مصر","قطر")

[(0.7463694214820862, 'الدوحة'),
 (0.5999259948730469, 'والدوحة'),
 (0.5717125535011292, 'بالدوحة'),
 (0.5323188304901123, 'بقطر'),
 (0.5272210836410522, 'الدوحه'),
 (0.5185776352882385, 'ظبي'),
 (0.5118902325630188, 'دبي'),
 (0.5099754929542542, 'الرياض'),
 (0.5035517811775208, 'القطرية'),
 (0.49976837635040283, 'وقطر')]

Allah Akbar! it is getting the relation/analogy between these words right (country vs capital).

In [None]:
# let's try more analogies
model_ar.get_analogies("العقاد","عباس","نجيب")
# model_ar.get_analogies("قيادة","سيارة","قلم")

[(0.5387612581253052, 'الريحانى'),
 (0.5120573043823242, 'لنجيب'),
 (0.5071048140525818, 'كنجيب'),
 (0.5003853440284729, 'ونجيب'),
 (0.4744862914085388, 'البهبيتي'),
 (0.47042524814605713, 'الريحاني'),
 (0.45407745242118835, 'أمهالي'),
 (0.4463801383972168, 'والعقاد'),
 (0.4434470534324646, 'المنفلوطي'),
 (0.43790125846862793, 'رمسيس')]

Still not that good for other analogies.

Let's try the English model and observe the difference.

In [None]:
# We are going to load the English model instead
file = 'drive/MyDrive/Colab Notebooks/cc.en.300.bin'
model_ar = fasttext.load_model(file)



In [None]:
# Get similar words
# model_ar.get_nearest_neighbors('happiness') # Not that good results
# model_ar.get_nearest_neighbors('Happiness') # Not that good results
model_ar.get_nearest_neighbors('weird')
# model_ar.get_nearest_neighbors('good')
# model_ar.get_nearest_neighbors('Hello')
# model_ar.get_nearest_neighbors('pasta', k=15)

[(0.8633170127868652, 'wierd'),
 (0.8509200811386108, 'strange'),
 (0.7719759941101074, 'odd'),
 (0.7698010802268982, 'freaky'),
 (0.758965015411377, 'bizarre'),
 (0.7379343509674072, 'bizzare'),
 (0.7372801899909973, 'weirdly'),
 (0.7175062298774719, 'werid'),
 (0.7075178027153015, 'super-weird'),
 (0.6973484754562378, 'whacky')]

In [None]:
# Try OOV word
model_ar.get_nearest_neighbors('fsdkdgdhfgh')

[(0.517150342464447,
  'записиТелепрограммаVikerraadioOtseEsilehtJärelkuulamineSaatekavaPodcastidRaadioteaterRaadio'),
 (0.5132656693458557,
  'QQJCgAEACwJAAAAEAASAAAIZwABEBhIsKBBAQAEGiSQUCEBARAdDgQwoKJCiBEJUqw44CJGhxstDsSYkSFHhx8RahQ5MWFEhQ0TjiQZk6NIhB8b2uzIMKfOnQBoxgzJ82NLokVlakQqUOJSoAsnQo1q0qZTg0MHBgQAIfkECQoABAAsCQAAABAAEgAACGkAARAYSJAggIMEBSAsSADAgIcCCQiYGHGgw4cDIk6kaBBjxoEbFXaEmDBkxYsVNwJQiPCgS4sHKbr0'),
 (0.5087414979934692,
  'uudisedVälisuudisedMajandusArvamusTeadusKultuurMeelelahutusSportIlmrus.err.eenews.err.eeViipekeelsedETVAvalehtOtseJärelvaatamineSaatekavaSaatedRetseptidETV2OtseLastejaamAvalehtJärelvaatamineSaatekavaSaatedETV'),
 (0.5058760643005371,
  'Inc.HelpAboutAppsDevelopersThemesJobsLegalTermsCopyrightPrivacyEnglishDeutschFrançaisItaliano日本語TürkçeEspañolPусскийPolskiPortuguês'),
 (0.503564715385437,
  'записиТелепрограммаRaadioVikerraadioOtseJärelkuulamineSaatekavaPodcastidRaadioteaterRaadio'),
 (0.5006862878799438,
  'Bags.sizingInchesEURUSAUK8.50354.528.6335.552

In [None]:
model_ar.get_analogies('Cairo',"Egypt","Morocco")

[(0.7650710940361023, 'Marrakech'),
 (0.7263819575309753, 'Marrakesh'),
 (0.7223237156867981, 'Rabat'),
 (0.6824334263801575, 'Tangiers'),
 (0.6818484663963318, 'Tangier'),
 (0.6810853481292725, 'Tetouan'),
 (0.6729218363761902, 'Casablanca'),
 (0.6622314453125, 'Tunis'),
 (0.650971531867981, 'Agadir'),
 (0.6481225490570068, 'Algiers')]

In [None]:
model_ar.get_analogies('Messi',"Barcelona","Madrid")

[(0.7491305470466614, 'Ronaldo'),
 (0.6917808055877686, 'Neymar'),
 (0.6880272030830383, 'Benzema'),
 (0.6678367257118225, 'Higuain'),
 (0.6611027717590332, 'Iniesta'),
 (0.653216540813446, 'MESSI'),
 (0.6429048180580139, 'Tevez'),
 (0.6297525763511658, 'Ozil'),
 (0.6284681558609009, 'Falcao'),
 (0.6254146695137024, 'Coentrao')]

Well... We are getting reasonable results for English.

### Training our own model

Let's use nafsy dataset to generate word embeddings for psychology domain.

In [None]:
import pandas as pd

In [None]:
df = pd.read_csv('drive/MyDrive/Colab Notebooks/nafsy.csv')
df.head()

Unnamed: 0,title,content,writer,date
0,نافذة جوهاري في العلاقات مع الآخرين,نافذة جوهاري هي نموذج اتصال ، يمكن استخدامها ل...,أ.سعد فليان المدعث,"الجمعة, مارس 25, 2016 - 23:46"
1,اضطراب قلق الأمراض,قلق الأمراض هو أحد الإضطرابات النفسية الشائعة....,Abdullah Subaie,"السبت, فبراير 6, 2016 - 20:57"
2,اضطراب الأعراض الجسمية,هو أحد الاضطرابات العصابية التي تندرج تحت ما ي...,Abdullah Subaie,"الأربعاء, فبراير 3, 2016 - 20:20"
3,اضطراب ثنائي القطب لدى الأطفال,يمكن أن يحدث الاضطراب الوجداني ثنائي القطب لدى...,Tahani AL-Sharief,"الخميس, يناير 21, 2016 - 13:38"
4,الذين يمشون خلال النوم لايشعرون بألم الحوادث,المشي أثناء النوم اضطراب شائع يصيب حوالي 4% من...,kholoud,"الجمعة, ديسمبر 4, 2015 - 23:14"


In [None]:
df.content

0      نافذة جوهاري هي نموذج اتصال ، يمكن استخدامها ل...
1      قلق الأمراض هو أحد الإضطرابات النفسية الشائعة....
2      هو أحد الاضطرابات العصابية التي تندرج تحت ما ي...
3      يمكن أن يحدث الاضطراب الوجداني ثنائي القطب لدى...
4      المشي أثناء النوم اضطراب شائع يصيب حوالي 4% من...
                             ...                        
659    يبدأ ضبط البول لدى الأطفال في عمر سنتان أو ثلا...
660    Zyprexa /Olanzapine\n.زيبركسا (أولانزابين)\nال...
661    يخطئ من يتصور أن للطلاق صورة واحدة هي التي تعا...
662    العناد ظاهرة شائعة لدى الأطفال ، وهي تعبير عن ...
663      الاكتئاب النفسي هو أحدُ أكثر الاضطرابات النف...
Name: content, Length: 664, dtype: object

In [None]:
df.content[0]

'نافذة جوهاري هي نموذج اتصال ، يمكن استخدامها لتحسين التفاهم بين الأفراد داخل فريق أو مجموعة. و وضع هذا النظام (جوزيف لوفت) و(هاري) ، فكلمة "جوهاري" من (جوزيف لوفت) و(هاري) ، واليك شرح هذه النافذة:\n\n1.المنطقة العمياء أوالذات العمياء:\nنحن قد نتحدث بطريقة معينة , أو بلهجة معينة , وعلي وجوهنا تعبير ما , نحن لا نري ذلك التعبير ، ولكن الناس يرونه ويدركونه ، وفي واقع الأمر أن سلوكنا يؤثر في كيف يرانا الناس ، وبالتالي يؤثر في كيفية تعاملهم معنا .\nيعني ذلك أني أثناء حديثي مع الناس قد أرسل لهم رسائل غير لفظية , مثل حركات اليد والجلسة وتعابير الوجه ، وهذه الرسائل ستجعلهم يرونني بمنظار ما ، ويقدرون أمراً ما بخصوصي . وقد يخفى الأمر علي (لأنني لا أري ما أفعل).\nباختصار هذه المنطقة العمياء , لا يمكن تجاهلها أو التقليل من أثرها عند تعاملنا مع الناس في الحياة وفي المنزل وبين الأصدقاء وعند التفاوض مع الآخرين للوصول إلي ما نريد.\nهذه السلوكيات العمياء – أي غير المعروفة لنا في الوعي – هي سلوكيات منقولة ومنسوخة من أناس ما في حياتك الماضية لما كنت صغيراً .\n( لقد نسختها بدون وعي لذلك قد لا تدركها عندما

Seems like data needs to be cleaned...

In [None]:
[1,3,4]

TypeError: ignored

Special Thanks to: [Codebasics](https://www.youtube.com/watch?v=Br-Ozg9D4mc&list=PLeo1K3hjS3uuvuAXhYjV2lMEShq2UYSwX&index=24)

In [None]:
text = 'Juventus team will win the league. Ozo will score in the final, in addtion, Helmy will raise the cup.'

In [None]:
clean_text = text.replace(',','').replace('.','')
clean_text

'Juventus team will win the league Ozo will score in the final in addtion Helmy will raise the cup'

In [None]:
tokenized_text = clean_text.split()
tokenized_text

['Juventus',
 'team',
 'will',
 'win',
 'the',
 'league',
 'Ozo',
 'will',
 'score',
 'in',
 'the',
 'final',
 'in',
 'addtion',
 'Helmy',
 'will',
 'raise',
 'the',
 'cup']

In [None]:
sent_tok = text.split('.')
sent_tok

['Juventus team will win the league',
 ' Ozo will score in the final, in addtion, Helmy will raise the cup',
 '']

In [None]:
from collections import defaultdict

freq = defaultdict(int)
for w in tokenized_text:
  freq[w]+=1

freq

defaultdict(int,
            {'Juventus': 1,
             'team': 1,
             'will': 3,
             'win': 1,
             'the': 3,
             'league': 1,
             'Ozo': 1,
             'score': 1,
             'in': 2,
             'final': 1,
             'addtion': 1,
             'Helmy': 1,
             'raise': 1,
             'cup': 1})