# Word Embedding using Gensim

In [None]:
# INSTALL LIBRARIES
!pip install numpy pandas gensim nltk

In [None]:
# IMPORT LIBRARIES
import numpy as np
import pandas as pd
import nltk
from nltk.tokenize import word_tokenize
from gensim.models import Word2Vec

In [None]:
# DOWNLOAD NLTK MODULES
nltk.download("all")

In [None]:
# LOAD DATA
# Dataset URL: https://data.mendeley.com/datasets/v362rp78dc/4
dataset = pd.read_csv("drive/MyDrive/Datasets/Inqilab__2016_2020_scienceandtechnology_text.csv")
dataset.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 544 entries, 0 to 543
Data columns (total 6 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   Unnamed: 0  544 non-null    int64 
 1   News        544 non-null    object
 2   Category    544 non-null    object
 3   Heading     544 non-null    object
 4   Date        544 non-null    object
 5   Source      544 non-null    object
dtypes: int64(1), object(5)
memory usage: 25.6+ KB


In [None]:
# VIEW FIRST 5 TUPLES
dataset.head(5)

Unnamed: 0.1,Unnamed: 0,News,Category,Heading,Date,Source
0,0,টেক জায়ান্ট অ্যাপলের পরবর্তী আইফোনে ৩.৫ মিলিমি...,Science_Technology,হেডফোন জ্যাক থাকছেনা পরবর্তী আইফোনে,2016/01/19,Inqilab
1,1,বাংলাদেশ ব্যাংকের 'স্কিলস ফর অ্যামপ্লয়মেন্ট ইন...,Science_Technology,স্কিলস ফর অ্যামপ্লয়মেন্ট ইনভেস্টমেন্ট প্রোগ্রাম,2016/01/19,Inqilab
2,2,গত দশক থেকে বিশজুড়েই সব মানুষের ইন্টারনেটের ওপ...,Science_Technology,অনলাইন ক্লাসিফাইড ওয়েবসাইটের জনপ্রিয়তা বৃদ্ধি,2016/01/19,Inqilab
3,3,বাংলাদেশে নতুন বছরের গৃহসামগ্রীর (হোম এপ্লায়ান...,Science_Technology,ফিলিপসের গৃহ প্রযুক্তি,2016/02/02,Inqilab
4,4,খুব শীঘ্রই অ্যাপল ব্যবহারকারীরা নিজেদের ডিভাইস...,Science_Technology,আইওএস ব্যবহারকারীদের জন্য ফেসবুকের থ্রিডি টাচ ...,2016/02/02,Inqilab


In [None]:
# CREATING LIST OF ARTICLES
news_articles = list(dataset[["News"]]["News"])
print(f'Total sample article: {len(news_articles)}')

Total sample article: 544


In [None]:
# DATA CLEAING & TOKENIZE
clean = list()
for news in news_articles:
    clean.append(word_tokenize(news))

In [None]:
# SHOW CLEANED DATAFRAME
clean[0][:10]   # Showing a fraction

['টেক',
 'জায়ান্ট',
 'অ্যাপলের',
 'পরবর্তী',
 'আইফোনে',
 '৩.৫',
 'মিলিমিটারের',
 'প্রচলিত',
 'হেডফোন',
 'জ্যাক']

In [None]:
# BUILD VOCABULARY
w2v = Word2Vec(clean, window = 10)
w2v.train(clean, total_examples = len(clean), epochs = 30)



(3530361, 4752990)

In [None]:
# TESTING SIMILARITY
w2v.wv.most_similar("বাংলাদেশ")

[('পার্ক', 0.6816406846046448),
 ('হাই-টেক', 0.6339172720909119),
 ('কাউন্সিল', 0.622245192527771),
 ('প্রধানমন্ত্রীর', 0.6219687461853027),
 ('ডিপার্টমেন্ট', 0.612385094165802),
 ('তথ্যপ্রযুক্তি', 0.6001042723655701),
 ('এশিয়া', 0.5916948318481445),
 ('বিজনেসের', 0.5908500552177429),
 ('ইংমার', 0.589751660823822),
 ('ব্যবস্থাপক', 0.589449942111969)]