# Dimentionality Reduction No. 5: Factor Analysis in Text Mining

In [1]:
# Import the required libraries.
import pandas as pd

In [2]:
# Read a sample persian text.
data = pd.read_csv('per.csv')

In [3]:
# Read the first lines of the text.
data.head()

Unnamed: 0,NewsID,Title,Body,Date,Time,Category,Category2
0,843656,\nوزير علوم درجمع استادان نمونه: سن بازنشستگي ...,\nوزير علوم در جمع استادان نمونه كشور گفت: از ...,\n138/5//09,\n0:9::18,\nآموزشي-,\nآموزشي
1,837144,\nگردهمايي دانش‌آموختگان موسسه آموزش عالي سوره...,\nبه گزارش سرويس صنفي آموزشي خبرگزاري دانشجويا...,\n138/5//09,\n1:4::11,\nآموزشي-,\nآموزشي
2,436862,\nنتايج آزمون دوره‌هاي فراگير دانشگاه پيام‌نور...,\nنتايج آزمون دوره‌هاي فراگير مقاطع كارشناسي و...,\n138/3//07,\n1:0::03,\nآموزشي-,\nآموزشي
3,227781,\nهمايش يكروزه آسيب شناسي مفهوم روابط عمومي در...,\n,\n138/2//02,\n1:3::42,\nاجتماعي-خانواده-,\nاجتماعي
4,174187,\nوضعيت اقتصادي و ميزان تحصيلات والدين از مهمت...,\nمحمدتقي علوي يزدي، مجري اين طرح پژوهشي در اي...,\n138/1//08,\n1:1::49,\nآموزشي-,\nآموزشي


In [4]:
# Read the Stopwords text.
# The utf8 encoding is added.
# It is recommended to add this encoding.
with open('stopwords.txt', encoding="utf8") as stopwords_file:
    stopwords = stopwords_file.readlines()

In [5]:
# Look at the stopwords.
stopwords

['!\n',
 '"\n',
 '#\n',
 '(\n',
 ')\n',
 '*\n',
 ',\n',
 '-\n',
 '.\n',
 '/\n',
 ':\n',
 '[\n',
 ']\n',
 '«\n',
 '»\n',
 '،\n',
 '؛\n',
 '؟\n',
 'آباد\n',
 'آخ\n',
 'آخر\n',
 'آخرها\n',
 'آخه\n',
 'آدمهاست\n',
 'آرام\n',
 'آرام آرام\n',
 'آره\n',
 'آری\n',
 'آزادانه\n',
 'آسان\n',
 'آسیب پذیرند\n',
 'آشنایند\n',
 'آشکارا\n',
 'آقا\n',
 'آقای\n',
 'آقایان\n',
 'آمد\n',
 'آمدن\n',
 'آمده\n',
 'آمرانه\n',
 'آن\n',
 'آن گاه\n',
 'آنان\n',
 'آنانی\n',
 'آنجا\n',
 'آنرا\n',
 'آنطور\n',
 'آنقدر\n',
 'آنها\n',
 'آنهاست\n',
 'آنچنان\n',
 'آنچنان که\n',
 'آنچه\n',
 'آنکه\n',
 'آنگاه\n',
 'آن\u200cها\n',
 'آهان\n',
 'آهای\n',
 'آور\n',
 'آورد\n',
 'آوردن\n',
 'آورده\n',
 'آوه\n',
 'آی\n',
 'آیا\n',
 'آید\n',
 'آیند\n',
 'ا\n',
 'اتفاقا\n',
 'اثرِ\n',
 'اجراست\n',
 'احتراما\n',
 'احتمالا\n',
 'احیاناً\n',
 'اخیر\n',
 'اخیراً\n',
 'اری\n',
 'از\n',
 'از آن پس\n',
 'از جمله\n',
 'ازاین رو\n',
 'ازجمله\n',
 'ازش\n',
 'اساسا\n',
 'اساساً\n',
 'است\n',
 'استفاد\n',
 'استفاده\n',
 'اسلامی اند\n',
 'اش\n

In [6]:
# Looking at the stopwords, reveals that for each line, '\n' is added.
# We have to remove this '\n'.
# Notice the one-line looping cammand.
stopwords = [line.replace('\n', '') for line in stopwords]

In [7]:
# Now look again at the stopwords.
# '\n's are replaced with empty character.
stopwords

['!',
 '"',
 '#',
 '(',
 ')',
 '*',
 ',',
 '-',
 '.',
 '/',
 ':',
 '[',
 ']',
 '«',
 '»',
 '،',
 '؛',
 '؟',
 'آباد',
 'آخ',
 'آخر',
 'آخرها',
 'آخه',
 'آدمهاست',
 'آرام',
 'آرام آرام',
 'آره',
 'آری',
 'آزادانه',
 'آسان',
 'آسیب پذیرند',
 'آشنایند',
 'آشکارا',
 'آقا',
 'آقای',
 'آقایان',
 'آمد',
 'آمدن',
 'آمده',
 'آمرانه',
 'آن',
 'آن گاه',
 'آنان',
 'آنانی',
 'آنجا',
 'آنرا',
 'آنطور',
 'آنقدر',
 'آنها',
 'آنهاست',
 'آنچنان',
 'آنچنان که',
 'آنچه',
 'آنکه',
 'آنگاه',
 'آن\u200cها',
 'آهان',
 'آهای',
 'آور',
 'آورد',
 'آوردن',
 'آورده',
 'آوه',
 'آی',
 'آیا',
 'آید',
 'آیند',
 'ا',
 'اتفاقا',
 'اثرِ',
 'اجراست',
 'احتراما',
 'احتمالا',
 'احیاناً',
 'اخیر',
 'اخیراً',
 'اری',
 'از',
 'از آن پس',
 'از جمله',
 'ازاین رو',
 'ازجمله',
 'ازش',
 'اساسا',
 'اساساً',
 'است',
 'استفاد',
 'استفاده',
 'اسلامی اند',
 'اش',
 'اشتباها',
 'اشکارا',
 'اصلا',
 'اصلاً',
 'اصولا',
 'اصولاً',
 'اعلام',
 'اغلب',
 'افزود',
 'افسوس',
 'اقل',
 'اقلیت',
 'الا',
 'الان',
 'البته',
 'البتّه',
 'الهی',
 'الی',
 '

In [8]:
# Count the number of the stopwords.
len(stopwords)

1316

In [9]:
# Import the nltk (Natural Language Tool Kit) package.
# We want to use it's stopwords.
import nltk

In [10]:
# Download nltk's stopwords.
# nltk.download('stopwords')

In [11]:
# Collect nltk's stopwords.
nltk_stopwords = nltk.corpus.stopwords.words('english')

In [12]:
# Add nltk's stopwords to above stopwords.
stopwords.extend(nltk_stopwords)

In [13]:
# Count the number of this new stopwords.
len(stopwords)

1495

In [14]:
# Import 'hazm' (persian language tool kit).
import hazm

In [15]:
# Create a new stemmer from hazm.
stemmer = hazm.Stemmer()

In [16]:
# How hazm_stemmer works.
stemmer.stem('صندلی ها')

'صندلی '

In [17]:
# Create a new lemmatizer from hazm.
lemmatizer = hazm.Lemmatizer()

In [18]:
# How hazm_lemmatizer works.
lemmatizer.lemmatize('آییم')

'آمد#آ'

In [19]:
# Some examples.
lemmatizer.lemmatize('خوریم')

'خورد#خور'

In [20]:
# Import word tokenizer from hazm library.
from hazm import word_tokenize

In [21]:
# Read the first line of the data.
first_line = data.iloc[0]
first_line

NewsID                                                  843656
Title        \nوزير علوم درجمع استادان نمونه: سن بازنشستگي ...
Body         \nوزير علوم در جمع استادان نمونه كشور گفت: از ...
Date                                               \n138/5//09
Time                                                 \n0:9::18
Category                                             \nآموزشي-
Category2                                             \nآموزشي
Name: 0, dtype: object

In [22]:
# Combine 'Title' and 'Body' columns.
first_line_combined = first_line['Title'] + first_line['Body']
first_line_combined

'\nوزير علوم درجمع استادان نمونه: سن بازنشستگي استادان نمونه به 70 سال افزايش مي\u200cيابد دانشگاه بايد مهد چالشهاي گفتماني و خط دهنده و برنامه\u200cريز جريانات سياسي باشد\nوزير علوم در جمع استادان نمونه كشور گفت: از استادان نمونه كشور انتظار مي\u200cرود كه رويكرد دانايي محوري و گفتمان علمي را به عنوان يك بحث فرهنگي در دانشگاهها توسعه و رونق بخشند. به گزارش سرويس صنفي آموزشي خبرگزاري دانشجويان ايران (ايسنا)، دكتر محمد مهدي زاهدي در اولين مجمع عمومي استادان نمونه دانشگاه\u200cهاي سراسر كشور كه در دانشگاه تهران برگزار شد، افزود: توصيه ما در جهت تلاش براي دانايي محوري و توسعه گفتمان علمي به معني عدم تمايل به مباحث سياسي نيست؛ بلكه برعكس، دانشگاه بايد مهد چالشهاي گفتماني باشد ولي اين امر، بدان معني نيست كه دانشگاه، ابزار دست سياسيون قرار بگيرد. وي تأكيد كرد: دانشگاه نه تنها نبايد تحت تأثير القائات سياسي قرار بگيرد؛ بلكه بايد خط دهنده و برنامه\u200cريز جريانات سياسي باشد و مهمترين عنصر پياده شدن اين آرمان، دانشجويان و اعضاي هيات علمي دانشگاهها و در رأس آنها استادان نمونه هستند. وزير علوم با

In [23]:
# Use word tokenizer on this line.
first_line_combined_tokenized = word_tokenize(first_line_combined)
first_line_combined_tokenized

['وزير',
 'علوم',
 'درجمع',
 'استادان',
 'نمونه',
 ':',
 'سن',
 'بازنشستگي',
 'استادان',
 'نمونه',
 'به',
 '70',
 'سال',
 'افزايش',
 'مي\u200cيابد',
 'دانشگاه',
 'بايد',
 'مهد',
 'چالشهاي',
 'گفتماني',
 'و',
 'خط',
 'دهنده',
 'و',
 'برنامه\u200cريز',
 'جريانات',
 'سياسي',
 'باشد',
 'وزير',
 'علوم',
 'در',
 'جمع',
 'استادان',
 'نمونه',
 'كشور',
 'گفت',
 ':',
 'از',
 'استادان',
 'نمونه',
 'كشور',
 'انتظار',
 'مي\u200cرود',
 'كه',
 'رويكرد',
 'دانايي',
 'محوري',
 'و',
 'گفتمان',
 'علمي',
 'را',
 'به',
 'عنوان',
 'يك',
 'بحث',
 'فرهنگي',
 'در',
 'دانشگاهها',
 'توسعه',
 'و',
 'رونق',
 'بخشند',
 '.',
 'به',
 'گزارش',
 'سرويس',
 'صنفي',
 'آموزشي',
 'خبرگزاري',
 'دانشجويان',
 'ايران',
 '(',
 'ايسنا',
 ')',
 '،',
 'دكتر',
 'محمد',
 'مهدي',
 'زاهدي',
 'در',
 'اولين',
 'مجمع',
 'عمومي',
 'استادان',
 'نمونه',
 'دانشگاه\u200cهاي',
 'سراسر',
 'كشور',
 'كه',
 'در',
 'دانشگاه',
 'تهران',
 'برگزار',
 'شد',
 '،',
 'افزود',
 ':',
 'توصيه',
 'ما',
 'در',
 'جهت',
 'تلاش',
 'براي',
 'دانايي',
 'محوري',
 'و'

In [24]:
# Remove stopwords.
first_line_combined_tokenized_filtered = [w for w in first_line_combined_tokenized if not w in stopwords]
first_line_combined_tokenized_filtered

['وزير',
 'علوم',
 'درجمع',
 'استادان',
 'نمونه',
 'سن',
 'بازنشستگي',
 'استادان',
 'نمونه',
 '70',
 'سال',
 'افزايش',
 'مي\u200cيابد',
 'دانشگاه',
 'بايد',
 'مهد',
 'چالشهاي',
 'گفتماني',
 'خط',
 'دهنده',
 'برنامه\u200cريز',
 'جريانات',
 'سياسي',
 'وزير',
 'علوم',
 'جمع',
 'استادان',
 'نمونه',
 'كشور',
 'استادان',
 'نمونه',
 'كشور',
 'انتظار',
 'مي\u200cرود',
 'كه',
 'رويكرد',
 'دانايي',
 'محوري',
 'گفتمان',
 'علمي',
 'يك',
 'بحث',
 'فرهنگي',
 'دانشگاهها',
 'توسعه',
 'رونق',
 'بخشند',
 'گزارش',
 'سرويس',
 'صنفي',
 'آموزشي',
 'خبرگزاري',
 'دانشجويان',
 'ايران',
 'ايسنا',
 'دكتر',
 'محمد',
 'مهدي',
 'زاهدي',
 'اولين',
 'مجمع',
 'عمومي',
 'استادان',
 'نمونه',
 'دانشگاه\u200cهاي',
 'كشور',
 'كه',
 'دانشگاه',
 'تهران',
 'برگزار',
 'توصيه',
 'تلاش',
 'براي',
 'دانايي',
 'محوري',
 'توسعه',
 'گفتمان',
 'علمي',
 'معني',
 'تمايل',
 'مباحث',
 'سياسي',
 'نيست',
 'بلكه',
 'برعكس',
 'دانشگاه',
 'بايد',
 'مهد',
 'چالشهاي',
 'گفتماني',
 'ولي',
 'اين',
 'امر',
 'معني',
 'نيست',
 'كه',
 'دانشگاه',
 'اب

In [25]:
# Stem the sample.
first_line_combined_tokenized_filtered_stemmed = [stemmer.stem(w) for w in first_line_combined_tokenized_filtered]
first_line_combined_tokenized_filtered_stemmed

['وزير',
 'علو',
 'درجمع',
 'استاد',
 'نمونه',
 'سن',
 'بازنشستگي',
 'استاد',
 'نمونه',
 '70',
 'سال',
 'افزاي',
 'مي\u200cيابد',
 'دانشگاه',
 'بايد',
 'مهد',
 'چالشهاي',
 'گفتماني',
 'خط',
 'دهنده',
 'برنامه\u200cريز',
 'جري',
 'سياسي',
 'وزير',
 'علو',
 'جمع',
 'استاد',
 'نمونه',
 'كشور',
 'استاد',
 'نمونه',
 'كشور',
 'انتظار',
 'مي\u200cرود',
 'كه',
 'رويكرد',
 'دانايي',
 'محوري',
 'گف',
 'علمي',
 'يك',
 'بحث',
 'فرهنگي',
 'دانشگاه',
 'توسعه',
 'رونق',
 'بخشند',
 'گزار',
 'سرويس',
 'صنفي',
 'آموزشي',
 'خبرگزاري',
 'دانشجوي',
 'اير',
 'ايسنا',
 'دك',
 'محمد',
 'مهدي',
 'زاهدي',
 'اولين',
 'مجمع',
 'عمومي',
 'استاد',
 'نمونه',
 'دانشگاه\u200cهاي',
 'كشور',
 'كه',
 'دانشگاه',
 'تهر',
 'برگزار',
 'توصيه',
 'تلا',
 'براي',
 'دانايي',
 'محوري',
 'توسعه',
 'گف',
 'علمي',
 'معني',
 'تمايل',
 'مباحث',
 'سياسي',
 'نيس',
 'بلكه',
 'برعكس',
 'دانشگاه',
 'بايد',
 'مهد',
 'چالشهاي',
 'گفتماني',
 'ولي',
 'اين',
 'امر',
 'معني',
 'نيس',
 'كه',
 'دانشگاه',
 'ابزار',
 'دس',
 'سياسيون',
 'قرار',
 'بگي

In [26]:
# Lemmatize the sample (and remove the '#' character).
first_line_combined_tokenized_filtered_lemmatized = [lemmatizer.lemmatize(w).replace('#', ' ') for w in first_line_combined_tokenized_filtered]
first_line_combined_tokenized_filtered_lemmatized

['وزير',
 'علوم',
 'درجمع',
 'استاد',
 'نمونه',
 'سن',
 'بازنشستگي',
 'استاد',
 'نمونه',
 '70',
 'سال',
 'افزايش',
 'مي\u200cيابد',
 'دانشگاه',
 'بايد',
 'مهد',
 'چالشهاي',
 'گفتماني',
 'خط',
 'دهنده',
 'برنامه\u200cريز',
 'جريانات',
 'سياسي',
 'وزير',
 'علوم',
 'جمع',
 'استاد',
 'نمونه',
 'كشور',
 'استاد',
 'نمونه',
 'كشور',
 'انتظار',
 'مي\u200cرود',
 'كه',
 'رويكرد',
 'دانايي',
 'محوري',
 'گفتمان',
 'علمي',
 'يك',
 'بحث',
 'فرهنگي',
 'دانشگاه',
 'توسعه',
 'رونق',
 'بخشید بخش',
 'گزارش',
 'سرويس',
 'صنفي',
 'آموزشي',
 'خبرگزاري',
 'دانشجويان',
 'ايران',
 'ايسنا',
 'دكتر',
 'محمد',
 'مهدي',
 'زاهدي',
 'اولين',
 'مجمع',
 'عمومي',
 'استاد',
 'نمونه',
 'دانشگاه\u200cهاي',
 'كشور',
 'كه',
 'دانشگاه',
 'تهران',
 'برگزار',
 'توصيه',
 'تلاش',
 'براي',
 'دانايي',
 'محوري',
 'توسعه',
 'گفتمان',
 'علمي',
 'معني',
 'تمايل',
 'مباحث',
 'سياسي',
 'نيست',
 'بلكه',
 'برعكس',
 'دانشگاه',
 'بايد',
 'مهد',
 'چالشهاي',
 'گفتماني',
 'ولي',
 'اين',
 'امر',
 'معني',
 'نيست',
 'كه',
 'دانشگاه',
 'ابزار',
 '

In [27]:
# Combine the output of the stemming with the output of the lemmatizing.
first_line_processed_combined = ' '.join(first_line_combined_tokenized_filtered_stemmed) + ' ' + ' '.join(first_line_combined_tokenized_filtered_lemmatized)
first_line_processed_combined

'وزير علو درجمع استاد نمونه سن بازنشستگي استاد نمونه 70 سال افزاي مي\u200cيابد دانشگاه بايد مهد چالشهاي گفتماني خط دهنده برنامه\u200cريز جري سياسي وزير علو جمع استاد نمونه كشور استاد نمونه كشور انتظار مي\u200cرود كه رويكرد دانايي محوري گف علمي يك بحث فرهنگي دانشگاه توسعه رونق بخشند گزار سرويس صنفي آموزشي خبرگزاري دانشجوي اير ايسنا دك محمد مهدي زاهدي اولين مجمع عمومي استاد نمونه دانشگاه\u200cهاي كشور كه دانشگاه تهر برگزار توصيه تلا براي دانايي محوري توسعه گف علمي معني تمايل مباحث سياسي نيس بلكه برعكس دانشگاه بايد مهد چالشهاي گفتماني ولي اين امر معني نيس كه دانشگاه ابزار دس سياسيون قرار بگيرد وي تأكيد كرد دانشگاه نبايد تأثير القائ سياسي قرار بگيرد بلكه بايد خط دهنده برنامه\u200cريز جري سياسي مهمترين عنصر پياده اين آر دانشجوي اعضاي هي علمي دانشگاه رأس استاد نمونه وزير علو ذكر اين نكته كه جامعه اطلاعاتي نمي\u200cتو هيچ تفكري تهديد ارعاب حاك كرد دانشگاه بايد پرچمدار كرسيهاي آزاد انديشي حاكمي دانايي محوري بايد توجه داشته_باشند كه ناخودآگاه تأثير جوسازي القائ رسانه قرار نگيرند دك زاهدي اقدا ا

In [28]:
# Now do this procedure for all of the data.
# Create a data set with two column.
# The data set is filled with necessary and useful data in 'data'.
# In other words, column 'date' and 'time' are removed (since they are unnecessary).
dataset = pd.DataFrame(columns=('title_body', 'category'))

In [29]:
# Show this empty data set.
dataset

Unnamed: 0,title_body,category


In [30]:
# Prepare the data set.
# Fill the data set with the requried information in 'data'.
for index, row in data.iterrows():
    # Combine the column 'Title' with column 'Body' for each row.
    title_body = row['Title'] + ' ' + row['Body']
    # Tokenize the combined row.
    title_body_tokenized = word_tokenize(title_body)
    # Remove the stopwords from the data.
    title_body_tokenized_filtered = [w for w in title_body_tokenized if not w in stopwords]
    # Extract stem of each word.
    title_body_tokenized_filtered_stemmed = [stemmer.stem(w) for w in title_body_tokenized_filtered]
    # Lemmatize each word.
    title_body_tokenized_filtered_lemmatized = [lemmatizer.lemmatize(w).replace('#', ' ') for w in title_body_tokenized_filtered]
    # Fill the data in data set: 'title_body' with 'title_body_tokenized_filtered_stemmed'
    # and 'category' with 'Category2' (for the latter, we should remove the '\n's).
    dataset.loc[index] = {
        'title_body': ' '.join(title_body_tokenized_filtered_stemmed) + ' ' + ' '.join(title_body_tokenized_filtered_lemmatized),
        'category': row['Category2'].replace('\n', '')
    }

In [31]:
# Read the first lines of the data set.
dataset.head()

Unnamed: 0,title_body,category
0,وزير علو درجمع استاد نمونه سن بازنشستگي استاد ...,آموزشي
1,گردهمايي دانش‌آموختگ موسسه آموز عالي سوره برگز...,آموزشي
2,نتايج آزمون دوره‌هاي فراگير دانشگاه پيام‌نور ن...,آموزشي
3,هماي يكروزه آسيب شناسي مفهو روابط عمومي بابلسر...,اجتماعي
4,وضعي اقتصادي ميز تحصيل والدين مهمترين عوامل مو...,آموزشي


In [32]:
# Import TF-IDF (term frequency - inverse document frequency) representation.
from sklearn.feature_extraction.text import TfidfVectorizer

In [33]:
# Create a new TF-IDF vectorizer.
tf_idf_vectorizer = TfidfVectorizer(ngram_range=(1, 1))

In [34]:
# Learn from the data.
tf_idf_vectorizer.fit(dataset['title_body'])

TfidfVectorizer(analyzer='word', binary=False, decode_error='strict',
                dtype=<class 'numpy.float64'>, encoding='utf-8',
                input='content', lowercase=True, max_df=1.0, max_features=None,
                min_df=1, ngram_range=(1, 1), norm='l2', preprocessor=None,
                smooth_idf=True, stop_words=None, strip_accents=None,
                sublinear_tf=False, token_pattern='(?u)\\b\\w\\w+\\b',
                tokenizer=None, use_idf=True, vocabulary=None)

In [35]:
# Transform the vectorized data to a new matrix.
tf_idf_transformed = tf_idf_vectorizer.transform(dataset['title_body'])

In [36]:
# Show information about this new matrix.
# Note that this is a sparse (not dense) matrix.
tf_idf_transformed

<10999x70960 sparse matrix of type '<class 'numpy.float64'>'
	with 2177550 stored elements in Compressed Sparse Row format>

In [37]:
# Now consider the targets.
# Use numpy unique function to print the unique categories.
import numpy as np
print(np.unique(dataset['category']))

['آموزشي' 'اجتماعي' 'اقتصادي' 'بهداشتي' 'تاريخي' 'سياسي' 'علمي' 'فرهنگي'
 'فقه و حقوق' 'مذهبي' 'ورزشي']


In [38]:
# At first, we must encode their categorical values.
# So we import label encoder from Sci-Kit library.
from sklearn.preprocessing import LabelEncoder

In [39]:
# Create a new label encoder.
label_encoder = LabelEncoder()

In [40]:
# Encode the targets.
# Fit and transform simultaneously.
target_encoded = label_encoder.fit_transform(dataset['category'])

In [41]:
# Count the number of encoded targets.
len(target_encoded)

10999

In [42]:
# Show the shape of tf_idf_transformed matrix.
np.shape(tf_idf_transformed)

(10999, 70960)

In [43]:
# Introduce Factor Analysis.
# Import the required library.
from sklearn.decomposition import FactorAnalysis

In [44]:
# Use Kernel PCA in order to reduce 70960 features to 100 dimensions.
factor_analysis = FactorAnalysis(n_components=100)

In [45]:
# Learn from the data.
factor_analysis.fit(tf_idf_transformed.todense())

MemoryError: Unable to allocate 5.82 GiB for an array with shape (10999, 70960) and data type float64

In [None]:
# Save the result.
tf_idf_transformed = factor_analysis.transform(tf_idf_transformed.todense())

In [None]:
# Determine the size of the resulted matrix.
np.shape(tf_idf_transformed)

In [None]:
# Prepare train and test datasets.
# In order to do that, we can use a specific package in Sci-Kit library.
from sklearn.model_selection import train_test_split

In [None]:
# Specify the train and test inputs and targets.
X_train, X_test, y_train, y_test = train_test_split(tf_idf_transformed, target_encoded)

In [None]:
# Use SVM algorithm for classification.
from sklearn import svm

In [None]:
# Create a new SVM classifier.
svm_classifier = svm.SVC()

In [None]:
# Learn from the data.
svm_classifier.fit(X_train, y_train)

In [None]:
# Measure the accuracy of the model.
svm_classifier.score(X_test, y_test)

In [None]:
# Now let's evaluate our model with specific metrics.
# So we import specific metrics form Sci-Kit library.
from sklearn.metrics import classification_report, confusion_matrix

In [None]:
# Save the prediction of our model.
y_predicted = svm_classifier.predict(X_test)

In [None]:
# Present the classification report.
print(classification_report(y_test, y_predicted))

In [None]:
# Present the confusion matrix.
print(confusion_matrix(y_test, y_predicted))