<a href="https://colab.research.google.com/github/navilindo/NLP/blob/main/text_classification_functions.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# text classification using scikit learn

In [1]:
def load_data_categories():
  import os

  cats = ['business','middleeast','scitech','world']
  data_dir = '/content/drive/MyDrive/Colab Notebooks/nlp-data/cnn-ar/'

  for cat in cats:
    dirpath = os.path.join(data_dir,cat)
    print(dirpath)

In [3]:
def load_data():
  from sklearn.datasets import load_files

  text_data = load_files(data_dir)
  X,y = text_data.data, text_data.target
  text_data.target_names

In [2]:
def mount_drive():
  from google.colab import drive
  drive.mount('/content/drive')

In [4]:
import numpy as np
from sklearn.model_selection import train_test_split

In [5]:
def data_split():
  X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.33, random_state=42)

In [6]:
def extract_features():
  from sklearn.feature_extraction.text import CountVectorizer
  count_vect = CountVectorizer()
  X_train_counts = count_vect.fit_transform(text_data.data)
  X_train_counts.shape

In [None]:
mount_drive()
load_data_categories()
load_data()
data_split()
extract_features()

In [10]:
# test feature extraction
count_vect.vocabulary_.get(u'الإمارات')

11316

In [7]:
def features_id_trans():
  from sklearn.feature_extraction.text import TfidfTransformer
  tf_transformer = TfidfTransformer(use_idf=False).fit(X_train_counts)
  X_train_tf = tf_transformer.transform(X_train_counts)
  X_train_tf.shape

In [12]:
tfidf_transformer = TfidfTransformer()
X_train_tfidf = tfidf_transformer.fit_transform(X_train_counts)
X_train_tfidf.shape

(3298, 81919)

In [13]:
# Naive Bayes classifier
from sklearn.naive_bayes import MultinomialNB
clf = MultinomialNB().fit(X_train_tfidf, text_data.target)

In [14]:
docs_new = ['الأربعاء عن نيتها خفض رسوم الوقود', 'دفعت بمعظم شركات','وأثار الحكم بسجن غرين انتقادات لدى مسؤولين عراقيين','وكان وجهها مغطى تماما بالثلج، ماعدا عينيها التي كانت تنظر إلي']
X_new_counts = count_vect.transform(docs_new)
X_new_tfidf = tfidf_transformer.transform(X_new_counts)

predicted = clf.predict(X_new_tfidf)

for doc, category in zip(docs_new, predicted):
    print('%r => %s' % (doc, text_data.target_names[category]))

'الأربعاء عن نيتها\xa0خفض\xa0رسوم الوقود' => business
'دفعت بمعظم شركات' => business
'وأثار الحكم بسجن غرين انتقادات لدى مسؤولين عراقيين' => world
'وكان وجهها مغطى تماما بالثلج، ماعدا عينيها التي كانت تنظر إلي' => world


In [15]:
from sklearn.pipeline import Pipeline
text_clf = Pipeline([
    ('vect', CountVectorizer()),
    ('tfidf', TfidfTransformer()),
    ('clf', MultinomialNB()),
])

In [16]:
text_clf.fit(text_data.data, text_data.target)

Pipeline(steps=[('vect', CountVectorizer()), ('tfidf', TfidfTransformer()),
                ('clf', MultinomialNB())])

In [28]:
import pickle

#save model as pickle str
saved_txt_clf = pickle.dumps(text_clf)


In [29]:
#load saved model
ret_txt_clf = pickle.loads(saved_txt_clf)

In [30]:
#try to use
ret_txt_clf.predictfn()

AttributeError: ignored

In [26]:
def predictfn():
  textdata = input('\nenter your texts separated by commas')
  docs_new = [textdata]
  X_new_counts = count_vect.transform(docs_new)
  X_new_tfidf = tfidf_transformer.transform(X_new_counts)

  predicted = clf.predict(X_new_tfidf)

  for doc, category in zip(docs_new, predicted):
    print('%r => %s' % (doc, text_data.target_names[category]))

In [27]:
predictfn()


enter your texts separated by commas'الأربعاء عن نيتها خفض رسوم الوقود', 'دفعت بمعظم شركات','وأثار الحكم بسجن غرين انتقادات لدى مسؤولين عراقيين','وكان وجهها مغطى تماما بالثلج، ماعدا عينيها التي كانت تنظر إلي'
"'الأربعاء عن نيتها\xa0خفض\xa0رسوم الوقود', 'دفعت بمعظم شركات','وأثار الحكم بسجن غرين انتقادات لدى مسؤولين عراقيين','وكان وجهها مغطى تماما بالثلج، ماعدا عينيها التي كانت تنظر إلي'" => world
