In [41]:
import pandas as pd
import spacy
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn import metrics

nlp = spacy.blank('ur')


In [8]:
df = pd.read_csv("HS Urdu - HS Urdu.csv")

In [9]:
df.head()


Unnamed: 0,Text,Label
0,دس ڈالر تو حبشی کا چُوپہ لگا کر گوں رایہ حرامی...,o
1,تیری کڑی دی پھدی چے حبشی دا لن گانڈو باپ کی او...,o
2,تم تو کسی ہندو مندر کے پجاری کی فصل ہو جو کُم ...,h
3,بيشرم بيغيرت ہندو مودی کے حبشی بچے تيرے جيسے ک...,h
4,انڈين مودی کے عمار حبشی پِلے کيا يہ رنگ بازی ت...,o


In [10]:
df.shape

(7871, 2)

In [11]:
df['Label'].unique()

array(['o', 'h', 'n'], dtype=object)

we can see that we have 3 unique labels in the dataset, which are offensive, hate and neutral   

Now, we can see the distribution of each label


In [12]:
df['Label'].value_counts()

Label
o    3630
h    3270
n     971
Name: count, dtype: int64

Now to check our vocabulary size:


In [17]:
corpus = ' '.join(df['Text'])

nlp.max_length  = 10000000

tokens = nlp(corpus)
# Calculate the vocabulary size
vocab = set(tokens)
vocab_size = len(vocab)

# Print the vocabulary size
print("Vocabulary Size:", vocab_size)

Vocabulary Size: 278150


In [30]:
vectorizer = TfidfVectorizer()

# Fit the vectorizer to your text data
vectorizer.fit(df['Text'])

# Transform the text data into TF-IDF vectors
vectors = vectorizer.transform(df['Text']).toarray()
vectors.shape

(7871, 18812)

In [43]:
X_train, X_test, y_train, y_test = train_test_split(vectors, df['Label'], test_size=0.2, random_state=42)


In [44]:
rf_model = RandomForestClassifier(n_estimators=100, random_state=42)

# Fit the Random Forest classifier to the training data
rf_model.fit(X_train, y_train)

# Make predictions on the test data
y_pred = rf_model.predict(X_test)

In [45]:
accuracy = metrics.accuracy_score(y_test, y_pred)
precision = metrics.precision_score(y_test, y_pred, average='weighted')
recall = metrics.recall_score(y_test, y_pred, average='weighted')
f1_score = metrics.f1_score(y_test, y_pred, average='weighted')

print("Accuracy:", accuracy)
print("Precision:", precision)
print("Recall:", recall)
print("F1-Score:", f1_score)

Accuracy: 0.8450793650793651
Precision: 0.8601207949451092
Recall: 0.8450793650793651
F1-Score: 0.8396451634116192


In [49]:
input = ["یہ ایک غیر سیاسی ٹویٹ ہے، میرے اس ٹویٹ سےاگر  دل آزاری ہوئی ہو،تو اس میں میراکیاقصور ہے،   ویسےاب توحب الوطنی کاسرٹیفیکیٹ بھی ہاتھ میں لئےپھیرتاہوں پوچھنےکاحق تو رکھتا ہوں،میرامطلب ہے,وہ ."]
input = vectorizer.transform(input).toarray()
rf_model.predict(input)


array(['n'], dtype=object)