`About Dataset :`
Context
Collection of documents and its emotions, It helps greatly in NLP Classification tasks

Content
List of documents with emotion flag, Dataset is split into train, test & validation for building the machine learning model

Example :-
i feel like I am still looking at a blank canvas blank pieces of paper;sadness

Acknowledgements
Thanks to Elvis - https://lnkd.in/eXJ8QVB & Hugging face team
The technique to prepare the dataset - https://www.aclweb.org/anthology/D18-1404/

Inspiration
Dataset helps the community to develop emotion classification models with NLP based approach.

Few questions your emotion classification model can answer based on your customer review

What is the sentiment of your customer comment?
What is the mood of today's special food ?

In [6]:
import numpy as np
import pandas as pd
import plotly.express as px
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.tree import DecisionTreeClassifier

In [7]:
from sklearn.pipeline import Pipeline

عادةً، يتم استخدام Pipeline في مشاريع تعلم الآلة لتجميع مجموعة من الخطوات التي يجب تطبيقها على البيانات،` مثل تحويل البيانات، وتقليل الأبعاد، وتدريب النماذج، وتقييمها`. عند استخدام Pipeline، يتم تحديد كل خطوة ومرحلة في التسلسل وتطبيقها بترتيبها.

In [8]:
# Load Text Cleaning Pkgs
import neattext.functions as nfx

الحزمة التي تستوردها هي neattext, وهي حزمة مفيدة في مجال معالجة النصوص في Python. تعتمد هذه الحزمة على إجراء تنظيف ومعالجة النصوص بطرق سهلة وفعالة. من خلال neattext، يمكنك القيام بالعديد من العمليات على النصوص مثل تنظيف النصوص من الرموز غير المرغوب فيها، أو تحسين الجمل لتكون أكثر قراءة وفهمًا، والعديد من العمليات الأخرى.

لمثال، يمكن استخدام neattext لتنظيف النصوص من الرموز غير المرغوب فيها، مثل الرموز التعبيرية والإشارات الترقيمية:

In [9]:
df = pd.read_csv("/content/Emotions NlP dataset.txt",
                 delimiter=';', header=None, names=['sentence','label'])

In [10]:
df.head()

Unnamed: 0,sentence,label
0,im feeling quite sad and sorry for myself but ...,sadness
1,i feel like i am still looking at a blank canv...,sadness
2,i feel like a faithful servant,love
3,i am just feeling cranky and blue,anger
4,i can have for a treat or if i am feeling festive,joy


In [11]:
df.tail()

Unnamed: 0,sentence,label
1995,im having ssa examination tomorrow in the morn...,sadness
1996,i constantly worry about their fight against n...,joy
1997,i feel its important to share this info for th...,joy
1998,i truly feel that if you are passionate enough...,joy
1999,i feel like i just wanna buy any cute make up ...,joy


In [12]:
df["label"].unique()

array(['sadness', 'love', 'anger', 'joy', 'fear', 'surprise'],
      dtype=object)

In [13]:
df.describe()

Unnamed: 0,sentence,label
count,2000,2000
unique,1998,6
top,i feel so tortured by it,joy
freq,2,704


In [14]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2000 entries, 0 to 1999
Data columns (total 2 columns):
 #   Column    Non-Null Count  Dtype 
---  ------    --------------  ----- 
 0   sentence  2000 non-null   object
 1   label     2000 non-null   object
dtypes: object(2)
memory usage: 31.4+ KB


In [15]:
df.isnull().sum()

sentence    0
label       0
dtype: int64

In [16]:
n=df.groupby(["label"]).size().reset_index(name="counts")
n

Unnamed: 0,label,counts
0,anger,275
1,fear,212
2,joy,704
3,love,178
4,sadness,550
5,surprise,81


In [17]:
pieChart=px.pie(n,values="counts",names="label",
                title="Emotions",
                color_discrete_sequence=px.colors.qualitative.Set2)
pieChart.show()

In [18]:
df['Clean_Text'] = df["sentence"].apply(nfx.remove_userhandles)

`remove_userhandles`: تقوم هذه الوظيفة بإزالة أسماء المستخدمين من النص. عادةً ما تكون أسماء المستخدمين في وسائل التواصل الاجتماعي مسبوقة برمز "@"، مثل "@username"، وهذه الوظيفة تزيل هذه الأسماء.



In [19]:
df['Clean_Text'] = df['Clean_Text'].apply(nfx.remove_stopwords)

`remove_stopwords`: تقوم هذه الوظيفة بإزالة الكلمات الوقفية من النص. الكلمات الوقفية هي الكلمات الشائعة التي لا تضيف الكثير من المعنى للنص، مثل "the", "is", "and"، وغيرها. إزالتها يمكن أن تساعد في تقليل الضوضاء والتركيز على الكلمات الرئيسية.

In [20]:
df['Clean_Text'] = df['Clean_Text'].apply(nfx.remove_special_characters)

`remove_special_characters:` هذه الوظيفة تقوم بإزالة الرموز الخاصة والإشارات الترقيمية من النص، مثل الفواصل والرموز التعبيرية والرموز غير الضرورية. ذلك يمكن أن يكون مفيدًا عندما ترغب في تنظيف النص والتركيز فقط على الكلمات.

In [21]:
df['Clean_Text']

0                      im feeling sad sorry ill snap soon
1       feel like looking blank canvas blank pieces paper
2                              feel like faithful servant
3                                     feeling cranky blue
4                                   treat feeling festive
                              ...                        
1995    im ssa examination tomorrow morning im prepare...
1996    constantly worry fight nature push limits inne...
1997           feel important share info experience thing
1998              truly feel passionate stay true succeed
1999                      feel like wanna buy cute online
Name: Clean_Text, Length: 2000, dtype: object

In [22]:
x=(df['Clean_Text'])
y=df["label"]

In [23]:
X_train,X_test,y_train,y_test=train_test_split(x,y,test_size=0.3,random_state=42,stratify=y)

In [24]:
# LogisticRegression Pipeline
pipe_lr = Pipeline(steps=[('cv',CountVectorizer()),('lr',DecisionTreeClassifier())])

In [25]:
pipe_lr.fit(X_train,y_train)

In [26]:
pipe_lr.score(X_test,y_test)

0.7616666666666667

In [27]:
ex1 = "im feeling sad sorry ill snap soon"

In [28]:
pipe_lr.predict([ex1])

array(['sadness'], dtype=object)

In [29]:
pipe_lr.predict_proba([ex1])

array([[0., 0., 0., 0., 1., 0.]])

In [30]:
pipe_lr.classes_

array(['anger', 'fear', 'joy', 'love', 'sadness', 'surprise'],
      dtype=object)

In [31]:
#save model
import joblib
pipeline_file = open("emotion_classifier.pkl","wb")
joblib.dump(pipe_lr,pipeline_file)
pipeline_file.close()