# **PROBLEM STATEMENT AND DATA DESCRIPTION:**

**Hostile Post Detection in Hindi** :
       
This subtask focuses on a variety of **hostile posts in Hindi** Devanagari script **collected from Twitter and Facebook**. The set of valid categories are fake news, hate speech, offensive, defamation, and non-hostile posts. It is a **multi-label multi-class classification problem** where each post can belong to one or more of these hostile classes. However, the non-hostile posts cannot be grouped with any other class. The evaluation of this subtask will be two-dimensional as follows:

**Coarse-grained evaluation:** It is a binary evaluation of hostile vs non-hostile posts.

**Fine-grained evaluation:** It is a fine-grained evaluation of the hostile classes.

**Definitions of the class labels:**

**Fake News:** A claim or information that is verified to be not true.

**Hate Speech:** A post targeting a specific group of people based on their ethnicity, religious beliefs, geographical belonging, race, etc., with malicious intentions of spreading hate or encouraging violence.

**Offensive:** A post containing profanity, impolite, rude, or vulgar language to insult a targeted individual or group.

**Defamation:** A mis-information regarding an individual or group.

**Non-hostile:** A post without any hostility.

**Evaluation Metric:** 

The official evaluation metric for the shared task is  **weighted-average F1 score**.



In [None]:
# to import datasets from google drive 
from google.colab import drive
drive.mount("/content/gdrive")

Drive already mounted at /content/gdrive; to attempt to forcibly remount, call drive.mount("/content/gdrive", force_remount=True).


# **IMPORTING THE LIBRARIES :**

In [None]:
pip install polyglot

Collecting polyglot
[?25l  Downloading https://files.pythonhosted.org/packages/e7/98/e24e2489114c5112b083714277204d92d372f5bbe00d5507acf40370edb9/polyglot-16.7.4.tar.gz (126kB)
[K     |‚ñà‚ñà‚ñã                             | 10kB 22.9MB/s eta 0:00:01[K     |‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè                          | 20kB 26.5MB/s eta 0:00:01[K     |‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ                        | 30kB 15.3MB/s eta 0:00:01[K     |‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç                     | 40kB 11.1MB/s eta 0:00:01[K     |‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà                   | 51kB 7.4MB/s eta 0:00:01[K     |‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã                | 61kB 7.8MB/s eta 0:00:01[K     |‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè             | 71kB 8.3MB/s eta 0:00:01[K     |‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä           | 81kB 8.4MB/s eta 0:00:01[K     |‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚

In [None]:
pip install icu

Collecting icu
[?25l  Downloading https://files.pythonhosted.org/packages/89/d8/0972fa39747faea092e8105103f261e01d6cefe262cbe036df8b0b8ada44/icu-0.0.1-py3-none-any.whl (49kB)
[K     |‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã                         | 10kB 22.5MB/s eta 0:00:01[K     |‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè                  | 20kB 15.9MB/s eta 0:00:01[K     |‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ            | 30kB 9.9MB/s eta 0:00:01[K     |‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç     | 40kB 8.4MB/s eta 0:00:01[K     |‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 51kB 4.2MB/s 
[?25hInstalling collected packages: icu
Successfully installed icu-0.0.1


In [None]:
pip install -U git+https://github.com/aboSamoor/polyglot.git@master

Collecting git+https://github.com/aboSamoor/polyglot.git@master
  Cloning https://github.com/aboSamoor/polyglot.git (to revision master) to /tmp/pip-req-build-zl84o55s
  Running command git clone -q https://github.com/aboSamoor/polyglot.git /tmp/pip-req-build-zl84o55s
Collecting PyICU>=1.8
[?25l  Downloading https://files.pythonhosted.org/packages/31/46/fa08c8efae2951e67681ec24319f789fc1a74e2096dd74373e34c79319de/PyICU-2.6.tar.gz (233kB)
[K     |‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 235kB 7.6MB/s 
Collecting pycld2>=0.3
[?25l  Downloading https://files.pythonhosted.org/packages/21/d2/8b0def84a53c88d0eb27c67b05269fbd16ad68df8c78849e7b5d65e6aec3/pycld2-0.41.tar.gz (41.4MB)
[K     |‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 41.4MB 111kB/s 
[?25hCollecting futures>=2.1.6
  Downloading https://files.pythonhosted.org/packages/05/80/f41cca0ea1ff69bce7e7a7d76182b47bb4e1a49438

In [None]:
pip install snowballstemmer



In [None]:
# importing the libraries 
import os
import itertools
import numpy as np 
import pandas as pd 
import re 
import math as m 
import matplotlib.pyplot as plt
import seaborn as sns

import polyglot
from polyglot.text import Text,Word
from polyglot.downloader import downloader
import snowballstemmer
from snowballstemmer import HindiStemmer

from sklearn.metrics import f1_score
from sklearn.metrics import accuracy_score
from sklearn.metrics import confusion_matrix 
from sklearn.metrics import classification_report as Report

import warnings 
warnings.filterwarnings("ignore")

In [None]:
# to display entire rows and columns of dataframe 
pd.set_option('display.max_rows', None)
pd.set_option('display.max_columns', None)
pd.set_option('display.width', None)
pd.set_option('display.max_colwidth', -1)

# **LOADING THE DATASET**  

In [None]:
# read the train data 
train_df=pd.read_excel('/content/gdrive/My Drive/constraint_Hindi_Train.xlsx')
train_df.head()

Unnamed: 0,Unique ID,Post,Labels Set
0,1,‡§Æ‡•á‡§∞‡•á ‡§¶‡•á‡§∂ ‡§ï‡•á ‡§π‡§ø‡§®‡•ç‡§¶‡•Å ‡§¨‡§π‡•Å‡§§ ‡§®‡§ø‡§∞‡§æ‡§≤‡•á ‡§π‡•à‡•§ ‡§ï‡•Å‡§õ ‡§§‡•ã ‡§™‡§ï‡•ç‡§ï‡•á ‡§∞‡§æ‡§Æ ‡§≠‡§ï‡•ç‡§§ ‡§π‡•à ‡§î‡§∞ ‡§ï‡•Å‡§õ ‡§¨‡§æ‡§¨‡§∞ ‡§ï‡•á ‡§∏‡§æ‡§≤‡•á ‡§π‡•à \n\nüôè ‡§ú‡§Ø ‡§∂‡•ç‡§∞‡•Ä ‡§∞‡§æ‡§Æ üôè,"hate,offensive"
1,2,"‡§∏‡§∞‡§ï‡§æ‡§∞ ‡§π‡§Æ‡•á‡§∂‡§æ ‡§∏‡•á ‡§ï‡§ø‡§∏‡§æ‡§®‡•ã‡§Ç ‡§ï‡•Ä ‡§ï‡§Æ‡§æ‡§à ‡§ï‡•ã ‡§¨‡§¢‡§º‡§æ‡§®‡•á ‡§ï‡•á ‡§≤‡§ø‡§è ‡§®‡§à-‡§®‡§à ‡§∏‡•ç‡§ï‡•Ä‡§Æ‡•á‡§Ç ‡§≤‡§æ‡§§‡•Ä ‡§∞‡§π‡§§‡•Ä ‡§π‡•à, ‡§§‡§æ‡§ï‡§ø ‡§â‡§® ‡§™‡§∞ ‡§ú‡•ç‡§Ø‡§æ‡§¶‡§æ ‡§Ü‡§∞‡•ç‡§•‡§ø‡§ï ‡§¨‡•ã‡§ù ‡§® ‡§™‡§°‡§º‡•á.\n\nhttps://t.co/8iy2MJSBAs",non-hostile
2,3,"‡§∏‡•Å‡§∂‡§æ‡§Ç‡§§ ‡§®‡•á ‡§ú‡•ã ‡§¨‡§ø‡§ú‡§®‡•á‡§∏ ‡§°‡•Ä‡§≤ 9 ‡§ú‡•Ç‡§® ‡§ï‡•ã ‡§ï‡•Ä ‡§•‡•Ä, ‡§µ‡•ã ‡§°‡•Ä‡§≤ ‡§¶‡•Ä‡§™‡•á‡§∂ ‡§ï‡•ã ‡§∏‡•Å‡§∂‡§æ‡§Ç‡§§ ‡§ï‡•Ä ‡§π‡§§‡•ç‡§Ø‡§æ ‡§ï‡•á ‡§¶‡§ø‡§® ‡§π‡•Ä ‡§ï‡•ç‡§Ø‡•ã‡§Ç ‡§Ø‡§æ‡§¶ ‡§Ü‡§à? ‡§¶‡•á‡§ñ‡§ø‡§è '‡§™‡•Ç‡§õ‡§§‡§æ ‡§π‡•à ‡§≠‡§æ‡§∞‡§§' ‡§Ö‡§∞‡•ç‡§®‡§¨ ‡§ï‡•á ‡§∏‡§æ‡§• ‡§∞‡§ø‡§™‡§¨‡•ç‡§≤‡§ø‡§ï ‡§≠‡§æ‡§∞‡§§ ‡§™‡§∞ #LIVE : https://t.co/G945HvzM0Z https://t.co/KfH7xF1IdM",non-hostile
3,4,@prabhav218 ‡§∏‡§æ‡§≤‡•á ‡§ú‡•á‡§è‡§®‡§Ø‡•Ç ‡§õ‡§æ‡§™ ‡§ï‡§Æ‡§ø‡§®‡•á ‡§≤‡•ã‡§ó ‡§π‡§ø‡§®‡•ç‡§¶‡•Å‡§ì‡§Ç ‡§ï‡•ã ‡§Ø‡§π ‡§ï‡§π‡§§‡•á ‡§π‡•à ‡§ï‡•Ä ‡§∏‡§Ç‡§µ‡§ø‡§ß‡§æ‡§® ‡§∏‡§¨‡§ï‡•ã ‡§¨‡§∞‡§æ‡§¨‡§∞ ‡§Ö‡§ß‡§ø‡§ï‡§æ‡§∞ ‡§¶‡•á‡§§‡§æ ‡§π‡•à‡•§ ‡§∏‡§ö‡•ç‡§ö‡§æ‡§à ‡§Ø‡§π ‡§π‡•à ‡§ï‡§ø ‡§Ø‡§π ‡§¨‡§∞‡§æ‡§¨‡§∞ ‡§Ö‡§ß‡§ø‡§ï‡§æ‡§∞ ‡§®‡§π‡•Ä‡§Ç ‡§¶‡•á‡§§‡§æ ‡§π‡•à‡•§,"defamation,offensive"
4,5,#unlock4guidelines - ‡§Ö‡§®‡§≤‡•â‡§ï-4 ‡§ï‡•á ‡§≤‡§ø‡§è ‡§ó‡§æ‡§á‡§°‡§≤‡§æ‡§á‡§®‡•ç‡§∏ ‡§ú‡§æ‡§∞‡•Ä\n\n- 7 ‡§∏‡§ø‡§§‡§Ç‡§¨‡§∞ ‡§∏‡•á ‡§¶‡•á‡§∂‡§≠‡§∞ ‡§Æ‡•á‡§Ç ‡§Æ‡•á‡§ü‡•ç‡§∞‡•ã ‡§∏‡•á‡§µ‡§æ ‡§∂‡•Å‡§∞‡•Å ‡§π‡•ã‡§ó‡•Ä\n- 21 ‡§∏‡§ø‡§§‡§Ç‡§¨‡§∞ ‡§ï‡•á ‡§¨‡§æ‡§¶ ‡§∞‡•à‡§≤‡§ø‡§Ø‡•ã‡§Ç ‡§î‡§∞ ‡§¨‡§æ‡§ï‡•Ä ‡§´‡§Ç‡§ï‡•ç‡§∂‡§® ‡§Æ‡•á‡§Ç 100 ‡§≤‡•ã‡§ó‡•ã‡§Ç ‡§ï‡•ã ‡§á‡§ú‡§æ‡§ú‡§§\n- ‡§ï‡§Ç‡§ü‡•á‡§®‡§Æ‡•á‡§Ç‡§ü ‡§ú‡•ã‡§® ‡§Æ‡•á‡§Ç ‡§ï‡•ã‡§à ‡§õ‡•Ç‡§ü ‡§®‡§π‡•Ä‡§Ç\n- ‡§∏‡§ø‡§®‡•á‡§Æ‡§æ‡§π‡•â‡§≤ ‡§Ö‡§≠‡•Ä ‡§¨‡§Ç‡§¶ ‡§∞‡§π‡•á‡§Ç‡§ó‡•á\n- 9 ‡§∏‡•á 12‡§µ‡•Ä‡§Ç ‡§ï‡•á ‡§õ‡§æ‡§§‡•ç‡§∞ 21 ‡§∏‡§ø‡§§‡§Ç‡§¨‡§∞ ‡§ï‡•á ‡§¨‡§æ‡§¶ ‡§∏‡•ç‡§ï‡•Ç‡§≤ ‡§ú‡§æ ‡§∏‡§ï‡•á‡§Ç‡§ó‡•á. https://t.co/4e6lysg0VR,non-hostile


In [None]:
# read the validate data 
validate_df=pd.read_excel('/content/gdrive/My Drive/Constraint_Hindi_Valid.xlsx')
validate_df.head()

Unnamed: 0,Unique ID,Post,Labels Set
0,1,‡§¶‡•É‡§¢‡§º ‡§á‡§ö‡•ç‡§õ‡§æ ‡§∂‡§ï‡•ç‡§§‡§ø ‡§∏‡•á ‡§™‡§∞‡§ø‡§™‡•Ç‡§∞‡•ç‡§£ ‡§™‡•ç‡§∞‡§£‡§¨‡§¶‡§æ ‡§ï‡•á ‡§≤‡§ø‡§è ‡§¶‡•á‡§∂‡§π‡§ø‡§§ ‡§∏‡§∞‡•ç‡§µ‡•ã‡§ö‡•ç‡§ö ‡§∞‡§π‡§æ‡•§\n\n‡§â‡§®‡§ï‡§æ ‡§®‡§ø‡§ß‡§® ‡§π‡§Æ ‡§∏‡§¨ ‡§ï‡•á ‡§≤‡§ø‡§è ‡§Ö‡§™‡•Ç‡§∞‡§£‡•Ä‡§Ø ‡§ï‡•ç‡§∑‡§§‡§ø ‡§π‡•à‡•§\n‡§à‡§∂‡•ç‡§µ‡§∞ ‡§¶‡§ø‡§µ‡§Ç‡§ó‡§§ ‡§Ü‡§§‡•ç‡§Æ‡§æ ‡§ï‡•ã ‡§Ö‡§™‡§®‡•á ‡§∂‡•ç‡§∞‡•Ä‡§ö‡§∞‡§£‡•ã‡§Ç ‡§Æ‡•á‡§Ç ‡§∏‡•ç‡§•‡§æ‡§® ‡§¶‡•á‡§Ç‡•§ ‡§∂‡•ã‡§ï ‡§∏‡§Ç‡§§‡§™‡•ç‡§§ ‡§™‡§∞‡§ø‡§ú‡§®‡•ã‡§Ç ‡§ï‡•á ‡§™‡•ç‡§∞‡§§‡§ø ‡§∏‡§Ç‡§µ‡•á‡§¶‡§®‡§æ‡§è‡§Ç‡•§\n‡§ä‡§Ç ‡§∂‡§æ‡§Ç‡§§‡§ø!!!,non-hostile
1,2,‡§≠‡§æ‡§∞‡§§‡•Ä‡§Ø ‡§ú‡§®‡§§‡§æ ‡§™‡§æ‡§∞‡•ç‡§ü‡•Ä rss ‡§µ‡§æ‡§≤‡•á ‡§á‡§§‡§®‡•á ‡§ó‡§ø‡§∞‡•á ‡§π‡•Å‡§è ‡§π‡•à‡§Ç ‡§ú‡§π‡§æ‡§Ç ‡§Æ‡•à‡§Ç ‡§∞‡§π‡§§‡•Ä ‡§π‡•Ç‡§Ç ‡§µ‡§π‡§æ‡§Ç ‡§Æ‡•á‡§∞‡•Ä ‡§ú‡§æ‡§∏‡•Ç‡§∏‡•Ä ‡§ï‡§∞‡§æ ‡§∞‡§π‡•á‡§Ç ‡§π‡•à ‡§â‡§∏‡§ï‡•Ä ‡§ú‡§æ‡§∏‡•Ç‡§∏ ‡§ï‡•Ä ‡§™‡§π‡§ö‡§æ‡§® ‡§Æ‡•Å‡§ù‡•á ‡§Ö‡§ö‡•ç‡§õ‡•Ä ‡§§‡§∞‡§π ‡§π‡•à rss ‡§¨‡•Ä‡§ú‡•á‡§™‡•Ä ‡§µ‡§æ‡§≤‡•á ‡§ï‡•Ä ‡§ú‡§æ‡§∏‡•Ç‡§∏ ‡§¶‡§ø‡§≤‡•ç‡§≤‡•Ä ‡§Æ‡•á‡§Ç ‡§ï‡•å‡§® ‡§π‡•à ‡§â‡§§‡•ç‡§§‡§∞ ‡§™‡•ç‡§∞‡§¶‡•á‡§∂ ‡§Æ‡•á‡§Ç ‡§ï‡•å‡§® ‡§π‡•à ‡§π‡§∞‡§ø‡§Ø‡§æ‡§£‡§æ ‡§∞‡§æ‡§ú‡§∏‡•ç‡§•‡§æ‡§® ‡§Æ‡•á‡§Ç ‡§ï‡•å‡§® ‡§π‡•à ‡§∏‡§¨‡§ï‡•Ä ‡§™‡§π‡§ö‡§æ‡§® ‡§π‡•à ‡§Æ‡•Å‡§ù‡•á ‡§Æ‡•á‡§∞‡•Ä ‡§®‡§ú‡§∞ ‡§∏‡•á ‡§¨‡§ö ‡§®‡§π‡•Ä‡§Ç ‡§∏‡§ï‡§§‡•á ‡§π‡•ã,defamation
2,3,"‡§ï‡•ã‡§∞‡•ã‡§®‡§æ ‡§∏‡•á ‡§®‡§ø‡§™‡§ü‡§®‡•á ‡§ï‡•Ä ‡§§‡•à‡§Ø‡§æ‡§∞‡•Ä / ‡§¶‡§ø‡§≤‡•ç‡§≤‡•Ä ‡§Æ‡•á‡§Ç 10 ‡§π‡§ú‡§æ‡§∞ ‡§¨‡•á‡§° ‡§µ‡§æ‡§≤‡§æ ‡§¶‡•Å‡§®‡§ø‡§Ø‡§æ ‡§ï‡§æ ‡§∏‡§¨‡§∏‡•á ‡§¨‡§°‡§º‡§æ ‡§ï‡•ã‡§µ‡§ø‡§° ‡§ï‡•á‡§Ø‡§∞ ‡§∏‡•á‡§Ç‡§ü‡§∞ ‡§∂‡•Å‡§∞‡•Ç, ‡§∞‡§æ‡§ú‡§®‡§æ‡§•-‡§∂‡§æ‡§π ‡§®‡•á ‡§°‡•Ä‡§Ü‡§∞‡§°‡•Ä‡§ì ‡§ï‡•á 1 ‡§π‡§ú‡§æ‡§∞ ‡§¨‡•á‡§° ‡§µ‡§æ‡§≤‡•á ‡§∏‡•á‡§Ç‡§ü‡§∞ ‡§ï‡§æ ‡§≠‡•Ä ‡§â‡§¶‡•ç‡§ò‡§æ‡§ü‡§® ‡§ï‡§ø‡§Ø‡§æ\nhttps://t.co/9rlQowAsFh #Delhi @ArvindKejriwal @rajnathsingh @AmitShah @DRDO_India @WHO @crpfindia @ITBP_official",non-hostile
3,4,‡§ó‡§µ‡§∞‡•ç‡§®‡§∞ ‡§ï‡•â‡§®‡•ç‡§´‡•ç‡§∞‡•á‡§Ç‡§∏ ‡§Æ‡•á‡§Ç PM ‡§Æ‡•ã‡§¶‡•Ä ‡§¨‡•ã‡§≤‡•á- ‡§∂‡§ø‡§ï‡•ç‡§∑‡§æ ‡§®‡•Ä‡§§‡§ø ‡§Æ‡•á‡§Ç ‡§∏‡§∞‡§ï‡§æ‡§∞ ‡§ï‡§æ ‡§¶‡§ñ‡§≤ ‡§ï‡§Æ ‡§π‡•ã‡§®‡§æ ‡§ö‡§æ‡§π‡§ø‡§è\nhttps://t.co/ZvKgxk6dbd,non-hostile
4,5,"‡§Ø‡•Ç‡§™‡•Ä: ‡§ó‡§æ‡§ú‡•Ä‡§™‡•Å‡§∞ ‡§Æ‡•á‡§Ç Toilet ‡§ò‡•ã‡§ü‡§æ‡§≤‡§æ, ‡§™‡•ç‡§∞‡§ß‡§æ‡§® ‡§µ ‡§∏‡§ö‡§ø‡§µ ‡§®‡•á ‡§ï‡§ø‡§Ø‡§æ ‡§≤‡§æ‡§ñ‡•ã‡§Ç ‡§ï‡§æ ‡§ó‡§¨‡§®, ‡§Æ‡•Å‡§∞‡•ç‡§¶‡•ã‡§Ç ‡§ï‡•á ‡§®‡§æ‡§Æ ‡§™‡§∞ ‡§¨‡§®‡§µ‡§æ ‡§°‡§æ‡§≤‡•á ‡§∂‡•å‡§ö‡§æ‡§≤‡§Ø\n\n#UP\nhttps://t.co/hxM1uNNmX2",non-hostile


In [None]:
# data check
def about_the_data(dataset):
  """
  input  : dataset 
  prints : first 5 rows of dataset , shape of dataset , information about output class label of dataset
  """
  print(dataset.head())
  print("--------------------------------------------------------------------------------------------")
  print("Shape of dataset : \n")
  print(dataset.shape)
  print("--------------------------------------------------------------------------------------------")
  print(dataset['Labels Set'].unique())
  print("--------------------------------------------------------------------------------------------")
  print(dataset['Labels Set'].value_counts())

In [None]:
# details about train data 
print("TRAIN DATASET : ")
print("----------------------------------------------------------------------------------------------")
about_the_data(train_df)

TRAIN DATASET : 
----------------------------------------------------------------------------------------------
   Unique ID  \
0  1           
1  2           
2  3           
3  4           
4  5           

                                                                                                                                                                                                                                                                                                                    Post  \
0  ‡§Æ‡•á‡§∞‡•á ‡§¶‡•á‡§∂ ‡§ï‡•á ‡§π‡§ø‡§®‡•ç‡§¶‡•Å ‡§¨‡§π‡•Å‡§§ ‡§®‡§ø‡§∞‡§æ‡§≤‡•á ‡§π‡•à‡•§ ‡§ï‡•Å‡§õ ‡§§‡•ã ‡§™‡§ï‡•ç‡§ï‡•á ‡§∞‡§æ‡§Æ ‡§≠‡§ï‡•ç‡§§ ‡§π‡•à ‡§î‡§∞ ‡§ï‡•Å‡§õ ‡§¨‡§æ‡§¨‡§∞ ‡§ï‡•á ‡§∏‡§æ‡§≤‡•á ‡§π‡•à \n\nüôè ‡§ú‡§Ø ‡§∂‡•ç‡§∞‡•Ä ‡§∞‡§æ‡§Æ üôè                                                                                                                                                                                                                  
1  ‡§∏‡

In [None]:
# details about validate data 
print("VALIDATION DATASET : ")
print("----------------------------------------------------------------------------------------------")
about_the_data(validate_df)

VALIDATION DATASET : 
----------------------------------------------------------------------------------------------
   Unique ID  \
0  1           
1  2           
2  3           
3  4           
4  5           

                                                                                                                                                                                                                                                                                        Post  \
0  ‡§¶‡•É‡§¢‡§º ‡§á‡§ö‡•ç‡§õ‡§æ ‡§∂‡§ï‡•ç‡§§‡§ø ‡§∏‡•á ‡§™‡§∞‡§ø‡§™‡•Ç‡§∞‡•ç‡§£ ‡§™‡•ç‡§∞‡§£‡§¨‡§¶‡§æ ‡§ï‡•á ‡§≤‡§ø‡§è ‡§¶‡•á‡§∂‡§π‡§ø‡§§ ‡§∏‡§∞‡•ç‡§µ‡•ã‡§ö‡•ç‡§ö ‡§∞‡§π‡§æ‡•§\n\n‡§â‡§®‡§ï‡§æ ‡§®‡§ø‡§ß‡§® ‡§π‡§Æ ‡§∏‡§¨ ‡§ï‡•á ‡§≤‡§ø‡§è ‡§Ö‡§™‡•Ç‡§∞‡§£‡•Ä‡§Ø ‡§ï‡•ç‡§∑‡§§‡§ø ‡§π‡•à‡•§\n‡§à‡§∂‡•ç‡§µ‡§∞ ‡§¶‡§ø‡§µ‡§Ç‡§ó‡§§ ‡§Ü‡§§‡•ç‡§Æ‡§æ ‡§ï‡•ã ‡§Ö‡§™‡§®‡•á ‡§∂‡•ç‡§∞‡•Ä‡§ö‡§∞‡§£‡•ã‡§Ç ‡§Æ‡•á‡§Ç ‡§∏‡•ç‡§•‡§æ‡§® ‡§¶‡•á‡§Ç‡•§ ‡§∂‡•ã‡§ï ‡§∏‡§Ç‡§§‡§™‡•ç‡§§ ‡§™‡§∞‡§ø‡§ú‡§®‡•ã‡§Ç ‡§ï‡•á ‡§™‡•ç‡§∞‡§§‡§ø ‡

# **DATA PRE-PROCESSING:**

### **Remove Punctuations and Special Characters:**

In [None]:
# this function removes punctuations and special characters in the dataset
def PunctuationsAndSpecialSymbolsRemover(data):
  """
  input   : post data from train or validation or test data (list)
  returns : cleaned post with punctuations and special symbols removed 
  """
  non_needed_symbols = '''!()-‚Ä¶[]{};‚Çπ:‚Äú‡•§|‚Äù'"\,<>./?@#$%^&*+_~'''
  cleaned_list=[]
  for line in data:
    cleaned_text=""
    for x in line:
      if x in non_needed_symbols:
        cleaned_text=cleaned_text+" "
      elif x not in non_needed_symbols:
        cleaned_text=cleaned_text+x
    cleaned_list.append(cleaned_text)
  return cleaned_list

### **Remove New Lines:** 

In [None]:
# remove new lines notation "\n"
def remove_newlines(data):
  """
  input   : post data from train or validation or test data (list)
  returns : cleaned data with newlines ('\n') symbols removed 
  """
  modified_data=[]
  for line in data:
    new_line=re.compile("["u"\u000A" #newlines
                           "]+", flags=re.UNICODE)
    cleaned_text=new_line.sub(r'', line)
    modified_data.append(cleaned_text)
  return modified_data

### **Remove HyperLinks:** 

In [None]:
# this function removes entire hyperlink 
def HyperLinkRemover(data):
  """
  input   : post data from train or validation or test data (list)
  returns : cleaned data with hyperlinks in the posts removed
  """
  non_hyperlink_text=[]
  for line in data:
    cleaned_text=re.sub(r"http\S+", "", line)
    non_hyperlink_text.append(cleaned_text)
  return non_hyperlink_text

### **Remove the Emojis:**

In [None]:
# remove the emojis from the post 
def emojiRemover(data):
  """
  input   : post data from train or validation or test data (list)
  returns : cleaned data with all the emojis used in the post gets removed
  """
  emoji_less_data=[]
  for line in data:
    emoji_pattern=re.compile("["
                           u"\U0001F601-\U0001F64F"  # emoticons
                           u"\U0001F300-\U0001F5FF"  # symbols & pictographs
                           u"\U0001F680-\U0001F6C0"  # transport & map symbols
                           u"\U0001F1E0-\U0001F1FF"  # flags (iOS)
                           u"\U00002702-\U000027B0"  # Dingbats
                           u"\U000024C2-\U0001F251"  # Enclosed characters
                           u"\U0001F600-\U0001F636"  # Additional emoticons
                           u"\U0001F681-\U0001F6C5"  # Additional transport & map symbols
                           u"\U0001F30D-\U0001F567"  # Additional
                            u"\U0001f926-\U0001f937"
                            u"\u000A" #newlines
                               u"\U00010000-\U0010ffff"
                               u"\u2640-\u2642"
                               u"\u2600-\u2B55"
                               u"\u200d"
                               u"\u23cf"
                               u"\u23e9"
                               u"\u231a"
                               u"\ufe0f"  # dingbats
                               u"\u3030"
                               u"\u2022" # bullets 
                           "]+", flags=re.UNICODE)
    cleaned_text=emoji_pattern.sub(r'', line)
    #cleaned_text=uncategorized_emojis(cleaned_text)
    emoji_less_data.append(cleaned_text)
  return emoji_less_data

### **Remove Stopwords :**

[STOP WORDS IN HINDI](https://data.mendeley.com/datasets/bsr3frvvjc/1)

In [None]:
hindi_stop_words = []
with open('final_stopwords.txt','r') as file: 
  for word in file: 
    # reading each word         
    for w in word.split(): 
      hindi_stop_words.append(w)
print("Number of Hindi Stopwords : ",len(hindi_stop_words))

Number of Hindi Stopwords :  291


In [None]:
def remove_stopwords(data):
  """
  input   : post data from train or validation or test data (list)
  returns : cleaned data with all the stopwords removed 
  """
  stop_words_removed_data=[]
  for line in data:
    cleaned_data=""
    for word in line.split(" "):
      if word not in hindi_stop_words:
        cleaned_data=cleaned_data+word+" "
    stop_words_removed_data.append(cleaned_data)
  return stop_words_removed_data

### **Create Datasets:**

##### **Cleaned Datasets:**

In [None]:
# function to do data-preprocessing 
def pre_processesing(data):
  """
  input   : post data from train or validation or test data (list)
  returns : cleaned data with all pre-processesing steps performed 
  """
  data=HyperLinkRemover(data)
  data=PunctuationsAndSpecialSymbolsRemover(data)
  data=emojiRemover(data)
  data=remove_newlines(data)
  #data=remove_stopwords(data)
  return data

# function to return the cleaned data 
def cleaned_xlsx(dataset,function=pre_processesing):
  """
  input   : dataset 
  function: default - pre_processesing function
                can be changed to either emoji remover,new liner remover ,hyperlink remover etc.
  returns : dataset with post content cleaned 
  """
  cleaned_df_hindi=pd.DataFrame()
  cleaned_df_hindi['Unique ID']=dataset['Unique ID']
  data=dataset['Post']
  cleaned_df_hindi['Post']=function(data)
  cleaned_df_hindi['Labels Set']=dataset['Labels Set']
  return cleaned_df_hindi

In [None]:
"""
train_emoji=cleaned_xlsx(train_df,emojiRemover)
train_punctuations=cleaned_xlsx(train_df,PunctuationsAndSpecialSymbolsRemover)
train_hyperlinks=cleaned_xlsx(train_df,HyperLinkRemover)
train_newlines=cleaned_xlsx(train_df,remove_newlines)
validate_emoji=cleaned_xlsx(validate_df,emojiRemover)
validate_punctuations=cleaned_xlsx(validate_df,PunctuationsAndSpecialSymbolsRemover)
validate_hyperlinks=cleaned_xlsx(validate_df,HyperLinkRemover)
validate_newlines=cleaned_xlsx(validate_df,remove_newlines)
"""

'\ntrain_emoji=cleaned_xlsx(train_df,emojiRemover)\ntrain_punctuations=cleaned_xlsx(train_df,PunctuationsAndSpecialSymbolsRemover)\ntrain_hyperlinks=cleaned_xlsx(train_df,HyperLinkRemover)\ntrain_newlines=cleaned_xlsx(train_df,remove_newlines)\nvalidate_emoji=cleaned_xlsx(validate_df,emojiRemover)\nvalidate_punctuations=cleaned_xlsx(validate_df,PunctuationsAndSpecialSymbolsRemover)\nvalidate_hyperlinks=cleaned_xlsx(validate_df,HyperLinkRemover)\nvalidate_newlines=cleaned_xlsx(validate_df,remove_newlines)\n'

In [None]:
# cleaned train dataset 
cleaned_train_df=cleaned_xlsx(train_df)

# cleaned validate dataset
cleaned_validate_df=cleaned_xlsx(validate_df)

In [None]:
x=cleaned_train_df.head()
x

Unnamed: 0,Unique ID,Post,Labels Set
0,1,‡§Æ‡•á‡§∞‡•á ‡§¶‡•á‡§∂ ‡§ï‡•á ‡§π‡§ø‡§®‡•ç‡§¶‡•Å ‡§¨‡§π‡•Å‡§§ ‡§®‡§ø‡§∞‡§æ‡§≤‡•á ‡§π‡•à ‡§ï‡•Å‡§õ ‡§§‡•ã ‡§™‡§ï‡•ç‡§ï‡•á ‡§∞‡§æ‡§Æ ‡§≠‡§ï‡•ç‡§§ ‡§π‡•à ‡§î‡§∞ ‡§ï‡•Å‡§õ ‡§¨‡§æ‡§¨‡§∞ ‡§ï‡•á ‡§∏‡§æ‡§≤‡•á ‡§π‡•à ‡§ú‡§Ø ‡§∂‡•ç‡§∞‡•Ä ‡§∞‡§æ‡§Æ,"hate,offensive"
1,2,‡§∏‡§∞‡§ï‡§æ‡§∞ ‡§π‡§Æ‡•á‡§∂‡§æ ‡§∏‡•á ‡§ï‡§ø‡§∏‡§æ‡§®‡•ã‡§Ç ‡§ï‡•Ä ‡§ï‡§Æ‡§æ‡§à ‡§ï‡•ã ‡§¨‡§¢‡§º‡§æ‡§®‡•á ‡§ï‡•á ‡§≤‡§ø‡§è ‡§®‡§à ‡§®‡§à ‡§∏‡•ç‡§ï‡•Ä‡§Æ‡•á‡§Ç ‡§≤‡§æ‡§§‡•Ä ‡§∞‡§π‡§§‡•Ä ‡§π‡•à ‡§§‡§æ‡§ï‡§ø ‡§â‡§® ‡§™‡§∞ ‡§ú‡•ç‡§Ø‡§æ‡§¶‡§æ ‡§Ü‡§∞‡•ç‡§•‡§ø‡§ï ‡§¨‡•ã‡§ù ‡§® ‡§™‡§°‡§º‡•á,non-hostile
2,3,‡§∏‡•Å‡§∂‡§æ‡§Ç‡§§ ‡§®‡•á ‡§ú‡•ã ‡§¨‡§ø‡§ú‡§®‡•á‡§∏ ‡§°‡•Ä‡§≤ 9 ‡§ú‡•Ç‡§® ‡§ï‡•ã ‡§ï‡•Ä ‡§•‡•Ä ‡§µ‡•ã ‡§°‡•Ä‡§≤ ‡§¶‡•Ä‡§™‡•á‡§∂ ‡§ï‡•ã ‡§∏‡•Å‡§∂‡§æ‡§Ç‡§§ ‡§ï‡•Ä ‡§π‡§§‡•ç‡§Ø‡§æ ‡§ï‡•á ‡§¶‡§ø‡§® ‡§π‡•Ä ‡§ï‡•ç‡§Ø‡•ã‡§Ç ‡§Ø‡§æ‡§¶ ‡§Ü‡§à ‡§¶‡•á‡§ñ‡§ø‡§è ‡§™‡•Ç‡§õ‡§§‡§æ ‡§π‡•à ‡§≠‡§æ‡§∞‡§§ ‡§Ö‡§∞‡•ç‡§®‡§¨ ‡§ï‡•á ‡§∏‡§æ‡§• ‡§∞‡§ø‡§™‡§¨‡•ç‡§≤‡§ø‡§ï ‡§≠‡§æ‡§∞‡§§ ‡§™‡§∞ LIVE,non-hostile
3,4,prabhav218 ‡§∏‡§æ‡§≤‡•á ‡§ú‡•á‡§è‡§®‡§Ø‡•Ç ‡§õ‡§æ‡§™ ‡§ï‡§Æ‡§ø‡§®‡•á ‡§≤‡•ã‡§ó ‡§π‡§ø‡§®‡•ç‡§¶‡•Å‡§ì‡§Ç ‡§ï‡•ã ‡§Ø‡§π ‡§ï‡§π‡§§‡•á ‡§π‡•à ‡§ï‡•Ä ‡§∏‡§Ç‡§µ‡§ø‡§ß‡§æ‡§® ‡§∏‡§¨‡§ï‡•ã ‡§¨‡§∞‡§æ‡§¨‡§∞ ‡§Ö‡§ß‡§ø‡§ï‡§æ‡§∞ ‡§¶‡•á‡§§‡§æ ‡§π‡•à ‡§∏‡§ö‡•ç‡§ö‡§æ‡§à ‡§Ø‡§π ‡§π‡•à ‡§ï‡§ø ‡§Ø‡§π ‡§¨‡§∞‡§æ‡§¨‡§∞ ‡§Ö‡§ß‡§ø‡§ï‡§æ‡§∞ ‡§®‡§π‡•Ä‡§Ç ‡§¶‡•á‡§§‡§æ ‡§π‡•à,"defamation,offensive"
4,5,unlock4guidelines ‡§Ö‡§®‡§≤‡•â‡§ï 4 ‡§ï‡•á ‡§≤‡§ø‡§è ‡§ó‡§æ‡§á‡§°‡§≤‡§æ‡§á‡§®‡•ç‡§∏ ‡§ú‡§æ‡§∞‡•Ä 7 ‡§∏‡§ø‡§§‡§Ç‡§¨‡§∞ ‡§∏‡•á ‡§¶‡•á‡§∂‡§≠‡§∞ ‡§Æ‡•á‡§Ç ‡§Æ‡•á‡§ü‡•ç‡§∞‡•ã ‡§∏‡•á‡§µ‡§æ ‡§∂‡•Å‡§∞‡•Å ‡§π‡•ã‡§ó‡•Ä 21 ‡§∏‡§ø‡§§‡§Ç‡§¨‡§∞ ‡§ï‡•á ‡§¨‡§æ‡§¶ ‡§∞‡•à‡§≤‡§ø‡§Ø‡•ã‡§Ç ‡§î‡§∞ ‡§¨‡§æ‡§ï‡•Ä ‡§´‡§Ç‡§ï‡•ç‡§∂‡§® ‡§Æ‡•á‡§Ç 100 ‡§≤‡•ã‡§ó‡•ã‡§Ç ‡§ï‡•ã ‡§á‡§ú‡§æ‡§ú‡§§ ‡§ï‡§Ç‡§ü‡•á‡§®‡§Æ‡•á‡§Ç‡§ü ‡§ú‡•ã‡§® ‡§Æ‡•á‡§Ç ‡§ï‡•ã‡§à ‡§õ‡•Ç‡§ü ‡§®‡§π‡•Ä‡§Ç ‡§∏‡§ø‡§®‡•á‡§Æ‡§æ‡§π‡•â‡§≤ ‡§Ö‡§≠‡•Ä ‡§¨‡§Ç‡§¶ ‡§∞‡§π‡•á‡§Ç‡§ó‡•á 9 ‡§∏‡•á 12‡§µ‡•Ä‡§Ç ‡§ï‡•á ‡§õ‡§æ‡§§‡•ç‡§∞ 21 ‡§∏‡§ø‡§§‡§Ç‡§¨‡§∞ ‡§ï‡•á ‡§¨‡§æ‡§¶ ‡§∏‡•ç‡§ï‡•Ç‡§≤ ‡§ú‡§æ ‡§∏‡§ï‡•á‡§Ç‡§ó‡•á,non-hostile


In [None]:
cleaned_train_df.head()

Unnamed: 0,Unique ID,Post,Labels Set
0,1,‡§Æ‡•á‡§∞‡•á ‡§¶‡•á‡§∂ ‡§ï‡•á ‡§π‡§ø‡§®‡•ç‡§¶‡•Å ‡§¨‡§π‡•Å‡§§ ‡§®‡§ø‡§∞‡§æ‡§≤‡•á ‡§π‡•à ‡§ï‡•Å‡§õ ‡§§‡•ã ‡§™‡§ï‡•ç‡§ï‡•á ‡§∞‡§æ‡§Æ ‡§≠‡§ï‡•ç‡§§ ‡§π‡•à ‡§î‡§∞ ‡§ï‡•Å‡§õ ‡§¨‡§æ‡§¨‡§∞ ‡§ï‡•á ‡§∏‡§æ‡§≤‡•á ‡§π‡•à ‡§ú‡§Ø ‡§∂‡•ç‡§∞‡•Ä ‡§∞‡§æ‡§Æ,"hate,offensive"
1,2,‡§∏‡§∞‡§ï‡§æ‡§∞ ‡§π‡§Æ‡•á‡§∂‡§æ ‡§∏‡•á ‡§ï‡§ø‡§∏‡§æ‡§®‡•ã‡§Ç ‡§ï‡•Ä ‡§ï‡§Æ‡§æ‡§à ‡§ï‡•ã ‡§¨‡§¢‡§º‡§æ‡§®‡•á ‡§ï‡•á ‡§≤‡§ø‡§è ‡§®‡§à ‡§®‡§à ‡§∏‡•ç‡§ï‡•Ä‡§Æ‡•á‡§Ç ‡§≤‡§æ‡§§‡•Ä ‡§∞‡§π‡§§‡•Ä ‡§π‡•à ‡§§‡§æ‡§ï‡§ø ‡§â‡§® ‡§™‡§∞ ‡§ú‡•ç‡§Ø‡§æ‡§¶‡§æ ‡§Ü‡§∞‡•ç‡§•‡§ø‡§ï ‡§¨‡•ã‡§ù ‡§® ‡§™‡§°‡§º‡•á,non-hostile
2,3,‡§∏‡•Å‡§∂‡§æ‡§Ç‡§§ ‡§®‡•á ‡§ú‡•ã ‡§¨‡§ø‡§ú‡§®‡•á‡§∏ ‡§°‡•Ä‡§≤ 9 ‡§ú‡•Ç‡§® ‡§ï‡•ã ‡§ï‡•Ä ‡§•‡•Ä ‡§µ‡•ã ‡§°‡•Ä‡§≤ ‡§¶‡•Ä‡§™‡•á‡§∂ ‡§ï‡•ã ‡§∏‡•Å‡§∂‡§æ‡§Ç‡§§ ‡§ï‡•Ä ‡§π‡§§‡•ç‡§Ø‡§æ ‡§ï‡•á ‡§¶‡§ø‡§® ‡§π‡•Ä ‡§ï‡•ç‡§Ø‡•ã‡§Ç ‡§Ø‡§æ‡§¶ ‡§Ü‡§à ‡§¶‡•á‡§ñ‡§ø‡§è ‡§™‡•Ç‡§õ‡§§‡§æ ‡§π‡•à ‡§≠‡§æ‡§∞‡§§ ‡§Ö‡§∞‡•ç‡§®‡§¨ ‡§ï‡•á ‡§∏‡§æ‡§• ‡§∞‡§ø‡§™‡§¨‡•ç‡§≤‡§ø‡§ï ‡§≠‡§æ‡§∞‡§§ ‡§™‡§∞ LIVE,non-hostile
3,4,prabhav218 ‡§∏‡§æ‡§≤‡•á ‡§ú‡•á‡§è‡§®‡§Ø‡•Ç ‡§õ‡§æ‡§™ ‡§ï‡§Æ‡§ø‡§®‡•á ‡§≤‡•ã‡§ó ‡§π‡§ø‡§®‡•ç‡§¶‡•Å‡§ì‡§Ç ‡§ï‡•ã ‡§Ø‡§π ‡§ï‡§π‡§§‡•á ‡§π‡•à ‡§ï‡•Ä ‡§∏‡§Ç‡§µ‡§ø‡§ß‡§æ‡§® ‡§∏‡§¨‡§ï‡•ã ‡§¨‡§∞‡§æ‡§¨‡§∞ ‡§Ö‡§ß‡§ø‡§ï‡§æ‡§∞ ‡§¶‡•á‡§§‡§æ ‡§π‡•à ‡§∏‡§ö‡•ç‡§ö‡§æ‡§à ‡§Ø‡§π ‡§π‡•à ‡§ï‡§ø ‡§Ø‡§π ‡§¨‡§∞‡§æ‡§¨‡§∞ ‡§Ö‡§ß‡§ø‡§ï‡§æ‡§∞ ‡§®‡§π‡•Ä‡§Ç ‡§¶‡•á‡§§‡§æ ‡§π‡•à,"defamation,offensive"
4,5,unlock4guidelines ‡§Ö‡§®‡§≤‡•â‡§ï 4 ‡§ï‡•á ‡§≤‡§ø‡§è ‡§ó‡§æ‡§á‡§°‡§≤‡§æ‡§á‡§®‡•ç‡§∏ ‡§ú‡§æ‡§∞‡•Ä 7 ‡§∏‡§ø‡§§‡§Ç‡§¨‡§∞ ‡§∏‡•á ‡§¶‡•á‡§∂‡§≠‡§∞ ‡§Æ‡•á‡§Ç ‡§Æ‡•á‡§ü‡•ç‡§∞‡•ã ‡§∏‡•á‡§µ‡§æ ‡§∂‡•Å‡§∞‡•Å ‡§π‡•ã‡§ó‡•Ä 21 ‡§∏‡§ø‡§§‡§Ç‡§¨‡§∞ ‡§ï‡•á ‡§¨‡§æ‡§¶ ‡§∞‡•à‡§≤‡§ø‡§Ø‡•ã‡§Ç ‡§î‡§∞ ‡§¨‡§æ‡§ï‡•Ä ‡§´‡§Ç‡§ï‡•ç‡§∂‡§® ‡§Æ‡•á‡§Ç 100 ‡§≤‡•ã‡§ó‡•ã‡§Ç ‡§ï‡•ã ‡§á‡§ú‡§æ‡§ú‡§§ ‡§ï‡§Ç‡§ü‡•á‡§®‡§Æ‡•á‡§Ç‡§ü ‡§ú‡•ã‡§® ‡§Æ‡•á‡§Ç ‡§ï‡•ã‡§à ‡§õ‡•Ç‡§ü ‡§®‡§π‡•Ä‡§Ç ‡§∏‡§ø‡§®‡•á‡§Æ‡§æ‡§π‡•â‡§≤ ‡§Ö‡§≠‡•Ä ‡§¨‡§Ç‡§¶ ‡§∞‡§π‡•á‡§Ç‡§ó‡•á 9 ‡§∏‡•á 12‡§µ‡•Ä‡§Ç ‡§ï‡•á ‡§õ‡§æ‡§§‡•ç‡§∞ 21 ‡§∏‡§ø‡§§‡§Ç‡§¨‡§∞ ‡§ï‡•á ‡§¨‡§æ‡§¶ ‡§∏‡•ç‡§ï‡•Ç‡§≤ ‡§ú‡§æ ‡§∏‡§ï‡•á‡§Ç‡§ó‡•á,non-hostile


In [None]:
cleaned_validate_df.head()

Unnamed: 0,Unique ID,Post,Labels Set
0,1,‡§¶‡•É‡§¢‡§º ‡§á‡§ö‡•ç‡§õ‡§æ ‡§∂‡§ï‡•ç‡§§‡§ø ‡§∏‡•á ‡§™‡§∞‡§ø‡§™‡•Ç‡§∞‡•ç‡§£ ‡§™‡•ç‡§∞‡§£‡§¨‡§¶‡§æ ‡§ï‡•á ‡§≤‡§ø‡§è ‡§¶‡•á‡§∂‡§π‡§ø‡§§ ‡§∏‡§∞‡•ç‡§µ‡•ã‡§ö‡•ç‡§ö ‡§∞‡§π‡§æ ‡§â‡§®‡§ï‡§æ ‡§®‡§ø‡§ß‡§® ‡§π‡§Æ ‡§∏‡§¨ ‡§ï‡•á ‡§≤‡§ø‡§è ‡§Ö‡§™‡•Ç‡§∞‡§£‡•Ä‡§Ø ‡§ï‡•ç‡§∑‡§§‡§ø ‡§π‡•à ‡§à‡§∂‡•ç‡§µ‡§∞ ‡§¶‡§ø‡§µ‡§Ç‡§ó‡§§ ‡§Ü‡§§‡•ç‡§Æ‡§æ ‡§ï‡•ã ‡§Ö‡§™‡§®‡•á ‡§∂‡•ç‡§∞‡•Ä‡§ö‡§∞‡§£‡•ã‡§Ç ‡§Æ‡•á‡§Ç ‡§∏‡•ç‡§•‡§æ‡§® ‡§¶‡•á‡§Ç ‡§∂‡•ã‡§ï ‡§∏‡§Ç‡§§‡§™‡•ç‡§§ ‡§™‡§∞‡§ø‡§ú‡§®‡•ã‡§Ç ‡§ï‡•á ‡§™‡•ç‡§∞‡§§‡§ø ‡§∏‡§Ç‡§µ‡•á‡§¶‡§®‡§æ‡§è‡§Ç ‡§ä‡§Ç ‡§∂‡§æ‡§Ç‡§§‡§ø,non-hostile
1,2,‡§≠‡§æ‡§∞‡§§‡•Ä‡§Ø ‡§ú‡§®‡§§‡§æ ‡§™‡§æ‡§∞‡•ç‡§ü‡•Ä rss ‡§µ‡§æ‡§≤‡•á ‡§á‡§§‡§®‡•á ‡§ó‡§ø‡§∞‡•á ‡§π‡•Å‡§è ‡§π‡•à‡§Ç ‡§ú‡§π‡§æ‡§Ç ‡§Æ‡•à‡§Ç ‡§∞‡§π‡§§‡•Ä ‡§π‡•Ç‡§Ç ‡§µ‡§π‡§æ‡§Ç ‡§Æ‡•á‡§∞‡•Ä ‡§ú‡§æ‡§∏‡•Ç‡§∏‡•Ä ‡§ï‡§∞‡§æ ‡§∞‡§π‡•á‡§Ç ‡§π‡•à ‡§â‡§∏‡§ï‡•Ä ‡§ú‡§æ‡§∏‡•Ç‡§∏ ‡§ï‡•Ä ‡§™‡§π‡§ö‡§æ‡§® ‡§Æ‡•Å‡§ù‡•á ‡§Ö‡§ö‡•ç‡§õ‡•Ä ‡§§‡§∞‡§π ‡§π‡•à rss ‡§¨‡•Ä‡§ú‡•á‡§™‡•Ä ‡§µ‡§æ‡§≤‡•á ‡§ï‡•Ä ‡§ú‡§æ‡§∏‡•Ç‡§∏ ‡§¶‡§ø‡§≤‡•ç‡§≤‡•Ä ‡§Æ‡•á‡§Ç ‡§ï‡•å‡§® ‡§π‡•à ‡§â‡§§‡•ç‡§§‡§∞ ‡§™‡•ç‡§∞‡§¶‡•á‡§∂ ‡§Æ‡•á‡§Ç ‡§ï‡•å‡§® ‡§π‡•à ‡§π‡§∞‡§ø‡§Ø‡§æ‡§£‡§æ ‡§∞‡§æ‡§ú‡§∏‡•ç‡§•‡§æ‡§® ‡§Æ‡•á‡§Ç ‡§ï‡•å‡§® ‡§π‡•à ‡§∏‡§¨‡§ï‡•Ä ‡§™‡§π‡§ö‡§æ‡§® ‡§π‡•à ‡§Æ‡•Å‡§ù‡•á ‡§Æ‡•á‡§∞‡•Ä ‡§®‡§ú‡§∞ ‡§∏‡•á ‡§¨‡§ö ‡§®‡§π‡•Ä‡§Ç ‡§∏‡§ï‡§§‡•á ‡§π‡•ã,defamation
2,3,‡§ï‡•ã‡§∞‡•ã‡§®‡§æ ‡§∏‡•á ‡§®‡§ø‡§™‡§ü‡§®‡•á ‡§ï‡•Ä ‡§§‡•à‡§Ø‡§æ‡§∞‡•Ä ‡§¶‡§ø‡§≤‡•ç‡§≤‡•Ä ‡§Æ‡•á‡§Ç 10 ‡§π‡§ú‡§æ‡§∞ ‡§¨‡•á‡§° ‡§µ‡§æ‡§≤‡§æ ‡§¶‡•Å‡§®‡§ø‡§Ø‡§æ ‡§ï‡§æ ‡§∏‡§¨‡§∏‡•á ‡§¨‡§°‡§º‡§æ ‡§ï‡•ã‡§µ‡§ø‡§° ‡§ï‡•á‡§Ø‡§∞ ‡§∏‡•á‡§Ç‡§ü‡§∞ ‡§∂‡•Å‡§∞‡•Ç ‡§∞‡§æ‡§ú‡§®‡§æ‡§• ‡§∂‡§æ‡§π ‡§®‡•á ‡§°‡•Ä‡§Ü‡§∞‡§°‡•Ä‡§ì ‡§ï‡•á 1 ‡§π‡§ú‡§æ‡§∞ ‡§¨‡•á‡§° ‡§µ‡§æ‡§≤‡•á ‡§∏‡•á‡§Ç‡§ü‡§∞ ‡§ï‡§æ ‡§≠‡•Ä ‡§â‡§¶‡•ç‡§ò‡§æ‡§ü‡§® ‡§ï‡§ø‡§Ø‡§æ Delhi ArvindKejriwal rajnathsingh AmitShah DRDO India WHO crpfindia ITBP official,non-hostile
3,4,‡§ó‡§µ‡§∞‡•ç‡§®‡§∞ ‡§ï‡•â‡§®‡•ç‡§´‡•ç‡§∞‡•á‡§Ç‡§∏ ‡§Æ‡•á‡§Ç PM ‡§Æ‡•ã‡§¶‡•Ä ‡§¨‡•ã‡§≤‡•á ‡§∂‡§ø‡§ï‡•ç‡§∑‡§æ ‡§®‡•Ä‡§§‡§ø ‡§Æ‡•á‡§Ç ‡§∏‡§∞‡§ï‡§æ‡§∞ ‡§ï‡§æ ‡§¶‡§ñ‡§≤ ‡§ï‡§Æ ‡§π‡•ã‡§®‡§æ ‡§ö‡§æ‡§π‡§ø‡§è,non-hostile
4,5,‡§Ø‡•Ç‡§™‡•Ä ‡§ó‡§æ‡§ú‡•Ä‡§™‡•Å‡§∞ ‡§Æ‡•á‡§Ç Toilet ‡§ò‡•ã‡§ü‡§æ‡§≤‡§æ ‡§™‡•ç‡§∞‡§ß‡§æ‡§® ‡§µ ‡§∏‡§ö‡§ø‡§µ ‡§®‡•á ‡§ï‡§ø‡§Ø‡§æ ‡§≤‡§æ‡§ñ‡•ã‡§Ç ‡§ï‡§æ ‡§ó‡§¨‡§® ‡§Æ‡•Å‡§∞‡•ç‡§¶‡•ã‡§Ç ‡§ï‡•á ‡§®‡§æ‡§Æ ‡§™‡§∞ ‡§¨‡§®‡§µ‡§æ ‡§°‡§æ‡§≤‡•á ‡§∂‡•å‡§ö‡§æ‡§≤‡§Ø UP,non-hostile


##### **Creating the Dataset for Binary Classification:** 

In [None]:
# binary classification labels either hostile or non - hostile
def binary_labels(data):
  """
  input   :output label set (list) 
  returns :list of output labels which has non-hostile if given input is non-hostile else hostile 
  """
  labels=['non-hostile']
  modified_labels=[]
  for x in data:
    if x not in labels:
      modified_labels.append("hostile")
    else:
      modified_labels.append("non-hostile")
  return modified_labels

# binary classification dataset is created using this function 
def make_binary_class_dataset(dataset):
  """
  input   : dataset 
  returns : dataset with output labels changed to either hostile or non-hostile for binary classification 
  """
  binary_df_hindi=pd.DataFrame()
  binary_df_hindi['Unique ID']=dataset['Unique ID']
  binary_df_hindi['Post']=dataset['Post']
  data=dataset['Labels Set']
  binary_df_hindi['Labels Set']=binary_labels(data)
  return binary_df_hindi

In [None]:
# binary classification train data 
binary_train_df=make_binary_class_dataset(cleaned_train_df)
binary_train_df.head()

Unnamed: 0,Unique ID,Post,Labels Set
0,1,‡§Æ‡•á‡§∞‡•á ‡§¶‡•á‡§∂ ‡§ï‡•á ‡§π‡§ø‡§®‡•ç‡§¶‡•Å ‡§¨‡§π‡•Å‡§§ ‡§®‡§ø‡§∞‡§æ‡§≤‡•á ‡§π‡•à ‡§ï‡•Å‡§õ ‡§§‡•ã ‡§™‡§ï‡•ç‡§ï‡•á ‡§∞‡§æ‡§Æ ‡§≠‡§ï‡•ç‡§§ ‡§π‡•à ‡§î‡§∞ ‡§ï‡•Å‡§õ ‡§¨‡§æ‡§¨‡§∞ ‡§ï‡•á ‡§∏‡§æ‡§≤‡•á ‡§π‡•à ‡§ú‡§Ø ‡§∂‡•ç‡§∞‡•Ä ‡§∞‡§æ‡§Æ,hostile
1,2,‡§∏‡§∞‡§ï‡§æ‡§∞ ‡§π‡§Æ‡•á‡§∂‡§æ ‡§∏‡•á ‡§ï‡§ø‡§∏‡§æ‡§®‡•ã‡§Ç ‡§ï‡•Ä ‡§ï‡§Æ‡§æ‡§à ‡§ï‡•ã ‡§¨‡§¢‡§º‡§æ‡§®‡•á ‡§ï‡•á ‡§≤‡§ø‡§è ‡§®‡§à ‡§®‡§à ‡§∏‡•ç‡§ï‡•Ä‡§Æ‡•á‡§Ç ‡§≤‡§æ‡§§‡•Ä ‡§∞‡§π‡§§‡•Ä ‡§π‡•à ‡§§‡§æ‡§ï‡§ø ‡§â‡§® ‡§™‡§∞ ‡§ú‡•ç‡§Ø‡§æ‡§¶‡§æ ‡§Ü‡§∞‡•ç‡§•‡§ø‡§ï ‡§¨‡•ã‡§ù ‡§® ‡§™‡§°‡§º‡•á,non-hostile
2,3,‡§∏‡•Å‡§∂‡§æ‡§Ç‡§§ ‡§®‡•á ‡§ú‡•ã ‡§¨‡§ø‡§ú‡§®‡•á‡§∏ ‡§°‡•Ä‡§≤ 9 ‡§ú‡•Ç‡§® ‡§ï‡•ã ‡§ï‡•Ä ‡§•‡•Ä ‡§µ‡•ã ‡§°‡•Ä‡§≤ ‡§¶‡•Ä‡§™‡•á‡§∂ ‡§ï‡•ã ‡§∏‡•Å‡§∂‡§æ‡§Ç‡§§ ‡§ï‡•Ä ‡§π‡§§‡•ç‡§Ø‡§æ ‡§ï‡•á ‡§¶‡§ø‡§® ‡§π‡•Ä ‡§ï‡•ç‡§Ø‡•ã‡§Ç ‡§Ø‡§æ‡§¶ ‡§Ü‡§à ‡§¶‡•á‡§ñ‡§ø‡§è ‡§™‡•Ç‡§õ‡§§‡§æ ‡§π‡•à ‡§≠‡§æ‡§∞‡§§ ‡§Ö‡§∞‡•ç‡§®‡§¨ ‡§ï‡•á ‡§∏‡§æ‡§• ‡§∞‡§ø‡§™‡§¨‡•ç‡§≤‡§ø‡§ï ‡§≠‡§æ‡§∞‡§§ ‡§™‡§∞ LIVE,non-hostile
3,4,prabhav218 ‡§∏‡§æ‡§≤‡•á ‡§ú‡•á‡§è‡§®‡§Ø‡•Ç ‡§õ‡§æ‡§™ ‡§ï‡§Æ‡§ø‡§®‡•á ‡§≤‡•ã‡§ó ‡§π‡§ø‡§®‡•ç‡§¶‡•Å‡§ì‡§Ç ‡§ï‡•ã ‡§Ø‡§π ‡§ï‡§π‡§§‡•á ‡§π‡•à ‡§ï‡•Ä ‡§∏‡§Ç‡§µ‡§ø‡§ß‡§æ‡§® ‡§∏‡§¨‡§ï‡•ã ‡§¨‡§∞‡§æ‡§¨‡§∞ ‡§Ö‡§ß‡§ø‡§ï‡§æ‡§∞ ‡§¶‡•á‡§§‡§æ ‡§π‡•à ‡§∏‡§ö‡•ç‡§ö‡§æ‡§à ‡§Ø‡§π ‡§π‡•à ‡§ï‡§ø ‡§Ø‡§π ‡§¨‡§∞‡§æ‡§¨‡§∞ ‡§Ö‡§ß‡§ø‡§ï‡§æ‡§∞ ‡§®‡§π‡•Ä‡§Ç ‡§¶‡•á‡§§‡§æ ‡§π‡•à,hostile
4,5,unlock4guidelines ‡§Ö‡§®‡§≤‡•â‡§ï 4 ‡§ï‡•á ‡§≤‡§ø‡§è ‡§ó‡§æ‡§á‡§°‡§≤‡§æ‡§á‡§®‡•ç‡§∏ ‡§ú‡§æ‡§∞‡•Ä 7 ‡§∏‡§ø‡§§‡§Ç‡§¨‡§∞ ‡§∏‡•á ‡§¶‡•á‡§∂‡§≠‡§∞ ‡§Æ‡•á‡§Ç ‡§Æ‡•á‡§ü‡•ç‡§∞‡•ã ‡§∏‡•á‡§µ‡§æ ‡§∂‡•Å‡§∞‡•Å ‡§π‡•ã‡§ó‡•Ä 21 ‡§∏‡§ø‡§§‡§Ç‡§¨‡§∞ ‡§ï‡•á ‡§¨‡§æ‡§¶ ‡§∞‡•à‡§≤‡§ø‡§Ø‡•ã‡§Ç ‡§î‡§∞ ‡§¨‡§æ‡§ï‡•Ä ‡§´‡§Ç‡§ï‡•ç‡§∂‡§® ‡§Æ‡•á‡§Ç 100 ‡§≤‡•ã‡§ó‡•ã‡§Ç ‡§ï‡•ã ‡§á‡§ú‡§æ‡§ú‡§§ ‡§ï‡§Ç‡§ü‡•á‡§®‡§Æ‡•á‡§Ç‡§ü ‡§ú‡•ã‡§® ‡§Æ‡•á‡§Ç ‡§ï‡•ã‡§à ‡§õ‡•Ç‡§ü ‡§®‡§π‡•Ä‡§Ç ‡§∏‡§ø‡§®‡•á‡§Æ‡§æ‡§π‡•â‡§≤ ‡§Ö‡§≠‡•Ä ‡§¨‡§Ç‡§¶ ‡§∞‡§π‡•á‡§Ç‡§ó‡•á 9 ‡§∏‡•á 12‡§µ‡•Ä‡§Ç ‡§ï‡•á ‡§õ‡§æ‡§§‡•ç‡§∞ 21 ‡§∏‡§ø‡§§‡§Ç‡§¨‡§∞ ‡§ï‡•á ‡§¨‡§æ‡§¶ ‡§∏‡•ç‡§ï‡•Ç‡§≤ ‡§ú‡§æ ‡§∏‡§ï‡•á‡§Ç‡§ó‡•á,non-hostile


In [None]:
# binary classification validate data 
binary_validate_df=make_binary_class_dataset(cleaned_validate_df)
binary_validate_df.head()

Unnamed: 0,Unique ID,Post,Labels Set
0,1,‡§¶‡•É‡§¢‡§º ‡§á‡§ö‡•ç‡§õ‡§æ ‡§∂‡§ï‡•ç‡§§‡§ø ‡§∏‡•á ‡§™‡§∞‡§ø‡§™‡•Ç‡§∞‡•ç‡§£ ‡§™‡•ç‡§∞‡§£‡§¨‡§¶‡§æ ‡§ï‡•á ‡§≤‡§ø‡§è ‡§¶‡•á‡§∂‡§π‡§ø‡§§ ‡§∏‡§∞‡•ç‡§µ‡•ã‡§ö‡•ç‡§ö ‡§∞‡§π‡§æ ‡§â‡§®‡§ï‡§æ ‡§®‡§ø‡§ß‡§® ‡§π‡§Æ ‡§∏‡§¨ ‡§ï‡•á ‡§≤‡§ø‡§è ‡§Ö‡§™‡•Ç‡§∞‡§£‡•Ä‡§Ø ‡§ï‡•ç‡§∑‡§§‡§ø ‡§π‡•à ‡§à‡§∂‡•ç‡§µ‡§∞ ‡§¶‡§ø‡§µ‡§Ç‡§ó‡§§ ‡§Ü‡§§‡•ç‡§Æ‡§æ ‡§ï‡•ã ‡§Ö‡§™‡§®‡•á ‡§∂‡•ç‡§∞‡•Ä‡§ö‡§∞‡§£‡•ã‡§Ç ‡§Æ‡•á‡§Ç ‡§∏‡•ç‡§•‡§æ‡§® ‡§¶‡•á‡§Ç ‡§∂‡•ã‡§ï ‡§∏‡§Ç‡§§‡§™‡•ç‡§§ ‡§™‡§∞‡§ø‡§ú‡§®‡•ã‡§Ç ‡§ï‡•á ‡§™‡•ç‡§∞‡§§‡§ø ‡§∏‡§Ç‡§µ‡•á‡§¶‡§®‡§æ‡§è‡§Ç ‡§ä‡§Ç ‡§∂‡§æ‡§Ç‡§§‡§ø,non-hostile
1,2,‡§≠‡§æ‡§∞‡§§‡•Ä‡§Ø ‡§ú‡§®‡§§‡§æ ‡§™‡§æ‡§∞‡•ç‡§ü‡•Ä rss ‡§µ‡§æ‡§≤‡•á ‡§á‡§§‡§®‡•á ‡§ó‡§ø‡§∞‡•á ‡§π‡•Å‡§è ‡§π‡•à‡§Ç ‡§ú‡§π‡§æ‡§Ç ‡§Æ‡•à‡§Ç ‡§∞‡§π‡§§‡•Ä ‡§π‡•Ç‡§Ç ‡§µ‡§π‡§æ‡§Ç ‡§Æ‡•á‡§∞‡•Ä ‡§ú‡§æ‡§∏‡•Ç‡§∏‡•Ä ‡§ï‡§∞‡§æ ‡§∞‡§π‡•á‡§Ç ‡§π‡•à ‡§â‡§∏‡§ï‡•Ä ‡§ú‡§æ‡§∏‡•Ç‡§∏ ‡§ï‡•Ä ‡§™‡§π‡§ö‡§æ‡§® ‡§Æ‡•Å‡§ù‡•á ‡§Ö‡§ö‡•ç‡§õ‡•Ä ‡§§‡§∞‡§π ‡§π‡•à rss ‡§¨‡•Ä‡§ú‡•á‡§™‡•Ä ‡§µ‡§æ‡§≤‡•á ‡§ï‡•Ä ‡§ú‡§æ‡§∏‡•Ç‡§∏ ‡§¶‡§ø‡§≤‡•ç‡§≤‡•Ä ‡§Æ‡•á‡§Ç ‡§ï‡•å‡§® ‡§π‡•à ‡§â‡§§‡•ç‡§§‡§∞ ‡§™‡•ç‡§∞‡§¶‡•á‡§∂ ‡§Æ‡•á‡§Ç ‡§ï‡•å‡§® ‡§π‡•à ‡§π‡§∞‡§ø‡§Ø‡§æ‡§£‡§æ ‡§∞‡§æ‡§ú‡§∏‡•ç‡§•‡§æ‡§® ‡§Æ‡•á‡§Ç ‡§ï‡•å‡§® ‡§π‡•à ‡§∏‡§¨‡§ï‡•Ä ‡§™‡§π‡§ö‡§æ‡§® ‡§π‡•à ‡§Æ‡•Å‡§ù‡•á ‡§Æ‡•á‡§∞‡•Ä ‡§®‡§ú‡§∞ ‡§∏‡•á ‡§¨‡§ö ‡§®‡§π‡•Ä‡§Ç ‡§∏‡§ï‡§§‡•á ‡§π‡•ã,hostile
2,3,‡§ï‡•ã‡§∞‡•ã‡§®‡§æ ‡§∏‡•á ‡§®‡§ø‡§™‡§ü‡§®‡•á ‡§ï‡•Ä ‡§§‡•à‡§Ø‡§æ‡§∞‡•Ä ‡§¶‡§ø‡§≤‡•ç‡§≤‡•Ä ‡§Æ‡•á‡§Ç 10 ‡§π‡§ú‡§æ‡§∞ ‡§¨‡•á‡§° ‡§µ‡§æ‡§≤‡§æ ‡§¶‡•Å‡§®‡§ø‡§Ø‡§æ ‡§ï‡§æ ‡§∏‡§¨‡§∏‡•á ‡§¨‡§°‡§º‡§æ ‡§ï‡•ã‡§µ‡§ø‡§° ‡§ï‡•á‡§Ø‡§∞ ‡§∏‡•á‡§Ç‡§ü‡§∞ ‡§∂‡•Å‡§∞‡•Ç ‡§∞‡§æ‡§ú‡§®‡§æ‡§• ‡§∂‡§æ‡§π ‡§®‡•á ‡§°‡•Ä‡§Ü‡§∞‡§°‡•Ä‡§ì ‡§ï‡•á 1 ‡§π‡§ú‡§æ‡§∞ ‡§¨‡•á‡§° ‡§µ‡§æ‡§≤‡•á ‡§∏‡•á‡§Ç‡§ü‡§∞ ‡§ï‡§æ ‡§≠‡•Ä ‡§â‡§¶‡•ç‡§ò‡§æ‡§ü‡§® ‡§ï‡§ø‡§Ø‡§æ Delhi ArvindKejriwal rajnathsingh AmitShah DRDO India WHO crpfindia ITBP official,non-hostile
3,4,‡§ó‡§µ‡§∞‡•ç‡§®‡§∞ ‡§ï‡•â‡§®‡•ç‡§´‡•ç‡§∞‡•á‡§Ç‡§∏ ‡§Æ‡•á‡§Ç PM ‡§Æ‡•ã‡§¶‡•Ä ‡§¨‡•ã‡§≤‡•á ‡§∂‡§ø‡§ï‡•ç‡§∑‡§æ ‡§®‡•Ä‡§§‡§ø ‡§Æ‡•á‡§Ç ‡§∏‡§∞‡§ï‡§æ‡§∞ ‡§ï‡§æ ‡§¶‡§ñ‡§≤ ‡§ï‡§Æ ‡§π‡•ã‡§®‡§æ ‡§ö‡§æ‡§π‡§ø‡§è,non-hostile
4,5,‡§Ø‡•Ç‡§™‡•Ä ‡§ó‡§æ‡§ú‡•Ä‡§™‡•Å‡§∞ ‡§Æ‡•á‡§Ç Toilet ‡§ò‡•ã‡§ü‡§æ‡§≤‡§æ ‡§™‡•ç‡§∞‡§ß‡§æ‡§® ‡§µ ‡§∏‡§ö‡§ø‡§µ ‡§®‡•á ‡§ï‡§ø‡§Ø‡§æ ‡§≤‡§æ‡§ñ‡•ã‡§Ç ‡§ï‡§æ ‡§ó‡§¨‡§® ‡§Æ‡•Å‡§∞‡•ç‡§¶‡•ã‡§Ç ‡§ï‡•á ‡§®‡§æ‡§Æ ‡§™‡§∞ ‡§¨‡§®‡§µ‡§æ ‡§°‡§æ‡§≤‡•á ‡§∂‡•å‡§ö‡§æ‡§≤‡§Ø UP,non-hostile


In [None]:
# details about the binary_train data 
about_the_data(binary_train_df)

   Unique ID  \
0  1           
1  2           
2  3           
3  4           
4  5           

                                                                                                                                                                                                                                                                                 Post  \
0  ‡§Æ‡•á‡§∞‡•á ‡§¶‡•á‡§∂ ‡§ï‡•á ‡§π‡§ø‡§®‡•ç‡§¶‡•Å ‡§¨‡§π‡•Å‡§§ ‡§®‡§ø‡§∞‡§æ‡§≤‡•á ‡§π‡•à  ‡§ï‡•Å‡§õ ‡§§‡•ã ‡§™‡§ï‡•ç‡§ï‡•á ‡§∞‡§æ‡§Æ ‡§≠‡§ï‡•ç‡§§ ‡§π‡•à ‡§î‡§∞ ‡§ï‡•Å‡§õ ‡§¨‡§æ‡§¨‡§∞ ‡§ï‡•á ‡§∏‡§æ‡§≤‡•á ‡§π‡•à  ‡§ú‡§Ø ‡§∂‡•ç‡§∞‡•Ä ‡§∞‡§æ‡§Æ                                                                                                                                                                                      
1  ‡§∏‡§∞‡§ï‡§æ‡§∞ ‡§π‡§Æ‡•á‡§∂‡§æ ‡§∏‡•á ‡§ï‡§ø‡§∏‡§æ‡§®‡•ã‡§Ç ‡§ï‡•Ä ‡§ï‡§Æ‡§æ‡§à ‡§ï‡•ã ‡§¨‡§¢‡§º‡§æ‡§®‡•á ‡§ï‡•á ‡§≤‡§ø‡§è ‡§®‡§à ‡§®‡§à ‡§∏‡•ç‡§ï‡•Ä‡§Æ‡•á‡§Ç ‡§≤‡§æ‡§§‡•Ä ‡§∞‡§π‡§§‡•Ä ‡§π‡•à  

In [None]:
# details about the binary_validate data 
about_the_data(binary_validate_df)

   Unique ID  \
0  1           
1  2           
2  3           
3  4           
4  5           

                                                                                                                                                                                                                                                                                Post  \
0  ‡§¶‡•É‡§¢‡§º ‡§á‡§ö‡•ç‡§õ‡§æ ‡§∂‡§ï‡•ç‡§§‡§ø ‡§∏‡•á ‡§™‡§∞‡§ø‡§™‡•Ç‡§∞‡•ç‡§£ ‡§™‡•ç‡§∞‡§£‡§¨‡§¶‡§æ ‡§ï‡•á ‡§≤‡§ø‡§è ‡§¶‡•á‡§∂‡§π‡§ø‡§§ ‡§∏‡§∞‡•ç‡§µ‡•ã‡§ö‡•ç‡§ö ‡§∞‡§π‡§æ ‡§â‡§®‡§ï‡§æ ‡§®‡§ø‡§ß‡§® ‡§π‡§Æ ‡§∏‡§¨ ‡§ï‡•á ‡§≤‡§ø‡§è ‡§Ö‡§™‡•Ç‡§∞‡§£‡•Ä‡§Ø ‡§ï‡•ç‡§∑‡§§‡§ø ‡§π‡•à ‡§à‡§∂‡•ç‡§µ‡§∞ ‡§¶‡§ø‡§µ‡§Ç‡§ó‡§§ ‡§Ü‡§§‡•ç‡§Æ‡§æ ‡§ï‡•ã ‡§Ö‡§™‡§®‡•á ‡§∂‡•ç‡§∞‡•Ä‡§ö‡§∞‡§£‡•ã‡§Ç ‡§Æ‡•á‡§Ç ‡§∏‡•ç‡§•‡§æ‡§® ‡§¶‡•á‡§Ç  ‡§∂‡•ã‡§ï ‡§∏‡§Ç‡§§‡§™‡•ç‡§§ ‡§™‡§∞‡§ø‡§ú‡§®‡•ã‡§Ç ‡§ï‡•á ‡§™‡•ç‡§∞‡§§‡§ø ‡§∏‡§Ç‡§µ‡•á‡§¶‡§®‡§æ‡§è‡§Ç ‡§ä‡§Ç ‡§∂‡§æ‡§Ç‡§§‡§ø                                                                          
1  ‡§≠‡§æ‡§∞‡

##### **Dataset with output label as one-hot vectors:**





In [None]:
# convert the output labels to one hot vectors 
def vector_labels(data,h=1):
  """
  input   : data(list) , h=1
  returns : one-hot encoded vectors for entire dataset by default and if h=0 it returns it returns one-hot encoded vectors
            for hostile data only 
  """
  final_labels_vectors=[]
  for x in data:
    vec=[0]*5
    l=list(x.split(','))
    for y in l:
      if vec[0]!=1 and y=='non-hostile':
        vec[0]=1
      if vec[1]!=1 and y=="defamation":
        vec[1]=1
      if vec[2]!=1 and y=="fake":
        vec[2]=1
      if vec[3]!=1 and y=="hate":
        vec[3]=1
      if vec[4]!=1 and y=="offensive":
        vec[4]=1
    if h==1:
      final_labels_vectors.append(vec)
    else:
      final_labels_vectors.append(vec[1:])
  return final_labels_vectors

# function to return the dataset with output as one-hot vectors 
def labelsToVectors(dataset,h=1):
  """
  input   : dataset 
      h   : default 1 --- 5 labels converting to 5 hot vectors
            if 0 --- 4 labels converting to 4 hot vectors
  returns : dataset with output labels modified to one-hot vectors (h=1 for entire data and h=0 for hostile data only)
  """
  labelsvec_df_hindi=pd.DataFrame()
  labelsvec_df_hindi['Unique ID']=dataset['Unique ID']
  labelsvec_df_hindi['Post']=dataset['Post']
  data=dataset['Labels Set']
  if h==1:
    labelsvec_df_hindi['Labels Set']=vector_labels(data)
  else:
    labelsvec_df_hindi['Labels Set']=vector_labels(data,0)
  return labelsvec_df_hindi

# 5 one-hot vectors 
outputlabel5_train_df=labelsToVectors(cleaned_train_df)
outputlabel5_validate_df=labelsToVectors(cleaned_validate_df)

# 4 one-hot vectors 
outputlabel4_train_df=labelsToVectors(cleaned_train_df[cleaned_train_df["Labels Set"] != 'non-hostile'].reset_index(drop=True),0)
outputlabel4_validate_df=labelsToVectors(cleaned_validate_df[cleaned_validate_df["Labels Set"] != 'non-hostile'].reset_index(drop=True),0)

In [None]:
# train data with 5 hot vectors 
outputlabel5_train_df.head()

Unnamed: 0,Unique ID,Post,Labels Set
0,1,‡§Æ‡•á‡§∞‡•á ‡§¶‡•á‡§∂ ‡§ï‡•á ‡§π‡§ø‡§®‡•ç‡§¶‡•Å ‡§¨‡§π‡•Å‡§§ ‡§®‡§ø‡§∞‡§æ‡§≤‡•á ‡§π‡•à ‡§ï‡•Å‡§õ ‡§§‡•ã ‡§™‡§ï‡•ç‡§ï‡•á ‡§∞‡§æ‡§Æ ‡§≠‡§ï‡•ç‡§§ ‡§π‡•à ‡§î‡§∞ ‡§ï‡•Å‡§õ ‡§¨‡§æ‡§¨‡§∞ ‡§ï‡•á ‡§∏‡§æ‡§≤‡•á ‡§π‡•à ‡§ú‡§Ø ‡§∂‡•ç‡§∞‡•Ä ‡§∞‡§æ‡§Æ,"[0, 0, 0, 1, 1]"
1,2,‡§∏‡§∞‡§ï‡§æ‡§∞ ‡§π‡§Æ‡•á‡§∂‡§æ ‡§∏‡•á ‡§ï‡§ø‡§∏‡§æ‡§®‡•ã‡§Ç ‡§ï‡•Ä ‡§ï‡§Æ‡§æ‡§à ‡§ï‡•ã ‡§¨‡§¢‡§º‡§æ‡§®‡•á ‡§ï‡•á ‡§≤‡§ø‡§è ‡§®‡§à ‡§®‡§à ‡§∏‡•ç‡§ï‡•Ä‡§Æ‡•á‡§Ç ‡§≤‡§æ‡§§‡•Ä ‡§∞‡§π‡§§‡•Ä ‡§π‡•à ‡§§‡§æ‡§ï‡§ø ‡§â‡§® ‡§™‡§∞ ‡§ú‡•ç‡§Ø‡§æ‡§¶‡§æ ‡§Ü‡§∞‡•ç‡§•‡§ø‡§ï ‡§¨‡•ã‡§ù ‡§® ‡§™‡§°‡§º‡•á,"[1, 0, 0, 0, 0]"
2,3,‡§∏‡•Å‡§∂‡§æ‡§Ç‡§§ ‡§®‡•á ‡§ú‡•ã ‡§¨‡§ø‡§ú‡§®‡•á‡§∏ ‡§°‡•Ä‡§≤ 9 ‡§ú‡•Ç‡§® ‡§ï‡•ã ‡§ï‡•Ä ‡§•‡•Ä ‡§µ‡•ã ‡§°‡•Ä‡§≤ ‡§¶‡•Ä‡§™‡•á‡§∂ ‡§ï‡•ã ‡§∏‡•Å‡§∂‡§æ‡§Ç‡§§ ‡§ï‡•Ä ‡§π‡§§‡•ç‡§Ø‡§æ ‡§ï‡•á ‡§¶‡§ø‡§® ‡§π‡•Ä ‡§ï‡•ç‡§Ø‡•ã‡§Ç ‡§Ø‡§æ‡§¶ ‡§Ü‡§à ‡§¶‡•á‡§ñ‡§ø‡§è ‡§™‡•Ç‡§õ‡§§‡§æ ‡§π‡•à ‡§≠‡§æ‡§∞‡§§ ‡§Ö‡§∞‡•ç‡§®‡§¨ ‡§ï‡•á ‡§∏‡§æ‡§• ‡§∞‡§ø‡§™‡§¨‡•ç‡§≤‡§ø‡§ï ‡§≠‡§æ‡§∞‡§§ ‡§™‡§∞ LIVE,"[1, 0, 0, 0, 0]"
3,4,prabhav218 ‡§∏‡§æ‡§≤‡•á ‡§ú‡•á‡§è‡§®‡§Ø‡•Ç ‡§õ‡§æ‡§™ ‡§ï‡§Æ‡§ø‡§®‡•á ‡§≤‡•ã‡§ó ‡§π‡§ø‡§®‡•ç‡§¶‡•Å‡§ì‡§Ç ‡§ï‡•ã ‡§Ø‡§π ‡§ï‡§π‡§§‡•á ‡§π‡•à ‡§ï‡•Ä ‡§∏‡§Ç‡§µ‡§ø‡§ß‡§æ‡§® ‡§∏‡§¨‡§ï‡•ã ‡§¨‡§∞‡§æ‡§¨‡§∞ ‡§Ö‡§ß‡§ø‡§ï‡§æ‡§∞ ‡§¶‡•á‡§§‡§æ ‡§π‡•à ‡§∏‡§ö‡•ç‡§ö‡§æ‡§à ‡§Ø‡§π ‡§π‡•à ‡§ï‡§ø ‡§Ø‡§π ‡§¨‡§∞‡§æ‡§¨‡§∞ ‡§Ö‡§ß‡§ø‡§ï‡§æ‡§∞ ‡§®‡§π‡•Ä‡§Ç ‡§¶‡•á‡§§‡§æ ‡§π‡•à,"[0, 1, 0, 0, 1]"
4,5,unlock4guidelines ‡§Ö‡§®‡§≤‡•â‡§ï 4 ‡§ï‡•á ‡§≤‡§ø‡§è ‡§ó‡§æ‡§á‡§°‡§≤‡§æ‡§á‡§®‡•ç‡§∏ ‡§ú‡§æ‡§∞‡•Ä 7 ‡§∏‡§ø‡§§‡§Ç‡§¨‡§∞ ‡§∏‡•á ‡§¶‡•á‡§∂‡§≠‡§∞ ‡§Æ‡•á‡§Ç ‡§Æ‡•á‡§ü‡•ç‡§∞‡•ã ‡§∏‡•á‡§µ‡§æ ‡§∂‡•Å‡§∞‡•Å ‡§π‡•ã‡§ó‡•Ä 21 ‡§∏‡§ø‡§§‡§Ç‡§¨‡§∞ ‡§ï‡•á ‡§¨‡§æ‡§¶ ‡§∞‡•à‡§≤‡§ø‡§Ø‡•ã‡§Ç ‡§î‡§∞ ‡§¨‡§æ‡§ï‡•Ä ‡§´‡§Ç‡§ï‡•ç‡§∂‡§® ‡§Æ‡•á‡§Ç 100 ‡§≤‡•ã‡§ó‡•ã‡§Ç ‡§ï‡•ã ‡§á‡§ú‡§æ‡§ú‡§§ ‡§ï‡§Ç‡§ü‡•á‡§®‡§Æ‡•á‡§Ç‡§ü ‡§ú‡•ã‡§® ‡§Æ‡•á‡§Ç ‡§ï‡•ã‡§à ‡§õ‡•Ç‡§ü ‡§®‡§π‡•Ä‡§Ç ‡§∏‡§ø‡§®‡•á‡§Æ‡§æ‡§π‡•â‡§≤ ‡§Ö‡§≠‡•Ä ‡§¨‡§Ç‡§¶ ‡§∞‡§π‡•á‡§Ç‡§ó‡•á 9 ‡§∏‡•á 12‡§µ‡•Ä‡§Ç ‡§ï‡•á ‡§õ‡§æ‡§§‡•ç‡§∞ 21 ‡§∏‡§ø‡§§‡§Ç‡§¨‡§∞ ‡§ï‡•á ‡§¨‡§æ‡§¶ ‡§∏‡•ç‡§ï‡•Ç‡§≤ ‡§ú‡§æ ‡§∏‡§ï‡•á‡§Ç‡§ó‡•á,"[1, 0, 0, 0, 0]"


In [None]:
# validate data with 5 hot vectors 
outputlabel5_validate_df.head()

Unnamed: 0,Unique ID,Post,Labels Set
0,1,‡§¶‡•É‡§¢‡§º ‡§á‡§ö‡•ç‡§õ‡§æ ‡§∂‡§ï‡•ç‡§§‡§ø ‡§∏‡•á ‡§™‡§∞‡§ø‡§™‡•Ç‡§∞‡•ç‡§£ ‡§™‡•ç‡§∞‡§£‡§¨‡§¶‡§æ ‡§ï‡•á ‡§≤‡§ø‡§è ‡§¶‡•á‡§∂‡§π‡§ø‡§§ ‡§∏‡§∞‡•ç‡§µ‡•ã‡§ö‡•ç‡§ö ‡§∞‡§π‡§æ ‡§â‡§®‡§ï‡§æ ‡§®‡§ø‡§ß‡§® ‡§π‡§Æ ‡§∏‡§¨ ‡§ï‡•á ‡§≤‡§ø‡§è ‡§Ö‡§™‡•Ç‡§∞‡§£‡•Ä‡§Ø ‡§ï‡•ç‡§∑‡§§‡§ø ‡§π‡•à ‡§à‡§∂‡•ç‡§µ‡§∞ ‡§¶‡§ø‡§µ‡§Ç‡§ó‡§§ ‡§Ü‡§§‡•ç‡§Æ‡§æ ‡§ï‡•ã ‡§Ö‡§™‡§®‡•á ‡§∂‡•ç‡§∞‡•Ä‡§ö‡§∞‡§£‡•ã‡§Ç ‡§Æ‡•á‡§Ç ‡§∏‡•ç‡§•‡§æ‡§® ‡§¶‡•á‡§Ç ‡§∂‡•ã‡§ï ‡§∏‡§Ç‡§§‡§™‡•ç‡§§ ‡§™‡§∞‡§ø‡§ú‡§®‡•ã‡§Ç ‡§ï‡•á ‡§™‡•ç‡§∞‡§§‡§ø ‡§∏‡§Ç‡§µ‡•á‡§¶‡§®‡§æ‡§è‡§Ç ‡§ä‡§Ç ‡§∂‡§æ‡§Ç‡§§‡§ø,"[1, 0, 0, 0, 0]"
1,2,‡§≠‡§æ‡§∞‡§§‡•Ä‡§Ø ‡§ú‡§®‡§§‡§æ ‡§™‡§æ‡§∞‡•ç‡§ü‡•Ä rss ‡§µ‡§æ‡§≤‡•á ‡§á‡§§‡§®‡•á ‡§ó‡§ø‡§∞‡•á ‡§π‡•Å‡§è ‡§π‡•à‡§Ç ‡§ú‡§π‡§æ‡§Ç ‡§Æ‡•à‡§Ç ‡§∞‡§π‡§§‡•Ä ‡§π‡•Ç‡§Ç ‡§µ‡§π‡§æ‡§Ç ‡§Æ‡•á‡§∞‡•Ä ‡§ú‡§æ‡§∏‡•Ç‡§∏‡•Ä ‡§ï‡§∞‡§æ ‡§∞‡§π‡•á‡§Ç ‡§π‡•à ‡§â‡§∏‡§ï‡•Ä ‡§ú‡§æ‡§∏‡•Ç‡§∏ ‡§ï‡•Ä ‡§™‡§π‡§ö‡§æ‡§® ‡§Æ‡•Å‡§ù‡•á ‡§Ö‡§ö‡•ç‡§õ‡•Ä ‡§§‡§∞‡§π ‡§π‡•à rss ‡§¨‡•Ä‡§ú‡•á‡§™‡•Ä ‡§µ‡§æ‡§≤‡•á ‡§ï‡•Ä ‡§ú‡§æ‡§∏‡•Ç‡§∏ ‡§¶‡§ø‡§≤‡•ç‡§≤‡•Ä ‡§Æ‡•á‡§Ç ‡§ï‡•å‡§® ‡§π‡•à ‡§â‡§§‡•ç‡§§‡§∞ ‡§™‡•ç‡§∞‡§¶‡•á‡§∂ ‡§Æ‡•á‡§Ç ‡§ï‡•å‡§® ‡§π‡•à ‡§π‡§∞‡§ø‡§Ø‡§æ‡§£‡§æ ‡§∞‡§æ‡§ú‡§∏‡•ç‡§•‡§æ‡§® ‡§Æ‡•á‡§Ç ‡§ï‡•å‡§® ‡§π‡•à ‡§∏‡§¨‡§ï‡•Ä ‡§™‡§π‡§ö‡§æ‡§® ‡§π‡•à ‡§Æ‡•Å‡§ù‡•á ‡§Æ‡•á‡§∞‡•Ä ‡§®‡§ú‡§∞ ‡§∏‡•á ‡§¨‡§ö ‡§®‡§π‡•Ä‡§Ç ‡§∏‡§ï‡§§‡•á ‡§π‡•ã,"[0, 1, 0, 0, 0]"
2,3,‡§ï‡•ã‡§∞‡•ã‡§®‡§æ ‡§∏‡•á ‡§®‡§ø‡§™‡§ü‡§®‡•á ‡§ï‡•Ä ‡§§‡•à‡§Ø‡§æ‡§∞‡•Ä ‡§¶‡§ø‡§≤‡•ç‡§≤‡•Ä ‡§Æ‡•á‡§Ç 10 ‡§π‡§ú‡§æ‡§∞ ‡§¨‡•á‡§° ‡§µ‡§æ‡§≤‡§æ ‡§¶‡•Å‡§®‡§ø‡§Ø‡§æ ‡§ï‡§æ ‡§∏‡§¨‡§∏‡•á ‡§¨‡§°‡§º‡§æ ‡§ï‡•ã‡§µ‡§ø‡§° ‡§ï‡•á‡§Ø‡§∞ ‡§∏‡•á‡§Ç‡§ü‡§∞ ‡§∂‡•Å‡§∞‡•Ç ‡§∞‡§æ‡§ú‡§®‡§æ‡§• ‡§∂‡§æ‡§π ‡§®‡•á ‡§°‡•Ä‡§Ü‡§∞‡§°‡•Ä‡§ì ‡§ï‡•á 1 ‡§π‡§ú‡§æ‡§∞ ‡§¨‡•á‡§° ‡§µ‡§æ‡§≤‡•á ‡§∏‡•á‡§Ç‡§ü‡§∞ ‡§ï‡§æ ‡§≠‡•Ä ‡§â‡§¶‡•ç‡§ò‡§æ‡§ü‡§® ‡§ï‡§ø‡§Ø‡§æ Delhi ArvindKejriwal rajnathsingh AmitShah DRDO India WHO crpfindia ITBP official,"[1, 0, 0, 0, 0]"
3,4,‡§ó‡§µ‡§∞‡•ç‡§®‡§∞ ‡§ï‡•â‡§®‡•ç‡§´‡•ç‡§∞‡•á‡§Ç‡§∏ ‡§Æ‡•á‡§Ç PM ‡§Æ‡•ã‡§¶‡•Ä ‡§¨‡•ã‡§≤‡•á ‡§∂‡§ø‡§ï‡•ç‡§∑‡§æ ‡§®‡•Ä‡§§‡§ø ‡§Æ‡•á‡§Ç ‡§∏‡§∞‡§ï‡§æ‡§∞ ‡§ï‡§æ ‡§¶‡§ñ‡§≤ ‡§ï‡§Æ ‡§π‡•ã‡§®‡§æ ‡§ö‡§æ‡§π‡§ø‡§è,"[1, 0, 0, 0, 0]"
4,5,‡§Ø‡•Ç‡§™‡•Ä ‡§ó‡§æ‡§ú‡•Ä‡§™‡•Å‡§∞ ‡§Æ‡•á‡§Ç Toilet ‡§ò‡•ã‡§ü‡§æ‡§≤‡§æ ‡§™‡•ç‡§∞‡§ß‡§æ‡§® ‡§µ ‡§∏‡§ö‡§ø‡§µ ‡§®‡•á ‡§ï‡§ø‡§Ø‡§æ ‡§≤‡§æ‡§ñ‡•ã‡§Ç ‡§ï‡§æ ‡§ó‡§¨‡§® ‡§Æ‡•Å‡§∞‡•ç‡§¶‡•ã‡§Ç ‡§ï‡•á ‡§®‡§æ‡§Æ ‡§™‡§∞ ‡§¨‡§®‡§µ‡§æ ‡§°‡§æ‡§≤‡•á ‡§∂‡•å‡§ö‡§æ‡§≤‡§Ø UP,"[1, 0, 0, 0, 0]"


In [None]:
# train data with 4 hot vectors 
outputlabel4_train_df.head()

Unnamed: 0,Unique ID,Post,Labels Set
0,1,‡§Æ‡•á‡§∞‡•á ‡§¶‡•á‡§∂ ‡§ï‡•á ‡§π‡§ø‡§®‡•ç‡§¶‡•Å ‡§¨‡§π‡•Å‡§§ ‡§®‡§ø‡§∞‡§æ‡§≤‡•á ‡§π‡•à ‡§ï‡•Å‡§õ ‡§§‡•ã ‡§™‡§ï‡•ç‡§ï‡•á ‡§∞‡§æ‡§Æ ‡§≠‡§ï‡•ç‡§§ ‡§π‡•à ‡§î‡§∞ ‡§ï‡•Å‡§õ ‡§¨‡§æ‡§¨‡§∞ ‡§ï‡•á ‡§∏‡§æ‡§≤‡•á ‡§π‡•à ‡§ú‡§Ø ‡§∂‡•ç‡§∞‡•Ä ‡§∞‡§æ‡§Æ,"[0, 0, 1, 1]"
1,4,prabhav218 ‡§∏‡§æ‡§≤‡•á ‡§ú‡•á‡§è‡§®‡§Ø‡•Ç ‡§õ‡§æ‡§™ ‡§ï‡§Æ‡§ø‡§®‡•á ‡§≤‡•ã‡§ó ‡§π‡§ø‡§®‡•ç‡§¶‡•Å‡§ì‡§Ç ‡§ï‡•ã ‡§Ø‡§π ‡§ï‡§π‡§§‡•á ‡§π‡•à ‡§ï‡•Ä ‡§∏‡§Ç‡§µ‡§ø‡§ß‡§æ‡§® ‡§∏‡§¨‡§ï‡•ã ‡§¨‡§∞‡§æ‡§¨‡§∞ ‡§Ö‡§ß‡§ø‡§ï‡§æ‡§∞ ‡§¶‡•á‡§§‡§æ ‡§π‡•à ‡§∏‡§ö‡•ç‡§ö‡§æ‡§à ‡§Ø‡§π ‡§π‡•à ‡§ï‡§ø ‡§Ø‡§π ‡§¨‡§∞‡§æ‡§¨‡§∞ ‡§Ö‡§ß‡§ø‡§ï‡§æ‡§∞ ‡§®‡§π‡•Ä‡§Ç ‡§¶‡•á‡§§‡§æ ‡§π‡•à,"[1, 0, 0, 1]"
2,6,‡§ö‡•Ä‡§® ‡§®‡•á UN ‡§Æ‡•á‡§Ç ‡§§‡§∞‡•ç‡§ï ‡§¶‡§ø‡§Ø‡§æ ‡§ï‡•Ä ‡§≠‡§æ‡§∞‡§§ ‡§ï‡§æ ‡§µ‡§ø‡§™‡§ï‡•ç‡§∑ ‡§π‡•Ä ‡§Ö‡§ú‡§∞‚Äå ‡§Æ‡§∏‡•Å‡§¶ ‡§ï‡•ã ‡§Ü‡§§‡§Ç‡§ï‡•Ä ‡§®‡§π‡•Ä‡§Ç ‡§Æ‡§æ‡§®‡§§‡§æ ‡§§‡•ã ‡§π‡§Æ ‡§ï‡•à‡§∏‡•á ‡§Æ‡§æ‡§®‡•á ‡§ö‡•Å‡§≤‡•ç‡§≤‡•Ç ‡§≠‡§∞ ‡§Æ‡•Ç‡§§‡•ç‡§∞ ‡§Æ‡•á‡§Ç ‡§°‡•Ç‡§¨ ‡§Æ‡§∞‡•ã ‡§ó‡§¶‡•ç‡§¶‡§æ‡§∞‡•ã‡§Ç ‡§Ö‡§¨ ‡§Ø‡§π ‡§≠‡§æ‡§∞‡§§ ‡§ï‡•á ‡§≤‡•ã‡§ó‡•ã‡§Ç ‡§ï‡•ã ‡§∏‡•ã‡§ö‡§®‡§æ ‡§π‡•à ‡§ï‡§ø ‡§µ‡•ã ‡§µ‡§ø‡§™‡§ï‡•ç‡§∑ ‡§ï‡•ã ‡§µ‡•ã‡§ü ‡§ï‡•ç‡§Ø‡•ã‡§Ç ‡§ï‡§∞‡•á‡§Ç ‡§µ‡§ø‡§ï‡•ç‡§∞‡§Æ ‡§∂‡§∞‡•ç‡§Æ‡§æ,"[0, 1, 0, 0]"
3,11,RT Pb swain ‡§Æ‡•ã‡§¶‡•Ä‡§ú‡•Ä ‡§î‡§∞ ‡§ú‡§¨ ‡§∏‡§æ‡§∞‡§æ ‡§¶‡•á‡§∂ ‡§∏‡•á‡§®‡§æ ‡§ï‡•á ‡§∏‡§æ‡§• ‡§ñ‡§°‡•Ä ‡§π‡•à ‡§™‡§∞ ‡§¶‡•ã ‡§∏‡§Ø‡§æ‡§®‡•á ‡§µ‡§ø‡§¶‡•á‡§∂ ‡§Æ‡•á ‡§™‡§°‡•á ‡§π‡•à ‡§á‡§∏‡§≤‡§ø‡§è ‡§¨‡•ã‡§≤‡§§‡•á ‡§π‡•à‡§Ç ‡§µ‡§ø‡§¶‡•á‡§∂‡•Ä ‡§Æ‡§æ‡§Ç ‡§ï‡§æ ‡§¨‡•á‡§ü‡§æ ‡§ï‡§≠‡•Ä ‡§¶‡•á‡§∂‡§≠‡§ï‡•ç‡§§ ‡§®,"[0, 0, 1, 0]"
4,12,RT ShilpiSinghINC 48000 ‡§ò‡§∞‡•ã‡§Ç ‡§ï‡•ã ‡§§‡•ã‡§°‡§º‡§®‡•á ‡§ï‡§æ ‡§Ü‡§¶‡•á‡§∂ ‡§Ü‡§Ø‡§æ ‡§π‡•à ‡§ï‡§ø‡§∏‡•Ä ‡§ï‡•ã ‡§ï‡•ã‡§à ‡§´‡§∞‡•ç‡§ï‡§º ‡§®‡§π‡•Ä‡§Ç ‡§™‡§°‡§º‡§§‡§æ ‡§Ö‡§Æ‡•Ä‡§∞‡•ã‡§Ç ‡§ï‡•á 5 ‡§Æ‡•á‡§Ç ‡§∏‡•á 1 ‡§Æ‡§ï‡§æ‡§® ‡§ï‡•á ‡§ï‡§ø‡§∏‡•Ä ‡§Ö‡§µ‡•à‡§ß ‡§π‡§ø‡§∏‡•ç‡§∏‡•á ‡§≠‡•Ä ‡§è‡§ï,"[0, 0, 0, 1]"


In [None]:
# validate data with 4 hot vectors 
outputlabel4_validate_df.head()

Unnamed: 0,Unique ID,Post,Labels Set
0,2,‡§≠‡§æ‡§∞‡§§‡•Ä‡§Ø ‡§ú‡§®‡§§‡§æ ‡§™‡§æ‡§∞‡•ç‡§ü‡•Ä rss ‡§µ‡§æ‡§≤‡•á ‡§á‡§§‡§®‡•á ‡§ó‡§ø‡§∞‡•á ‡§π‡•Å‡§è ‡§π‡•à‡§Ç ‡§ú‡§π‡§æ‡§Ç ‡§Æ‡•à‡§Ç ‡§∞‡§π‡§§‡•Ä ‡§π‡•Ç‡§Ç ‡§µ‡§π‡§æ‡§Ç ‡§Æ‡•á‡§∞‡•Ä ‡§ú‡§æ‡§∏‡•Ç‡§∏‡•Ä ‡§ï‡§∞‡§æ ‡§∞‡§π‡•á‡§Ç ‡§π‡•à ‡§â‡§∏‡§ï‡•Ä ‡§ú‡§æ‡§∏‡•Ç‡§∏ ‡§ï‡•Ä ‡§™‡§π‡§ö‡§æ‡§® ‡§Æ‡•Å‡§ù‡•á ‡§Ö‡§ö‡•ç‡§õ‡•Ä ‡§§‡§∞‡§π ‡§π‡•à rss ‡§¨‡•Ä‡§ú‡•á‡§™‡•Ä ‡§µ‡§æ‡§≤‡•á ‡§ï‡•Ä ‡§ú‡§æ‡§∏‡•Ç‡§∏ ‡§¶‡§ø‡§≤‡•ç‡§≤‡•Ä ‡§Æ‡•á‡§Ç ‡§ï‡•å‡§® ‡§π‡•à ‡§â‡§§‡•ç‡§§‡§∞ ‡§™‡•ç‡§∞‡§¶‡•á‡§∂ ‡§Æ‡•á‡§Ç ‡§ï‡•å‡§® ‡§π‡•à ‡§π‡§∞‡§ø‡§Ø‡§æ‡§£‡§æ ‡§∞‡§æ‡§ú‡§∏‡•ç‡§•‡§æ‡§® ‡§Æ‡•á‡§Ç ‡§ï‡•å‡§® ‡§π‡•à ‡§∏‡§¨‡§ï‡•Ä ‡§™‡§π‡§ö‡§æ‡§® ‡§π‡•à ‡§Æ‡•Å‡§ù‡•á ‡§Æ‡•á‡§∞‡•Ä ‡§®‡§ú‡§∞ ‡§∏‡•á ‡§¨‡§ö ‡§®‡§π‡•Ä‡§Ç ‡§∏‡§ï‡§§‡•á ‡§π‡•ã,"[1, 0, 0, 0]"
1,8,‡§Ö‡§¶‡•ç‡§≠‡•Å‡§§ ‡§ú‡•ã ‡§µ‡§æ‡§Æ‡§™‡§Ç‡§•‡•Ä ‡§ï‡§π‡§§‡•á ‡§π‡•à ‡§ï‡§ø ‡§Æ‡§π‡§æ‡§≠‡§æ‡§∞‡§§ ‡§ï‡§æ ‡§Ø‡•Å‡§¶‡•ç‡§ß ‡§ï‡§æ‡§≤‡•ç‡§™‡§®‡§ø‡§ï ‡§π‡•à ‡§î‡§∞ ‡§∏‡§®‡§æ‡§§‡§® ‡§ß‡§∞‡•ç‡§Æ ‡§ï‡•Å‡§õ ‡§π‡•à ‡§π‡•Ä ‡§®‡§π‡•Ä ‡§â‡§®‡§ï‡•á ‡§Æ‡•Å‡§Ç‡§π ‡§™‡§∞ ‡§µ‡§ø‡§¶‡•á‡§∂‡•Ä ‡§™‡•Å‡§∞‡§æ‡§§‡§§‡•ç‡§µ ‡§µ‡§ø‡§≠‡§æ‡§ó ‡§®‡•á ‡§ú‡•ã‡§∞‡§¶‡§æ‡§∞ ‡§§‡§Æ‡§æ‡§ö‡§æ ‡§Æ‡§æ‡§∞ ‡§¶‡§ø‡§Ø‡§æ ‡§π‡•à ‡§ï‡•Å‡§∞‡•Ç‡§ï‡•ç‡§∑‡•á‡§§‡•ç‡§∞ ‡§ï‡•á ‡§™‡§æ‡§∏ ‡§ñ‡•Å‡§¶‡§æ‡§à ‡§ï‡§∞‡§§‡•á ‡§∏‡§Æ‡§Ø ‡§µ‡§ø‡§¶‡•á‡§∂‡•Ä ‡§™‡•Å‡§∞‡§æ‡§§‡§§‡•ç‡§µ ‡§µ‡§ø‡§∂‡•á‡§∑‡§ú‡•ç‡§û‡•ã‡§Ç ‡§ï‡•ã ‡§è‡§ï 80 ‡§´‡•Å‡§ü ‡§ï‡•Ä ‡§≤‡§Æ‡•ç‡§¨‡§æ‡§à ‡§ï‡•á ‡§Æ‡§æ‡§®‡§µ ‡§ï‡§Ç‡§ï‡§æ‡§≤ ‡§ï‡•á ‡§Ö‡§µ‡§∑‡•á‡§∂ ‡§Æ‡§ø‡§≤‡•á ‡§ú‡•ã ‡§Æ‡§π‡§æ‡§≠‡§æ‡§∞‡§§ ‡§ï‡•á ‡§≠‡•Ä‡§Æ ‡§ï‡•á ‡§™‡•Å‡§§‡•ç‡§∞ ‡§ò‡§ü‡•ã‡§§‡•ç‡§ï‡§ö ‡§ï‡•á ‡§µ‡§∞‡•ç‡§£‡§® ‡§ï‡•á ‡§∏‡§Æ‡§æ‡§® ‡§π‡•à ‡§î‡§∞ ‡§π‡§Æ ‡§≠‡§æ‡§∞‡§§ ‡§µ‡§æ‡§∏‡§ø‡§Ø‡•ã‡§Ç ‡§ï‡•ã ‡§Æ‡§π‡§æ‡§≠‡§æ‡§∞‡§§ ‡§π‡•Ä ‡§ï‡§π‡§æ‡§®‡•Ä ‡§ï‡§æ‡§≤‡•ç‡§™‡§®‡•Ä‡§ï ‡§≤‡§ó‡§§‡•Ä ‡§π‡•à ‡§á‡§∏‡•á ‡§°‡§ø‡§∏‡•ç‡§ï‡§µ‡§∞‡•Ä ‡§ö‡•à‡§®‡§≤ ‡§®‡•á ‡§™‡•ç‡§∞‡§∏‡§æ‡§∞‡§ø‡§§ ‡§ï‡§ø‡§Ø‡§æ ‡§π‡•à ‡§ú‡§Ø ‡§π‡•ã ‡§∏‡§®‡§æ‡§§‡§® ‡§ß‡§∞‡•ç‡§Æ ‡§ï‡•Ä ‡§ú‡§Ø ‡§π‡•ã ‡§ú‡§Ø ‡§∂‡•ç‡§∞‡•Ä ‡§∞‡§æ‡§Æ ‡§ú‡§Ø ‡§∂‡•ç‡§∞‡•Ä ‡§ï‡•É‡§∑‡•ç‡§£,"[0, 1, 0, 0]"
2,13,‡§≠‡§æ‡§à ‡§ú‡§æ‡§ï‡•á ‡§π‡§ø‡§®‡•ç‡§¶‡•Ç ‡§≠‡§æ‡§á‡§Ø‡•ã‡§Ç ‡§ï‡•Ä ‡§Æ‡§¶‡§¶ ‡§ï‡§∞ ‡§ú‡§ø‡§®‡§ï‡•Ä ‡§®‡•å‡§ï‡§∞‡•Ä ‡§ö‡§≤‡•Ä ‡§ó‡§à ‡§ú‡•ã ‡§Ü‡§§‡•ç‡§Æ‡§π‡§§‡•ç‡§Ø‡§æ ‡§ï‡§∞ ‡§∞‡§π‡•á ‡§π‡•à ‡§Ö‡§¨ ‡§Ø‡•á ‡§Æ‡§§ ‡§™‡•Ç‡§õ‡§®‡§æ ‡§§‡•Ç‡§®‡•á ‡§ï‡§ø‡§§‡§®‡•Ä ‡§ï‡•Ä ‡§Æ‡§¶‡§¶ ‡§ï‡•Ä,"[0, 0, 0, 1]"
3,14,‡§Ø‡§π ‡§¶‡•Å‡§∞‡•ç‡§ò‡§ü‡§®‡§æ ‡§ï‡§®‡•ç‡§®‡•Ç‡§∞ ‡§Ö‡§Ç‡§§‡§∞‡•ç‡§∞‡§æ‡§∑‡•ç‡§ü‡•ç‡§∞‡•Ä‡§Ø ‡§π‡§µ‡§æ‡§à ‡§Ö‡§°‡•ç‡§°‡•á ‡§Æ‡•á‡§Ç ‡§π‡•Å‡§à ‡§ú‡§¨ ‡§è‡§ï ‡§µ‡•ç‡§Ø‡§ï‡•ç‡§§‡§ø ‡§™‡§æ‡§µ‡§∞ ‡§¨‡•à‡§Ç‡§ï ‡§ï‡§æ ‡§â‡§™‡§Ø‡•ã‡§ó ‡§ï‡§∞‡§ï‡•á ‡§Ö‡§™‡§®‡•á ‡§∏‡•á‡§≤ ‡§´‡•ã‡§® ‡§ï‡•ã ‡§ö‡§æ‡§∞‡•ç‡§ú ‡§ï‡§∞ ‡§∞‡§π‡§æ ‡§•‡§æ ‡§î‡§∞ ‡§Ü‡§ó ‡§≤‡§ó ‡§ó‡§à ‡§ú‡§æ‡§ó‡§∞‡•Ç‡§ï‡§§‡§æ ‡§¨‡§¢‡§º‡§æ‡§®‡•á ‡§ï‡•á ‡§≤‡§ø‡§è ‡§µ‡•Ä‡§°‡§ø‡§Ø‡•ã ‡§ï‡•ã ‡§∂‡•á‡§Ø‡§∞ ‡§ï‡§∞‡•á‡§Ç,"[0, 1, 0, 0]"
4,16,‡§∞‡•á‡§ü ‡§´‡§ø‡§ï‡•ç‡§∏ ‡§π‡•à‡§ï‡•É‡§™‡•ç‡§Ø‡§æ ‡§Æ‡•ã‡§≤ ‡§≠‡§æ‡§µ ‡§® ‡§ï‡§∞‡•á‡§Ç ‡§∂‡§æ‡§π‡•Ä‡§® ‡§¨‡§æ‡§ó‡§º ‡§™‡•ç‡§∞‡•ã‡§ü‡•á‡§∏‡•ç‡§ü,"[0, 0, 1, 1]"


##### **Datasets with Fake,Non_Fake & Offensive,Non_Offensive & Hate,Non_Hate & Defamation,Non_Defamation :**

In [None]:
# hostile train data 
hostile_train=cleaned_train_df[cleaned_train_df['Labels Set'] !="non-hostile"]
hostile_train.head() 

Unnamed: 0,Unique ID,Post,Labels Set
0,1,‡§Æ‡•á‡§∞‡•á ‡§¶‡•á‡§∂ ‡§ï‡•á ‡§π‡§ø‡§®‡•ç‡§¶‡•Å ‡§¨‡§π‡•Å‡§§ ‡§®‡§ø‡§∞‡§æ‡§≤‡•á ‡§π‡•à ‡§ï‡•Å‡§õ ‡§§‡•ã ‡§™‡§ï‡•ç‡§ï‡•á ‡§∞‡§æ‡§Æ ‡§≠‡§ï‡•ç‡§§ ‡§π‡•à ‡§î‡§∞ ‡§ï‡•Å‡§õ ‡§¨‡§æ‡§¨‡§∞ ‡§ï‡•á ‡§∏‡§æ‡§≤‡•á ‡§π‡•à ‡§ú‡§Ø ‡§∂‡•ç‡§∞‡•Ä ‡§∞‡§æ‡§Æ,"hate,offensive"
3,4,prabhav218 ‡§∏‡§æ‡§≤‡•á ‡§ú‡•á‡§è‡§®‡§Ø‡•Ç ‡§õ‡§æ‡§™ ‡§ï‡§Æ‡§ø‡§®‡•á ‡§≤‡•ã‡§ó ‡§π‡§ø‡§®‡•ç‡§¶‡•Å‡§ì‡§Ç ‡§ï‡•ã ‡§Ø‡§π ‡§ï‡§π‡§§‡•á ‡§π‡•à ‡§ï‡•Ä ‡§∏‡§Ç‡§µ‡§ø‡§ß‡§æ‡§® ‡§∏‡§¨‡§ï‡•ã ‡§¨‡§∞‡§æ‡§¨‡§∞ ‡§Ö‡§ß‡§ø‡§ï‡§æ‡§∞ ‡§¶‡•á‡§§‡§æ ‡§π‡•à ‡§∏‡§ö‡•ç‡§ö‡§æ‡§à ‡§Ø‡§π ‡§π‡•à ‡§ï‡§ø ‡§Ø‡§π ‡§¨‡§∞‡§æ‡§¨‡§∞ ‡§Ö‡§ß‡§ø‡§ï‡§æ‡§∞ ‡§®‡§π‡•Ä‡§Ç ‡§¶‡•á‡§§‡§æ ‡§π‡•à,"defamation,offensive"
5,6,‡§ö‡•Ä‡§® ‡§®‡•á UN ‡§Æ‡•á‡§Ç ‡§§‡§∞‡•ç‡§ï ‡§¶‡§ø‡§Ø‡§æ ‡§ï‡•Ä ‡§≠‡§æ‡§∞‡§§ ‡§ï‡§æ ‡§µ‡§ø‡§™‡§ï‡•ç‡§∑ ‡§π‡•Ä ‡§Ö‡§ú‡§∞‚Äå ‡§Æ‡§∏‡•Å‡§¶ ‡§ï‡•ã ‡§Ü‡§§‡§Ç‡§ï‡•Ä ‡§®‡§π‡•Ä‡§Ç ‡§Æ‡§æ‡§®‡§§‡§æ ‡§§‡•ã ‡§π‡§Æ ‡§ï‡•à‡§∏‡•á ‡§Æ‡§æ‡§®‡•á ‡§ö‡•Å‡§≤‡•ç‡§≤‡•Ç ‡§≠‡§∞ ‡§Æ‡•Ç‡§§‡•ç‡§∞ ‡§Æ‡•á‡§Ç ‡§°‡•Ç‡§¨ ‡§Æ‡§∞‡•ã ‡§ó‡§¶‡•ç‡§¶‡§æ‡§∞‡•ã‡§Ç ‡§Ö‡§¨ ‡§Ø‡§π ‡§≠‡§æ‡§∞‡§§ ‡§ï‡•á ‡§≤‡•ã‡§ó‡•ã‡§Ç ‡§ï‡•ã ‡§∏‡•ã‡§ö‡§®‡§æ ‡§π‡•à ‡§ï‡§ø ‡§µ‡•ã ‡§µ‡§ø‡§™‡§ï‡•ç‡§∑ ‡§ï‡•ã ‡§µ‡•ã‡§ü ‡§ï‡•ç‡§Ø‡•ã‡§Ç ‡§ï‡§∞‡•á‡§Ç ‡§µ‡§ø‡§ï‡•ç‡§∞‡§Æ ‡§∂‡§∞‡•ç‡§Æ‡§æ,fake
10,11,RT Pb swain ‡§Æ‡•ã‡§¶‡•Ä‡§ú‡•Ä ‡§î‡§∞ ‡§ú‡§¨ ‡§∏‡§æ‡§∞‡§æ ‡§¶‡•á‡§∂ ‡§∏‡•á‡§®‡§æ ‡§ï‡•á ‡§∏‡§æ‡§• ‡§ñ‡§°‡•Ä ‡§π‡•à ‡§™‡§∞ ‡§¶‡•ã ‡§∏‡§Ø‡§æ‡§®‡•á ‡§µ‡§ø‡§¶‡•á‡§∂ ‡§Æ‡•á ‡§™‡§°‡•á ‡§π‡•à ‡§á‡§∏‡§≤‡§ø‡§è ‡§¨‡•ã‡§≤‡§§‡•á ‡§π‡•à‡§Ç ‡§µ‡§ø‡§¶‡•á‡§∂‡•Ä ‡§Æ‡§æ‡§Ç ‡§ï‡§æ ‡§¨‡•á‡§ü‡§æ ‡§ï‡§≠‡•Ä ‡§¶‡•á‡§∂‡§≠‡§ï‡•ç‡§§ ‡§®,hate
11,12,RT ShilpiSinghINC 48000 ‡§ò‡§∞‡•ã‡§Ç ‡§ï‡•ã ‡§§‡•ã‡§°‡§º‡§®‡•á ‡§ï‡§æ ‡§Ü‡§¶‡•á‡§∂ ‡§Ü‡§Ø‡§æ ‡§π‡•à ‡§ï‡§ø‡§∏‡•Ä ‡§ï‡•ã ‡§ï‡•ã‡§à ‡§´‡§∞‡•ç‡§ï‡§º ‡§®‡§π‡•Ä‡§Ç ‡§™‡§°‡§º‡§§‡§æ ‡§Ö‡§Æ‡•Ä‡§∞‡•ã‡§Ç ‡§ï‡•á 5 ‡§Æ‡•á‡§Ç ‡§∏‡•á 1 ‡§Æ‡§ï‡§æ‡§® ‡§ï‡•á ‡§ï‡§ø‡§∏‡•Ä ‡§Ö‡§µ‡•à‡§ß ‡§π‡§ø‡§∏‡•ç‡§∏‡•á ‡§≠‡•Ä ‡§è‡§ï,offensive


In [None]:
# hostile validate data 
hostile_validate=cleaned_validate_df[cleaned_validate_df['Labels Set'] !="non-hostile"]
hostile_validate.head() 

Unnamed: 0,Unique ID,Post,Labels Set
1,2,‡§≠‡§æ‡§∞‡§§‡•Ä‡§Ø ‡§ú‡§®‡§§‡§æ ‡§™‡§æ‡§∞‡•ç‡§ü‡•Ä rss ‡§µ‡§æ‡§≤‡•á ‡§á‡§§‡§®‡•á ‡§ó‡§ø‡§∞‡•á ‡§π‡•Å‡§è ‡§π‡•à‡§Ç ‡§ú‡§π‡§æ‡§Ç ‡§Æ‡•à‡§Ç ‡§∞‡§π‡§§‡•Ä ‡§π‡•Ç‡§Ç ‡§µ‡§π‡§æ‡§Ç ‡§Æ‡•á‡§∞‡•Ä ‡§ú‡§æ‡§∏‡•Ç‡§∏‡•Ä ‡§ï‡§∞‡§æ ‡§∞‡§π‡•á‡§Ç ‡§π‡•à ‡§â‡§∏‡§ï‡•Ä ‡§ú‡§æ‡§∏‡•Ç‡§∏ ‡§ï‡•Ä ‡§™‡§π‡§ö‡§æ‡§® ‡§Æ‡•Å‡§ù‡•á ‡§Ö‡§ö‡•ç‡§õ‡•Ä ‡§§‡§∞‡§π ‡§π‡•à rss ‡§¨‡•Ä‡§ú‡•á‡§™‡•Ä ‡§µ‡§æ‡§≤‡•á ‡§ï‡•Ä ‡§ú‡§æ‡§∏‡•Ç‡§∏ ‡§¶‡§ø‡§≤‡•ç‡§≤‡•Ä ‡§Æ‡•á‡§Ç ‡§ï‡•å‡§® ‡§π‡•à ‡§â‡§§‡•ç‡§§‡§∞ ‡§™‡•ç‡§∞‡§¶‡•á‡§∂ ‡§Æ‡•á‡§Ç ‡§ï‡•å‡§® ‡§π‡•à ‡§π‡§∞‡§ø‡§Ø‡§æ‡§£‡§æ ‡§∞‡§æ‡§ú‡§∏‡•ç‡§•‡§æ‡§® ‡§Æ‡•á‡§Ç ‡§ï‡•å‡§® ‡§π‡•à ‡§∏‡§¨‡§ï‡•Ä ‡§™‡§π‡§ö‡§æ‡§® ‡§π‡•à ‡§Æ‡•Å‡§ù‡•á ‡§Æ‡•á‡§∞‡•Ä ‡§®‡§ú‡§∞ ‡§∏‡•á ‡§¨‡§ö ‡§®‡§π‡•Ä‡§Ç ‡§∏‡§ï‡§§‡•á ‡§π‡•ã,defamation
7,8,‡§Ö‡§¶‡•ç‡§≠‡•Å‡§§ ‡§ú‡•ã ‡§µ‡§æ‡§Æ‡§™‡§Ç‡§•‡•Ä ‡§ï‡§π‡§§‡•á ‡§π‡•à ‡§ï‡§ø ‡§Æ‡§π‡§æ‡§≠‡§æ‡§∞‡§§ ‡§ï‡§æ ‡§Ø‡•Å‡§¶‡•ç‡§ß ‡§ï‡§æ‡§≤‡•ç‡§™‡§®‡§ø‡§ï ‡§π‡•à ‡§î‡§∞ ‡§∏‡§®‡§æ‡§§‡§® ‡§ß‡§∞‡•ç‡§Æ ‡§ï‡•Å‡§õ ‡§π‡•à ‡§π‡•Ä ‡§®‡§π‡•Ä ‡§â‡§®‡§ï‡•á ‡§Æ‡•Å‡§Ç‡§π ‡§™‡§∞ ‡§µ‡§ø‡§¶‡•á‡§∂‡•Ä ‡§™‡•Å‡§∞‡§æ‡§§‡§§‡•ç‡§µ ‡§µ‡§ø‡§≠‡§æ‡§ó ‡§®‡•á ‡§ú‡•ã‡§∞‡§¶‡§æ‡§∞ ‡§§‡§Æ‡§æ‡§ö‡§æ ‡§Æ‡§æ‡§∞ ‡§¶‡§ø‡§Ø‡§æ ‡§π‡•à ‡§ï‡•Å‡§∞‡•Ç‡§ï‡•ç‡§∑‡•á‡§§‡•ç‡§∞ ‡§ï‡•á ‡§™‡§æ‡§∏ ‡§ñ‡•Å‡§¶‡§æ‡§à ‡§ï‡§∞‡§§‡•á ‡§∏‡§Æ‡§Ø ‡§µ‡§ø‡§¶‡•á‡§∂‡•Ä ‡§™‡•Å‡§∞‡§æ‡§§‡§§‡•ç‡§µ ‡§µ‡§ø‡§∂‡•á‡§∑‡§ú‡•ç‡§û‡•ã‡§Ç ‡§ï‡•ã ‡§è‡§ï 80 ‡§´‡•Å‡§ü ‡§ï‡•Ä ‡§≤‡§Æ‡•ç‡§¨‡§æ‡§à ‡§ï‡•á ‡§Æ‡§æ‡§®‡§µ ‡§ï‡§Ç‡§ï‡§æ‡§≤ ‡§ï‡•á ‡§Ö‡§µ‡§∑‡•á‡§∂ ‡§Æ‡§ø‡§≤‡•á ‡§ú‡•ã ‡§Æ‡§π‡§æ‡§≠‡§æ‡§∞‡§§ ‡§ï‡•á ‡§≠‡•Ä‡§Æ ‡§ï‡•á ‡§™‡•Å‡§§‡•ç‡§∞ ‡§ò‡§ü‡•ã‡§§‡•ç‡§ï‡§ö ‡§ï‡•á ‡§µ‡§∞‡•ç‡§£‡§® ‡§ï‡•á ‡§∏‡§Æ‡§æ‡§® ‡§π‡•à ‡§î‡§∞ ‡§π‡§Æ ‡§≠‡§æ‡§∞‡§§ ‡§µ‡§æ‡§∏‡§ø‡§Ø‡•ã‡§Ç ‡§ï‡•ã ‡§Æ‡§π‡§æ‡§≠‡§æ‡§∞‡§§ ‡§π‡•Ä ‡§ï‡§π‡§æ‡§®‡•Ä ‡§ï‡§æ‡§≤‡•ç‡§™‡§®‡•Ä‡§ï ‡§≤‡§ó‡§§‡•Ä ‡§π‡•à ‡§á‡§∏‡•á ‡§°‡§ø‡§∏‡•ç‡§ï‡§µ‡§∞‡•Ä ‡§ö‡•à‡§®‡§≤ ‡§®‡•á ‡§™‡•ç‡§∞‡§∏‡§æ‡§∞‡§ø‡§§ ‡§ï‡§ø‡§Ø‡§æ ‡§π‡•à ‡§ú‡§Ø ‡§π‡•ã ‡§∏‡§®‡§æ‡§§‡§® ‡§ß‡§∞‡•ç‡§Æ ‡§ï‡•Ä ‡§ú‡§Ø ‡§π‡•ã ‡§ú‡§Ø ‡§∂‡•ç‡§∞‡•Ä ‡§∞‡§æ‡§Æ ‡§ú‡§Ø ‡§∂‡•ç‡§∞‡•Ä ‡§ï‡•É‡§∑‡•ç‡§£,fake
12,13,‡§≠‡§æ‡§à ‡§ú‡§æ‡§ï‡•á ‡§π‡§ø‡§®‡•ç‡§¶‡•Ç ‡§≠‡§æ‡§á‡§Ø‡•ã‡§Ç ‡§ï‡•Ä ‡§Æ‡§¶‡§¶ ‡§ï‡§∞ ‡§ú‡§ø‡§®‡§ï‡•Ä ‡§®‡•å‡§ï‡§∞‡•Ä ‡§ö‡§≤‡•Ä ‡§ó‡§à ‡§ú‡•ã ‡§Ü‡§§‡•ç‡§Æ‡§π‡§§‡•ç‡§Ø‡§æ ‡§ï‡§∞ ‡§∞‡§π‡•á ‡§π‡•à ‡§Ö‡§¨ ‡§Ø‡•á ‡§Æ‡§§ ‡§™‡•Ç‡§õ‡§®‡§æ ‡§§‡•Ç‡§®‡•á ‡§ï‡§ø‡§§‡§®‡•Ä ‡§ï‡•Ä ‡§Æ‡§¶‡§¶ ‡§ï‡•Ä,offensive
13,14,‡§Ø‡§π ‡§¶‡•Å‡§∞‡•ç‡§ò‡§ü‡§®‡§æ ‡§ï‡§®‡•ç‡§®‡•Ç‡§∞ ‡§Ö‡§Ç‡§§‡§∞‡•ç‡§∞‡§æ‡§∑‡•ç‡§ü‡•ç‡§∞‡•Ä‡§Ø ‡§π‡§µ‡§æ‡§à ‡§Ö‡§°‡•ç‡§°‡•á ‡§Æ‡•á‡§Ç ‡§π‡•Å‡§à ‡§ú‡§¨ ‡§è‡§ï ‡§µ‡•ç‡§Ø‡§ï‡•ç‡§§‡§ø ‡§™‡§æ‡§µ‡§∞ ‡§¨‡•à‡§Ç‡§ï ‡§ï‡§æ ‡§â‡§™‡§Ø‡•ã‡§ó ‡§ï‡§∞‡§ï‡•á ‡§Ö‡§™‡§®‡•á ‡§∏‡•á‡§≤ ‡§´‡•ã‡§® ‡§ï‡•ã ‡§ö‡§æ‡§∞‡•ç‡§ú ‡§ï‡§∞ ‡§∞‡§π‡§æ ‡§•‡§æ ‡§î‡§∞ ‡§Ü‡§ó ‡§≤‡§ó ‡§ó‡§à ‡§ú‡§æ‡§ó‡§∞‡•Ç‡§ï‡§§‡§æ ‡§¨‡§¢‡§º‡§æ‡§®‡•á ‡§ï‡•á ‡§≤‡§ø‡§è ‡§µ‡•Ä‡§°‡§ø‡§Ø‡•ã ‡§ï‡•ã ‡§∂‡•á‡§Ø‡§∞ ‡§ï‡§∞‡•á‡§Ç,fake
15,16,‡§∞‡•á‡§ü ‡§´‡§ø‡§ï‡•ç‡§∏ ‡§π‡•à‡§ï‡•É‡§™‡•ç‡§Ø‡§æ ‡§Æ‡•ã‡§≤ ‡§≠‡§æ‡§µ ‡§® ‡§ï‡§∞‡•á‡§Ç ‡§∂‡§æ‡§π‡•Ä‡§® ‡§¨‡§æ‡§ó‡§º ‡§™‡•ç‡§∞‡•ã‡§ü‡•á‡§∏‡•ç‡§ü,"hate,offensive"


In [None]:
# creating dataset with each label passed through the function 
def vector_labels(data,col,neg):
  """
  input  : data: output label data (list)
           col : true label 
           neg : false label 
  return : list of output labels (if col in data return col else return neg for each entry in list od ata)
  """
  final_labels_vectors=[]
  for x in data:
    l=list(x.split(','))
    f=0
    for y in l:
      if y==col:
        final_labels_vectors.append(col)
        f=1
      if f==1:
        continue
    if f==0:
      final_labels_vectors.append(neg)
  return final_labels_vectors

# creating dataset by passing the given hostile labels
def hostile_label(dataset,col,neg):
  """
  input   : dataset : hostile data (entries which doesn't contain non-hostile)
                col : true label 
                neg : false label
  returns : modified dataset with output label should be either col or neg 
  """
  labelsvec_df_hindi=pd.DataFrame()
  labelsvec_df_hindi['Unique ID']=dataset['Unique ID']
  labelsvec_df_hindi['Post']=dataset['Post']
  data=dataset['Labels Set']
  labelsvec_df_hindi['Labels Set']=vector_labels(data,col,neg)
  return labelsvec_df_hindi

# fake vs non_fake
fake_train=hostile_label(hostile_train,"fake","non_fake")
fake_validate=hostile_label(hostile_validate,"fake","non_fake")

# hate vs non_hate 
hate_train=hostile_label(hostile_train,"hate","non_hate")
hate_validate=hostile_label(hostile_validate,"hate","non_hate")

# defamation vs non_defamation 
defamation_train=hostile_label(hostile_train,"defamation","non_defamation")
defamation_validate=hostile_label(hostile_validate,"defamation","non_defamation")

# offensive vs non_offensive 
offensive_train=hostile_label(hostile_train,"offensive","non_offensive")
offensive_validate=hostile_label(hostile_validate,"offensive","non_offensive")

In [None]:
# fake_train data 
fake_train.head()

Unnamed: 0,Unique ID,Post,Labels Set
0,1,‡§Æ‡•á‡§∞‡•á ‡§¶‡•á‡§∂ ‡§ï‡•á ‡§π‡§ø‡§®‡•ç‡§¶‡•Å ‡§¨‡§π‡•Å‡§§ ‡§®‡§ø‡§∞‡§æ‡§≤‡•á ‡§π‡•à ‡§ï‡•Å‡§õ ‡§§‡•ã ‡§™‡§ï‡•ç‡§ï‡•á ‡§∞‡§æ‡§Æ ‡§≠‡§ï‡•ç‡§§ ‡§π‡•à ‡§î‡§∞ ‡§ï‡•Å‡§õ ‡§¨‡§æ‡§¨‡§∞ ‡§ï‡•á ‡§∏‡§æ‡§≤‡•á ‡§π‡•à ‡§ú‡§Ø ‡§∂‡•ç‡§∞‡•Ä ‡§∞‡§æ‡§Æ,non_fake
3,4,prabhav218 ‡§∏‡§æ‡§≤‡•á ‡§ú‡•á‡§è‡§®‡§Ø‡•Ç ‡§õ‡§æ‡§™ ‡§ï‡§Æ‡§ø‡§®‡•á ‡§≤‡•ã‡§ó ‡§π‡§ø‡§®‡•ç‡§¶‡•Å‡§ì‡§Ç ‡§ï‡•ã ‡§Ø‡§π ‡§ï‡§π‡§§‡•á ‡§π‡•à ‡§ï‡•Ä ‡§∏‡§Ç‡§µ‡§ø‡§ß‡§æ‡§® ‡§∏‡§¨‡§ï‡•ã ‡§¨‡§∞‡§æ‡§¨‡§∞ ‡§Ö‡§ß‡§ø‡§ï‡§æ‡§∞ ‡§¶‡•á‡§§‡§æ ‡§π‡•à ‡§∏‡§ö‡•ç‡§ö‡§æ‡§à ‡§Ø‡§π ‡§π‡•à ‡§ï‡§ø ‡§Ø‡§π ‡§¨‡§∞‡§æ‡§¨‡§∞ ‡§Ö‡§ß‡§ø‡§ï‡§æ‡§∞ ‡§®‡§π‡•Ä‡§Ç ‡§¶‡•á‡§§‡§æ ‡§π‡•à,non_fake
5,6,‡§ö‡•Ä‡§® ‡§®‡•á UN ‡§Æ‡•á‡§Ç ‡§§‡§∞‡•ç‡§ï ‡§¶‡§ø‡§Ø‡§æ ‡§ï‡•Ä ‡§≠‡§æ‡§∞‡§§ ‡§ï‡§æ ‡§µ‡§ø‡§™‡§ï‡•ç‡§∑ ‡§π‡•Ä ‡§Ö‡§ú‡§∞‚Äå ‡§Æ‡§∏‡•Å‡§¶ ‡§ï‡•ã ‡§Ü‡§§‡§Ç‡§ï‡•Ä ‡§®‡§π‡•Ä‡§Ç ‡§Æ‡§æ‡§®‡§§‡§æ ‡§§‡•ã ‡§π‡§Æ ‡§ï‡•à‡§∏‡•á ‡§Æ‡§æ‡§®‡•á ‡§ö‡•Å‡§≤‡•ç‡§≤‡•Ç ‡§≠‡§∞ ‡§Æ‡•Ç‡§§‡•ç‡§∞ ‡§Æ‡•á‡§Ç ‡§°‡•Ç‡§¨ ‡§Æ‡§∞‡•ã ‡§ó‡§¶‡•ç‡§¶‡§æ‡§∞‡•ã‡§Ç ‡§Ö‡§¨ ‡§Ø‡§π ‡§≠‡§æ‡§∞‡§§ ‡§ï‡•á ‡§≤‡•ã‡§ó‡•ã‡§Ç ‡§ï‡•ã ‡§∏‡•ã‡§ö‡§®‡§æ ‡§π‡•à ‡§ï‡§ø ‡§µ‡•ã ‡§µ‡§ø‡§™‡§ï‡•ç‡§∑ ‡§ï‡•ã ‡§µ‡•ã‡§ü ‡§ï‡•ç‡§Ø‡•ã‡§Ç ‡§ï‡§∞‡•á‡§Ç ‡§µ‡§ø‡§ï‡•ç‡§∞‡§Æ ‡§∂‡§∞‡•ç‡§Æ‡§æ,fake
10,11,RT Pb swain ‡§Æ‡•ã‡§¶‡•Ä‡§ú‡•Ä ‡§î‡§∞ ‡§ú‡§¨ ‡§∏‡§æ‡§∞‡§æ ‡§¶‡•á‡§∂ ‡§∏‡•á‡§®‡§æ ‡§ï‡•á ‡§∏‡§æ‡§• ‡§ñ‡§°‡•Ä ‡§π‡•à ‡§™‡§∞ ‡§¶‡•ã ‡§∏‡§Ø‡§æ‡§®‡•á ‡§µ‡§ø‡§¶‡•á‡§∂ ‡§Æ‡•á ‡§™‡§°‡•á ‡§π‡•à ‡§á‡§∏‡§≤‡§ø‡§è ‡§¨‡•ã‡§≤‡§§‡•á ‡§π‡•à‡§Ç ‡§µ‡§ø‡§¶‡•á‡§∂‡•Ä ‡§Æ‡§æ‡§Ç ‡§ï‡§æ ‡§¨‡•á‡§ü‡§æ ‡§ï‡§≠‡•Ä ‡§¶‡•á‡§∂‡§≠‡§ï‡•ç‡§§ ‡§®,non_fake
11,12,RT ShilpiSinghINC 48000 ‡§ò‡§∞‡•ã‡§Ç ‡§ï‡•ã ‡§§‡•ã‡§°‡§º‡§®‡•á ‡§ï‡§æ ‡§Ü‡§¶‡•á‡§∂ ‡§Ü‡§Ø‡§æ ‡§π‡•à ‡§ï‡§ø‡§∏‡•Ä ‡§ï‡•ã ‡§ï‡•ã‡§à ‡§´‡§∞‡•ç‡§ï‡§º ‡§®‡§π‡•Ä‡§Ç ‡§™‡§°‡§º‡§§‡§æ ‡§Ö‡§Æ‡•Ä‡§∞‡•ã‡§Ç ‡§ï‡•á 5 ‡§Æ‡•á‡§Ç ‡§∏‡•á 1 ‡§Æ‡§ï‡§æ‡§® ‡§ï‡•á ‡§ï‡§ø‡§∏‡•Ä ‡§Ö‡§µ‡•à‡§ß ‡§π‡§ø‡§∏‡•ç‡§∏‡•á ‡§≠‡•Ä ‡§è‡§ï,non_fake


In [None]:
# offensive train data
offensive_train.head()

Unnamed: 0,Unique ID,Post,Labels Set
0,1,‡§Æ‡•á‡§∞‡•á ‡§¶‡•á‡§∂ ‡§ï‡•á ‡§π‡§ø‡§®‡•ç‡§¶‡•Å ‡§¨‡§π‡•Å‡§§ ‡§®‡§ø‡§∞‡§æ‡§≤‡•á ‡§π‡•à ‡§ï‡•Å‡§õ ‡§§‡•ã ‡§™‡§ï‡•ç‡§ï‡•á ‡§∞‡§æ‡§Æ ‡§≠‡§ï‡•ç‡§§ ‡§π‡•à ‡§î‡§∞ ‡§ï‡•Å‡§õ ‡§¨‡§æ‡§¨‡§∞ ‡§ï‡•á ‡§∏‡§æ‡§≤‡•á ‡§π‡•à ‡§ú‡§Ø ‡§∂‡•ç‡§∞‡•Ä ‡§∞‡§æ‡§Æ,offensive
3,4,prabhav218 ‡§∏‡§æ‡§≤‡•á ‡§ú‡•á‡§è‡§®‡§Ø‡•Ç ‡§õ‡§æ‡§™ ‡§ï‡§Æ‡§ø‡§®‡•á ‡§≤‡•ã‡§ó ‡§π‡§ø‡§®‡•ç‡§¶‡•Å‡§ì‡§Ç ‡§ï‡•ã ‡§Ø‡§π ‡§ï‡§π‡§§‡•á ‡§π‡•à ‡§ï‡•Ä ‡§∏‡§Ç‡§µ‡§ø‡§ß‡§æ‡§® ‡§∏‡§¨‡§ï‡•ã ‡§¨‡§∞‡§æ‡§¨‡§∞ ‡§Ö‡§ß‡§ø‡§ï‡§æ‡§∞ ‡§¶‡•á‡§§‡§æ ‡§π‡•à ‡§∏‡§ö‡•ç‡§ö‡§æ‡§à ‡§Ø‡§π ‡§π‡•à ‡§ï‡§ø ‡§Ø‡§π ‡§¨‡§∞‡§æ‡§¨‡§∞ ‡§Ö‡§ß‡§ø‡§ï‡§æ‡§∞ ‡§®‡§π‡•Ä‡§Ç ‡§¶‡•á‡§§‡§æ ‡§π‡•à,offensive
5,6,‡§ö‡•Ä‡§® ‡§®‡•á UN ‡§Æ‡•á‡§Ç ‡§§‡§∞‡•ç‡§ï ‡§¶‡§ø‡§Ø‡§æ ‡§ï‡•Ä ‡§≠‡§æ‡§∞‡§§ ‡§ï‡§æ ‡§µ‡§ø‡§™‡§ï‡•ç‡§∑ ‡§π‡•Ä ‡§Ö‡§ú‡§∞‚Äå ‡§Æ‡§∏‡•Å‡§¶ ‡§ï‡•ã ‡§Ü‡§§‡§Ç‡§ï‡•Ä ‡§®‡§π‡•Ä‡§Ç ‡§Æ‡§æ‡§®‡§§‡§æ ‡§§‡•ã ‡§π‡§Æ ‡§ï‡•à‡§∏‡•á ‡§Æ‡§æ‡§®‡•á ‡§ö‡•Å‡§≤‡•ç‡§≤‡•Ç ‡§≠‡§∞ ‡§Æ‡•Ç‡§§‡•ç‡§∞ ‡§Æ‡•á‡§Ç ‡§°‡•Ç‡§¨ ‡§Æ‡§∞‡•ã ‡§ó‡§¶‡•ç‡§¶‡§æ‡§∞‡•ã‡§Ç ‡§Ö‡§¨ ‡§Ø‡§π ‡§≠‡§æ‡§∞‡§§ ‡§ï‡•á ‡§≤‡•ã‡§ó‡•ã‡§Ç ‡§ï‡•ã ‡§∏‡•ã‡§ö‡§®‡§æ ‡§π‡•à ‡§ï‡§ø ‡§µ‡•ã ‡§µ‡§ø‡§™‡§ï‡•ç‡§∑ ‡§ï‡•ã ‡§µ‡•ã‡§ü ‡§ï‡•ç‡§Ø‡•ã‡§Ç ‡§ï‡§∞‡•á‡§Ç ‡§µ‡§ø‡§ï‡•ç‡§∞‡§Æ ‡§∂‡§∞‡•ç‡§Æ‡§æ,non_offensive
10,11,RT Pb swain ‡§Æ‡•ã‡§¶‡•Ä‡§ú‡•Ä ‡§î‡§∞ ‡§ú‡§¨ ‡§∏‡§æ‡§∞‡§æ ‡§¶‡•á‡§∂ ‡§∏‡•á‡§®‡§æ ‡§ï‡•á ‡§∏‡§æ‡§• ‡§ñ‡§°‡•Ä ‡§π‡•à ‡§™‡§∞ ‡§¶‡•ã ‡§∏‡§Ø‡§æ‡§®‡•á ‡§µ‡§ø‡§¶‡•á‡§∂ ‡§Æ‡•á ‡§™‡§°‡•á ‡§π‡•à ‡§á‡§∏‡§≤‡§ø‡§è ‡§¨‡•ã‡§≤‡§§‡•á ‡§π‡•à‡§Ç ‡§µ‡§ø‡§¶‡•á‡§∂‡•Ä ‡§Æ‡§æ‡§Ç ‡§ï‡§æ ‡§¨‡•á‡§ü‡§æ ‡§ï‡§≠‡•Ä ‡§¶‡•á‡§∂‡§≠‡§ï‡•ç‡§§ ‡§®,non_offensive
11,12,RT ShilpiSinghINC 48000 ‡§ò‡§∞‡•ã‡§Ç ‡§ï‡•ã ‡§§‡•ã‡§°‡§º‡§®‡•á ‡§ï‡§æ ‡§Ü‡§¶‡•á‡§∂ ‡§Ü‡§Ø‡§æ ‡§π‡•à ‡§ï‡§ø‡§∏‡•Ä ‡§ï‡•ã ‡§ï‡•ã‡§à ‡§´‡§∞‡•ç‡§ï‡§º ‡§®‡§π‡•Ä‡§Ç ‡§™‡§°‡§º‡§§‡§æ ‡§Ö‡§Æ‡•Ä‡§∞‡•ã‡§Ç ‡§ï‡•á 5 ‡§Æ‡•á‡§Ç ‡§∏‡•á 1 ‡§Æ‡§ï‡§æ‡§® ‡§ï‡•á ‡§ï‡§ø‡§∏‡•Ä ‡§Ö‡§µ‡•à‡§ß ‡§π‡§ø‡§∏‡•ç‡§∏‡•á ‡§≠‡•Ä ‡§è‡§ï,offensive


In [None]:
# hate train data 
hate_train.head()

Unnamed: 0,Unique ID,Post,Labels Set
0,1,‡§Æ‡•á‡§∞‡•á ‡§¶‡•á‡§∂ ‡§ï‡•á ‡§π‡§ø‡§®‡•ç‡§¶‡•Å ‡§¨‡§π‡•Å‡§§ ‡§®‡§ø‡§∞‡§æ‡§≤‡•á ‡§π‡•à ‡§ï‡•Å‡§õ ‡§§‡•ã ‡§™‡§ï‡•ç‡§ï‡•á ‡§∞‡§æ‡§Æ ‡§≠‡§ï‡•ç‡§§ ‡§π‡•à ‡§î‡§∞ ‡§ï‡•Å‡§õ ‡§¨‡§æ‡§¨‡§∞ ‡§ï‡•á ‡§∏‡§æ‡§≤‡•á ‡§π‡•à ‡§ú‡§Ø ‡§∂‡•ç‡§∞‡•Ä ‡§∞‡§æ‡§Æ,hate
3,4,prabhav218 ‡§∏‡§æ‡§≤‡•á ‡§ú‡•á‡§è‡§®‡§Ø‡•Ç ‡§õ‡§æ‡§™ ‡§ï‡§Æ‡§ø‡§®‡•á ‡§≤‡•ã‡§ó ‡§π‡§ø‡§®‡•ç‡§¶‡•Å‡§ì‡§Ç ‡§ï‡•ã ‡§Ø‡§π ‡§ï‡§π‡§§‡•á ‡§π‡•à ‡§ï‡•Ä ‡§∏‡§Ç‡§µ‡§ø‡§ß‡§æ‡§® ‡§∏‡§¨‡§ï‡•ã ‡§¨‡§∞‡§æ‡§¨‡§∞ ‡§Ö‡§ß‡§ø‡§ï‡§æ‡§∞ ‡§¶‡•á‡§§‡§æ ‡§π‡•à ‡§∏‡§ö‡•ç‡§ö‡§æ‡§à ‡§Ø‡§π ‡§π‡•à ‡§ï‡§ø ‡§Ø‡§π ‡§¨‡§∞‡§æ‡§¨‡§∞ ‡§Ö‡§ß‡§ø‡§ï‡§æ‡§∞ ‡§®‡§π‡•Ä‡§Ç ‡§¶‡•á‡§§‡§æ ‡§π‡•à,non_hate
5,6,‡§ö‡•Ä‡§® ‡§®‡•á UN ‡§Æ‡•á‡§Ç ‡§§‡§∞‡•ç‡§ï ‡§¶‡§ø‡§Ø‡§æ ‡§ï‡•Ä ‡§≠‡§æ‡§∞‡§§ ‡§ï‡§æ ‡§µ‡§ø‡§™‡§ï‡•ç‡§∑ ‡§π‡•Ä ‡§Ö‡§ú‡§∞‚Äå ‡§Æ‡§∏‡•Å‡§¶ ‡§ï‡•ã ‡§Ü‡§§‡§Ç‡§ï‡•Ä ‡§®‡§π‡•Ä‡§Ç ‡§Æ‡§æ‡§®‡§§‡§æ ‡§§‡•ã ‡§π‡§Æ ‡§ï‡•à‡§∏‡•á ‡§Æ‡§æ‡§®‡•á ‡§ö‡•Å‡§≤‡•ç‡§≤‡•Ç ‡§≠‡§∞ ‡§Æ‡•Ç‡§§‡•ç‡§∞ ‡§Æ‡•á‡§Ç ‡§°‡•Ç‡§¨ ‡§Æ‡§∞‡•ã ‡§ó‡§¶‡•ç‡§¶‡§æ‡§∞‡•ã‡§Ç ‡§Ö‡§¨ ‡§Ø‡§π ‡§≠‡§æ‡§∞‡§§ ‡§ï‡•á ‡§≤‡•ã‡§ó‡•ã‡§Ç ‡§ï‡•ã ‡§∏‡•ã‡§ö‡§®‡§æ ‡§π‡•à ‡§ï‡§ø ‡§µ‡•ã ‡§µ‡§ø‡§™‡§ï‡•ç‡§∑ ‡§ï‡•ã ‡§µ‡•ã‡§ü ‡§ï‡•ç‡§Ø‡•ã‡§Ç ‡§ï‡§∞‡•á‡§Ç ‡§µ‡§ø‡§ï‡•ç‡§∞‡§Æ ‡§∂‡§∞‡•ç‡§Æ‡§æ,non_hate
10,11,RT Pb swain ‡§Æ‡•ã‡§¶‡•Ä‡§ú‡•Ä ‡§î‡§∞ ‡§ú‡§¨ ‡§∏‡§æ‡§∞‡§æ ‡§¶‡•á‡§∂ ‡§∏‡•á‡§®‡§æ ‡§ï‡•á ‡§∏‡§æ‡§• ‡§ñ‡§°‡•Ä ‡§π‡•à ‡§™‡§∞ ‡§¶‡•ã ‡§∏‡§Ø‡§æ‡§®‡•á ‡§µ‡§ø‡§¶‡•á‡§∂ ‡§Æ‡•á ‡§™‡§°‡•á ‡§π‡•à ‡§á‡§∏‡§≤‡§ø‡§è ‡§¨‡•ã‡§≤‡§§‡•á ‡§π‡•à‡§Ç ‡§µ‡§ø‡§¶‡•á‡§∂‡•Ä ‡§Æ‡§æ‡§Ç ‡§ï‡§æ ‡§¨‡•á‡§ü‡§æ ‡§ï‡§≠‡•Ä ‡§¶‡•á‡§∂‡§≠‡§ï‡•ç‡§§ ‡§®,hate
11,12,RT ShilpiSinghINC 48000 ‡§ò‡§∞‡•ã‡§Ç ‡§ï‡•ã ‡§§‡•ã‡§°‡§º‡§®‡•á ‡§ï‡§æ ‡§Ü‡§¶‡•á‡§∂ ‡§Ü‡§Ø‡§æ ‡§π‡•à ‡§ï‡§ø‡§∏‡•Ä ‡§ï‡•ã ‡§ï‡•ã‡§à ‡§´‡§∞‡•ç‡§ï‡§º ‡§®‡§π‡•Ä‡§Ç ‡§™‡§°‡§º‡§§‡§æ ‡§Ö‡§Æ‡•Ä‡§∞‡•ã‡§Ç ‡§ï‡•á 5 ‡§Æ‡•á‡§Ç ‡§∏‡•á 1 ‡§Æ‡§ï‡§æ‡§® ‡§ï‡•á ‡§ï‡§ø‡§∏‡•Ä ‡§Ö‡§µ‡•à‡§ß ‡§π‡§ø‡§∏‡•ç‡§∏‡•á ‡§≠‡•Ä ‡§è‡§ï,non_hate


In [None]:
# defamation train data
defamation_train.head()

Unnamed: 0,Unique ID,Post,Labels Set
0,1,‡§Æ‡•á‡§∞‡•á ‡§¶‡•á‡§∂ ‡§ï‡•á ‡§π‡§ø‡§®‡•ç‡§¶‡•Å ‡§¨‡§π‡•Å‡§§ ‡§®‡§ø‡§∞‡§æ‡§≤‡•á ‡§π‡•à ‡§ï‡•Å‡§õ ‡§§‡•ã ‡§™‡§ï‡•ç‡§ï‡•á ‡§∞‡§æ‡§Æ ‡§≠‡§ï‡•ç‡§§ ‡§π‡•à ‡§î‡§∞ ‡§ï‡•Å‡§õ ‡§¨‡§æ‡§¨‡§∞ ‡§ï‡•á ‡§∏‡§æ‡§≤‡•á ‡§π‡•à ‡§ú‡§Ø ‡§∂‡•ç‡§∞‡•Ä ‡§∞‡§æ‡§Æ,non_defamation
3,4,prabhav218 ‡§∏‡§æ‡§≤‡•á ‡§ú‡•á‡§è‡§®‡§Ø‡•Ç ‡§õ‡§æ‡§™ ‡§ï‡§Æ‡§ø‡§®‡•á ‡§≤‡•ã‡§ó ‡§π‡§ø‡§®‡•ç‡§¶‡•Å‡§ì‡§Ç ‡§ï‡•ã ‡§Ø‡§π ‡§ï‡§π‡§§‡•á ‡§π‡•à ‡§ï‡•Ä ‡§∏‡§Ç‡§µ‡§ø‡§ß‡§æ‡§® ‡§∏‡§¨‡§ï‡•ã ‡§¨‡§∞‡§æ‡§¨‡§∞ ‡§Ö‡§ß‡§ø‡§ï‡§æ‡§∞ ‡§¶‡•á‡§§‡§æ ‡§π‡•à ‡§∏‡§ö‡•ç‡§ö‡§æ‡§à ‡§Ø‡§π ‡§π‡•à ‡§ï‡§ø ‡§Ø‡§π ‡§¨‡§∞‡§æ‡§¨‡§∞ ‡§Ö‡§ß‡§ø‡§ï‡§æ‡§∞ ‡§®‡§π‡•Ä‡§Ç ‡§¶‡•á‡§§‡§æ ‡§π‡•à,defamation
5,6,‡§ö‡•Ä‡§® ‡§®‡•á UN ‡§Æ‡•á‡§Ç ‡§§‡§∞‡•ç‡§ï ‡§¶‡§ø‡§Ø‡§æ ‡§ï‡•Ä ‡§≠‡§æ‡§∞‡§§ ‡§ï‡§æ ‡§µ‡§ø‡§™‡§ï‡•ç‡§∑ ‡§π‡•Ä ‡§Ö‡§ú‡§∞‚Äå ‡§Æ‡§∏‡•Å‡§¶ ‡§ï‡•ã ‡§Ü‡§§‡§Ç‡§ï‡•Ä ‡§®‡§π‡•Ä‡§Ç ‡§Æ‡§æ‡§®‡§§‡§æ ‡§§‡•ã ‡§π‡§Æ ‡§ï‡•à‡§∏‡•á ‡§Æ‡§æ‡§®‡•á ‡§ö‡•Å‡§≤‡•ç‡§≤‡•Ç ‡§≠‡§∞ ‡§Æ‡•Ç‡§§‡•ç‡§∞ ‡§Æ‡•á‡§Ç ‡§°‡•Ç‡§¨ ‡§Æ‡§∞‡•ã ‡§ó‡§¶‡•ç‡§¶‡§æ‡§∞‡•ã‡§Ç ‡§Ö‡§¨ ‡§Ø‡§π ‡§≠‡§æ‡§∞‡§§ ‡§ï‡•á ‡§≤‡•ã‡§ó‡•ã‡§Ç ‡§ï‡•ã ‡§∏‡•ã‡§ö‡§®‡§æ ‡§π‡•à ‡§ï‡§ø ‡§µ‡•ã ‡§µ‡§ø‡§™‡§ï‡•ç‡§∑ ‡§ï‡•ã ‡§µ‡•ã‡§ü ‡§ï‡•ç‡§Ø‡•ã‡§Ç ‡§ï‡§∞‡•á‡§Ç ‡§µ‡§ø‡§ï‡•ç‡§∞‡§Æ ‡§∂‡§∞‡•ç‡§Æ‡§æ,non_defamation
10,11,RT Pb swain ‡§Æ‡•ã‡§¶‡•Ä‡§ú‡•Ä ‡§î‡§∞ ‡§ú‡§¨ ‡§∏‡§æ‡§∞‡§æ ‡§¶‡•á‡§∂ ‡§∏‡•á‡§®‡§æ ‡§ï‡•á ‡§∏‡§æ‡§• ‡§ñ‡§°‡•Ä ‡§π‡•à ‡§™‡§∞ ‡§¶‡•ã ‡§∏‡§Ø‡§æ‡§®‡•á ‡§µ‡§ø‡§¶‡•á‡§∂ ‡§Æ‡•á ‡§™‡§°‡•á ‡§π‡•à ‡§á‡§∏‡§≤‡§ø‡§è ‡§¨‡•ã‡§≤‡§§‡•á ‡§π‡•à‡§Ç ‡§µ‡§ø‡§¶‡•á‡§∂‡•Ä ‡§Æ‡§æ‡§Ç ‡§ï‡§æ ‡§¨‡•á‡§ü‡§æ ‡§ï‡§≠‡•Ä ‡§¶‡•á‡§∂‡§≠‡§ï‡•ç‡§§ ‡§®,non_defamation
11,12,RT ShilpiSinghINC 48000 ‡§ò‡§∞‡•ã‡§Ç ‡§ï‡•ã ‡§§‡•ã‡§°‡§º‡§®‡•á ‡§ï‡§æ ‡§Ü‡§¶‡•á‡§∂ ‡§Ü‡§Ø‡§æ ‡§π‡•à ‡§ï‡§ø‡§∏‡•Ä ‡§ï‡•ã ‡§ï‡•ã‡§à ‡§´‡§∞‡•ç‡§ï‡§º ‡§®‡§π‡•Ä‡§Ç ‡§™‡§°‡§º‡§§‡§æ ‡§Ö‡§Æ‡•Ä‡§∞‡•ã‡§Ç ‡§ï‡•á 5 ‡§Æ‡•á‡§Ç ‡§∏‡•á 1 ‡§Æ‡§ï‡§æ‡§® ‡§ï‡•á ‡§ï‡§ø‡§∏‡•Ä ‡§Ö‡§µ‡•à‡§ß ‡§π‡§ø‡§∏‡•ç‡§∏‡•á ‡§≠‡•Ä ‡§è‡§ï,non_defamation


### **Named Entity Recognition :**

In [None]:
# embedding package for english 
downloader.download("embeddings2.en")

[polyglot_data] Downloading package embeddings2.en to
[polyglot_data]     /root/polyglot_data...


True

In [None]:
# named entity recognition package for english 
downloader.download("ner2.en")

[polyglot_data] Downloading package ner2.en to /root/polyglot_data...


True

In [None]:
# embedding package for hindi
downloader.download("embeddings2.hi")

[polyglot_data] Downloading package embeddings2.hi to
[polyglot_data]     /root/polyglot_data...


True

In [None]:
# named entity recognition package for english 
downloader.download("ner2.hi")

[polyglot_data] Downloading package ner2.hi to /root/polyglot_data...


True

In [None]:
# this function removes named entity for the given language code 
def named_entity_recognition(data,code):
  """
  input   : data : post (not lists of posts only one post)
            code : language code either english("en") or hindi("hi") 
  returns : post data with NER removed for the language code chosen
  """
  l=[]
  entity=Text(data,hint_language_code=code).entities
  ner_list=[]
  for o in entity:
    ner_list.append(" ".join(o))  
  ner_list2=[]
  for item in ner_list:
    ner_list2.extend(item.split()) 
  new=list(data.split(" "))
  for y in new:
    if y in ner_list2:
      new.remove(y)
  l.append(new)
  return " ".join(l[0])

# creates the new dataset after removing the named entities 
def dataset_after_NER(dataset,code):
  """
  input   : dataset : cleaned binary label data 
               code : language code either english("en") or hindi("hi")
  returns : cleaned data after named entity recognitions removed for the language code specified 
  """
  cleaned_df_hindi=pd.DataFrame()
  cleaned_df_hindi['Unique ID']=dataset['Unique ID']
  data=dataset['Post']
  out=[]
  for d in data:
    out.append(named_entity_recognition(d,code))
  cleaned_df_hindi['Post']=out
  cleaned_df_hindi['Labels Set']=dataset['Labels Set']
  return cleaned_df_hindi

# ner on train data
ner_binary_train=dataset_after_NER(binary_train_df,'hi') # hindi named entity removed 
ner_binary_train=dataset_after_NER(ner_binary_train,'en') # english named entity removed 

# ner on validate data 
ner_binary_validate=dataset_after_NER(binary_validate_df,'hi')
ner_binary_validate=dataset_after_NER(ner_binary_validate,'en')

In [None]:
ner_binary_train.head()

Unnamed: 0,Unique ID,Post,Labels Set
0,1,‡§¶‡•á‡§∂ ‡§ï‡•á ‡§π‡§ø‡§®‡•ç‡§¶‡•Å ‡§¨‡§π‡•Å‡§§ ‡§®‡§ø‡§∞‡§æ‡§≤‡•á ‡§π‡•à ‡§ï‡•Å‡§õ ‡§§‡•ã ‡§™‡§ï‡•ç‡§ï‡•á ‡§≠‡§ï‡•ç‡§§ ‡§π‡•à ‡§î‡§∞ ‡§ï‡•Å‡§õ ‡§ï‡•á ‡§∏‡§æ‡§≤‡•á ‡§π‡•à ‡§ú‡§Ø ‡§∞‡§æ‡§Æ,hostile
1,2,‡§π‡§Æ‡•á‡§∂‡§æ ‡§∏‡•á ‡§ï‡§ø‡§∏‡§æ‡§®‡•ã‡§Ç ‡§ï‡•Ä ‡§ï‡§Æ‡§æ‡§à ‡§ï‡•ã ‡§¨‡§¢‡§º‡§æ‡§®‡•á ‡§ï‡•á ‡§≤‡§ø‡§è ‡§®‡§à ‡§®‡§à ‡§∏‡•ç‡§ï‡•Ä‡§Æ‡•á‡§Ç ‡§≤‡§æ‡§§‡•Ä ‡§∞‡§π‡§§‡•Ä ‡§π‡•à ‡§§‡§æ‡§ï‡§ø ‡§â‡§® ‡§™‡§∞ ‡§ú‡•ç‡§Ø‡§æ‡§¶‡§æ ‡§Ü‡§∞‡•ç‡§•‡§ø‡§ï ‡§¨‡•ã‡§ù ‡§® ‡§™‡§°‡§º‡•á,non-hostile
2,3,‡§ú‡•ã ‡§¨‡§ø‡§ú‡§®‡•á‡§∏ ‡§°‡•Ä‡§≤ 9 ‡§ú‡•Ç‡§® ‡§ï‡•ã ‡§ï‡•Ä ‡§•‡•Ä ‡§µ‡•ã ‡§°‡•Ä‡§≤ ‡§¶‡•Ä‡§™‡•á‡§∂ ‡§ï‡•ã ‡§ï‡•Ä ‡§π‡§§‡•ç‡§Ø‡§æ ‡§ï‡•á ‡§¶‡§ø‡§® ‡§π‡•Ä ‡§ï‡•ç‡§Ø‡•ã‡§Ç ‡§Ø‡§æ‡§¶ ‡§Ü‡§à ‡§¶‡•á‡§ñ‡§ø‡§è ‡§™‡•Ç‡§õ‡§§‡§æ ‡§π‡•à ‡§Ö‡§∞‡•ç‡§®‡§¨ ‡§ï‡•á ‡§∏‡§æ‡§• ‡§∞‡§ø‡§™‡§¨‡•ç‡§≤‡§ø‡§ï ‡§™‡§∞ LIVE,non-hostile
3,4,‡§õ‡§æ‡§™ ‡§ï‡§Æ‡§ø‡§®‡•á ‡§≤‡•ã‡§ó ‡§ï‡•ã ‡§Ø‡§π ‡§ï‡§π‡§§‡•á ‡§π‡•à ‡§ï‡•Ä ‡§∏‡§Ç‡§µ‡§ø‡§ß‡§æ‡§® ‡§∏‡§¨‡§ï‡•ã ‡§¨‡§∞‡§æ‡§¨‡§∞ ‡§Ö‡§ß‡§ø‡§ï‡§æ‡§∞ ‡§¶‡•á‡§§‡§æ ‡§π‡•à ‡§∏‡§ö‡•ç‡§ö‡§æ‡§à ‡§Ø‡§π ‡§π‡•à ‡§ï‡§ø ‡§Ø‡§π ‡§¨‡§∞‡§æ‡§¨‡§∞ ‡§Ö‡§ß‡§ø‡§ï‡§æ‡§∞ ‡§®‡§π‡•Ä‡§Ç ‡§¶‡•á‡§§‡§æ ‡§π‡•à,hostile
4,5,‡§Ö‡§®‡§≤‡•â‡§ï 4 ‡§ï‡•á ‡§≤‡§ø‡§è ‡§ó‡§æ‡§á‡§°‡§≤‡§æ‡§á‡§®‡•ç‡§∏ ‡§ú‡§æ‡§∞‡•Ä 7 ‡§∏‡§ø‡§§‡§Ç‡§¨‡§∞ ‡§∏‡•á ‡§Æ‡•á‡§Ç ‡§Æ‡•á‡§ü‡•ç‡§∞‡•ã ‡§∏‡•á‡§µ‡§æ ‡§∂‡•Å‡§∞‡•Å ‡§π‡•ã‡§ó‡•Ä 21 ‡§∏‡§ø‡§§‡§Ç‡§¨‡§∞ ‡§ï‡•á ‡§¨‡§æ‡§¶ ‡§∞‡•à‡§≤‡§ø‡§Ø‡•ã‡§Ç ‡§î‡§∞ ‡§¨‡§æ‡§ï‡•Ä ‡§´‡§Ç‡§ï‡•ç‡§∂‡§® ‡§Æ‡•á‡§Ç 100 ‡§≤‡•ã‡§ó‡•ã‡§Ç ‡§ï‡•ã ‡§á‡§ú‡§æ‡§ú‡§§ ‡§ï‡§Ç‡§ü‡•á‡§®‡§Æ‡•á‡§Ç‡§ü ‡§ú‡•ã‡§® ‡§Æ‡•á‡§Ç ‡§ï‡•ã‡§à ‡§õ‡•Ç‡§ü ‡§®‡§π‡•Ä‡§Ç ‡§∏‡§ø‡§®‡•á‡§Æ‡§æ‡§π‡•â‡§≤ ‡§Ö‡§≠‡•Ä ‡§¨‡§Ç‡§¶ ‡§∞‡§π‡•á‡§Ç‡§ó‡•á 9 ‡§∏‡•á 12‡§µ‡•Ä‡§Ç ‡§ï‡•á ‡§õ‡§æ‡§§‡•ç‡§∞ 21 ‡§∏‡§ø‡§§‡§Ç‡§¨‡§∞ ‡§ï‡•á ‡§¨‡§æ‡§¶ ‡§∏‡•ç‡§ï‡•Ç‡§≤ ‡§ú‡§æ ‡§∏‡§ï‡•á‡§Ç‡§ó‡•á,non-hostile


In [None]:
ner_binary_validate.head()

Unnamed: 0,Unique ID,Post,Labels Set
0,1,‡§á‡§ö‡•ç‡§õ‡§æ ‡§∂‡§ï‡•ç‡§§‡§ø ‡§∏‡•á ‡§™‡§∞‡§ø‡§™‡•Ç‡§∞‡•ç‡§£ ‡§™‡•ç‡§∞‡§£‡§¨‡§¶‡§æ ‡§ï‡•á ‡§≤‡§ø‡§è ‡§¶‡•á‡§∂‡§π‡§ø‡§§ ‡§∏‡§∞‡•ç‡§µ‡•ã‡§ö‡•ç‡§ö ‡§∞‡§π‡§æ ‡§â‡§®‡§ï‡§æ ‡§®‡§ø‡§ß‡§® ‡§π‡§Æ ‡§∏‡§¨ ‡§ï‡•á ‡§≤‡§ø‡§è ‡§Ö‡§™‡•Ç‡§∞‡§£‡•Ä‡§Ø ‡§ï‡•ç‡§∑‡§§‡§ø ‡§π‡•à ‡§à‡§∂‡•ç‡§µ‡§∞ ‡§¶‡§ø‡§µ‡§Ç‡§ó‡§§ ‡§Ü‡§§‡•ç‡§Æ‡§æ ‡§ï‡•ã ‡§Ö‡§™‡§®‡•á ‡§∂‡•ç‡§∞‡•Ä‡§ö‡§∞‡§£‡•ã‡§Ç ‡§Æ‡•á‡§Ç ‡§∏‡•ç‡§•‡§æ‡§® ‡§¶‡•á‡§Ç ‡§∂‡•ã‡§ï ‡§∏‡§Ç‡§§‡§™‡•ç‡§§ ‡§™‡§∞‡§ø‡§ú‡§®‡•ã‡§Ç ‡§ï‡•á ‡§™‡•ç‡§∞‡§§‡§ø ‡§∏‡§Ç‡§µ‡•á‡§¶‡§®‡§æ‡§è‡§Ç ‡§ä‡§Ç ‡§∂‡§æ‡§Ç‡§§‡§ø,non-hostile
1,2,‡§ú‡§®‡§§‡§æ rss ‡§µ‡§æ‡§≤‡•á ‡§á‡§§‡§®‡•á ‡§ó‡§ø‡§∞‡•á ‡§π‡•Å‡§è ‡§π‡•à‡§Ç ‡§ú‡§π‡§æ‡§Ç ‡§Æ‡•à‡§Ç ‡§∞‡§π‡§§‡•Ä ‡§π‡•Ç‡§Ç ‡§µ‡§π‡§æ‡§Ç ‡§Æ‡•á‡§∞‡•Ä ‡§ú‡§æ‡§∏‡•Ç‡§∏‡•Ä ‡§ï‡§∞‡§æ ‡§∞‡§π‡•á‡§Ç ‡§π‡•à ‡§â‡§∏‡§ï‡•Ä ‡§ú‡§æ‡§∏‡•Ç‡§∏ ‡§ï‡•Ä ‡§™‡§π‡§ö‡§æ‡§® ‡§Æ‡•Å‡§ù‡•á ‡§Ö‡§ö‡•ç‡§õ‡•Ä ‡§§‡§∞‡§π ‡§π‡•à rss ‡§µ‡§æ‡§≤‡•á ‡§ï‡•Ä ‡§ú‡§æ‡§∏‡•Ç‡§∏ ‡§Æ‡•á‡§Ç ‡§ï‡•å‡§® ‡§π‡•à ‡§™‡•ç‡§∞‡§¶‡•á‡§∂ ‡§Æ‡•á‡§Ç ‡§ï‡•å‡§® ‡§π‡•à ‡§∞‡§æ‡§ú‡§∏‡•ç‡§•‡§æ‡§® ‡§Æ‡•á‡§Ç ‡§ï‡•å‡§® ‡§π‡•à ‡§∏‡§¨‡§ï‡•Ä ‡§™‡§π‡§ö‡§æ‡§® ‡§π‡•à ‡§Æ‡•Å‡§ù‡•á ‡§Æ‡•á‡§∞‡•Ä ‡§®‡§ú‡§∞ ‡§∏‡•á ‡§¨‡§ö ‡§®‡§π‡•Ä‡§Ç ‡§∏‡§ï‡§§‡•á ‡§π‡•ã,hostile
2,3,‡§∏‡•á ‡§®‡§ø‡§™‡§ü‡§®‡•á ‡§ï‡•Ä ‡§§‡•à‡§Ø‡§æ‡§∞‡•Ä ‡§Æ‡•á‡§Ç 10 ‡§π‡§ú‡§æ‡§∞ ‡§¨‡•á‡§° ‡§µ‡§æ‡§≤‡§æ ‡§¶‡•Å‡§®‡§ø‡§Ø‡§æ ‡§ï‡§æ ‡§∏‡§¨‡§∏‡•á ‡§¨‡§°‡§º‡§æ ‡§ï‡•ã‡§µ‡§ø‡§° ‡§ï‡•á‡§Ø‡§∞ ‡§∏‡•á‡§Ç‡§ü‡§∞ ‡§∂‡•Å‡§∞‡•Ç ‡§∂‡§æ‡§π ‡§®‡•á ‡§ï‡•á 1 ‡§π‡§ú‡§æ‡§∞ ‡§¨‡•á‡§° ‡§µ‡§æ‡§≤‡•á ‡§∏‡•á‡§Ç‡§ü‡§∞ ‡§ï‡§æ ‡§≠‡•Ä ‡§â‡§¶‡•ç‡§ò‡§æ‡§ü‡§® ‡§ï‡§ø‡§Ø‡§æ ArvindKejriwal rajnathsingh AmitShah crpfindia ITBP official,non-hostile
3,4,‡§ï‡•â‡§®‡•ç‡§´‡•ç‡§∞‡•á‡§Ç‡§∏ ‡§Æ‡•á‡§Ç PM ‡§¨‡•ã‡§≤‡•á ‡§∂‡§ø‡§ï‡•ç‡§∑‡§æ ‡§®‡•Ä‡§§‡§ø ‡§Æ‡•á‡§Ç ‡§∏‡§∞‡§ï‡§æ‡§∞ ‡§ï‡§æ ‡§¶‡§ñ‡§≤ ‡§ï‡§Æ ‡§π‡•ã‡§®‡§æ ‡§ö‡§æ‡§π‡§ø‡§è,non-hostile
4,5,‡§Æ‡•á‡§Ç Toilet ‡§ò‡•ã‡§ü‡§æ‡§≤‡§æ ‡§™‡•ç‡§∞‡§ß‡§æ‡§® ‡§µ ‡§∏‡§ö‡§ø‡§µ ‡§®‡•á ‡§ï‡§ø‡§Ø‡§æ ‡§≤‡§æ‡§ñ‡•ã‡§Ç ‡§ï‡§æ ‡§ó‡§¨‡§® ‡§Æ‡•Å‡§∞‡•ç‡§¶‡•ã‡§Ç ‡§ï‡•á ‡§®‡§æ‡§Æ ‡§™‡§∞ ‡§¨‡§®‡§µ‡§æ ‡§°‡§æ‡§≤‡•á ‡§∂‡•å‡§ö‡§æ‡§≤‡§Ø UP,non-hostile


### **Stemming:**

In [None]:
obj=HindiStemmer() # stemmer used for hindi language 

# stemmed words in hindi is removed and it is done using hindi stemmer 
def stem_word_removal(data):
  """
  input   : data : post data which will contain a single post with so many words 
  returns : data with each word after being stemmed
  """
  l=[]
  for word in data.split(" "): # take each word from post and if greater than 1 stem it 
    if len(word)>1:
      stem_word=obj.stemWord(word)
      l.append(stem_word)
  out=" ".join(l)
  return out

# creating the dataset after stemming 
def dataset_after_stemming(dataset):
  """
  input   : dataset : cleaned binary label data 
  returns : cleaned data after words in posts are stemmed
  """
  cleaned_df_hindi=pd.DataFrame()
  cleaned_df_hindi['Unique ID']=dataset['Unique ID']
  data=dataset['Post']
  out=[]
  for d in data:
    out.append(stem_word_removal(d))
  cleaned_df_hindi['Post']=out
  cleaned_df_hindi['Labels Set']=dataset['Labels Set']
  return cleaned_df_hindi

In [None]:
# stemmed train dataset 
stemmed_train_binary_df=dataset_after_stemming(binary_train_df)
stemmed_train_binary_df.head()

Unnamed: 0,Unique ID,Post,Labels Set
0,1,‡§Æ‡•á‡§∞ ‡§¶‡•á‡§∂ ‡§ï ‡§π‡§ø‡§®‡•ç‡§¶ ‡§¨‡§π‡•Å‡§§ ‡§®‡§ø‡§∞‡§æ‡§≤ ‡§π‡•à ‡§ï‡•Å‡§õ ‡§§ ‡§™‡§ï‡•ç‡§ï ‡§∞‡§æ‡§Æ ‡§≠‡§ï‡•ç‡§§ ‡§π‡•à ‡§î‡§∞ ‡§ï‡•Å‡§õ ‡§¨‡§æ‡§¨‡§∞ ‡§ï ‡§∏‡§æ‡§≤ ‡§π‡•à ‡§ú‡§Ø ‡§∂‡•ç‡§∞ ‡§∞‡§æ‡§Æ,hostile
1,2,‡§∏‡§∞‡§ï‡§æ‡§∞ ‡§π‡§Æ‡•á‡§∂ ‡§∏ ‡§ï‡§ø‡§∏‡§æ‡§® ‡§ï ‡§ï‡§Æ ‡§ï ‡§¨‡§¢‡§º ‡§ï ‡§≤ ‡§® ‡§® ‡§∏‡•ç‡§ï‡•Ä‡§Æ ‡§≤ ‡§∞‡§π ‡§π‡•à ‡§§‡§æ‡§ï ‡§â‡§® ‡§™‡§∞ ‡§ú‡•ç‡§Ø‡§æ‡§¶ ‡§Ü‡§∞‡•ç‡§•‡§ø‡§ï ‡§¨‡•ã‡§ù ‡§™‡§°‡§º,non-hostile
2,3,‡§∏‡•Å‡§∂‡§æ‡§Ç‡§§ ‡§® ‡§ú ‡§¨‡§ø‡§ú‡§®‡•á‡§∏ ‡§°‡•Ä‡§≤ ‡§ú‡•Ç‡§® ‡§ï ‡§ï ‡§• ‡§µ ‡§°‡•Ä‡§≤ ‡§¶‡•Ä‡§™‡•á‡§∂ ‡§ï ‡§∏‡•Å‡§∂‡§æ‡§Ç‡§§ ‡§ï ‡§π‡§§‡•ç‡§Ø ‡§ï ‡§¶‡§ø‡§® ‡§π ‡§ï‡•ç‡§Ø ‡§Ø‡§æ‡§¶ ‡§Ü ‡§¶‡•á‡§ñ ‡§™‡•Ç‡§õ ‡§π‡•à ‡§≠‡§æ‡§∞‡§§ ‡§Ö‡§∞‡•ç‡§®‡§¨ ‡§ï ‡§∏‡§æ‡§• ‡§∞‡§ø‡§™‡§¨‡•ç‡§≤‡§ø‡§ï ‡§≠‡§æ‡§∞‡§§ ‡§™‡§∞ LIVE,non-hostile
3,4,prabhav218 ‡§∏‡§æ‡§≤ ‡§ú‡•á‡§è‡§®‡§Ø ‡§õ‡§æ‡§™ ‡§ï‡§Æ‡§ø‡§® ‡§≤‡•ã‡§ó ‡§π‡§ø‡§®‡•ç‡§¶ ‡§ï ‡§Ø‡§π ‡§ï‡§π ‡§π‡•à ‡§ï ‡§∏‡§Ç‡§µ‡§ø‡§ß‡§æ‡§® ‡§∏‡§¨‡§ï ‡§¨‡§∞‡§æ‡§¨‡§∞ ‡§Ö‡§ß‡§ø‡§ï‡§æ‡§∞ ‡§¶‡•á‡§§ ‡§π‡•à ‡§∏‡§ö‡•ç‡§ö ‡§Ø‡§π ‡§π‡•à ‡§ï ‡§Ø‡§π ‡§¨‡§∞‡§æ‡§¨‡§∞ ‡§Ö‡§ß‡§ø‡§ï‡§æ‡§∞ ‡§®‡§π ‡§¶‡•á‡§§ ‡§π‡•à,hostile
4,5,unlock4guidelines ‡§Ö‡§®‡§≤‡•â‡§ï ‡§ï ‡§≤ ‡§ó‡§æ‡§á‡§°‡§≤‡§æ‡§á‡§®‡•ç‡§∏ ‡§ú‡§æ‡§∞ ‡§∏‡§ø‡§§‡§Ç‡§¨‡§∞ ‡§∏ ‡§¶‡•á‡§∂‡§≠‡§∞ ‡§Æ ‡§Æ‡•á‡§ü‡•ç‡§∞ ‡§∏‡•á‡§µ ‡§∂‡•Å‡§∞ ‡§π 21 ‡§∏‡§ø‡§§‡§Ç‡§¨‡§∞ ‡§ï ‡§¨‡§æ‡§¶ ‡§∞‡•à‡§≤ ‡§î‡§∞ ‡§¨‡§æ‡§ï ‡§´‡§Ç‡§ï‡•ç‡§∂‡§® ‡§Æ 100 ‡§≤‡•ã‡§ó ‡§ï ‡§á‡§ú‡§æ‡§ú‡§§ ‡§ï‡§Ç‡§ü‡•á‡§®‡§Æ‡•á‡§Ç‡§ü ‡§ú‡•ã‡§® ‡§Æ ‡§ï‡•ã ‡§õ‡•Ç‡§ü ‡§®‡§π ‡§∏‡§ø‡§®‡•á‡§Æ‡§æ‡§π‡•â‡§≤ ‡§Ö‡§≠ ‡§¨‡§Ç‡§¶ ‡§∞‡§π ‡§∏ 12‡§µ ‡§ï ‡§õ‡§æ‡§§‡•ç‡§∞ 21 ‡§∏‡§ø‡§§‡§Ç‡§¨‡§∞ ‡§ï ‡§¨‡§æ‡§¶ ‡§∏‡•ç‡§ï‡•Ç‡§≤ ‡§ú ‡§∏‡§ï,non-hostile


In [None]:
# stemmed validate dataset
stemmed_validate_binary_df=dataset_after_stemming(binary_validate_df)
stemmed_validate_binary_df.head()

Unnamed: 0,Unique ID,Post,Labels Set
0,1,‡§¶‡•É‡§¢‡§º ‡§á‡§ö‡•ç‡§õ ‡§∂‡§ï‡•ç‡§§ ‡§∏ ‡§™‡§∞‡§ø‡§™‡•Ç‡§∞‡•ç‡§£ ‡§™‡•ç‡§∞‡§£‡§¨‡§¶ ‡§ï ‡§≤ ‡§¶‡•á‡§∂‡§π‡§ø‡§§ ‡§∏‡§∞‡•ç‡§µ‡•ã‡§ö‡•ç‡§ö ‡§∞‡§π ‡§â‡§®‡§ï ‡§®‡§ø‡§ß‡§® ‡§π‡§Æ ‡§∏‡§¨ ‡§ï ‡§≤ ‡§Ö‡§™‡•Ç‡§∞‡§£‡•Ä‡§Ø ‡§ï‡•ç‡§∑‡§§ ‡§π‡•à ‡§à‡§∂‡•ç‡§µ‡§∞ ‡§¶‡§ø‡§µ‡§Ç‡§ó‡§§ ‡§Ü‡§§‡•ç‡§Æ ‡§ï ‡§Ö‡§™ ‡§∂‡•ç‡§∞‡•Ä‡§ö‡§∞‡§£ ‡§Æ ‡§∏‡•ç‡§•‡§æ‡§® ‡§¶ ‡§∂‡•ã‡§ï ‡§∏‡§Ç‡§§‡§™‡•ç‡§§ ‡§™‡§∞‡§ø‡§ú‡§® ‡§ï ‡§™‡•ç‡§∞‡§§ ‡§∏‡§Ç‡§µ‡•á‡§¶ ‡§ä‡§Ç ‡§∂‡§æ‡§Ç‡§§,non-hostile
1,2,‡§≠‡§æ‡§∞‡§§‡•Ä‡§Ø ‡§ú‡§® ‡§™‡§æ‡§∞‡•ç‡§ü rss ‡§µ‡§æ‡§≤ ‡§á‡§§ ‡§ó‡§ø‡§∞ ‡§π‡•Å ‡§π‡•à‡§Ç ‡§ú‡§π ‡§Æ‡•à‡§Ç ‡§∞‡§π ‡§π‡•Ç‡§Ç ‡§µ‡§π ‡§Æ‡•á‡§∞ ‡§ú‡§æ‡§∏‡•Ç‡§∏ ‡§ï‡§∞ ‡§∞‡§π ‡§π‡•à ‡§â‡§∏‡§ï ‡§ú‡§æ‡§∏‡•Ç‡§∏ ‡§ï ‡§™‡§π‡§ö‡§æ‡§® ‡§Æ‡•Å‡§ù ‡§Ö‡§ö‡•ç‡§õ ‡§§‡§∞‡§π ‡§π‡•à rss ‡§¨‡•Ä‡§ú‡•á‡§™ ‡§µ‡§æ‡§≤ ‡§ï ‡§ú‡§æ‡§∏‡•Ç‡§∏ ‡§¶‡§ø‡§≤‡•ç‡§≤ ‡§Æ ‡§ï‡•å‡§® ‡§π‡•à ‡§â‡§§‡•ç‡§§‡§∞ ‡§™‡•ç‡§∞‡§¶‡•á‡§∂ ‡§Æ ‡§ï‡•å‡§® ‡§π‡•à ‡§π‡§∞‡§ø‡§Ø‡§æ‡§£ ‡§∞‡§æ‡§ú‡§∏‡•ç‡§•‡§æ‡§® ‡§Æ ‡§ï‡•å‡§® ‡§π‡•à ‡§∏‡§¨‡§ï ‡§™‡§π‡§ö‡§æ‡§® ‡§π‡•à ‡§Æ‡•Å‡§ù ‡§Æ‡•á‡§∞ ‡§®‡§ú‡§∞ ‡§∏ ‡§¨‡§ö ‡§®‡§π ‡§∏‡§ï ‡§π,hostile
2,3,‡§ï‡•ã‡§∞‡•ã‡§® ‡§∏ ‡§®‡§ø‡§™‡§ü ‡§ï ‡§§‡•à‡§Ø‡§æ‡§∞ ‡§¶‡§ø‡§≤‡•ç‡§≤ ‡§Æ 10 ‡§π‡§ú‡§æ‡§∞ ‡§¨‡•á‡§° ‡§µ‡§æ‡§≤ ‡§¶‡•Å‡§®‡§ø‡§Ø ‡§ï ‡§∏‡§¨‡§∏ ‡§¨‡§°‡§º ‡§ï‡•ã‡§µ‡§ø‡§° ‡§ï‡•á‡§Ø‡§∞ ‡§∏‡•á‡§Ç‡§ü‡§∞ ‡§∂‡•Å‡§∞ ‡§∞‡§æ‡§ú‡§®‡§æ‡§• ‡§∂‡§æ‡§π ‡§® ‡§°‡•Ä‡§Ü‡§∞‡§°‡•Ä ‡§ï ‡§π‡§ú‡§æ‡§∞ ‡§¨‡•á‡§° ‡§µ‡§æ‡§≤ ‡§∏‡•á‡§Ç‡§ü‡§∞ ‡§ï ‡§≠ ‡§â‡§¶‡•ç‡§ò‡§æ‡§ü‡§® ‡§ï‡§ø‡§Ø Delhi ArvindKejriwal rajnathsingh AmitShah DRDO India WHO crpfindia ITBP official,non-hostile
3,4,‡§ó‡§µ‡§∞‡•ç‡§®‡§∞ ‡§ï‡•â‡§®‡•ç‡§´‡•ç‡§∞‡•á‡§Ç‡§∏ ‡§Æ PM ‡§Æ‡•ã‡§¶ ‡§¨‡•ã‡§≤ ‡§∂‡§ø‡§ï‡•ç‡§∑ ‡§®‡•Ä‡§§ ‡§Æ ‡§∏‡§∞‡§ï‡§æ‡§∞ ‡§ï ‡§¶‡§ñ‡§≤ ‡§ï‡§Æ ‡§π‡•ã‡§® ‡§ö‡§æ‡§π,non-hostile
4,5,‡§Ø‡•Ç‡§™ ‡§ó‡§æ‡§ú‡•Ä‡§™‡•Å‡§∞ ‡§Æ Toilet ‡§ò‡•ã‡§ü‡§æ‡§≤ ‡§™‡•ç‡§∞‡§ß‡§æ‡§® ‡§∏‡§ö‡§ø‡§µ ‡§® ‡§ï‡§ø‡§Ø ‡§≤‡§æ‡§ñ ‡§ï ‡§ó‡§¨‡§® ‡§Æ‡•Å‡§∞‡•ç‡§¶ ‡§ï ‡§®‡§æ‡§Æ ‡§™‡§∞ ‡§¨‡§®‡§µ ‡§°‡§æ‡§≤ ‡§∂‡•å‡§ö‡§æ‡§≤‡§Ø UP,non-hostile


In [None]:
# ner + stemmed train 
ner_stemmed_train_binary_df=dataset_after_stemming(ner_binary_train)
ner_stemmed_train_binary_df.head()

Unnamed: 0,Unique ID,Post,Labels Set
0,1,‡§¶‡•á‡§∂ ‡§ï ‡§π‡§ø‡§®‡•ç‡§¶ ‡§¨‡§π‡•Å‡§§ ‡§®‡§ø‡§∞‡§æ‡§≤ ‡§π‡•à ‡§ï‡•Å‡§õ ‡§§ ‡§™‡§ï‡•ç‡§ï ‡§≠‡§ï‡•ç‡§§ ‡§π‡•à ‡§î‡§∞ ‡§ï‡•Å‡§õ ‡§ï ‡§∏‡§æ‡§≤ ‡§π‡•à ‡§ú‡§Ø ‡§∞‡§æ‡§Æ,hostile
1,2,‡§π‡§Æ‡•á‡§∂ ‡§∏ ‡§ï‡§ø‡§∏‡§æ‡§® ‡§ï ‡§ï‡§Æ ‡§ï ‡§¨‡§¢‡§º ‡§ï ‡§≤ ‡§® ‡§® ‡§∏‡•ç‡§ï‡•Ä‡§Æ ‡§≤ ‡§∞‡§π ‡§π‡•à ‡§§‡§æ‡§ï ‡§â‡§® ‡§™‡§∞ ‡§ú‡•ç‡§Ø‡§æ‡§¶ ‡§Ü‡§∞‡•ç‡§•‡§ø‡§ï ‡§¨‡•ã‡§ù ‡§™‡§°‡§º,non-hostile
2,3,‡§ú ‡§¨‡§ø‡§ú‡§®‡•á‡§∏ ‡§°‡•Ä‡§≤ ‡§ú‡•Ç‡§® ‡§ï ‡§ï ‡§• ‡§µ ‡§°‡•Ä‡§≤ ‡§¶‡•Ä‡§™‡•á‡§∂ ‡§ï ‡§ï ‡§π‡§§‡•ç‡§Ø ‡§ï ‡§¶‡§ø‡§® ‡§π ‡§ï‡•ç‡§Ø ‡§Ø‡§æ‡§¶ ‡§Ü ‡§¶‡•á‡§ñ ‡§™‡•Ç‡§õ ‡§π‡•à ‡§Ö‡§∞‡•ç‡§®‡§¨ ‡§ï ‡§∏‡§æ‡§• ‡§∞‡§ø‡§™‡§¨‡•ç‡§≤‡§ø‡§ï ‡§™‡§∞ LIVE,non-hostile
3,4,‡§õ‡§æ‡§™ ‡§ï‡§Æ‡§ø‡§® ‡§≤‡•ã‡§ó ‡§ï ‡§Ø‡§π ‡§ï‡§π ‡§π‡•à ‡§ï ‡§∏‡§Ç‡§µ‡§ø‡§ß‡§æ‡§® ‡§∏‡§¨‡§ï ‡§¨‡§∞‡§æ‡§¨‡§∞ ‡§Ö‡§ß‡§ø‡§ï‡§æ‡§∞ ‡§¶‡•á‡§§ ‡§π‡•à ‡§∏‡§ö‡•ç‡§ö ‡§Ø‡§π ‡§π‡•à ‡§ï ‡§Ø‡§π ‡§¨‡§∞‡§æ‡§¨‡§∞ ‡§Ö‡§ß‡§ø‡§ï‡§æ‡§∞ ‡§®‡§π ‡§¶‡•á‡§§ ‡§π‡•à,hostile
4,5,‡§Ö‡§®‡§≤‡•â‡§ï ‡§ï ‡§≤ ‡§ó‡§æ‡§á‡§°‡§≤‡§æ‡§á‡§®‡•ç‡§∏ ‡§ú‡§æ‡§∞ ‡§∏‡§ø‡§§‡§Ç‡§¨‡§∞ ‡§∏ ‡§Æ ‡§Æ‡•á‡§ü‡•ç‡§∞ ‡§∏‡•á‡§µ ‡§∂‡•Å‡§∞ ‡§π 21 ‡§∏‡§ø‡§§‡§Ç‡§¨‡§∞ ‡§ï ‡§¨‡§æ‡§¶ ‡§∞‡•à‡§≤ ‡§î‡§∞ ‡§¨‡§æ‡§ï ‡§´‡§Ç‡§ï‡•ç‡§∂‡§® ‡§Æ 100 ‡§≤‡•ã‡§ó ‡§ï ‡§á‡§ú‡§æ‡§ú‡§§ ‡§ï‡§Ç‡§ü‡•á‡§®‡§Æ‡•á‡§Ç‡§ü ‡§ú‡•ã‡§® ‡§Æ ‡§ï‡•ã ‡§õ‡•Ç‡§ü ‡§®‡§π ‡§∏‡§ø‡§®‡•á‡§Æ‡§æ‡§π‡•â‡§≤ ‡§Ö‡§≠ ‡§¨‡§Ç‡§¶ ‡§∞‡§π ‡§∏ 12‡§µ ‡§ï ‡§õ‡§æ‡§§‡•ç‡§∞ 21 ‡§∏‡§ø‡§§‡§Ç‡§¨‡§∞ ‡§ï ‡§¨‡§æ‡§¶ ‡§∏‡•ç‡§ï‡•Ç‡§≤ ‡§ú ‡§∏‡§ï,non-hostile


In [None]:
# ner + stemmed validate
ner_stemmed_validate_binary_df=dataset_after_stemming(ner_binary_validate)
ner_stemmed_validate_binary_df.head()

Unnamed: 0,Unique ID,Post,Labels Set
0,1,‡§á‡§ö‡•ç‡§õ ‡§∂‡§ï‡•ç‡§§ ‡§∏ ‡§™‡§∞‡§ø‡§™‡•Ç‡§∞‡•ç‡§£ ‡§™‡•ç‡§∞‡§£‡§¨‡§¶ ‡§ï ‡§≤ ‡§¶‡•á‡§∂‡§π‡§ø‡§§ ‡§∏‡§∞‡•ç‡§µ‡•ã‡§ö‡•ç‡§ö ‡§∞‡§π ‡§â‡§®‡§ï ‡§®‡§ø‡§ß‡§® ‡§π‡§Æ ‡§∏‡§¨ ‡§ï ‡§≤ ‡§Ö‡§™‡•Ç‡§∞‡§£‡•Ä‡§Ø ‡§ï‡•ç‡§∑‡§§ ‡§π‡•à ‡§à‡§∂‡•ç‡§µ‡§∞ ‡§¶‡§ø‡§µ‡§Ç‡§ó‡§§ ‡§Ü‡§§‡•ç‡§Æ ‡§ï ‡§Ö‡§™ ‡§∂‡•ç‡§∞‡•Ä‡§ö‡§∞‡§£ ‡§Æ ‡§∏‡•ç‡§•‡§æ‡§® ‡§¶ ‡§∂‡•ã‡§ï ‡§∏‡§Ç‡§§‡§™‡•ç‡§§ ‡§™‡§∞‡§ø‡§ú‡§® ‡§ï ‡§™‡•ç‡§∞‡§§ ‡§∏‡§Ç‡§µ‡•á‡§¶ ‡§ä‡§Ç ‡§∂‡§æ‡§Ç‡§§,non-hostile
1,2,‡§ú‡§® rss ‡§µ‡§æ‡§≤ ‡§á‡§§ ‡§ó‡§ø‡§∞ ‡§π‡•Å ‡§π‡•à‡§Ç ‡§ú‡§π ‡§Æ‡•à‡§Ç ‡§∞‡§π ‡§π‡•Ç‡§Ç ‡§µ‡§π ‡§Æ‡•á‡§∞ ‡§ú‡§æ‡§∏‡•Ç‡§∏ ‡§ï‡§∞ ‡§∞‡§π ‡§π‡•à ‡§â‡§∏‡§ï ‡§ú‡§æ‡§∏‡•Ç‡§∏ ‡§ï ‡§™‡§π‡§ö‡§æ‡§® ‡§Æ‡•Å‡§ù ‡§Ö‡§ö‡•ç‡§õ ‡§§‡§∞‡§π ‡§π‡•à rss ‡§µ‡§æ‡§≤ ‡§ï ‡§ú‡§æ‡§∏‡•Ç‡§∏ ‡§Æ ‡§ï‡•å‡§® ‡§π‡•à ‡§™‡•ç‡§∞‡§¶‡•á‡§∂ ‡§Æ ‡§ï‡•å‡§® ‡§π‡•à ‡§∞‡§æ‡§ú‡§∏‡•ç‡§•‡§æ‡§® ‡§Æ ‡§ï‡•å‡§® ‡§π‡•à ‡§∏‡§¨‡§ï ‡§™‡§π‡§ö‡§æ‡§® ‡§π‡•à ‡§Æ‡•Å‡§ù ‡§Æ‡•á‡§∞ ‡§®‡§ú‡§∞ ‡§∏ ‡§¨‡§ö ‡§®‡§π ‡§∏‡§ï ‡§π,hostile
2,3,‡§∏ ‡§®‡§ø‡§™‡§ü ‡§ï ‡§§‡•à‡§Ø‡§æ‡§∞ ‡§Æ 10 ‡§π‡§ú‡§æ‡§∞ ‡§¨‡•á‡§° ‡§µ‡§æ‡§≤ ‡§¶‡•Å‡§®‡§ø‡§Ø ‡§ï ‡§∏‡§¨‡§∏ ‡§¨‡§°‡§º ‡§ï‡•ã‡§µ‡§ø‡§° ‡§ï‡•á‡§Ø‡§∞ ‡§∏‡•á‡§Ç‡§ü‡§∞ ‡§∂‡•Å‡§∞ ‡§∂‡§æ‡§π ‡§® ‡§ï ‡§π‡§ú‡§æ‡§∞ ‡§¨‡•á‡§° ‡§µ‡§æ‡§≤ ‡§∏‡•á‡§Ç‡§ü‡§∞ ‡§ï ‡§≠ ‡§â‡§¶‡•ç‡§ò‡§æ‡§ü‡§® ‡§ï‡§ø‡§Ø ArvindKejriwal rajnathsingh AmitShah crpfindia ITBP official,non-hostile
3,4,‡§ï‡•â‡§®‡•ç‡§´‡•ç‡§∞‡•á‡§Ç‡§∏ ‡§Æ PM ‡§¨‡•ã‡§≤ ‡§∂‡§ø‡§ï‡•ç‡§∑ ‡§®‡•Ä‡§§ ‡§Æ ‡§∏‡§∞‡§ï‡§æ‡§∞ ‡§ï ‡§¶‡§ñ‡§≤ ‡§ï‡§Æ ‡§π‡•ã‡§® ‡§ö‡§æ‡§π,non-hostile
4,5,‡§Æ Toilet ‡§ò‡•ã‡§ü‡§æ‡§≤ ‡§™‡•ç‡§∞‡§ß‡§æ‡§® ‡§∏‡§ö‡§ø‡§µ ‡§® ‡§ï‡§ø‡§Ø ‡§≤‡§æ‡§ñ ‡§ï ‡§ó‡§¨‡§® ‡§Æ‡•Å‡§∞‡•ç‡§¶ ‡§ï ‡§®‡§æ‡§Æ ‡§™‡§∞ ‡§¨‡§®‡§µ ‡§°‡§æ‡§≤ ‡§∂‡•å‡§ö‡§æ‡§≤‡§Ø UP,non-hostile


# **DOWNLOADING ALL THE PRE-PROCESSED DATA:**

In [None]:
"""
#cleaned_train
cleaned_train_df.to_excel("cleaned_train_data.xlsx") 
from google.colab import files
files.download('cleaned_train_data.xlsx')

#cleaned validate
cleaned_validate_df.to_excel("cleaned_validate_data.xlsx") 
from google.colab import files
files.download('cleaned_validate_data.xlsx')

# emojis removed dataset 

train_emoji.to_excel("train_emoji.xlsx") 
from google.colab import files
files.download('train_emoji.xlsx')

validate_emoji.to_excel("validate_emoji.xlsx") 
from google.colab import files
files.download('validate_emoji.xlsx')

# punctuations removed dataset 

train_punctuations.to_excel("train_punctuations.xlsx") 
from google.colab import files
files.download('train_punctuations.xlsx')

validate_punctuations.to_excel("validate_punctuations.xlsx") 
from google.colab import files
files.download('validate_punctuations.xlsx')

#hyperlinks removed dataset 

train_hyperlinks.to_excel("train_hyperlinks.xlsx") 
from google.colab import files
files.download('train_hyperlinks.xlsx')

validate_hyperlinks.to_excel("validate_hyperlinks.xlsx") 
from google.colab import files
files.download('validate_hyperlinks.xlsx')

# emojis removed dataset 

train_newlines.to_excel("train_newlines.xlsx") 
from google.colab import files
files.download('train_newlines.xlsx')

validate_newlines.to_excel("validate_newlines.xlsx") 
from google.colab import files
files.download('validate_newlines.xlsx')

#binary_train
binary_train_df.to_excel("binary_train_data.xlsx") 
from google.colab import files
files.download('binary_train_data.xlsx')

#binary validate
binary_validate_df.to_excel("binary_validate_data.xlsx") 
from google.colab import files
files.download('binary_validate_data.xlsx')

# 5 one hot vectors train
outputlabel5_train_df.to_excel("output5hot_train_data.xlsx") 
from google.colab import files
files.download('output5hot_train_data.xlsx')

# 5 one hot vectors validate 
outputlabel5_validate_df.to_excel("output5hot_validate_data.xlsx") 
from google.colab import files
files.download('output5hot_validate_data.xlsx')

# 4 one hot vectors train
outputlabel4_train_df.to_excel("output4hot_train_data.xlsx") 
from google.colab import files
files.download('output4hot_train_data.xlsx')

# 4 one hot vectors validate
outputlabel4_validate_df.to_excel("output4hot_validate_data.xlsx") 
from google.colab import files
files.download('output4hot_validate_data.xlsx')

# fake train 
fake_train.to_excel("fake_train.xlsx") 
from google.colab import files
files.download('fake_train.xlsx')

# fake validate
fake_validate.to_excel("fake_validate.xlsx") 
from google.colab import files
files.download('fake_validate.xlsx')

# hate train
hate_train.to_excel("hate_train.xlsx") 
from google.colab import files
files.download('hate_train.xlsx')

# hate validate 
hate_validate.to_excel("hate_validate.xlsx") 
from google.colab import files
files.download('hate_validate.xlsx')

# defamation train
defamation_train.to_excel("defamation_train.xlsx") 
from google.colab import files
files.download('defamation_train.xlsx')

# defamation validate 
defamation_validate.to_excel("defamation_validate.xlsx") 
from google.colab import files
files.download('defamation_validate.xlsx')

# offensive train 
offensive_train.to_excel("offensive_train.xlsx") 
from google.colab import files
files.download('offensive_train.xlsx')

# offensive validate 
offensive_validate.to_excel("offensive_validate.xlsx") 
from google.colab import files
files.download('offensive_validate.xlsx')

# named entity recognition train data
ner_binary_train.to_excel("NER_train.xlsx") 
from google.colab import files
files.download('NER_train.xlsx')

# named entity recognition validate data
ner_binary_validate.to_excel("NER_validate.xlsx") 
from google.colab import files
files.download('NER_validate.xlsx')

# stemmed train data
stemmed_train_binary_df.to_excel("stemmed_train.xlsx") 
from google.colab import files
files.download('stemmed_train.xlsx')

# stemmed validate data
stemmed_validate_binary_df.to_excel("stemmed_validate.xlsx") 
from google.colab import files
files.download('stemmed_validate.xlsx')

# NER stemmed train data
ner_stemmed_train_binary_df.to_excel("ner_stemmed_train.xlsx") 
from google.colab import files
files.download('stemmed_train.xlsx')

# NER stemmed validate data
ner_stemmed_validate_binary_df.to_excel("ner_stemmed_validate.xlsx") 
from google.colab import files
files.download('stemmed_validate.xlsx')
"""

'\n#cleaned_train\ncleaned_train_df.to_excel("cleaned_train_data.xlsx") \nfrom google.colab import files\nfiles.download(\'cleaned_train_data.xlsx\')\n\n#cleaned validate\ncleaned_validate_df.to_excel("cleaned_validate_data.xlsx") \nfrom google.colab import files\nfiles.download(\'cleaned_validate_data.xlsx\')\n\n# emojis removed dataset \n\ntrain_emoji.to_excel("train_emoji.xlsx") \nfrom google.colab import files\nfiles.download(\'train_emoji.xlsx\')\n\nvalidate_emoji.to_excel("validate_emoji.xlsx") \nfrom google.colab import files\nfiles.download(\'validate_emoji.xlsx\')\n\n# punctuations removed dataset \n\ntrain_punctuations.to_excel("train_punctuations.xlsx") \nfrom google.colab import files\nfiles.download(\'train_punctuations.xlsx\')\n\nvalidate_punctuations.to_excel("validate_punctuations.xlsx") \nfrom google.colab import files\nfiles.download(\'validate_punctuations.xlsx\')\n\n#hyperlinks removed dataset \n\ntrain_hyperlinks.to_excel("train_hyperlinks.xlsx") \nfrom google.cola