# Overview of Hostile Post Detection in Hindi
- **Goals:** To predict the label set of the set of post collected from Twitter and facebook.

- **Traning data:** post with their label.

- **Tesing data:** set of posts.
- **Types of post:** 
1. *Fake News:* A claim or information that is verified to be not true.
2. *Hate Speech:* A post targeting a specific group of people based on their ethnicity, religious beliefs, geographical belonging, race, etc., with malicious intentions of spreading hate or encouraging violence.
3. *Offensive:* A post containing profanity, impolite, rude, or vulgar language to insult a targeted individual or group.
4. *Defamation:* A mis-information regarding an individual or group.
5. *Non-hostile:* A post without any hostility.

## Exploring dataset

In [1]:
# importing libraries

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import re

from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.preprocessing import MultiLabelBinarizer
from sklearn.model_selection import train_test_split

from sklearn.linear_model import SGDClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.svm import LinearSVC

from sklearn.multiclass import OneVsRestClassifier

In [2]:
#load data from train and validation file

data = pd.read_csv("dataset.csv")
data2 = pd.read_csv("validation.csv")

In [3]:
data.head()

Unnamed: 0,Unique ID,Post,Labels Set,Unnamed: 3,Unnamed: 4
0,1,‡§Æ‡•á‡§∞‡•á ‡§¶‡•á‡§∂ ‡§ï‡•á ‡§π‡§ø‡§®‡•ç‡§¶‡•Å ‡§¨‡§π‡•Å‡§§ ‡§®‡§ø‡§∞‡§æ‡§≤‡•á ‡§π‡•à‡•§ ‡§ï‡•Å‡§õ ‡§§‡•ã ‡§™‡§ï‡•ç‡§ï...,"hate,offensive",,
1,2,‡§∏‡§∞‡§ï‡§æ‡§∞ ‡§π‡§Æ‡•á‡§∂‡§æ ‡§∏‡•á ‡§ï‡§ø‡§∏‡§æ‡§®‡•ã‡§Ç ‡§ï‡•Ä ‡§ï‡§Æ‡§æ‡§à ‡§ï‡•ã ‡§¨‡§¢‡§º‡§æ‡§®‡•á ‡§ï‡•á ‡§≤‡§ø...,non-hostile,,
2,3,"‡§∏‡•Å‡§∂‡§æ‡§Ç‡§§ ‡§®‡•á ‡§ú‡•ã ‡§¨‡§ø‡§ú‡§®‡•á‡§∏ ‡§°‡•Ä‡§≤ 9 ‡§ú‡•Ç‡§® ‡§ï‡•ã ‡§ï‡•Ä ‡§•‡•Ä, ‡§µ‡•ã ‡§°‡•Ä‡§≤...",non-hostile,,
3,4,@prabhav218 ‡§∏‡§æ‡§≤‡•á ‡§ú‡•á‡§è‡§®‡§Ø‡•Ç ‡§õ‡§æ‡§™ ‡§ï‡§Æ‡§ø‡§®‡•á ‡§≤‡•ã‡§ó ‡§π‡§ø‡§®‡•ç‡§¶‡•Å‡§ì‡§Ç...,"defamation,offensive",,
4,5,#unlock4guidelines - ‡§Ö‡§®‡§≤‡•â‡§ï-4 ‡§ï‡•á ‡§≤‡§ø‡§è ‡§ó‡§æ‡§á‡§°‡§≤‡§æ‡§á‡§®‡•ç‡§∏...,non-hostile,,


In [4]:
data2.head()

Unnamed: 0,Unique ID,Post,Labels Set
0,1,‡§¶‡•É‡§¢‡§º ‡§á‡§ö‡•ç‡§õ‡§æ ‡§∂‡§ï‡•ç‡§§‡§ø ‡§∏‡•á ‡§™‡§∞‡§ø‡§™‡•Ç‡§∞‡•ç‡§£ ‡§™‡•ç‡§∞‡§£‡§¨‡§¶‡§æ ‡§ï‡•á ‡§≤‡§ø‡§è ‡§¶‡•á...,non-hostile
1,2,‡§≠‡§æ‡§∞‡§§‡•Ä‡§Ø ‡§ú‡§®‡§§‡§æ ‡§™‡§æ‡§∞‡•ç‡§ü‡•Ä rss ‡§µ‡§æ‡§≤‡•á ‡§á‡§§‡§®‡•á ‡§ó‡§ø‡§∞‡•á ‡§π‡•Å‡§è ‡§π‡•à‡§Ç ...,defamation
2,3,‡§ï‡•ã‡§∞‡•ã‡§®‡§æ ‡§∏‡•á ‡§®‡§ø‡§™‡§ü‡§®‡•á ‡§ï‡•Ä ‡§§‡•à‡§Ø‡§æ‡§∞‡•Ä / ‡§¶‡§ø‡§≤‡•ç‡§≤‡•Ä ‡§Æ‡•á‡§Ç 10 ‡§π‡§ú‡§æ...,non-hostile
3,4,‡§ó‡§µ‡§∞‡•ç‡§®‡§∞ ‡§ï‡•â‡§®‡•ç‡§´‡•ç‡§∞‡•á‡§Ç‡§∏ ‡§Æ‡•á‡§Ç PM ‡§Æ‡•ã‡§¶‡•Ä ‡§¨‡•ã‡§≤‡•á- ‡§∂‡§ø‡§ï‡•ç‡§∑‡§æ ‡§®‡•Ä‡§§...,non-hostile
4,5,"‡§Ø‡•Ç‡§™‡•Ä: ‡§ó‡§æ‡§ú‡•Ä‡§™‡•Å‡§∞ ‡§Æ‡•á‡§Ç Toilet ‡§ò‡•ã‡§ü‡§æ‡§≤‡§æ, ‡§™‡•ç‡§∞‡§ß‡§æ‡§® ‡§µ ‡§∏‡§ö‡§ø‡§µ...",non-hostile


In [5]:
pd.set_option('display.max_colwidth', -1)

  """Entry point for launching an IPython kernel.


In [6]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5728 entries, 0 to 5727
Data columns (total 5 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   Unique ID   5728 non-null   int64  
 1   Post        5728 non-null   object 
 2   Labels Set  5728 non-null   object 
 3   Unnamed: 3  0 non-null      float64
 4   Unnamed: 4  0 non-null      float64
dtypes: float64(2), int64(1), object(2)
memory usage: 223.9+ KB


In [7]:
#removing extra columns from train file

data=data.drop(data.columns[[0,3,4]], axis=1)

In [8]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5728 entries, 0 to 5727
Data columns (total 2 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   Post        5728 non-null   object
 1   Labels Set  5728 non-null   object
dtypes: object(2)
memory usage: 89.6+ KB


In [9]:
data.head()

Unnamed: 0,Post,Labels Set
0,‡§Æ‡•á‡§∞‡•á ‡§¶‡•á‡§∂ ‡§ï‡•á ‡§π‡§ø‡§®‡•ç‡§¶‡•Å ‡§¨‡§π‡•Å‡§§ ‡§®‡§ø‡§∞‡§æ‡§≤‡•á ‡§π‡•à‡•§ ‡§ï‡•Å‡§õ ‡§§‡•ã ‡§™‡§ï‡•ç‡§ï‡•á ‡§∞‡§æ‡§Æ ‡§≠‡§ï‡•ç‡§§ ‡§π‡•à ‡§î‡§∞ ‡§ï‡•Å‡§õ ‡§¨‡§æ‡§¨‡§∞ ‡§ï‡•á ‡§∏‡§æ‡§≤‡•á ‡§π‡•à \n\nüôè ‡§ú‡§Ø ‡§∂‡•ç‡§∞‡•Ä ‡§∞‡§æ‡§Æ üôè,"hate,offensive"
1,"‡§∏‡§∞‡§ï‡§æ‡§∞ ‡§π‡§Æ‡•á‡§∂‡§æ ‡§∏‡•á ‡§ï‡§ø‡§∏‡§æ‡§®‡•ã‡§Ç ‡§ï‡•Ä ‡§ï‡§Æ‡§æ‡§à ‡§ï‡•ã ‡§¨‡§¢‡§º‡§æ‡§®‡•á ‡§ï‡•á ‡§≤‡§ø‡§è ‡§®‡§à-‡§®‡§à ‡§∏‡•ç‡§ï‡•Ä‡§Æ‡•á‡§Ç ‡§≤‡§æ‡§§‡•Ä ‡§∞‡§π‡§§‡•Ä ‡§π‡•à, ‡§§‡§æ‡§ï‡§ø ‡§â‡§® ‡§™‡§∞ ‡§ú‡•ç‡§Ø‡§æ‡§¶‡§æ ‡§Ü‡§∞‡•ç‡§•‡§ø‡§ï ‡§¨‡•ã‡§ù ‡§® ‡§™‡§°‡§º‡•á.\n\nhttps://t.co/8iy2MJSBAs",non-hostile
2,"‡§∏‡•Å‡§∂‡§æ‡§Ç‡§§ ‡§®‡•á ‡§ú‡•ã ‡§¨‡§ø‡§ú‡§®‡•á‡§∏ ‡§°‡•Ä‡§≤ 9 ‡§ú‡•Ç‡§® ‡§ï‡•ã ‡§ï‡•Ä ‡§•‡•Ä, ‡§µ‡•ã ‡§°‡•Ä‡§≤ ‡§¶‡•Ä‡§™‡•á‡§∂ ‡§ï‡•ã ‡§∏‡•Å‡§∂‡§æ‡§Ç‡§§ ‡§ï‡•Ä ‡§π‡§§‡•ç‡§Ø‡§æ ‡§ï‡•á ‡§¶‡§ø‡§® ‡§π‡•Ä ‡§ï‡•ç‡§Ø‡•ã‡§Ç ‡§Ø‡§æ‡§¶ ‡§Ü‡§à? ‡§¶‡•á‡§ñ‡§ø‡§è '‡§™‡•Ç‡§õ‡§§‡§æ ‡§π‡•à ‡§≠‡§æ‡§∞‡§§' ‡§Ö‡§∞‡•ç‡§®‡§¨ ‡§ï‡•á ‡§∏‡§æ‡§• ‡§∞‡§ø‡§™‡§¨‡•ç‡§≤‡§ø‡§ï ‡§≠‡§æ‡§∞‡§§ ‡§™‡§∞ #LIVE : https://t.co/G945HvzM0Z https://t.co/KfH7xF1IdM",non-hostile
3,@prabhav218 ‡§∏‡§æ‡§≤‡•á ‡§ú‡•á‡§è‡§®‡§Ø‡•Ç ‡§õ‡§æ‡§™ ‡§ï‡§Æ‡§ø‡§®‡•á ‡§≤‡•ã‡§ó ‡§π‡§ø‡§®‡•ç‡§¶‡•Å‡§ì‡§Ç ‡§ï‡•ã ‡§Ø‡§π ‡§ï‡§π‡§§‡•á ‡§π‡•à ‡§ï‡•Ä ‡§∏‡§Ç‡§µ‡§ø‡§ß‡§æ‡§® ‡§∏‡§¨‡§ï‡•ã ‡§¨‡§∞‡§æ‡§¨‡§∞ ‡§Ö‡§ß‡§ø‡§ï‡§æ‡§∞ ‡§¶‡•á‡§§‡§æ ‡§π‡•à‡•§ ‡§∏‡§ö‡•ç‡§ö‡§æ‡§à ‡§Ø‡§π ‡§π‡•à ‡§ï‡§ø ‡§Ø‡§π ‡§¨‡§∞‡§æ‡§¨‡§∞ ‡§Ö‡§ß‡§ø‡§ï‡§æ‡§∞ ‡§®‡§π‡•Ä‡§Ç ‡§¶‡•á‡§§‡§æ ‡§π‡•à‡•§,"defamation,offensive"
4,#unlock4guidelines - ‡§Ö‡§®‡§≤‡•â‡§ï-4 ‡§ï‡•á ‡§≤‡§ø‡§è ‡§ó‡§æ‡§á‡§°‡§≤‡§æ‡§á‡§®‡•ç‡§∏ ‡§ú‡§æ‡§∞‡•Ä\n\n- 7 ‡§∏‡§ø‡§§‡§Ç‡§¨‡§∞ ‡§∏‡•á ‡§¶‡•á‡§∂‡§≠‡§∞ ‡§Æ‡•á‡§Ç ‡§Æ‡•á‡§ü‡•ç‡§∞‡•ã ‡§∏‡•á‡§µ‡§æ ‡§∂‡•Å‡§∞‡•Å ‡§π‡•ã‡§ó‡•Ä\n- 21 ‡§∏‡§ø‡§§‡§Ç‡§¨‡§∞ ‡§ï‡•á ‡§¨‡§æ‡§¶ ‡§∞‡•à‡§≤‡§ø‡§Ø‡•ã‡§Ç ‡§î‡§∞ ‡§¨‡§æ‡§ï‡•Ä ‡§´‡§Ç‡§ï‡•ç‡§∂‡§® ‡§Æ‡•á‡§Ç 100 ‡§≤‡•ã‡§ó‡•ã‡§Ç ‡§ï‡•ã ‡§á‡§ú‡§æ‡§ú‡§§\n- ‡§ï‡§Ç‡§ü‡•á‡§®‡§Æ‡•á‡§Ç‡§ü ‡§ú‡•ã‡§® ‡§Æ‡•á‡§Ç ‡§ï‡•ã‡§à ‡§õ‡•Ç‡§ü ‡§®‡§π‡•Ä‡§Ç\n- ‡§∏‡§ø‡§®‡•á‡§Æ‡§æ‡§π‡•â‡§≤ ‡§Ö‡§≠‡•Ä ‡§¨‡§Ç‡§¶ ‡§∞‡§π‡•á‡§Ç‡§ó‡•á\n- 9 ‡§∏‡•á 12‡§µ‡•Ä‡§Ç ‡§ï‡•á ‡§õ‡§æ‡§§‡•ç‡§∞ 21 ‡§∏‡§ø‡§§‡§Ç‡§¨‡§∞ ‡§ï‡•á ‡§¨‡§æ‡§¶ ‡§∏‡•ç‡§ï‡•Ç‡§≤ ‡§ú‡§æ ‡§∏‡§ï‡•á‡§Ç‡§ó‡•á. https://t.co/4e6lysg0VR,non-hostile


In [10]:
data.tail()

Unnamed: 0,Post,Labels Set
5723,‡§â‡§¶‡§ø‡§§‡§∞‡§æ‡§ú ‡§ú‡•Ä ‡§π‡§ø‡§Æ‡•ç‡§Æ‡§§ ‡§ú‡•Å‡§ü‡§æ ‡§ï‡§∞ ‡§â‡§∏ ‡§®‡•á‡§§‡§æ ‡§ï‡•á ‡§≤‡§ø‡§è ‡§ï‡•Å‡§õ ‡§ï‡§π ‡§¶‡•Ä‡§ú‡§ø‡§Ø‡•á ‡§ú‡§ø‡§∏‡§ï‡•á ‡§∏‡•ç‡§µ‡§æ‡§ó‡§§ ‡§Æ‡•á‡§Ç ‡§Æ‡•Å‡§Ç‡§¨‡§à ‡§∏‡•ç‡§ü‡•á‡§∂‡§® ‡§™‡§∞ ‡§™‡§æ‡§ï‡§ø‡§∏‡•ç‡§§‡§æ‡§® ‡§ú‡§ø‡§Ç‡§¶‡§æ‡§¨‡§æ‡§¶ ‡§ï‡•á ‡§®‡§æ‡§∞‡•á ‡§≤‡§ó‡•á ‡§µ‡§ø‡§∞‡•ã‡§ß ‡§ï‡§∞ ‡§¶‡•á‡§Ç ‡§Æ‡§æ‡§®‡•ç‡§Ø ‡§π‡•ã‡§ó‡§æ ‡§ï‡•Ä ‡§Ü‡§™ ‡§¶‡•á‡§∂‡§≠‡§ï‡•ç‡§§ ‡§π‡•à‡§Ç ‡§µ‡§∞‡§®‡§æ ‡§Ö‡§®‡§∞‡•ç‡§ó‡§≤ ‡§™‡•ç‡§∞‡§≤‡§æ‡§™ ‡§® ‡§ï‡§∞‡•á‡§Ç,hate
5724,"‡§â‡§™‡•ç‡§∞: ‡§™‡•Ä‡§è‡§Æ ‡§∞‡§ø‡§™‡•ã‡§∞‡•ç‡§ü ‡§Æ‡•á‡§Ç ‡§ñ‡•Å‡§≤‡§æ‡§∏‡§æ: ‡§π‡§æ‡§∞‡•ç‡§ü‡§Ö‡§ü‡•à‡§ï ‡§∏‡•á ‡§π‡•Å‡§à ‡§•‡•Ä ‡§™‡•Ç‡§∞‡•ç‡§µ ‡§µ‡§ø‡§ß‡§æ‡§Ø‡§ï ‡§®‡§ø‡§∞‡•ç‡§µ‡•á‡§Ç‡§¶‡•ç‡§∞ ‡§ï‡•Ä ‡§Æ‡•å‡§§; ‡§∂‡§∞‡•Ä‡§∞ ‡§™‡§∞ ‡§®‡§π‡•Ä‡§Ç ‡§Æ‡§ø‡§≤‡•á ‡§ö‡•ã‡§ü ‡§ï‡•á ‡§®‡§ø‡§∂‡§æ‡§®, ‡§¨‡•á‡§ü‡•á ‡§®‡•á ‡§™‡§ø‡§ü‡§æ‡§à ‡§ï‡§∞ ‡§π‡§§‡•ç‡§Ø‡§æ ‡§ï‡§æ ‡§¶‡§æ‡§µ‡§æ ‡§ï‡§ø‡§Ø‡§æ ‡§•‡§æ\nhttps://t.co/YaFEzPhTDC #NirvendraMishra @Uppolice @UPGovt",non-hostile
5725,"‡§®‡•å‡§ï‡§∞‡•Ä ‡§ó‡§Ç‡§µ‡§æ ‡§ö‡•Å‡§ï‡•á ‡§¶‡•ã‡§∏‡•ç‡§§ ‡§ï‡•Ä ‡§Æ‡§¶‡§¶: ‡§®‡§ó‡§¶ ‡§ï‡•á ‡§¨‡§ú‡§æ‡§è ‡§ó‡§ø‡§´‡•ç‡§ü ‡§ï‡§æ‡§∞‡•ç‡§° ‡§¶‡•á‡§®‡•á ‡§ï‡•á ‡§¨‡§æ‡§∞‡•á ‡§Æ‡•á‡§Ç ‡§∏‡•ã‡§ö‡•á‡§Ç, ‡§ö‡•Å‡§ï‡§æ ‡§∏‡§ï‡§§‡•á ‡§π‡•à‡§Ç ‡§®‡•á‡§ü‡§´‡•ç‡§≤‡§ø‡§ï‡•ç‡§∏ ‡§î‡§∞ ‡§ú‡§ø‡§Æ ‡§ï‡•Ä ‡§´‡•Ä‡§∏; ‡§π‡§æ‡§≤‡§ö‡§æ‡§≤ ‡§ú‡§æ‡§®‡•á‡§Ç, ‡§≤‡•á‡§ï‡§ø‡§® ‡§ú‡•ç‡§Ø‡§æ‡§¶‡§æ ‡§®‡§π‡•Ä‡§Ç https://t.co/l6kFR8eiBf #HelpYourFriend #Jobless #COVID19 https://t.co/YOKsAyndNa",non-hostile
5726,‡§¨‡§Ç‡§ó‡§æ‡§≤ ‡§Æ‡•á‡§Ç ‡§π‡§ø‡§®‡•ç‡§¶‡•Ç ‡§Æ‡§∞‡•á ‡§π‡•à‡§Ç ‡§á‡§∏‡§≤‡§ø‡§è ‡§Æ‡•Å‡§ù‡•á ‡§ï‡•ã‡§à ‡§´‡§∞‡•ç‡§ï ‡§®‡§π‡•Ä‡§Ç ‡§™‡§°‡§º‡§§‡§æ ‚Äì#‡§∞‡§µ‡§ø‡§∂ ‡§ï‡•Å‡§Æ‡§æ‡§∞\n\n,fake
5727,‡§∞‡§ï‡•ç‡§∑‡§æ ‡§Æ‡§Ç‡§§‡•ç‡§∞‡•Ä @rajnathsingh ‡§®‡•á ‡§™‡•Ç‡§∞‡•ç‡§µ ‡§∞‡§æ‡§∑‡•ç‡§ü‡•ç‡§∞‡§™‡§§‡§ø #PranabMukherjee ‡§ï‡•á ‡§®‡§ø‡§ß‡§® ‡§™‡§∞ ‡§∂‡•ã‡§ï ‡§µ‡•ç‡§Ø‡§ï‡•ç‡§§ ‡§ï‡§ø‡§Ø‡§æ\n\n‡§µ‡§ø‡§µ‡§∞‡§£ : https://t.co/aLE7aVtWy9,non-hostile


In [11]:
#Calculating the null values in each columns

data2.isnull().sum()

Unique ID     0
Post          0
Labels Set    0
dtype: int64

In [12]:
data.head()

Unnamed: 0,Post,Labels Set
0,‡§Æ‡•á‡§∞‡•á ‡§¶‡•á‡§∂ ‡§ï‡•á ‡§π‡§ø‡§®‡•ç‡§¶‡•Å ‡§¨‡§π‡•Å‡§§ ‡§®‡§ø‡§∞‡§æ‡§≤‡•á ‡§π‡•à‡•§ ‡§ï‡•Å‡§õ ‡§§‡•ã ‡§™‡§ï‡•ç‡§ï‡•á ‡§∞‡§æ‡§Æ ‡§≠‡§ï‡•ç‡§§ ‡§π‡•à ‡§î‡§∞ ‡§ï‡•Å‡§õ ‡§¨‡§æ‡§¨‡§∞ ‡§ï‡•á ‡§∏‡§æ‡§≤‡•á ‡§π‡•à \n\nüôè ‡§ú‡§Ø ‡§∂‡•ç‡§∞‡•Ä ‡§∞‡§æ‡§Æ üôè,"hate,offensive"
1,"‡§∏‡§∞‡§ï‡§æ‡§∞ ‡§π‡§Æ‡•á‡§∂‡§æ ‡§∏‡•á ‡§ï‡§ø‡§∏‡§æ‡§®‡•ã‡§Ç ‡§ï‡•Ä ‡§ï‡§Æ‡§æ‡§à ‡§ï‡•ã ‡§¨‡§¢‡§º‡§æ‡§®‡•á ‡§ï‡•á ‡§≤‡§ø‡§è ‡§®‡§à-‡§®‡§à ‡§∏‡•ç‡§ï‡•Ä‡§Æ‡•á‡§Ç ‡§≤‡§æ‡§§‡•Ä ‡§∞‡§π‡§§‡•Ä ‡§π‡•à, ‡§§‡§æ‡§ï‡§ø ‡§â‡§® ‡§™‡§∞ ‡§ú‡•ç‡§Ø‡§æ‡§¶‡§æ ‡§Ü‡§∞‡•ç‡§•‡§ø‡§ï ‡§¨‡•ã‡§ù ‡§® ‡§™‡§°‡§º‡•á.\n\nhttps://t.co/8iy2MJSBAs",non-hostile
2,"‡§∏‡•Å‡§∂‡§æ‡§Ç‡§§ ‡§®‡•á ‡§ú‡•ã ‡§¨‡§ø‡§ú‡§®‡•á‡§∏ ‡§°‡•Ä‡§≤ 9 ‡§ú‡•Ç‡§® ‡§ï‡•ã ‡§ï‡•Ä ‡§•‡•Ä, ‡§µ‡•ã ‡§°‡•Ä‡§≤ ‡§¶‡•Ä‡§™‡•á‡§∂ ‡§ï‡•ã ‡§∏‡•Å‡§∂‡§æ‡§Ç‡§§ ‡§ï‡•Ä ‡§π‡§§‡•ç‡§Ø‡§æ ‡§ï‡•á ‡§¶‡§ø‡§® ‡§π‡•Ä ‡§ï‡•ç‡§Ø‡•ã‡§Ç ‡§Ø‡§æ‡§¶ ‡§Ü‡§à? ‡§¶‡•á‡§ñ‡§ø‡§è '‡§™‡•Ç‡§õ‡§§‡§æ ‡§π‡•à ‡§≠‡§æ‡§∞‡§§' ‡§Ö‡§∞‡•ç‡§®‡§¨ ‡§ï‡•á ‡§∏‡§æ‡§• ‡§∞‡§ø‡§™‡§¨‡•ç‡§≤‡§ø‡§ï ‡§≠‡§æ‡§∞‡§§ ‡§™‡§∞ #LIVE : https://t.co/G945HvzM0Z https://t.co/KfH7xF1IdM",non-hostile
3,@prabhav218 ‡§∏‡§æ‡§≤‡•á ‡§ú‡•á‡§è‡§®‡§Ø‡•Ç ‡§õ‡§æ‡§™ ‡§ï‡§Æ‡§ø‡§®‡•á ‡§≤‡•ã‡§ó ‡§π‡§ø‡§®‡•ç‡§¶‡•Å‡§ì‡§Ç ‡§ï‡•ã ‡§Ø‡§π ‡§ï‡§π‡§§‡•á ‡§π‡•à ‡§ï‡•Ä ‡§∏‡§Ç‡§µ‡§ø‡§ß‡§æ‡§® ‡§∏‡§¨‡§ï‡•ã ‡§¨‡§∞‡§æ‡§¨‡§∞ ‡§Ö‡§ß‡§ø‡§ï‡§æ‡§∞ ‡§¶‡•á‡§§‡§æ ‡§π‡•à‡•§ ‡§∏‡§ö‡•ç‡§ö‡§æ‡§à ‡§Ø‡§π ‡§π‡•à ‡§ï‡§ø ‡§Ø‡§π ‡§¨‡§∞‡§æ‡§¨‡§∞ ‡§Ö‡§ß‡§ø‡§ï‡§æ‡§∞ ‡§®‡§π‡•Ä‡§Ç ‡§¶‡•á‡§§‡§æ ‡§π‡•à‡•§,"defamation,offensive"
4,#unlock4guidelines - ‡§Ö‡§®‡§≤‡•â‡§ï-4 ‡§ï‡•á ‡§≤‡§ø‡§è ‡§ó‡§æ‡§á‡§°‡§≤‡§æ‡§á‡§®‡•ç‡§∏ ‡§ú‡§æ‡§∞‡•Ä\n\n- 7 ‡§∏‡§ø‡§§‡§Ç‡§¨‡§∞ ‡§∏‡•á ‡§¶‡•á‡§∂‡§≠‡§∞ ‡§Æ‡•á‡§Ç ‡§Æ‡•á‡§ü‡•ç‡§∞‡•ã ‡§∏‡•á‡§µ‡§æ ‡§∂‡•Å‡§∞‡•Å ‡§π‡•ã‡§ó‡•Ä\n- 21 ‡§∏‡§ø‡§§‡§Ç‡§¨‡§∞ ‡§ï‡•á ‡§¨‡§æ‡§¶ ‡§∞‡•à‡§≤‡§ø‡§Ø‡•ã‡§Ç ‡§î‡§∞ ‡§¨‡§æ‡§ï‡•Ä ‡§´‡§Ç‡§ï‡•ç‡§∂‡§® ‡§Æ‡•á‡§Ç 100 ‡§≤‡•ã‡§ó‡•ã‡§Ç ‡§ï‡•ã ‡§á‡§ú‡§æ‡§ú‡§§\n- ‡§ï‡§Ç‡§ü‡•á‡§®‡§Æ‡•á‡§Ç‡§ü ‡§ú‡•ã‡§® ‡§Æ‡•á‡§Ç ‡§ï‡•ã‡§à ‡§õ‡•Ç‡§ü ‡§®‡§π‡•Ä‡§Ç\n- ‡§∏‡§ø‡§®‡•á‡§Æ‡§æ‡§π‡•â‡§≤ ‡§Ö‡§≠‡•Ä ‡§¨‡§Ç‡§¶ ‡§∞‡§π‡•á‡§Ç‡§ó‡•á\n- 9 ‡§∏‡•á 12‡§µ‡•Ä‡§Ç ‡§ï‡•á ‡§õ‡§æ‡§§‡•ç‡§∞ 21 ‡§∏‡§ø‡§§‡§Ç‡§¨‡§∞ ‡§ï‡•á ‡§¨‡§æ‡§¶ ‡§∏‡•ç‡§ï‡•Ç‡§≤ ‡§ú‡§æ ‡§∏‡§ï‡•á‡§Ç‡§ó‡•á. https://t.co/4e6lysg0VR,non-hostile


In [13]:
#removing url,hashtag and mentions from train dataset

data['cleanPost'] = data['Post'].str.replace('http\S+|www.\S+|#\S+|@\S+', '', case=False)

In [14]:
#removing url,hashtag and mentions from validation dataset

data2['cleanPost'] = data2['Post'].str.replace('http\S+|www.\S+|#\S+|@\S+', '', case=False)

In [15]:
data.head()

Unnamed: 0,Post,Labels Set,cleanPost
0,‡§Æ‡•á‡§∞‡•á ‡§¶‡•á‡§∂ ‡§ï‡•á ‡§π‡§ø‡§®‡•ç‡§¶‡•Å ‡§¨‡§π‡•Å‡§§ ‡§®‡§ø‡§∞‡§æ‡§≤‡•á ‡§π‡•à‡•§ ‡§ï‡•Å‡§õ ‡§§‡•ã ‡§™‡§ï‡•ç‡§ï‡•á ‡§∞‡§æ‡§Æ ‡§≠‡§ï‡•ç‡§§ ‡§π‡•à ‡§î‡§∞ ‡§ï‡•Å‡§õ ‡§¨‡§æ‡§¨‡§∞ ‡§ï‡•á ‡§∏‡§æ‡§≤‡•á ‡§π‡•à \n\nüôè ‡§ú‡§Ø ‡§∂‡•ç‡§∞‡•Ä ‡§∞‡§æ‡§Æ üôè,"hate,offensive",‡§Æ‡•á‡§∞‡•á ‡§¶‡•á‡§∂ ‡§ï‡•á ‡§π‡§ø‡§®‡•ç‡§¶‡•Å ‡§¨‡§π‡•Å‡§§ ‡§®‡§ø‡§∞‡§æ‡§≤‡•á ‡§π‡•à‡•§ ‡§ï‡•Å‡§õ ‡§§‡•ã ‡§™‡§ï‡•ç‡§ï‡•á ‡§∞‡§æ‡§Æ ‡§≠‡§ï‡•ç‡§§ ‡§π‡•à ‡§î‡§∞ ‡§ï‡•Å‡§õ ‡§¨‡§æ‡§¨‡§∞ ‡§ï‡•á ‡§∏‡§æ‡§≤‡•á ‡§π‡•à \n\nüôè ‡§ú‡§Ø ‡§∂‡•ç‡§∞‡•Ä ‡§∞‡§æ‡§Æ üôè
1,"‡§∏‡§∞‡§ï‡§æ‡§∞ ‡§π‡§Æ‡•á‡§∂‡§æ ‡§∏‡•á ‡§ï‡§ø‡§∏‡§æ‡§®‡•ã‡§Ç ‡§ï‡•Ä ‡§ï‡§Æ‡§æ‡§à ‡§ï‡•ã ‡§¨‡§¢‡§º‡§æ‡§®‡•á ‡§ï‡•á ‡§≤‡§ø‡§è ‡§®‡§à-‡§®‡§à ‡§∏‡•ç‡§ï‡•Ä‡§Æ‡•á‡§Ç ‡§≤‡§æ‡§§‡•Ä ‡§∞‡§π‡§§‡•Ä ‡§π‡•à, ‡§§‡§æ‡§ï‡§ø ‡§â‡§® ‡§™‡§∞ ‡§ú‡•ç‡§Ø‡§æ‡§¶‡§æ ‡§Ü‡§∞‡•ç‡§•‡§ø‡§ï ‡§¨‡•ã‡§ù ‡§® ‡§™‡§°‡§º‡•á.\n\nhttps://t.co/8iy2MJSBAs",non-hostile,"‡§∏‡§∞‡§ï‡§æ‡§∞ ‡§π‡§Æ‡•á‡§∂‡§æ ‡§∏‡•á ‡§ï‡§ø‡§∏‡§æ‡§®‡•ã‡§Ç ‡§ï‡•Ä ‡§ï‡§Æ‡§æ‡§à ‡§ï‡•ã ‡§¨‡§¢‡§º‡§æ‡§®‡•á ‡§ï‡•á ‡§≤‡§ø‡§è ‡§®‡§à-‡§®‡§à ‡§∏‡•ç‡§ï‡•Ä‡§Æ‡•á‡§Ç ‡§≤‡§æ‡§§‡•Ä ‡§∞‡§π‡§§‡•Ä ‡§π‡•à, ‡§§‡§æ‡§ï‡§ø ‡§â‡§® ‡§™‡§∞ ‡§ú‡•ç‡§Ø‡§æ‡§¶‡§æ ‡§Ü‡§∞‡•ç‡§•‡§ø‡§ï ‡§¨‡•ã‡§ù ‡§® ‡§™‡§°‡§º‡•á.\n\n"
2,"‡§∏‡•Å‡§∂‡§æ‡§Ç‡§§ ‡§®‡•á ‡§ú‡•ã ‡§¨‡§ø‡§ú‡§®‡•á‡§∏ ‡§°‡•Ä‡§≤ 9 ‡§ú‡•Ç‡§® ‡§ï‡•ã ‡§ï‡•Ä ‡§•‡•Ä, ‡§µ‡•ã ‡§°‡•Ä‡§≤ ‡§¶‡•Ä‡§™‡•á‡§∂ ‡§ï‡•ã ‡§∏‡•Å‡§∂‡§æ‡§Ç‡§§ ‡§ï‡•Ä ‡§π‡§§‡•ç‡§Ø‡§æ ‡§ï‡•á ‡§¶‡§ø‡§® ‡§π‡•Ä ‡§ï‡•ç‡§Ø‡•ã‡§Ç ‡§Ø‡§æ‡§¶ ‡§Ü‡§à? ‡§¶‡•á‡§ñ‡§ø‡§è '‡§™‡•Ç‡§õ‡§§‡§æ ‡§π‡•à ‡§≠‡§æ‡§∞‡§§' ‡§Ö‡§∞‡•ç‡§®‡§¨ ‡§ï‡•á ‡§∏‡§æ‡§• ‡§∞‡§ø‡§™‡§¨‡•ç‡§≤‡§ø‡§ï ‡§≠‡§æ‡§∞‡§§ ‡§™‡§∞ #LIVE : https://t.co/G945HvzM0Z https://t.co/KfH7xF1IdM",non-hostile,"‡§∏‡•Å‡§∂‡§æ‡§Ç‡§§ ‡§®‡•á ‡§ú‡•ã ‡§¨‡§ø‡§ú‡§®‡•á‡§∏ ‡§°‡•Ä‡§≤ 9 ‡§ú‡•Ç‡§® ‡§ï‡•ã ‡§ï‡•Ä ‡§•‡•Ä, ‡§µ‡•ã ‡§°‡•Ä‡§≤ ‡§¶‡•Ä‡§™‡•á‡§∂ ‡§ï‡•ã ‡§∏‡•Å‡§∂‡§æ‡§Ç‡§§ ‡§ï‡•Ä ‡§π‡§§‡•ç‡§Ø‡§æ ‡§ï‡•á ‡§¶‡§ø‡§® ‡§π‡•Ä ‡§ï‡•ç‡§Ø‡•ã‡§Ç ‡§Ø‡§æ‡§¶ ‡§Ü‡§à? ‡§¶‡•á‡§ñ‡§ø‡§è '‡§™‡•Ç‡§õ‡§§‡§æ ‡§π‡•à ‡§≠‡§æ‡§∞‡§§' ‡§Ö‡§∞‡•ç‡§®‡§¨ ‡§ï‡•á ‡§∏‡§æ‡§• ‡§∞‡§ø‡§™‡§¨‡•ç‡§≤‡§ø‡§ï ‡§≠‡§æ‡§∞‡§§ ‡§™‡§∞ :"
3,@prabhav218 ‡§∏‡§æ‡§≤‡•á ‡§ú‡•á‡§è‡§®‡§Ø‡•Ç ‡§õ‡§æ‡§™ ‡§ï‡§Æ‡§ø‡§®‡•á ‡§≤‡•ã‡§ó ‡§π‡§ø‡§®‡•ç‡§¶‡•Å‡§ì‡§Ç ‡§ï‡•ã ‡§Ø‡§π ‡§ï‡§π‡§§‡•á ‡§π‡•à ‡§ï‡•Ä ‡§∏‡§Ç‡§µ‡§ø‡§ß‡§æ‡§® ‡§∏‡§¨‡§ï‡•ã ‡§¨‡§∞‡§æ‡§¨‡§∞ ‡§Ö‡§ß‡§ø‡§ï‡§æ‡§∞ ‡§¶‡•á‡§§‡§æ ‡§π‡•à‡•§ ‡§∏‡§ö‡•ç‡§ö‡§æ‡§à ‡§Ø‡§π ‡§π‡•à ‡§ï‡§ø ‡§Ø‡§π ‡§¨‡§∞‡§æ‡§¨‡§∞ ‡§Ö‡§ß‡§ø‡§ï‡§æ‡§∞ ‡§®‡§π‡•Ä‡§Ç ‡§¶‡•á‡§§‡§æ ‡§π‡•à‡•§,"defamation,offensive",‡§∏‡§æ‡§≤‡•á ‡§ú‡•á‡§è‡§®‡§Ø‡•Ç ‡§õ‡§æ‡§™ ‡§ï‡§Æ‡§ø‡§®‡•á ‡§≤‡•ã‡§ó ‡§π‡§ø‡§®‡•ç‡§¶‡•Å‡§ì‡§Ç ‡§ï‡•ã ‡§Ø‡§π ‡§ï‡§π‡§§‡•á ‡§π‡•à ‡§ï‡•Ä ‡§∏‡§Ç‡§µ‡§ø‡§ß‡§æ‡§® ‡§∏‡§¨‡§ï‡•ã ‡§¨‡§∞‡§æ‡§¨‡§∞ ‡§Ö‡§ß‡§ø‡§ï‡§æ‡§∞ ‡§¶‡•á‡§§‡§æ ‡§π‡•à‡•§ ‡§∏‡§ö‡•ç‡§ö‡§æ‡§à ‡§Ø‡§π ‡§π‡•à ‡§ï‡§ø ‡§Ø‡§π ‡§¨‡§∞‡§æ‡§¨‡§∞ ‡§Ö‡§ß‡§ø‡§ï‡§æ‡§∞ ‡§®‡§π‡•Ä‡§Ç ‡§¶‡•á‡§§‡§æ ‡§π‡•à‡•§
4,#unlock4guidelines - ‡§Ö‡§®‡§≤‡•â‡§ï-4 ‡§ï‡•á ‡§≤‡§ø‡§è ‡§ó‡§æ‡§á‡§°‡§≤‡§æ‡§á‡§®‡•ç‡§∏ ‡§ú‡§æ‡§∞‡•Ä\n\n- 7 ‡§∏‡§ø‡§§‡§Ç‡§¨‡§∞ ‡§∏‡•á ‡§¶‡•á‡§∂‡§≠‡§∞ ‡§Æ‡•á‡§Ç ‡§Æ‡•á‡§ü‡•ç‡§∞‡•ã ‡§∏‡•á‡§µ‡§æ ‡§∂‡•Å‡§∞‡•Å ‡§π‡•ã‡§ó‡•Ä\n- 21 ‡§∏‡§ø‡§§‡§Ç‡§¨‡§∞ ‡§ï‡•á ‡§¨‡§æ‡§¶ ‡§∞‡•à‡§≤‡§ø‡§Ø‡•ã‡§Ç ‡§î‡§∞ ‡§¨‡§æ‡§ï‡•Ä ‡§´‡§Ç‡§ï‡•ç‡§∂‡§® ‡§Æ‡•á‡§Ç 100 ‡§≤‡•ã‡§ó‡•ã‡§Ç ‡§ï‡•ã ‡§á‡§ú‡§æ‡§ú‡§§\n- ‡§ï‡§Ç‡§ü‡•á‡§®‡§Æ‡•á‡§Ç‡§ü ‡§ú‡•ã‡§® ‡§Æ‡•á‡§Ç ‡§ï‡•ã‡§à ‡§õ‡•Ç‡§ü ‡§®‡§π‡•Ä‡§Ç\n- ‡§∏‡§ø‡§®‡•á‡§Æ‡§æ‡§π‡•â‡§≤ ‡§Ö‡§≠‡•Ä ‡§¨‡§Ç‡§¶ ‡§∞‡§π‡•á‡§Ç‡§ó‡•á\n- 9 ‡§∏‡•á 12‡§µ‡•Ä‡§Ç ‡§ï‡•á ‡§õ‡§æ‡§§‡•ç‡§∞ 21 ‡§∏‡§ø‡§§‡§Ç‡§¨‡§∞ ‡§ï‡•á ‡§¨‡§æ‡§¶ ‡§∏‡•ç‡§ï‡•Ç‡§≤ ‡§ú‡§æ ‡§∏‡§ï‡•á‡§Ç‡§ó‡•á. https://t.co/4e6lysg0VR,non-hostile,- ‡§Ö‡§®‡§≤‡•â‡§ï-4 ‡§ï‡•á ‡§≤‡§ø‡§è ‡§ó‡§æ‡§á‡§°‡§≤‡§æ‡§á‡§®‡•ç‡§∏ ‡§ú‡§æ‡§∞‡•Ä\n\n- 7 ‡§∏‡§ø‡§§‡§Ç‡§¨‡§∞ ‡§∏‡•á ‡§¶‡•á‡§∂‡§≠‡§∞ ‡§Æ‡•á‡§Ç ‡§Æ‡•á‡§ü‡•ç‡§∞‡•ã ‡§∏‡•á‡§µ‡§æ ‡§∂‡•Å‡§∞‡•Å ‡§π‡•ã‡§ó‡•Ä\n- 21 ‡§∏‡§ø‡§§‡§Ç‡§¨‡§∞ ‡§ï‡•á ‡§¨‡§æ‡§¶ ‡§∞‡•à‡§≤‡§ø‡§Ø‡•ã‡§Ç ‡§î‡§∞ ‡§¨‡§æ‡§ï‡•Ä ‡§´‡§Ç‡§ï‡•ç‡§∂‡§® ‡§Æ‡•á‡§Ç 100 ‡§≤‡•ã‡§ó‡•ã‡§Ç ‡§ï‡•ã ‡§á‡§ú‡§æ‡§ú‡§§\n- ‡§ï‡§Ç‡§ü‡•á‡§®‡§Æ‡•á‡§Ç‡§ü ‡§ú‡•ã‡§® ‡§Æ‡•á‡§Ç ‡§ï‡•ã‡§à ‡§õ‡•Ç‡§ü ‡§®‡§π‡•Ä‡§Ç\n- ‡§∏‡§ø‡§®‡•á‡§Æ‡§æ‡§π‡•â‡§≤ ‡§Ö‡§≠‡•Ä ‡§¨‡§Ç‡§¶ ‡§∞‡§π‡•á‡§Ç‡§ó‡•á\n- 9 ‡§∏‡•á 12‡§µ‡•Ä‡§Ç ‡§ï‡•á ‡§õ‡§æ‡§§‡•ç‡§∞ 21 ‡§∏‡§ø‡§§‡§Ç‡§¨‡§∞ ‡§ï‡•á ‡§¨‡§æ‡§¶ ‡§∏‡•ç‡§ï‡•Ç‡§≤ ‡§ú‡§æ ‡§∏‡§ï‡•á‡§Ç‡§ó‡•á.


In [16]:
data2.head()

Unnamed: 0,Unique ID,Post,Labels Set,cleanPost
0,1,‡§¶‡•É‡§¢‡§º ‡§á‡§ö‡•ç‡§õ‡§æ ‡§∂‡§ï‡•ç‡§§‡§ø ‡§∏‡•á ‡§™‡§∞‡§ø‡§™‡•Ç‡§∞‡•ç‡§£ ‡§™‡•ç‡§∞‡§£‡§¨‡§¶‡§æ ‡§ï‡•á ‡§≤‡§ø‡§è ‡§¶‡•á‡§∂‡§π‡§ø‡§§ ‡§∏‡§∞‡•ç‡§µ‡•ã‡§ö‡•ç‡§ö ‡§∞‡§π‡§æ‡•§\n\n‡§â‡§®‡§ï‡§æ ‡§®‡§ø‡§ß‡§® ‡§π‡§Æ ‡§∏‡§¨ ‡§ï‡•á ‡§≤‡§ø‡§è ‡§Ö‡§™‡•Ç‡§∞‡§£‡•Ä‡§Ø ‡§ï‡•ç‡§∑‡§§‡§ø ‡§π‡•à‡•§\n‡§à‡§∂‡•ç‡§µ‡§∞ ‡§¶‡§ø‡§µ‡§Ç‡§ó‡§§ ‡§Ü‡§§‡•ç‡§Æ‡§æ ‡§ï‡•ã ‡§Ö‡§™‡§®‡•á ‡§∂‡•ç‡§∞‡•Ä‡§ö‡§∞‡§£‡•ã‡§Ç ‡§Æ‡•á‡§Ç ‡§∏‡•ç‡§•‡§æ‡§® ‡§¶‡•á‡§Ç‡•§ ‡§∂‡•ã‡§ï ‡§∏‡§Ç‡§§‡§™‡•ç‡§§ ‡§™‡§∞‡§ø‡§ú‡§®‡•ã‡§Ç ‡§ï‡•á ‡§™‡•ç‡§∞‡§§‡§ø ‡§∏‡§Ç‡§µ‡•á‡§¶‡§®‡§æ‡§è‡§Ç‡•§\n‡§ä‡§Ç ‡§∂‡§æ‡§Ç‡§§‡§ø!!!,non-hostile,‡§¶‡•É‡§¢‡§º ‡§á‡§ö‡•ç‡§õ‡§æ ‡§∂‡§ï‡•ç‡§§‡§ø ‡§∏‡•á ‡§™‡§∞‡§ø‡§™‡•Ç‡§∞‡•ç‡§£ ‡§™‡•ç‡§∞‡§£‡§¨‡§¶‡§æ ‡§ï‡•á ‡§≤‡§ø‡§è ‡§¶‡•á‡§∂‡§π‡§ø‡§§ ‡§∏‡§∞‡•ç‡§µ‡•ã‡§ö‡•ç‡§ö ‡§∞‡§π‡§æ‡•§\n\n‡§â‡§®‡§ï‡§æ ‡§®‡§ø‡§ß‡§® ‡§π‡§Æ ‡§∏‡§¨ ‡§ï‡•á ‡§≤‡§ø‡§è ‡§Ö‡§™‡•Ç‡§∞‡§£‡•Ä‡§Ø ‡§ï‡•ç‡§∑‡§§‡§ø ‡§π‡•à‡•§\n‡§à‡§∂‡•ç‡§µ‡§∞ ‡§¶‡§ø‡§µ‡§Ç‡§ó‡§§ ‡§Ü‡§§‡•ç‡§Æ‡§æ ‡§ï‡•ã ‡§Ö‡§™‡§®‡•á ‡§∂‡•ç‡§∞‡•Ä‡§ö‡§∞‡§£‡•ã‡§Ç ‡§Æ‡•á‡§Ç ‡§∏‡•ç‡§•‡§æ‡§® ‡§¶‡•á‡§Ç‡•§ ‡§∂‡•ã‡§ï ‡§∏‡§Ç‡§§‡§™‡•ç‡§§ ‡§™‡§∞‡§ø‡§ú‡§®‡•ã‡§Ç ‡§ï‡•á ‡§™‡•ç‡§∞‡§§‡§ø ‡§∏‡§Ç‡§µ‡•á‡§¶‡§®‡§æ‡§è‡§Ç‡•§\n‡§ä‡§Ç ‡§∂‡§æ‡§Ç‡§§‡§ø!!!
1,2,‡§≠‡§æ‡§∞‡§§‡•Ä‡§Ø ‡§ú‡§®‡§§‡§æ ‡§™‡§æ‡§∞‡•ç‡§ü‡•Ä rss ‡§µ‡§æ‡§≤‡•á ‡§á‡§§‡§®‡•á ‡§ó‡§ø‡§∞‡•á ‡§π‡•Å‡§è ‡§π‡•à‡§Ç ‡§ú‡§π‡§æ‡§Ç ‡§Æ‡•à‡§Ç ‡§∞‡§π‡§§‡•Ä ‡§π‡•Ç‡§Ç ‡§µ‡§π‡§æ‡§Ç ‡§Æ‡•á‡§∞‡•Ä ‡§ú‡§æ‡§∏‡•Ç‡§∏‡•Ä ‡§ï‡§∞‡§æ ‡§∞‡§π‡•á‡§Ç ‡§π‡•à ‡§â‡§∏‡§ï‡•Ä ‡§ú‡§æ‡§∏‡•Ç‡§∏ ‡§ï‡•Ä ‡§™‡§π‡§ö‡§æ‡§® ‡§Æ‡•Å‡§ù‡•á ‡§Ö‡§ö‡•ç‡§õ‡•Ä ‡§§‡§∞‡§π ‡§π‡•à rss ‡§¨‡•Ä‡§ú‡•á‡§™‡•Ä ‡§µ‡§æ‡§≤‡•á ‡§ï‡•Ä ‡§ú‡§æ‡§∏‡•Ç‡§∏ ‡§¶‡§ø‡§≤‡•ç‡§≤‡•Ä ‡§Æ‡•á‡§Ç ‡§ï‡•å‡§® ‡§π‡•à ‡§â‡§§‡•ç‡§§‡§∞ ‡§™‡•ç‡§∞‡§¶‡•á‡§∂ ‡§Æ‡•á‡§Ç ‡§ï‡•å‡§® ‡§π‡•à ‡§π‡§∞‡§ø‡§Ø‡§æ‡§£‡§æ ‡§∞‡§æ‡§ú‡§∏‡•ç‡§•‡§æ‡§® ‡§Æ‡•á‡§Ç ‡§ï‡•å‡§® ‡§π‡•à ‡§∏‡§¨‡§ï‡•Ä ‡§™‡§π‡§ö‡§æ‡§® ‡§π‡•à ‡§Æ‡•Å‡§ù‡•á ‡§Æ‡•á‡§∞‡•Ä ‡§®‡§ú‡§∞ ‡§∏‡•á ‡§¨‡§ö ‡§®‡§π‡•Ä‡§Ç ‡§∏‡§ï‡§§‡•á ‡§π‡•ã,defamation,‡§≠‡§æ‡§∞‡§§‡•Ä‡§Ø ‡§ú‡§®‡§§‡§æ ‡§™‡§æ‡§∞‡•ç‡§ü‡•Ä rss ‡§µ‡§æ‡§≤‡•á ‡§á‡§§‡§®‡•á ‡§ó‡§ø‡§∞‡•á ‡§π‡•Å‡§è ‡§π‡•à‡§Ç ‡§ú‡§π‡§æ‡§Ç ‡§Æ‡•à‡§Ç ‡§∞‡§π‡§§‡•Ä ‡§π‡•Ç‡§Ç ‡§µ‡§π‡§æ‡§Ç ‡§Æ‡•á‡§∞‡•Ä ‡§ú‡§æ‡§∏‡•Ç‡§∏‡•Ä ‡§ï‡§∞‡§æ ‡§∞‡§π‡•á‡§Ç ‡§π‡•à ‡§â‡§∏‡§ï‡•Ä ‡§ú‡§æ‡§∏‡•Ç‡§∏ ‡§ï‡•Ä ‡§™‡§π‡§ö‡§æ‡§® ‡§Æ‡•Å‡§ù‡•á ‡§Ö‡§ö‡•ç‡§õ‡•Ä ‡§§‡§∞‡§π ‡§π‡•à rss ‡§¨‡•Ä‡§ú‡•á‡§™‡•Ä ‡§µ‡§æ‡§≤‡•á ‡§ï‡•Ä ‡§ú‡§æ‡§∏‡•Ç‡§∏ ‡§¶‡§ø‡§≤‡•ç‡§≤‡•Ä ‡§Æ‡•á‡§Ç ‡§ï‡•å‡§® ‡§π‡•à ‡§â‡§§‡•ç‡§§‡§∞ ‡§™‡•ç‡§∞‡§¶‡•á‡§∂ ‡§Æ‡•á‡§Ç ‡§ï‡•å‡§® ‡§π‡•à ‡§π‡§∞‡§ø‡§Ø‡§æ‡§£‡§æ ‡§∞‡§æ‡§ú‡§∏‡•ç‡§•‡§æ‡§® ‡§Æ‡•á‡§Ç ‡§ï‡•å‡§® ‡§π‡•à ‡§∏‡§¨‡§ï‡•Ä ‡§™‡§π‡§ö‡§æ‡§® ‡§π‡•à ‡§Æ‡•Å‡§ù‡•á ‡§Æ‡•á‡§∞‡•Ä ‡§®‡§ú‡§∞ ‡§∏‡•á ‡§¨‡§ö ‡§®‡§π‡•Ä‡§Ç ‡§∏‡§ï‡§§‡•á ‡§π‡•ã
2,3,"‡§ï‡•ã‡§∞‡•ã‡§®‡§æ ‡§∏‡•á ‡§®‡§ø‡§™‡§ü‡§®‡•á ‡§ï‡•Ä ‡§§‡•à‡§Ø‡§æ‡§∞‡•Ä / ‡§¶‡§ø‡§≤‡•ç‡§≤‡•Ä ‡§Æ‡•á‡§Ç 10 ‡§π‡§ú‡§æ‡§∞ ‡§¨‡•á‡§° ‡§µ‡§æ‡§≤‡§æ ‡§¶‡•Å‡§®‡§ø‡§Ø‡§æ ‡§ï‡§æ ‡§∏‡§¨‡§∏‡•á ‡§¨‡§°‡§º‡§æ ‡§ï‡•ã‡§µ‡§ø‡§° ‡§ï‡•á‡§Ø‡§∞ ‡§∏‡•á‡§Ç‡§ü‡§∞ ‡§∂‡•Å‡§∞‡•Ç, ‡§∞‡§æ‡§ú‡§®‡§æ‡§•-‡§∂‡§æ‡§π ‡§®‡•á ‡§°‡•Ä‡§Ü‡§∞‡§°‡•Ä‡§ì ‡§ï‡•á 1 ‡§π‡§ú‡§æ‡§∞ ‡§¨‡•á‡§° ‡§µ‡§æ‡§≤‡•á ‡§∏‡•á‡§Ç‡§ü‡§∞ ‡§ï‡§æ ‡§≠‡•Ä ‡§â‡§¶‡•ç‡§ò‡§æ‡§ü‡§® ‡§ï‡§ø‡§Ø‡§æ\nhttps://t.co/9rlQowAsFh #Delhi @ArvindKejriwal @rajnathsingh @AmitShah @DRDO_India @WHO @crpfindia @ITBP_official",non-hostile,"‡§ï‡•ã‡§∞‡•ã‡§®‡§æ ‡§∏‡•á ‡§®‡§ø‡§™‡§ü‡§®‡•á ‡§ï‡•Ä ‡§§‡•à‡§Ø‡§æ‡§∞‡•Ä / ‡§¶‡§ø‡§≤‡•ç‡§≤‡•Ä ‡§Æ‡•á‡§Ç 10 ‡§π‡§ú‡§æ‡§∞ ‡§¨‡•á‡§° ‡§µ‡§æ‡§≤‡§æ ‡§¶‡•Å‡§®‡§ø‡§Ø‡§æ ‡§ï‡§æ ‡§∏‡§¨‡§∏‡•á ‡§¨‡§°‡§º‡§æ ‡§ï‡•ã‡§µ‡§ø‡§° ‡§ï‡•á‡§Ø‡§∞ ‡§∏‡•á‡§Ç‡§ü‡§∞ ‡§∂‡•Å‡§∞‡•Ç, ‡§∞‡§æ‡§ú‡§®‡§æ‡§•-‡§∂‡§æ‡§π ‡§®‡•á ‡§°‡•Ä‡§Ü‡§∞‡§°‡•Ä‡§ì ‡§ï‡•á 1 ‡§π‡§ú‡§æ‡§∞ ‡§¨‡•á‡§° ‡§µ‡§æ‡§≤‡•á ‡§∏‡•á‡§Ç‡§ü‡§∞ ‡§ï‡§æ ‡§≠‡•Ä ‡§â‡§¶‡•ç‡§ò‡§æ‡§ü‡§® ‡§ï‡§ø‡§Ø‡§æ\n"
3,4,‡§ó‡§µ‡§∞‡•ç‡§®‡§∞ ‡§ï‡•â‡§®‡•ç‡§´‡•ç‡§∞‡•á‡§Ç‡§∏ ‡§Æ‡•á‡§Ç PM ‡§Æ‡•ã‡§¶‡•Ä ‡§¨‡•ã‡§≤‡•á- ‡§∂‡§ø‡§ï‡•ç‡§∑‡§æ ‡§®‡•Ä‡§§‡§ø ‡§Æ‡•á‡§Ç ‡§∏‡§∞‡§ï‡§æ‡§∞ ‡§ï‡§æ ‡§¶‡§ñ‡§≤ ‡§ï‡§Æ ‡§π‡•ã‡§®‡§æ ‡§ö‡§æ‡§π‡§ø‡§è\nhttps://t.co/ZvKgxk6dbd,non-hostile,‡§ó‡§µ‡§∞‡•ç‡§®‡§∞ ‡§ï‡•â‡§®‡•ç‡§´‡•ç‡§∞‡•á‡§Ç‡§∏ ‡§Æ‡•á‡§Ç PM ‡§Æ‡•ã‡§¶‡•Ä ‡§¨‡•ã‡§≤‡•á- ‡§∂‡§ø‡§ï‡•ç‡§∑‡§æ ‡§®‡•Ä‡§§‡§ø ‡§Æ‡•á‡§Ç ‡§∏‡§∞‡§ï‡§æ‡§∞ ‡§ï‡§æ ‡§¶‡§ñ‡§≤ ‡§ï‡§Æ ‡§π‡•ã‡§®‡§æ ‡§ö‡§æ‡§π‡§ø‡§è\n
4,5,"‡§Ø‡•Ç‡§™‡•Ä: ‡§ó‡§æ‡§ú‡•Ä‡§™‡•Å‡§∞ ‡§Æ‡•á‡§Ç Toilet ‡§ò‡•ã‡§ü‡§æ‡§≤‡§æ, ‡§™‡•ç‡§∞‡§ß‡§æ‡§® ‡§µ ‡§∏‡§ö‡§ø‡§µ ‡§®‡•á ‡§ï‡§ø‡§Ø‡§æ ‡§≤‡§æ‡§ñ‡•ã‡§Ç ‡§ï‡§æ ‡§ó‡§¨‡§®, ‡§Æ‡•Å‡§∞‡•ç‡§¶‡•ã‡§Ç ‡§ï‡•á ‡§®‡§æ‡§Æ ‡§™‡§∞ ‡§¨‡§®‡§µ‡§æ ‡§°‡§æ‡§≤‡•á ‡§∂‡•å‡§ö‡§æ‡§≤‡§Ø\n\n#UP\nhttps://t.co/hxM1uNNmX2",non-hostile,"‡§Ø‡•Ç‡§™‡•Ä: ‡§ó‡§æ‡§ú‡•Ä‡§™‡•Å‡§∞ ‡§Æ‡•á‡§Ç Toilet ‡§ò‡•ã‡§ü‡§æ‡§≤‡§æ, ‡§™‡•ç‡§∞‡§ß‡§æ‡§® ‡§µ ‡§∏‡§ö‡§ø‡§µ ‡§®‡•á ‡§ï‡§ø‡§Ø‡§æ ‡§≤‡§æ‡§ñ‡•ã‡§Ç ‡§ï‡§æ ‡§ó‡§¨‡§®, ‡§Æ‡•Å‡§∞‡•ç‡§¶‡•ã‡§Ç ‡§ï‡•á ‡§®‡§æ‡§Æ ‡§™‡§∞ ‡§¨‡§®‡§µ‡§æ ‡§°‡§æ‡§≤‡•á ‡§∂‡•å‡§ö‡§æ‡§≤‡§Ø\n\n\n"


In [17]:
#removing post columns from train 

columns_titles = ["cleanPost","Labels Set","Post"]
data=data.reindex(columns=columns_titles)

In [18]:
data=data.drop(data.columns[[2]], axis=1)

In [19]:
#removing post column from validation

columns_titles = ["cleanPost","Labels Set","Post"]
data2=data2.reindex(columns=columns_titles)
data2=data2.drop(data2.columns[[2]], axis=1)

In [20]:
data.head()

Unnamed: 0,cleanPost,Labels Set
0,‡§Æ‡•á‡§∞‡•á ‡§¶‡•á‡§∂ ‡§ï‡•á ‡§π‡§ø‡§®‡•ç‡§¶‡•Å ‡§¨‡§π‡•Å‡§§ ‡§®‡§ø‡§∞‡§æ‡§≤‡•á ‡§π‡•à‡•§ ‡§ï‡•Å‡§õ ‡§§‡•ã ‡§™‡§ï‡•ç‡§ï‡•á ‡§∞‡§æ‡§Æ ‡§≠‡§ï‡•ç‡§§ ‡§π‡•à ‡§î‡§∞ ‡§ï‡•Å‡§õ ‡§¨‡§æ‡§¨‡§∞ ‡§ï‡•á ‡§∏‡§æ‡§≤‡•á ‡§π‡•à \n\nüôè ‡§ú‡§Ø ‡§∂‡•ç‡§∞‡•Ä ‡§∞‡§æ‡§Æ üôè,"hate,offensive"
1,"‡§∏‡§∞‡§ï‡§æ‡§∞ ‡§π‡§Æ‡•á‡§∂‡§æ ‡§∏‡•á ‡§ï‡§ø‡§∏‡§æ‡§®‡•ã‡§Ç ‡§ï‡•Ä ‡§ï‡§Æ‡§æ‡§à ‡§ï‡•ã ‡§¨‡§¢‡§º‡§æ‡§®‡•á ‡§ï‡•á ‡§≤‡§ø‡§è ‡§®‡§à-‡§®‡§à ‡§∏‡•ç‡§ï‡•Ä‡§Æ‡•á‡§Ç ‡§≤‡§æ‡§§‡•Ä ‡§∞‡§π‡§§‡•Ä ‡§π‡•à, ‡§§‡§æ‡§ï‡§ø ‡§â‡§® ‡§™‡§∞ ‡§ú‡•ç‡§Ø‡§æ‡§¶‡§æ ‡§Ü‡§∞‡•ç‡§•‡§ø‡§ï ‡§¨‡•ã‡§ù ‡§® ‡§™‡§°‡§º‡•á.\n\n",non-hostile
2,"‡§∏‡•Å‡§∂‡§æ‡§Ç‡§§ ‡§®‡•á ‡§ú‡•ã ‡§¨‡§ø‡§ú‡§®‡•á‡§∏ ‡§°‡•Ä‡§≤ 9 ‡§ú‡•Ç‡§® ‡§ï‡•ã ‡§ï‡•Ä ‡§•‡•Ä, ‡§µ‡•ã ‡§°‡•Ä‡§≤ ‡§¶‡•Ä‡§™‡•á‡§∂ ‡§ï‡•ã ‡§∏‡•Å‡§∂‡§æ‡§Ç‡§§ ‡§ï‡•Ä ‡§π‡§§‡•ç‡§Ø‡§æ ‡§ï‡•á ‡§¶‡§ø‡§® ‡§π‡•Ä ‡§ï‡•ç‡§Ø‡•ã‡§Ç ‡§Ø‡§æ‡§¶ ‡§Ü‡§à? ‡§¶‡•á‡§ñ‡§ø‡§è '‡§™‡•Ç‡§õ‡§§‡§æ ‡§π‡•à ‡§≠‡§æ‡§∞‡§§' ‡§Ö‡§∞‡•ç‡§®‡§¨ ‡§ï‡•á ‡§∏‡§æ‡§• ‡§∞‡§ø‡§™‡§¨‡•ç‡§≤‡§ø‡§ï ‡§≠‡§æ‡§∞‡§§ ‡§™‡§∞ :",non-hostile
3,‡§∏‡§æ‡§≤‡•á ‡§ú‡•á‡§è‡§®‡§Ø‡•Ç ‡§õ‡§æ‡§™ ‡§ï‡§Æ‡§ø‡§®‡•á ‡§≤‡•ã‡§ó ‡§π‡§ø‡§®‡•ç‡§¶‡•Å‡§ì‡§Ç ‡§ï‡•ã ‡§Ø‡§π ‡§ï‡§π‡§§‡•á ‡§π‡•à ‡§ï‡•Ä ‡§∏‡§Ç‡§µ‡§ø‡§ß‡§æ‡§® ‡§∏‡§¨‡§ï‡•ã ‡§¨‡§∞‡§æ‡§¨‡§∞ ‡§Ö‡§ß‡§ø‡§ï‡§æ‡§∞ ‡§¶‡•á‡§§‡§æ ‡§π‡•à‡•§ ‡§∏‡§ö‡•ç‡§ö‡§æ‡§à ‡§Ø‡§π ‡§π‡•à ‡§ï‡§ø ‡§Ø‡§π ‡§¨‡§∞‡§æ‡§¨‡§∞ ‡§Ö‡§ß‡§ø‡§ï‡§æ‡§∞ ‡§®‡§π‡•Ä‡§Ç ‡§¶‡•á‡§§‡§æ ‡§π‡•à‡•§,"defamation,offensive"
4,- ‡§Ö‡§®‡§≤‡•â‡§ï-4 ‡§ï‡•á ‡§≤‡§ø‡§è ‡§ó‡§æ‡§á‡§°‡§≤‡§æ‡§á‡§®‡•ç‡§∏ ‡§ú‡§æ‡§∞‡•Ä\n\n- 7 ‡§∏‡§ø‡§§‡§Ç‡§¨‡§∞ ‡§∏‡•á ‡§¶‡•á‡§∂‡§≠‡§∞ ‡§Æ‡•á‡§Ç ‡§Æ‡•á‡§ü‡•ç‡§∞‡•ã ‡§∏‡•á‡§µ‡§æ ‡§∂‡•Å‡§∞‡•Å ‡§π‡•ã‡§ó‡•Ä\n- 21 ‡§∏‡§ø‡§§‡§Ç‡§¨‡§∞ ‡§ï‡•á ‡§¨‡§æ‡§¶ ‡§∞‡•à‡§≤‡§ø‡§Ø‡•ã‡§Ç ‡§î‡§∞ ‡§¨‡§æ‡§ï‡•Ä ‡§´‡§Ç‡§ï‡•ç‡§∂‡§® ‡§Æ‡•á‡§Ç 100 ‡§≤‡•ã‡§ó‡•ã‡§Ç ‡§ï‡•ã ‡§á‡§ú‡§æ‡§ú‡§§\n- ‡§ï‡§Ç‡§ü‡•á‡§®‡§Æ‡•á‡§Ç‡§ü ‡§ú‡•ã‡§® ‡§Æ‡•á‡§Ç ‡§ï‡•ã‡§à ‡§õ‡•Ç‡§ü ‡§®‡§π‡•Ä‡§Ç\n- ‡§∏‡§ø‡§®‡•á‡§Æ‡§æ‡§π‡•â‡§≤ ‡§Ö‡§≠‡•Ä ‡§¨‡§Ç‡§¶ ‡§∞‡§π‡•á‡§Ç‡§ó‡•á\n- 9 ‡§∏‡•á 12‡§µ‡•Ä‡§Ç ‡§ï‡•á ‡§õ‡§æ‡§§‡•ç‡§∞ 21 ‡§∏‡§ø‡§§‡§Ç‡§¨‡§∞ ‡§ï‡•á ‡§¨‡§æ‡§¶ ‡§∏‡•ç‡§ï‡•Ç‡§≤ ‡§ú‡§æ ‡§∏‡§ï‡•á‡§Ç‡§ó‡•á.,non-hostile


In [21]:
data2.head()

Unnamed: 0,cleanPost,Labels Set
0,‡§¶‡•É‡§¢‡§º ‡§á‡§ö‡•ç‡§õ‡§æ ‡§∂‡§ï‡•ç‡§§‡§ø ‡§∏‡•á ‡§™‡§∞‡§ø‡§™‡•Ç‡§∞‡•ç‡§£ ‡§™‡•ç‡§∞‡§£‡§¨‡§¶‡§æ ‡§ï‡•á ‡§≤‡§ø‡§è ‡§¶‡•á‡§∂‡§π‡§ø‡§§ ‡§∏‡§∞‡•ç‡§µ‡•ã‡§ö‡•ç‡§ö ‡§∞‡§π‡§æ‡•§\n\n‡§â‡§®‡§ï‡§æ ‡§®‡§ø‡§ß‡§® ‡§π‡§Æ ‡§∏‡§¨ ‡§ï‡•á ‡§≤‡§ø‡§è ‡§Ö‡§™‡•Ç‡§∞‡§£‡•Ä‡§Ø ‡§ï‡•ç‡§∑‡§§‡§ø ‡§π‡•à‡•§\n‡§à‡§∂‡•ç‡§µ‡§∞ ‡§¶‡§ø‡§µ‡§Ç‡§ó‡§§ ‡§Ü‡§§‡•ç‡§Æ‡§æ ‡§ï‡•ã ‡§Ö‡§™‡§®‡•á ‡§∂‡•ç‡§∞‡•Ä‡§ö‡§∞‡§£‡•ã‡§Ç ‡§Æ‡•á‡§Ç ‡§∏‡•ç‡§•‡§æ‡§® ‡§¶‡•á‡§Ç‡•§ ‡§∂‡•ã‡§ï ‡§∏‡§Ç‡§§‡§™‡•ç‡§§ ‡§™‡§∞‡§ø‡§ú‡§®‡•ã‡§Ç ‡§ï‡•á ‡§™‡•ç‡§∞‡§§‡§ø ‡§∏‡§Ç‡§µ‡•á‡§¶‡§®‡§æ‡§è‡§Ç‡•§\n‡§ä‡§Ç ‡§∂‡§æ‡§Ç‡§§‡§ø!!!,non-hostile
1,‡§≠‡§æ‡§∞‡§§‡•Ä‡§Ø ‡§ú‡§®‡§§‡§æ ‡§™‡§æ‡§∞‡•ç‡§ü‡•Ä rss ‡§µ‡§æ‡§≤‡•á ‡§á‡§§‡§®‡•á ‡§ó‡§ø‡§∞‡•á ‡§π‡•Å‡§è ‡§π‡•à‡§Ç ‡§ú‡§π‡§æ‡§Ç ‡§Æ‡•à‡§Ç ‡§∞‡§π‡§§‡•Ä ‡§π‡•Ç‡§Ç ‡§µ‡§π‡§æ‡§Ç ‡§Æ‡•á‡§∞‡•Ä ‡§ú‡§æ‡§∏‡•Ç‡§∏‡•Ä ‡§ï‡§∞‡§æ ‡§∞‡§π‡•á‡§Ç ‡§π‡•à ‡§â‡§∏‡§ï‡•Ä ‡§ú‡§æ‡§∏‡•Ç‡§∏ ‡§ï‡•Ä ‡§™‡§π‡§ö‡§æ‡§® ‡§Æ‡•Å‡§ù‡•á ‡§Ö‡§ö‡•ç‡§õ‡•Ä ‡§§‡§∞‡§π ‡§π‡•à rss ‡§¨‡•Ä‡§ú‡•á‡§™‡•Ä ‡§µ‡§æ‡§≤‡•á ‡§ï‡•Ä ‡§ú‡§æ‡§∏‡•Ç‡§∏ ‡§¶‡§ø‡§≤‡•ç‡§≤‡•Ä ‡§Æ‡•á‡§Ç ‡§ï‡•å‡§® ‡§π‡•à ‡§â‡§§‡•ç‡§§‡§∞ ‡§™‡•ç‡§∞‡§¶‡•á‡§∂ ‡§Æ‡•á‡§Ç ‡§ï‡•å‡§® ‡§π‡•à ‡§π‡§∞‡§ø‡§Ø‡§æ‡§£‡§æ ‡§∞‡§æ‡§ú‡§∏‡•ç‡§•‡§æ‡§® ‡§Æ‡•á‡§Ç ‡§ï‡•å‡§® ‡§π‡•à ‡§∏‡§¨‡§ï‡•Ä ‡§™‡§π‡§ö‡§æ‡§® ‡§π‡•à ‡§Æ‡•Å‡§ù‡•á ‡§Æ‡•á‡§∞‡•Ä ‡§®‡§ú‡§∞ ‡§∏‡•á ‡§¨‡§ö ‡§®‡§π‡•Ä‡§Ç ‡§∏‡§ï‡§§‡•á ‡§π‡•ã,defamation
2,"‡§ï‡•ã‡§∞‡•ã‡§®‡§æ ‡§∏‡•á ‡§®‡§ø‡§™‡§ü‡§®‡•á ‡§ï‡•Ä ‡§§‡•à‡§Ø‡§æ‡§∞‡•Ä / ‡§¶‡§ø‡§≤‡•ç‡§≤‡•Ä ‡§Æ‡•á‡§Ç 10 ‡§π‡§ú‡§æ‡§∞ ‡§¨‡•á‡§° ‡§µ‡§æ‡§≤‡§æ ‡§¶‡•Å‡§®‡§ø‡§Ø‡§æ ‡§ï‡§æ ‡§∏‡§¨‡§∏‡•á ‡§¨‡§°‡§º‡§æ ‡§ï‡•ã‡§µ‡§ø‡§° ‡§ï‡•á‡§Ø‡§∞ ‡§∏‡•á‡§Ç‡§ü‡§∞ ‡§∂‡•Å‡§∞‡•Ç, ‡§∞‡§æ‡§ú‡§®‡§æ‡§•-‡§∂‡§æ‡§π ‡§®‡•á ‡§°‡•Ä‡§Ü‡§∞‡§°‡•Ä‡§ì ‡§ï‡•á 1 ‡§π‡§ú‡§æ‡§∞ ‡§¨‡•á‡§° ‡§µ‡§æ‡§≤‡•á ‡§∏‡•á‡§Ç‡§ü‡§∞ ‡§ï‡§æ ‡§≠‡•Ä ‡§â‡§¶‡•ç‡§ò‡§æ‡§ü‡§® ‡§ï‡§ø‡§Ø‡§æ\n",non-hostile
3,‡§ó‡§µ‡§∞‡•ç‡§®‡§∞ ‡§ï‡•â‡§®‡•ç‡§´‡•ç‡§∞‡•á‡§Ç‡§∏ ‡§Æ‡•á‡§Ç PM ‡§Æ‡•ã‡§¶‡•Ä ‡§¨‡•ã‡§≤‡•á- ‡§∂‡§ø‡§ï‡•ç‡§∑‡§æ ‡§®‡•Ä‡§§‡§ø ‡§Æ‡•á‡§Ç ‡§∏‡§∞‡§ï‡§æ‡§∞ ‡§ï‡§æ ‡§¶‡§ñ‡§≤ ‡§ï‡§Æ ‡§π‡•ã‡§®‡§æ ‡§ö‡§æ‡§π‡§ø‡§è\n,non-hostile
4,"‡§Ø‡•Ç‡§™‡•Ä: ‡§ó‡§æ‡§ú‡•Ä‡§™‡•Å‡§∞ ‡§Æ‡•á‡§Ç Toilet ‡§ò‡•ã‡§ü‡§æ‡§≤‡§æ, ‡§™‡•ç‡§∞‡§ß‡§æ‡§® ‡§µ ‡§∏‡§ö‡§ø‡§µ ‡§®‡•á ‡§ï‡§ø‡§Ø‡§æ ‡§≤‡§æ‡§ñ‡•ã‡§Ç ‡§ï‡§æ ‡§ó‡§¨‡§®, ‡§Æ‡•Å‡§∞‡•ç‡§¶‡•ã‡§Ç ‡§ï‡•á ‡§®‡§æ‡§Æ ‡§™‡§∞ ‡§¨‡§®‡§µ‡§æ ‡§°‡§æ‡§≤‡•á ‡§∂‡•å‡§ö‡§æ‡§≤‡§Ø\n\n\n",non-hostile


In [22]:
#getting list from Labels set for train

for i in range(len(data['Labels Set'])):
    data['Labels Set'][i]=list(data['Labels Set'][i].split(','))

In [23]:
#getting list from Labels set for validation

for i in range(len(data2['Labels Set'])):
    data2['Labels Set'][i]=list(data2['Labels Set'][i].split(','))
    #print(i)

In [24]:
data.head()

Unnamed: 0,cleanPost,Labels Set
0,‡§Æ‡•á‡§∞‡•á ‡§¶‡•á‡§∂ ‡§ï‡•á ‡§π‡§ø‡§®‡•ç‡§¶‡•Å ‡§¨‡§π‡•Å‡§§ ‡§®‡§ø‡§∞‡§æ‡§≤‡•á ‡§π‡•à‡•§ ‡§ï‡•Å‡§õ ‡§§‡•ã ‡§™‡§ï‡•ç‡§ï‡•á ‡§∞‡§æ‡§Æ ‡§≠‡§ï‡•ç‡§§ ‡§π‡•à ‡§î‡§∞ ‡§ï‡•Å‡§õ ‡§¨‡§æ‡§¨‡§∞ ‡§ï‡•á ‡§∏‡§æ‡§≤‡•á ‡§π‡•à \n\nüôè ‡§ú‡§Ø ‡§∂‡•ç‡§∞‡•Ä ‡§∞‡§æ‡§Æ üôè,"[hate, offensive]"
1,"‡§∏‡§∞‡§ï‡§æ‡§∞ ‡§π‡§Æ‡•á‡§∂‡§æ ‡§∏‡•á ‡§ï‡§ø‡§∏‡§æ‡§®‡•ã‡§Ç ‡§ï‡•Ä ‡§ï‡§Æ‡§æ‡§à ‡§ï‡•ã ‡§¨‡§¢‡§º‡§æ‡§®‡•á ‡§ï‡•á ‡§≤‡§ø‡§è ‡§®‡§à-‡§®‡§à ‡§∏‡•ç‡§ï‡•Ä‡§Æ‡•á‡§Ç ‡§≤‡§æ‡§§‡•Ä ‡§∞‡§π‡§§‡•Ä ‡§π‡•à, ‡§§‡§æ‡§ï‡§ø ‡§â‡§® ‡§™‡§∞ ‡§ú‡•ç‡§Ø‡§æ‡§¶‡§æ ‡§Ü‡§∞‡•ç‡§•‡§ø‡§ï ‡§¨‡•ã‡§ù ‡§® ‡§™‡§°‡§º‡•á.\n\n",[non-hostile]
2,"‡§∏‡•Å‡§∂‡§æ‡§Ç‡§§ ‡§®‡•á ‡§ú‡•ã ‡§¨‡§ø‡§ú‡§®‡•á‡§∏ ‡§°‡•Ä‡§≤ 9 ‡§ú‡•Ç‡§® ‡§ï‡•ã ‡§ï‡•Ä ‡§•‡•Ä, ‡§µ‡•ã ‡§°‡•Ä‡§≤ ‡§¶‡•Ä‡§™‡•á‡§∂ ‡§ï‡•ã ‡§∏‡•Å‡§∂‡§æ‡§Ç‡§§ ‡§ï‡•Ä ‡§π‡§§‡•ç‡§Ø‡§æ ‡§ï‡•á ‡§¶‡§ø‡§® ‡§π‡•Ä ‡§ï‡•ç‡§Ø‡•ã‡§Ç ‡§Ø‡§æ‡§¶ ‡§Ü‡§à? ‡§¶‡•á‡§ñ‡§ø‡§è '‡§™‡•Ç‡§õ‡§§‡§æ ‡§π‡•à ‡§≠‡§æ‡§∞‡§§' ‡§Ö‡§∞‡•ç‡§®‡§¨ ‡§ï‡•á ‡§∏‡§æ‡§• ‡§∞‡§ø‡§™‡§¨‡•ç‡§≤‡§ø‡§ï ‡§≠‡§æ‡§∞‡§§ ‡§™‡§∞ :",[non-hostile]
3,‡§∏‡§æ‡§≤‡•á ‡§ú‡•á‡§è‡§®‡§Ø‡•Ç ‡§õ‡§æ‡§™ ‡§ï‡§Æ‡§ø‡§®‡•á ‡§≤‡•ã‡§ó ‡§π‡§ø‡§®‡•ç‡§¶‡•Å‡§ì‡§Ç ‡§ï‡•ã ‡§Ø‡§π ‡§ï‡§π‡§§‡•á ‡§π‡•à ‡§ï‡•Ä ‡§∏‡§Ç‡§µ‡§ø‡§ß‡§æ‡§® ‡§∏‡§¨‡§ï‡•ã ‡§¨‡§∞‡§æ‡§¨‡§∞ ‡§Ö‡§ß‡§ø‡§ï‡§æ‡§∞ ‡§¶‡•á‡§§‡§æ ‡§π‡•à‡•§ ‡§∏‡§ö‡•ç‡§ö‡§æ‡§à ‡§Ø‡§π ‡§π‡•à ‡§ï‡§ø ‡§Ø‡§π ‡§¨‡§∞‡§æ‡§¨‡§∞ ‡§Ö‡§ß‡§ø‡§ï‡§æ‡§∞ ‡§®‡§π‡•Ä‡§Ç ‡§¶‡•á‡§§‡§æ ‡§π‡•à‡•§,"[defamation, offensive]"
4,- ‡§Ö‡§®‡§≤‡•â‡§ï-4 ‡§ï‡•á ‡§≤‡§ø‡§è ‡§ó‡§æ‡§á‡§°‡§≤‡§æ‡§á‡§®‡•ç‡§∏ ‡§ú‡§æ‡§∞‡•Ä\n\n- 7 ‡§∏‡§ø‡§§‡§Ç‡§¨‡§∞ ‡§∏‡•á ‡§¶‡•á‡§∂‡§≠‡§∞ ‡§Æ‡•á‡§Ç ‡§Æ‡•á‡§ü‡•ç‡§∞‡•ã ‡§∏‡•á‡§µ‡§æ ‡§∂‡•Å‡§∞‡•Å ‡§π‡•ã‡§ó‡•Ä\n- 21 ‡§∏‡§ø‡§§‡§Ç‡§¨‡§∞ ‡§ï‡•á ‡§¨‡§æ‡§¶ ‡§∞‡•à‡§≤‡§ø‡§Ø‡•ã‡§Ç ‡§î‡§∞ ‡§¨‡§æ‡§ï‡•Ä ‡§´‡§Ç‡§ï‡•ç‡§∂‡§® ‡§Æ‡•á‡§Ç 100 ‡§≤‡•ã‡§ó‡•ã‡§Ç ‡§ï‡•ã ‡§á‡§ú‡§æ‡§ú‡§§\n- ‡§ï‡§Ç‡§ü‡•á‡§®‡§Æ‡•á‡§Ç‡§ü ‡§ú‡•ã‡§® ‡§Æ‡•á‡§Ç ‡§ï‡•ã‡§à ‡§õ‡•Ç‡§ü ‡§®‡§π‡•Ä‡§Ç\n- ‡§∏‡§ø‡§®‡•á‡§Æ‡§æ‡§π‡•â‡§≤ ‡§Ö‡§≠‡•Ä ‡§¨‡§Ç‡§¶ ‡§∞‡§π‡•á‡§Ç‡§ó‡•á\n- 9 ‡§∏‡•á 12‡§µ‡•Ä‡§Ç ‡§ï‡•á ‡§õ‡§æ‡§§‡•ç‡§∞ 21 ‡§∏‡§ø‡§§‡§Ç‡§¨‡§∞ ‡§ï‡•á ‡§¨‡§æ‡§¶ ‡§∏‡•ç‡§ï‡•Ç‡§≤ ‡§ú‡§æ ‡§∏‡§ï‡•á‡§Ç‡§ó‡•á.,[non-hostile]


In [25]:
data2.head()

Unnamed: 0,cleanPost,Labels Set
0,‡§¶‡•É‡§¢‡§º ‡§á‡§ö‡•ç‡§õ‡§æ ‡§∂‡§ï‡•ç‡§§‡§ø ‡§∏‡•á ‡§™‡§∞‡§ø‡§™‡•Ç‡§∞‡•ç‡§£ ‡§™‡•ç‡§∞‡§£‡§¨‡§¶‡§æ ‡§ï‡•á ‡§≤‡§ø‡§è ‡§¶‡•á‡§∂‡§π‡§ø‡§§ ‡§∏‡§∞‡•ç‡§µ‡•ã‡§ö‡•ç‡§ö ‡§∞‡§π‡§æ‡•§\n\n‡§â‡§®‡§ï‡§æ ‡§®‡§ø‡§ß‡§® ‡§π‡§Æ ‡§∏‡§¨ ‡§ï‡•á ‡§≤‡§ø‡§è ‡§Ö‡§™‡•Ç‡§∞‡§£‡•Ä‡§Ø ‡§ï‡•ç‡§∑‡§§‡§ø ‡§π‡•à‡•§\n‡§à‡§∂‡•ç‡§µ‡§∞ ‡§¶‡§ø‡§µ‡§Ç‡§ó‡§§ ‡§Ü‡§§‡•ç‡§Æ‡§æ ‡§ï‡•ã ‡§Ö‡§™‡§®‡•á ‡§∂‡•ç‡§∞‡•Ä‡§ö‡§∞‡§£‡•ã‡§Ç ‡§Æ‡•á‡§Ç ‡§∏‡•ç‡§•‡§æ‡§® ‡§¶‡•á‡§Ç‡•§ ‡§∂‡•ã‡§ï ‡§∏‡§Ç‡§§‡§™‡•ç‡§§ ‡§™‡§∞‡§ø‡§ú‡§®‡•ã‡§Ç ‡§ï‡•á ‡§™‡•ç‡§∞‡§§‡§ø ‡§∏‡§Ç‡§µ‡•á‡§¶‡§®‡§æ‡§è‡§Ç‡•§\n‡§ä‡§Ç ‡§∂‡§æ‡§Ç‡§§‡§ø!!!,[non-hostile]
1,‡§≠‡§æ‡§∞‡§§‡•Ä‡§Ø ‡§ú‡§®‡§§‡§æ ‡§™‡§æ‡§∞‡•ç‡§ü‡•Ä rss ‡§µ‡§æ‡§≤‡•á ‡§á‡§§‡§®‡•á ‡§ó‡§ø‡§∞‡•á ‡§π‡•Å‡§è ‡§π‡•à‡§Ç ‡§ú‡§π‡§æ‡§Ç ‡§Æ‡•à‡§Ç ‡§∞‡§π‡§§‡•Ä ‡§π‡•Ç‡§Ç ‡§µ‡§π‡§æ‡§Ç ‡§Æ‡•á‡§∞‡•Ä ‡§ú‡§æ‡§∏‡•Ç‡§∏‡•Ä ‡§ï‡§∞‡§æ ‡§∞‡§π‡•á‡§Ç ‡§π‡•à ‡§â‡§∏‡§ï‡•Ä ‡§ú‡§æ‡§∏‡•Ç‡§∏ ‡§ï‡•Ä ‡§™‡§π‡§ö‡§æ‡§® ‡§Æ‡•Å‡§ù‡•á ‡§Ö‡§ö‡•ç‡§õ‡•Ä ‡§§‡§∞‡§π ‡§π‡•à rss ‡§¨‡•Ä‡§ú‡•á‡§™‡•Ä ‡§µ‡§æ‡§≤‡•á ‡§ï‡•Ä ‡§ú‡§æ‡§∏‡•Ç‡§∏ ‡§¶‡§ø‡§≤‡•ç‡§≤‡•Ä ‡§Æ‡•á‡§Ç ‡§ï‡•å‡§® ‡§π‡•à ‡§â‡§§‡•ç‡§§‡§∞ ‡§™‡•ç‡§∞‡§¶‡•á‡§∂ ‡§Æ‡•á‡§Ç ‡§ï‡•å‡§® ‡§π‡•à ‡§π‡§∞‡§ø‡§Ø‡§æ‡§£‡§æ ‡§∞‡§æ‡§ú‡§∏‡•ç‡§•‡§æ‡§® ‡§Æ‡•á‡§Ç ‡§ï‡•å‡§® ‡§π‡•à ‡§∏‡§¨‡§ï‡•Ä ‡§™‡§π‡§ö‡§æ‡§® ‡§π‡•à ‡§Æ‡•Å‡§ù‡•á ‡§Æ‡•á‡§∞‡•Ä ‡§®‡§ú‡§∞ ‡§∏‡•á ‡§¨‡§ö ‡§®‡§π‡•Ä‡§Ç ‡§∏‡§ï‡§§‡•á ‡§π‡•ã,[defamation]
2,"‡§ï‡•ã‡§∞‡•ã‡§®‡§æ ‡§∏‡•á ‡§®‡§ø‡§™‡§ü‡§®‡•á ‡§ï‡•Ä ‡§§‡•à‡§Ø‡§æ‡§∞‡•Ä / ‡§¶‡§ø‡§≤‡•ç‡§≤‡•Ä ‡§Æ‡•á‡§Ç 10 ‡§π‡§ú‡§æ‡§∞ ‡§¨‡•á‡§° ‡§µ‡§æ‡§≤‡§æ ‡§¶‡•Å‡§®‡§ø‡§Ø‡§æ ‡§ï‡§æ ‡§∏‡§¨‡§∏‡•á ‡§¨‡§°‡§º‡§æ ‡§ï‡•ã‡§µ‡§ø‡§° ‡§ï‡•á‡§Ø‡§∞ ‡§∏‡•á‡§Ç‡§ü‡§∞ ‡§∂‡•Å‡§∞‡•Ç, ‡§∞‡§æ‡§ú‡§®‡§æ‡§•-‡§∂‡§æ‡§π ‡§®‡•á ‡§°‡•Ä‡§Ü‡§∞‡§°‡•Ä‡§ì ‡§ï‡•á 1 ‡§π‡§ú‡§æ‡§∞ ‡§¨‡•á‡§° ‡§µ‡§æ‡§≤‡•á ‡§∏‡•á‡§Ç‡§ü‡§∞ ‡§ï‡§æ ‡§≠‡•Ä ‡§â‡§¶‡•ç‡§ò‡§æ‡§ü‡§® ‡§ï‡§ø‡§Ø‡§æ\n",[non-hostile]
3,‡§ó‡§µ‡§∞‡•ç‡§®‡§∞ ‡§ï‡•â‡§®‡•ç‡§´‡•ç‡§∞‡•á‡§Ç‡§∏ ‡§Æ‡•á‡§Ç PM ‡§Æ‡•ã‡§¶‡•Ä ‡§¨‡•ã‡§≤‡•á- ‡§∂‡§ø‡§ï‡•ç‡§∑‡§æ ‡§®‡•Ä‡§§‡§ø ‡§Æ‡•á‡§Ç ‡§∏‡§∞‡§ï‡§æ‡§∞ ‡§ï‡§æ ‡§¶‡§ñ‡§≤ ‡§ï‡§Æ ‡§π‡•ã‡§®‡§æ ‡§ö‡§æ‡§π‡§ø‡§è\n,[non-hostile]
4,"‡§Ø‡•Ç‡§™‡•Ä: ‡§ó‡§æ‡§ú‡•Ä‡§™‡•Å‡§∞ ‡§Æ‡•á‡§Ç Toilet ‡§ò‡•ã‡§ü‡§æ‡§≤‡§æ, ‡§™‡•ç‡§∞‡§ß‡§æ‡§® ‡§µ ‡§∏‡§ö‡§ø‡§µ ‡§®‡•á ‡§ï‡§ø‡§Ø‡§æ ‡§≤‡§æ‡§ñ‡•ã‡§Ç ‡§ï‡§æ ‡§ó‡§¨‡§®, ‡§Æ‡•Å‡§∞‡•ç‡§¶‡•ã‡§Ç ‡§ï‡•á ‡§®‡§æ‡§Æ ‡§™‡§∞ ‡§¨‡§®‡§µ‡§æ ‡§°‡§æ‡§≤‡•á ‡§∂‡•å‡§ö‡§æ‡§≤‡§Ø\n\n\n",[non-hostile]


In [28]:
multilabel = MultiLabelBinarizer()


In [29]:
y = multilabel.fit_transform(data['Labels Set'])
y

array([[0, 0, 1, 0, 1],
       [0, 0, 0, 1, 0],
       [0, 0, 0, 1, 0],
       ...,
       [0, 0, 0, 1, 0],
       [0, 1, 0, 0, 0],
       [0, 0, 0, 1, 0]])

In [30]:
multilabel.classes_


array(['defamation', 'fake', 'hate', 'non-hostile', 'offensive'],
      dtype=object)

In [31]:
#np array dataframe for train

df_1=pd.DataFrame(y, columns=multilabel.classes_)
df_1

Unnamed: 0,defamation,fake,hate,non-hostile,offensive
0,0,0,1,0,1
1,0,0,0,1,0
2,0,0,0,1,0
3,1,0,0,0,1
4,0,0,0,1,0
...,...,...,...,...,...
5723,0,0,1,0,0
5724,0,0,0,1,0
5725,0,0,0,1,0
5726,0,1,0,0,0


In [32]:
#np array dataframe for validation

multilabel = MultiLabelBinarizer()
y = multilabel.fit_transform(data2['Labels Set'])
df_2=pd.DataFrame(y, columns=multilabel.classes_)
df_2

Unnamed: 0,defamation,fake,hate,non-hostile,offensive
0,0,0,0,1,0
1,1,0,0,0,0
2,0,0,0,1,0
3,0,0,0,1,0
4,0,0,0,1,0
...,...,...,...,...,...
806,0,0,1,0,0
807,1,0,0,0,0
808,0,0,0,1,0
809,0,0,0,1,0


In [33]:
df_1.head()

Unnamed: 0,defamation,fake,hate,non-hostile,offensive
0,0,0,1,0,1
1,0,0,0,1,0
2,0,0,0,1,0
3,1,0,0,0,1
4,0,0,0,1,0


In [34]:
df_2.head()

Unnamed: 0,defamation,fake,hate,non-hostile,offensive
0,0,0,0,1,0
1,1,0,0,0,0
2,0,0,0,1,0
3,0,0,0,1,0
4,0,0,0,1,0


In [35]:
result = pd.concat([data, df_1], axis=1, sort=False)
result2 = pd.concat([data2,df_2],axis=1,sort=False)

In [36]:
result = result.rename({'non-hostile': 'non_hostile'}, axis=1)
result2 = result2.rename({'non-hostile': 'non_hostile'}, axis=1)

In [39]:
"""
f=open("stopWords.txt","r")
stopWords=set(f.read().split('\n'))

index=0

for i in result['cleanPost']:
    temp=''
    words=i.split(' ')
    for j in words:
        if j not in stopWords:
            temp+=j
            temp+=' '
    result['cleanPost'][index]=temp
    index+=1

""""

SyntaxError: EOL while scanning string literal (<ipython-input-39-49f1c70d63a8>, line 17)

In [40]:
""""
f=open("stopWords.txt","r")
stopWords=set(f.read().split('\n'))

index=0

for i in result2['cleanPost']:
    temp=''
    words=i.split(' ')
    for j in words:
        if j not in stopWords:
            temp+=j
            temp+=' '
    result2['cleanPost'][index]=temp
    index+=1

""""

SyntaxError: EOL while scanning string literal (<ipython-input-40-9f8f6cf857aa>, line 17)

In [37]:
# train dataframe 
result

Unnamed: 0,cleanPost,Labels Set,defamation,fake,hate,non_hostile,offensive
0,‡§Æ‡•á‡§∞‡•á ‡§¶‡•á‡§∂ ‡§ï‡•á ‡§π‡§ø‡§®‡•ç‡§¶‡•Å ‡§¨‡§π‡•Å‡§§ ‡§®‡§ø‡§∞‡§æ‡§≤‡•á ‡§π‡•à‡•§ ‡§ï‡•Å‡§õ ‡§§‡•ã ‡§™‡§ï‡•ç‡§ï‡•á ‡§∞‡§æ‡§Æ ‡§≠‡§ï‡•ç‡§§ ‡§π‡•à ‡§î‡§∞ ‡§ï‡•Å‡§õ ‡§¨‡§æ‡§¨‡§∞ ‡§ï‡•á ‡§∏‡§æ‡§≤‡•á ‡§π‡•à \n\nüôè ‡§ú‡§Ø ‡§∂‡•ç‡§∞‡•Ä ‡§∞‡§æ‡§Æ üôè,"[hate, offensive]",0,0,1,0,1
1,"‡§∏‡§∞‡§ï‡§æ‡§∞ ‡§π‡§Æ‡•á‡§∂‡§æ ‡§∏‡•á ‡§ï‡§ø‡§∏‡§æ‡§®‡•ã‡§Ç ‡§ï‡•Ä ‡§ï‡§Æ‡§æ‡§à ‡§ï‡•ã ‡§¨‡§¢‡§º‡§æ‡§®‡•á ‡§ï‡•á ‡§≤‡§ø‡§è ‡§®‡§à-‡§®‡§à ‡§∏‡•ç‡§ï‡•Ä‡§Æ‡•á‡§Ç ‡§≤‡§æ‡§§‡•Ä ‡§∞‡§π‡§§‡•Ä ‡§π‡•à, ‡§§‡§æ‡§ï‡§ø ‡§â‡§® ‡§™‡§∞ ‡§ú‡•ç‡§Ø‡§æ‡§¶‡§æ ‡§Ü‡§∞‡•ç‡§•‡§ø‡§ï ‡§¨‡•ã‡§ù ‡§® ‡§™‡§°‡§º‡•á.\n\n",[non-hostile],0,0,0,1,0
2,"‡§∏‡•Å‡§∂‡§æ‡§Ç‡§§ ‡§®‡•á ‡§ú‡•ã ‡§¨‡§ø‡§ú‡§®‡•á‡§∏ ‡§°‡•Ä‡§≤ 9 ‡§ú‡•Ç‡§® ‡§ï‡•ã ‡§ï‡•Ä ‡§•‡•Ä, ‡§µ‡•ã ‡§°‡•Ä‡§≤ ‡§¶‡•Ä‡§™‡•á‡§∂ ‡§ï‡•ã ‡§∏‡•Å‡§∂‡§æ‡§Ç‡§§ ‡§ï‡•Ä ‡§π‡§§‡•ç‡§Ø‡§æ ‡§ï‡•á ‡§¶‡§ø‡§® ‡§π‡•Ä ‡§ï‡•ç‡§Ø‡•ã‡§Ç ‡§Ø‡§æ‡§¶ ‡§Ü‡§à? ‡§¶‡•á‡§ñ‡§ø‡§è '‡§™‡•Ç‡§õ‡§§‡§æ ‡§π‡•à ‡§≠‡§æ‡§∞‡§§' ‡§Ö‡§∞‡•ç‡§®‡§¨ ‡§ï‡•á ‡§∏‡§æ‡§• ‡§∞‡§ø‡§™‡§¨‡•ç‡§≤‡§ø‡§ï ‡§≠‡§æ‡§∞‡§§ ‡§™‡§∞ :",[non-hostile],0,0,0,1,0
3,‡§∏‡§æ‡§≤‡•á ‡§ú‡•á‡§è‡§®‡§Ø‡•Ç ‡§õ‡§æ‡§™ ‡§ï‡§Æ‡§ø‡§®‡•á ‡§≤‡•ã‡§ó ‡§π‡§ø‡§®‡•ç‡§¶‡•Å‡§ì‡§Ç ‡§ï‡•ã ‡§Ø‡§π ‡§ï‡§π‡§§‡•á ‡§π‡•à ‡§ï‡•Ä ‡§∏‡§Ç‡§µ‡§ø‡§ß‡§æ‡§® ‡§∏‡§¨‡§ï‡•ã ‡§¨‡§∞‡§æ‡§¨‡§∞ ‡§Ö‡§ß‡§ø‡§ï‡§æ‡§∞ ‡§¶‡•á‡§§‡§æ ‡§π‡•à‡•§ ‡§∏‡§ö‡•ç‡§ö‡§æ‡§à ‡§Ø‡§π ‡§π‡•à ‡§ï‡§ø ‡§Ø‡§π ‡§¨‡§∞‡§æ‡§¨‡§∞ ‡§Ö‡§ß‡§ø‡§ï‡§æ‡§∞ ‡§®‡§π‡•Ä‡§Ç ‡§¶‡•á‡§§‡§æ ‡§π‡•à‡•§,"[defamation, offensive]",1,0,0,0,1
4,- ‡§Ö‡§®‡§≤‡•â‡§ï-4 ‡§ï‡•á ‡§≤‡§ø‡§è ‡§ó‡§æ‡§á‡§°‡§≤‡§æ‡§á‡§®‡•ç‡§∏ ‡§ú‡§æ‡§∞‡•Ä\n\n- 7 ‡§∏‡§ø‡§§‡§Ç‡§¨‡§∞ ‡§∏‡•á ‡§¶‡•á‡§∂‡§≠‡§∞ ‡§Æ‡•á‡§Ç ‡§Æ‡•á‡§ü‡•ç‡§∞‡•ã ‡§∏‡•á‡§µ‡§æ ‡§∂‡•Å‡§∞‡•Å ‡§π‡•ã‡§ó‡•Ä\n- 21 ‡§∏‡§ø‡§§‡§Ç‡§¨‡§∞ ‡§ï‡•á ‡§¨‡§æ‡§¶ ‡§∞‡•à‡§≤‡§ø‡§Ø‡•ã‡§Ç ‡§î‡§∞ ‡§¨‡§æ‡§ï‡•Ä ‡§´‡§Ç‡§ï‡•ç‡§∂‡§® ‡§Æ‡•á‡§Ç 100 ‡§≤‡•ã‡§ó‡•ã‡§Ç ‡§ï‡•ã ‡§á‡§ú‡§æ‡§ú‡§§\n- ‡§ï‡§Ç‡§ü‡•á‡§®‡§Æ‡•á‡§Ç‡§ü ‡§ú‡•ã‡§® ‡§Æ‡•á‡§Ç ‡§ï‡•ã‡§à ‡§õ‡•Ç‡§ü ‡§®‡§π‡•Ä‡§Ç\n- ‡§∏‡§ø‡§®‡•á‡§Æ‡§æ‡§π‡•â‡§≤ ‡§Ö‡§≠‡•Ä ‡§¨‡§Ç‡§¶ ‡§∞‡§π‡•á‡§Ç‡§ó‡•á\n- 9 ‡§∏‡•á 12‡§µ‡•Ä‡§Ç ‡§ï‡•á ‡§õ‡§æ‡§§‡•ç‡§∞ 21 ‡§∏‡§ø‡§§‡§Ç‡§¨‡§∞ ‡§ï‡•á ‡§¨‡§æ‡§¶ ‡§∏‡•ç‡§ï‡•Ç‡§≤ ‡§ú‡§æ ‡§∏‡§ï‡•á‡§Ç‡§ó‡•á.,[non-hostile],0,0,0,1,0
...,...,...,...,...,...,...,...
5723,‡§â‡§¶‡§ø‡§§‡§∞‡§æ‡§ú ‡§ú‡•Ä ‡§π‡§ø‡§Æ‡•ç‡§Æ‡§§ ‡§ú‡•Å‡§ü‡§æ ‡§ï‡§∞ ‡§â‡§∏ ‡§®‡•á‡§§‡§æ ‡§ï‡•á ‡§≤‡§ø‡§è ‡§ï‡•Å‡§õ ‡§ï‡§π ‡§¶‡•Ä‡§ú‡§ø‡§Ø‡•á ‡§ú‡§ø‡§∏‡§ï‡•á ‡§∏‡•ç‡§µ‡§æ‡§ó‡§§ ‡§Æ‡•á‡§Ç ‡§Æ‡•Å‡§Ç‡§¨‡§à ‡§∏‡•ç‡§ü‡•á‡§∂‡§® ‡§™‡§∞ ‡§™‡§æ‡§ï‡§ø‡§∏‡•ç‡§§‡§æ‡§® ‡§ú‡§ø‡§Ç‡§¶‡§æ‡§¨‡§æ‡§¶ ‡§ï‡•á ‡§®‡§æ‡§∞‡•á ‡§≤‡§ó‡•á ‡§µ‡§ø‡§∞‡•ã‡§ß ‡§ï‡§∞ ‡§¶‡•á‡§Ç ‡§Æ‡§æ‡§®‡•ç‡§Ø ‡§π‡•ã‡§ó‡§æ ‡§ï‡•Ä ‡§Ü‡§™ ‡§¶‡•á‡§∂‡§≠‡§ï‡•ç‡§§ ‡§π‡•à‡§Ç ‡§µ‡§∞‡§®‡§æ ‡§Ö‡§®‡§∞‡•ç‡§ó‡§≤ ‡§™‡•ç‡§∞‡§≤‡§æ‡§™ ‡§® ‡§ï‡§∞‡•á‡§Ç,[hate],0,0,1,0,0
5724,"‡§â‡§™‡•ç‡§∞: ‡§™‡•Ä‡§è‡§Æ ‡§∞‡§ø‡§™‡•ã‡§∞‡•ç‡§ü ‡§Æ‡•á‡§Ç ‡§ñ‡•Å‡§≤‡§æ‡§∏‡§æ: ‡§π‡§æ‡§∞‡•ç‡§ü‡§Ö‡§ü‡•à‡§ï ‡§∏‡•á ‡§π‡•Å‡§à ‡§•‡•Ä ‡§™‡•Ç‡§∞‡•ç‡§µ ‡§µ‡§ø‡§ß‡§æ‡§Ø‡§ï ‡§®‡§ø‡§∞‡•ç‡§µ‡•á‡§Ç‡§¶‡•ç‡§∞ ‡§ï‡•Ä ‡§Æ‡•å‡§§; ‡§∂‡§∞‡•Ä‡§∞ ‡§™‡§∞ ‡§®‡§π‡•Ä‡§Ç ‡§Æ‡§ø‡§≤‡•á ‡§ö‡•ã‡§ü ‡§ï‡•á ‡§®‡§ø‡§∂‡§æ‡§®, ‡§¨‡•á‡§ü‡•á ‡§®‡•á ‡§™‡§ø‡§ü‡§æ‡§à ‡§ï‡§∞ ‡§π‡§§‡•ç‡§Ø‡§æ ‡§ï‡§æ ‡§¶‡§æ‡§µ‡§æ ‡§ï‡§ø‡§Ø‡§æ ‡§•‡§æ\n",[non-hostile],0,0,0,1,0
5725,"‡§®‡•å‡§ï‡§∞‡•Ä ‡§ó‡§Ç‡§µ‡§æ ‡§ö‡•Å‡§ï‡•á ‡§¶‡•ã‡§∏‡•ç‡§§ ‡§ï‡•Ä ‡§Æ‡§¶‡§¶: ‡§®‡§ó‡§¶ ‡§ï‡•á ‡§¨‡§ú‡§æ‡§è ‡§ó‡§ø‡§´‡•ç‡§ü ‡§ï‡§æ‡§∞‡•ç‡§° ‡§¶‡•á‡§®‡•á ‡§ï‡•á ‡§¨‡§æ‡§∞‡•á ‡§Æ‡•á‡§Ç ‡§∏‡•ã‡§ö‡•á‡§Ç, ‡§ö‡•Å‡§ï‡§æ ‡§∏‡§ï‡§§‡•á ‡§π‡•à‡§Ç ‡§®‡•á‡§ü‡§´‡•ç‡§≤‡§ø‡§ï‡•ç‡§∏ ‡§î‡§∞ ‡§ú‡§ø‡§Æ ‡§ï‡•Ä ‡§´‡•Ä‡§∏; ‡§π‡§æ‡§≤‡§ö‡§æ‡§≤ ‡§ú‡§æ‡§®‡•á‡§Ç, ‡§≤‡•á‡§ï‡§ø‡§® ‡§ú‡•ç‡§Ø‡§æ‡§¶‡§æ ‡§®‡§π‡•Ä‡§Ç",[non-hostile],0,0,0,1,0
5726,‡§¨‡§Ç‡§ó‡§æ‡§≤ ‡§Æ‡•á‡§Ç ‡§π‡§ø‡§®‡•ç‡§¶‡•Ç ‡§Æ‡§∞‡•á ‡§π‡•à‡§Ç ‡§á‡§∏‡§≤‡§ø‡§è ‡§Æ‡•Å‡§ù‡•á ‡§ï‡•ã‡§à ‡§´‡§∞‡•ç‡§ï ‡§®‡§π‡•Ä‡§Ç ‡§™‡§°‡§º‡§§‡§æ ‚Äì ‡§ï‡•Å‡§Æ‡§æ‡§∞\n\n,[fake],0,1,0,0,0


In [38]:
#validation dataframe
result2

Unnamed: 0,cleanPost,Labels Set,defamation,fake,hate,non_hostile,offensive
0,‡§¶‡•É‡§¢‡§º ‡§á‡§ö‡•ç‡§õ‡§æ ‡§∂‡§ï‡•ç‡§§‡§ø ‡§∏‡•á ‡§™‡§∞‡§ø‡§™‡•Ç‡§∞‡•ç‡§£ ‡§™‡•ç‡§∞‡§£‡§¨‡§¶‡§æ ‡§ï‡•á ‡§≤‡§ø‡§è ‡§¶‡•á‡§∂‡§π‡§ø‡§§ ‡§∏‡§∞‡•ç‡§µ‡•ã‡§ö‡•ç‡§ö ‡§∞‡§π‡§æ‡•§\n\n‡§â‡§®‡§ï‡§æ ‡§®‡§ø‡§ß‡§® ‡§π‡§Æ ‡§∏‡§¨ ‡§ï‡•á ‡§≤‡§ø‡§è ‡§Ö‡§™‡•Ç‡§∞‡§£‡•Ä‡§Ø ‡§ï‡•ç‡§∑‡§§‡§ø ‡§π‡•à‡•§\n‡§à‡§∂‡•ç‡§µ‡§∞ ‡§¶‡§ø‡§µ‡§Ç‡§ó‡§§ ‡§Ü‡§§‡•ç‡§Æ‡§æ ‡§ï‡•ã ‡§Ö‡§™‡§®‡•á ‡§∂‡•ç‡§∞‡•Ä‡§ö‡§∞‡§£‡•ã‡§Ç ‡§Æ‡•á‡§Ç ‡§∏‡•ç‡§•‡§æ‡§® ‡§¶‡•á‡§Ç‡•§ ‡§∂‡•ã‡§ï ‡§∏‡§Ç‡§§‡§™‡•ç‡§§ ‡§™‡§∞‡§ø‡§ú‡§®‡•ã‡§Ç ‡§ï‡•á ‡§™‡•ç‡§∞‡§§‡§ø ‡§∏‡§Ç‡§µ‡•á‡§¶‡§®‡§æ‡§è‡§Ç‡•§\n‡§ä‡§Ç ‡§∂‡§æ‡§Ç‡§§‡§ø!!!,[non-hostile],0,0,0,1,0
1,‡§≠‡§æ‡§∞‡§§‡•Ä‡§Ø ‡§ú‡§®‡§§‡§æ ‡§™‡§æ‡§∞‡•ç‡§ü‡•Ä rss ‡§µ‡§æ‡§≤‡•á ‡§á‡§§‡§®‡•á ‡§ó‡§ø‡§∞‡•á ‡§π‡•Å‡§è ‡§π‡•à‡§Ç ‡§ú‡§π‡§æ‡§Ç ‡§Æ‡•à‡§Ç ‡§∞‡§π‡§§‡•Ä ‡§π‡•Ç‡§Ç ‡§µ‡§π‡§æ‡§Ç ‡§Æ‡•á‡§∞‡•Ä ‡§ú‡§æ‡§∏‡•Ç‡§∏‡•Ä ‡§ï‡§∞‡§æ ‡§∞‡§π‡•á‡§Ç ‡§π‡•à ‡§â‡§∏‡§ï‡•Ä ‡§ú‡§æ‡§∏‡•Ç‡§∏ ‡§ï‡•Ä ‡§™‡§π‡§ö‡§æ‡§® ‡§Æ‡•Å‡§ù‡•á ‡§Ö‡§ö‡•ç‡§õ‡•Ä ‡§§‡§∞‡§π ‡§π‡•à rss ‡§¨‡•Ä‡§ú‡•á‡§™‡•Ä ‡§µ‡§æ‡§≤‡•á ‡§ï‡•Ä ‡§ú‡§æ‡§∏‡•Ç‡§∏ ‡§¶‡§ø‡§≤‡•ç‡§≤‡•Ä ‡§Æ‡•á‡§Ç ‡§ï‡•å‡§® ‡§π‡•à ‡§â‡§§‡•ç‡§§‡§∞ ‡§™‡•ç‡§∞‡§¶‡•á‡§∂ ‡§Æ‡•á‡§Ç ‡§ï‡•å‡§® ‡§π‡•à ‡§π‡§∞‡§ø‡§Ø‡§æ‡§£‡§æ ‡§∞‡§æ‡§ú‡§∏‡•ç‡§•‡§æ‡§® ‡§Æ‡•á‡§Ç ‡§ï‡•å‡§® ‡§π‡•à ‡§∏‡§¨‡§ï‡•Ä ‡§™‡§π‡§ö‡§æ‡§® ‡§π‡•à ‡§Æ‡•Å‡§ù‡•á ‡§Æ‡•á‡§∞‡•Ä ‡§®‡§ú‡§∞ ‡§∏‡•á ‡§¨‡§ö ‡§®‡§π‡•Ä‡§Ç ‡§∏‡§ï‡§§‡•á ‡§π‡•ã,[defamation],1,0,0,0,0
2,"‡§ï‡•ã‡§∞‡•ã‡§®‡§æ ‡§∏‡•á ‡§®‡§ø‡§™‡§ü‡§®‡•á ‡§ï‡•Ä ‡§§‡•à‡§Ø‡§æ‡§∞‡•Ä / ‡§¶‡§ø‡§≤‡•ç‡§≤‡•Ä ‡§Æ‡•á‡§Ç 10 ‡§π‡§ú‡§æ‡§∞ ‡§¨‡•á‡§° ‡§µ‡§æ‡§≤‡§æ ‡§¶‡•Å‡§®‡§ø‡§Ø‡§æ ‡§ï‡§æ ‡§∏‡§¨‡§∏‡•á ‡§¨‡§°‡§º‡§æ ‡§ï‡•ã‡§µ‡§ø‡§° ‡§ï‡•á‡§Ø‡§∞ ‡§∏‡•á‡§Ç‡§ü‡§∞ ‡§∂‡•Å‡§∞‡•Ç, ‡§∞‡§æ‡§ú‡§®‡§æ‡§•-‡§∂‡§æ‡§π ‡§®‡•á ‡§°‡•Ä‡§Ü‡§∞‡§°‡•Ä‡§ì ‡§ï‡•á 1 ‡§π‡§ú‡§æ‡§∞ ‡§¨‡•á‡§° ‡§µ‡§æ‡§≤‡•á ‡§∏‡•á‡§Ç‡§ü‡§∞ ‡§ï‡§æ ‡§≠‡•Ä ‡§â‡§¶‡•ç‡§ò‡§æ‡§ü‡§® ‡§ï‡§ø‡§Ø‡§æ\n",[non-hostile],0,0,0,1,0
3,‡§ó‡§µ‡§∞‡•ç‡§®‡§∞ ‡§ï‡•â‡§®‡•ç‡§´‡•ç‡§∞‡•á‡§Ç‡§∏ ‡§Æ‡•á‡§Ç PM ‡§Æ‡•ã‡§¶‡•Ä ‡§¨‡•ã‡§≤‡•á- ‡§∂‡§ø‡§ï‡•ç‡§∑‡§æ ‡§®‡•Ä‡§§‡§ø ‡§Æ‡•á‡§Ç ‡§∏‡§∞‡§ï‡§æ‡§∞ ‡§ï‡§æ ‡§¶‡§ñ‡§≤ ‡§ï‡§Æ ‡§π‡•ã‡§®‡§æ ‡§ö‡§æ‡§π‡§ø‡§è\n,[non-hostile],0,0,0,1,0
4,"‡§Ø‡•Ç‡§™‡•Ä: ‡§ó‡§æ‡§ú‡•Ä‡§™‡•Å‡§∞ ‡§Æ‡•á‡§Ç Toilet ‡§ò‡•ã‡§ü‡§æ‡§≤‡§æ, ‡§™‡•ç‡§∞‡§ß‡§æ‡§® ‡§µ ‡§∏‡§ö‡§ø‡§µ ‡§®‡•á ‡§ï‡§ø‡§Ø‡§æ ‡§≤‡§æ‡§ñ‡•ã‡§Ç ‡§ï‡§æ ‡§ó‡§¨‡§®, ‡§Æ‡•Å‡§∞‡•ç‡§¶‡•ã‡§Ç ‡§ï‡•á ‡§®‡§æ‡§Æ ‡§™‡§∞ ‡§¨‡§®‡§µ‡§æ ‡§°‡§æ‡§≤‡•á ‡§∂‡•å‡§ö‡§æ‡§≤‡§Ø\n\n\n",[non-hostile],0,0,0,1,0
...,...,...,...,...,...,...,...
806,‡§ö‡§Ç‡§¶ ‡§´‡•á‡§Ç‡§ï‡•á ‡§π‡•Å‡§è ‡§ü‡•Å‡§ï‡§°‡§º‡•ã‡§Ç ‡§ï‡•á ‡§≤‡§ø‡§è ‡§π‡§Æ‡•á‡§∂‡§æ ‡§π‡•Ä ‡§¶‡•á‡§∂ ‡§∏‡•á ‡§ó‡§¶‡•ç‡§¶‡§æ‡§∞‡•Ä ‡§ï‡•ã ‡§≠‡•å‡§Ç‡§ï‡§®‡•á ‡§§‡•à‡§Ø‡§æ‡§∞\n‡§°‡•ç‡§∞‡§ó‡•ç‡§∏ ‡§ï‡•á ‡§®‡§∂‡•á ‡§Æ‡•á‡§Ç ‡§™‡•Ç‡§∞‡•Ä ‡§§‡§∞‡§π ‡§ñ‡•ã‡§ñ‡§≤‡•á ‡§π‡•ã ‡§ö‡•Å‡§ï‡•á ‡§¶‡§æ‡§ä‡§¶ ‡§ï‡•á ‡§ó‡•Å‡§≤‡§æ‡§Æ ‡§¶‡•á‡§∂‡§¶‡•ç‡§∞‡•ã‡§π‡•Ä ‡§ó‡§¶‡•ç‡§¶‡§æ‡§∞ ‡§´‡§ø‡§≤‡•ç‡§Æ‡•Ä ‡§≠‡§æ‡§Ç‡§°‡•ã‡§Ç ‡§ï‡•á ‡§≠‡•ã‡§Ç‡§ï‡§®‡•á ‡§ï‡•ã ‡§≠‡•Ä ‡§Æ‡•Ä‡§°‡§ø‡§Ø‡§æ ‡§¨‡•ç‡§∞‡•á‡§ï‡§ø‡§Ç‡§ó ‡§®‡•ç‡§Ø‡•Ç‡§ú‡§º ‡§¨‡§®‡§æ\n‡§á‡§® ‡§¶‡•ã ‡§ï‡•å‡§°‡§º‡•Ä ‡§ï‡•á ‡§¨‡§ø‡§ï‡§æ‡§ä ‡§®‡§∂‡•á‡§°‡§º‡•Ä ‡§ó‡§¶‡•ç‡§¶‡§æ‡§∞ ‡§ï‡•Å‡§§‡•ç‡§§‡•ã‡§Ç ‡§ï‡•ã ‡§π‡•Ä‡§∞‡•ã ‡§¨‡§®‡§æ ‡§¶‡•á‡§§‡•Ä ‡§π‡•à\n‡§¶‡•á‡§∂ ‡§ï‡•Ä ‡§µ‡§ø‡§°‡§Ç‡§¨‡§®‡§æüòî,[hate],0,0,1,0,0
807,‡§Ü‡§Å‡§ñ‡•ã‡§Ç ‡§π‡•Ä ‡§Ü‡§Å‡§ñ‡•ã‡§Ç ‡§Æ‡•á‡§Ç ‡§á‡§∂‡§æ‡§∞‡§æ ‡§π‡•ã ‡§ó‡§Ø‡§æ \n‡§¨‡•à‡§†‡•á ‡§¨‡•à‡§†‡•á ‡§ú‡•Ä‡§®‡•á ‡§ï‡§æ ‡§∏‡§π‡§æ‡§∞‡§æ ‡§π‡•ã ‡§ó‡§Ø‡§æ üòâüòâüòâ\n‡§®‡§ú‡§º‡§∞‡•ã‡§Ç ‡§ï‡•Ä ‡§á‡§∏ ‡§Æ‡§æ‡§∞‡§ï ‡§ï‡•ç‡§∑‡§Æ‡§§‡§æ ‡§ï‡•ã ‡§ï‡•ç‡§Ø‡§æ ‡§ï‡§π‡§ó‡•á‡•§ üëå,[defamation],1,0,0,0,0
808,"‡§î‡§∞‡§Ç‡§ó‡§æ‡§¨‡§æ‡§¶ ‡§Æ‡•á‡§Ç ‡§´‡§ø‡§∞ ‡§ß‡•Ä‡§∞‡•á-‡§ß‡•Ä‡§∞‡•á ‡§™‡§æ‡§Ç‡§µ ‡§™‡§∏‡§æ‡§∞ ‡§∞‡§π‡§æ ‡§ï‡•ã‡§∞‡•ã‡§®‡§æ ‡§∏‡§Ç‡§ï‡•ç‡§∞‡§Æ‡§£, ‡§™‡§ø‡§õ‡§≤‡•á 6 ‡§¶‡§ø‡§®‡•ã‡§Ç ‡§Æ‡•á‡§Ç ‡§Æ‡§ø‡§≤‡•á ‡§á‡§§‡§®‡•á ‡§®‡§è ‡§Æ‡§∞‡•Ä‡§ú\n\n \n\n",[non-hostile],0,0,0,1,0
809,"‡§¨‡§æ‡§á‡§∏‡•ç‡§ï‡•ã‡§™: ‡§ï‡§æ‡§¶‡§∞ ‡§ï‡•á ‡§∏‡§Ç‡§µ‡§æ‡§¶‡•ã‡§Ç ‡§ï‡§æ ‡§ï‡§Æ‡§æ‡§≤, ‡§°‡§ø‡§Ç‡§™‡§≤ ‡§ï‡•Ä ‡§ï‡§≤‡§Æ ‡§ï‡§æ ‡§ß‡§Æ‡§æ‡§≤ ‡§î‡§∞ ‡§§‡•Ä‡§® ‡§¨‡§§‡•ç‡§§‡•Ä ‡§ï‡•á ‡§ú‡§ó‡•ç‡§ó‡•Ç ‡§ï‡§æ ‡§®‡§æ‡§®‡§æ ‡§∏‡§Ç‡§ó ‡§Ö‡§∏‡§≤‡•Ä ‡§¨‡§µ‡§æ‡§≤\n \n \n\n",[non-hostile],0,0,0,1,0


In [39]:
data = data.rename({'Labels Set': 'Labels'}, axis=1)
data2 = data2.rename({'Labels Set': 'Labels'}, axis=1)

In [63]:
#y = result.offensive.values

In [64]:
#x_train, x_test, y_train, y_test = train_test_split(result.cleanPost.values, y, stratify=y,random_state=1,test_size=0.2, shuffle=True)

In [40]:
#loading train and test data 

x_train = data.cleanPost.values
x_test = data2.cleanPost.values
y_train = data.Labels.values
y_test = data2.Labels.values

In [41]:
y_train

array([list(['hate', 'offensive']), list(['non-hostile']),
       list(['non-hostile']), ..., list(['non-hostile']), list(['fake']),
       list(['non-hostile'])], dtype=object)

In [42]:
from sklearn.feature_extraction.text import CountVectorizer

In [43]:
#vectorizing data
vectorizer = CountVectorizer(binary=True)

vectorizer.fit(list(x_train) + list(x_test))


x_train_vec = vectorizer.transform(x_train)
x_test_vec = vectorizer.transform(x_test)


In [44]:
from sklearn import svm
# classify using support vector classifier
svm1 = svm.SVC(kernel = 'linear', probability=True,C=0.01,gamma = 1)

# fit the SVC model based on the given training data
prob = svm1.fit(x_train_vec, y_train).predict_proba(x_test_vec)

# perform classification and prediction on samples in x_test
y_pred_svm1 = svm1.predict(x_test_vec)


ValueError: You appear to be using a legacy multi-label data representation. Sequence of sequences are no longer supported; use a binary array or sparse matrix instead - the MultiLabelBinarizer transformer can convert to this format.

In [45]:
from sklearn.metrics import accuracy_score
print("Accuracy score for SVC is: ", accuracy_score(y_test, y_pred_svm1) * 100, '%')

NameError: name 'y_pred_svm1' is not defined

In [46]:
from sklearn.metrics import classification_report
print(classification_report(y_test, y_pred_svm1))

NameError: name 'y_pred_svm1' is not defined

In [47]:
from sklearn.ensemble import RandomForestClassifier

rfc = RandomForestClassifier(n_estimators=400)

rfc.fit(x_train_vec,y_train)

y_pred_rfc = rfc.predict(x_test_vec)

print("Accuracy score for Random Forest is: ", accuracy_score(y_test, y_pred_rfc) * 100, '%')

ValueError: Unknown label type: 'unknown'

In [158]:
print(y_pred_rfc)

[[0 0 0 0 0]
 [0 0 0 0 0]
 [0 0 0 1 0]
 ...
 [0 0 0 1 0]
 [0 0 0 0 0]
 [0 0 0 1 0]]


In [165]:
print(classification_report(y_test, y_pred_rfc))

              precision    recall  f1-score   support

           0       0.75      0.81      0.78       376
           1       0.82      0.77      0.80       435

    accuracy                           0.79       811
   macro avg       0.79      0.79      0.79       811
weighted avg       0.79      0.79      0.79       811



In [None]:
#SVM Result
#defamation = 90.50554870530209 %
#fake = 80.27127003699137 %
#hate = 86.43649815043156 %
#non-hostile = 74.9691738594328 %
#offensive = 87.2996300863132 %

#Random Forest Result
#defamation = 90.13563501849569 %
#fake = 82.98397040690506 %
#hate = 86.92971639950679 %
#non-hostile = 80.14796547472255 %
#offensive =  87.79284833538841 %