In [29]:
import pandas as pd
import re
from indicnlp.tokenize import indic_tokenize

file_name = 'Hindi - Sheet1.csv'
# Read the CSV file into a pandas DataFrame
df = pd.read_csv(file_name, encoding='utf-8')
df.head()

Unnamed: 0,Post,Labels Set,Dataset
0,मेरे देश के हिन्दु बहुत निराले है। कुछ तो पक्क...,"hate,offensive",constraint_Hindi_Train
1,सरकार हमेशा से किसानों की कमाई को बढ़ाने के लि...,non-hostile,constraint_Hindi_Train
2,"सुशांत ने जो बिजनेस डील 9 जून को की थी, वो डील...",non-hostile,constraint_Hindi_Train
3,@prabhav218 साले जेएनयू छाप कमिने लोग हिन्दुओं...,"defamation,offensive",constraint_Hindi_Train
4,#unlock4guidelines - अनलॉक-4 के लिए गाइडलाइन्स...,non-hostile,constraint_Hindi_Train


In [30]:
# Remove rows with 'FAKE' label
df = df[df['Labels Set'] != 'fake']

#Print length of the dataset
print("Length of the dataset: ", len(df))

Length of the dataset:  6750


In [31]:
# Check for duplicates
duplicate_rows = df[df.duplicated()]
if not duplicate_rows.empty:
    print("Duplicate rows found. Removing duplicates...")
    df.drop_duplicates(inplace=True)

# Check for NaN values
nan_rows = df[df.isna().any(axis=1)]
if not nan_rows.empty:
    print("Rows with NaN values found. Removing...")
    df.dropna(inplace=True)

# Print length of the dataset after removing duplicates and NaN values
print("Length of the dataset after cleaning: ", len(df))

Duplicate rows found. Removing duplicates...
Length of the dataset after cleaning:  6742


In [32]:
# Function to preprocess text
def preprocess_text(text):
    # Remove mentions, email addresses, URLs, RT (retweet)
    text = re.sub(r'@[A-Za-z0-9_]+', '', text)  # Remove mentions
    text = re.sub(r'\b[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\.[A-Z|a-z]{2,}\b', '', text)  # Remove email addresses
    text = re.sub(r'http\S+', '', text)  # Remove URLs
    text = re.sub(r'RT\s*@\S+', '', text)  # Remove retweets
    # Remove HTML tags (if any)
    text = re.sub(r'<.*?>', '', text)
    # Remove punctuation marks (comma and purnviram)
    text = re.sub(r'[\u002C\u0964]', '', text)
    # Remove special characters and accented characters
    text = re.sub(r'[^\u0900-\u097F\s]', '', text)
    # Remove multiple spaces
    text = re.sub(r'\s+', ' ', text)
    # Strip leading/trailing whitespaces
    text = text.strip()
    return text

# Preprocess the 'Post' column
df['Processed_Post'] = df['Post'].apply(preprocess_text)


In [33]:
# Define the new filename for saving the preprocessed data
new_file_name = file_name.split('.')[0] + '_preprocessed_data.csv'

# Save the preprocessed data to a new CSV file
df.to_csv(new_file_name, index=False, encoding='utf-8')

#print all the preprocessed data in a readable format
print(df['Processed_Post'])

0       मेरे देश के हिन्दु बहुत निराले है कुछ तो पक्के...
1       सरकार हमेशा से किसानों की कमाई को बढ़ाने के लि...
2       सुशांत ने जो बिजनेस डील जून को की थी वो डील दी...
3       साले जेएनयू छाप कमिने लोग हिन्दुओं को यह कहते ...
4       अनलॉक के लिए गाइडलाइन्स जारी सितंबर से देशभर म...
                              ...                        
8187    सोनू सूद से प्रेरणा लेकर आदिवासियों ने वो किया...
8188    उमर खालिद पर तो लगा दिया कपिल मिश्रा को शांति ...
8189                                          पप्पू कमीना
8190    मदर टेरेसा ने अपना पूरा जीवन पीड़ितों की सेवा ...
8191    आईपीएल में कोरोना का डर रैना के हटने के बाद हर...
Name: Processed_Post, Length: 6742, dtype: object
