In [1]:
import pandas as pd

# Function to read files with encoding handling
def read_file(file_path):
    try:
        if file_path.endswith(".csv"):
            return pd.read_csv(file_path, encoding="utf-8")
        elif file_path.endswith(".xlsx"):
            return pd.read_excel(file_path)
    except UnicodeDecodeError:
        try:
            return pd.read_csv(file_path, encoding="ISO-8859-1")
        except UnicodeDecodeError:
            return pd.read_csv(file_path, encoding="utf-16")

# Identifying Telugu and Hindi datasets
telugu_datasets = [
    "/English-Telugu.csv",
    "/abn_telugu_business.csv",
    "/business_telugu_sakshi (1).csv",
    "/task_1_dataset_telugu_refined_submit.xlsx",
    "/telugu-news.csv",
    "/telugu_business_news.csv"
]

hindi_datasets = [
    "/bbc_hindi_articles_with_categories_cleaned.csv",
    "/business_hindi_dainikJagaran.csv",
    "/task_1_dataset_hindi_refined_submit.xlsx"
]

# Load and combine Telugu datasets
telugu_dfs = [read_file(file) for file in telugu_datasets]
telugu_combined = pd.concat(telugu_dfs, ignore_index=True, sort=False)

# Load and combine Hindi datasets
hindi_dfs = [read_file(file) for file in hindi_datasets]
hindi_combined = pd.concat(hindi_dfs, ignore_index=True, sort=False)

# Save the merged datasets (optional)
telugu_combined.to_csv("/merged_telugu_dataset.csv", index=False, encoding="utf-8")
hindi_combined.to_csv("/merged_hindi_dataset.csv", index=False, encoding="utf-8")




In [2]:
import pandas as pd

# Specify the file path
file_path = "/merged_hindi_dataset.csv"

# Read the CSV file
df = pd.read_csv(file_path)

# Display the first 5 rows
print(df.head())


                                            Headline  \
0  बांग्लादेश जमात-ए-इस्लामी और मोदी-बाइडन की बात...   
1        भारत में महिलाएं क्यों छिपाती हैं मेनोपॉज़?   
2  वीडियो, 'वडोदरा शहर में करोड़ों रुपए के बंगले ...   
3  अवनि लेखरा: टोक्यो के बाद पेरिस में भी गोल्ड प...   
4  पैरालंपिक में भाग्यश्री जाधव: मेहनत और लगन से ...   

                                             Content Category Title  \
0  प्रधानमंत्री नरेंद्र मोदी और अमेरिका राष्ट्रपत...     भारत   NaN   
1  “मेरे पति चाहते थे कि मैं हमेशा तैयार और सज सं...     भारत   NaN   
2  गुजरात में लगातार हो रही भारी बारिश के कारण कई...     भारत   NaN   
3  अवनि लेखरा ने पेरिस पैरालंपिक में महिलाओं की 1...     भारत   NaN   
4  पेरिस पैरालंपिक खेलों की शुरुआत 28 अगस्त से हो...     भारत   NaN   

  Description Link indic number_english number_indic  start_posn  end_posn  \
0         NaN  NaN   NaN            NaN          NaN         NaN       NaN   
1         NaN  NaN   NaN            NaN          NaN         NaN       NaN   
2 

In [3]:
import pandas as pd

# Specify the file path
file_path = "/merged_telugu_dataset.csv"

# Read the CSV file
df = pd.read_csv(file_path)

# Display the first 5 rows
print(df.head())

                          English                            Telugu Headline  \
0              His legs are long.      అతని కాళ్ళు పొడవుగా ఉన్నాయి.      NaN   
1             Sai is feeling good    సాయికి మంచి అనుభూతి కలుగుతోంది      NaN   
2             Where are you going        మీరు ఎక్కడికి వెళుతున్నారు      NaN   
3  Telugu, english, tamil, french  తెలుగు, ఇంగ్లీష్, తమిళం, ఫ్రెంచ్      NaN   
4            Official Information                  అధికారిక సమాచారం      NaN   

  Description Link No Title No Description indic number_english number_indic  \
0         NaN  NaN      NaN            NaN   NaN            NaN          NaN   
1         NaN  NaN      NaN            NaN   NaN            NaN          NaN   
2         NaN  NaN      NaN            NaN   NaN            NaN          NaN   
3         NaN  NaN      NaN            NaN   NaN            NaN          NaN   
4         NaN  NaN      NaN            NaN   NaN            NaN          NaN   

   start_posn  end_posn language  magn

In [4]:
import pandas as pd

# Load dataset
file_path = "/merged_hindi_dataset.csv"
df = pd.read_csv(file_path)

# Display column names
print("Dataset Columns:", df.columns)


Dataset Columns: Index(['Headline', 'Content', 'Category', 'Title', 'Description', 'Link',
       'indic', 'number_english', 'number_indic', 'start_posn', 'end_posn',
       'language', 'magnitude'],
      dtype='object')


In [5]:
import pandas as pd
import re

# Load the dataset
file_path = "/merged_hindi_dataset.csv"
df = pd.read_csv(file_path)

# Remove null values
df = df.dropna(subset=["Content"])

# Load the uploaded Hindi stopwords file
stopwords_file_path = "/output.csv"
df_stopwords = pd.read_csv(stopwords_file_path, header=None)

# Convert stopwords list to a set for efficient lookup
hindi_stopwords = set(df_stopwords[0].dropna().tolist())

# Define text cleaning function using the uploaded stopwords
def clean_text(text):
    if isinstance(text, str):
        text = text.lower()  # Convert to lowercase
        text = re.sub(r'\d+', '', text)  # Remove numbers
        text = re.sub(r'[^\w\s]', '', text)  # Remove punctuation
        words = text.split()  # Basic tokenization
        words = [word for word in words if word not in hindi_stopwords]  # Remove stopwords
        return ' '.join(words)
    return text

# Ensure correct column name handling
content_column = [col for col in df.columns if col.strip().lower() == "content"]

if content_column:
    content_column = content_column[0]  # Use the correct column name
else:
    raise ValueError("No valid 'Content' column found in the dataset.")

# Apply text cleaning to the "Content" column
df["cleaned_text"] = df[content_column].astype(str).apply(clean_text)

# Save cleaned dataset
cleaned_file_path = "/cleaned_hindi_dataset_final.csv"
df.to_csv(cleaned_file_path, index=False)

# Provide the cleaned file path
print(f"Cleaned dataset saved at: {cleaned_file_path}")


Cleaned dataset saved at: /cleaned_hindi_dataset_final.csv


In [6]:
pd.read_csv("/cleaned_hindi_dataset_final.csv")

Unnamed: 0,Headline,Content,Category,Title,Description,Link,indic,number_english,number_indic,start_posn,end_posn,language,magnitude,cleaned_text
0,बांग्लादेश जमात-ए-इस्लामी और मोदी-बाइडन की बात...,प्रधानमंत्री नरेंद्र मोदी और अमेरिका राष्ट्रपत...,भारत,,,,,,,,,,,परधनमतर नरदर मद अमरक रषटरपत ज बइडन क बच पछल दन...
1,भारत में महिलाएं क्यों छिपाती हैं मेनोपॉज़?,“मेरे पति चाहते थे कि मैं हमेशा तैयार और सज सं...,भारत,,,,,,,,,,,मर पत चहत थ क म हमश तयर सज सवर रह म मथ बड बद ल...
2,"वीडियो, 'वडोदरा शहर में करोड़ों रुपए के बंगले ...",गुजरात में लगातार हो रही भारी बारिश के कारण कई...,भारत,,,,,,,,,,,गजरत म लगतर ह रह भर बरश क करण जल म बढ क सथत बन...
3,अवनि लेखरा: टोक्यो के बाद पेरिस में भी गोल्ड प...,अवनि लेखरा ने पेरिस पैरालंपिक में महिलाओं की 1...,भारत,,,,,,,,,,,अवन लखर परस परलपक म महलओ क मटर एयर रइफल सटडग स...
4,पैरालंपिक में भाग्यश्री जाधव: मेहनत और लगन से ...,पेरिस पैरालंपिक खेलों की शुरुआत 28 अगस्त से हो...,भारत,,,,,,,,,,,परस परलपक खल क शरआत अगसत स ह चक ह ओपनग सरमन म ...
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
4593,"फ़ेसबुक ने प्याज़ को 'सेक्सी' समझ हटाया, फिर म...",हाल ही में कनाडा के एक 'बीज और बाग़बानी का साम...,सोशल,,,,,,,,,,,हल ह म कनड क बज बगबन क समन बचन वल सटर पय क फसब...
4594,"वीडियो, कमज़ोर नज़र को नहीं बनने दिया रास्ते क...",ज़ेवियर हॉपकिंस ने अपनी कमज़ोर नज़र को अपने रा...,सोशल,,,,,,,,,,,जवयर हपकस अपन कमजर नजर क अपन रसत क रकवट नह बनन...
4595,"जैस्मीन भसीन और सारा गुरपाल, बिग बॉस के घर में...",बिग बॉस के 14वें सीज़न की शुरुआत हो चुकी है. श...,सोशल,,,,,,,,,,,बग बस क सजन क शरआत ह चक ह शनवर तन अकतबर क श क ...
4596,"वीडियो, पाकिस्तान की ये 'चुड़ैल्स' जीत रही हैं...",इस पाकिस्तानी वेब सिरीज़ में न कोई जादू टोना ह...,सोशल,,,,,,,,,,,पकसतन वब सरज म जद टन ह भत परत य कहन ह कलपनक और...
