In [5]:
import pandas as pd

# Function to read files with encoding handling
def read_file(file_path):
    try:
        if file_path.endswith(".csv"):
            return pd.read_csv(file_path, encoding="utf-8")
        elif file_path.endswith(".xlsx"):
            return pd.read_excel(file_path)
    except UnicodeDecodeError:
        try:
            return pd.read_csv(file_path, encoding="ISO-8859-1")
        except UnicodeDecodeError:
            return pd.read_csv(file_path, encoding="utf-16")

# Identifying Telugu and Hindi datasets
telugu_datasets = [
    "/content/abn_telugu_business.csv",
    "/content/business_telugu_sakshi (1).csv",
    "/content/task_1_dataset_telugu_refined_submit.xlsx",
    "/content/telugu-news.csv",
    "/content/telugu_business_news.csv"
]

hindi_datasets = [
    "/content/bbc_hindi_articles_with_categories_cleaned.csv",
    "/content/business_hindi_dainikJagaran.csv",
    "/content/task_1_dataset_hindi_refined_submit.xlsx"
]

# Load and combine Telugu datasets
telugu_dfs = [read_file(file) for file in telugu_datasets]
telugu_combined = pd.concat(telugu_dfs, ignore_index=True, sort=False)

# Load and combine Hindi datasets
hindi_dfs = [read_file(file) for file in hindi_datasets]
hindi_combined = pd.concat(hindi_dfs, ignore_index=True, sort=False)

# Save the merged datasets (optional)
telugu_combined.to_csv("/merged_telugu_dataset.csv", index=False, encoding="utf-8")
hindi_combined.to_csv("/merged_hindi_dataset.csv", index=False, encoding="utf-8")



In [6]:
import pandas as pd

# Specify the file path
file_path = "/merged_telugu_dataset.csv"

# Read the CSV file
df = pd.read_csv(file_path)

# Display the first 5 rows
print(df.head())

                                            Headline  \
0                            ఎఫ్‌పీఐ నిధులకు రెక్కలు   
1           హైదరాబాద్‌లో యాపిల్‌ ఎయిర్‌పాడ్స్‌ తయారీ   
2                     ఇళ్ల ధరలు మరింత పెరుగుతాయ్‌...   
3  Narayanamurthy on AI: భారత్‌లో ఏఐ హైప్‌పై ఇన్ఫ...   
4  Home Loan: హోం లోన్ తీసుకోవాలని భావిస్తున్నారా...   

                                         Description  \
0  దేశీయ ఈక్విటీ మార్కెట్‌ నుంచి విదేశీ ఇన్వెస్టర...   
1  అమెరికా టెక్‌ దిగ్గజం యాపిల్‌ కంపెనీ ఉత్పత్తి ...   
2  ఇటీవల బడ్జెట్లో ప్రకటించిన చర్యలతో పాటు, ఆర్‌బ...   
3  భారత్‌లో ఏఐకి వస్తున్న ప్రచారంపై ఇన్ఫోసిస్ నార...   
4  Home Loan: ఇల్లు కట్టుకోవడం అనేది ప్రతి ఒక్కరి...   

                                                Link No Title No Description  \
0  https://www.andhrajyothy.com/2025/business/fpi...      NaN            NaN   
1  https://www.andhrajyothy.com/2025/business/app...      NaN            NaN   
2  https://www.andhrajyothy.com/2025/business/hou...      NaN            NaN   
3  htt

In [7]:
import pandas as pd

# Load dataset
file_path = "/merged_telugu_dataset.csv"
df = pd.read_csv(file_path)

# Display column names
print("Dataset Columns:", df.columns)

Dataset Columns: Index(['Headline', 'Description', 'Link', 'No Title', 'No Description',
       'indic', 'number_english', 'number_indic', 'start_posn', 'end_posn',
       'language', 'magnitude', 'Unnamed: 0', 'body', 'Headlines'],
      dtype='object')


In [11]:
import pandas as pd
import re

# Load the dataset
file_path = "/merged_telugu_dataset.csv"
df = pd.read_csv(file_path)

# Display available columns to verify correct column names
print("Dataset Columns:", df.columns.tolist())

# Remove null values from 'Description' column (since 'Content' is not present)
df = df.dropna(subset=["Description"])

# Load the Telugu stopwords file
stopwords_file_path = "/telugu_stopwords.csv"
df_stopwords = pd.read_csv(stopwords_file_path, header=None)

# Convert stopwords list to a set for efficient lookup
telugu_stopwords = set(df_stopwords[0].dropna().tolist())

# Define text cleaning function using the uploaded stopwords
def clean_text(text):
    if isinstance(text, str):
        text = text.lower()  # Convert to lowercase
        text = re.sub(r'\d+', '', text)  # Remove numbers
        text = re.sub(r'[^\w\s]', '', text)  # Remove punctuation
        words = text.split()  # Basic tokenization
        words = [word for word in words if word not in telugu_stopwords]  # Remove stopwords
        return ' '.join(words)
    return text

# Apply text cleaning to the "Description" column (since 'Content' is not present)
df["cleaned_text"] = df["Description"].astype(str).apply(clean_text)

# Save cleaned dataset
cleaned_file_path = "/cleaned_telugu_dataset.csv"
df.to_csv(cleaned_file_path, index=False)

# Provide the cleaned file path
print(f"Cleaned dataset saved at: {cleaned_file_path}")


Dataset Columns: ['Headline', 'Description', 'Link', 'No Title', 'No Description', 'indic', 'number_english', 'number_indic', 'start_posn', 'end_posn', 'language', 'magnitude', 'Unnamed: 0', 'body', 'Headlines']
Cleaned dataset saved at: /cleaned_telugu_dataset.csv


In [12]:
pd.read_csv("/cleaned_telugu_dataset.csv")

Unnamed: 0.1,Headline,Description,Link,No Title,No Description,indic,number_english,number_indic,start_posn,end_posn,language,magnitude,Unnamed: 0,body,Headlines,cleaned_text
0,ఎఫ్‌పీఐ నిధులకు రెక్కలు,దేశీయ ఈక్విటీ మార్కెట్‌ నుంచి విదేశీ ఇన్వెస్టర...,https://www.andhrajyothy.com/2025/business/fpi...,,,,,,,,,,,,,దశయ ఈకవట మరకట నచ వదశ ఇనవసటరల నధల ఉపసహరణ యధచఛగ ...
1,హైదరాబాద్‌లో యాపిల్‌ ఎయిర్‌పాడ్స్‌ తయారీ,అమెరికా టెక్‌ దిగ్గజం యాపిల్‌ కంపెనీ ఉత్పత్తి ...,https://www.andhrajyothy.com/2025/business/app...,,,,,,,,,,,,,అమరక టక దగగజ యపల కపన ఉతపతత మయపల హదరబద చరబతద హద...
2,ఇళ్ల ధరలు మరింత పెరుగుతాయ్‌...,"ఇటీవల బడ్జెట్లో ప్రకటించిన చర్యలతో పాటు, ఆర్‌బ...",https://www.andhrajyothy.com/2025/business/hou...,,,,,,,,,,,,,ఇటవల బడజటల పరకటచన చరయలత పట ఆరబఐ రప కత పరభవత దశ...
3,Narayanamurthy on AI: భారత్‌లో ఏఐ హైప్‌పై ఇన్ఫ...,భారత్‌లో ఏఐకి వస్తున్న ప్రచారంపై ఇన్ఫోసిస్ నార...,https://www.andhrajyothy.com/2025/business/inf...,,,,,,,,,,,,,భరతల ఏఐక వసతనన పరచరప ఇనఫసస నరయణమరత తజగ సపదచర స...
4,Home Loan: హోం లోన్ తీసుకోవాలని భావిస్తున్నారా...,Home Loan: ఇల్లు కట్టుకోవడం అనేది ప్రతి ఒక్కరి...,https://www.andhrajyothy.com/2025/business/max...,,,,,,,,,,,,,home loan ఇలల కటటకవడ అనద పరత ఒకకర కల చలమద జవతల...
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
185,Mobile Gaming: జియో గేమ్స్‌తో 7సీస్‌ జట్టు,హైదరాబాద్‌ కేంద్రంగా ఉన్న 7సీస్‌ ఎంటర్‌టైన్‌మె...,https://www.andhrajyothy.com/2025/business/7se...,,,,,,,,,,,,,హదరబద కదరగ ఉనన సస ఎటరటనమట లమటడ జయ గమసత వయహతమక ...
186,Indian GDP : జీడీపీ వృద్ధి రేటు 6.2 శాతం,దేశ ఆర్థిక వ్యవస్థ గాడినపడుతోంది. ప్రస్తుత ఆర్...,https://www.andhrajyothy.com/2025/business/ind...,,,,,,,,,,,,,దశ ఆరథక వయవసథ గడనపడతద పరసతత ఆరథక సవతసర డసబ రత ...
187,Indian Students : విదేశీ విద్యార్థులకు చుక్కలు...,Indian Students : ఇటీవల రూపాయి విలువ డాలర్‌తో ...,https://www.andhrajyothy.com/2025/business/rup...,,,,,,,,,,,,,indian students ఇటవల రపయ వలవ డలరత పలసత పడపవడత ...
188,Gold Rates : బంగారం ధరలు రోజూ ఒకేలా ఎందుకుండవు...,Gold Rates : రోజు మారిపోగానే బంగారం ధర కూడా మా...,https://www.andhrajyothy.com/2025/business/ind...,,,,,,,,,,,,,gold rates రజ మరపగన బగర ధర కడ మరపత ఉటద ఒకకసర ఉ...
