# EENADU DATASET SCRAPING


In [None]:
# requesting all the data analysis libraries
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from bs4 import BeautifulSoup
import requests
import seaborn as sns
import plotly.express as px
import plotly.graph_objects as go
from plotly.subplots import make_subplots

In [None]:
url = 'https://www.eenadu.net/business/business-special'
response = requests.get(url)
print(response)

<Response [200]>


In [None]:
soup = BeautifulSoup(response.text, 'html.parser')

In [None]:
articles = soup.find_all("div", class_="thumb-description")

In [None]:
descriptions = []

# Loop through each news article
for article in articles:
    # Extract description (within <br> tags)
    description_parts = []
    for br in article.find_all("br"):
        if br.next_sibling and isinstance(br.next_sibling, str):
            description_parts.append(br.next_sibling.strip())

    description_text = " ".join(description_parts)
    descriptions.append(description_text if description_text else "N/A")

# Create a DataFrame with only the 'Description' column
eenadu_df = pd.DataFrame({"Description": descriptions})

# Display the DataFrame
print(eenadu_df)

                                           Description
0                                                  N/A
1                                                  N/A
2                                                  N/A
3                                                  N/A
4                                                  N/A
..                                                 ...
107  దేశంలో స్టార్టప్‌ల్లో సెలబ్రిటీలు పెట్టుబడి పె...
108  భారత ఆర్థిక వ్యవస్థకు అంకుర సంస్థలు కొత్త ఊపు ...
109  విమానం ఎక్కాలని ఎవరికుండదు. అయితే అలా ప్రయాణిస...
110  Bitcoin: క్రిప్టోకరెన్సీ చరిత్రలో కీలక మైలురాయ...
111  దేశీయ మ్యూచువల్‌ ఫండ్లలోకి పెట్టుబడుల ప్రవాహం ...

[112 rows x 1 columns]


In [None]:
eenadu_df.head(20)

Unnamed: 0,Description
0,
1,
2,
3,
4,
5,
6,
7,
8,
9,


In [None]:
n = 12

# Example 1: By using Dataframe.iloc[]
# To drop first n rows
eenadu_df = eenadu_df.iloc[n:,:]

In [None]:
eenadu_df

Unnamed: 0,Description
12,‘అమెరికా ఫస్ట్‌’ పేరిట ట్రంప్‌ యంత్రాంగం అనుసర...
13,"అమెరికా అధ్యక్షుడు డొనాల్డ్‌ ట్రంప్, తమ దేశంలో..."
14,AnTuTu score: మొబైల్‌ సంస్థలు AnTuTu స్కోర్ గ...
15,Micro retirement: ఉద్యోగ జీవితానికి సంబంధించి ...
16,క్రికెట్‌లో ఛాంపియన్‌ కావాలంటే ఏం చేయాలి. బ్యా...
...,...
107,దేశంలో స్టార్టప్‌ల్లో సెలబ్రిటీలు పెట్టుబడి పె...
108,భారత ఆర్థిక వ్యవస్థకు అంకుర సంస్థలు కొత్త ఊపు ...
109,విమానం ఎక్కాలని ఎవరికుండదు. అయితే అలా ప్రయాణిస...
110,Bitcoin: క్రిప్టోకరెన్సీ చరిత్రలో కీలక మైలురాయ...


In [None]:
eenadu_df.to_csv('new_eenadu_telugu_news.csv', index=False)

# ABN NEWS SCRAPING


In [None]:
abn_url1 = 'https://www.andhrajyothy.com/business/page/2'
response1 = requests.get(abn_url1)
print(response1)

<Response [200]>


In [None]:
soup = BeautifulSoup(response1.text, 'html.parser')

In [None]:
import requests
from bs4 import BeautifulSoup
import pandas as pd

headings_all = []
descriptions_all = []

for page in range(1, 22):  # pages 1 to 21
    url = f"https://www.andhrajyothy.com/business/page/{page}"
    resp = requests.get(url)
    soup = BeautifulSoup(resp.content, "html.parser")

    # extract titles and paragraphs
    titles = [h.get_text(strip=True) for h in soup.find_all("h3")]
    paras  = [p.get_text(strip=True) for p in soup.find_all("p")]

    # drop the breadcrumb paragraph if present
    if paras and paras[0].startswith("Home"):
        paras = paras[1:]
    # only keep as many descriptions as there are titles
    paras = paras[:len(titles)]

    headings_all.extend(titles)
    descriptions_all.extend(paras)

# build DataFrame
abn_df_1 = pd.DataFrame({
    "heading":     headings_all,
    "description": descriptions_all
})

# show the first few rows


# optional: save to CSV
# df.to_csv("andhrajyothy_business_pages_1-21.csv", index=False)


In [None]:
abn_df_1

Unnamed: 0,heading,description
0,Nirmala Sitharaman Trade Tariffs: దీర్ఘకాలిక వ...,ట్రంప్‌ సుంకాల నేపథ్యంలో ఆర్థికమంత్రి నిర్మలా ...
1,Indian Stock Market Surge: 4 రోజుల ర్యాలీ-4700...,"భారత మార్కెట్లు ట్రంప్‌ సుంకాల విరామం, వాణిజ్య..."
2,SEBI Chief: వాటాదారుల ప్రయోజనాలే ముఖ్యం,ఎన్‌ఎస్ఈ ఐపీఓ అనుమతిలో వాణిజ్య ప్రయోజనాల కంటే ...
3,ITC Buys 24 Mantra Organic: ఐటీసీ గూటికి 24 మం...,ఐటీసీ గ్రూప్‌ 24 మంత్ర ఆర్గానిక్‌ బ్రాండ్‌ను ర...
4,Tata Motors Patents 2025: పేటెంట్లలో టాటా మోటా...,టాటా మోటార్స్‌ 2024-25 ఆర్థిక సంవత్సరంలో 250 ప...
...,...,...
188,FD rate cuts: ఫిక్స్‌డ్ డిపాజిట్‌దార్లకు బ్యాడ...,బ్యాంకుల్లో ఫిక్స్‌డ్‌ డిపాజిట్ల రూపేణా డబ్బు...
189,Railways: ప్లాట్‌ఫామ్ టికెట్ ఎందుకు పెట్టారంటే,Railways: రైళ్లలో ప్రయాణం చేయని వ్యక్తులు ఫ్లా...
190,Stock Market Opening Bell: మిశ్రమంగా మొదలైన ద...,అందరి అంచనాలను తలక్రిందులు చేస్తూ నిన్న భారత మ...
191,America: ప్రస్తుత స్థితిని లైట్ తీసుకుంటున్న అ...,అమెరికా అధ్యక్షుడు తెచ్చిన సుంకాలు ఆ దేశ ఆర్థి...


In [None]:
abn_df_1.to_csv('new_abn_telugu_news.csv', index=False)

# NAMASTE TELANGANA NEWS SCRAPING

In [None]:
import requests
from bs4 import BeautifulSoup
import pandas as pd

# URL of the newspaper website
url = "https://www.ntnews.com/business"  # Replace with actual URL

# Send request and parse HTML
response = requests.get(url)
soup = BeautifulSoup(response.content, 'html.parser')

# Find all article containers (look for figcaption or other parent element)
articles = soup.find_all('figcaption')

data = []
for article in articles:
    # Extract heading from h3 > a tag
    heading_tag = article.find('h3')
    if heading_tag:
        heading_link = heading_tag.find('a')
        heading = heading_link.get_text(strip=True) if heading_link else None
    else:
        heading = None

    # Extract description from excerpt div
    description_div = article.find('div', class_='excerpt')
    description = description_div.get_text(strip=True) if description_div else None

    # Extract URL if needed
    link = heading_link['href'] if heading_link and 'href' in heading_link.attrs else None

    if heading:  # Only add if heading exists
        data.append({
            'Heading': heading,
            'Description': description,
            'Article_URL': link  # Optional
        })

# Create DataFrame
ntnews_df = pd.DataFrame(data)

# Display results
#print(df)

# Save to CSV
#df.to_csv('newspaper_articles.csv', index=False)

In [None]:
ntnews_df

Unnamed: 0,Heading,Description,Article_URL
0,యాప్‌లకు ఏఐ ఏజెంట్లు,ప్రస్తుతం టెక్నాలజీ రంగంలో కృత్రిమ మేథస్సు (ఏఐ...,https://www.ntnews.com/business/ai-agents-for-...
1,పసిడి దిగుమతులు హైజంప్‌,బంగారం దిగుమతులు రికార్డు స్థాయిలో దూసుకుపోయాయ...,https://www.ntnews.com/business/gold-price-hit...
2,2 వేలకు పైగా యూపీఏ లావాదేవీలపై జీఎస్టీ విధించం,రూ.2 వేల కంటే అధికంగా జరిపే యూపీఐ లావాదేవీలపై ...,https://www.ntnews.com/business/gst-to-be-impo...
3,4 రోజులు.. 26 లక్షల కోట్లు,ప్రతీకార సుంకాలను తాత్కాలికంగా నిలిపివేస్తూ అమ...,https://www.ntnews.com/business/investor-wealt...
4,బొగ్గుపై రూ.20 సెస్‌ వసూలు,కోల్‌మైన్స్‌ పెన్షన్‌ పథకం అమలు కోసం టన్ను బొగ...,https://www.ntnews.com/business/singareni-has-...
5,అపాచీ ఆర్‌ఆర్‌ 310 ఎడిషన్‌.. మార్కెట్‌లోకి సరి...,ద్విచక్ర వాహన సంస్థ టీవీఎస్‌...దేశీయ మార్కెట్‌...,https://www.ntnews.com/business/tvs-apache-rr-...
6,Narayana Murthy | ఇన్ఫీ నారాయణమూర్తి మనవడికి ర...,Narayana Murthy | ఇన్ఫోసిస్‌ (Infosys) సహవ్యవస...,https://www.ntnews.com/business/narayana-murth...
7,Future City | ఫ్యూచర్‌ సిటీలో జపాన్‌ ఇండస్ట్రీ...,జపాన్‌కు చెందిన వ్యాపార దిగ్గజం మారుబెనీ కంపెన...,https://www.ntnews.com/business/hyderabad-maru...
8,Growth Rate | టారిఫ్‌ వార్‌.. భారత వృద్ధిరేటు ...,ప్రముఖ గ్లోబల్‌ క్రెడిట్‌ రేటింగ్‌ ఏజెన్సీ ఫిచ...,https://www.ntnews.com/business/trade-toll-fit...
9,Hyderabad Realty | హైదరాబాద్‌ రియల్టీ ఢమాల్‌.....,దాదాపు దశాబ్దకాలం భారతీయ నిర్మాణ రంగానికే తలమా...,https://www.ntnews.com/business/hyderabad-real...


In [None]:
ntnews_df.to_csv('new_ntnews_telugu_news.csv', index=False)

# VAARTHA NEWS SCRAPING

In [None]:
varta_url = 'https://vaartha.com/category/business/'
response = requests.get(varta_url)
print(response)

<Response [200]>


In [None]:
import requests
from bs4 import BeautifulSoup
import pandas as pd

# Fetch the webpage
url = "https://vaartha.com/category/business/"  # Example URL from your snippet
headers = {'User-Agent': 'Mozilla/5.0'}  # Some websites require a user-agent

try:
    response = requests.get(url, headers=headers)
    response.raise_for_status()  # Check for HTTP errors

    soup = BeautifulSoup(response.content, 'html.parser')

    # Initialize lists to store data
    titles = []
    excerpts = []

    # Find all article containers (adjust selector as needed)
    articles = soup.find_all('div', class_='blaze_box_wrap')

    for article in articles:
        # Extract title from <a> tag within h2.post-title
        title_tag = article.find('h2', class_='post-title').find('a')
        title = title_tag.get_text(strip=True) if title_tag else None
        titles.append(title)

        # Extract excerpt from p tag within div.post-excerpt
        excerpt_tag = article.find('div', class_='post-excerpt').find('p')
        excerpt = excerpt_tag.get_text(strip=True) if excerpt_tag else None
        excerpts.append(excerpt)

    # Create DataFrame
    vartadf = pd.DataFrame({
        'Title': titles,
        'Excerpt': excerpts
    })

    # Display the DataFrame
    print(vartadf.head())


except requests.exceptions.RequestException as e:
    print(f"Error fetching the webpage: {e}")
except Exception as e:
    print(f"An error occurred: {e}")

                                               Title  \
0  Infosys : రెండేళ్ల తర్వాత ఇన్ఫోసిస్ ట్రైనీలను ...   
1       RBI Imposes Penalty: బ్యాంకులపై ఆర్బీఐ కొరడా   
2  Infosys: ఇంటర్నల్ అసెస్మెంట్ క్లియర్ చేయని 240...   
3  China: చైనా సంచలన నిర్ణయం.. ఎల్‌ఎన్‌జీ దిగుమతు...   
4  Samsung : శాంసంగ్ నుంచి కొత్తగా గెలాక్సీ ఎం56 ...   

                                             Excerpt  
0  ఇన్ఫోసిస్ మరోసారి పెద్ద నిర్ణయం తీసుకుంది తక్క...  
1  నిబంధనలను పాటించని బ్యాంకులపై రిజర్వ్ బ్యాంక్ ...  
2  భారతదేశంలోని అతిపెద్ద ఐటీ కంపెనీలలో ఒకటైన ఇన్ఫ...  
3  అమెరికా అధ్యక్షుడు డొనాల్డ్ ట్రంప్ టారిఫ్‌లకు ...  
4  శాంసంగ్ మరోసారి మార్కెట్‌లో హల్‌చల్ చేయడానికి ...  


In [None]:
vartadf

Unnamed: 0,Title,Excerpt
0,Infosys : రెండేళ్ల తర్వాత ఇన్ఫోసిస్ ట్రైనీలను ...,ఇన్ఫోసిస్ మరోసారి పెద్ద నిర్ణయం తీసుకుంది తక్క...
1,RBI Imposes Penalty: బ్యాంకులపై ఆర్బీఐ కొరడా,నిబంధనలను పాటించని బ్యాంకులపై రిజర్వ్ బ్యాంక్ ...
2,Infosys: ఇంటర్నల్ అసెస్మెంట్ క్లియర్ చేయని 240...,భారతదేశంలోని అతిపెద్ద ఐటీ కంపెనీలలో ఒకటైన ఇన్ఫ...
3,China: చైనా సంచలన నిర్ణయం.. ఎల్‌ఎన్‌జీ దిగుమతు...,అమెరికా అధ్యక్షుడు డొనాల్డ్ ట్రంప్ టారిఫ్‌లకు ...
4,Samsung : శాంసంగ్ నుంచి కొత్తగా గెలాక్సీ ఎం56 ...,శాంసంగ్ మరోసారి మార్కెట్‌లో హల్‌చల్ చేయడానికి ...
5,Jerome Powell: ట్రంప్ టారిఫ్‌లతో అగాథంలోకి అమె...,అమెరికా అధ్యక్షుడు డొనాల్డ్ ట్రంప్ ప్రతీకార సు...
6,Stock Market: దుమ్ములేపుతున్న స్టాక్ మర్కెట్.....,స్టాక్ మార్కెట్ ఈరోజు ఉదయం నష్టాల్లో ప్రారంభమై...
7,Hemophilia :రాయల్ డిసీజ్ పై పూర్తి అవగాహన,హిమోఫిలియా అంటే ఏమిటి? రాయల్ డిసీజ్ పై పూర్తి ...


In [None]:
import requests
from bs4 import BeautifulSoup
import pandas as pd
import time
from tqdm import tqdm  # for progress bar (install with: pip install tqdm)

# Base URL - adjust this based on the website's pagination pattern
base_url = "https://vaartha.com/category/business/page/{}/"  # Example pattern

headers = {'User-Agent': 'Mozilla/5.0'}

def scrape_page(page_num):
    try:
        url = base_url.format(page_num)
        response = requests.get(url, headers=headers)
        response.raise_for_status()
        return BeautifulSoup(response.content, 'html.parser')
    except Exception as e:
        print(f"Error scraping page {page_num}: {e}")
        return None

def extract_articles(soup):
    articles = []
    for article in soup.find_all('div', class_='blaze_box_wrap'):
        title_tag = article.find('h2', class_='post-title').find('a')
        excerpt_tag = article.find('div', class_='post-excerpt').find('p')

        articles.append({
            'Title': title_tag.get_text(strip=True) if title_tag else None,
            'Excerpt': excerpt_tag.get_text(strip=True) if excerpt_tag else None,
            'URL': title_tag['href'] if title_tag else None
        })
    return articles

def scrape_multiple_pages(start_page=1, end_page=72):
    all_articles = []

    for page_num in tqdm(range(start_page, end_page + 1), desc="Scraping Pages"):
        soup = scrape_page(page_num)
        if soup:
            all_articles.extend(extract_articles(soup))
        time.sleep(1)  # Respectful delay between requests

    return pd.DataFrame(all_articles)

# Run the scraper
if __name__ == "__main__":
    try:
        print("Starting scraping...")
        vartadf = scrape_multiple_pages(1, 72)

        # Save results
        vartadf.to_csv('vaartha_articles_60_pages.csv', index=False)
        print(f"Scraping complete! Saved {len(df)} articles to 'vaartha_articles_72_pages.csv'")

        # Display sample
        print("\nSample data:")
        print(vartadf.head())

    except Exception as e:
        print(f"An error occurred during scraping: {e}")

Starting scraping...


Scraping Pages: 100%|██████████| 72/72 [03:33<00:00,  2.97s/it]

Scraping complete! Saved 15 articles to 'vaartha_articles_72_pages.csv'

Sample data:
                                               Title  \
0  Infosys : రెండేళ్ల తర్వాత ఇన్ఫోసిస్ ట్రైనీలను ...   
1       RBI Imposes Penalty: బ్యాంకులపై ఆర్బీఐ కొరడా   
2  Infosys: ఇంటర్నల్ అసెస్మెంట్ క్లియర్ చేయని 240...   
3  China: చైనా సంచలన నిర్ణయం.. ఎల్‌ఎన్‌జీ దిగుమతు...   
4  Samsung : శాంసంగ్ నుంచి కొత్తగా గెలాక్సీ ఎం56 ...   

                                             Excerpt  \
0  ఇన్ఫోసిస్ మరోసారి పెద్ద నిర్ణయం తీసుకుంది తక్క...   
1  నిబంధనలను పాటించని బ్యాంకులపై రిజర్వ్ బ్యాంక్ ...   
2  భారతదేశంలోని అతిపెద్ద ఐటీ కంపెనీలలో ఒకటైన ఇన్ఫ...   
3  అమెరికా అధ్యక్షుడు డొనాల్డ్ ట్రంప్ టారిఫ్‌లకు ...   
4  శాంసంగ్ మరోసారి మార్కెట్‌లో హల్‌చల్ చేయడానికి ...   

                                                 URL  
0  https://vaartha.com/infosys-infosys-trainees-l...  
1  https://vaartha.com/rbi-crackdown-on-banks/bus...  
2  https://vaartha.com/infosys-sacks-240-people-f...  
3  https://vaartha.c




In [None]:
vartadf.shape

(576, 3)