In [26]:
import requests
from bs4 import BeautifulSoup

In [50]:
def fetch_telugu_articles(category='Category:Telugu_language', limit=10):
    base_url = "https://te.wikipedia.org/wiki/"
    api_url = "https://te.wikipedia.org/w/api.php"  # Correctly placed definition
    articles = {}

    params = {
        'action': 'query',
        'format': 'json',
        'list': 'categorymembers',
        'cmtitle': category,
        'cmlimit': limit,
    }
    response = requests.get(api_url, params=params)
    if response.status_code == 200:
        try:
            data = response.json()
            return data.get('query', {}).get('categorymembers', [])
        except requests.exceptions.JSONDecodeError:
            print("Error: Response is not JSON.")
            print(response.text)
    else:
        print(f"HTTP Error: {response.status_code}")
        print(response.text)
    return []


In [53]:
 def scrape_article_content(title):
    """
    Scrape content from a specific Telugu Wikipedia article.
    """
    base_url = "https://te.wikipedia.org/wiki/"
    article_url = base_url + title.replace(' ', '_')

    try:
        response = requests.get(article_url)
        if response.status_code == 200:
            soup = BeautifulSoup(response.text, 'html.parser')
            content_div = soup.find('div', class_='mw-parser-output')
            if content_div:
                paragraphs = content_div.find_all('p')
                return "\n".join(p.text for p in paragraphs if p.text)
    except Exception as e:
        print(f"Error fetching {article_url}: {e}")
    return ""


In [65]:
import os
def save_all_articles_to_file(articles, output_file='telugu_articles.txt'):
    """
    Save all articles to a single text file.
    :param articles: Dictionary of article titles and their content.
    :param output_file: Path to the output text file.
    """
    with open(output_file, 'w', encoding='utf-8') as file:
        for title, content in articles.items():
            file.write(f"### {title} ###\n")  # Add a title header for each article
            file.write(content)
            file.write("\n\n")  # Separate articles with blank lines
    print(f"All articles saved in: {output_file}")



In [69]:
# Step 1: Fetch articles
category_members = fetch_telugu_articles(category='Category:తెలుగు', limit=1000)

# Step 2: Scrape content for each article
articles = {}
for member in category_members:
    title = member.get('title', 'Untitled')
    print(f"Fetching content for: {title}")
    content = scrape_article_content(title)
    if content:
        articles[title] = content

# Step 3: Save all articles in a single text file
if articles:
    save_all_articles_to_file(articles)
else:
    print("No articles fetched.")


Fetching content for: తెలుగు
Fetching content for: అధికార భాష
Fetching content for: అరసున్న
Fetching content for: ఆంధ్రప్రదేశ్ తెలుగు భాషా దినోత్సవం
Fetching content for: కీర్తన
Fetching content for: గోదావరి యాస
Fetching content for: జంట పదాలు
Fetching content for: ఢిల్లీ తెలుగు అకాడమీ
Fetching content for: తు.చ.తప్పకుండా
Fetching content for: తెలంగాణ యాస
Fetching content for: తెలుగు అకాడమి
Fetching content for: తెలుగు అక్షరాలు
Fetching content for: తెలుగు కవిత్వం
Fetching content for: తెలుగు కవులు - బిరుదులు
Fetching content for: తెలుగు ప్రథమాలు
Fetching content for: తెలుగు మాధ్యమాల దినోత్సవం
Fetching content for: తెలుగు రాష్ట్రాలు
Fetching content for: తెలుగు విజయం
Fetching content for: తెలుగు విజ్ఞాన సర్వస్వం
Fetching content for: తెలుగు సభలు
Fetching content for: తెలుగుతల్లి
Fetching content for: తెలుగులో విద్యాబోధన
Fetching content for: తెలుగులో వైకల్పనలు
Fetching content for: దేశ భాషలందు తెలుగు లెస్స
Fetching content for: నాగబు
Fetching content for: నామవాచకం (తెలుగు వ్యాకరణం)
Fet

In [61]:
def debug_api_response(category='Category:Telugu_language', limit=10):
    api_url = "https://te.wikipedia.org/w/api.php"
    params = {
        'action': 'query',
        'format': 'json',
        'list': 'categorymembers',
        'cmtitle': category,
        'cmlimit': limit,
    }
    response = requests.get(api_url, params=params)
    print("Status Code:", response.status_code)
    print("Response Content:", response.text)

debug_api_response()


Status Code: 200
Response Content: {"batchcomplete":"","query":{"categorymembers":[]}}
