# Wikipedia Retriever (LangChain)

Purpose: demo using the `WikipediaRetriever` from `langchain_community` to fetch relevant Wikipedia passages for a query. This notebook shows English and Bengali examples.

Overview:
- Install dependencies (first cell).  
- Set your API keys (if using Google/other services).  
- Initialize the retriever, run queries, and inspect results.

In [None]:
!pip install langchain chromadb openai tiktoken pypdf langchain_google_genai langchain-community wikipedia

In [35]:
from langchain_community.retrievers import WikipediaRetriever

## Imports & Retriever initialization

Below we import `WikipediaRetriever` and create an instance. You can set `top_k_results` and `lang` (language code) to control results.

## English example

Create an English retriever and query for an English topic. Inspect the returned documents and use them downstream (e.g., summarization, citation).

In [36]:
# Initialize the retriever (optional: set language and top_k)
retriever = WikipediaRetriever(top_k_results=2, lang="en")

In [37]:
# Define your query
query = "Tell me about Calciopoli Scandal"

In [38]:
# Get relevant Wikipedia documents
docs = retriever.invoke(query)

In [39]:
docs

[Document(metadata={'title': 'Calciopoli', 'summary': "Calciopoli (Italian: [kalˈtʃɔːpoli]) was a sports scandal in Italy's top professional association football league Serie A, and to a lesser extent, Serie B. The scandal centered on the manipulation of referee appointments to favor certain clubs during the 2004-05 and 2005-06 seasons. It was uncovered in May 2006, when a number of telephone tappings showed relations between clubs' executives and referee organizations, being accused of selecting favourable referees. This implicated league champions Juventus and several other clubs, including Fiorentina, Lazio, AC Milan, and Reggina. In July 2006, Juventus was stripped of the 2004–05 Serie A title, which was left unassigned, and was downgraded to last place in the 2005–06 Serie A, as the title was subsequently awarded to Inter Milan, and relegated to Serie B. Initially Fiorentina and Lazio were also relegated though this was later overturned on appeal, meanwhile all five clubs received

In [40]:
# Print retrieved content
for i, doc in enumerate(docs):
    print(f"\n--- Result {i+1} ---")
    print(f"Content:\n{doc.page_content}...")  # truncate for display


--- Result 1 ---
Content:
Calciopoli (Italian: [kalˈtʃɔːpoli]) was a sports scandal in Italy's top professional association football league Serie A, and to a lesser extent, Serie B. The scandal centered on the manipulation of referee appointments to favor certain clubs during the 2004-05 and 2005-06 seasons. It was uncovered in May 2006, when a number of telephone tappings showed relations between clubs' executives and referee organizations, being accused of selecting favourable referees. This implicated league champions Juventus and several other clubs, including Fiorentina, Lazio, AC Milan, and Reggina. In July 2006, Juventus was stripped of the 2004–05 Serie A title, which was left unassigned, and was downgraded to last place in the 2005–06 Serie A, as the title was subsequently awarded to Inter Milan, and relegated to Serie B. Initially Fiorentina and Lazio were also relegated though this was later overturned on appeal, meanwhile all five clubs received points penalties for the fo

## Bengali example

Create a Bengali retriever and query in Bengali. The retriever will attempt to return relevant Bengali Wikipedia passages when available.

In [41]:
# Initialize the retriever (optional: set language and top_k)
retriever = WikipediaRetriever(top_k_results=2, lang="bn")

In [42]:
# Define your query
query = "ক্যালসিওপোলি কেলেঙ্কারি সম্পর্কে বলুন।"

In [43]:
# Get relevant Wikipedia documents
docs = retriever.invoke(query)

In [44]:
docs

[Document(metadata={'title': 'ইয়ুভেন্তুস ফুটবল ক্লাব', 'summary': 'ইয়ুভেন্তুস ফুটবল ক্লাব (লাতিন: juventūs, \'তারুণ্য\'; ইতালীয় উচ্চারণ: [juˈvɛntus]), সাধারণত ইয়ুভেন্তুস অথবা শুধুমাত্র ইয়ুভে (উচ্চারিত [ˈjuːve]) নামে পরিচিত যেটি তুরিন, পিডমন্ট, ইতালি, ভিত্তিক একটি পেশাদার ফুটবল ক্লাব, যেটা বর্তমানে ইতালির শীর্ষ স্তরের ফুটবল লিগ সেরিয়ে আ-এ খেলে। এই ক্লাবটি ১৮৯৭ সালের ১লা নভেম্বর তুরিনীয় ছাত্রদের মাধ্যমে প্রতিষ্ঠিত হয়েছিল। ১৯০৩ সাল থেকে ঘরোয়া মাঠে খেলার জন্য ক্লাবটি সাদা-কালো ডোরাকাটা বিশিষ্ট জার্সি ব্যবহার করে আসছে। ইয়ুভেন্তুস তাদের সকল ঘরোয়া ম্যাচ তুরিনের ইয়ুভেন্তুস ফুটবল স্টেডিয়ামে খেলে থাকে; যার ধারণক্ষমতা হচ্ছে ৪১,৫০৭। বর্তমানে এই ক্লাবের ম্যানেজারের দায়িত্ব পালন করছেন আন্দ্রে আল্লেগ্রি এবং সভাপতির দায়িত্ব পালন করছেন মাসসিমিলিয়ানো আল্লেগ্রি। ইতালীয় রক্ষণভাগের খেলোয়াড় লেওনার্দো বোনুচ্চি এই ক্লাবের অধিনায়কের দায়িত্ব পালন করছেন।\nঘরোয়া ফুটবলে ইয়ুভেন্তুস এপর্যন্ত ৬০টি শিরোপা জয়লাভ করেছে; যার মধ্যে ৩৬টি সেরিয়ে আ, ১টি সেরিয়ে বি, ১৪টি কোপা ইতালিয়া এবং ৯টি সুপারকোপ

In [45]:
# Print retrieved content
for i, doc in enumerate(docs):
    print(f"\n--- Result {i+1} ---")
    print(f"Content:\n{doc.page_content}...")  # truncate for display


--- Result 1 ---
Content:
ইয়ুভেন্তুস ফুটবল ক্লাব (লাতিন: juventūs, 'তারুণ্য'; ইতালীয় উচ্চারণ: [juˈvɛntus]), সাধারণত ইয়ুভেন্তুস অথবা শুধুমাত্র ইয়ুভে (উচ্চারিত [ˈjuːve]) নামে পরিচিত যেটি তুরিন, পিডমন্ট, ইতালি, ভিত্তিক একটি পেশাদার ফুটবল ক্লাব, যেটা বর্তমানে ইতালির শীর্ষ স্তরের ফুটবল লিগ সেরিয়ে আ-এ খেলে। এই ক্লাবটি ১৮৯৭ সালের ১লা নভেম্বর তুরিনীয় ছাত্রদের মাধ্যমে প্রতিষ্ঠিত হয়েছিল। ১৯০৩ সাল থেকে ঘরোয়া মাঠে খেলার জন্য ক্লাবটি সাদা-কালো ডোরাকাটা বিশিষ্ট জার্সি ব্যবহার করে আসছে। ইয়ুভেন্তুস তাদের সকল ঘরোয়া ম্যাচ তুরিনের ইয়ুভেন্তুস ফুটবল স্টেডিয়ামে খেলে থাকে; যার ধারণক্ষমতা হচ্ছে ৪১,৫০৭। বর্তমানে এই ক্লাবের ম্যানেজারের দায়িত্ব পালন করছেন আন্দ্রে আল্লেগ্রি এবং সভাপতির দায়িত্ব পালন করছেন মাসসিমিলিয়ানো আল্লেগ্রি। ইতালীয় রক্ষণভাগের খেলোয়াড় লেওনার্দো বোনুচ্চি এই ক্লাবের অধিনায়কের দায়িত্ব পালন করছেন।
ঘরোয়া ফুটবলে ইয়ুভেন্তুস এপর্যন্ত ৬০টি শিরোপা জয়লাভ করেছে; যার মধ্যে ৩৬টি সেরিয়ে আ, ১টি সেরিয়ে বি, ১৪টি কোপা ইতালিয়া এবং ৯টি সুপারকোপা ইতালিয়ানা শিরোপা রয়েছে। অন্যদিকে ইউরোপীয