# Wikipedia

>[Wikipedia](https://wikipedia.org/) is a multilingual free online encyclopedia written and maintained by a community of volunteers, known as Wikipedians, through open collaboration and using a wiki-based editing system called MediaWiki. `Wikipedia` is the largest and most-read reference work in history.

This notebook shows how to retrieve wiki pages from `wikipedia.org` into the Document format that is used downstream.

## Installation

First, you need to install `wikipedia` python package.

In [1]:
%pip install --upgrade --quiet  wikipedia

`WikipediaRetriever` has these arguments:
- optional `lang`: default="en". Use it to search in a specific language part of Wikipedia
- optional `load_max_docs`: default=100. Use it to limit number of downloaded documents. It takes time to download all 100 documents, so use a small number for experiments. There is a hard limit of 300 for now.
- optional `load_all_available_meta`: default=False. By default only the most important fields downloaded: `Published` (date when document was published/last updated), `title`, `Summary`. If True, other fields also downloaded.

`get_relevant_documents()` has one argument, `query`: free text which used to find documents in Wikipedia

## Examples

### Running retriever

In [1]:
from langchain_community.retrievers import WikipediaRetriever

In [3]:
retriever = WikipediaRetriever()

In [4]:
docs = retriever.get_relevant_documents(query="Титаник", lang="ru")

In [5]:
docs[0].metadata  # meta-information of the Document

{'title': 'Титаник',
 'summary': '«Тита́ник» (англ. Titanic) — британский трансатлантический пассажирский пароход, второй лайнер класса «Олимпик» компании «White Star Line». Крупнейшее судно в мировой истории начала XX века. При строительстве получил номер 401.\nВо время первого рейса, в ночь с 14 на 15 апреля 1912 года, столкнулся с айсбергом и затонул в Северной Атлантике.\nСтроился в Белфасте на верфи «Harland & Wolff» с 1909 по 1912 год. «Титаник» был оборудован двумя четырёхцилиндровыми паровыми машинами и паровой турбиной. Вся силовая установка обладала мощностью 55 000 л. с. Лайнер мог развивать скорость до 23 узлов (42 км/ч). Его водоизмещение, превышавшее пароход-близнец «Олимпик» на 243 т, составляло 52 310 т. Корпус судна был изготовлен из стали. Трюм и нижние палубы разделялись на 16 отсеков переборками с герметичными дверями. При повреждении днища попаданию воды в отсеки препятствовало двойное дно. Журнал «Shipbuilder» назвал «Титаник» практически непотопляемым, это высказ

In [14]:
docs[0].page_content[:400]  # a content of the Document

'«Тита́ник» (англ. Titanic) — британский трансатлантический пассажирский пароход, второй лайнер класса «Олимпик» компании «White Star Line». Крупнейшее судно в мировой истории начала XX века. При строительстве получил номер 401.\nВо время первого рейса, в ночь с 14 на 15 апреля 1912 года, столкнулся с айсбергом и затонул в Северной Атлантике.\nСтроился в Белфасте на верфи «Harland & Wolff» с 1909 по '

### Question Answering on facts

In [8]:
from langchain_community.chat_models.gigachat import GigaChat

giga = GigaChat(profanity=False, credentials=...)

In [9]:
from langchain.chains import ConversationalRetrievalChain
from langchain_openai import ChatOpenAI

qa = ConversationalRetrievalChain.from_llm(giga, retriever=retriever)

In [22]:
questions = [
    "В каком году утонул титаник?",
    "Сколько шлюпок было на борту?",
    "Почему так много жертв?",
]
chat_history = []

for question in questions:
    result = qa({"question": question, "chat_history": chat_history})
    chat_history.append((question, result["answer"]))
    print(f"-> **Question**: {question} \n")
    print(f"**Answer**: {result['answer']} \n")

-> **Question**: В каком году утонул титаник? 

**Answer**: «Титаник» затонул 15 апреля 1912 года. 

-> **Question**: Сколько шлюпок было на борту? 

**Answer**: На борту Титаника находилось 22 шлюпки, включая шлюпку № 7, которая была спущена на воду последней. 

-> **Question**: Почему так много жертв? 

**Answer**: На борту Титаника находилось множество пассажиров и членов экипажа, которые погибли в результате крушения лайнера. Некоторые из причин большого количества жертв включали:

1. Недостаточная подготовка экипажа: Капитан Эдвард Смит был опытным капитаном, но его команда не соответствовала требованиям безопасности. Члены экипажа не были обучены действиям при столкновении с айсбергом, а некоторые из них даже не знали, как правильно надевать спасательные жилеты. Кроме того, многие из них находились в состоянии алкогольного опьянения.
2. Неправильное размещение пассажиров: Лайнер был перегружен людьми, что привело к тому, что на нижних палубах было недостаточно свободного простран