In [1]:
import io

import requests
import docx

In [2]:
def clean_line(line):
    line = line.strip()
    line = line.strip('\uFEFF')
    return line

def read_faq(file_id):
    url = f'https://docs.google.com/document/d/{file_id}/export?format=docx'
    
    response = requests.get(url)
    response.raise_for_status()
    
    with io.BytesIO(response.content) as f_in:
        doc = docx.Document(f_in)

    questions = []

    question_heading_style = 'heading 2'
    section_heading_style = 'heading 1'
    
    heading_id = ''
    section_title = ''
    question_title = ''
    answer_text_so_far = ''
     
    for p in doc.paragraphs:
        style = p.style.name.lower()
        p_text = clean_line(p.text)
    
        if len(p_text) == 0:
            continue
    
        if style == section_heading_style:
            section_title = p_text
            continue
    
        if style == question_heading_style:
            answer_text_so_far = answer_text_so_far.strip()
            if answer_text_so_far != '' and section_title != '' and question_title != '':
                questions.append({
                    'text': answer_text_so_far,
                    'section': section_title,
                    'question': question_title,
                })
                answer_text_so_far = ''
    
            question_title = p_text
            continue
        
        answer_text_so_far += '\n' + p_text
    
    answer_text_so_far = answer_text_so_far.strip()
    if answer_text_so_far != '' and section_title != '' and question_title != '':
        questions.append({
            'text': answer_text_so_far,
            'section': section_title,
            'question': question_title,
        })

    return questions

In [3]:
faq_documents = {
    'olx-qa': '18i5tEWeNp3lVB0uWmNWPUyXKVwPS1KZByr-lDg-UkK0',
    'olx-tc': '1i-RS_ZeatwnqmJ1sVNJjQoJiqT1yIy2VoA-gcjfKv1g'
}

In [4]:
documents = []

for course, file_id in faq_documents.items():
    print(course)
    course_documents = read_faq(file_id)
    documents.append({'course': course, 'documents': course_documents})

olx-qa
olx-tc


In [5]:
len(documents)

2

In [6]:
documents[1]

{'course': 'olx-tc',
 'documents': [{'text': 'cena, której wysokość jest zmienna, w odpowiedzi na popyt rynkowy. Aktualna wysokość ceny dynamicznej jest dostępna podczas uzupełniania formularza Ogłoszenia lub przed zakupem danej usługi.',
   'section': 'Definicje',
   'question': 'cena dynamiczna'},
  {'text': 'cena uwzględniająca podatek VAT i podatek akcyzowy (jeżeli ma zastosowanie), za którą Przedmiot lub Usługa są oferowane dla Kupujących.',
   'section': 'Definicje',
   'question': 'Cena końcowa'},
  {'text': 'usługa przyjmowania, sortowania, przemieszczania i doręczania Przedmiotów objętych Transakcją, realizowana na rzecz Użytkownika przez podmiot trzeci. Grupa OLX nie świadczy usług Dostawy, w szczególności usług pocztowych. Lista podmiotów, spośród których Użytkownik może wybrać świadczącego usługę Dostawy jest określona przez (i) Alsendo sp. z o.o. albo (ii) w przypadkach wskazanych w Serwisie - przez Grupę OLX.',
   'section': 'Definicje',
   'question': 'Dostawa'},
  {'tex

In [7]:
import json

In [10]:
with open('../data/documents_olx_2024_08_25.json', 'wt',  encoding='utf8') as f_out:
    json.dump(documents, f_out, indent=2, ensure_ascii=False)

In [11]:
!head ../data/documents_olx_2024_08_25.json

[
  {
    "course": "olx-qa",
    "documents": [
      {
        "text": "Krok 1. Załóż konto na OLX poprzez:\nstronę internetową OLX — kliknij Twoje konto → Załóż konto lub kliknij tutaj.\naplikację mobilną OLX — kliknij Konto → Zaloguj się → Załóż konto.\nJeśli grafika jest nieczytelna, kliknij prawy przycisk myszy i wybierz „Otwórz grafikę w nowej karcie\".\nKrok 2. Wpisz swój adres e-mail.\nKrok 3. Wpisz hasło, które ma minimum 8 znaków, w tym przynajmniej jedną dużą i małą literę, jedną cyfrę oraz znak specjalny.\nKrok 4. Kliknij Zarejestruj się.\nKrok 5. Przejdź do skrzynki mailowej i w wiadomości od OLX kliknij przycisk Aktywuj konto.\nJeśli nie masz linku aktywacyjnego — napisz do nas.\nNa jednym koncie OLX nie można sprzedawać przedmiotów prywatnych i przedmiotów w ramach prowadzenia firmy. Do każdego typu sprzedaży (prywatnie, jako firma) wymagane jest oddzielne konto.\nKonto na OLX możesz założyć za pomocą konta na Facebooku. Wystarczy, że klikniesz tutaj. Następnie wybierz 