In [1]:
!pipenv install selenium pandas numpy matplotlib tqdm

Installing selenium...
Resolving selenium...
[    ] Installing...
Installation Succeeded
[    ] Installing selenium...
[    ] Installing selenium...

Installing pandas...
Resolving pandas...
[    ] Installing...
Installation Succeeded
[    ] Installing pandas...
[    ] Installing pandas...

Installing numpy...
Resolving numpy...
[    ] Installing...
Installation Succeeded
[    ] Installing numpy...
[    ] Installing numpy...

Installing matplotlib...
Resolving matplotlib...
[    ] Installing...
Installation Succeeded
[    ] Installing matplotlib...
[    ] Installing matplotlib...

Installing tqdm...
Resolving tqdm...
[    ] Installing...
Installation Succeeded
[    ] Installing tqdm...
[    ] Installing tqdm...

Installing dependencies from Pipfile.lock (395a0f)...


In [2]:
URL="https://apd.usos.agh.edu.pl/topics/browse/"

In [3]:
#create new Edge webdriver
from selenium import webdriver
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.common.by import By
from selenium.webdriver.common.action_chains import ActionChains
from selenium.webdriver.common.desired_capabilities import DesiredCapabilities
from selenium.webdriver.common.proxy import Proxy, ProxyType
from selenium.webdriver.edge.options import Options
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from tqdm import tqdm
import time
import os

In [4]:
driver = webdriver.Edge()
driver.get(URL)

In [5]:
# function to wait for login or exit if failed
# wait for login = presence of element containing phrase or "logout" or "wyloguj się"
#"<a href="/auth/cas/logout/"><span>wyloguj się</span></a>"
def login_wait(driver):
    retries=5
    print("Waiting for login...")
    while retries>0:
        try:
            WebDriverWait(driver, 5).until(EC.presence_of_element_located((By.XPATH, '//*[contains(text(), "logout")]')))
            print("Logged in")
            break
        except:
            try:
                WebDriverWait(driver, 1).until(EC.presence_of_element_located((By.XPATH, '//*[contains(text(), "wyloguj się")]')))
                print("Logged in")
                break
            except:
                retries-=1
                print("Retrying...")

    if retries==0:
        print("Failed to log in")
        driver.quit()

In [6]:
# function to change language
'''
<a id="langSwitch" href="/pl/topics/browse/" title="Wersja polska" lang="pl">
  <span class="sr-only">Wersja polska</span>
  <img src="/static/usos/css/img/layout/lang-pl.svg" alt="Wersja polska">
</a>
'''
def change_language():
    try:
        lang = driver.find_element(By.XPATH, '//*[@id="langSwitch"]')
        lang.click()
    except:
        print("Failed to change language")
def change_language_to_pl():
    lang = driver.find_element(By.XPATH, '//*[@id="langSwitch"]')
    #get title attribute
    title = lang.get_attribute("title")
    if title!="Wersja polska":
        print("Already in Polish")
    else:
        lang.click()

In [7]:
# function to get main table from page
# find main table that is of type <table class="nav">
# table = driver.find_element_by_class_name("nav")
#'WebDriver' object has no attribute 'find_element_by_class_name'
def get_main_table():
    return driver.find_element(By.CLASS_NAME, "nav")

In [8]:
#function to get all rows from table
def get_data_rows(table):
    tbody = table.find_element(By.TAG_NAME, "tbody")
    return tbody.find_elements(By.TAG_NAME, "tr")
# print("Found", len(rows), "rows")

In [9]:
# header html and function to get column names
'''
<thead>
  <tr>
    <th class="width-100">
      <div class="nav-header">
        <div>
          <div>
            Thesis title in original language
          </div>
          <a class="ord" href="?page=1&amp;order=title">
            <img src="/static/usos/img/tab/ord-empty.png" alt="Sort ascending by: Thesis title in original language">
          </a>
          <a class="ord" href="?page=1&amp;order=-title">
            <img src="/static/usos/img/tab/ord-empty.png" alt="Sort descending by: Thesis title in original language">
          </a>
        </div>
        <div>
          <div>
            Organizational unit
          </div>
          <a class="ord" href="?page=1&amp;order=department">
            <img src="/static/usos/img/tab/ord-empty.png" alt="Sort ascending by: Organizational unit">
          </a>
          <a class="ord" href="?page=1&amp;order=-department">
            <img src="/static/usos/img/tab/ord-empty.png" alt="Sort descending by: Organizational unit">
          </a>
        </div>
      </div>
    </th>
    <th class="width-0">
      <div class="nav-header">
        <div>
          <div>
            <img src="/static/usos/img/tooltip/info-white.svg" class="usos-tooltip valign-middle" title="An employee who provided the topic in APD on his own behalf or on behalf of a person who does not have such capabilities. May be, but does not have to be, a future thesis supervisor. Check the content of the field &quot;Expected thesis supervisor&quot;." aria-labelledby="sro-2" alt="Tip" tabindex="0">
            <span id="sro-2" class="screen-reader-only">An employee who provided the topic in APD on his own behalf or on behalf of a person who does not have such capabilities. May be, but does not have to be, a future thesis supervisor. Check the content of the field "Expected thesis supervisor".</span>
          </div>
          <div>
            Person providing<br>the topic
          </div>
          <a class="ord" href="?page=1&amp;order=supervisor">
            <img src="/static/usos/img/tab/ord-empty.png" alt="Sort ascending by: Person providing<br/>the topic">
          </a>
          <a class="ord" href="?page=1&amp;order=-supervisor">
            <img src="/static/usos/img/tab/ord-empty.png" alt="Sort descending by: Person providing<br/>the topic">
          </a>
        </div>
      </div>
    </th>
    <th class="width-0">
      <div class="nav-header">
        <div>
          <div>
            Study fields
          </div>
        </div>
      </div>
    </th>
    <th class="width-0">
      <div class="nav-header">
        <div>
          <div>
            Thesis type
          </div>
        </div>
      </div>
    </th>
    <th class="width-0">
      <div class="nav-header">
        <div>
          <div>
            <img src="/static/usos/img/tooltip/info-white.svg" class="usos-tooltip valign-middle" title="<ul class=&quot;no-bullets&quot; style=&quot;padding-left: 0;&quot;>                                                            <li>Available</li>                                                            <li>Partially available</li>                                                            <li>Under negotiation</li>                                                            <li>Taken</li>                                                     </ul>" aria-labelledby="sro-3" alt="Tip" tabindex="0">
            <span id="sro-3" class="screen-reader-only">
              <ul class="no-bullets" style="padding-left: 0;">
                <li>Available</li>
                <li>Partially available</li>
                <li>Under negotiation</li>
                <li>Taken</li>
              </ul>
            </span>
          </div>
          <div>
            Topic<br>status
          </div>
          <a class="ord" href="?page=1&amp;order=status">
            <img src="/static/usos/img/tab/ord-empty.png" alt="Sort ascending by: Topic<br/>status">
          </a>
          <a class="ord" href="?page=1&amp;order=-status">
            <img src="/static/usos/img/tab/ord-empty.png" alt="Sort descending by: Topic<br/>status">
          </a>
        </div>
      </div>
    </th>
    <th class="width-0">
      <div class="nav-header">
        <div>
          <div>
            Date<br>of update
          </div>
          <div class="ord">
            <div></div>
          </div>
          <a class="ord" href="?page=1&amp;order=-update_date">
            <img src="/static/usos/img/tab/ord-empty.png" alt="Sort descending by: Date<br/>of update">
          </a>
        </div>
      </div>
    </th>
  </tr>
</thead>
'''

def get_columns_from_header_row(table):
    #get header row
    row = table.find_elements(By.TAG_NAME, "thead")[1].find_element(By.TAG_NAME, "tr")
    # print(row.get_attribute("innerHTML"))
    columns=[]
    #get title column name from header row
    columns.append(row.find_elements(By.TAG_NAME, "th")[0].find_elements(By.TAG_NAME, "div")[2].text)
    #get organizational unit column name from header row
    columns.append(row.find_elements(By.TAG_NAME, "th")[0].find_elements(By.TAG_NAME, "div")[4].text)
    #get person providing the topic column name from header row
    columns.append(row.find_elements(By.TAG_NAME, "th")[1].find_elements(By.TAG_NAME, "div")[1].text)
    #get study fields column name from header row
    columns.append(row.find_elements(By.TAG_NAME, "th")[2].find_elements(By.TAG_NAME, "div")[0].text)
    #get thesis type column name from header row
    columns.append(row.find_elements(By.TAG_NAME, "th")[3].find_elements(By.TAG_NAME, "div")[0].text)
    #get topic status column name from header row
    columns.append(row.find_elements(By.TAG_NAME, "th")[4].find_elements(By.TAG_NAME, "div")[1].text)
    #get date of update column name from header row
    columns.append(row.find_elements(By.TAG_NAME, "th")[5].find_elements(By.TAG_NAME, "div")[0].text)
    return [column.replace("\n", " ") for column in columns]


In [10]:
# sample html row and function to extract data from it
'''
<tr>
  <td class="align-left width-100">
    <div>
      <a href="/topics/show/15221/">
        <span lang="pl" class="block">Na Badanie wpływu nagrań binauralnych na aktywację kory ruchowej mózgu</span>
      </a>
    </div>
    <div style="margin-top:10px">
      <a target="_blank" style="color: black; font-size: smaller" href="https://web.usos.agh.edu.pl/kontroler.php?_action=actionx:katalog2/jednostki/pokazJednostke(kod:130-000)&amp;lang=2" fac_id="130-000">
        [130-000] Faculty of Mechanical Engineering and Robotics
      </a>
    </div>
  </td>
  <td class="align-left">
    <a href="/users/33443/" user_id="33443">
      Dorota Młynarczyk
    </a>
  </td>
  <td class="strong align-left width-0">
    Acoustic Engineering
  </td>
  <td class="strong align-left width-0">
    master
  </td>
  <td class="strong align-left width-0">
    <nobr>
      Taken
    </nobr>
  </td>
  <td class="strong align-left width-0">
    Oct. 7, 2024
  </td>
</tr>
'''
def get_data_from_row(row):
    data = []
    #get all td's from row
    tds = row.find_elements(By.TAG_NAME, "td")
    #get thesis title
    data.append(tds[0].find_element(By.TAG_NAME, "span").text)
    #get thesis url
    data.append(tds[0].find_element(By.TAG_NAME, "a").get_attribute("href"))
    #get organizational unit
    data.append(tds[0].find_elements(By.TAG_NAME, "a")[1].text)
    #get person providing the topic
    data.append(tds[1].find_element(By.TAG_NAME, "a").text)
    #get study fields
    data.append(tds[2].text)
    #get thesis type
    data.append(tds[3].text)
    #get topic status
    data.append(tds[4].text)
    #get date of update
    data.append(tds[5].text)
    return data


In [11]:
# header row and functions to get next page button end extract total number of rows
'''
<div class="nav-bar">
  <div aria-disabled="true" role="button" tabindex="0" aria-label="Pierwsza strona">
    <svg class="disabled">
      <use xlink:href="/static/usos/img/tab/nav-all.svg#first_page"></use>
    </svg>
  </div>
  <div aria-disabled="true" role="button" tabindex="0" aria-label="Poprzednia strona">
    <svg class="disabled">
      <use xlink:href="/static/usos/img/tab/nav-all.svg#chevron_left"></use>
    </svg>
  </div>

  <div>
    Elementy <span class="red" style="margin: 0 0.25rem;">1..30</span>
    z <span class="red" style="margin: 0 0.25rem;">5307</span>
  </div>

  <a href="?page=2&amp;order=update_date" aria-label="Następna strona">
    <svg>
      <title>Następna strona</title>
      <use xlink:href="/static/usos/img/tab/nav-all.svg#chevron_right"></use>
    </svg>
  </a>
  <a href="?page=177&amp;order=update_date" aria-label="Ostatnia strona">
    <svg>
      <title>Ostatnia strona</title>
      <use xlink:href="/static/usos/img/tab/nav-all.svg#last_page"></use>
    </svg>
  </a>
</div>'''
def get_next_page_button(table):
    #get div with class nav-bar
    nav_bar = table.find_element(By.CLASS_NAME, "nav-bar")
    # find_element that has aria-label attribute with value "Następna strona"
    return nav_bar.find_element(By.XPATH, '//*[contains(@aria-label, "Następna strona")]')
def get_total_rows(table):
    #get div with class nav-bar
    nav_bar = table.find_element(By.CLASS_NAME, "nav-bar")
    #get span with class red that contains total number of rows
    total_rows = nav_bar.find_elements(By.TAG_NAME, "span")[-1].text
    return int(total_rows)
def get_current_rows(table):
    #get div with class nav-bar
    nav_bar = table.find_element(By.CLASS_NAME, "nav-bar")
    #get span with class red that contains total number of rows
    return nav_bar.find_elements(By.TAG_NAME, "span")[-2].text

In [12]:
login_wait(driver)

Waiting for login...
Retrying...
Retrying...
Logged in


In [13]:
change_language_to_pl()

In [14]:
get_columns_from_header_row(get_main_table())

['Tytuł pracy w języku oryginału',
 'Jednostka organizacyjna',
 'Osoba zgłaszająca temat',
 'Kierunki studiów',
 'Typ pracy',
 'Status tematu',
 'Data aktualizacji']

In [15]:
get_data_from_row(get_data_rows(get_main_table())[0])

['Rozwój funkcjonalności oraz modernizacja konstrukcji maszyny realizującej proces beznarzędziowego ciągnienia',
 'https://apd.usos.agh.edu.pl/topics/show/15260/',
 '[110-000] Wydział Inżynierii Metali i Informatyki Przemysłowej',
 'Piotr Kustra',
 'Informatyka Techniczna',
 'magisterska',
 'Zarezerwowany',
 '9 października 2024']

In [16]:
get_total_rows(get_main_table())

5311

In [17]:
get_next_page_button(get_main_table()).click()

In [18]:
get_current_rows(get_main_table()) # we will use this to determine if the website is still loading

'31..60'

## Do actual scrapping

In [21]:
rows = []
total_rows=get_total_rows(get_main_table())
#iterate from 0 to total_rows with step equal to 30, and do one extra iteration at the end
for page in tqdm(range(0, total_rows, 30)):
    table = get_main_table()
    print("Getting data from page, range:", get_current_rows(table))
    rows += [get_data_from_row(row) for row in get_data_rows(table)]
    if str(total_rows) not in get_current_rows(table):
        get_next_page_button(table).click()
    else:
        print("We are already at the end of the website")

  0%|                                                                                                                                                                                           | 0/178 [00:00<?, ?it/s]

Getting data from page, range: 1..30


  1%|█                                                                                                                                                                                  | 1/178 [00:03<09:18,  3.16s/it]

Getting data from page, range: 31..60


  1%|██                                                                                                                                                                                 | 2/178 [00:06<08:48,  3.00s/it]

Getting data from page, range: 61..90


  2%|███                                                                                                                                                                                | 3/178 [00:08<08:37,  2.96s/it]

Getting data from page, range: 91..120


  2%|████                                                                                                                                                                               | 4/178 [00:13<10:57,  3.78s/it]

Getting data from page, range: 121..150


  3%|█████                                                                                                                                                                              | 5/178 [00:18<12:06,  4.20s/it]

Getting data from page, range: 151..180


  3%|██████                                                                                                                                                                             | 6/178 [00:23<12:44,  4.44s/it]

Getting data from page, range: 181..210


  4%|███████                                                                                                                                                                            | 7/178 [00:28<13:07,  4.60s/it]

Getting data from page, range: 211..240


  4%|████████                                                                                                                                                                           | 8/178 [00:34<13:38,  4.82s/it]

Getting data from page, range: 241..270


  5%|█████████                                                                                                                                                                          | 9/178 [00:39<13:46,  4.89s/it]

Getting data from page, range: 271..300


  6%|██████████                                                                                                                                                                        | 10/178 [00:44<14:14,  5.08s/it]

Getting data from page, range: 301..330


  6%|███████████                                                                                                                                                                       | 11/178 [00:50<14:26,  5.19s/it]

Getting data from page, range: 331..360


  7%|████████████                                                                                                                                                                      | 12/178 [00:55<14:12,  5.13s/it]

Getting data from page, range: 361..390


  7%|█████████████                                                                                                                                                                     | 13/178 [00:59<13:57,  5.07s/it]

Getting data from page, range: 391..420


  8%|██████████████                                                                                                                                                                    | 14/178 [01:05<13:53,  5.08s/it]

Getting data from page, range: 421..450


  8%|███████████████                                                                                                                                                                   | 15/178 [01:10<13:55,  5.13s/it]

Getting data from page, range: 451..480


  9%|████████████████                                                                                                                                                                  | 16/178 [01:15<13:56,  5.16s/it]

Getting data from page, range: 481..510


 10%|█████████████████                                                                                                                                                                 | 17/178 [01:20<13:34,  5.06s/it]

Getting data from page, range: 511..540


 10%|██████████████████                                                                                                                                                                | 18/178 [01:25<13:20,  5.00s/it]

Getting data from page, range: 541..570


 11%|███████████████████                                                                                                                                                               | 19/178 [01:30<13:10,  4.97s/it]

Getting data from page, range: 571..600


 11%|████████████████████                                                                                                                                                              | 20/178 [01:35<13:15,  5.03s/it]

Getting data from page, range: 601..630


 12%|█████████████████████                                                                                                                                                             | 21/178 [02:02<30:50, 11.79s/it]

Getting data from page, range: 631..660


 12%|██████████████████████                                                                                                                                                            | 22/178 [02:08<25:40,  9.87s/it]

Getting data from page, range: 661..690


 13%|███████████████████████                                                                                                                                                           | 23/178 [02:13<21:47,  8.44s/it]

Getting data from page, range: 691..720


 13%|████████████████████████                                                                                                                                                          | 24/178 [02:18<19:09,  7.47s/it]

Getting data from page, range: 721..750


 14%|█████████████████████████                                                                                                                                                         | 25/178 [02:23<17:14,  6.76s/it]

Getting data from page, range: 751..780


 15%|██████████████████████████                                                                                                                                                        | 26/178 [02:29<16:02,  6.33s/it]

Getting data from page, range: 781..810


 15%|███████████████████████████                                                                                                                                                       | 27/178 [02:34<15:08,  6.01s/it]

Getting data from page, range: 811..840


 16%|████████████████████████████                                                                                                                                                      | 28/178 [02:39<14:13,  5.69s/it]

Getting data from page, range: 841..870


 16%|█████████████████████████████                                                                                                                                                     | 29/178 [02:44<14:02,  5.66s/it]

Getting data from page, range: 871..900


 17%|██████████████████████████████                                                                                                                                                    | 30/178 [02:49<13:32,  5.49s/it]

Getting data from page, range: 901..930


 17%|███████████████████████████████                                                                                                                                                   | 31/178 [02:54<12:59,  5.31s/it]

Getting data from page, range: 931..960


 18%|████████████████████████████████                                                                                                                                                  | 32/178 [02:59<12:37,  5.19s/it]

Getting data from page, range: 961..990


 19%|█████████████████████████████████                                                                                                                                                 | 33/178 [03:04<12:24,  5.13s/it]

Getting data from page, range: 991..1020


 19%|██████████████████████████████████                                                                                                                                                | 34/178 [03:09<12:23,  5.16s/it]

Getting data from page, range: 1021..1050


 20%|███████████████████████████████████                                                                                                                                               | 35/178 [03:15<12:20,  5.18s/it]

Getting data from page, range: 1051..1080


 20%|████████████████████████████████████                                                                                                                                              | 36/178 [03:20<12:04,  5.10s/it]

Getting data from page, range: 1081..1110


 21%|█████████████████████████████████████                                                                                                                                             | 37/178 [03:24<11:48,  5.02s/it]

Getting data from page, range: 1111..1140


 21%|██████████████████████████████████████                                                                                                                                            | 38/178 [03:29<11:42,  5.02s/it]

Getting data from page, range: 1141..1170


 22%|███████████████████████████████████████                                                                                                                                           | 39/178 [03:34<11:32,  4.99s/it]

Getting data from page, range: 1171..1200


 22%|████████████████████████████████████████                                                                                                                                          | 40/178 [03:39<11:25,  4.97s/it]

Getting data from page, range: 1201..1230


 23%|█████████████████████████████████████████                                                                                                                                         | 41/178 [03:44<11:29,  5.03s/it]

Getting data from page, range: 1231..1260


 24%|██████████████████████████████████████████                                                                                                                                        | 42/178 [03:50<11:28,  5.07s/it]

Getting data from page, range: 1261..1290


 24%|███████████████████████████████████████████                                                                                                                                       | 43/178 [03:55<11:29,  5.11s/it]

Getting data from page, range: 1291..1320


 25%|████████████████████████████████████████████                                                                                                                                      | 44/178 [04:00<11:22,  5.09s/it]

Getting data from page, range: 1321..1350


 25%|█████████████████████████████████████████████                                                                                                                                     | 45/178 [04:05<11:26,  5.16s/it]

Getting data from page, range: 1351..1380


 26%|██████████████████████████████████████████████                                                                                                                                    | 46/178 [04:10<11:16,  5.12s/it]

Getting data from page, range: 1381..1410


 26%|██████████████████████████████████████████████▉                                                                                                                                   | 47/178 [04:15<11:10,  5.12s/it]

Getting data from page, range: 1411..1440


 27%|████████████████████████████████████████████████                                                                                                                                  | 48/178 [04:20<10:56,  5.05s/it]

Getting data from page, range: 1441..1470


 28%|█████████████████████████████████████████████████                                                                                                                                 | 49/178 [04:25<10:46,  5.01s/it]

Getting data from page, range: 1471..1500


 28%|██████████████████████████████████████████████████                                                                                                                                | 50/178 [04:30<10:45,  5.05s/it]

Getting data from page, range: 1501..1530


 29%|██████████████████████████████████████████████████▉                                                                                                                               | 51/178 [04:36<10:55,  5.16s/it]

Getting data from page, range: 1531..1560


 29%|████████████████████████████████████████████████████                                                                                                                              | 52/178 [04:41<10:51,  5.17s/it]

Getting data from page, range: 1561..1590


 30%|█████████████████████████████████████████████████████                                                                                                                             | 53/178 [04:59<19:08,  9.19s/it]

Getting data from page, range: 1591..1620


 30%|██████████████████████████████████████████████████████                                                                                                                            | 54/178 [05:06<17:23,  8.42s/it]

Getting data from page, range: 1621..1650


 31%|██████████████████████████████████████████████████████▉                                                                                                                           | 55/178 [05:12<15:43,  7.67s/it]

Getting data from page, range: 1651..1680


 31%|████████████████████████████████████████████████████████                                                                                                                          | 56/178 [05:18<14:22,  7.07s/it]

Getting data from page, range: 1681..1710


 32%|█████████████████████████████████████████████████████████                                                                                                                         | 57/178 [05:23<13:23,  6.64s/it]

Getting data from page, range: 1711..1740


 33%|██████████████████████████████████████████████████████████                                                                                                                        | 58/178 [05:30<13:17,  6.64s/it]

Getting data from page, range: 1741..1770


 33%|██████████████████████████████████████████████████████████▉                                                                                                                       | 59/178 [05:35<12:30,  6.31s/it]

Getting data from page, range: 1771..1800


 34%|████████████████████████████████████████████████████████████                                                                                                                      | 60/178 [05:41<11:54,  6.06s/it]

Getting data from page, range: 1801..1830


 34%|█████████████████████████████████████████████████████████████                                                                                                                     | 61/178 [05:55<16:37,  8.53s/it]

Getting data from page, range: 1831..1860


 35%|██████████████████████████████████████████████████████████████                                                                                                                    | 62/178 [06:00<14:28,  7.49s/it]

Getting data from page, range: 1861..1890


 35%|██████████████████████████████████████████████████████████████▉                                                                                                                   | 63/178 [06:06<13:02,  6.81s/it]

Getting data from page, range: 1891..1920


 36%|████████████████████████████████████████████████████████████████                                                                                                                  | 64/178 [06:11<12:00,  6.32s/it]

Getting data from page, range: 1921..1950


 37%|█████████████████████████████████████████████████████████████████                                                                                                                 | 65/178 [06:16<11:08,  5.92s/it]

Getting data from page, range: 1951..1980


 37%|██████████████████████████████████████████████████████████████████                                                                                                                | 66/178 [06:21<10:40,  5.72s/it]

Getting data from page, range: 1981..2010


 38%|███████████████████████████████████████████████████████████████████                                                                                                               | 67/178 [06:26<10:14,  5.53s/it]

Getting data from page, range: 2011..2040


 38%|████████████████████████████████████████████████████████████████████                                                                                                              | 68/178 [06:31<09:55,  5.41s/it]

Getting data from page, range: 2041..2070


 39%|█████████████████████████████████████████████████████████████████████                                                                                                             | 69/178 [06:36<09:40,  5.33s/it]

Getting data from page, range: 2071..2100


 39%|██████████████████████████████████████████████████████████████████████                                                                                                            | 70/178 [06:41<09:30,  5.28s/it]

Getting data from page, range: 2101..2130


 40%|███████████████████████████████████████████████████████████████████████                                                                                                           | 71/178 [06:47<09:42,  5.44s/it]

Getting data from page, range: 2131..2160


 40%|████████████████████████████████████████████████████████████████████████                                                                                                          | 72/178 [06:52<09:27,  5.36s/it]

Getting data from page, range: 2161..2190


 41%|█████████████████████████████████████████████████████████████████████████                                                                                                         | 73/178 [06:58<09:18,  5.32s/it]

Getting data from page, range: 2191..2220


 42%|██████████████████████████████████████████████████████████████████████████                                                                                                        | 74/178 [07:03<09:06,  5.26s/it]

Getting data from page, range: 2221..2250


 42%|███████████████████████████████████████████████████████████████████████████                                                                                                       | 75/178 [07:08<08:59,  5.23s/it]

Getting data from page, range: 2251..2280


 43%|████████████████████████████████████████████████████████████████████████████                                                                                                      | 76/178 [07:13<08:48,  5.19s/it]

Getting data from page, range: 2281..2310


 43%|█████████████████████████████████████████████████████████████████████████████                                                                                                     | 77/178 [07:19<08:55,  5.30s/it]

Getting data from page, range: 2311..2340


 44%|██████████████████████████████████████████████████████████████████████████████                                                                                                    | 78/178 [07:24<08:52,  5.33s/it]

Getting data from page, range: 2341..2370


 44%|███████████████████████████████████████████████████████████████████████████████                                                                                                   | 79/178 [07:29<08:40,  5.26s/it]

Getting data from page, range: 2371..2400


 45%|████████████████████████████████████████████████████████████████████████████████                                                                                                  | 80/178 [07:34<08:36,  5.27s/it]

Getting data from page, range: 2401..2430


 46%|█████████████████████████████████████████████████████████████████████████████████                                                                                                 | 81/178 [07:40<08:32,  5.28s/it]

Getting data from page, range: 2431..2460


 46%|██████████████████████████████████████████████████████████████████████████████████                                                                                                | 82/178 [07:45<08:13,  5.14s/it]

Getting data from page, range: 2461..2490


 47%|███████████████████████████████████████████████████████████████████████████████████                                                                                               | 83/178 [08:07<16:12, 10.24s/it]

Getting data from page, range: 2491..2520


 47%|████████████████████████████████████████████████████████████████████████████████████                                                                                              | 84/178 [08:13<14:14,  9.09s/it]

Getting data from page, range: 2521..2550


 48%|█████████████████████████████████████████████████████████████████████████████████████                                                                                             | 85/178 [08:19<12:30,  8.07s/it]

Getting data from page, range: 2551..2580


 48%|██████████████████████████████████████████████████████████████████████████████████████                                                                                            | 86/178 [08:24<11:02,  7.21s/it]

Getting data from page, range: 2581..2610


 49%|███████████████████████████████████████████████████████████████████████████████████████                                                                                           | 87/178 [08:29<09:57,  6.57s/it]

Getting data from page, range: 2611..2640


 49%|████████████████████████████████████████████████████████████████████████████████████████                                                                                          | 88/178 [08:34<09:11,  6.13s/it]

Getting data from page, range: 2641..2670


 50%|█████████████████████████████████████████████████████████████████████████████████████████                                                                                         | 89/178 [08:39<08:37,  5.82s/it]

Getting data from page, range: 2671..2700


 51%|██████████████████████████████████████████████████████████████████████████████████████████                                                                                        | 90/178 [08:44<08:13,  5.60s/it]

Getting data from page, range: 2701..2730


 51%|███████████████████████████████████████████████████████████████████████████████████████████                                                                                       | 91/178 [08:56<10:39,  7.35s/it]

Getting data from page, range: 2731..2760


 52%|████████████████████████████████████████████████████████████████████████████████████████████                                                                                      | 92/178 [09:01<09:45,  6.80s/it]

Getting data from page, range: 2761..2790


 52%|█████████████████████████████████████████████████████████████████████████████████████████████                                                                                     | 93/178 [09:06<08:57,  6.32s/it]

Getting data from page, range: 2791..2820


 53%|█████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                    | 94/178 [09:12<08:28,  6.06s/it]

Getting data from page, range: 2821..2850


 53%|███████████████████████████████████████████████████████████████████████████████████████████████                                                                                   | 95/178 [09:17<08:00,  5.79s/it]

Getting data from page, range: 2851..2880


 54%|████████████████████████████████████████████████████████████████████████████████████████████████                                                                                  | 96/178 [09:23<08:01,  5.87s/it]

Getting data from page, range: 2881..2910


 54%|█████████████████████████████████████████████████████████████████████████████████████████████████                                                                                 | 97/178 [09:29<08:05,  5.99s/it]

Getting data from page, range: 2911..2940


 55%|██████████████████████████████████████████████████████████████████████████████████████████████████                                                                                | 98/178 [09:35<07:39,  5.74s/it]

Getting data from page, range: 2941..2970


 56%|███████████████████████████████████████████████████████████████████████████████████████████████████                                                                               | 99/178 [09:40<07:24,  5.63s/it]

Getting data from page, range: 2971..3000


 56%|███████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                             | 100/178 [09:59<12:31,  9.63s/it]

Getting data from page, range: 3001..3030


 57%|████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                            | 101/178 [10:05<10:53,  8.49s/it]

Getting data from page, range: 3031..3060


 57%|█████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                           | 102/178 [10:10<09:26,  7.45s/it]

Getting data from page, range: 3061..3090


 58%|██████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                          | 103/178 [10:15<08:29,  6.80s/it]

Getting data from page, range: 3091..3120


 58%|███████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                         | 104/178 [10:20<07:47,  6.31s/it]

Getting data from page, range: 3121..3150


 59%|████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                        | 105/178 [10:26<07:30,  6.17s/it]

Getting data from page, range: 3151..3180


 60%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                       | 106/178 [10:31<07:06,  5.92s/it]

Getting data from page, range: 3181..3210


 60%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                      | 107/178 [10:39<07:42,  6.52s/it]

Getting data from page, range: 3211..3240


 61%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                     | 108/178 [10:45<07:11,  6.16s/it]

Getting data from page, range: 3241..3270


 61%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                    | 109/178 [10:55<08:32,  7.43s/it]

Getting data from page, range: 3271..3300


 62%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                   | 110/178 [11:02<08:15,  7.28s/it]

Getting data from page, range: 3301..3330


 62%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                  | 111/178 [11:07<07:31,  6.74s/it]

Getting data from page, range: 3331..3360


 63%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                 | 112/178 [11:14<07:22,  6.70s/it]

Getting data from page, range: 3361..3390


 63%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                | 113/178 [11:19<06:47,  6.27s/it]

Getting data from page, range: 3391..3420


 64%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                               | 114/178 [11:25<06:21,  5.97s/it]

Getting data from page, range: 3421..3450


 65%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                              | 115/178 [11:30<06:04,  5.79s/it]

Getting data from page, range: 3451..3480


 65%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                             | 116/178 [11:36<06:05,  5.90s/it]

Getting data from page, range: 3481..3510


 66%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                            | 117/178 [11:42<05:52,  5.78s/it]

Getting data from page, range: 3511..3540


 66%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                           | 118/178 [11:47<05:41,  5.69s/it]

Getting data from page, range: 3541..3570


 67%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                          | 119/178 [11:52<05:26,  5.53s/it]

Getting data from page, range: 3571..3600


 67%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                         | 120/178 [11:59<05:49,  6.03s/it]

Getting data from page, range: 3601..3630


 68%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                        | 121/178 [12:05<05:41,  5.99s/it]

Getting data from page, range: 3631..3660


 69%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                       | 122/178 [12:11<05:27,  5.85s/it]

Getting data from page, range: 3661..3690


 69%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                      | 123/178 [12:16<05:16,  5.76s/it]

Getting data from page, range: 3691..3720


 70%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                     | 124/178 [12:22<05:01,  5.58s/it]

Getting data from page, range: 3721..3750


 70%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                    | 125/178 [12:27<04:52,  5.51s/it]

Getting data from page, range: 3751..3780


 71%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                   | 126/178 [12:32<04:39,  5.38s/it]

Getting data from page, range: 3781..3810


 71%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                  | 127/178 [12:37<04:30,  5.31s/it]

Getting data from page, range: 3811..3840


 72%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                 | 128/178 [12:42<04:24,  5.30s/it]

Getting data from page, range: 3841..3870


 72%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                | 129/178 [12:48<04:17,  5.26s/it]

Getting data from page, range: 3871..3900


 73%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                               | 130/178 [12:53<04:10,  5.23s/it]

Getting data from page, range: 3901..3930


 74%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                              | 131/178 [12:59<04:19,  5.53s/it]

Getting data from page, range: 3931..3960


 74%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                             | 132/178 [13:04<04:10,  5.45s/it]

Getting data from page, range: 3961..3990


 75%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                            | 133/178 [13:10<04:03,  5.42s/it]

Getting data from page, range: 3991..4020


 75%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                           | 134/178 [13:15<03:59,  5.44s/it]

Getting data from page, range: 4021..4050


 76%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                          | 135/178 [13:20<03:51,  5.39s/it]

Getting data from page, range: 4051..4080


 76%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                         | 136/178 [13:26<03:48,  5.44s/it]

Getting data from page, range: 4081..4110


 77%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                        | 137/178 [13:32<03:55,  5.75s/it]

Getting data from page, range: 4111..4140


 78%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                       | 138/178 [13:39<03:58,  5.97s/it]

Getting data from page, range: 4141..4170


 78%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                      | 139/178 [13:47<04:16,  6.57s/it]

Getting data from page, range: 4171..4200


 79%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                     | 140/178 [13:53<04:04,  6.43s/it]

Getting data from page, range: 4201..4230


 79%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                    | 141/178 [13:59<03:51,  6.24s/it]

Getting data from page, range: 4231..4260


 80%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                   | 142/178 [14:05<03:41,  6.14s/it]

Getting data from page, range: 4261..4290


 80%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                  | 143/178 [14:10<03:27,  5.92s/it]

Getting data from page, range: 4291..4320


 81%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                 | 144/178 [14:15<03:16,  5.78s/it]

Getting data from page, range: 4321..4350


 81%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                | 145/178 [14:21<03:07,  5.68s/it]

Getting data from page, range: 4351..4380


 82%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                               | 146/178 [14:27<03:01,  5.68s/it]

Getting data from page, range: 4381..4410


 83%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                              | 147/178 [14:32<02:52,  5.57s/it]

Getting data from page, range: 4411..4440


 83%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                             | 148/178 [14:37<02:44,  5.50s/it]

Getting data from page, range: 4441..4470


 84%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                            | 149/178 [14:43<02:37,  5.44s/it]

Getting data from page, range: 4471..4500


 84%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                           | 150/178 [14:48<02:33,  5.50s/it]

Getting data from page, range: 4501..4530


 85%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                          | 151/178 [14:54<02:29,  5.53s/it]

Getting data from page, range: 4531..4560


 85%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                         | 152/178 [14:59<02:24,  5.56s/it]

Getting data from page, range: 4561..4590


 86%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                        | 153/178 [15:05<02:16,  5.47s/it]

Getting data from page, range: 4591..4620


 87%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                       | 154/178 [15:10<02:11,  5.49s/it]

Getting data from page, range: 4621..4650


 87%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                      | 155/178 [15:16<02:08,  5.60s/it]

Getting data from page, range: 4651..4680


 88%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                      | 156/178 [15:21<02:01,  5.51s/it]

Getting data from page, range: 4681..4710


 88%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                     | 157/178 [15:27<01:53,  5.41s/it]

Getting data from page, range: 4711..4740


 89%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                    | 158/178 [15:32<01:46,  5.30s/it]

Getting data from page, range: 4741..4770


 89%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                   | 159/178 [15:37<01:40,  5.27s/it]

Getting data from page, range: 4771..4800


 90%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                  | 160/178 [15:42<01:33,  5.19s/it]

Getting data from page, range: 4801..4830


 90%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                 | 161/178 [15:47<01:29,  5.27s/it]

Getting data from page, range: 4831..4860


 91%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                | 162/178 [15:53<01:26,  5.39s/it]

Getting data from page, range: 4861..4890


 92%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████               | 163/178 [15:58<01:21,  5.43s/it]

Getting data from page, range: 4891..4920


 92%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████              | 164/178 [16:04<01:15,  5.37s/it]

Getting data from page, range: 4921..4950


 93%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████             | 165/178 [16:23<02:03,  9.47s/it]

Getting data from page, range: 4951..4980


 93%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████            | 166/178 [16:28<01:39,  8.27s/it]

Getting data from page, range: 4981..5010


 94%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████           | 167/178 [16:33<01:21,  7.37s/it]

Getting data from page, range: 5011..5040


 94%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████          | 168/178 [16:39<01:06,  6.70s/it]

Getting data from page, range: 5041..5070


 95%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████         | 169/178 [16:44<00:56,  6.23s/it]

Getting data from page, range: 5071..5100


 96%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████        | 170/178 [16:49<00:47,  6.00s/it]

Getting data from page, range: 5101..5130


 96%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████       | 171/178 [16:55<00:41,  5.93s/it]

Getting data from page, range: 5131..5160


 97%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████      | 172/178 [17:00<00:34,  5.73s/it]

Getting data from page, range: 5161..5190


 97%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████     | 173/178 [17:06<00:28,  5.65s/it]

Getting data from page, range: 5191..5220


 98%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████    | 174/178 [17:11<00:22,  5.58s/it]

Getting data from page, range: 5221..5250


 98%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████   | 175/178 [17:24<00:23,  7.77s/it]

Getting data from page, range: 5251..5280


 99%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████  | 176/178 [17:29<00:14,  7.02s/it]

Getting data from page, range: 5281..5310


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 178/178 [17:34<00:00,  5.92s/it]

Getting data from page, range: 5311..5311
We are already at the end of the website





Processing time: 17m33s

In [28]:
#pickle rows
import pickle
with open("tematy.pickle", "wb") as f:
    pickle.dump(rows, f)

In [24]:
#convert that to pandas dataframe
import pandas as pd
#add url as second column
columns = get_columns_from_header_row(get_main_table())
columns.insert(1, "url")
df = pd.DataFrame(rows, columns=columns)

In [26]:
df.sample(2)

Unnamed: 0,Tytuł pracy w języku oryginału,url,Jednostka organizacyjna,Osoba zgłaszająca temat,Kierunki studiów,Typ pracy,Status tematu,Data aktualizacji
5063,Wykorzystanie technik bezprzewodowych w ocenie...,https://apd.usos.agh.edu.pl/topics/show/1506/,[130-000] Wydział Inżynierii Mechanicznej i Ro...,Jerzy Kwaśniewski,Mechanika i Budowa Maszyn,magisterska,Dostępny,22 października 2021
3026,Opracowanie składu zestawu surowcowego i otrzy...,https://apd.usos.agh.edu.pl/topics/show/8556/,[160-000] Wydział Inżynierii Materiałowej i Ce...,Marcin Środa,"inżynieria materiałowa,\nTechnologia Chemiczna",inżynierska,Dostępny,3 kwietnia 2023


In [29]:
#pickle the dataframe
with open("tematy_df.pickle", "wb") as f:
    pickle.dump(df, f)