# RecursiveUrlLoader - quick overview

In [1]:
# Import obiektu RecursiveUrlLoader z modułu langchain

from langchain.document_loaders.recursive_url_loader import RecursiveUrlLoader

# Import obiektu BeautifulSoup z modułu bs4

from bs4 import BeautifulSoup as Soup

In [2]:
# Zdefiniowanie adresu URL, od którego zacznie się pobieranie danych

url = "https://w.prz.edu.pl/studenci_menu/legitymacje"

# Stworzenie obiektu RecursiveUrlLoader z zastosowaniem 
# obiektu BeautifulSoup jako funkcji ekstrakcji danych
# w formacie html ze źródeł przeszukiwanych stron

loader = RecursiveUrlLoader(
    url=url, max_depth=1, extractor=lambda x:Soup(x, "html.parser").text
)

# Pobranie danych i zapisanie ich do zmiennej w formie listy

docs = loader.load()

In [3]:
# Ilość załadowanych dokumentów
len(docs)

1

In [4]:
# Załadowany dokument jest obiektem Document, który strukturą
# przypomina pythonowy słownik z dwoma kluczami:
# + page content - zawartość strony w stringu,
# + metadata - adres URL, tytuł i język strony w słowniku

type(docs[0])

langchain.schema.document.Document

In [5]:
# Struktura pojedynczego dokumentu

docs[0]

Document(page_content='\nLegitymacje / POLITECHNIKA RZESZOWSKA im. Ignacego Łukasiewicza \n\n\n\n\n \n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n \n\n\n\n\n\n\n\n\n\n  \n\n\n\n\nPrzejdź do menu głównegoPrzejdź do treści strony\nPrzejdź do wyszukiwarki\n\nPodstrona: Legitymacje / POLITECHNIKA RZESZOWSKA im. Ignacego Łukasiewicza\n\n\n\n\n\n\n\n\nA\xa0\nA+\nA++\n\n\n\n\n\n\n\nCentralna Usługa Uwierzytelniania CASKonta studenckie i pracownicze PRz\n\nPozostali użytkownicy\n\n\n\n\n\nlogin* \n\npassword* \n\n \n\n\n\nWyszukajWyszukaj\n\n\n\n\nSzukaj* \n\n \n Informacje odnośnie korzystania z wyszukiwarki\n- Minimalna liczba znaków: 3- ujęcie szukanego słowa/frazy w cudzysłów zawęzi wyniki wyszukiwania\n- można wyszukiwać po numerze telefonu (np. 1082), nazwie jednostki organizacyjnej- więcej informacji odnośnie wyszukiwarki\n\n\n\n\n                            Zaloguj\n\n                            Zaloguj\n\n\n\n\n\n\n\n\n\n\n\n\n\nMENU\n\nX\n\n\n\n\n\n\n\n\n\n\nStrona głównaStudenciLegitymacje \n

In [6]:
# Dane tekstowe pozyskane ze strony

docs[0].page_content

'\nLegitymacje / POLITECHNIKA RZESZOWSKA im. Ignacego Łukasiewicza \n\n\n\n\n \n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n \n\n\n\n\n\n\n\n\n\n  \n\n\n\n\nPrzejdź do menu głównegoPrzejdź do treści strony\nPrzejdź do wyszukiwarki\n\nPodstrona: Legitymacje / POLITECHNIKA RZESZOWSKA im. Ignacego Łukasiewicza\n\n\n\n\n\n\n\n\nA\xa0\nA+\nA++\n\n\n\n\n\n\n\nCentralna Usługa Uwierzytelniania CASKonta studenckie i pracownicze PRz\n\nPozostali użytkownicy\n\n\n\n\n\nlogin* \n\npassword* \n\n \n\n\n\nWyszukajWyszukaj\n\n\n\n\nSzukaj* \n\n \n Informacje odnośnie korzystania z wyszukiwarki\n- Minimalna liczba znaków: 3- ujęcie szukanego słowa/frazy w cudzysłów zawęzi wyniki wyszukiwania\n- można wyszukiwać po numerze telefonu (np. 1082), nazwie jednostki organizacyjnej- więcej informacji odnośnie wyszukiwarki\n\n\n\n\n                            Zaloguj\n\n                            Zaloguj\n\n\n\n\n\n\n\n\n\n\n\n\n\nMENU\n\nX\n\n\n\n\n\n\n\n\n\n\nStrona głównaStudenciLegitymacje \n\n\n\n\n\n\n\n\nLegity

In [7]:
# Metadane pobranej strony

docs[0].metadata

{'source': 'https://w.prz.edu.pl/studenci_menu/legitymacje',
 'title': 'Legitymacje / POLITECHNIKA RZESZOWSKA im. Ignacego Łukasiewicza',
 'language': 'pl'}

![87rl67.jpg](attachment:87rl67.jpg)