# Įvadas į Web Scrapingą

**Web scraping'as** – tai automatizuotas duomenų rinkimo procesas iš interneto svetainių. Jis atliekamas naudojant programas ar skriptus, kurie parsisiunčia ir analizuoja svetainių **HTML turinį**, ištraukia reikalingus duomenis ir juos išsaugo struktūrizuota forma (pvz., CSV, SQL duomenų bazėje).

### Kaip veikia web scraping'as?

- **HTTP užklausa** – naudojant bibliotekas, pvz., requests, siunčiama užklausa į svetainę.
- **HTML analizė** – naudojant BeautifulSoup arba lxml, randami reikalingi duomenys pagal HTML struktūrą.
- Duomenų ištraukimas – surinkti duomenys apdorojami ir struktūrizuojami.
- Duomenų saugojimas – informacija išsaugoma CSV, JSON arba SQL duomenų bazėje.
- Automatizacija – galima naudoti Selenium ar Scrapy, kad būtų galima rinkti duomenis periodiškai ar iš dinamiškų puslapių.


### Internetinio puslapio struktūra:

- **HTML** (HyperText Markup Language) – tai struktūra, kuri apibrėžia puslapio turinį.
- **CSS** (Cascading Style Sheets) – dizaino ir stiliaus elementai.
- **JavaScript** – dinaminiam turiniui ir interaktyvumui.


## Pagrindinės HTML žymos, naudojamos Web Scraping'e


Scraping'e dažniausiai naudojamos šios **HTML žymos**, kurios padeda išgauti reikiamą informaciją iš tinklalapių:

| **Žyma**   | **Aprašymas** |
|------------|-------------|
| `<div>`    | Pagrindinis konteineris |
| `<p>`      | Pastraipos tekstui |
| `<span>`   | Mažos teksto dalys |
| `<a>`      | Nuorodos (hyperlink'ai) |
| `<img>`    | Paveikslėliai |
| `<table>`  | Lentelės (naudojamos duomenims pateikti) |

**Šios žymos yra dažniausiai pasitaikančios tinklalapiuose, todėl jos labai svarbios `BeautifulSoup` ir `Selenium` naudojime Web Scraping'e.**  


## HTML žymų atributai, svarbūs Web Scraping'e

Kiekviena **HTML žyma** gali turėti **atributus**, kurie nurodo papildomą informaciją apie elementą.

| **Atributas** | **Aprašymas** | **Pavyzdys** |
|--------------|--------------|-------------|
| `class` | Apibrėžia elementų grupes | `<div class="product-item">...</div>` |
| `id` | Unikalus elementas puslapyje | `<div id="price">...</div>` |
| `href` | Nuorodų atributas (hyperlink) | `<a href="https://vaga.lt/knyga">Knyga</a>` |
| `src` | Paveikslėlių nuorodos | `<img src="image.jpg" alt="Paveikslėlis">` |

**Šie atributai leidžia tiksliai rasti HTML elementus naudojant `BeautifulSoup` ir `Selenium` scraping'e.**


## XPath ir CSS selektoriai Web Scraping'e


Kai scraping'e reikia pasiekti konkrečius elementus, naudojami **XPath** ir **CSS selektoriai**.

##  **CSS selektoriai**
| **Selektorius** | **Aprašymas** | **Pavyzdys** |
|---------------|--------------|-------------|
| `.class` | Ieško pagal klasę | `.product-item` |
| `#id` | Ieško pagal unikalų ID | `#price` |
| `tagname` | Ieško pagal HTML žymą | `p` |
| `div > p` | Ieško tik tiesioginio `<p>` vaiko elemento `<div>` viduje | `div > p` |



##  **XPath selektoriai**
| **XPath išraiška** | **Aprašymas** | **Pavyzdys** |
|---------------------|--------------|-------------|
| `//div[@class='product-item']` | Ieško `<div>` elementų su klase `product-item` | `//div[@class='product-item']` |
| `//p[@class='name']/text()` | Paima tekstą iš `<p class="name">` | `//p[@class='name']/text()` |
| `//a/@href` | Paima nuorodą iš `<a>` elemento | `//a/@href` |

**XPath ir CSS selektoriai yra būtini Web Scraping'e su `BeautifulSoup` ir `Selenium`, nes leidžia tiksliai pasiekti HTML elementus.**

## Kada web scraping'as leidžiamas?

Leidžiama, kai:

- Svetainė turi viešai prieinamą informaciją (pvz., viešos naujienos, prekių kainos, oro prognozė).

- Scraping'as nepažeidžia svetainės terms of service (ToS).

- Laikomasi svetainės robots.txt taisyklių (tai failas, nurodantis, ką galima scrape’inti).

- Duomenys nėra asmeniniai ar konfidencialūs.

- Užklausos siunčiamos saikingai, kad neperkrautų serverio.


Draudžiama, kai:

- Scraping'as pažeidžia svetainės ToS ir robots.txt draudimus.

- Renki asmeninius duomenis (pvz., el. pašto adresus, slaptažodžius, mokėjimų duomenis).

- Bandai apeiti prisijungimo apsaugas, CAPTCHA ar kitus saugumo mechanizmus.

- Sukeli didelį krūvį serveriams (pvz., siunčiant per daug užklausų per sekundę).

- Kopijuoji autorinės teisės saugomą turinį (pvz., visą svetainės turinį be leidimo).

https://svetaines-adresas.com/robots.txt

### Praktiniai įrankiai ir pagrindinės bibliotekos

1. **Requests** ir **BeautifulSoup** (Basic scraping)
2. **Selenium** (Dinamiškų puslapių scraping'as)
3. **Scrapy** (Didelio masto scraping'ui)
4. Alternatyvos: **API** (jei svetainė leidžia)

## Panaudojimo sritys

1) **E. prekyba ir kainų stebėjimas**
    - Konkuruojančių parduotuvių kainų palyginimas
    - Nuolaidų sekimas (pvz., knygos, elektronika, maistas)
2) **Rinkos analizė ir tendencijų prognozavimas**
    - Populiariausių produktų ar paslaugų stebėjimas
    - Klientų atsiliepimų ir vertinimų analizė
3) **Naujienų ir turinio rinkimas**
    - Automatinis straipsnių ar antraščių rinkimas
    - Sentimentų analizė socialiniuose tinkluose
    - Fake news ir dezinformacijos stebėjimas
4) **Finansų ir investicijų sektorius**
    - Kriptovaliutų ar akcijų kainų stebėjimas
    - Ekonominių rodiklių ir verslo naujienų rinkimas
5) **Mašininis mokymasis ir AI**
    - Didelių duomenų rinkinių kūrimas neuroniniams tinklams
    - Automatinis teksto ar vaizdų analizės modelių mokymas


In [1]:
pip install requests

Collecting requests
  Downloading requests-2.32.4-py3-none-any.whl.metadata (4.9 kB)
Collecting charset_normalizer<4,>=2 (from requests)
  Downloading charset_normalizer-3.4.2-cp313-cp313-win_amd64.whl.metadata (36 kB)
Collecting idna<4,>=2.5 (from requests)
  Downloading idna-3.10-py3-none-any.whl.metadata (10 kB)
Collecting urllib3<3,>=1.21.1 (from requests)
  Downloading urllib3-2.5.0-py3-none-any.whl.metadata (6.5 kB)
Collecting certifi>=2017.4.17 (from requests)
  Downloading certifi-2025.8.3-py3-none-any.whl.metadata (2.4 kB)
Downloading requests-2.32.4-py3-none-any.whl (64 kB)
Downloading charset_normalizer-3.4.2-cp313-cp313-win_amd64.whl (105 kB)
Downloading idna-3.10-py3-none-any.whl (70 kB)
Downloading urllib3-2.5.0-py3-none-any.whl (129 kB)
Downloading certifi-2025.8.3-py3-none-any.whl (161 kB)
Installing collected packages: urllib3, idna, charset_normalizer, certifi, requests

   ---------------------------------------- 0/5 [urllib3]
   -------------------------------------


[notice] A new release of pip is available: 25.1.1 -> 25.2
[notice] To update, run: python.exe -m pip install --upgrade pip


In [2]:
pip install beautifulsoup4

Collecting beautifulsoup4
  Downloading beautifulsoup4-4.13.4-py3-none-any.whl.metadata (3.8 kB)
Collecting soupsieve>1.2 (from beautifulsoup4)
  Downloading soupsieve-2.7-py3-none-any.whl.metadata (4.6 kB)
Collecting typing-extensions>=4.0.0 (from beautifulsoup4)
  Downloading typing_extensions-4.14.1-py3-none-any.whl.metadata (3.0 kB)
Downloading beautifulsoup4-4.13.4-py3-none-any.whl (187 kB)
Downloading soupsieve-2.7-py3-none-any.whl (36 kB)
Downloading typing_extensions-4.14.1-py3-none-any.whl (43 kB)
Installing collected packages: typing-extensions, soupsieve, beautifulsoup4

   ------------- -------------------------- 1/3 [soupsieve]
   -------------------------- ------------- 2/3 [beautifulsoup4]
   -------------------------- ------------- 2/3 [beautifulsoup4]
   -------------------------- ------------- 2/3 [beautifulsoup4]
   -------------------------- ------------- 2/3 [beautifulsoup4]
   ---------------------------------------- 3/3 [beautifulsoup4]

Successfully installed be


[notice] A new release of pip is available: 25.1.1 -> 25.2
[notice] To update, run: python.exe -m pip install --upgrade pip


In [3]:
import pandas as pd
import requests
from bs4 import BeautifulSoup

# Web Scraping: `requests` ir `BeautifulSoup` bibliotekos


## 1. `requests` biblioteka

| Savybė               | Aprašymas                                                                 |
|----------------------|---------------------------------------------------------------------------|
| **Paskirtis**         | Siunčia HTTP užklausas (GET, POST ir kt.) į tinklalapius                 |
| **Naudojama kam**     | Duomenų gavimui iš tinklalapių (HTML, JSON, API)                         |
| **Pagrindinė funkcija** | `requests.get(url)` – siunčia užklausą ir grąžina atsakymą               |
| **Grąžinamas objektas** | `Response` objektas su turiniu: `response.text`, `response.status_code` |
| **Privalumai**         | Paprasta naudoti, stabilu, plačiai dokumentuota                         |

### Pavyzdys:
```python
import requests

url = "https://example.com"
response = requests.get(url)
print(response.text)  # Atspausdina puslapio HTML

##  `requests` metodai ir atributai –  lentelė

| Metodas / Atributas         | Paskirtis / Funkcija                                                            | Pavyzdys                                   |
|-----------------------------|----------------------------------------------------------------------------------|--------------------------------------------|
| `requests.get(url)`         | Atlieka **GET** užklausą                                                         | `requests.get("https://example.com")`      |
| `requests.post(url, data)`  | Atlieka **POST** užklausą su duomenimis                                          | `requests.post(url, data={"key": "value"})`|
| `response.status_code`      | Grąžina HTTP atsakymo būsenos kodą                                              | `response.status_code`                     |
| `response.text`             | Grąžina atsakymo turinį kaip **tekstą** (str)                                   | `response.text`                            |
| `response.content`          | Grąžina atsakymo turinį kaip **baitus** (bytes), naudinga su paveikslėliais    | `response.content`                         |
| `response.json()`           | Grąžina JSON duomenis kaip Python žodyną (jei galimas JSON)                     | `response.json()`                          |
| `response.headers`          | Grąžina atsakymo **antraštes** kaip žodyną                                      | `response.headers["Content-Type"]`         |
| `response.url`              | Grąžina galutinį URL (po peradresavimų)                                         | `response.url`                             |
| `response.cookies`          | Grąžina slapukus (cookies) iš atsakymo                                          | `response.cookies`                         |
| `requests.head(url)`        | Tikrina puslapio antraštes (HEAD užklausa), negaunant turinio                   | `requests.head("https://example.com")`     |
| `requests.put()`, `delete()`| Kiti HTTP metodai: PUT, DELETE (rečiau naudojami)                               | `requests.delete(url)`                     |

---

###  Pavyzdys:
```python
import requests

url = "https://api.github.com"
response = requests.get(url)

print("Statusas:", response.status_code)
print("Antraštės:", response.headers)
print("Turinys:", response.text[:200])  # Tik pirmi 200 simbolių


![image.png](attachment:image.png)

## 2. `BeautifulSoup` biblioteka

| **Savybė**             | **Aprašymas**                                                                 |
|------------------------|--------------------------------------------------------------------------------|
| **Paskirtis**          | HTML ir XML dokumentų analizė ir struktūrizuotas duomenų išgavimas            |
| **Naudojama kam**      | Iš HTML struktūros ištraukti konkrečius duomenis (pvz., tekstą, nuorodas)     |
| **Pagrindinė funkcija**| `BeautifulSoup(html, 'html.parser')` – sukuria analizės objektą               |
| **Dažniausi metodai**  | `.find()`, `.find_all()`, `.text`, `.attrs`, `.select()`                      |
| **Privalumai**         | Paprasta naudoti, „žmogiškas“ HTML naršymas                                   |

---

### Papildoma informacija:

| **Funkcija / Metodas**     | **Aprašymas**                                                              | **Pavyzdys**                                 |
|----------------------------|-----------------------------------------------------------------------------|----------------------------------------------|
| `find(tag)`                | Randa pirmą HTML žymą pagal pavadinimą                                     | `soup.find("h1")`                            |
| `find_all(tag)`            | Randa visas žymas pagal pavadinimą                                         | `soup.find_all("p")`                         |
| `select(css_selector)`     | Išrenka elementus CSS selektoriais                                         | `soup.select("div.content > a")`            |
| `.text` / `.get_text()`    | Ištraukia tekstą iš žymos be HTML žymių                                    | `tag.text` arba `tag.get_text()`             |
| `tag["href"]`              | Gauna konkretaus atributo reikšmę                                          | `link["href"]`                               |
| `.attrs`                   | Grąžina visus žymos atributus kaip žodyną                                  | `tag.attrs`                                  |
| `prettify()`               | Gražiai suformatuoja visą HTML struktūrą                                   | `print(soup.prettify())`                     |

---

### Trumpas pavyzdys:
```python
from bs4 import BeautifulSoup

html = "<html><body><h1>Sveiki!</h1><a href='https://example.com'>Nuoroda</a></body></html>"
soup = BeautifulSoup(html, "html.parser")

print("Antraštė:", soup.find("h1").text)
print("Nuoroda:", soup.find("a")["href"])


## Gražioji sriuba – eilėraštis iš „Alisa Stebuklų šalyje“

> **Gražioji sriuba, žalia ir soti,**  
> **Kaitriai dubeny verda šilti.**  
> **Sriubų sriuba, jūros gardenybe,**  
> **Kur tave rasti, mano mylimybe?**  
>
> **Gražioji sriuba!**  
> **Gražioji sriuba!**  
>
> **Sriubų sriuba, šlovinga sriuba,**  
> **Kur verta duoti paskutinį skatiką.**  
> **Sriubų sriuba, džiaugsmo šaltini,**  
> **Puošianti dubenį, pilną gardumynų!**  
>
> **Gražioji sriuba!**  
> **Gražioji sriuba!**


![image.png](attachment:image.png)

# Beautiful Soup – teorija

## Kas yra Beautiful Soup?

**Beautiful Soup** yra Python biblioteka, skirta **HTML ir XML** dokumentų parsavimui (skaitymui, struktūrizavimui ir analizavimui). Ji padeda lengvai išgauti informaciją iš tinklalapių, net jei jų HTML kodas nėra tobulas.

---

## Kam naudojama?

- Web scraping'ui – duomenų išgavimui iš tinklalapių.
- Duomenų struktūrizavimui iš HTML/XML dokumentų.
- Automatiniam turinio surinkimui, pvz.:
  - Orų informacija
  - Naujienų antraštės
  - Kainos ir produktai
  - Nuorodos ar paveikslėliai

---

## Pavadinimo kilmė

Pavadinimas „Beautiful Soup“ kilęs iš **Lewis Carroll** kūrinio **„Alice’s Adventures in Wonderland“**. Knygoje yra eilėraštis „Beautiful Soup“, kuriame dainuojama apie sriubą:

> _"Beautiful Soup, so rich and green,  
> Waiting in a hot tureen!"_

Bibliotekos kūrėjas Leonard Richardson pasirinko šį pavadinimą kaip metaforą – **gražiai struktūruoti HTML „sriubą“**.

---


![image.png](attachment:image.png)

## `BeautifulSoup` metodai ir atributai –  lentelė

| Metodas / Atributas     | Paskirtis / Funkcija                                                        | Pavyzdys                                   |
|--------------------------|------------------------------------------------------------------------------|--------------------------------------------|
| `soup.find(tag)`         | Grąžina pirmą atitinkantį elementą                                          | `soup.find("h1")`                          |
| `soup.find_all(tag)`     | Grąžina visus atitinkančius elementus (sąrašą)                              | `soup.find_all("p")`                       |
| `soup.select(css_selector)` | Išrenka elementus naudojant CSS selektorių                                | `soup.select("div.article > h2")`          |
| `.text` arba `.get_text()`  | Grąžina elemente esantį tekstą be HTML žymių                              | `soup.find("h1").text`                     |
| `.attrs`                 | Grąžina žymos atributų žodyną                                               | `tag.attrs["href"]`                        |
| `tag["atributas"]`       | Leidžia tiesiogiai pasiekti atributo reikšmę                                | `link["href"]`                             |
| `soup.title`             | Grąžina `<title>` žymą                                                     | `soup.title.text`                          |
| `soup.prettify()`        | Gražiai suformatuoja HTML struktūrą kaip tekstą                             | `print(soup.prettify())`                   |
| `soup.get("attribute")`  | Alternatyvus būdas gauti atributo reikšmę                                   | `tag.get("href")`                          |

---



### Pavyzdys:
```python
html = """
<html>
  <body>
    <h1>Pavadinimas</h1>
    <a href='https://example.com'>Nuoroda</a>
  </body>
</html>
"""

from bs4 import BeautifulSoup

soup = BeautifulSoup(html, "html.parser")
print("H1 tekstas:", soup.find("h1").text)
print("Nuoroda:", soup.find("a")["href"])

### 10 antraščių išraukimas iš "Delfi" tinklalapio

In [None]:
url = "https://www.alfa.lt/"
headers = {
    "User-Agent": "Mozilla/5.0"
}
 
response = requests.get(url, headers=headers)
 
if response.status_code == 200:
    soup = BeautifulSoup(response.text, "html.parser")
    antrastes = soup.select("title")  # arba bandyti su class
 
    print(f"Rastas tinklapio pavadinimas: {len(antrastes)}")
    for i, antraste in enumerate(antrastes[:10], start=1):
        print(f"{i}. {antraste.text.strip()}")
else:
    print(f"Klaida! Statuso kodas: {response.status_code}")

Rastas tinklapio pavadinimas: 1
1. Lietuvos ir pasaulio naujienų portalas


In [47]:
URL = "https://www.lrt.lt/"
 
response = requests.get(URL)
 
if response.status_code == 200:
 
    soup = BeautifulSoup(response.text, 'html.parser')
 
    antraštės = soup.select('.news__title')
 
    for i, antraštės in enumerate(antraštės[:10], start=1):
        print(f"{i}, {antraštės.text.strip()}")
else:
    print(f"Klaida, {response.status_code}")

1, Vytautas PleÄkaitis. CivilizacijÅ³ karai Lietuvoje ir Europoje
2, Ä® kovÄ A lygoje stoja âDÅ¾iugoâ ir âHegelmannâ klubai
3, Prie VyriausybÄs vyksta protestas âLeiskite Gazai gyventiâ: reikalauja sankcijÅ³ Izraeliui
4, Neriai patvinus laivas neplaukÄ: vilnieÄiai juokauja â jei oro per daug, neskris lÄktuvai?
5, A lygos akistata GargÅ¾duose: âBangaâ â âÅ iauliaiâ
6, MoldavÅ³ pareigÅ«nÄ: Rusija pradÄjo didelio intensyvumo hibridines atakas prieÅ¡ MoldovÄ
7, Å iauliÅ³ ligoninei â teismo kirtis: sugrÄÅ¾ino atleistÄ gydytojÄ ir priteisÄ kompensacijÄ
8, SinkeviÄius: ilgainiui Paluckas sako esantis apsisprendÄs trauktis iÅ¡ politikos
9, Santaros klinikose â nauja iÅ¡kvietimo sistema: Å¡ios minutÄs taps gyvybiÅ¡kai svarbios
10, Biatlono sezonas prasidÄjo: laukia intriguojanti kova dÄl vietos olimpinÄse Å¾aidynÄse


In [29]:
URL = "https://kaunas.kasvyksta.lt/"
 
response = requests.get(URL)
 
if response.status_code == 200:
 
    soup = BeautifulSoup(response.text, 'html.parser')
 
    antraštės = soup.select('.elementor-post__title')
 
    for i, antraštės in enumerate(antraštės[:10], start=1):
        print(f"{i}, {antraštės.text.strip()}")
else:
    print(f"Klaida, {response.status_code}")

1, M. Sinkevičius: G. Paluckas žada visiškai pasitraukti iš politikos
2, Promilės per naktį neišgaravo: vienam iš įkliuvusių nustatytas sunkus girtumo laipsnis
3, Veiklą atnaujina valstybės saugumo stebėsenos projektas: kviečia prisidėti ir gyventojus
4, Užsidarė ar ne? „Grilintas Cinamonas“ įklimpo į socialinių tinklų dramą
5, Iškilminga ceremonija Kaune: Lietuvos kariuomenės Sausumos pajėgoms pradėjo vadovauti N. Stankevičius
6, Po padidinamuoju stiklu Kauno termofikacinės elektrinės teritorijoje veikusi bendrovė
7, M. Sinkevičius: G. Paluckas žada visiškai pasitraukti iš politikos
8, Promilės per naktį neišgaravo: vienam iš įkliuvusių nustatytas sunkus girtumo laipsnis
9, Veiklą atnaujina valstybės saugumo stebėsenos projektas: kviečia prisidėti ir gyventojus
10, Užsidarė ar ne? „Grilintas Cinamonas“ įklimpo į socialinių tinklų dramą


In [28]:
URL = "https://www.15min.lt/naujienos"
 
# Pridedame User-Agent, kad išvengtume blokavimo
headers = {"User-Agent": "Mozilla/5.0"}
 
response = requests.get(URL, headers=headers)
 
if response.status_code == 200:
    soup = BeautifulSoup(response.text, 'html.parser')
 
    articles = soup.select("article.item")
 
    if articles:
        print("15min naujienų antraštės:\n")
        for i, article in enumerate(articles[:10], start=1):
            title_tag = article.select_one("h4.vl-title a")
            if title_tag:
                title = title_tag.text.strip()
                link = title_tag["href"]
 
                if not link.startswith("https"):
                    link = "https://www.15min.lt" + link
 
                print(f"{i}. {title} - {link}, {response.status_code}")
    else:
        print("Nepavyko rasti antraščių")
 
else:
    print(f"Klaida! Statuso kodas: {response.status_code}")

15min naujienų antraštės:

1. Mindaugas Sinkevičius: Gintautas Paluckas ilgainiui pasitrauks iš politikos - https://www.15min.lt/naujiena/aktualu/lietuva/mindaugas-sinkevicius-gintautas-paluckas-ilgainiui-pasitrauks-is-politikos-56-2500656, 200
2. Lemtingas susidūrimas ore tarp Madrido ir Paryžiaus: lėktuvo priekyje – skylė, tad teko grįžti atgal - https://www.15min.lt/naujiena/aktualu/pasaulis/lemtingas-susidurimas-ore-tarp-madrido-ir-paryziaus-lektuvo-priekyje-skyle-tad-teko-grizti-atgal-57-2500652, 200
3. Psichologas Kriščiūnas apie įvykusią tragediją: tai ir sukrečia, ir tampa priminimu visiems tėvams - https://www.15min.lt/gyvenimas/naujiena/seima/psichologas-m-krisciunas-apie-ivykusia-tragedija-tai-ir-sukrecia-ir-tampa-priminimu-visiems-tevams-1026-2500488, 200
4. Prabangūs ir galingi: kokius automobilius vairuoja buvęs žalgirietis Šmitas ir NBA žvaigždė Porzingis? - https://www.15min.lt/verslas/naujiena/autorinka/prabangus-ir-galingi-kokius-automobilius-vairuoja-buves-zalgirieti

In [46]:
URL = "https://www.respublika.lt/"
response = requests.get(URL)
 
if response.status_code == 200:
 
    soup = BeautifulSoup(response.text, 'html.parser')
 
    antraštės = soup.select('.news_title_grey_link')
    for i,antraštės in enumerate(antraštės[:10], start=1):
        print(f"{i}, {antraštės.text.strip()}")
    else:
        print(f"Klaida, {response.status_code}") 


1, Užsimanė važinėti per pėsčiųjų perėją!
2, Užsimanė važinėti per pėsčiųjų perėją!
3, Antradienio „Vakaro žiniose" skaitykite: Kas galima Olegui Šurajevui, negalima Petrui Gražuliui
4, Ką žada žvaigždės antradieniui? (Rugpjūčio 5 d.)
5, Moterų futbolas kyla Europoje. O pas mus?
6, Rusijos Dūma sureagavo į Lietuvos veiksmus
7, „Badas negali būti kovos priemonė": Gitanas Nausėda kritikuoja Izraelį
8, Rusija ragina atsargiai naudoti branduolinę retoriką
9, Zigmas VAIŠVILA: Ar mus parduoda dar kartą? +Vito Tomkaus trigrašis
10, Vitas TOMKUS: PASIAIŠKINIMAS VISUOMENEI DĖL CELOFANO BEI KT. ITIN SVARBIŲ DALYKŲ...
Klaida, 200


In [18]:
URL = "https://autoplius.lt/"
 
response = requests.get(URL)
 
if response.status_code == 200:
 
    soup = BeautifulSoup(response.text, 'html.parser')
 
    antraštės = soup.select('.promoted-announcement')
 
    for i, antraštės in enumerate(antraštės[:10], start=1):
        pavadinimas = antraštės.select_one('.body-description-line1')
        aprašymas = antraštės.select_one('.body-description-line2')
        kaina = antraštės.select_one('.body-price')
        print(f"{i}, {pavadinimas.text.strip()}")
        print(f" {aprašymas.text.strip()}")
        print(f" {kaina.text.strip()}")
else:
    print(f"Klaida, {response.status_code}")

1, Kia Sportage
 1.6 l., visureigis / krosoveris
 14 900 €
2, Skoda Kodiaq
 2.0 l., visureigis / krosoveris
 28 500 €
3, Mercedes-Benz Vito
 2.1 l., keleivinis mikroautobusas
 3 850 €
4, Hyundai Elantra
 2.0 l., sedanas
 6 655 €
5, Peugeot 207
 1.4 l., hečbekas
 850 €
6, Audi A6
 3.0 l., sedanas
 2 650 €
7, Mazda 3
 1.6 l., hečbekas
 2 100 €
8, Opel Astra
 1.6 l., hečbekas
 2 900 €
9, Opel Zafira
 1.6 l., vienatūris
 6 950 €
10, Citroen C5
 1.6 l., universalas
 3 500 €


### 10 antraščių išraukimas iš "15 min" tinklalapio

### Informacijos apie knygas ištraukimas iš internetinė knygų parduotvės ir failo išsaugojimas

In [None]:
# # URL iš kur trauksime duomenis
# BASE_URL = "https://vaga.lt/negrozine-literatura"
 
# # Užklausos siuntimas į tinklapį
# headers = {"User-Agent": "Mozilla/5.0"}
# books = []
 
# # Puslapių numeracija (priklauso nuo svetainės struktūros)
# for page in range(1, 9):  # Bandome krauti kelis puslapius
#     URL = f"{BASE_URL}?page={page}"
#     response = requests.get(URL, headers=headers)
#     if response.status_code != 200:
#         print(f"Klaida kraunant puslapį {page}: {response.status_code}")
#         break
#     soup = BeautifulSoup(response.text, "html.parser")
#     items = soup.find_all("div", class_="product-item-container")
 
#     if not items:
#         break  # Jeigu nėra daugiau prekių, sustojame
 
#     for item in items:
#         try:
#             title = item.find("p", class_="name").text.strip()
#             author = item.find("p", class_="Autorius").text.strip()
#             price = item.find("div", class_="price loyal").text.strip()
#             link = item.find("a")["href"]
#             full_link = "https://vaga.lt" + link if link.startswith("/") else link
#             books.append([title, author, price, full_link])
#         except AttributeError:
#             continue
 
# # Išsaugoti rezultatus į CSV failą
# df_vaga = pd.DataFrame(books, columns=["Knygos pavadinimas", "Autorius", "Kaina", "Nuoroda"])
 
# if not df_vaga.empty:
#     df_vaga.to_csv("vaga_knygos.csv", index=False, encoding='utf-8-sig')
#     print(f"Failas 'vaga_knygos.csv' išsaugotas su {len(df_vaga)} knygų įrašais.")
# else:
#     print("Nepavyko rasti knygų duomenų.")

Failas 'vaga_knygos.csv' išsaugotas su 197 knygų įrašais.


## Dažniausi `response.status_code` reikšmių pavyzdžiai

| **Statuso kodas** | **Reikšmė**                | **Paaiškinimas**                                                   |
|-------------------|-----------------------------|---------------------------------------------------------------------|
| `200`             | OK                          | Užklausa sėkminga, turinys gautas                                  |
| `301`             | Moved Permanently           | Puslapis visam laikui perkeltas, naudoti naują URL                |
| `302`             | Found (Temporary Redirect)  | Laikinas peradresavimas                                            |
| `403`             | Forbidden                   | Prieiga uždrausta (galimas scraping'o blokavimas)                 |
| `404`             | Not Found                   | Puslapis nerastas                                                  |
| `429`             | Too Many Requests           | Siunčiama per daug užklausų per trumpą laiką                       |
| `500`             | Internal Server Error       | Serverio klaida                                                    |
| `503`             | Service Unavailable         | Serveris laikinai nepasiekiamas (apkrautas, tvarkomas ir pan.)    |

---

### Patikrinimo pavyzdys:
```python
import requests

url = "https://example.com"
response = requests.get(url)

print("Statuso kodas:", response.status_code)

if response.status_code == 200:
    print("Viskas OK – puslapis pasiektas.")
elif response.status_code == 403:
    print("Uždrausta – tikėtina, kad puslapis neleidžia scraping'o.")
elif response.status_code == 404:
    print("Puslapis nerastas.")
else:
    print("Kita būsena:", response.status_code)
