![LU Logo](https://www.lu.lv/fileadmin/user_upload/LU.LV/www.lu.lv/Logo/Logo_jaunie/LU_logo_LV_horiz.png)


# Tīmekļa lapu izstrāde ar Flask un tīmekļa datu iegūšana (rasmošana) ar Scrapy

## Nodarbības saturs

Šajā nodarbībā mēs apskatīsim šādas tēmas:

* Flask - Python servera puses tīmekļa izstrādes rīks jeb ietvars
* Scrapy - Python bibliotēka datu iegūšanai no tīmekļa lapām (rasmošanai)

## Nodarbības mērķi

Nodarbības beigās jūs būsiet spējīgi:

* Saprast servera puses tīmekļa izstrādes pamatus
* Izveidot vienkāršu tīmekļa lietotni, izmantojot Flask
* Saprast tīmekļa lapu rasmošanas pamatus
* Iegūt datus no tīmekļa lapām, izmantojot Scrapy

## Nepieciešamās priekšzināšanas

Pirms sākat šo nodarbību, jums vajadzētu:

* Saprast Python programmēšanas pamatus - mainīgie, datu tipi, kontroles struktūras, funkcijas, OOP un failu ievade/izvade
* Zināt, kā instalēt Python pakotnes, izmantojot `pip`
* Zināt, kā izveidot virtuālo vidi, izmantojot `venv`
* Saprast HTML pamatus - skatiet MDN Web Docs [HTML ievads](https://developer.mozilla.org/en-US/docs/Learn/HTML/Introduction_to_HTML)


## Tīmekļa lapu izstrādes pamati

Tīmekļa lapu izstrāde ir plašs jēdziens, kas ietver daudzas dažādas tehnoloģijas un prasmes.

Viens dalījums būtu pēc tā, vai jūs strādājat ar lietotāja saskarni (front end) vai ar servera pusi (back end).


### Lietotājā saskarne - Front End Web Development

Lietotāja saskarnes izstrāde ietver tīmekļa lapas lietotāja saskarnes un lietotāja pieredzes (UX) izveidi. Tas ietver tīmekļa lapas izkārtojuma, krāsu, fontu un interaktīvo elementu projektēšanu. Front end izstrādātāji izmanto HTML, CSS un JavaScript, lai izveidotu tīmekļa lapas vizuālos elementus, ar kuriem lietotāji mijiedarbojas.


### Servera izstrāde - Back End Web Development

Servera puses tīmekļa izstrāde ietver servera puses loģikas un datu bāzes mijiedarbības izveidi. Tas ietver lietotāja pieprasījumu apstrādi, datu apstrādi un dinamisku satura ģenerēšanu. Servera puses izstrādātāji izmanto servera puses programmēšanas valodas, piemēram, Python, PHP, Ruby, Java un citas, lai izveidotu tīmekļa lapas servera puses komponentus.

API izstrāde, lietotāja autentifikācijas apstrāde un datu bāzu pārvaldība ir daži no uzdevumiem, par kuriem atbild back end izstrādātāji.

### Pilna tīmekļa izstrāde - Full Stack Web Development

Pilna tīmekļa izstrāde ietver darbu gan ar front end, gan ar back end tehnoloģijām. Pilna tīmekļa izstrādātāji ir prasmīgi gan front end, gan back end tehnoloģijās un var izveidot pilnīgas tīmekļa lietotnes no sākuma līdz beigām.



## Flask - Python tīmekļa izstrādes rīks

Flask ir vienkāršs un viegli lietojams Python tīmekļa izstrādes rīks. Tas ir paredzēts, lai palīdzētu jums ātri un vienkārši izveidot tīmekļa lietotnes. To izmanto gan pieredzējuši izstrādātāji, gan iesācēji, jo tas ir viegli saprotams un lietojams.

### Kā darbojas Flask

Flask darbojas, izmantojot WSGI (Web Server Gateway Interface) standartu, kas ļauj tam darboties ar dažādiem tīmekļa serveriem. Tas nozīmē, ka jūs varat izmantot Flask ar dažādiem tīmekļa serveriem, piemēram, Apache, Nginx vai citiem.

Flask izmanto dekoratorus, lai definētu maršrutus un funkcijas, kas tiek izpildītas, kad tiek saņemts pieprasījums uz konkrēto maršrutu. Tas ļauj jums viegli definēt, kāda darbība jāveic, kad tiek saņemts pieprasījums uz konkrēto URL. Tos apskatīsim vēlāk šajā nodarbībā.

### Virtuālās vides iestatīšana

Pirms instalējat Flask, **izstrādātājiem ir ļoti iesakāms** izveidot savam projektam virtuālo vidi. Tas palīdzēs jums pārvaldīt Python bibliotēku atkarības un izvairīties no konfliktiem ar citiem projektiem.

Pastāv vairāki veidi, kā izveidot virtuālo vidi Python. Viena no visbiežāk izmantotajām metodēm ir izmantot iebūvēto `venv` moduli. Šādi varat izveidot virtuālo vidi, izmantojot `venv`:

```bash
# Create a new directory for your project
mkdir myproject
cd myproject
python -m venv myvenv
```

Nosaukuma `myenv` vietā jūs varat izmantot jebkuru citu vēlamo nosaukumu savai virtuālajai videi. 

Vēl viens populārs rīks, kas ļauj izveidot virtuālās vides, ir `uv`: https://docs.astral.sh/uv/

#### Virtuālās vides aktivizēšana

Lai aktivizētu virtuālo vidi, varat izmantot šādu komandu:

```bash
# On Windows
myvenv\Scripts\activate

# On macOS and Linux
source myvenv/bin/activate
```

### Flask uzstādīšana

Kad esat izveidojis un **aktivizējis** savu virtuālo vidi, varat instalēt Flask, izmantojot `pip`:

```bash
pip install Flask
```


## Veidojam vienkāršu tīmekļa lietotni ar Flask


### "Hello, World" piemērs

Ikdienā jūs neveidosiet tīmekļa lietotnes Jupyter notebook vidē, bet uzskatāmības dēļ tomēr pamēģināsim to izdarīt Jupyter vidē:

In [None]:
# izveidosim vienkāršu Flask aplikāciju

from flask import Flask # import the Flask class from the flask module

app = Flask(__name__) # this creates a new Flask app object

# we will be using app.route() decorator to define the URL that will trigger the function below
@app.route('/') # this route means that the function below will be called when the user goes to the root URL of your website
def hello_world():
    return 'Hello, World!'

# you'd add this line to run the app in script mode
# if __name__ == '__main__':
#     app.run()

app.run() # this is the same as the above line, but it's not recommended to use this in script mode
# usually you would not run this from Jupiter notebook, but from a terminal

# use Ctrl+C to stop the server on terminal
# in Jupyter notebook, you can stop the server by clicking on the stop button

### Parametru izmantošana maršrutos

Nākošais solis ir izveidot vienkāršu tīmekļa lietotni, kas ņem parametru URL un parāda to lapā. Šeit ir piemērs:


```python
from flask import Flask

app = Flask(__name__)

@app.route('/')
def hello_world():
    return 'Hello, World!'

@app.route('/greet/<name>')
def greet(name):
    return f'Hello, {name}!'

if __name__ == '__main__':
    app.run()
``` 

In [None]:
from flask import Flask

app = Flask(__name__)

@app.route('/')
def hello_world():
    return 'Hello, World!'

# note that the URL is case-sensitive
# note the use of <name> in the URL this is a variable part of the URL
@app.route('/greet/<name>')
def greet(name):
    return f'Hello, {name}!'

# note that only first level of the URL will be caught by this route
# so /greet/Janis/Berzins will not work - you would need a separate route for that
# but /greet/Janis will work

if __name__ == '__main__':
    app.run()

# use Ctrl+C to stop the server on terminal
# in Jupyter notebook, you can stop the server by clicking on the stop button

### Pieprasījumu parametru izmantošana

Pieprasījuma parametri ir vēl viens veids, kā padot datus tīmekļa lietotnei. Tos pievieno URL pēc jautājuma zīmes `?` un tie ir formā `key=value`. Šeit ir piemērs:

```python

from flask import Flask, request

app = Flask(__name__)

@app.route('/')
def hello_world():
    return 'Hello, World!'

@app.route('/sveiks')
def greet():
    name = request.args.get('name', 'World')
    return f'Hello, {name}!'

if __name__ == '__main__':
    app.run()
```

Tagad jūs varat piekļūt `sveiks` maršrutam ar pieprasījuma parametru šādā formā: `http://localhost:5000/sveiks?name=Uldis`



In [None]:
## Using query parameters

from flask import Flask, request

app = Flask(__name__)

@app.route('/')
def hello_world():
    return 'Hello, World!'

@app.route('/sveiks')
def greet():
    name = request.args.get('name', 'pasaule') #if no name argument is given, we will use 'Pasaule'
    return f'Hello, {name}!'

if __name__ == '__main__':
    app.run()

# on local server try something like http://127.0.0.1:5000/sveiks?name=Valdis

### Šablonu un statisko failu izmantošana

Parasti mēs nevēlamies apstrādāt HTML savā Python kodā. Flask ļauj izmantot šablonus, lai atdalītu HTML no Python koda. Flask izmanto `Jinja2` kā savu šablonu dzinēju.

Pilna dokumentācija par Jinja2 atrodama [šeit](https://jinja.palletsprojects.com/en/3.0.x/)

Pamatideja ir tāda, ka projektam izveidojat mapi `templates` un ievietojat HTML failus tur. Šabloni ļaus mums ievietot mainīgos un izteiksmes, kas tiks aizstātas ar reāliem datiem, kad šablons tiks apstrādāts (renderēts).

Papildus dinamiskam saturam, jums var būt nepieciešami arī statiskie faili, piemēram, CSS, JavaScript, attēli utt. Lai tos iekļautu savā projektā, izveidojiet mapi `static` un ievietojiet šos failus tur.

In [None]:
# example of using templates and static files
from flask import Flask, render_template

app = Flask(__name__)

@app.route('/')
def index():
    items = ["Saraksti", "Vārdnīcas", "Citi objekti"] # these could be from a database or other data source
    # also these objects could be from url query parameters
    return render_template('index.html', year=2024, items=items) # thus template will receive year and items
    
# see index.html templates folder on how it is handled on the template side
# you might also check out base.html to see how templates can be extended

@app.route('/about')
def about():
    return render_template('about.html', year=2024)
    
# about.html is even simpler template than index.html
# it also extends base.html in templates folder

if __name__ == '__main__':
    # app.run(debug=True) # debug mode will reload the server on code changes and provide more verbose output
    app.run() # debug mode will reload the server on code changes and provide more verbose output

### Flask projektu struktūra

Lai jūsu Flask projekts būtu labi organizēts, jūs varat izmantot šādu struktūru:

```
project_root/
│
├── app.py                # Jūsu galvenais Flask fails - iespējams, ka būs arī citi .py faili
├── static/               # Mape statiskiem failiem (CSS, JavaScript, attēli, u.t.t.)
│   └── styles.css        # Jūsu CSS fails - var, protams, būt vairāki
|   └── script.js         # Jūsu JavaScript fails - var, protams, būt vairāki
├── templates/            # Mape šabloniem
│   └── base.html         # Bāzes šablons - var, protams, būt vairāki
│   └── index.html        # Citi šabloni - var, protams, būt vairāki
└── requirements.txt      # (Ieteicams, bet ne obligāts) saraksts ar visām nepieciešamajām bibliotēkām
```


### Mācību materiāli un resursi	Flask apguvei

*Lai būtu pilnvērtīgs Flask izstrādātājs, jums būs nepieciešams iemācīties vairāk par šādām tēmām:*	

- Formu apstrāde ar Flask
- Datu bāzu izmantošana ar Flask, piemēram, ar SQLAlchemy vai citiem ORM (Object-Relational Mapping) rīkiem
- Lietotāju autentifikācija ar Flask
- Sesiju pārvaldība ar Flask
- Flask lietotņu izvietošana - AWS, PythonAnywhere, DigitalOcean, lokālais serveris u.t.t.

Lai turpinātu apgūt Flask, jūs varat izmantot šādus resursus:
- Oficiālā Flask dokumentācija: https://flask.palletsprojects.com/en/2.0.x/
- Miguel Grinberg's Flask Mega-Tutorial: https://blog.miguelgrinberg.com/post/the-flask-mega-tutorial-part-i-hello-world
- Corey Schafer's Flask Tutorial Series: https://www.youtube.com/playlist?list=PL-osiE80TeTs4UjLw5MM6OjgkjFeUxCYH

---

## Tīmekļa lapu rasmošana - skrāpēšana - kas tas ir?

Tīmekļa lapu rasmošana ir process datu iegūšanai no tīmekļa lapām. Tas ietver HTTP pieprasījumu nosūtīšanu uz tīmekļa lapu, HTML satura apstrādi (parsēšanu) un nepieciešamo datu iegūšanu. Tīmekļa lapu rasmošana tiek izmantota datu iegūšanai, cenu uzraudzībai, satura apkopošanai un citiem mērķiem.

Teorētiski iespējams rasmošanu veikt arī manuāli, vienkārši saglabājot apmeklētās tīmekļa lapas saturu, bet bieži vien ir efektīvāk izmantot tīmekļa rasmošanas bibliotēku, piemēram, Scrapy, lai automatizētu šo procesu.

### Rasmošanas noteikumi

* Spēlējiet tīri! Neveidojiet pārlieku slodzi tīmekļa vietnei ar pieprasījumiem, jo tas var izraisīt servera problēmas un jūs varat tikt nobloķēts.
* Pirms sākat rasmošanu, pārbaudiet tīmekļa vietnes lietošanas noteikumus un robots.txt failu, lai pārliecinātos, ka nepārkāpjat kādus noteikumus.
* Ja iespējams iegūt datus caur API, ir ieteicams izmantot API, nevis rasmošanu.
* Iegūtos datus izmantojiet tikai saskaņā ar autortiesībām un pastāvošajiem likumiem.
* Ja iespējams, izmantojiet jau publisku datu kopu - vislabāk no pašiem lietotnes autoriem - nevis tīmekļa lapas rasmošanu.
* Izmantojiet tīmekļa lapu rasmošanu atbildīgi un ētiski.
* Ievērojiet atšķirību starp kādu datu rasmošanu un to publicēšanu. Rasmošana ir tikai datu iegūšana, bet publicēšana ir atsevišķs jautājums.
* Pētnieciskiem mērķiem ir ieteicams iegūt atļauju no tīmekļa vietnes īpašniekiem, ja tas iespējams.


## Scrapy - Python tīmekļa rasmošanas bibliotēka

[Scrapy](https://scrapy.org) ir jaudīga Python tīmekļa rasmošanas bibliotēka, kas atvieglo datu iegūšanu no tīmekļa vietnēm. Tā nodrošina augsta līmeņa API tīmekļa vietņu pārlūkošanai un datu iegūšanai, tādēļ tā ir lieliska izvēle tīmekļa rasmošanas projektos.

### Scrapy alternatīva - BeautifulSoup

Beautiful Soup ir vēl viena populāra Python tīmekļa rasmošanas bibliotēka. Tā ir "viegla" bibliotēka, kas ir vienkārši lietojama un lieliska vienkāršiem tīmekļa rasmošanas uzdevumiem. Tomēr, ja jums ir nepieciešamas papildu funkcijas, piemēram, vairāku lapu pārlūkošana, sīkdatņu un sesiju apstrāde, un datu iegūšana no sarežģītām tīmekļa vietnēm, Scrapy ir labāka izvēle.

Vairāk par BeautifulSoup varat uzzināt šeit: https://www.crummy.com/software/BeautifulSoup/

### Kā strādā Scrapy

Scrapy strādā, nosūtot HTTP pieprasījumus uz tīmekļa vietni, parsējot HTML saturu un izmantojot selektoru sistēmu, lai iegūtu nepieciešamos datus. Tas nodrošina vairākas funkcijas, kas padara tīmekļa rasmošanu vieglu un efektīvu, piemēram, iebūvēto tīmekļa pārlūkošanu, jaudīgu selektoru sistēmu un atbalstu sīkdatnēm un sesijām.

### Scrapy uzstādīšana

Kā parasti, pirms instalējat Scrapy, ieteicams vispirms izveidot un aktivizēt **virtuālo vidi**. Skat. iepriekšējās Flask uzstādīšanas instrukcijas.

Scrapy var instalēt ar `pip`:


```bash
pip install scrapy
```

### Vienkāršs tīmekļa rasmošanas piemērs ar Scrapy	

Pieņemsim, ka mēs vēlamies iegūt informāciju par pilsētām un to iedzīvotāju skaitu no Vikipēdijas lapas: https://en.wikipedia.org/wiki/List_of_cities_in_Latvia

(Lūdzu ņemiet vērā, ka Vikipēdija piedāvā [API](https://www.mediawiki.org/wiki/API:Main_page), lai piekļūtu saviem datiem, tāpēc rasmošana šajā gadījumā nav nepieciešama. Tas ir tikai mācību piemērs.)



In [None]:
# first let's import scrapy and check its version
try:
    import scrapy
    print(f"Scrapy version is {scrapy.__version__}")
except ImportError:
    print("Scrapy is not installed")
    print("You can install Scrapy with pip install scrapy")

In [None]:
# now let's scrape the following web page
url = 'https://en.wikipedia.org/wiki/List_of_cities_in_Latvia'
print(f"We will scrape {url}")

# Note: usually there is no need to scrape Wikipedia as they have APIs and data dumps available
# but for learning purposes we will scrape this page
# we are interested in a table with cities and their population

# we've already imported scrapy so we can start using it
# let's start with basic example where we simply fetch the page and extract the title
from scrapy.http import HtmlResponse

try:
    import requests  # we also use requests library to fetch the page
except ImportError:
    print("Requests is not installed")
    print("You can install Requests with pip install requests")

# NOTE: Scrapy has its own request object as well, but it is more complex

response = requests.get(url)
# let's create a scrapy response object
scrapy_response = HtmlResponse(url, body=response.text, encoding='utf-8')

# let's extract the title using css selector
title = scrapy_response.css('title::text').get()
print("Web page title is:", title)


### CSS selektoru izmantošana datu iegūšanai

Scrapy piedāvā jaudīgu selektoru sistēmu, kas ļauj jums izgūt datus no HTML izmantojot CSS selektorus. Jūs varat izmantot CSS selektorus, lai norādītu uz konkrētiem elementiem lapā un iegūtu nepieciešamos datus.

Lai izmantotu CSS selektorus Scrapy, jums būs jāzina CSS selektoru sintakse. Šeit ir daži pamata piemēri:

#### Pamata CSS piemēri:

| CSS selektors | Apraksts |
| --- | --- |
| tag | Izvēlas visus <tag> elementus. |
| .class | Izvēlas visus elementus ar klasi class. |
| #id | Izvēlas elementu ar ID id. |
| tag.class | Izvēlas <tag> elementus ar klasi class. |
| tag[attr="value"] | Izvēlas <tag> elementus ar atribūtu attr="value". |
| tag > child | Izvēlas <tag> elementa tiešos bērnus. |
| tag child | Izvēlas visus <tag> elementa pēcnācējus. |
| tag:first-child | Izvēlas pirmo <tag> bērnu. |
| tag:nth-child(n) | Izvēlas n-to <tag> bērnu. |

#### Scrapy CSS metodes: 

- `response.css('<CSS selector>')`: Izgūst elementus, kas atbilst CSS selektoram.
- `.get()`: Atgriež pirmo atbilstošo vērtību.
- `.getall()`: Atgriež visas atbilstošās vērtības sarakstā.
- `.re('<regex>')`: Izgūst vērtības, kas atbilst regulārajai izteiksmei.
 


In [None]:
# now let's use Selectors to get the table with cities and their population
# we will use CSS selectors
# we will use the table with classes wikitable sortable

# first let's see about getting all tables
tables = scrapy_response.css('table')

# how many tables are there?
print("There are", len(tables), "tables on the page")

# by using inspect element in browser we can see that the table we want is the first table with class wikitable sortable
table = scrapy_response.css('table.wikitable.sortable') 

# how many tables are there?
print("There are", len(table), "wikitable sortable tables on the page")

# in our case this is fine as we want elements from both tables
# if we only needed the first table we could use table = scrapy_response.css('table.wikitable.sortable')[0] as the first table is at index 0

# how many tr elements are in the tables
rows = table.css('tr')
print("Table(s) have rows", len(rows))

In [None]:
# let's save the data in a list of dictionaries for easier processing
cities = []

# let's iterate over rows and extract the data
for row in rows:
    # city = row.css('td:nth-child(1)::text').get()
    # we want all text from first child td element that is contained in its children
    city = row.css('td:nth-child(1) *::text').getall() # note the * after td:nth-child(1) we get all text from all children
    population = row.css('td:nth-child(2)::text').get() # here we get only the text from the td element
    if city and population: # we only want rows with city and population
        cities.append({'city': city, 'population': population})
        
# print first 5 cities
print("Biggest five cities", cities[:5])

# last 5 cities
print("Smallest five cities", cities[-5:])

In [None]:
from pprint import pprint

# "pretty-print" the first 5 cities
pprint(cities[:5])

In [None]:
# we can see that we only care about the first entry for city name so let's clean up the list of dictionaries
# we will keep only the first entry for city name
cities = [{'city': d['city'][0], 'population': d['population']} for d in cities] # list comprehension
# print first 5 cities
print("Biggest five cities", cities[:5])
# last 5 cities
print("Smallest five cities", cities[-5:])

In [None]:
pprint(cities[:5])

In [None]:
# now we could save the results to a file or database
# alternatively we could load the data into a pandas DataFrame for further processing

### XPath selektoru izmantošana datu iegūšanai

XPath ir jaudīgāka alternatīva CSS selektoriem, kas ļauj jums veikt sarežģītākus datu iegūšanas uzdevumus. XPath ļauj jums navigēt un izvēlēties elementus HTML vai XML dokumentā. Scrapy `response.xpath()` metode nodrošina saskarni elementu atlasīšanai, kas izmanto XPath izteiksmes.

Lai izmantotu XPath iekš Scrapy, jums būs jāzina XPath sintakse. Šeit ir daži pamata piemēri:

#### Pamata XPath piemēri:

| XPath izteiksmes | Apraksts |
| --- | --- |
| //tag | Izvēlas visus <tag> elementus jebkur, kur tie atrodas dokumentā. |
| ./tag | Izvēlas visus <tag> elementus tieši zem pašreizējā elementa. |
| //tag[@attr="value"] | Izvēlas <tag> elementus ar atribūtu attr="value". |
| //tag/text() | Izvēlas <tag> elementu teksta saturu. |
| //tag[contains(@attr, "val")] | Izvēlas <tag> elementus, kur attr satur "val". |
| //tag[1] | Izvēlas pirmo <tag> elementu kontekstā. |
| //tag[last()] | Izvēlas pēdējo <tag> elementu kontekstā. |
| //tag[position() < 3] | Izvēlas pirmos divus <tag> elementus. |

#### Scrapy XPath metodes:

- `response.xpath('<XPath>')`: Izgūst elementus, kas atbilst XPath izteiksmēm.
- `.get()`: Atgriež pirmo atbilstošo vērtību.
- `.getall()`: Atgriež visas atbilstošās vērtības sarakstā.
- `.extract()`: Sinonīms `.getall()`, bet ir novecojis.
- `.re('<regex>')`: Izgūst vērtības, kas atbilst regulārai izteiksmē.
 


In [None]:
# now let's see how we could have used XPath selectors to get the same data

# let's extract the table with XPath
table = scrapy_response.xpath('//table[contains(@class, "wikitable") and contains(@class, "sortable")]')

# how many tables are there?
print("There are", len(table), "wikitable sortable tables on the page")

In [None]:
# now let's extract the rows with XPath
rows = table.xpath('.//tr')
print("Table(s) have rows", len(rows))

In [None]:
# now let's try something slightly fancier - we will want to extract text from the first anchor child in the first td element - city name

# example
# <tr>
# <td><a href="/wiki/R%C4%ABga" class="mw-redirect" title="Rīga">Rīga</a>&nbsp;<small><span class="noprint"><span class="ext-phonos"><span data-nosnippet="" id="ooui-php-1" class="ext-phonos-PhonosButton noexcerpt oo-ui-widget oo-ui-widget-enabled oo-ui-buttonElement oo-ui-buttonElement-frameless oo-ui-iconElement oo-ui-labelElement oo-ui-buttonWidget" data-ooui="{&quot;_&quot;:&quot;mw.Phonos.PhonosButton&quot;,&quot;href&quot;:&quot;\/\/upload.wikimedia.org\/wikipedia\/commons\/transcoded\/f\/f5\/Lv-R%C4%ABga.ogg\/Lv-R%C4%ABga.ogg.mp3&quot;,&quot;rel&quot;:[&quot;nofollow&quot;],&quot;framed&quot;:false,&quot;icon&quot;:&quot;volumeUp&quot;,&quot;label&quot;:{&quot;html&quot;:&quot;pronunciation&quot;},&quot;data&quot;:{&quot;ipa&quot;:&quot;&quot;,&quot;text&quot;:&quot;&quot;,&quot;lang&quot;:&quot;en&quot;,&quot;wikibase&quot;:&quot;&quot;,&quot;file&quot;:&quot;Lv-R\u012bga.ogg&quot;},&quot;classes&quot;:[&quot;ext-phonos-PhonosButton&quot;,&quot;noexcerpt&quot;]}"><a role="button" tabindex="0" href="//upload.wikimedia.org/wikipedia/commons/transcoded/f/f5/Lv-R%C4%ABga.ogg/Lv-R%C4%ABga.ogg.mp3" rel="nofollow" aria-label="Play audio" title="Play audio" class="oo-ui-buttonElement-button"><span class="oo-ui-iconElement-icon oo-ui-icon-volumeUp"></span><span class="oo-ui-labelElement-label">pronunciation</span><span class="oo-ui-indicatorElement-indicator oo-ui-indicatorElement-noIndicator"></span></a></span><sup class="ext-phonos-attribution noexcerpt navigation-not-searchable"><a href="/wiki/File:Lv-R%C4%ABga.ogg" title="File:Lv-Rīga.ogg">ⓘ</a></sup></span></span></small>&nbsp;<figure class="mw-halign-right" typeof="mw:File"><a href="/wiki/File:Greater_Coat_of_Arms_of_Riga_-_for_display.svg" class="mw-file-description"><img src="//upload.wikimedia.org/wikipedia/commons/thumb/9/99/Greater_Coat_of_Arms_of_Riga_-_for_display.svg/55px-Greater_Coat_of_Arms_of_Riga_-_for_display.svg.png" decoding="async" width="55" height="33" class="mw-file-element" srcset="//upload.wikimedia.org/wikipedia/commons/thumb/9/99/Greater_Coat_of_Arms_of_Riga_-_for_display.svg/83px-Greater_Coat_of_Arms_of_Riga_-_for_display.svg.png 1.5x, //upload.wikimedia.org/wikipedia/commons/thumb/9/99/Greater_Coat_of_Arms_of_Riga_-_for_display.svg/110px-Greater_Coat_of_Arms_of_Riga_-_for_display.svg.png 2x" data-file-width="510" data-file-height="303"></a><figcaption></figcaption></figure>
# </td>
# <td>658,640
# </td>
# <td>632,614
# </td>
# <td>605,273
# </td></tr>

# here we can see that city name Rīga is in the first td element inside its first anchor child

In [None]:
# now let's save data in a list of dictionaries for easier processing
also_cities = []

# let's iterate over rows and extract the data
for row in rows:
    # city = row.xpath('.//td[1]//text()').getall() # we want all text from first child td element that is contained in its children
    # we want text from first anchor element in td[1]
    city = row.xpath('.//td[1]//a[1]//text()').get() # note the //a[1] we get text from first anchor child of the first td element
    population = row.xpath('.//td[2]//text()').get() # here we get only the text from the td element
    if city and population: # we only want rows with city and population
        also_cities.append({'city': city, 'population': population})
        
# print first 5 cities
print("Biggest five cities")
pprint(also_cities[:5])

# last 5 cities
print("\nSmallest five cities")
pprint(also_cities[-5:])

# using XPath we did not have to do any Python list comprehension to clean up the data after extraction
# now we could still clean up newlines and convert population to integer but that is easy and not part of scraping itself

### Atšķirības starp CSS un XPath pieprasījumiem Scrapy

| Īpašība | XPath | CSS |
| --- | --- | --- |
| Sintakse | Izteiksmīgāka un sarežģīta | Vienkārša un viegli lasāma |
| Veiktspēja | Parasti lēnāka | Parasti ātrāka |
| Teksta saturs | Jāizmanto `text()` funkcija | Izmanto `::text` selektoru |
| Atribūtu atbilstība | Izmanto `@attr="value"` | Izmanto `[attr="value"]` selektoru |
| Pozicionālā atbilstība | Izmanto `position()=n` | Izmanto `:nth-child(n)` selektoru |
| Navigācija | Atbalsta vecāku/brāļu navigāciju | Ierobežots tikai ar bērnu navigāciju |



### Vairāku lapu rasmošana ar Scrapy

Vairāku lapu rasmošana ir bieži sastopams uzdevums, kad jums ir nepieciešams iegūt datus no vairākām lapām. Scrapy piedāvā iespēju sekot saitēm un iegūt datus no vairākām lapām, izmantojot tajā iebūvēto tīmekļa pārlūkošanas funkciju.	

Pagaidām mēs izmantojam iepriekš noteiktu URL sarakstu, bet reālā dzīvē jūs, iespējams, vēlēsieties rasmot saites no kādas lapas/lapām pašām.

In [None]:
start_urls = [
    "https://en.wikipedia.org/wiki/List_of_cities_in_Estonia",
    "https://en.wikipedia.org/wiki/List_of_cities_in_Latvia",
    "https://en.wikipedia.org/wiki/List_of_cities_in_Lithuania",
]
print("We will scrape the following pages:", *start_urls, sep="\n") # we using * to unpack the list into separate arguments for neat printing

In [None]:
# we have the start_urls now we can create a Scrapy spider to scrape these pages
# in this case we will use a simple spider that will only extract the title of the page

# let's do a simple spider that will extract the title of the page

# we want to save these titles in a list of dictionaries as JSON

import scrapy
from scrapy.crawler import CrawlerProcess

class SimpleSpider(scrapy.Spider):
    
    name = 'simple_spider'
    
    start_urls = [
    "https://en.wikipedia.org/wiki/List_of_cities_in_Estonia",
    "https://en.wikipedia.org/wiki/List_of_cities_in_Latvia",
    "https://en.wikipedia.org/wiki/List_of_cities_in_Lithuania",
] # we could have passed this as a parameter to the spider

    def parse(self, response):
        title = response.css('title::text').get()
        # ADD your own code here to extract more data from each page
        # you can use either css or xpath selectors
        yield {'title': title}

# let's run the spider
# we also want to save the results to a file

process = CrawlerProcess(settings={
    'FEED_URI': 'cities_titles.json',
    'FEED_FORMAT': 'json'
})

process.crawl(SimpleSpider)
process.start()
# NOTE this process is really meant to be run from a script or terminal
# if you run it in a Jupyter notebook you might have to restart the kernel to run it again
# otherwise you will get errors about already running Twisted reactor

In [None]:
import json

with open("cities_titles.json") as in_file:
    data = json.load(in_file)
    
pprint(data)

### Vairāku lapu rasmošanas piemērs ar Scrapy

1. **Izveidojiet zirnekli - Spider** : 
   - Iekļaujiet visus URL sarakstā `start_urls` vai ielādējiet tos dinamiski, izmantojot `start_requests()`.

2. **Parsējiet katru lapu** :
   - Izmantojiet to pašu `parse()` metodi datu izgūšanai, jo lapu struktūra ir līdzīga.
 
3. **Identificējiet kontekstu** :
   - Izmantojiet informāciju no URL vai lapas satura, lai iezīmētu datus (piemēram, valsts nosaukumu).

4. **Palaidiet zirnekli** :
   - Palaidiet zirnekli un, iespējams, saglabājiet tā rezultātus failā. 

5. **Pēcapstrāde** :
   - Pārbaudiet un attīriet datus pēc vajadzības (piem., apvienojiet JSON failus, CSV tabulas).
 


### Scrapy mācību materiāli un resursi

Lai turpinātu apgūt Scrapy, jūs varat izmantot šādus resursus:

- Oficiālā Scrapy dokumentācija: https://docs.scrapy.org/en/latest/
- Scrapy Tutorial: https://docs.scrapy.org/en/latest/intro/tutorial.html
- YouTube Tutorial from FreeCodeCamp: https://www.youtube.com/watch?v=mBoX_JCKZTE



## Praktiskie uzdevumi

### Flask uzdevums

1. Izveidojiet vienkāršu tīmekļa lietotni, izmantojot Flask, kas parāda sarakstu ar kādiem elementiem. Saraksts jāglabā Python sarakstā un jāparāda tīmekļa lapā.
2. Izveidojiet formu aplikācijā, kas ļauj lietotājiem pievienot sarakstam jaunus elementus.
3. Izveidojiet dzēšanas pogu blakus katram saraksta elementam, kas ļauj lietotājiem dzēst elementus no saraksta.
4. Glabājiet datus par saraksta elementiem datu bāzē (ir atļauts izmantot SQLite datu bāzi, bet varat izmantot arī citus datu bāzu risinājumus).

### Scrapy uzdevums

1. Izveidojiet Scrapy zirnekli, kas rasmo datus no jūsu izvēlētas tīmekļa lapas. Zirneklim ir jāizgūst vismaz divi lauki no tīmekļa lapas un jāsaglabā datus JSON vai CSV failā.
2. Modificējiet zirnekli, lai saglabātu datus datu bāzē, nevis JSON vai CSV failā.
3. Pievienojiet zirneklim kļūdu apstrādi, lai apstrādātu gadījumus, kad tīmekļa vietne ir nesasniedzama vai visi datu lauki nav pieejami.

## Kopsavilkums

Šajā nodarbībā mēs apskatījām tīmekļa lapu izstrādes pamatus, izmantojot Flask, un datu iegūšanu no tīmekļa lapām, izmantojot Scrapy. Mēs iemācījāmies izveidot vienkāršu tīmekļa lietotni ar Flask un kā rasmot datus no tīmekļa lapām, izmantojot Scrapy. Mēs arī apspriedām tīmekļa rasmošanas noteikumus un labākos veidus, kā strādāt ar tīmekļa rasmošanas bibliotēkām.

Lai turpinātu apgūt zināšanas par tīmekļa izstrādi un tīmekļa datu iegūšanu, jums būs jāizmēģina praksē dažādus uzdevumus un projektus. 

Veiksmi darbā ar Flask un Scrapy!