# Získávání dat

In [None]:
from IPython.display import HTML

def YVideo(id, t=None):
# Youtube
    if t is None:
        fullStr = f'<iframe width="560" height="315" src="https://www.youtube.com/embed/{id}?rel=0&amp;controls=0&amp;showinfo=0" frameborder="0" allowfullscreen></iframe>'
    else:
        fullStr = f'<iframe width="560" height="315" src="https://www.youtube.com/embed/{id}?start={t}&amp;controls=0&amp;showinfo=0" frameborder="0" allowfullscreen></iframe>'
    return HTML(fullStr)

- Získávání dat
    - Zdroje s API
        - OData
        - REST
        - SWAGGER
        - další standardy
    - Zdroje bez API
    - Textové zdroje

## Zdroje s API

U zdrojů s API se předpokládá dostupnost dokumentace. Přestože známe více standardů (OData, Swagger), komunikace probíhá vždy přes HTTP se specifickými verby (verbs), pro čtení GET. Při zápisu POST, PUT a DELETE, či dalšími specifickými verby.

Specifickou pozornost je nutné věnovat GraphQL, který je systémově velmi často nad API REST, což lze využít pro systémovou integraci jednotlivých API endpointů.

## Zdroje bez API

Zdroje, které nejsou předem strukturované, tedy zdroje bez API je nezbytné strukturalizovat. Mezi významné zdroje z této oblasti patří textové zdroje na internetu. Zdroje na internetu vznikají s využitím výpočetní techniky (jsou generované) na základě již strukturalizovaných dat, typicky uložených v databázi.

Struktura je obvykle identifikovatelná i v textu webové (HTML) stránky. Mnohdy lze dokonce vysledovat entity a relační vztahy mezi nimi. Příkladem může být zpravodajský internetový deník, který na své hlavní stránce odkazuje na jednotlivé články. Hlavní stránka se tak tváří jako částečný index článků. V článcích lze často nalézt entity odstavec a také odkazy na související články. Toto je příklad relace.

Vzhledem k potřebě zpracování článků je samozřejmé, že redakce používají webová prostředí pro správu obsahu, který je následně ukládán v (non)SQL databázích, odkud je promítán do šablon a výsledek tvoří články, které si čtenáři prohlíží. Odhalení odlišností mezi šablonou a obsahem vede k identifikaci datových struktur.



### Regulární výrazy I

Regulární výrazy představují mechanismus s jehož pomocí lze vyhledávat v textu řetězce aniž by byl předem znám jejich přesný obsah. Regulární výraz je předpisem, který je následně textovát vůči prohledávanému textu a jesliže jeho část odpovídá předpisu je tato část označena jako hledaná.

Regulární výrazy jsou široce používaným nástrojem napříč platformami a jazyky. Regulární výraz v jazyku Javascript je použitelný v jazyku Python, či dalších jazycích a samozřejmě i naopak.

Oficiální dokumentace 
[(python re doc)](https://docs.python.org/3/library/re.html).

Online nástroj pro tvorbu výrazů [regex](https://regex101.com/). Pordporuje více jazyků včetně jazyka Python.

> **Povinné video**
>
> [[5 Minute Tutorial] Regular Expressions (Regex) in Python 6 min](https://www.youtube.com/watch?v=UQQsYXa1EHs)





In [None]:
YVideo('https://www.youtube.com/watch?v=UQQsYXa1EHs')


> **Doporučené video**
>
> [Python Tutorial: re Module - How to Write and Match Regular Expressions (Regex) 53 min](https://www.youtube.com/watch?v=K8L6KVGG-7o)

In [None]:
YVideo('https://www.youtube.com/watch?v=K8L6KVGG-7o')

In [None]:
import re



### Webové stránky

In [None]:
!pip install requests_ntlm



In [None]:
import getpass
import urllib.request, json
from requests_ntlm import HttpNtlmAuth

In [None]:
url = ''
people = [633]
password = getpass.getpass()
user = 'UNIVO\\stefeka'

 ··············


In [None]:
from functools import lru_cache
import requests

@lru_cache
def readTbl(UCO):
    url = f'https://apl.unob.cz/UOAPI/Rozvrhy/Osoba/{UCO}'
    page = requests.get(url, auth = HttpNtlmAuth(user, password))
    content = page.content.decode('utf8')
    return content

data = readTbl(633)
print(data[:1000])


   

<!DOCTYPE html>

<html>
<head>
  <meta charset="utf-8" />
  <meta name="viewport" content="width=device-width, initial-scale=1.0">
  <title>RozvrhyOsoba</title>
  <link href="/UOAPI/Content/css?v=oQnauHsqXdVBkuWhCiSRZpmRifmLkzjqiI7oah75sjQ1" rel="stylesheet"/>

  <script src="/UOAPI/bundles/modernizr?v=inCVuEFe6J4Q07A0AcRsbJic_UE5MwpRMNGcOtk94TE1"></script>

</head>
<body><table class="table table-striped table-condensed">
  <thead>
    <tr>
      <th>Datum</th>
      <th>Začátek</th>
      <th>Konec</th>
      <th>Typ lekce</th>
      <th>Předmět</th>
      <th>Předmět Uic</th>
      <th>Učebna</th>
      <th>Vyučující</th>
      <th>Vyučující Uco</th>
      <th>Učební skupina</th>
      <th>Učební skupina Uic</th>
    </tr>
  </thead>
  <tbody>
      <tr>
    <td>05. 11. 2020</td>
    <td>8:00</td>
    <td>11:20</td>
    <td>semin&#225;ř</td>
    
    

    


<td>Rozhran&#237; člověk – stroj / T8</td>
<td>04416</td>

    <td>DISTAN


In [None]:
data = readTbl(633)
print(data[:1000])

### Regulární výrazy II

https://docs.python.org/3/library/re.html

In [None]:
import re
data = readTbl(633)
m = re.search(r'(<td>[^<]*</td>)', data)
print(m)
radek = m.group(0)
print(radek)

<re.Match object; span=(811, 832), match='<td>05. 11. 2020</td>'>
<td>05. 11. 2020</td>


#### Zástupné znaky

- `a-z`, `A-Z`, `0-9`
- `\d`, `\s`

In [None]:
strData = 'kniha, album, almanach'
pattern = r'a'

m = re.search(pattern, strData)
print(m)


<re.Match object; span=(4, 5), match='a'>


#### Množiny

- pozitivní skupina `[]`
- negativní skupina `[^]`

In [None]:
strData = 'kniha, album, almanach'
pattern = r'[aeiou]'

m = re.search(pattern, strData)
print(m)

<re.Match object; span=(9, 11), match='bu'>


In [None]:
strData = 'kniha, album, almanach'
pattern = r'[a-z]'

m = re.search(pattern, strData)
print(m)

<re.Match object; span=(0, 1), match='k'>


#### Kvantifikátory

- `*`
- `+`
- `{2, 5}`

In [None]:
strData = 'kniha, album, almanach'
pattern = r'[a-z]+'

m = re.search(pattern, strData)
print(m)

<re.Match object; span=(0, 5), match='kniha'>


#### Zachycení (Capturing)

- `()`

In [None]:
strData = 'kniha, album, almanach'
pattern = r'([a-z])[a-z]+'

m = re.search(pattern, strData)
print(m)
print(m.group(1))

<re.Match object; span=(0, 5), match='kniha'>
k


In [None]:
strData = 'kniha, 15.7.2021, 03.05.2021, almanach'
pattern = r'(([0-9])|([0-3][0-9]))\.(([0-9])|([0-1][0-9]))\.([1-2][0-9]{3,3})'

#crlf = '\r\n'

print(pattern)

m = re.search(pattern, strData)
print(m)
print(m.group(1))
print(m.group(4))
print(m.group(7))

(([0-9])|([0-3][0-9]))\.(([0-9])|([0-1][0-9]))\.([1-2][0-9]{3,3})
<re.Match object; span=(7, 16), match='15.7.2021'>
15
7
2021


In [None]:
data = readTbl(633)
m = re.search(r'(?:<tr>)([^<]*(?:<td>[^<]*</td>[^<]*)*)(?:</tr>)', data)
#m = re.search(r'(?:<tr>)(?:[^<]*(?:<td>([^<]+)</td>[^<]*)*)(?:</tr>)', data)
#radek = m.group(0)
#print(radek)
radek = m.group(1)
print(radek)


    <td>05. 11. 2020</td>
    <td>8:00</td>
    <td>11:20</td>
    <td>semin&#225;ř</td>
    
    

    


<td>Rozhran&#237; člověk – stroj / T8</td>
<td>04416</td>

    <td>DISTANČNĚ</td>
    <td>Štefek A.</td>
    <td>633</td>
    <td>9PHAV-C (2019)</td>
    <td>20878</td>
  


In [None]:
data = readTbl(633)
regTester = re.compile(r'(?:<tr>)([^<]*(?:<td>[^<]*</td>[^<]*)*)(?:</tr>)')
matches = regTester.findall(data)
result = []
for _ in matches:
    result.append(_)

for index, item in enumerate(result):
    print(index, item[:23])
    if index > 9:
        break

0 
    <td>20. 10. 2020<
1 
    <td>22. 10. 2020<
2 
    <td>27. 10. 2020<
3 
    <td>27. 10. 2020<
4 
    <td>29. 10. 2020<
5 
    <td>30. 10. 2020<
6 
    <td>04. 11. 2020<
7 
    <td>04. 11. 2020<
8 
    <td>04. 11. 2020<
9 
    <td>05. 11. 2020<
10 
    <td>10. 11. 2020<
