# Získávání dat

In [1]:
from IPython.display import HTML

def YVideo(id, t=None):
# Youtube
    if t is None:
        fullStr = f'<iframe width="560" height="315" src="https://www.youtube.com/embed/{id}?rel=0&amp;controls=0&amp;showinfo=0" frameborder="0" allowfullscreen></iframe>'
    else:
        fullStr = f'<iframe width="560" height="315" src="https://www.youtube.com/embed/{id}?start={t}&amp;controls=0&amp;showinfo=0" frameborder="0" allowfullscreen></iframe>'
    return HTML(fullStr)

- Získávání dat
    - Zdroje s API
        - OData
        - REST
        - SWAGGER
        - další standardy
    - Zdroje bez API
    - Textové zdroje

## Zdroje s API

U zdrojů s API se předpokládá dostupnost dokumentace. Přestože známe více standardů (OData, Swagger), komunikace probíhá vždy přes HTTP se specifickými verby (verbs), pro čtení GET. Při zápisu POST, PUT a DELETE, či dalšími specifickými verby.

Specifickou pozornost je nutné věnovat GraphQL, který je systémově velmi často nad API REST, což lze využít pro systémovou integraci jednotlivých API endpointů.

## Zdroje bez API

Zdroje, které nejsou předem strukturované, tedy zdroje bez API je nezbytné strukturalizovat. Mezi významné zdroje z této oblasti patří textové zdroje na internetu. Zdroje na internetu vznikají s využitím výpočetní techniky (jsou generované) na základě již strukturalizovaných dat, typicky uložených v databázi.

Struktura je obvykle identifikovatelná i v textu webové (HTML) stránky. Mnohdy lze dokonce vysledovat entity a relační vztahy mezi nimi. Příkladem může být zpravodajský internetový deník, který na své hlavní stránce odkazuje na jednotlivé články. Hlavní stránka se tak tváří jako částečný index článků. V článcích lze často nalézt entity odstavec a také odkazy na související články. Toto je příklad relace.

Vzhledem k potřebě zpracování článků je samozřejmé, že redakce používají webová prostředí pro správu obsahu, který je následně ukládán v (non)SQL databázích, odkud je promítán do šablon a výsledek tvoří články, které si čtenáři prohlíží. Odhalení odlišností mezi šablonou a obsahem vede k identifikaci datových struktur.



### Regulární výrazy I

Regulární výrazy představují mechanismus s jehož pomocí lze vyhledávat v textu řetězce aniž by byl předem znám jejich přesný obsah. Regulární výraz je předpisem, který je následně textovát vůči prohledávanému textu a jesliže jeho část odpovídá předpisu je tato část označena jako hledaná.

Regulární výrazy jsou široce používaným nástrojem napříč platformami a jazyky. Regulární výraz v jazyku Javascript je použitelný v jazyku Python, či dalších jazycích a samozřejmě i naopak.

Oficiální dokumentace 
[(python re doc)](https://docs.python.org/3/library/re.html).

Online nástroj pro tvorbu výrazů [regex](https://regex101.com/). Pordporuje více jazyků včetně jazyka Python.

> **Povinné video**
>
> [[5 Minute Tutorial] Regular Expressions (Regex) in Python 6 min](https://www.youtube.com/watch?v=UQQsYXa1EHs)





In [2]:
YVideo('https://www.youtube.com/watch?v=UQQsYXa1EHs')




> **Doporučené video**
>
> [Python Tutorial: re Module - How to Write and Match Regular Expressions (Regex) 53 min](https://www.youtube.com/watch?v=K8L6KVGG-7o)

In [3]:
YVideo('https://www.youtube.com/watch?v=K8L6KVGG-7o')

In [4]:
import re



### Webové stránky

In [5]:
!pip install requests_ntlm

Collecting requests_ntlm
  Downloading requests_ntlm-1.1.0-py2.py3-none-any.whl (5.7 kB)
Collecting ntlm-auth>=1.0.2
  Downloading ntlm_auth-1.5.0-py2.py3-none-any.whl (29 kB)
Installing collected packages: ntlm-auth, requests-ntlm
Successfully installed ntlm-auth-1.5.0 requests-ntlm-1.1.0


In [6]:
import getpass
import urllib.request, json
from requests_ntlm import HttpNtlmAuth

In [7]:
url = ''
people = [633]
password = getpass.getpass()
user = 'UNIVO\\stefeka'

 ··············


In [8]:
from functools import lru_cache
import requests

@lru_cache
def readTbl(UCO):
    url = f'https://apl.unob.cz/UOAPI/Rozvrhy/Osoba/{UCO}'
    page = requests.get(url, auth = HttpNtlmAuth(user, password))
    content = page.content.decode('utf8')
    return content

data = readTbl(633)
print(data[:1000])


   

<!DOCTYPE html>

<html>
<head>
  <meta charset="utf-8" />
  <meta name="viewport" content="width=device-width, initial-scale=1.0">
  <title>RozvrhyOsoba</title>
  <link href="/UOAPI/Content/css?v=oQnauHsqXdVBkuWhCiSRZpmRifmLkzjqiI7oah75sjQ1" rel="stylesheet"/>

  <script src="/UOAPI/bundles/modernizr?v=inCVuEFe6J4Q07A0AcRsbJic_UE5MwpRMNGcOtk94TE1"></script>

</head>
<body><table class="table table-striped table-condensed">
  <thead>
    <tr>
      <th>Datum</th>
      <th>Začátek</th>
      <th>Konec</th>
      <th>Typ lekce</th>
      <th>Předmět</th>
      <th>Předmět Uic</th>
      <th>Učebna</th>
      <th>Vyučující</th>
      <th>Vyučující Uco</th>
      <th>Učební skupina</th>
      <th>Učební skupina Uic</th>
    </tr>
  </thead>
  <tbody>
      <tr>
    <td>18. 05. 2021</td>
    <td>8:00</td>
    <td>11:20</td>
    <td>laboratorn&#237; cvičen&#237;</td>
    
    

    


<td>V&#253;voj a spr&#225;va IS / T15</td>
<td>05011</td>


In [9]:
data = readTbl(633)
print(data[:1000])


   

<!DOCTYPE html>

<html>
<head>
  <meta charset="utf-8" />
  <meta name="viewport" content="width=device-width, initial-scale=1.0">
  <title>RozvrhyOsoba</title>
  <link href="/UOAPI/Content/css?v=oQnauHsqXdVBkuWhCiSRZpmRifmLkzjqiI7oah75sjQ1" rel="stylesheet"/>

  <script src="/UOAPI/bundles/modernizr?v=inCVuEFe6J4Q07A0AcRsbJic_UE5MwpRMNGcOtk94TE1"></script>

</head>
<body><table class="table table-striped table-condensed">
  <thead>
    <tr>
      <th>Datum</th>
      <th>Začátek</th>
      <th>Konec</th>
      <th>Typ lekce</th>
      <th>Předmět</th>
      <th>Předmět Uic</th>
      <th>Učebna</th>
      <th>Vyučující</th>
      <th>Vyučující Uco</th>
      <th>Učební skupina</th>
      <th>Učební skupina Uic</th>
    </tr>
  </thead>
  <tbody>
      <tr>
    <td>18. 05. 2021</td>
    <td>8:00</td>
    <td>11:20</td>
    <td>laboratorn&#237; cvičen&#237;</td>
    
    

    


<td>V&#253;voj a spr&#225;va IS / T15</td>
<td>05011</td>


### Regulární výrazy II

https://docs.python.org/3/library/re.html

In [10]:
import re
data = readTbl(633)
m = re.search(r'(<td>[^<]*</td>)', data)
print(m)
radek = m.group(0)
print(radek)

<re.Match object; span=(811, 832), match='<td>18. 05. 2021</td>'>
<td>18. 05. 2021</td>


#### Zástupné znaky

- `a-z`, `A-Z`, `0-9`
- `\d`, `\s`

In [11]:
strData = 'kniha, album, almanach'
pattern = r'a'

m = re.search(pattern, strData)
print(m)


<re.Match object; span=(4, 5), match='a'>


#### Množiny

- pozitivní skupina `[]`
- negativní skupina `[^]`

In [12]:
strData = 'kniha, album, almanach'
pattern = r'[aeiou]'

m = re.search(pattern, strData)
print(m)

<re.Match object; span=(2, 3), match='i'>


In [13]:
strData = 'kniha, album, almanach'
pattern = r'[a-z]'

m = re.search(pattern, strData)
print(m)

<re.Match object; span=(0, 1), match='k'>


#### Kvantifikátory

- `*`
- `+`
- `{2, 5}`

In [14]:
strData = 'kniha, album, almanach'
pattern = r'[a-z]+'

m = re.search(pattern, strData)
print(m)

<re.Match object; span=(0, 5), match='kniha'>


#### Zachycení (Capturing)

- `()`

In [15]:
strData = 'kniha, album, almanach'
pattern = r'([a-z])[a-z]+'

m = re.search(pattern, strData)
print(m)
print(m.group(1))

<re.Match object; span=(0, 5), match='kniha'>
k


In [16]:
strData = 'kniha, 15.7.2021, 03.05.2021, almanach'
pattern = r'(([0-9])|([0-3][0-9]))\.(([0-9])|([0-1][0-9]))\.([1-2][0-9]{3,3})'

#crlf = '\r\n'

print(pattern)

m = re.search(pattern, strData)
print(m)
print(m.group(1))
print(m.group(4))
print(m.group(7))

(([0-9])|([0-3][0-9]))\.(([0-9])|([0-1][0-9]))\.([1-2][0-9]{3,3})
<re.Match object; span=(7, 16), match='15.7.2021'>
15
7
2021


In [17]:
data = readTbl(633)
m = re.search(r'(?:<tr>)([^<]*(?:<td>[^<]*</td>[^<]*)*)(?:</tr>)', data)
#m = re.search(r'(?:<tr>)(?:[^<]*(?:<td>([^<]+)</td>[^<]*)*)(?:</tr>)', data)
#radek = m.group(0)
#print(radek)
radek = m.group(1)
print(radek)


    <td>18. 05. 2021</td>
    <td>8:00</td>
    <td>11:20</td>
    <td>laboratorn&#237; cvičen&#237;</td>
    
    

    


<td>V&#253;voj a spr&#225;va IS / T15</td>
<td>05011</td>

    <td>Š8/20</td>
    <td>Štefek A.</td>
    <td>633</td>
    <td>5KIS-IT (2017)</td>
    <td>20955</td>
  


In [18]:
data = readTbl(633)
regTester = re.compile(r'(?:<tr>)([^<]*(?:<td>[^<]*</td>[^<]*)*)(?:</tr>)')
matches = regTester.findall(data)
result = []
for _ in matches:
    result.append(_)

for index, item in enumerate(result):
    print(index, item[:23])
    if index > 9:
        break

0 
    <td>18. 05. 2021<
1 
    <td>18. 05. 2021<
2 
    <td>19. 05. 2021<
3 
    <td>20. 05. 2021<
4 
    <td>25. 05. 2021<
5 
    <td>27. 05. 2021<
6 
    <td>18. 06. 2021<
7 
    <td>16. 07. 2021<
8 
    <td>22. 07. 2021<
9 
    <td>22. 07. 2021<
10 
    <td>23. 07. 2021<


## Analýza HTML

### Rychlé "oči"

Otevření souboru v textovém modu https://www.w3schools.com/python/python_file_open.asp.

In [19]:
with open('./data/osoba.htm', 'r') as inputFile:
    for index, line in enumerate(inputFile):
        if index < 366:
            continue
        if index > 372:
            break
        print(index, line, end='')

366                     <td class="right head">Pracoviště</td>
367                     <td class="left-align"><a href="https://vav.unob.cz/department/index/114">K209</a> (<a href="https://vav.unob.cz/department/index/72" title="Nadřízená složka">FVT</a>)</td>
368                     </tr>
369                                 <tr>
370                     <td class="right head">Tituly</td>
371                     <td class="left-align">prof. Dr. Ing.</td>
372                 </tr>


In [20]:
with open('./data/osoba.htm', 'r') as inputFile:
    allData = inputFile.read()
    
print(allData[1000:2000])

ype="text/css"
      media="all"
      />

    <link
      rel="stylesheet"
      href="https://vav.unob.cz/client/css/layout_global.css?v=13"
      type="text/css"
      media="all"
      charset="utf-8"
      />
    <link
      rel="stylesheet"
              href="https://vav.unob.cz/client/css/layout_dee_v9.css?v=2"
            type="text/css"
      media="all"
      charset="utf-8"
      />

    <link
      rel="stylesheet"
              href="https://vav.unob.cz/client/css/navigation_v9.css"
            type="text/css"
      media="all"
      charset="utf-8"
      />
    <link rel="stylesheet" type="text/css"
          href="https://vav.unob.cz/client/css/iconset_v8.css?v=2"
          media="all"
          charset="utf-8"
          />
    <link
      rel="stylesheet"
      href="https://vav.unob.cz/client/css/form_v2.css?v=3"
      type="text/css"
      media="all"
      />
      
    <link
      rel="stylesheet"
      href="https://vav.unob.cz/client/css/tooltip.css"
      type="

In [21]:
def printFrom(substr, data, delta=-10, length=100):
    index = data.find(substr)
    print(data[index+delta:index+length+delta])
printFrom('Nadřízená složka', allData, delta=-20, length=300)

nt/index/72" title="Nadřízená složka">FVT</a>)</td>
                    </tr>
                                <tr>
                    <td class="right head">Tituly</td>
                    <td class="left-align">prof. Dr. Ing.</td>
                </tr>
                <tr>
                    <td 


In [22]:
import re
currentValue = re.findall(r'title="Nadřízená složka">([A-Z]+)</a>\)', allData)
print(currentValue)

['FVT']


### Systematizace analýzy

In [23]:
def html_analyze(patternList, pageContent):
    result = {}
    for pat in patternList:
        currentName = pat["name"]
        currentPattern = pat["pattern"]
        currentSaveMulti = pat["saveMulti"]
        currentValue = re.findall(currentPattern, pageContent)
        if (type(currentName) == type(['b'])):
            #defined multiplae names
            index = 0;
            for name in currentName:
                result[name] = currentValue[index]
                index = index + 1
        else:
            #defined single name
            if len(currentValue) > 0:
                if currentSaveMulti:
                    currentValue = currentValue
                else:
                    currentValue = currentValue[0]
            else:
                currentValue = ""
            result[currentName] = currentValue
    return result

### Analýza osoby

In [24]:
clovek_analyzer_desc = [
      {'name': 'vavid', 'saveMulti': False, 'pattern': r'person.perid = "([0-9]+)"'},
      {'name': 'fullname', 'saveMulti': False, 'pattern': r'<h1>([^<]+)<span'},
      {'name': 'tituly', 'saveMulti': False, 'pattern': r'Tituly</td>[^<]+<td class="left-align">([^<]+)</td>'},
      {'name': 'departmentid', 'saveMulti': False, 'pattern': r'><a href="https://vav.unob.cz/department/index/([0-9]+)"'},
      {'name': 'department', 'saveMulti': False, 'pattern': r'><a href="https://vav.unob.cz/department/index/[0-9]+">([ÚA-Z0-9]+)</a>'},
      {'name': 'soucastid', 'saveMulti': False, 'pattern': r'\(<a href="https://vav.unob.cz/department/index/([0-9]+)'},
      {'name': 'soucast', 'saveMulti': False, 'pattern': r'title="Nadřízená složka">([A-Z]+)</a>\)'},
      {'name': 'uco', 'saveMulti': False, 'pattern': r'<td class="right head">UČO</td>[^<]+<td class="left-align">[^0-9]+([0-9]+)'},
      {'name': 'orcid', 'saveMulti': False, 'pattern': r'<td class="right head">ORCID</td>[^<]+<td class="left-align">[^<]+[^>]+[^0-9]+([0-9\-]+)'},
      {'name': 'typ', 'saveMulti': False, 'pattern': r'\(P2\)<div style="font-size: 9px; color: grey">edituje R-OdVV</div></td>[^<]+<td class="left-align">[^ASDO]+([^<]+)</td>'},
      {'name': 'p4', 'saveMulti': False, 'pattern': r'\(P4\)</t[dh]>[^<]+<td class="left-align">[^0-9]+([^<]+)'},
      {'name': 'email', 'saveMulti': False, 'pattern': r'Email</td>[^<]+<td class="left-align">([^<]+)</td>'},
      {'name': 'cizi', 'saveMulti': False, 'pattern': r'<option value="CIZ" selected="selected">([^<]+)</option>'},
      {'name': 'rok', 'saveMulti': False, 'pattern': r'name="identifikace" value="([^"]{2,2})[^"]+"'}
    ]

In [25]:
record = html_analyze(clovek_analyzer_desc, allData)
print(record)

{'vavid': '235994', 'fullname': 'Štefek Alexandr ', 'tituly': 'prof. Dr. Ing.', 'departmentid': '114', 'department': 'K209', 'soucastid': '72', 'soucast': 'FVT', 'uco': '633', 'orcid': '0000-0002-6064-8381', 'typ': 'AP - Akademický pracovník UO                    ', 'p4': '20                    ', 'email': 'alexandr.stefek@unob.cz', 'cizi': '', 'rok': ''}


In [26]:
def readPersonHtml(id):
    fullURL = f'https://vav.unob.cz/person/index/{id}'
    
    with open('./data/osoba.htm', 'r') as inputFile:
        result = inputFile.read()
    return result

In [27]:
def fromPersonHtmlToData(page):
    analyza = html_analyze(clovek_analyzer_desc, page)
    return analyza

print(fromPersonHtmlToData(readPersonHtml(235994)))

{'vavid': '235994', 'fullname': 'Štefek Alexandr ', 'tituly': 'prof. Dr. Ing.', 'departmentid': '114', 'department': 'K209', 'soucastid': '72', 'soucast': 'FVT', 'uco': '633', 'orcid': '0000-0002-6064-8381', 'typ': 'AP - Akademický pracovník UO                    ', 'p4': '20                    ', 'email': 'alexandr.stefek@unob.cz', 'cizi': '', 'rok': ''}


### Analýza katedry

In [28]:
def readKatedraHtml(id):
    fullURL = f'https://vav.unob.cz/department/index/{id}'
    
    with open('./data/katedra.htm', 'r') as inputFile:
        result = inputFile.read()
    return result

In [29]:
katedra_analyzer_desc = [
    {'name': 'member', 'saveMulti': True, 'pattern': r'<a href="https://vav.unob.cz/person/index/([0-9]+)">'}
]

In [30]:
def fromKatedraHtmlToData(page):
    analyza = html_analyze(katedra_analyzer_desc, page)
    return analyza['member']

print(fromKatedraHtmlToData(readKatedraHtml(114)))

['235612', '236444', '530841', '235669', '236448', '235665', '235735', '235621', '546297', '532765', '259002', '235657', '543480', '535440', '259133', '544945', '235994', '545808', '235619', '547514', '469041', '547815', '547533', '422395', '547492', '547816', '547291', '547493', '547817', '536479', '545594', '545596', '545597', '548301', '542707', '548115', '545602', '547771', '545614', '545615', '542879', '548137', '542997', '545629', '545608', '543134', '548155', '545655', '548157', '545650', '548159', '548160', '543248', '548164', '545660', '548179', '548038', '548281', '548178', '543566', '543588', '548426', '548194', '548203', '543731', '548210', '543700', '545697', '543703', '547774', '545702', '545703', '548225', '548043', '548227', '548044', '545715', '548247', '548047', '545717', '543929', '548236', '548243', '548252', '544052', '547776', '547775', '547777', '544054', '548048', '545726', '548267', '548271', '545729', '548273', '548276', '544251', '544282', '544302', '545736',

### A teď vše dohromady

#### Klasický přístup

In [31]:
katedry = [114]
lide = []
for katedraId in katedry:
    katedraPage = readKatedraHtml(katedraId)
    members = fromKatedraHtmlToData(katedraPage)
    for memberId in members:
        clovekPage = readPersonHtml(memberId)
        clovekData = fromPersonHtmlToData(clovekPage)
        lide.append(clovekData)
        
print(lide[:3])

[{'vavid': '235994', 'fullname': 'Štefek Alexandr ', 'tituly': 'prof. Dr. Ing.', 'departmentid': '114', 'department': 'K209', 'soucastid': '72', 'soucast': 'FVT', 'uco': '633', 'orcid': '0000-0002-6064-8381', 'typ': 'AP - Akademický pracovník UO                    ', 'p4': '20                    ', 'email': 'alexandr.stefek@unob.cz', 'cizi': '', 'rok': ''}, {'vavid': '235994', 'fullname': 'Štefek Alexandr ', 'tituly': 'prof. Dr. Ing.', 'departmentid': '114', 'department': 'K209', 'soucastid': '72', 'soucast': 'FVT', 'uco': '633', 'orcid': '0000-0002-6064-8381', 'typ': 'AP - Akademický pracovník UO                    ', 'p4': '20                    ', 'email': 'alexandr.stefek@unob.cz', 'cizi': '', 'rok': ''}, {'vavid': '235994', 'fullname': 'Štefek Alexandr ', 'tituly': 'prof. Dr. Ing.', 'departmentid': '114', 'department': 'K209', 'soucastid': '72', 'soucast': 'FVT', 'uco': '633', 'orcid': '0000-0002-6064-8381', 'typ': 'AP - Akademický pracovník UO                    ', 'p4': '20     

#### Využití generátorů

Funkce (funkcionál), která z obyčejné funkce (item->item) udělá funkci pracující nad datovými toky (generator->generator)

In [32]:
def pipeit(func):
    def pipetedFunc(dataStream):
        for item in dataStream:
            yield func(item)
    return pipetedFunc

Někdy výstup může být listem a ten chceme integrovat do datového toku

In [33]:
def dropList(func):
    def accepted(dataStream):
        for item in func(dataStream):
            for itemList in item:
                yield itemList
    return accepted

A toto je funkce, která "redukuje" funkce (viz reduce v Python). Tato funkce vezme seznam funkcí a udělá z nich kompozici.

In [34]:
def joinFuncs(*funcs):
    def joinedFunc(dataStream):
        result = dataStream
        for func in funcs:
            result = func(result)
        return result
    return joinedFunc

**Praktická aplikace** - konverze obyčejných funkcí

In [35]:
katedraHTMLStreamFunc = pipeit(readKatedraHtml)
fromKatedraHtmlToDataStreamFunc = dropList(pipeit(fromKatedraHtmlToData))
readPersonHtmlStreamFunc = pipeit(readPersonHtml)
fromPersonHtmlToDataStreamFunc = pipeit(fromPersonHtmlToData)

**Praktická aplikace** - kompozice funkcí

In [36]:
allFuncsTogether = joinFuncs(
    katedraHTMLStreamFunc,
    fromKatedraHtmlToDataStreamFunc,
    readPersonHtmlStreamFunc,
    fromPersonHtmlToDataStreamFunc
)

**Praktická aplikace** - spuštění kódu

> **Otázka**
>
> Jak probíhá realizace kódu?
>
> Identifikujte rozdíly od implementace o pár odstavců výše

In [37]:
inputDataStream = [114]
outputDataStream = allFuncsTogether(inputDataStream)
for index, item in enumerate(outputDataStream):
    print(index, item)
    if index > 4:
        break

0 {'vavid': '235994', 'fullname': 'Štefek Alexandr ', 'tituly': 'prof. Dr. Ing.', 'departmentid': '114', 'department': 'K209', 'soucastid': '72', 'soucast': 'FVT', 'uco': '633', 'orcid': '0000-0002-6064-8381', 'typ': 'AP - Akademický pracovník UO                    ', 'p4': '20                    ', 'email': 'alexandr.stefek@unob.cz', 'cizi': '', 'rok': ''}
1 {'vavid': '235994', 'fullname': 'Štefek Alexandr ', 'tituly': 'prof. Dr. Ing.', 'departmentid': '114', 'department': 'K209', 'soucastid': '72', 'soucast': 'FVT', 'uco': '633', 'orcid': '0000-0002-6064-8381', 'typ': 'AP - Akademický pracovník UO                    ', 'p4': '20                    ', 'email': 'alexandr.stefek@unob.cz', 'cizi': '', 'rok': ''}
2 {'vavid': '235994', 'fullname': 'Štefek Alexandr ', 'tituly': 'prof. Dr. Ing.', 'departmentid': '114', 'department': 'K209', 'soucastid': '72', 'soucast': 'FVT', 'uco': '633', 'orcid': '0000-0002-6064-8381', 'typ': 'AP - Akademický pracovník UO                    ', 'p4': '20  