# Webcrapping danych biologicznych i API biologicznych baz danych Bioinformatyka 2022/2023
### Piotr Stomma
### Uniwersytet w Białymstoku

**Czas na wykonanie**: do rozpoczęcia zajęć nr 10.

Dzisiaj będziemy zeskrobywać dane ze stron internetowych z użyciem kodu, z maksymalną automatyzacją procesu. Ostatnio Państwo ćwiczyliście obsługę biologicznych baz danych, dzisiaj temat będzie pociągnięty trochę dalej.

Zamiast wyszukiwać ręcznie określone dane poprzez wyszukiwarki, można korzystać z API (pośrednika pomiędzy bazą danych a programem użytkownika) i zautomatyzować proces. To będzie na pierwsze zajęcia, wykorzystamy do tego na przykładzie bazę danych **ArrayExpress**, która została przeniesiona do domeny **BioStudies**. Z kolei **BioStudies** udostępnia swoje zasoby poprzez REST-API.

**Na następnych zajęciach, dołożę dodatkowe zadanie**(jak zwykle proste ;) ). Będzie można dołożyć skrobanie dowolnych stron internetowych na zasadzie parsowania plików HTML, albo dalej rozwinąć temat parsowania złożonych plików JSON.

In [1]:
#potrzebne biblioteki na dzisiaj
import requests         #do komunikacji z API
import json             #do konwertowania wyników wyszukiwania do słowników
import ftplib           #do komunikacji protokołem ftp (niestety nie da się przez requests)

## Ogólny plan

- nauczyć się wykorzystywać API
    - do przeszukiwania bazy danych, 
     - filtrowania wyników (za pomocą API lub kodu, już po pobraniu wyników wyszukiwania)

- wybór określonych informacji z określonych wyników wyszukiwań

- dotarcie do serwera FTP z surowymi danymi z eksperymentów sekwencjonowania RNA i eksperymentów mikromacierzowych, 

- pobranie określonego typu danych za pomocą protokołu FTP oraz szczegółowych informacji o plikach, dostępnych poprzez API

- (na następne zajęcia) metody parsowania złożonych, zagnieżdżonych plików w formacie JSON za pomocą Pythona LUB biblioteka BeautfilulSoup do parsowania dokumentów HTML

## Wstęp: ArrayExpress i REST-API

Strony, które nas interesują:
- https://www.ebi.ac.uk/biostudies/arrayexpress/

- https://www.ebi.ac.uk/biostudies/arrayexpress/studies (w szczególności)

Zawierają wyszukiwarki. Do wyszukiwarek można uzyskać też dostęp za pomocą metody GET - a zatem pisząc kod w Pythonie wykorzystujący moduł `requests`. 

Główna dokumentacja API (dość szczątkowa, część dot. REST API znajduje się na dole):

https://www.ebi.ac.uk/biostudies/help

Główny adres do API:

`https://www.ebi.ac.uk/biostudies/api/v1`

Dalsze specyfikacje adresu pozwalają wykorzystać następujące punkty dostępowe (te które będą nam potrzebne)

- końcówka `/api/v1/search` - do ogólnego formułowania zapytań do bazy danych,

- końcówka `/api/v1/studies/MY_ACCESION_ID` - szczegółowe dane dotyczące danego badania (którego ID jest tzw. `accession`, `MY_ACCESION_ID` należy zastąpić nrem badania, które nas interesuje)

-  końcówka `/api/v1/studies/MY_ACCESION_ID/info` - podobnie jak wyżej, ale informacje bardziej ogólne i mniej przytłaczające swoim rozmiarem.

## Na czym polega korzystanie z API:

Pobieramy treść z linka, za pomocą którego formułujemy zapytanie zrozumiałe dla danego API.

Przykład:

https://www.ebi.ac.uk/biostudies/api/v1/studies/E-MTAB-3073

Na stronę pod powyższym linkiem możemy po prostu wejść przez przeglądarkę - zawiera dane w formacie JSON.

Wszystkie ww. punkty dostępowe zwracają informacje w formacie JSON - w związku z tym, wygodnie z nimi pracować w Pythonie (naturalny typ danych dla JSON'ów to słownik).


### Powtórka modułu requests

In [19]:
my_link='https://www.uwb.edu.pl'
r=requests.get(my_link)
print("Response status:")
print(r.ok)
print(r.status_code)
print(r.text[0:800])
print("etc...")
r.close()

Response status:
True
200
<!DOCTYPE html>
<html lang="pl">
    <head>
        <meta charset="utf-8">
        <meta http-equiv="X-UA-Compatible" content="IE=edge">
        <meta name="viewport" content="width=device-width, initial-scale=1">
        <meta name="description" content="Uniwersytet w Białymstoku">
        <meta name="keywords" content="          ">
                <link rel="icon" type="image/png" href="https://www.uwb.edu.pl/img/favicon.ico"/>
        <link rel="shortcut icon" href="https://www.uwb.edu.pl/img/favicon.ico" />
        <title>Uniwersytet w Białymstoku</title>
        <!-- Latest compiled and minified CSS -->
        <link rel="stylesheet" href="https://www.uwb.edu.pl/css/bootstrap.min.css?v=1">
        <link rel="stylesheet" type="text/css" href="https://www.uwb.edu.pl/css/ns-default.css?v
etc...


#### Obsługa błędów HTTP

In [29]:
from requests.exceptions import HTTPError
try:
    r=requests.get('https://www.uwb.edu.pl')
    r.raise_for_status()
except HTTPError as e:
    print(r.status_code)
    print(r.ok)
    print(e)


In [30]:
from requests.exceptions import HTTPError
try:
    r2=requests.get('https://www.uwb.edu.pl/WydzialKtoryNieIstnieje')
    r2.raise_for_status()
except HTTPError as e:
    print(r2.status_code)
    print(r2.ok)
    print(e)


404
False
404 Client Error: Not Found for url: https://www.uwb.edu.pl/WydzialKtoryNieIstnieje


## Zadanie I

Wykorzystaj moduł requests aby skontakować się z API BioStudies poprzez punkt dostępowy `/api/v1/studies/MY_ACCESION_ID/info`, jako `MY_ACCESION_ID` wpisz `E-MTAB-3073`. Zapisz wynik jako string.

### Moduł json (potrzebne do następnych zadań)

In [33]:
json_data_string= """ {"columns":
                                [
                                    {"name":"Name",
                                    "title":"Name",
                                    "visible":true,
                                    "searchable":true,
                                    "data":"Name",
                                    "defaultContent":""},
                                    {"name":"Size",
                                    "title":"Size",
                                    "visible":true,
                                    "searchable":false,
                                    "data":"Size",
                                    "defaultContent":""},
                                    {"name":"Section",
                                    "title":"Section",
                                    "visible":true,
                                    "searchable":true,
                                    "data":"Section",
                                    "defaultContent":""},
                                    {"name":"Samples",
                                    "title":"Samples",
                                    "visible":true,
                                    "searchable":true,
                                    "data":"Samples",
                                    "defaultContent":""},
                                    {"name":"Description",
                                    "title":"Description",
                                    "visible":true,
                                    "searchable":true,
                                    "data":"Description",
                                    "defaultContent":""},
                                    {"name":"Type",
                                    "title":"Type",
                                    "visible":true,
                                    "searchable":true,
                                    "data":"Type",
                                    "defaultContent":""},
                                    {"name":"Format",
                                    "title":"Format",
                                    "visible":true,
                                    "searchable":true,
                                    "data":"Format",
                                    "defaultContent":""}
                                ],
                        "files":1102,
                        "ftpLink":"ftp://ftp.ebi.ac.uk/biostudies/nfs/E-MTAB-/073/E-MTAB-3073",
                        "isPublic":true,
                        "relPath":"E-MTAB-/073/E-MTAB-3073",
                        "hasZippedFolders":false,
                        "released":1234224000000,
                        "modified":1643401195877,
                        "sections":["raw-data","processed-data","mt-E-MTAB-3073"]
                        }"""

In [36]:
json_dict=json.loads(json_data_string)

In [37]:
json_dict

{'columns': [{'name': 'Name',
   'title': 'Name',
   'visible': True,
   'searchable': True,
   'data': 'Name',
   'defaultContent': ''},
  {'name': 'Size',
   'title': 'Size',
   'visible': True,
   'searchable': False,
   'data': 'Size',
   'defaultContent': ''},
  {'name': 'Section',
   'title': 'Section',
   'visible': True,
   'searchable': True,
   'data': 'Section',
   'defaultContent': ''},
  {'name': 'Samples',
   'title': 'Samples',
   'visible': True,
   'searchable': True,
   'data': 'Samples',
   'defaultContent': ''},
  {'name': 'Description',
   'title': 'Description',
   'visible': True,
   'searchable': True,
   'data': 'Description',
   'defaultContent': ''},
  {'name': 'Type',
   'title': 'Type',
   'visible': True,
   'searchable': True,
   'data': 'Type',
   'defaultContent': ''},
  {'name': 'Format',
   'title': 'Format',
   'visible': True,
   'searchable': True,
   'data': 'Format',
   'defaultContent': ''}],
 'files': 1102,
 'ftpLink': 'ftp://ftp.ebi.ac.uk/bios

## Zadanie II

Napisz funkcję `StudyInfo`, przyjmującą jako jeden z argumentów wejściowych `accession` danego badania w bazie danych ArrayExpress. Niech funkcja pobierze dane z punktu dostępowego zakończonego `info` z zadania wyżej i zwróci je w formie słownika. W przypadku wykrycia błędu HTTP, program powinien rzucić wyjątek i wyświetlić komunikat o błędzie, łącznie z kodem błędu ( `status_code` ). 

ID do przetestowania (powinny działać):

`E-MTAB-3073`

`E-GEOD-61441`

`E-GEOD-61442`

### Formułowanie zapytań przez wyszukiwarkę za pomocą REST API (potrzebne do następnych zadań)

Punkt dostępowy `/api/v1/search` pozwala na formułowanie zapytań do wyszukiwarki, niekoniecznie poprzez dokładne podanie ID.

Format zapytania: dla przykładu definiujemy jakieś 3 wartości parametrów wyszukiwarki na wartości odpowiednio `value1, value2, value3`, według dokumentacji API (**na dole** https://www.ebi.ac.uk/biostudies/help):

`/api/v1/search?parametr1=value1&parametr2=value2&parametr3=value3`

Podstawowy parametr : `query` - czyli dowolne hasło, jakie chcemy wyszukać. 

PRZYKŁAD:
dane json

`https://www.ebi.ac.uk/biostudies/api/v1/search?query=glioblastoma`

Hasło `glioblastoma` można wyszukać przez wyszukiwarkę na stronie ArrayExpress i porównać wyniki.



## Zadanie III

Napisz program, który (im niżej, tym więcej punktów):

- przyjmie od użytkownika hasło do wyszukania i zwróci **tytuły** domyślnych 20 wyników, **posortowane malejąco według liczby załączonych plików do danego wyniku wyszukiwania** (**Wskazówka:** interesujące będą wartości pod kluczem **hits** najbardziej zewnętrznego słownika). Można zwrócić listę par tytuł, liczba_załączników.

- wyświetli **całkowitą liczbę wyników wyszukiwania** (uwaga, domyślnie zwracana jest liczba wyników wyświetlana naraz na 1 stronie! Trzeba znaleźć odpowiednią wartość w zewn. słowniku.)

- przyjmie dodatkową opcję `exact_match` równą `True` lub `False`. Jeżeli będzie ona równa `True`, program ma **nie zapisywać całej listy wyników,** tylko jeden określony wynik z `accession` równym wartości zapytania i zwracać wszystkie dane o tym wyniku w formie słownika
    
- zapisze **wszystkie** wyniki wyszukiwania powiązane z danym hasłem (a nie 20 domyślnych) w liście i posortuje, jak wcześniej 

(**Wskazówka dot. ostatniego:** trzeba ustawić w API parametry `page` oraz `pageSize` ( [dokumentacja, na dole](https://www.ebi.ac.uk/biostudies/help) i prawdopodobnie stworzyć pętlę wysyłającą zapytania do momentu pobrania wszystkich wyników, liczbę dostępnych wyników określaliśmy w 2-giej kropce).
    
Hasła do przetestowania:
- `glioblastoma`
- `astrocytoma`
- `meningioma`

Które hasło zwróciło najwięcej wyników? Ile maksymalnie załączników zawiera wynik z wyszukiwania danego hasła (**to proszę napisać :D**)

### moduł ftplib (potrzebne do następnych zadań)

Surowe dane z danego badania (identyfikowanego przez `accession`) dostepne są na serwerze `ftp` pod określoną ścieżką. Struktura danych, sposób ich opisu i przechowywania jest dość jednorodna i zoorganizowana wg jednolitego standardu.

Nazwa serwera FTP:

`ftp.ebi.ac.uk`

Niestety, **requests nie starczy, aby obsłużyć protokół `ftp`.** Potrzebna będzie inna biblioteka `ftplib`. 

Praca z `ftplib` ma określony schemat:

- logujemy się na serwer,

- wysyłamy polecenia poprzez API biblioteki `ftp`, m.in. polegające na:
    
    - pobieraniu określonych plików,
    - oglądaniu ich zawartości,
    - przeglądaniu systemu plików serwera i poruszania się po nim.
    
**W ArrayExpress, informacja gdzie w stukrutrze plików serwera FTP dane określonego badania się znajdują- zapisana jest w wynikowych danych JSON pobieranych poprzez REST API**.



In [45]:
from ftplib import FTP
ftp=FTP('ftp.ebi.ac.uk')
ftp.login()
ftp.retrlines('LIST')       #.retrlines zapisuje odpowiedź serwera jako linijki danych .txt
                            #polecenie LIST wyświetla zawartość bieżącego folderu - czyli tutaj domyślnego, na który serwer
                            #nas wpuszcza
lines=[]
ftp.retrlines('RETR robots.txt', lines.append) #sposób zapisu przykładowego pliku do listy (linijka-po-linijce)
print("++++++++++++++++++++++++++")
print("++++++++++++++++++++++++++")
print("++++++++++++++++++++++++++")
ftp.cwd('biostudies')      #cwd - ChangeWorkingDirectory
ftp.retrlines('LIST')
ftp.close()

drwxr-xr-x    2 ftp      ftp          4096 Nov 25 12:08 1000g
drwxr-xr-x    4 ftp      ftp            29 Nov 25 12:04 biostudies
drwxr-xr-x    3 ftp      ftp            32 Nov 25 12:04 empiar
drwxrwsr-x    4 ftp      ftp          4096 Jun 09 11:06 ensemblgenomes
drwxr-xr-x    3 ftp      ftp          4096 May 30  2019 ensemblorg
drwxr-xr-x    2 ftp      ftp          4096 Nov 25 12:08 faang
drwxr-xr-x    3 ftp      ftp            36 Nov 25 12:04 fire-test
drwxr-xr-x    2 ftp      ftp          4096 Nov 25 12:08 hipsci
drwxr-xr-x    3 ftp      ftp            18 Nov 25 12:05 pride
drwxr-xr-x    2 ftp      ftp          4096 Nov 25 12:08 pride-archive
drwxr-xr-x   12 ftp      ftp           500 Jul 04 12:25 pub
-rw-r--r--    1 ftp      ftp            26 Nov 25 12:05 robots.txt
drwxr-xr-x    2 ftp      ftp          4096 Nov 27 10:37 vol1
++++++++++++++++++++++++++
++++++++++++++++++++++++++
++++++++++++++++++++++++++
drwxr-xr-x    2 ftp      ftp          4096 Nov 26 02:22 fire
drwxrwxr-x  158 f

In [42]:
for robot in lines:
    print(robot)

User-agent: *
Disallow: /


In [47]:
#Zapis całego pliku z serwera jako surowe bajty w folderze na lokalnej maszynie do pliku 'newfile'
with open('newfile', 'wb') as fp:
    ftp=FTP('ftp.ebi.ac.uk')
    ftp.login()
    ftp.retrbinary('RETR {}'.format('robots.txt'), fp.write)
    ftp.close()

In [50]:
#wyświetlam zawartość pobranego pliku
%cat newfile

User-agent: *
Disallow: /


## Zadanie IV

Napisz program, który dla danego podanego `MY_ACCESSION_ID`, znajdzie informacje o położeniu plików z danymi na serwerze FTP (za pomocą REST-API z wykorzystaniem endpointa `https://www.ebi.ac.uk/biostudies/api/v1/MY_ACCESION_ID/info` i następnie przejdzie do folderu zawierającego dane (na serwerze FTP). Niech program potem wykona następujące zadania:
- wyświetli zawartość nadrzędnego folderu z danymi dla danego badania (ten folder zawiera m. in. podfolder `Files` z surowymi danymi i plik z końcówką `pagetab.tsv`, z "danymi o danych"),
- w pliku wartości oddzielonych tabulatorami `MY_ACCESSION_ID.pagetab.tsv` znajdzie nazwy próbek poddanych wstępnemu przetwarzaniu (oznaczone jako `Processed Data`) (tab ma symbol `\t`)
- wyświetli liczbę tych plików obecnych w folderze `Files`,
- pobierze 10 z tych plików na lokalną maszynę (tylko 10, ponieważ mogą być spore).

Program powinien działać dla `accession` równych:

`E-MTAB-3073`

`E-GEOD-61441`

`E-GEOD-61442` (od tego najlepiej zacząć, zawiera najmniej plików (mniej niż 10 :) )

**Wskazówki:** 

    - warto zwrócić uwagę na to, co jest pod kluczem `ftpLink` oraz `relPath` słownika uzyskanego za pomocą REST API.
    
    - ten sam skrypt powinien działać dla 3 wymienionych plików :) (nie ma gwarancji, że zawsze będzie działać- dla innych badań, czasami brakuje danych na serwerze FTP pod linkiem w JSON-ie
    
    - plik pagetab.tsv najprościej podzielić na linijki i zapisać do listy, jak w powyższych przykładach- i wybrać linijki, które są potrzebne


## Zadanie V

Rozwijamy program z zadania IV, dokładamy obsługę błędów. Proszę wykorzystać bloki `try, except` jak przy przykładach dla modułu `requests` oraz wyjątek `ftplib.all_errors` i opatrzyć tym cały kod wykonujący połączenia za pomocą protokołu FTP. Jak wydrukujecie Pańśtwo porządnie error message z tego wyjątku, będzie więcej punktów. Accession do przetestowania:

`E-GEOD-40435` 

**Punkty za aktywność:** napisz, dlaczego skrypt nie zadziała dla tego `accession`, pomimo obecności tego badania w bazie danych. 