# Python w analizie ekonomicznej - poziom zaawansowany, warsztaty
## Temat: Web scraping.

(odpowiedzi do zadań w czasie prezentacji proszę udzielać na czacie)

Jakub Tomczak *jakub.tomczak@cdv.pl*

Agenda:

    * poznanie biblioteki BeautifulSoup
    * web scraping portalu otodom - pobieranie ofert mieszkań z wybranych lokalizacji

Wymagane biblioteki:

    * BeautifulSoup

### Instalacja biblioteki `BeautifulSoup`

Otwieramy konsolę `Anaconda prompt`.
<img src='imgs/anaconda_prompt.png' width="500" />

oraz wpisujemy:
```bash
pip install beautifulsoup4
```

przy okazji instalujemy bibliotekę `requests` (już powinna być zainstalowana):
```bash
pip install requests
```


<b>[Web scraping](https://en.wikipedia.org/wiki/Web_scraping)</b> - nazywane też web harvesting lub web data extraction to sposób ekstrakcji danych ze stron internetowych. Polega on na wydobywaniu danych ze stron internetowych poprzez zapisywanie zawartości HTML stron internetowych i przetwarzanie tak pobranej zawartości. Najczęściej proces ten wykonywany jest automatycznie przy użyciu programu nazywanego [botem](https://pl.wikipedia.org/wiki/Bot_(program))  lub poprzez web crawler ([robot internetowy](https://pl.wikipedia.org/wiki/Robot_internetowy)).

Na dzisiejszych zajęciach poznamy bibliotekę [BeautifulSoup](https://www.crummy.com/software/BeautifulSoup/bs4/doc/), która służy do wyciągania danych z plików `HTML` oraz `XML`. Biblioteka parsuje pliki tego typu oraz udostępnia metody do prostego wyciągania danych ze znaczników HTML oraz plików XML.

Czy web scraping ma sens?

https://www.scraping-bot.io/

In [10]:
from bs4 import BeautifulSoup

html_doc = """
<html>
<head>
    <title>Opowieść o świnkach</title>
    <style>
        .story_heading {
            font-style: italic;
        }
    </style>
</head>
<body>
<p class="tytul"><b>Historia trzech świnek</b></p>

<p class="opowiesc">
    <p class='story_heading'>
        Tutaj zaczyna się opowieść
    </p>
    <div id="first_part">
        <p class='story'>
            Daleko daleko za górami żyły sobie 3 świnki
            <a href="http://google.com" class="sister" id="link1">Mela</a>,
            <a href="http://innylink.com/lacie" class="sister" id="link2">Bela</a> i
            <a href="http://jakislink.com/ela" class="sister" id="link3">Ela</a>.
            Nie miały za bardzo nic do pracy.
            <br/>
            I tak się kończy historia trzech świnek.
        </p>
    </div>
    Więcej informacji pod <a class="brother" href="some_link.html">tym ciekawym linkiem</a>.
</p>
"""

Strona ta wygląda mniej więcej tak, gdy zapiszemy ją do pliku z rozszerzeniem `html` i otworzymy w przeglądarce

<img src='imgs/przykładowa_strona.png' width='600' />

Tworzymy obiekt `BeaufitulSoup` na podstawie powyższego dokumentu HTML.

In [12]:
soup = BeautifulSoup(html_doc, 'html.parser')

Co ma obiekt `soup` w sobie?

In [13]:
soup


<html>
<head>
<title>Opowieść o świnkach</title>
<style>
        .story_heading {
            font-style: italic;
        }
    </style>
</head>
<body>
<p class="tytul"><b>Historia trzech świnek</b></p>
<p class="opowiesc">
<p class="story_heading">
        Tutaj zaczyna się opowieść
    </p>
<div id="first_part">
<p class="story">
            Daleko daleko za górami żyły sobie 3 świnki
            <a class="sister" href="http://google.com" id="link1">Mela</a>,
            <a class="sister" href="http://innylink.com/lacie" id="link2">Bela</a> i
            <a class="sister" href="http://jakislink.com/ela" id="link3">Ela</a>.
            Nie miały za bardzo nic do pracy.
            <br/>
            I tak się kończy historia trzech świnek.
        </p>
</div>
    Więcej informacji pod <a class="brother" href="some_link.html">tym ciekawym linkiem</a>.
</p>
</body></html>

Od teraz możemy odnosić się do znaczników HTML korzystając ze składni `[obiekt BeautifulSoup]`.`[nazwa tagu]`. Dla przykładu, chcąc wybrać cały znacznik `body` możemy posłużyć się składnią

In [15]:
soup.body

<body>
<p class="tytul"><b>Historia trzech świnek</b></p>
<p class="opowiesc">
<p class="story_heading">
        Tutaj zaczyna się opowieść
    </p>
<div id="first_part">
<p class="story">
            Daleko daleko za górami żyły sobie 3 świnki
            <a class="sister" href="http://google.com" id="link1">Mela</a>,
            <a class="sister" href="http://innylink.com/lacie" id="link2">Bela</a> i
            <a class="sister" href="http://jakislink.com/ela" id="link3">Ela</a>.
            Nie miały za bardzo nic do pracy.
            <br/>
            I tak się kończy historia trzech świnek.
        </p>
</div>
    Więcej informacji pod <a class="brother" href="some_link.html">tym ciekawym linkiem</a>.
</p>
</body>

Chcąc wypisać znacznik z linkiem, czyli `a`, korzystamy z następującego kodu

In [16]:
soup.a # wpisując nazwę jakiegoś znacznika, zawsze odwołujemy się do pierwszego napotkanego

<a class="sister" href="http://google.com" id="link1">Mela</a>

W ten sposób odnaleźliśmy pierwszy link na stronie.

W ten sam sposób możemy wyciągać znaczniki ze znaczników.

In [17]:
soup.body.div.p.a

<a class="sister" href="http://google.com" id="link1">Mela</a>

Oczywiście w ten sposób wyciągniemy tylko pierwsze wystąpienia znacznika `body`, w nim pierwszy znacznik `div`, w nim pierwszy znacznik `p`, a w nim pierwszy `a`. Często potrzebujemy odnaleźć wszystkie znaczniki `p` - zrobimy to dzięki funkcji `find_all`, o której za chwilę.

## Wyciąganie tekstu ze znaczników

Jak wyświetlić `Mela` - czyli to co jest tektem widocznym na ekranie ?

Pierwszym sposobem jest wykorzystanie atrybutu `string` na znaczniku

In [18]:
soup.a.string

'Mela'

można również skorzystać z metody `get_text()` wywołanej na tym znaczniku

In [19]:
soup.a.get_text()

'Mela'

Albo też wykorzystać atrybut `contents`

In [20]:
soup.a.contents

['Mela']

Jaka jest różnica między nimi? Spójrzmy na przykład wyciągania tekstu ze znacznika `body`

`string`

In [21]:
soup.body.string # tutaj nie mamy nic

`get_text()`

In [22]:
soup.body.get_text() # tu jest w porządku

'\nHistoria trzech świnek\n\n\n        Tutaj zaczyna się opowieść\n    \n\n\n            Daleko daleko za górami żyły sobie 3 świnki\n            Mela,\n            Bela i\n            Ela.\n            Nie miały za bardzo nic do pracy.\n            \n            I tak się kończy historia trzech świnek.\n        \n\n    Więcej informacji pod tym ciekawym linkiem.\n\n'

`contents`

In [23]:
soup.body.contents # a tutaj coś za dużo

['\n',
 <p class="tytul"><b>Historia trzech świnek</b></p>,
 '\n',
 <p class="opowiesc">
 <p class="story_heading">
         Tutaj zaczyna się opowieść
     </p>
 <div id="first_part">
 <p class="story">
             Daleko daleko za górami żyły sobie 3 świnki
             <a class="sister" href="http://google.com" id="link1">Mela</a>,
             <a class="sister" href="http://innylink.com/lacie" id="link2">Bela</a> i
             <a class="sister" href="http://jakislink.com/ela" id="link3">Ela</a>.
             Nie miały za bardzo nic do pracy.
             <br/>
             I tak się kończy historia trzech świnek.
         </p>
 </div>
     Więcej informacji pod <a class="brother" href="some_link.html">tym ciekawym linkiem</a>.
 </p>,
 '\n']

Jak widać własność `contents` użyta dla jakiegoś znacznika zwraca to co jest między znacznikiem otwierającym, a zamykającym - zazwyczaj jednak będą to inne znaczniki. Natomiast metoda `get_text()` wyciąga ze znacznika, a co ważne, ze znaczników zagnieżdżonych tekst, który jest widoczny dla użytkownika.

## Atrybuty znaczników wyciągniętych za pomocą `BeautifulSoup`

Wyciąganie atrybutów

In [24]:
soup.body.div.p.a

<a class="sister" href="http://google.com" id="link1">Mela</a>

In [25]:
soup.body.div.p.a['href']

'http://google.com'

In [26]:
soup.body.div.p.a['id']

'link1'

In [27]:
soup.body.div.p.a['class']

['sister']

Gdy chcemy pobrać wartość atrybutu, którego dany znacznik nie posiada dostaniemy wyjątek `KeyError`

In [28]:
soup.body.div.p.a['style']

KeyError: 'style'

Dlatego wcześniej lepiej jest sprawdzić za pomocą wyrażenia `in`, tak samo jak w przypadku sprawdzania, czy klucz należy do słownika

In [29]:
if 'style' in soup.body.div.p.a:
    print('Znacznik `a` posiada atrybut style')
else:
    print('Znacznik `a` nie posiada atrybutu style')

Znacznik `a` nie posiada atrybutu style


## Filtrowanie wyników

Metoda `find_all` przeszukuje wszystkie znaczniki występujące wewnątrz znacznika na którym jest wykonywana metoda `find_all`.

`soup.body.find_all('a')` odnajduje wszystkie znaczniki o nazwie `a` (linki) występujące wewnątrz znacznika `body`. Jest to o tyle przydatne, że kod HTML ma mnóstwo zagnieżdżonych w sobie znaczników, dlatego czasami jest lepiej zaczynać szukać od konkretnego znacznika (który jest już na pewnym poziomie zagnieżdżenia) niż szukanie za każdym razem od początku dokumentu.

Aby wyciągać wszystkie znaczniki typu `a` możemy użyć metody `find_all` na obiekcie `soup`:

In [30]:
for element in soup.find_all('a'):
    print('znaleziony element:', element)
    link = element["id"]
    nazwa_w_linku = element.get_text()
    print("link:", link)
    print('nazwa w linku:', nazwa_w_linku)
    print()

znaleziony element: <a class="sister" href="http://google.com" id="link1">Mela</a>
link: link1
nazwa w linku: Mela

znaleziony element: <a class="sister" href="http://innylink.com/lacie" id="link2">Bela</a>
link: link2
nazwa w linku: Bela

znaleziony element: <a class="sister" href="http://jakislink.com/ela" id="link3">Ela</a>
link: link3
nazwa w linku: Ela

znaleziony element: <a class="brother" href="some_link.html">tym ciekawym linkiem</a>


KeyError: 'id'

Metoda `find_all` pozwala na znalezienie wszystkich znaczników o nazwie podanej jako pierwszy parametr. Szerszy opis metody [find_all](https://www.crummy.com/software/BeautifulSoup/bs4/doc/#find-all). Dodatkowo, możemy wyszukiwać po `id` elementu, na przykład:

In [31]:
# wyświetlamy pierwszy link w dokumencie
print(soup.a)
print(soup.a["id"])
# wyszukujemy elementu z id = link1
soup.find_all(id="link1")

<a class="sister" href="http://google.com" id="link1">Mela</a>
link1


[<a class="sister" href="http://google.com" id="link1">Mela</a>]

Możemy również dodać więcej filtrów na poszukiwane znaczniki. Możemy na przykład szukać wszystkich znaczników `a` (czyli linków), które mają klasę `sister` przekazując słownik z poszukiwanymi wartościami atrybutów:

In [32]:
print('Wszystkie znaczniki z linkami')
soup.find_all('a')

Wszystkie znaczniki z linkami


[<a class="sister" href="http://google.com" id="link1">Mela</a>,
 <a class="sister" href="http://innylink.com/lacie" id="link2">Bela</a>,
 <a class="sister" href="http://jakislink.com/ela" id="link3">Ela</a>,
 <a class="brother" href="some_link.html">tym ciekawym linkiem</a>]

In [33]:
print('Znaczniki z linkami, które mają klase `sister`')
soup.find_all('a', attrs={'class': 'sister'}) # Ważna jest nazwa argumentu 'attrs' !

Znaczniki z linkami, które mają klase `sister`


[<a class="sister" href="http://google.com" id="link1">Mela</a>,
 <a class="sister" href="http://innylink.com/lacie" id="link2">Bela</a>,
 <a class="sister" href="http://jakislink.com/ela" id="link3">Ela</a>]

Metoda `find` - robi to samo co metoda `find_all` z argumentem `limit=1`

In [34]:
soup.find('a')

<a class="sister" href="http://google.com" id="link1">Mela</a>

Jak można się domyślać, wywołanie `find_all` z argumentem `limit=1` pozwala na zwrócenie tylko 1 wyniku - w ten sposób mozna optymalizować działanie funkcji `find_all`. Skoro chcemy znaleźć tylko 2 pierwsze wyniki to nie ma sensu szukać wszystkich, a następnie wybierać tylko pierwsze 2 elementy z listy:

In [35]:
wszystkie_linki = soup.find_all('a')
pierwsze_2_linki = wszystkie_linki[:2]
pierwsze_2_linki

[<a class="sister" href="http://google.com" id="link1">Mela</a>,
 <a class="sister" href="http://innylink.com/lacie" id="link2">Bela</a>]

lepiej od razu użyć argumentu `limit=2`:

In [36]:
soup.find_all('a', limit=2)

[<a class="sister" href="http://google.com" id="link1">Mela</a>,
 <a class="sister" href="http://innylink.com/lacie" id="link2">Bela</a>]

W przypadku, gdy dokument ma na przykład 10 000 linków mocno odczujemy różnicę czasów wykonania obu tych metod - oczywiście szybsza będzie metoda z argumentem `limit = 2`.

## Pobieranie danych z tabel znajdujących się na stronach internetowych

Uruchamiamy serwer flask z [zajęć nr 5](http://e-learning.cdv.pl/edu/mod/resource/view.php?id=17832) (pobieranie zacznie się po zalogowaniu do moodle, jeżeli nie było się zalogowanym)

W `Anaconda prompt` przechodzimy do folderu z plikiem `app.py`, który znajduje się w pobranym archiwum. Aby przejść do innego folderu w konsoli musimy użyć komendy `cd /d [ścieżka do folderu]`. Następnie uruchamiamy serwer wpisując w konsoli `Anaconda prompt` poniższą komendę:
```bash
python app.py
```
Powinniśmy otrzymać taki tekst w konsoli:
<img src="imgs/start_server.png" width="800" />

Po udanym uruchomieniu serwera przechodzimy do strony [127.0.0.1:1234](http://127.0.0.1:1234) i dodajemy kilku państw, a następnie użytkowników
<img src="imgs/adding_users.png" width="500" />

Klikamy prawym przyciskiem na tytuł jednego z ogłoszeń i wybieramy opcję Inspect Element (w przeglądarce Firefox) lub Zbadaj (w przeglądarce Chrome), w innych przeglądarkach ta opcja może nazywać się inaczej.
Możemy również wcisnąć klawisz `F12`, wówczas otworzy się okno z narzędziami dla developerów (skrót klawiszowy powinien działać w każdej przeglądarce). Wynikiem działania obu metod powinno być otwarcie konsoli na dole przeglądarki, powinno wyglądać ono mniej więcej tak (wygląd w Firefox)
<img src="imgs/web_developer_console.png" width="800" />

Gdy uruchomiliśmy konsolę przez wybór opcji `Inspect Element` od razu powinniśmy znaleźć się w karcie `Inspector` w której możemy podejrzeć kod źródłowy HTML, a na niebiesko powinna być podświetlona linijka odpowiadająca za generowanie elementu na którym wywołaliśmy opcję `Inspect Element`. Jeżeli do konsoli dla deweloperów weszliśmy przez skrót `F12` to powinniśmy przejść do karty `Inspector`, następnie, najeżdząjąc myszką na kolejne linijki kodu możemy zauważyć za generowanie jakich elementów HTML dana linijka odpowiada.

Zauważmy, że za tabelkę znacznik `<table>` - to będzie tag od którego rozpoczniemy analizę tabeli.

Na początek pobieramy całą stronę z listą użytkowników korzystając z biblioteki `requests`

In [38]:
import requests

page = requests.get('http://127.0.0.1:1234')

Sprawdzamy czy strona się pobrała poprawnie za pomocą atrybutu `status_code` (jeżeli wszystko się udało to `status_code` powinien być równy 200) lub `ok` (powinien mieć wartość `True`)

In [39]:
print(page.status_code)
print(page.ok)

200
True


Jeżeli udało się pobrać stronę poprawnie to sprawdzamy co zostało pobrane za pomocą metody `requests.get()`

In [42]:
page.content

b'<!DOCTYPE html>\n<title>Wypisywanie u\xc5\xbcytkownik\xc3\xb3w</title>\n\n    <h1>U\xc5\xbcytkownicy</h1>\n    <table border="1">\n        <thead>\n            <tr>\n                <th>ID</th>\n                <th>Nazwa u\xc5\xbcytkownika</th>\n                <th>Email</th>\n                <!-- TODO zad. 14\n                dodaj kolumn\xc4\x99 kt\xc3\xb3ra b\xc4\x99dzie mia\xc5\x82a nazw\xc4\x99 `Obywatelstwo` -->\n                <th>Obywatelstwo</th>\n                <th></th>\n                <th></th>\n            </tr>\n        </thead>\n        <tbody>\n            \n                <tr>\n                    <th>1</th>\n                    <td>Janina</td>\n                    <td>janina@gmail.com</td>\n                    <!-- TODO zad. 14\n                    Dodaj kolumn\xc4\x99 w kt\xc3\xb3rej b\xc4\x99dzie wy\xc5\x9bwietlana nazwa pa\xc5\x84stwa danego u\xc5\xbcytkownika -->\n                    <td>Polska</td>\n                    <td><a href="/delete_user/1">usu\xc5\x

Udało się pobrać stronę, widać, że zawiera dane jakichś użytkowników, obiekt `page.content` (lub `page.text`) zawiera kod HTML, więc możemy go wrzucić bezpośrednio do konstruktora obiektu `BeautifulSoup`, oraz wyświetlamy kod strony sprasowanej za pomocą `BeautifulSoup` za pomocą metody `prettify()`

In [43]:
page_users = BeautifulSoup(page.content)
page_users.prettify()

'<!DOCTYPE html>\n<title>\n Wypisywanie użytkowników\n</title>\n<h1>\n Użytkownicy\n</h1>\n<table border="1">\n <thead>\n  <tr>\n   <th>\n    ID\n   </th>\n   <th>\n    Nazwa użytkownika\n   </th>\n   <th>\n    Email\n   </th>\n   <!-- TODO zad. 14\n                dodaj kolumnę która będzie miała nazwę `Obywatelstwo` -->\n   <th>\n    Obywatelstwo\n   </th>\n   <th>\n   </th>\n   <th>\n   </th>\n  </tr>\n </thead>\n <tbody>\n  <tr>\n   <th>\n    1\n   </th>\n   <td>\n    Janina\n   </td>\n   <td>\n    janina@gmail.com\n   </td>\n   <!-- TODO zad. 14\n                    Dodaj kolumnę w której będzie wyświetlana nazwa państwa danego użytkownika -->\n   <td>\n    Polska\n   </td>\n   <td>\n    <a href="/delete_user/1">\n     usuń\n    </a>\n   </td>\n   <td>\n    <a href="/update_user/1">\n     aktualizuj\n    </a>\n   </td>\n  </tr>\n  <tr>\n   <th>\n    2\n   </th>\n   <td>\n    Jan\n   </td>\n   <td>\n    jan@kowalski.pl\n   </td>\n   <!-- TODO zad. 14\n                    Dodaj kolu

Wyciągamy element `table`

In [45]:
page_users.table

<table border="1">
<thead>
<tr>
<th>ID</th>
<th>Nazwa użytkownika</th>
<th>Email</th>
<!-- TODO zad. 14
                dodaj kolumnę która będzie miała nazwę `Obywatelstwo` -->
<th>Obywatelstwo</th>
<th></th>
<th></th>
</tr>
</thead>
<tbody>
<tr>
<th>1</th>
<td>Janina</td>
<td>janina@gmail.com</td>
<!-- TODO zad. 14
                    Dodaj kolumnę w której będzie wyświetlana nazwa państwa danego użytkownika -->
<td>Polska</td>
<td><a href="/delete_user/1">usuń</a></td>
<td><a href="/update_user/1">aktualizuj</a></td>
</tr>
<tr>
<th>2</th>
<td>Jan</td>
<td>jan@kowalski.pl</td>
<!-- TODO zad. 14
                    Dodaj kolumnę w której będzie wyświetlana nazwa państwa danego użytkownika -->
<td>Francja</td>
<td><a href="/delete_user/2">usuń</a></td>
<td><a href="/update_user/2">aktualizuj</a></td>
</tr>
<tr>
<th>3</th>
<td>andrzej</td>
<td>andrzej@pudelek.pl</td>
<!-- TODO zad. 14
                    Dodaj kolumnę w której będzie wyświetlana nazwa państwa danego użytkownika -->
<td>

Zadanie 1 (3 pkt.)

1. Wyciągnij dane użytkowników z tabeli do listy tupli. Końcowy efekt
```python
[
    (imie_użytkownika_1, email_użytkownika_1, obywatelstwo_użytkownika_1),
    (imie_użytkownika_2, email_użytkownika_2, obywatelstwo_użytkownika_2)
]
```
2. Stwórz `DataFrame` z pandas, posiadający 3 kolumny `Imię`, `Email` oraz `Obywatelstwo`, w wierszach powinny się znaleźć dane kolejnych użytkowników. Do wykonania tego punktu przyda się dokumentacja ramki danych [`DataFrame`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.html).

W poprzednim zadaniu musieliśmy odnaleźć wszystkie znaczniki `td`, które nie zawierają linków. Można było wykorzystać metodę `find_all('td')`, a następnie dla każdego znalezionego elementu analizować jego zawartość.
Funkcja `find_all` oprócz ciągu znaków oznaczającego poszukiwany element może przyjmować jako argument funkcję, która będzie służyła do filtrowania. Funkcja ta powinna przyjmować jeden argument - będzie to znacznik HTML, natomiast powinna ona zwracać wartość `True` lub `False`. Zwrócenie `True` będzie oznaczało, że znacnzik, który był sprawdzany spełnia nasze kryteria i powinien być odnaleziony poprzez funkcję `find_all`. Poniższy przykład pokaże jak znajdować wszystkie znaczniki `td`, które zawierają w sobie linki (znacznik `a`).

In [51]:
def find_data_without_links(tag):
    return tag.name == 'td' and tag.a

page_users.table.find_all(find_data_without_links)

[<td><a href="/delete_user/1">usuń</a></td>,
 <td><a href="/update_user/1">aktualizuj</a></td>,
 <td><a href="/delete_user/2">usuń</a></td>,
 <td><a href="/update_user/2">aktualizuj</a></td>,
 <td><a href="/delete_user/3">usuń</a></td>,
 <td><a href="/update_user/3">aktualizuj</a></td>]

## Szukanie tytułów ogłoszeń z mieszkaniami oraz ich cen wynajmu na podstawie danych z  portalu `otodom`.

Na portalu [otodom.pl](otodom.pl) można zaleźć oferty domów i mieszkań, na wynajem lub na sprzedaż. Korzystając z portalu możemy w bardzo prosty sposób wyciągnać ogłoszenia z dodatkowymi filtrami dotyczącymi na przykład powierzchni mieszkania, czy jego maksymalnej ceny za miesiąc w przypadku wynajmu. Naszym zadaniem będzie pobieranie tytułów ogłoszeń oraz ich cen.

Na początku musimy zbdać strukturę strony www i spojrzeć jakie elementy (znaczniki HTML) odpowiadają tytułowi ogłoszenia oraz jego cenie. Poniżej znajduje się link z portalu otodom z włączonymi filtrami.

Przykładowy adres (wyszukiwanie mieszkania w przedziale cenowym 1000-2000, do 30m^2, lokalizacja: Gdańsk, dzielnica Oliwa):


[https://www.otodom.pl/wynajem/mieszkanie/gdansk/oliwa/?search%5Bfilter_float_price%3Afrom%5D=1000&search%5Bfilter_float_price%3Ato%5D=2000&search%5Bfilter_float_m%3Ato%5D=30&search%5Bregion_id%5D=11&search%5Bsubregion_id%5D=439&search%5Bcity_id%5D=40&search%5Bdistrict_id%5D=16](https://www.otodom.pl/wynajem/mieszkanie/gdansk/oliwa/?search%5Bfilter_float_price%3Afrom%5D=1000&search%5Bfilter_float_price%3Ato%5D=2000&search%5Bfilter_float_m%3Ato%5D=30&search%5Bregion_id%5D=11&search%5Bsubregion_id%5D=439&search%5Bcity_id%5D=40&search%5Bdistrict_id%5D=16)

Klikamy prawym przyciskiem na tytuł jednego z ogłoszeń i wybieramy opcję `Inspect Element` (w przeglądarce Firefox) lub `Zbadaj` (w przeglądarce Chrome), w innych przeglądarkach ta opcja może nazywać się inaczej.

Sprawdzanie elementu HTML w przeglądarce Firefox
<img src='imgs/inspect_element_menu_firefox.png' width='700' />

Sprawdzanie elementu HTML w przeglądarce Chrome
<img src='imgs/inspect_element_menu_chrome.png' width='700' />

W obu przeglądarkach powinno wyskoczyć podobne okno z kodem HTML strony. Po najechaniu na dowolną z linijek widzimy za renderowanie którego elemetu na stronie ona odpowiada. Miejmy na uwadze, że element, który jest podświetlony może zawierać w sobie kolejne, zagnieżdżona znaczniki HTML. 
<img src="imgs/inspect_element_menu_firefox_details.png" width="1000" />

Rozwijamy znaczniki tak długo, aż nie będziemy widzieli tekstu odpowiadającego tytułowi ogłoszenia.
<img src="imgs/inspect_element_menu_firefox_details_2.png" width="800" />

Jak widać, znacznikiem, który przechowuje tytuł ogłoszenia jest znacznik `span`, z atrybutem `class="offer-item-title"`. Dzięki tym informacjom będziemy mogli pobrać wszystkie tytuły ogłoszeń z danej strony. Przejdźmy do pisania kodu.

In [52]:
url = "https://www.otodom.pl/wynajem/mieszkanie/gdansk/oliwa/?search%5Bfilter_float_price%3Afrom%5D=1000&search%5Bfilter_float_price%3Ato%5D=2000&search%5Bfilter_float_m%3Ato%5D=30&search%5Bregion_id%5D=11&search%5Bsubregion_id%5D=439&search%5Bcity_id%5D=40&search%5Bdistrict_id%5D=16"

Pobieramy zawartośc strony z ogłoszeniami korzystając z biblioteki `requests`. Wypisujemy [kod odpowiedzi](https://pl.wikipedia.org/wiki/Kod_odpowiedzi_HTTP) (powinien być 200 jeżeli się uda się pobrać zawartość strony poprawnie) oraz wypisujemy pobraną zawartość.

In [53]:
import requests
response = requests.get(url)
print(response.status_code) # kody odpowiedzi HTTP - https://pl.wikipedia.org/wiki/Kod_odpowiedzi_HTTP


200


Udało się pobrac zawartość strony z ogłoszeniami - otrzymaliśmy kod 200. Dlatego teraz wypisujemy otrzymaną treść strony z ogłoszeniami i przypisujemy ją do zmiennej `html`.

In [54]:
print(response.text)

html = response.text

<!DOCTYPE html>
<html xmlns:og="http://ogp.me/ns#" xmlns:fb="http://www.facebook.com/2008/fbml">
	<head>
		<meta http-equiv="Content-Type" content="text/html; charset=utf-8">
		<title>Mieszkanie  na wynajem w Oliwa, Gdańsk, pomorskie - www.otodom.pl</title>
						<meta name="robots" content="index, follow" />		<link rel="canonical" href="https://www.otodom.pl/wynajem/mieszkanie/gdansk/oliwa/" />				<meta http-equiv="Content-Language" content="pl" />
		<meta name="description" content="Zobacz 5 mieszkań do wynajęcia z co najmniej 1 pokojem w miejscowości Oliwa, Gdańsk, pomorskie od 1000. Znajdź te i wiele innych ofert z rynku nieruchomości w kategorii mieszkania na sprzedaż, ale także sprzedaży i wynajmu domów, działek, pokojów, lokali usługowych, biur, garaży i magazynów w otodom.pl. Najpopularniejszym serwisie nieruchomości w Polsce." />
					<meta name="viewport" content="width=device-width, initial-scale=1.0, maximum-scale=1.0">
							<meta property="og:description" content="Zobacz

Teraz korzystamy z biblioteki `BeautifulSoup` do przetworzenia strony (parsowania kodu HTML).

In [55]:
soup = BeautifulSoup(html, 'html.parser')

Następnie staramy się znaleźć wszystkie znaczniki `span`, które posiadają klasę `offer-item-title` (znacznik HTML może posiadać wiele klas - są one rozdzielane spacją).

In [56]:
for title in soup.find_all('span', {'class' : 'offer-item-title'}):
    print(title)

<span class="offer-item-title">Kawalerka po remoncie tuż obok Obc, Oliwa</span>
<span class="offer-item-title">Komfortowe Studio, Super Lokalizacja W Oliwie!</span>
<span class="offer-item-title">Wita Stwosza obok Uniwersytetu</span>
<span class="offer-item-title">Mieszkanie, 26 m², Gdańsk</span>
<span class="offer-item-title">Mieszkanie - Gdańsk Oliwa</span>


Sprawdźmy, korzystając z przeglądarki, czy odnaleźliśmy wszystkie ogłoszenia.

Zadanie 2 (3 pkt.)

1. Korzystając z tego samego [odnośnika](https://www.otodom.pl/wynajem/mieszkanie/gdansk/oliwa/?search%5Bfilter_float_price%3Afrom%5D=1000&search%5Bfilter_float_price%3Ato%5D=2000&search%5Bfilter_float_m%3Ato%5D=30&search%5Bregion_id%5D=11&search%5Bsubregion_id%5D=439&search%5Bcity_id%5D=40&search%5Bdistrict_id%5D=16), sprawdź (za pomocą przeglądarki internetowej) w jakim znaczniku jest ukryta cena ogłoszenia (przyda się również dodatkowa informacja - jaką klasę ma ten znacznik).
2. Wyświetl wszystkie ceny ogłoszeń znajdujące się na stronie. Następnie oblicz ich średnią.

Do zamiany tekstu na liczbę możesz wykorzystać poniższą funkcję

In [57]:
import re
# dodatkowa funkcja zamieniająca tekst ze znacznika na liczbę całkowitą
# korzysta ona z wyrażeń regularnych - https://pl.wikibooks.org/wiki/Zanurkuj_w_Pythonie/Wyra%C5%BCenia_regularne
def text_to_price(text):
    values = re.findall('[\d\s]+', text)
    if len(values) < 1:
        return 0
    try:
        return int(values[0].replace(' ', ''))
    except:
        return 0
    
text_to_price('1 500 zł/mc') + 20

1520

Zadanie 3 (2 pkt.)

1. Korzystając z [dokumentacji](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.html) stwórz ramkę danych, która będzie zawierała 2 kolumny - tytuł ogłoszenia oraz jego cenę.
2. Opisz poprawnie tytuły kolumn.
3. Wyświetl podsumowanie danych w ramce.
4. Zapisz ramkę danych do pliku w formacie csv.

## Przechodzenie między stronami

Do analizy wykorzystamy teraz modyfikację powyższego zapytania - usuniemy filtrowanie, tak by otrzymać jak najwięcej ogłoszeń. Do zmiennej `url` przypiszmy następujący adres [https://www.otodom.pl/wynajem/mieszkanie/gdansk/oliwa/?search%5Bregion_id%5D=11&search%5Bsubregion_id%5D=439&search%5Bcity_id%5D=40&search%5Bdistrict_id%5D=16](https://www.otodom.pl/wynajem/mieszkanie/gdansk/oliwa/?search%5Bregion_id%5D=11&search%5Bsubregion_id%5D=439&search%5Bcity_id%5D=40&search%5Bdistrict_id%5D=16).
Po wejściu na ten link, widzimy, iż liczba ofert jest większa niż poprzednio - przez usunięcie filtrów (jeżeli w ofert jest mniej niż 24 poszukajmy mieszkań np. w Warszawie).

In [66]:
url = 'https://www.otodom.pl/wynajem/mieszkanie/gdansk/oliwa/?search%5Bregion_id%5D=11&search%5Bsubregion_id%5D=439&search%5Bcity_id%5D=40&search%5Bdistrict_id%5D=16'

<img src='imgs/otodom_more_examples.png' width='800' />

Teraz udało się odnaleźć aż 58 ogłoszeń, domyślnie otodom wyświetla tylko 24 na jednej stronie dlatego też postaramy się, analizując kod HTML strony, przechodzić do kolejnych stron, tak by zebrać wszystkie dostępne ogłoszenia. Jak widać na poniższym screenie, użytkownik widzi takie przyciski. Dzięki nim możemy przechodzić między stronami z ogłoszeniami.

<img src="imgs/webscrapping_move_to_other_page.png" />

Pobieramy stronę za pomocą biblioteki `requests` oraz korzystamy z `BeautifulSoup` do parsowania kodu HTML strony.

In [67]:
import requests
response = requests.get(url)
# Jeżeli kod odpowiedzi jest inny niż 200 to pobieranie kodu strony się nie powiodło
print(response.status_code)

200


Przypisujemy kod HTML pobranej strony do zmiennej `html` oraz parsujemy stronę z użyciem biblioteki `BeautifulSoup`

In [68]:
html = response.text
parsed_page = BeautifulSoup(html, 'html.parser')

Wracamy do przeglądarki, aby przeanalizować kod HTML odpowiedzialny za wyświetlanie przycisków do zmiany strony. Na poniższym obrazku widzimy, że przycisk do kolejnej strony jest linkiem (znacznik `a`) zagnieżdżonym w znaczniku `li`, który natomiast jest zagnieżdżony w znaczniku `ul` z klasą `pager`.

<img src='imgs/next_page_html.png' width='800' />

Wyciągamy znacznik `ul` z klasą `pager`. Dlaczego ten? Ponieważ znacznik `a` z linkiem do kolejnej strony nie zawiera ani atrybutu `id`, ani `class`, które pomogłyby w jego identyfikacji, tak samo znacznik `li`.

In [69]:
pager_ul_tag = parsed_page.find_all('ul', attrs={'class': 'pager'})
pager_ul_tag

[<ul class="pager">
 <li class="pager-prev">
 <a class="disabled" data-dir="previous" href=""><span class="icon-prev"></span></a>
 </li>
 <li><a class="active" href="https://www.otodom.pl/wynajem/mieszkanie/gdansk/oliwa/?search%5Bregion_id%5D=11&amp;search%5Bsubregion_id%5D=439&amp;search%5Bcity_id%5D=40&amp;search%5Bdistrict_id%5D=16">1</a></li>
 <li><a class="" href="https://www.otodom.pl/wynajem/mieszkanie/gdansk/oliwa/?search%5Bregion_id%5D=11&amp;search%5Bsubregion_id%5D=439&amp;search%5Bcity_id%5D=40&amp;search%5Bdistrict_id%5D=16&amp;page=2">2</a></li>
 <li><a class="" href="https://www.otodom.pl/wynajem/mieszkanie/gdansk/oliwa/?search%5Bregion_id%5D=11&amp;search%5Bsubregion_id%5D=439&amp;search%5Bcity_id%5D=40&amp;search%5Bdistrict_id%5D=16&amp;page=3">3</a></li>
 <li class="pager-next">
 <a class="" data-dir="next" href="https://www.otodom.pl/wynajem/mieszkanie/gdansk/oliwa/?search%5Bregion_id%5D=11&amp;search%5Bsubregion_id%5D=439&amp;search%5Bcity_id%5D=40&amp;search%5Bdist

Obiekt o nazwie `pager_ul_tag` jest typu `ResultSet`, który możemy przechodzić jak listę. Sprawdźmy ile wyników przechowuje obiekt `pager_ul_tag`

In [70]:
len(pager_ul_tag)

1

Sprawdźmy pierwszy element

In [71]:
page_links = pager_ul_tag[0]
page_links

<ul class="pager">
<li class="pager-prev">
<a class="disabled" data-dir="previous" href=""><span class="icon-prev"></span></a>
</li>
<li><a class="active" href="https://www.otodom.pl/wynajem/mieszkanie/gdansk/oliwa/?search%5Bregion_id%5D=11&amp;search%5Bsubregion_id%5D=439&amp;search%5Bcity_id%5D=40&amp;search%5Bdistrict_id%5D=16">1</a></li>
<li><a class="" href="https://www.otodom.pl/wynajem/mieszkanie/gdansk/oliwa/?search%5Bregion_id%5D=11&amp;search%5Bsubregion_id%5D=439&amp;search%5Bcity_id%5D=40&amp;search%5Bdistrict_id%5D=16&amp;page=2">2</a></li>
<li><a class="" href="https://www.otodom.pl/wynajem/mieszkanie/gdansk/oliwa/?search%5Bregion_id%5D=11&amp;search%5Bsubregion_id%5D=439&amp;search%5Bcity_id%5D=40&amp;search%5Bdistrict_id%5D=16&amp;page=3">3</a></li>
<li class="pager-next">
<a class="" data-dir="next" href="https://www.otodom.pl/wynajem/mieszkanie/gdansk/oliwa/?search%5Bregion_id%5D=11&amp;search%5Bsubregion_id%5D=439&amp;search%5Bcity_id%5D=40&amp;search%5Bdistrict_id%5

oraz jego typ

In [72]:
type(page_links)

bs4.element.Tag

Jest to znacznik HTML (tag), dlatego możemy na nim wywołać funkcję `find_all`.

Zadanie 4 (2pkt.)

1. Wyświetl wszystkie linki (znacznik `a`) znajdujące się wewnątrz obiektu `page_links`.
2. Wyciągnij tylko te linki, które są linkami do stron z wynikami wyszukiwania stwórz z nich listę tupli, gdzie pierwszym elementem będzie numer strony, drugim link do tej strony. Przykładowy wynik
```python
[
    (1, "https://www.otodom.pl/wynajem/mieszkanie/gdansk/oliwa/?search%5Bregion_id%5D=11&amp;search%5Bsubregion_id%5D=439&amp;search%5Bcity_id%5D=40&amp;search%5Bdistrict_id%5D=16"),
    (2, "https://www.otodom.pl/wynajem/mieszkanie/gdansk/oliwa/?search%5Bregion_id%5D=11&amp;search%5Bsubregion_id%5D=439&amp;search%5Bcity_id%5D=40&amp;search%5Bdistrict_id%5D=16&amp;page=2")
]
```

Zadanie 5 (2pkt.)

1. Pobierz wszystkie strony, które zostały zapisane do listy w poprzednim punkcie.
2. Wyciągnij z tych stron wszystkie ogłoszenia metodą wykorzystaną wcześniej. Wynikiem ma być ramka danych z ogłoszeniami, która będzie zawierała 2 kolumny - `tytuł` oraz `cena`. Do zamiany tekstu na liczbę wykorzystaj funkcję `text_to_price`, która została zdefiniowana wcześniej.

Zadanie domowe (3pkt.), termin oddania 22 czerwca 23:59.

1. Przeanalizuj tabelkę z populacją miast Polski znajdującą się na stronie [https://www.polskawliczbach.pl/Miasta](https://www.polskawliczbach.pl/Miasta).
2. Pobierz kod HTML strony za pomocą biblioteki `requests`, wyciągnij dane o populacji miast z tabelki przy użyciu biblioteki `BeautifulSoup`.
3. Stwórz ramkę danych zawierającą 4 kolumny: `Miasto`, `Powiat`, `Województwo` oraz `Populacja` (pomijamy obszar).
4. Dane w kolumnie `Populacja` powinny być typu `int`.
5. Zapisz ramkę danych do pliku `python pickle`.

Rezultat parsowania tabelki powinien wyglądać jak poniżej
<img src="imgs/homework1.png" width='350' />