# Big Data w biznesie

## Piąty notebook

In [49]:
from IPython.core.display import HTML


def _set_css_style(css_file_path):
    """
    Read the custom CSS file and load it into Jupyter.
    Pass the file path to the CSS file.
    """

    styles = open(css_file_path, "r").read()
    s = '<style>%s</style>' % styles
    return HTML(s)


_set_css_style("../custom.css")

# Web scraping

W tym notatniku nauczymy się, na czym polega web scraping.

Web scraping (lub webscraping) to proces automatycznego pobierania i analizowania danych ze stron internetowych. Jest to technika, która pozwala na pobieranie informacji z witryn internetowych i przetwarzanie ich na potrzeby różnych celów, takich jak analiza biznesowa, badania rynku, tworzenie baz danych itp.

Podczas web scrapingu program automatycznie przegląda stronę internetową i pobiera potrzebne informacje z kodu źródłowego strony lub zapisuje je w specjalnym formacie, który umożliwia ich dalszą analizę. Web scraping może być wykorzystywany do pobierania różnego rodzaju informacji, takich jak nazwy produktów, ceny, dane kontaktowe, komentarze klientów, oceny produktów itp.

Jednakże warto pamiętać, że nie wszystkie strony internetowe pozwalają na web scraping, a niektóre mogą wprowadzać dodatkowe zabezpieczenia, aby utrudnić ten proces. Przed rozpoczęciem web scrapingu warto zapoznać się z polityką prywatności i zasadami korzystania ze strony internetowej, aby upewnić się, że działa się zgodnie z prawem i nie narusza się praw autorskich.

Dwa poprzednie zestawy danych, których używaliśmy (dane samochodowe i Pokémon), zostały pozyskane przy pomocy web scrapingu i wrzucone do publicznych repozytoriów.

W zależności ze sposobu generowania treści strony i jej zachowania podczas interakcji z użytkownikiem możemy wyróżnić dwa typy stron internetowych:

- Static - są to strony internetowe, których zawartość pozostaje stała i nie zmienia się bezpośrednio po załadowaniu strony. Wszystkie informacje, które są wyświetlane na stronie, są zapisane w plikach HTML, które są przechowywane na serwerze. Dlatego strony statyczne są łatwe do utworzenia i ich działanie jest bardzo przewidywalne. Nie mają one dynamicznych funkcji, takich jak możliwość logowania, interakcji z użytkownikiem czy aktualizacji zawartości bez konieczności zmiany kodu HTML.

- Dynamic - są to strony internetowe, które generują treść stron na podstawie zapytań wysyłanych przez użytkownika. Strony dynamiczne mogą wykorzystywać skrypty, takie jak PHP, JavaScript i inne, aby generować treść stron w czasie rzeczywistym. Dzięki temu strony dynamiczne oferują użytkownikom interaktywne funkcje, takie jak logowanie, wyszukiwanie, obsługę formularzy, dodawanie komentarzy itp. Strony dynamiczne często wykorzystują bazy danych, aby przechowywać informacje, które są pobierane na żądanie i wykorzystywane do generowania treści strony.

My zajmiemy się tylko stronami typu Static, ponieważ mają niezmienioną zawartość, co ułatwia proces automatycznego pobierania danych. Strony dynamiczne często korzystają z technologii, które umożliwiają zmianę zawartości strony bez przeładowania całej strony, co utrudnia web scraping. Dodatkowo wiele stron dynamicznych wykorzystuje techniki blokowania web scrapingu, co może uniemożliwić automatyczne pobieranie danych.

Pierwszym krokiem, jak zawsze, jest zaimportowanie potrzebnych nam bibliotek.

In [None]:
import requests

Biblioteka `requests` to popularna biblioteka języka Python, która służy do wysyłania żądań HTTP i pobierania odpowiedzi z serwera internetowego. `Requests` umożliwia wysyłanie różnych rodzajów żądań, takich jak GET, POST, PUT, DELETE, HEAD, OPTIONS itp. oraz obsługuje różne typy danych, takie jak JSON, XML, pliki binarne itp.

Requests jest często używana w web scrapingu, ponieważ pozwala na łatwe pobieranie danych z serwerów internetowych. Dzięki requests można np. pobrać kod źródłowy strony internetowej, a następnie użyć narzędzi do analizy danych, aby wyodrębnić potrzebne informacje.

Ponadto requests pozwala na ustawianie nagłówków żądań, przekazywanie parametrów, zarządzanie ciasteczkami, obsługę autoryzacji itp. Dzięki temu można dokładnie kontrolować proces pobierania danych z serwera i dostosować go do własnych potrzeb.

Ta część notatnika jest oparty na tutorialu dostępnym pod adresem https://realpython.com/beautiful-soup-web-scraper-python/.

Wykorzystamy stronę internetową https://realpython.github.io/fake-jobs/, która została stworzona w ramach tego tutorialu, aby przedstawić proces web scrapingu.

In [None]:
URL = "https://realpython.github.io/fake-jobs/"
page = requests.get(URL)

W tym przypadku funkcja `requests.get(URL)` wysyła żądanie HTTP GET do serwera pod adresem URL i zwraca odpowiedź serwera w postaci obiektu Response. Odpowiedź ta zawiera informacje takie jak kod statusu (np. 200 oznacza, że żądanie zostało wykonane pomyślnie), nagłówki HTTP oraz treść strony internetowej (kod HTML).

Nas interesuje treść tej strony internetowej, czyli kod źródłowy w formacie HTML, który wygląda następująco.

In [None]:
print(page.text)

Zanim przejdziemy do automatycznej analizy danych, warto poświęcić trochę czasu na ręczne zbadanie zawartości strony internetowej.

Narzędzia dla programistów mogą pomóc w zrozumieniu struktury strony internetowej. Wszystkie nowoczesne przeglądarki mają zainstalowane narzędzia dla programistów.

W Chrome na macOS narzędzia dla programistów można otworzyć przez menu, wybierając Widok → Narzędzia dla programistów.

Na Windows i Linux można uzyskać do nich dostęp, klikając przycisk menu w prawym górnym rogu (⋮) i wybierając Więcej narzędzi → Narzędzia dla programistów.

Można również uzyskać dostęp do narzędzi dla programistów, klikając prawym przyciskiem myszy na stronie i wybierając opcję Inspekcja lub używając skrótu klawiaturowego:

- Mac - Cmd + Shift + I
- Windows/Linux - Ctrl + Shift + I

Ręczna inspekcja strony może być przydatna wtedy, gdy chcemy zrozumieć dokładnie, jak działa strona, a także do testowania naszego kodu. Na przykład, możemy użyć narzędzi dla programistów, aby zobaczyć, jak zmienia się zawartość strony w zależności od interakcji użytkownika, jak wygląda stylowanie elementów HTML, jakie klasy i identyfikatory są używane na stronie i wiele innych. Jest to również przydatne podczas tworzenia kodu do web scrapingu, ponieważ ręczna inspekcja strony pozwala na zidentyfikowanie elementów, z których chcemy pobierać dane oraz określenie ich lokalizacji i struktury.

Na przykład chcemy znaleźć ID elementu, który zawiera wszystkie obiekty z ofertami pracy.

Możemy wejść na stronę (https://realpython.github.io/fake-jobs/), wejść w kod HTML strony i zidentyfikować interesujący nas kawałek kodu, który w tym przypadku wygląda następująco:

``` html
<div id="ResultsContainer" class="columns is-multiline">
[...]
</div>
```

Jeśli chcemy znaleźć wszystkie oferty pracy na tej stronie, ID tego elementu okaże się pomocne. W tym miejscu czas skorzystać z drugiej biblioteki - BeautifulSoup.

In [None]:
from bs4 import BeautifulSoup

Biblioteka BeautifulSoup to popularna biblioteka języka Python, która służy do parsowania i analizowania kodu HTML oraz XML. Biblioteka ta pozwala na wygodne wyodrębnianie potrzebnych danych ze źródeł internetowych, takich jak strony internetowe czy pliki XML.

Konkretnie, BeautifulSoup umożliwia łatwe wyszukiwanie, filtrowanie i modyfikowanie elementów HTML i XML za pomocą wygodnych metod i funkcji. Biblioteka ta oferuje wiele możliwości, takich jak:

- przeszukiwanie drzewa dokumentu HTML/XML w celu znalezienia konkretnych elementów i ich atrybutów,
- wyodrębnianie tekstu, linków, obrazów i innych danych z elementów HTML/XML,
- parsowanie HTML/XML z różnych źródeł, takich jak pliki, łańcuchy znaków czy strumienie danych,
- tworzenie nowych dokumentów HTML/XML i modyfikowanie istniejących dokumentów.

Biblioteka BeautifulSoup jest często używana w web scrapingu do analizy i wyodrębniania danych ze stron internetowych. Dzięki niej możemy łatwo znaleźć potrzebne nam elementy strony, takie jak tytuły, nagłówki, linki, dane tabelaryczne itp., oraz przechwycić je do dalszej analizy i przetwarzania.

In [None]:
soup = BeautifulSoup(page.content, "html.parser")

Kod ten tworzy obiekt BeautifulSoup z zawartości strony internetowej (przechowywanej w zmiennej `"page.content"`) oraz wykorzystuje parser do przetwarzania HTMLa. Obiekt ten umożliwia łatwe przeszukiwanie i wyciąganie informacji ze struktury strony internetowej, na przykład poprzez wykorzystanie selektorów CSS lub Xpath.

Na przykład możemy znaleźć część kodu źródłowego, która zawiera wszystkie oferty pracy (identyfikowalna przez ID).

In [None]:
results = soup.find(id="ResultsContainer")
print(results.prettify())

Funkcja `prettify()` służy do formatowania struktury dokumentu HTML lub XML w czytelny sposób dla człowieka. Funkcja formatuje kod, dodając wcięcia, spację i nowe linie, co ułatwia odczytanie struktury dokumentu i zrozumienie jego hierarchii. W efekcie, wyjście wyświetlane na ekranie jest łatwiejsze do odczytania i analizy dla użytkownika niż surowy kod HTML.

Teraz chcemy przejść po wszystkich ofertach pracy po kolei. Ponownie musimy zidentyfikować elementy kodu HTML, które pozwolą nam na rozpoznanie, że mamy do czynienia z elementem zawierającym ofertę pracy. Kod będzie wyglądał następująco:

In [None]:
job_elements = results.find_all("div", class_="card-content")

Ten kod wyszukuje wszystkie elementy HTML oznaczone tagiem "div" i klasą "card-content". Wyprintujmy na ekran wszystkie znalezione obiekty.

In [None]:
for job_element in job_elements:
    print(job_element, end="\n"*2)

Po wykonaniu zapytania o wszystkie oferty pracy otrzymujemy znacznie więcej kodu HTML, niż potrzebujemy. Naszym celem jest znalezienie konkretnych elementów HTML, które zawierają interesujące nas informacje - tytuł, nazwę firmy i miejsce. Wygląda to następująco:

In [None]:
for job_element in job_elements:
    title_element = job_element.find("h2", class_="title")
    company_element = job_element.find("h3", class_="company")
    location_element = job_element.find("p", class_="location")
    print(title_element)
    print(company_element)
    print(location_element)
    print()

Jeśli chcemy uzyskać tylko tekst zawarty w elemencie HTML, a nie cały kod, możemy skorzystać z metody `.text`.

Dodatkowo możemy pozbyć się białych znaków (spacji, wcięć, nowych linii) znajdujących się na początku i końcu tekstu, wykorzystując metodę `.strip()`.

In [None]:
for job_element in job_elements:
    title_element = job_element.find("h2", class_="title")
    company_element = job_element.find("h3", class_="company")
    location_element = job_element.find("p", class_="location")
    print(title_element.text.strip())
    print(company_element.text.strip())
    print(location_element.text.strip())
    print()

Kolejnym krokiem będzie wyszukanie tylko konkretnych ofert pracy - tych, które zawierają w tytule słowo "Python".

In [None]:
python_jobs = results.find_all(
    "h2", string=lambda text: "python" in text.lower()
)
print(python_jobs)

Jeśli zrobilibyśmy to w sposób przedstawiony poniżej, nasz kod wyszukiwałby tylko dokładnie taki string i nie znaleźlibyśmy żadnej oferty pracy. Metoda `.find_all()` szuka dokładnego dopasowania tekstu, a nie frazy w tekście.

In [None]:
no_python_jobs = results.find_all("h2", string="Python")
print(no_python_jobs)

Po znalezieniu wszystkich ofert zawierających słowo "Python" w tytule pojawia się kolejne wyzwanie - potrzebujemy teraz uzyskać dostęp do elementów zawierających informacje o firmie i lokalizacji, jednak nasz kod zwraca jedynie listę tytułów. W tym celu możemy skorzystać z metody `.parent`, która umożliwia odwołanie się do elementu znajdującego się wyżej w hierarchii kodu HTML. W naszym przypadku obiekt zawierający wszystkie trzy elementy (tytuł, firma, lokalizacja) znajduje się trzy poziomy wyżej niż element z tytułem. Oto przykładowy kod realizujący to zadanie:

In [None]:
python_job_elements = [
    h2_element.parent.parent.parent for h2_element in python_jobs
]

for job_element in python_job_elements:
    title_element = job_element.find("h2", class_="title")
    company_element = job_element.find("h3", class_="company")
    location_element = job_element.find("p", class_="location")
    print(title_element.text.strip())
    print(company_element.text.strip())
    print(location_element.text.strip())
    print()

Na końcu chcemy, żeby nasz kod dla każdej oferty pracy od razu dostarczał nam linków do aplikowania. Aby to zrobić, szukamy elementu HTML, który zawiera link do aplikowania, wybieramy go pod indeksem 1 (ponieważ pierwszy link, pod indeksem 0, prowadzi do szczegółów oferty) i na końcu pobieramy tylko zawartość atrybutu href, czyli nasz link. Całość wygląda następująco:

In [None]:
for job_element in python_job_elements:
    title_element = job_element.find("h2", class_="title")
    company_element = job_element.find("h3", class_="company")
    location_element = job_element.find("p", class_="location")
    print(title_element.text.strip())
    print(company_element.text.strip())
    print(location_element.text.strip())

    link_url = job_element.find_all("a")[1]["href"]
    print(f"Apply here: {link_url}\n")
    print()

# Geokodowanie

Podczas web scrapingu często mamy do czynienia z danymi geograficznymi takimi jak adresy.

Czasami potrzebujemy wykonać tłumaczenie adresów na współrzędne geograficzne lub wykonać tłumaczenie współrzędnych geograficznych na adresy.

OpenStreetMap Nominatim to otwarte i darmowe narzędzie do geokodowania i odwrotnego geokodowania oparte na danych OpenStreetMap. Nominatim działa na całym świecie i pozwala użytkownikom na szybkie i dokładne przetwarzanie adresów i współrzędnych geograficznych.

Nominatim korzysta z danych OpenStreetMap, które są tworzone i aktualizowane przez społeczność. Dzięki temu Nominatim oferuje najnowsze dane geograficzne, w tym informacje o budynkach, ulicach, miejscach i granicach administracyjnych.

Istnieją również inne narzędzia do geokodowania, które często oferują bardziej zaawansowane funkcje, ale są płatne lub wymagają subskrypcji. Na przykład Google Maps API, Bing Maps API czy HERE Location Services to popularne narzędzia geokodowania, ale wymagają one opłat za korzystanie z nich w zależności od ilości żądań API.

In [None]:
from geopy.geocoders import Nominatim

Po zaimportowaniu biblioteki, stworzymy obiekt `geolocator` klasy `Nominatim`.

`user_agent` to nazwa użytkownika, który używa API Nominatim, a przekazanie go jest wymagane. Parametr ten służy do identyfikacji aplikacji, która korzysta z API i jest używany do śledzenia liczby żądań i ich źródła. Dzięki temu, że użytkownicy posiadają swoje unikalne identyfikatory, można kontrolować wykorzystanie API i uniknąć przeciążenia serwera.

In [None]:
geolocator = Nominatim(user_agent="http")

Pod spodem znajduje się lista 10 adresów dla których chcemy znaleźć współrzędne.

In [None]:
list_of_addresses = [
 'Zgoda 5, 00-018 Warszawa',
 'Al. Jerozolimskie 148 , 00-024 Warszawa',
 'Rodziny Hiszpańskich 8, 02-685 Warszawa',
 'Zjednoczenia 33, 01-838 Warszawa',
 'Piękna 68A, 00-672 Warszawa',
 'Grochowska 324, 03-838 Warszawa',
 'Przeskok 2, 00-032 Warszawa',
 'Omulewska 20, 04-128 Warszawa',
 'Mokotowska 24/54, 00-561 Warszawa',
 'Branickiego 20, 02-972 Warszawa'
]

Zrobimy to przy użyciu obiektu `geolocator`.

In [None]:
address_coordinates_dict = {}
for address in list_of_addresses:
    location = geolocator.geocode(address)
    address_coordinates_dict[address] = (location.latitude, location.longitude)
    print(location.latitude, location.longitude)

Z tej samej biblioteki zaimportujemy moduł distance, który umożliwia liczenie dystansów między obiektami na podstawie ich współrzędnych geograficznych.

In [None]:
from geopy.distance import distance

Wykorzystamy tę funkcję do policzenia odległości między wszystkimi adresami, dla których znaleźliśmy współrzędne geograficzne.

In [None]:
for address1, coordinates1 in address_coordinates_dict.items():
    for address2, coordinates2 in address_coordinates_dict.items():
        dist = distance((coordinates1[0], coordinates1[1]), (coordinates2[0], coordinates2[1])).km
        print(f"Odległość adresu {address1}, od adresu {address2}, wynosi {dist:.2f} km")

# Google Maps API

Często chcemy zwizualizować dane goegraficzne.

Ta część notatnika jest oparty na tutorialu dostępnym pod adresem https://thedatafrog.com/en/articles/show-data-google-map-python/.

W tej części nauczymy się, jak wykorzystać Google Maps API w języku Python, aby wyświetlić dane geolokalizacyjne na mapie.

Google Maps API to zestaw narzędzi i interfejsów programistycznych (API), które pozwalają deweloperom na integrację map Google w swoje aplikacje. Dzięki Google Maps API deweloperzy mogą wykorzystać funkcje Google Maps, takie jak wyświetlanie map, lokalizowanie miejsc, wyznaczanie tras i wiele innych, w swoich własnych aplikacjach.

Google Maps API jest udostępniane za pośrednictwem internetu, a jego użycie wymaga posiadania klucza API, który jest przypisany do konkretnego konta Google. Klucz API jest bezpłatny dla zastosowań niekomercyjnych, ale wymaga płatności dla aplikacji komercyjnych lub aplikacji, które przekraczają określony poziom użycia.

Na potrzeby tego kursu każdy z was może otrzymać kupon Google Cloud na 50$ pod adresem URL - https://gcp.secure.force.com/GCPEDU?cid=34zDp4O2CxF746b3NcVsUW1%2F3iX2LSg%2FaFEYjG3fln8UWfMQwfxDpIZM8RwQliCY/.

<b>(NOT SCAM, 100% LEGIT!!!!1!!)</b>

Aby uzyskać dostęp do kuponu, musicie podać swoje imię oraz adres e-mail ze szkolnej domeny. Po potwierdzeniu szczegółów kupon zostanie wysłany do Was. Pamiętajcie, że tylko jeden kupon może być wykorzystany na unikalny adres e-mail, a kupon możecie wykorzystać do 28 czerwca 2023 roku.

Z waszego konta Google pobierzcie klucz API i wpiszcie go tutaj.

In [None]:
api_key = #miejsce na Twój klucz API

Na początek skonfigurujemy Bokeh dla zintegrowanego wyświetlania w notatniku Jupyter.

Bokeh to biblioteka w języku Python służąca do wizualizacji danych interaktywnych. Umożliwia tworzenie zaawansowanych wykresów, map, oraz interaktywnych dashboardów. Bokeh pozwala na tworzenie wizualizacji w formacie HTML i umieszczanie ich w dowolnym serwerze lub aplikacji internetowej, a także wizualizowanie danych bezpośrednio w notatnikach Jupyter. Biblioteka ta jest wykorzystywana przez analityków danych, naukowców i inżynierów do wizualizacji wyników analiz, predykcji i modeli.

In [None]:
import pandas as pd
from bokeh.io import output_notebook
output_notebook()
bokeh_width, bokeh_height = 900, 900

Skorzystamy z zestawu danych `New York City Airbnb Open Data` dostępnego po adresem - https://www.kaggle.com/datasets/dgomonov/new-york-city-airbnb-open-data. Zestaw zawiera ponad 48 000 rekordów, które zawierają informacje, takie jak lokalizacja, typ nieruchomości, cena za noc, dostępność, liczba łóżek i oceny gości. Zestaw danych zawiera również informacje geograficzne, takie jak długość i szerokość geograficzna dla każdej nieruchomości. Jest to interesujący zbiór danych do analizy rynku wynajmu krótkoterminowego w Nowym Jorku, jak również do badania preferencji i zachowań klientów korzystających z Airbnb.

In [None]:
df_nyc = pd.read_csv('AB_NYC_2019.csv')
df_nyc.head()

Żeby wyświetlić mapę potrzebne nam będą współrzędne geograficzne środka naszej mapy. Policzymy średnią między największą a najmniejszą wartością długości i szerokości geograficznej.

In [None]:
lat = (df_nyc['latitude'].max() + df_nyc['latitude'].min()) / 2
lon = (df_nyc['longitude'].max() + df_nyc['longitude'].min()) / 2
print(lat, lon)

Napiszmy pierwszą funkcję, która posłuży nam do rysowania mapy.

Funkcja przyjmuje trzy argumenty: szerokość i długość geograficzną miejsca, które ma być wyświetlone na mapie, oraz zoom. Można również wybrać typ mapy (map_type). Możliwe opcje to:
- roadmap,
- terrain,
- satellite,
- hybrid.

In [None]:
from bokeh.io import show
from bokeh.plotting import gmap
from bokeh.models import GMapOptions

def plot(lat, lng, zoom=11, map_type='roadmap'):

    gmap_options = GMapOptions(lat=lat, lng=lng,
                               map_type=map_type, zoom=zoom)

    p = gmap(api_key, gmap_options, title='New York',
             width=bokeh_width, height=bokeh_height)
    show(p)
    return p

Teraz narysujmy pierwszą mapę.

In [None]:
p = plot(lat, lon)

Do naszej mapy możemy dodać znacznik, który wskaże współrzędne geograficzne naszego środka.

In [None]:
def plot(lat, lng, zoom=11, map_type='roadmap'):

    gmap_options = GMapOptions(lat=lat, lng=lng,
                               map_type=map_type, zoom=zoom)

    p = gmap(api_key, gmap_options, title='New York',
             width=bokeh_width, height=bokeh_height)

    center = p.circle([lng], [lat], size=10, alpha=0.5, color='red')
    show(p)
    return p

Narysujmy zmienioną mapę.

In [None]:
p = plot(lat, lon, map_type='terrain')

Teraz chcemy wygenerować interaktywną mapę z naniesionymi punktami z naszych danych.
Źródłem danych do wykresu jest obiekt typu `ColumnDataSource`. Następnie dane te są używane do wygenerowania punktów na mapie o zadanych parametrach.

In [None]:
from bokeh.models import ColumnDataSource

def plot(lat, lng, zoom=11, map_type='roadmap'):

    gmap_options = GMapOptions(lat=lat, lng=lng,
                               map_type=map_type, zoom=zoom)

    p = gmap(api_key, gmap_options, title='New York',
             width=bokeh_width, height=bokeh_height)

    source = ColumnDataSource(df_nyc)

    center = p.circle('longitude', 'latitude', size=5, alpha=0.3,
                      color='yellow', source=source)
    show(p)
    return p

Wygenerujmy tę mapę.

In [None]:
p = plot(lat, lon, map_type='satellite')

Jak można łatwo zauważyć mamy do czynienia z bardzo dużą liczbą punktów. Ile jest tych punktów?

In [None]:
print(len(df_nyc))

Nie potrzeba nam 40 tys. punktów, więc ograniczmy nasze dane do ok. 3 tys. żebyśmy byli w stanie coś zobaczyć na mapie.

In [None]:
df = df_nyc.sample(n=3000).copy()

Wygenerujmy mapę ze zredukowaną liczbą punktów.

In [None]:
def plot(lat, lng, zoom=11, map_type='roadmap'):

    gmap_options = GMapOptions(lat=lat, lng=lng,
                               map_type=map_type, zoom=zoom)

    p = gmap(api_key, gmap_options, title='New York',
             width=bokeh_width, height=bokeh_height)

    source = ColumnDataSource(df)

    center = p.circle('longitude', 'latitude', size=5, alpha=0.3,
                      color='yellow', source=source)
    show(p)
    return p

In [None]:
p = plot(lat, lon, map_type='satellite')

Teraz dodamy narzędzia do interaktywnego przeglądania mapy:
- `Hover` pozwala na wyświetlanie informacji o danym elemencie na mapie, gdy kursor myszy znajduje się nad tym elementem.

- `Reset` umożliwia powrót do domyślnego widoku mapy, czyli przywrócenie oryginalnego położenia i powiększenia.

- `Wheel_zoom` umożliwia przybliżanie i oddalanie widoku mapy za pomocą kółka myszy.

- `Pan` pozwala na przesuwanie mapy w różnych kierunkach, co umożliwia oglądanie innych fragmentów mapy niż te widoczne na początku.

In [None]:
def plot(lat, lng, zoom=11, map_type='roadmap'):
    gmap_options = GMapOptions(lat=lat, lng=lng,
                               map_type=map_type, zoom=zoom)

    p = gmap(api_key, gmap_options, title='New York',
             width=bokeh_width, height=bokeh_height,
             tools=['hover', 'reset', 'wheel_zoom', 'pan'])

    source = ColumnDataSource(df)

    center = p.circle('longitude', 'latitude', size=4, alpha=0.5,
                      color='yellow', source=source)
    show(p)
    return p

Mapa z interaktywnymi narzędziami wygląda następująco.

In [None]:
p = plot(lat, lon, map_type='satellite', zoom=11)

Zmienimy narzędzie `Hover` do mapy, które pozwala na wyświetlenie informacji o wybranych punktach na mapie, gdy użytkownik najedzie na nie kursorem.

Dodamy własne etykiety, które mają być wyświetlane w informacjach - cenę, imię gospodarza i typ pokoju.

In [None]:
from bokeh.models import HoverTool

def plot(lat, lng, zoom=11, map_type='roadmap'):
    gmap_options = GMapOptions(lat=lat, lng=lng,
                               map_type=map_type, zoom=zoom)

    hover = HoverTool(
        tooltips = [
            ('Price', '@price dollars'),
            ('Host Name', '@host_name'),
            ('Room Type', '@room_type'),
        ]
    )

    p = gmap(api_key, gmap_options, title='New York',
             width=bokeh_width, height=bokeh_height,
             tools=[hover, 'reset', 'wheel_zoom', 'pan'])

    source = ColumnDataSource(df)

    center = p.circle('longitude', 'latitude', size=4, alpha=0.5,
                      color='yellow', source=source)
    show(p)
    return p

Zmodyfikowana mapa wygląda następująco.

In [None]:
p = plot(lat, lon, map_type='satellite', zoom=11)

W następnym kroku chcielibyśmy zwizualizować zależność rozmiaru punktu na mapie od zmiennej (w tym przypadku będzie to cena).

In [None]:
import numpy as np
df['size'] = np.sqrt(df['price'])/4
df.head()

Wartości z nowej kolumny `size` (zależnej od ceny) zostały użyte jako wartość `"size"` dla koła na wykresie. Umożliwia to wizualne porównanie ceny między różnymi punktami na mapie.

In [None]:
def plot(lat, lng, zoom=11, map_type='roadmap'):
    gmap_options = GMapOptions(lat=lat, lng=lng,
                               map_type=map_type, zoom=zoom)
    hover = HoverTool(
        tooltips = [
            ('Price', '@price dollars'),
            ('Host Name', '@host_name'),
            ('Room Type', '@room_type'),
        ]
    )

    p = gmap(api_key, gmap_options, title='New York',
             width=bokeh_width, height=bokeh_height,
             tools=[hover, 'reset', 'wheel_zoom', 'pan'])

    source = ColumnDataSource(df)

    center = p.circle('longitude', 'latitude', size='size',
                      alpha=0.5, color='yellow', source=source)

    show(p)
    return p

Tak wygląda to na mapie.

In [None]:
p = plot(lat, lon, map_type='satellite', zoom=11)

Alternatywnie możemy stworzyć inną zmienną zależną od ceny - `radius`.

In [None]:
df['radius'] = np.sqrt(df['price'])*7

Zamiast nadawać punktom wielkość zależną od ceny, nadamy im promień zależny od ceny.

In [None]:
def plot(lat, lng, zoom=11, map_type='roadmap'):
    gmap_options = GMapOptions(lat=lat, lng=lng,
                               map_type=map_type, zoom=zoom)

    hover = HoverTool(
        tooltips = [
            ('Price', '@price dollars'),
            ('Host Name', '@host_name'),
            ('Room Type', '@room_type'),
        ]
    )

    p = gmap(api_key, gmap_options, title='New York',
             width=bokeh_width, height=bokeh_height,
             tools=[hover, 'reset', 'wheel_zoom', 'pan'])

    source = ColumnDataSource(df)

    center = p.circle('longitude', 'latitude', radius='radius', alpha=0.5,
                      color='yellow', source=source)
    show(p)
    return p

Tak wygląda zmieniona mapa.

In [None]:
p = plot(lat, lon, map_type='satellite', zoom=11)

Na koniec chcemy dodać kolejny wymiar rozróżnienia między punktami - liczbę opinii wystawianych na miesiąc. Na początek skupimy się tylko na punktach, dla których ta wartość została obliczona.

In [None]:
df_reviews = df.loc[df['reviews_per_month']>0.].copy()
df_reviews.head()

W związku z tym, że będziemy używać innego DataFrame'a do stworzenia tej mapy dodamy DaraFrame'a jako argument funkcji.

Punkty na mapie będą kolorowane w zależności od wartości kolumny `reviews_per_month` za pomocą palety kolorów.

Użyjemy funkcji `linear_cmap`, która przyporządkuje wartości z kolumny `reviews_per_month` do kolorów z palety.

Wynikowy kolor zostanie użyty jako argument do funkcji tworzącej punkty.

Na koniec funkcja `ColorBar` doda pasek kolorów, który jest używany do wyjaśnienia, jakie wartości kolorów odpowiadają jakim wartościom z kolumny `reviews_per_month`.

In [None]:
from bokeh.transform import linear_cmap
from bokeh.palettes import Plasma256 as palette
from bokeh.models import ColorBar


def plot(df, lat, lng, zoom=11, map_type='roadmap'):

    gmap_options = GMapOptions(lat=lat, lng=lng,
                               map_type=map_type, zoom=zoom)

    hover = HoverTool(
        tooltips = [
            ('Price', '@price dollars'),
            ('Host Name', '@host_name'),
            ('Room Type', '@room_type'),
            ('Reviews Per Month', '@reviews_per_month{0.}')
        ]
    )

    p = gmap(api_key, gmap_options, title='New York',
             width=bokeh_width, height=bokeh_height,
             tools=[hover, 'reset', 'wheel_zoom', 'pan'])

    source = ColumnDataSource(df)

    mapper = linear_cmap('reviews_per_month', palette, 0, 5)


    center = p.circle('longitude', 'latitude', radius='radius', alpha=0.6,
                      color=mapper, source=source)

    color_bar = ColorBar(color_mapper=mapper['transform'],
                         location=(0,0))

    p.add_layout(color_bar, 'right')

    show(p)
    return p

Nasza ostateczna mapa będzie wyglądać następująco.

In [None]:
p = plot(df_reviews, lat, lon, map_type='roadmap', zoom=11)