![LU Logo](https://www.lu.lv/fileadmin/user_upload/LU.LV/www.lu.lv/Logo/Logo_jaunie/LU_logo_LV_horiz.png)


# Python datu vizualizācijas bibliotēkas - Plotly

## Nodarbības saturs

Mēs apskatīsim sekojošas tēmas:

* Plotly vizualizācijas bibliotēkas apskats
* Plotly vizualizāciju izveide

### Nodarbības mērķi

Nodarbības beigās Jums būtu jāspēj:

* izveidot galvenos Plotly vizualizāciju veidus
* izveidot interaktīvas Plotly vizualizācijas
* izveidot dažus sarežģītākus Plotly vizualizāciju veidus


### Vajadzīgo bibliotēku importēšana

Ja Jūsu sistēmā nav instalēts Plotly, to var instalēt ar šādu komandu:

```bash
pip install plotly
```

Google Colab ir instalēts Plotly, bet tā var nebūt jaunākā versija.

Gadījumā, ja Jupyter notebook neattēlo prasītās vizualizācijas, papildus ir jāuzinstalē arī `ipywidgets` bibliotēka:

```bash
pip install ipywidgets
```

In [None]:
# generally imports go at the top of a notebook
# python version
import sys
print(f"Python version: {sys.version}")

# import pandas
import pandas as pd
print(f"Pandas version: {pd.__version__}")
# we will use pandas to read in our data and manipulate it

# import Plotly the object of this lesson
import plotly
print(f"Plotly version: {plotly.__version__}")



## 1. tēma - Plotly vizualizācijas bibliotēka

![Plotly](https://upload.wikimedia.org/wikipedia/commons/8/8a/Plotly-logo.png)

Plotly ir jaudīga datu vizualizācijas bibliotēka, ko var izmantot, lai izveidotu interaktīvus grafikus. Ar tās palīdzību var izveidot plašu vizualizāciju klāstu. Tā ir arī sarežģīta bibliotēka, kurai ir strauja mācīšanās līkne. Šajā nodarbībā mēs apskatīsim Plotly pamatus.

### Plotly vēsture

Plotly ir uzņēmums, kura galvenā mītne atrodas Monreālā, Kanādā. Tas izstrādā tiešsaistes datu analītikas un vizualizācijas rīkus. Plotly piedāvā interaktīvus grafiku, analītikas un statistikas rīkus, kā arī zinātniskās vizualizācijas bibliotēkas Python, R, MATLAB, Perl, Julia, JavaScript un citām valodām.

Plotly Python bibliotēku šis uzņēmums izveidoja 2012. gadā. Trīs gadus vēlāk (2015. gadā) tā kļuva par atvētā pirmkoda bibliotēku. Tā tiek publicēta ar MIT licenci: https://plotly.com/python/is-plotly-free/

Plotly bibliotāku var lietot brīvi un bez maksas. Plotly uzņēmums piedāvā arī citus produktus, kuru pamatā ir šī bibliotēka. To skaitā ir komerciāls produkts ar nosaukumu Dash Enterprise, kas ir izveidots, izmantojot Plotly + Flask + React.js. Dash Enterprise ir komerciāls produkts, kuru nevar lietot bez maksas, un tam ir nepieciešama licence.

### Javascript bibliotēkas

Tīmekļa pārlūka pusē Plotly izmanto šādas Javascript bibliotēkas:

* plotly.js - JavaScript bibliotēka interaktīvu grafiku attēlošanai
* d3.js - JavaScript bibliotēka datu vizualizācijām

### Plotly dokumentācija

* Plotly bibliotēkas dokumentācija: https://plotly.com/python/



## Pirmā Plotly vizualizācija

Mēs izmantosim Plotly Express, kas ir viegli lietojama, augsta līmeņa Plotly saskarne, kas darbojas ar dažāda veida datiem un piedāvā vienkārši veidojamas vizualizācijas.

Plašāka informācija par Plotly Express: https://plotly.com/python/plotly-express/

In [None]:
import plotly.express as px

fig = px.line(x=["a","b","c"], y=[3,4,7], title="sample figure")

fig.show() # we call show to display the figure

In [None]:
# we can see the contents of fig object by printing it
print(fig)

---

Gadījumā, ja `show()` komanda neattēlo prasīto vizualizāciju, var pamēģināt palaist `fig.show()` ar `renderer="iframe"` vai `renderer="colab"` parametru.

---

### Plotly Express filozofija

Kā redzams izpildot komandu `print(fig)`, `Figure` ir vārdnīcai līdzīgs objekts. Tajā ir atslēgas un tām atbilstošās vērtības, kas definē ģenerējamā grafika datus un izvietojumu.

Tādējādi, mūsu uzdevums ir `Figure` objektam nodot vajadzīgo informāciju, kas apraksta datus un vizualizācijas izskatu.

## Vienkārša Plotly vizualizācija

Plotly Express ir augsta līmeņa Plotly saskarne, kas paslēpj `Figure` objekta izveides sarežģītību. Lielāku kontroli pār `Figure` objektu mēs varam iegūt, izmantojot moduli `plotly.graph_objects`.


In [None]:
# let's create a similar plot using Plotly itself using the plotly.graph_objects module

import plotly.graph_objects as go # very common to import as go

# note how we pass in the data as a go.Scatter object

fig = go.Figure(data=go.Scatter(x=["a","b","c"], y=[3,4,7]))
# let's add a title after a figure is created
fig.update_layout(title="sample figure")
fig.show()

## Funkcijas līknes attēlošana

Uzzīmēsim šādu funkciju: $f(x) = x^3 - 5$

Funkcijas diapazons būs no -5 līdz 5. Funkciju attēlosim, izmantojot 101 punktu.

In [None]:
# our first step is to generate the data using the cubic function.

# we will use numpy to generate the data
import numpy as np
# we will use the linspace function to generate the x values
x = np.linspace(-5,5,101)

# Question to students why 101 and not 100?

In [None]:
# now we can generate the y values
y = x**3 - 5 # remember numpy will apply the exponent to each element of the array

# now we can plot the data
fig = go.Figure(layout = {"title":"Cubic function"}, data=go.Scatter(x=x, y=y))
# fig.update_layout(title="Cubic Function") # notice we already passed layout function above
# let's add x and y axis labels
fig.update_xaxes(title="x")
fig.update_yaxes(title="y")
# let's add a grid
fig.update_layout(xaxis=dict(showgrid=True, gridwidth=1, gridcolor='black'),
                  yaxis=dict(showgrid=True, gridwidth=1, gridcolor='black'))
# let's add a horizontal line at y=0
fig.add_hline(y=0, line=dict(color='orange', width=2))
fig.add_vline(x=0, line=dict(color='red', width=2))

# all of the above layout options could have been added at once using the update_layout function
# alternatively we could have passed a layout dictionary to the Figure function

fig.show()

## Sarežģītāki Plotly vizualizāciju veidi

### Stacked Bar Charts

In [None]:
# plotly express provides some data for us to use
# we can use the gapminder dataset
# gapminder is a dataset that contains information about countries

df = px.data.gapminder().query("country == 'Canada'")
# gapminder() returns a dataframe so we immediately call query to filter the data
# we are only interested in data for Canada

fig = px.bar(df, x='year', y='pop',
             hover_data=['lifeExp', 'gdpPercap'], color='lifeExp',
             labels={'pop':'population of Canada'}, height=400)
fig.show()

### Plotly interaktivitāte

Ievērojiet, kā mēs varam:
- pietuvināt (zoom in) Plotly grafikus
- saglabāt tos kā PNG failus
- atlasīt diagrammas reģionu un attēlot tikai šo reģionu
- novietot peles kursoru uz grafika un redzēt atbilstošās datu punktu vērtības.


In [None]:
df = px.data.gapminder().query("continent == 'Europe'")
fig = px.bar(df, x='year', y='pop',
             hover_data=['lifeExp', 'gdpPercap'], color='country',
             labels={'pop':'population of Europe'}, height=400)
fig.show()

### Datu izvēles aktivizēšana

Ievērojiet, kā mēs varam noklikšķināt uz kādas valsts, un diagrammā tiks parādīta vai paslēpta šī valsts. Mēs varam noklikšķināt uz vairākām valstīm, un diagrammā tiks parādītas tikai šīs valstis.

Piezīme: datus par Latviju `px.data.gapminder().query("continent == 'Europe")` nesniedz.

#### Papildus uzdevuma ideja

Papildus ideja: atrast datu avotu, kurā ir dati par Latviju, un attēlot to.

## Histogrammas

Histogrammas tiek izmantotas, lai attēlotu mainīgā vērtību sadalījumu. Tās ir ļoti noderīgas pētnieciskai datu analīzei.

In [None]:
df = px.data.tips() 
# px.data.tips() is a pandas dataframe of famous tips dataset
fig = px.histogram(df, x="total_bill")
fig.show()

## Heatmaps (siltuma kartes)

Siltuma kartes ļauj datus vizualizēt 2D režģī. Dati režģī tiek attēloti kā krāsas. Siltuma kartes ir ļoti noderīgas korelācijas matricu vizualizēšanai.

In [None]:
z = [[.1, .3, .5, .7, .9],
     [1, .8, .6, .4, .2],
     [.2, 0, .5, .7, .9],
     [.9, .8, .4, .2, 0],
     [.3, .4, .5, .7, 1]]

fig = px.imshow(z, text_auto=True)
# note how imshow is very similar to the matplotlib imshow function
fig.show()

## Finanšu diagrammas

Candlestick ("svečturu") grafiki parasti tiek izmantoti finanšu datu attēlošanai:
- tie var attēlot akciju kursa biržas atvēršanas, aizvēršanas, kā arī augstāko un zemāko vērtību
- "candlestick" krāsa parāda vai akciju cena norādītajā dienā palielinājās vai samazinājās

In [None]:
from datetime import datetime

df = pd.read_csv('https://raw.githubusercontent.com/plotly/datasets/master/finance-charts-apple.csv')

fig = go.Figure(data=[go.Candlestick(x=df['Date'],
                open=df['AAPL.Open'],
                high=df['AAPL.High'],
                low=df['AAPL.Low'],
                close=df['AAPL.Close'])])

fig.show()

### Piezīme par datu apakškopas atlasi

Tā kā x ass ir datums, mēs varam atlasīt datu apakškopu, norādot datumu apgabalu uz x ass.

## Sarežģītāks Plotly piemērs ar vairākiem apakš-grafikiem

https://plotly.com/python/map-subplots-and-small-multiples/

In [None]:
df = pd.read_csv('https://raw.githubusercontent.com/plotly/datasets/master/1962_2006_walmart_store_openings.csv')
df.head()

data = [] # we will store our data in this list

# we can prepare the layout dictionary ahead of time
layout = dict(
    title = 'New Walmart Stores per year 1962-2006<br>\
Source: <a href="http://www.econ.umn.edu/~holmes/data/WalMart/index.html">\
University of Minnesota</a>',
    # showlegend = False,
    autosize = False,
    width = 1000,
    height = 900,
    hovermode = False,
    legend = dict(
        x=0.7,
        y=-0.1,
        bgcolor="rgba(255, 255, 255, 0)",
        font = dict( size=11 ),
    )
)

years = df['YEAR'].unique()

for i in range(len(years)):
    geo_key = 'geo'+str(i+1) if i != 0 else 'geo'
    lons = list(df[ df['YEAR'] == years[i] ]['LON'])
    lats = list(df[ df['YEAR'] == years[i] ]['LAT'])
    # Walmart store data
    data.append(
        dict(
            type = 'scattergeo',
            showlegend=False,
            lon = lons,
            lat = lats,
            geo = geo_key,
            name = int(years[i]),
            marker = dict(
                color = "rgb(0, 0, 255)",
                opacity = 0.5
            )
        )
    )
    # Year markers
    data.append(
        dict(
            type = 'scattergeo',
            showlegend = False,
            lon = [-78],
            lat = [47],
            geo = geo_key,
            text = [years[i]],
            mode = 'text',
        )
    )
    layout[geo_key] = dict(
        scope = 'usa',
        showland = True,
        landcolor = 'rgb(229, 229, 229)',
        showcountries = False,
        domain = dict( x = [], y = [] ),
        subunitcolor = "rgb(255, 255, 255)",
    )


def draw_sparkline( domain, lataxis, lonaxis ):
    ''' Returns a sparkline layout object for geo coordinates  '''
    return dict(
        showland = False,
        showframe = False,
        showcountries = False,
        showcoastlines = False,
        domain = domain,
        lataxis = lataxis,
        lonaxis = lonaxis,
        bgcolor = 'rgba(255,200,200,0.0)'
    )

# Stores per year sparkline
layout['geo44'] = draw_sparkline({'x':[0.6,0.8], 'y':[0,0.15]}, \
                                 {'range':[-5.0, 30.0]}, {'range':[0.0, 40.0]} )
data.append(
    dict(
        type = 'scattergeo',
        mode = 'lines',
        lat = list(df.groupby(by=['YEAR']).count()['storenum']/1e1),
        lon = list(range(len(df.groupby(by=['YEAR']).count()['storenum']/1e1))),
        line = dict( color = "rgb(0, 0, 255)" ),
        name = "New stores per year<br>Peak of 178 stores per year in 1990",
        geo = 'geo44',
    )
)

# Cumulative sum sparkline
layout['geo45'] = draw_sparkline({'x':[0.8,1], 'y':[0,0.15]}, \
                                 {'range':[-5.0, 50.0]}, {'range':[0.0, 50.0]} )
data.append(
    dict(
        type = 'scattergeo',
        mode = 'lines',
        lat = list(df.groupby(by=['YEAR']).count().cumsum()['storenum']/1e2),
        lon = list(range(len(df.groupby(by=['YEAR']).count()['storenum']/1e1))),
        line = dict( color = "rgb(214, 39, 40)" ),
        name ="Cumulative sum<br>3176 stores total in 2006",
        geo = 'geo45',
    )
)

z = 0
COLS = 5
ROWS = 9
for y in reversed(range(ROWS)):
    for x in range(COLS):
        geo_key = 'geo'+str(z+1) if z != 0 else 'geo'
        layout[geo_key]['domain']['x'] = [float(x)/float(COLS), float(x+1)/float(COLS)]
        layout[geo_key]['domain']['y'] = [float(y)/float(ROWS), float(y+1)/float(ROWS)]
        z=z+1
        if z > 42:
            break

# so once all of the data is prepared we can create the figure
# so here data will contain a list of dictionaries,
# each dictionary contains a type key which indicates the type of plot

fig = go.Figure(data=data, layout=layout)
fig.update_layout(width=800)
fig.show()

### Piezīmes par šo vizualizāciju

Ievērojiet, kā iepriekšējā diagrammā ir vairākas apakšdiagrammas. Tajā ir karšu apakšdiagrammas, scatter-plot diagrammas virs katra kartes grafika, kā arī vienkāršas līniju diagrammas.

## Nodarbības kopsavilkums

Šajā nodarbībā ir atrodama informācija par:

* Plotly datu vizualizācijas pamatiem
* Plotly Express
* Plotly diagrammām
* Plotly Graph objektu
* Plotly stabiņu diagrammām 
* Plotly histogrammām
* Plotly heatmaps (siltuma kartēm)
* Plotly apakšdiagrammām

## Uzdevumi patstāvīgam darbam

### 1. uzdevums - Attēlojiet kvadrātisku funkciju

Izveidojiet vienkāršu `plotly express` vai `go` vizualizāciju, kas attēlo šādu kvadrātisku funkciju:

`f(x) = x^2 + 2x + 1` x vērtību apgabalā no -10 līdz 10 ar soļa izmēru 0.5.

Piešķiriet atbilstošus nosaukumus grafikam un tā asīm.

### 2. uzdevums - Attēlojiet ziloņa vai Betmena funkciju

https://www.physicsforums.com/threads/graph-of-an-elephant.998283/

Realizējiet to ar Python bibliotēku palīdzību.

### 3. uzdevums - Finanšu grafiks

Izveidojiet finanšu analīzes diagrammu kāda cita uzņēmuma akcijām.

## Papildus informācija

### 1. tēma - Plotly

- [Plotly advanced plots](https://plotly.com/python/)
- [3D scatter plots](https://plotly.com/python/3d-scatter-plots/)

### 2. tēma - Datu pārveidojumi

- [Transforming data](https://plotly.com/python/#transforms) (datu filtrēšana, grupēšana, u.tml.)

### Topic 3 - Custom Controls

- [Custom Controls](https://plotly.com/python/#controls) (papildus līdzekļi vizualizāciju satura pārvaldīšanai)
