## Pandas a beautiful soup

In [None]:
# pip3 install pandas

In [None]:
import pandas as pd

s = pd.Series([1, 2, "klacek", True])
print(s, type(s))
print(s.index)
s = pd.Series([3, 4, [1,2]])

print(s[2])

In [None]:
import numpy as np

df2 = pd.DataFrame({'A': 1.,
                    'B': pd.Timestamp('20130102'),
                    'C': pd.Series(1, index=list(range(0,4)), dtype='float32'),
                    'D': np.array([1,2,3,4], dtype='int32'),
                    'E': pd.Categorical(["test", "train", "test", "train"]),
                    'F': 'foo'})

print(df2) # str(df2)
print(df2.dtypes)
datum = df2["B"][0]
datum.month

In [None]:
print(df2.columns)
print(df2.index)
print(df2.head())
print(df2.tail())

In [None]:
from bs4 import BeautifulSoup

with open("../interpretace/cviceni08/sample.html") as fp:
    soup = BeautifulSoup(fp, 'html.parser')

print(soup.title.text)


# Matplotlib

In [None]:
import matplotlib.pyplot as plt
import numpy as np

x = np.linspace(0.0, 2*np.pi, 100)
y = np.sin(x)
plt.plot(x,y)
plt.show()

In [None]:
x = np.linspace(0.0, 2*np.pi, 50)
y = np.sin(x)

plt.plot(x, y, 'b+-', linewidth = 2, label="sin(x)")
plt.plot(x, np.cos(x), color="red", label="cos(x)", linewidth=2)
plt.xlabel("x")
plt.ylabel("y")
plt.title("title")
plt.xlim(1.0, 5.0)
plt.ylim(0.0, 1.0)
plt.legend()
plt.show()
plt.savefig("obrazek.jpg")


In [None]:
fig = plt.figure()
ax = plt.axes()
ax.set_xlim(0, 2)
ax.set_ylim(-1,2)
ax.plot(x, y)

## Bar plot

In [None]:
strany  = ["KSČM", "ANO", "TOP09", "Piráti", "ČSSD", "Zelení"]
barvy = ["red", "blue", "purple", "black", "orange", "green"]
np.random.seed(196800801)
hlasy = np.random.randint(0, 150, len(strany))

plt.figure(figsize=(8,6)) 
plt.bar(strany, hlasy, color = barvy)
plt.title("Parlamentni volby 2021")
plt.ylabel("hlasy (tis.)")

In [None]:
explode = [0] * len(strany)
explode[hlasy.argmax()] = 0.2
rel = 100 * hlasy / np.sum(hlasy)
new_labels = []
for label, per in zip(strany, hlasy):
    new_labels.append("{} - {:d}".format(label, per))
plt.pie(hlasy, labels = new_labels, colors = barvy, explode = explode, shadow = True)
plt.show()
plt.pie(hlasy, labels = strany, colors = barvy, explode = explode, shadow = True, autopct='%1.1f%%')
plt.show()

In [None]:
fig, axs = plt.subplots(1,2, figsize=(10,3))

axs[0].bar(strany, hlasy, color = barvy)
axs[0].set_title("Parlamentni volby 2021")
axs[0].set_ylabel("hlasy (tis.)")

axs[1].pie(hlasy, labels = new_labels, colors = barvy, explode = explode, shadow = True)
plt.show()

## Scatterplot

In [None]:
N = 100
data = {
    'a' : np.arange(N),
    'c' : np.random.randn(N)
}

data['b'] = data['a'] + 10 * np.random.randn(N)
data['d'] = np.abs(np.random.randn(N)) * 100
data['e'] = np.abs(np.random.randn(N))

plt.scatter('a', 'b', c = 'c', s = 'd', alpha = 0.5, data = data)
plt.show()

## Boxplot

In [None]:
np.random.seed(19680801)

spread = np.random.rand(50) * 100
center = np.ones(25) * 50
# outliers
flier_high = np.random.rand(10) * 100 + 100
flier_low = np.random.rand(10) * 100 - 100
data = np.concatenate((spread, center, flier_high, flier_low))

In [None]:
plt.plot(data)
plt.show()

In [None]:
fig, ax = plt.subplots()
data2 = data[::3]
ax.boxplot([data, data2], labels = ["label1", "label2"],notch = True, showfliers = True, meanline = True, showmeans = True)
plt.show()

## Syntetizéry a zvuky zvláštních tvarů
Každý zvuk jsou vlastně jen oscilace tlaku v prostředí. Jako tón se označuje každý zvuk s periodickým průběhem. Charakter zvuku (barva) je určen časovým průbehem oscilace. Nejjednodušší tón má sinusový průběh - jako komorní A se označuje tón s frekvencí 440 Hz

In [None]:
t = np.linspace(0, 5, 100)
p = np.sin(2.0*np.pi*t*0.440)

plt.plot(t, p)
plt.xlabel("time / ms")

Elektronické zařízení, které tvoří zvuk syntézou, se nazývá syntetizér. Krásným příkladem klasického syntetizéru jsou například Hammondovy varhany - hráč může během hry modulovat podobu zvukového signálu přidáváním tzv. vyšších harmonických, tedy tónů s celočíselnými násobky frekvence základního tónu. Podle poměrů amplitud, s jakými vyšší harmonické skládáme, lze získat mnoho různých průběhů (barev). Mezi nejznámější příklady rozšířené na všech syntetizérech patří trojúhelníková, obdélníková a pilová vlna. Zkusme si je namodelovat.
\begin{align}
f_0 &= \frac{2\pi}{b-a}\\
y_{\textrm{sawtooth}}(x) &= \frac{2}{\pi}\sum\limits_{i=0}^{\infty} \frac{(-1)^k}{k}\sin(2\pi f_0 k x) \\
y_{\textrm{square}}(x) &= \frac{4}{\pi}\sum\limits_{i=0}^{\infty} \frac{\sin\left(2\pi f_0 (2k+1) x\right)}{2k+1} \\
y_{\textrm{triangle}}(x) &= \frac{8}{\pi^2}\sum\limits_{i=0}^{\infty} \frac{(-1)^k}{(2k+1)^2}\sin\left(2\pi f_0 (2k+1) x\right)
\end{align}

In [None]:

def triangle_wave_i(x, a, b, f0, i):
    L = b - a
    f0 = f0 * 2.0 * np.pi / L
    n = 2*i + 1
    return 8.0 * (-1)**i * np.sin(f0 * n * (x - a)) / n**2 / np.pi**2

    
def triangle_wave(x, a, b, f0, N):
    res = 0
    L = b - a
    dx = x - a
    f0 = f0 * 2.0 * np.pi / L
    for i in range(N):
        n = 2*i + 1
        res += (-1)**i * np.sin(f0 * n * dx) / n**2
    return 8 * res / np.pi**2

def square_wave_i(x, a, b, f0, i):
    L = b - a
    f0 = f0 * 2.0 * np.pi / L
    n = 2*i + 1
    return 4.0 *  np.sin(f0 * n * (x-a)) / n / np.pi

def square_wave(x, a, b, f0, N):
    res = 0
    L = b - a
    dx = x - a
    f0 = f0 * 2.0 * np.pi / L
    for i in range(N):
        n = 2*i + 1
        res += np.sin(f0 * n * dx) / n
    return 4 * res / np.pi

def sawtooth_wave_i(x, a, b, f0, i):
    L = b - a
    f0 = f0 * 2.0 * np.pi / L
    i = i + 1
    return 2.0 * (-1)**2 * np.sin(f0 * i * (x - a)) / i / np.pi

def sawtooth_wave(x, a, b, f0, N):
    res = 0
    L = b - a
    f0 = f0 * 2.0 * np.pi / L
    for i in range(1, N+1):
        res += (-1)**2 * np.sin(f0 * i * (x - a)) / i
    return 2.0 * res / np.pi

In [None]:
a = 0
b = 10
f0 = 1

x = np.linspace(a, b, 800)
y = square_wave(x, a, b, f0, 100)

plt.plot(x, y)
plt.show()

In [None]:
a = 0
b = 10
f0 = 1
N = 10

x = np.linspace(a, b, 800)

fig, axs = plt.subplots(3, 2, figsize=(12,12))
ax1, ax2, ax3 = axs

for ax in axs.flat:
    ax.set_xlabel("x")
    ax.set_ylabel("y")
    ax.label_outer()

for i in range(0, N):
    y = square_wave(x, a, b, f0, i+1)
    ax1[0].plot(x, y, label = "N = %d" % (i+1))
    ax1[0].legend()
    
    y = square_wave_i(x, a, b, f0, i)
    ax1[1].plot(x, y)
    
    y = triangle_wave(x, a, b, f0, i+1)
    ax2[0].plot(x, y, label = "N = %d" % (i+1))
    ax2[0].legend()
    
    y = triangle_wave_i(x, a, b, f0, i)
    ax2[1].plot(x, y)
        
    y = sawtooth_wave(x, a, b, f0, i+1)
    ax3[0].plot(x, y, label = "N = %d" % (i+1))
    ax3[0].legend()
    
    y = sawtooth_wave_i(x, a, b, f0, i)
    ax3[1].plot(x, y)

## ggplot
- knihovna napsaná pro R
- gg ~ Grammar of Graphics - idea spočívá v použití trochu jiné sémantiky při produkci grafů: graf je formálně rozdělen po vrstvách a či jiných prvcích a pomocí definovaných operací je skládáme dohromady.
- hrubá struktura vypadá zhruba takto:
```
data_k_vykresleni + prirazeni_os + geometricke_objekty + dalsi_objekty
```

V Pythonu máme balík `plotnine`, který replikuje chovádí knihovny `ggplot` z jazyka `R`
```
pip3 install plotnine
```

## uvodni ukazky

In [None]:
from plotnine import *
from plotnine.data import economics

data = economics
data

In [None]:
ggplot(data) + aes(x = "date", y = "pop") + geom_line()

In [None]:
data2 = data.loc[data["date"] >= '2014-01-01']
data2 = data2.loc[data2["date"] < "2015-01-01"]
data2

(
    ggplot(data2)
    + aes(x = "date", y = "pop")
    + geom_point(shape = 'o', size = 20, color = "red")
    + xlab("Date")
    + labs(title = "US population growth", y = "Population (million)")
    + theme_matplotlib()
    + theme(axis_text_x = element_text(angle=45))
    + scale_y_continuous(labels = lambda l: ["%d" % (i / 1000) for i in l])
)

In [None]:
(
    ggplot(economics)
    + aes(x = "date", y = "pop")
    + geom_line(color = "black", size = 5)
    + geom_line(color = "pink", size = 2)
    + geom_point(shape = '.', size = 1)
    + labs(title = "US population growth", x = "Date", y = "Population (million)")
    + theme_linedraw() + theme(axis_text_x=element_text(angle=45))
    + scale_y_continuous(breaks = lambda b: [round(i, 0) for i in np.linspace(b[0], b[1], 5)],labels = lambda l: ["%.2f" % (int(i)/1000) for i in l])
)

## Scatterplot

In [None]:
N = 100
data = {
    'a' : np.arange(N),
    'c' : np.random.randn(N)
}

data['b'] = data['a'] + 10 * np.random.randn(N)
data['d'] = np.abs(np.random.randn(N)) * 5

p = (
    ggplot()
    + aes(x = data['a'], y = data['b'])
    + geom_point(size = data['d'], mapping = aes(color = data['c']))
)
p = p + labs(color = "Barva", x = "x", y = "y", title = "Scatterplot")
# p.draw()
p += theme_xkcd()
p.save("scatterplot.png", dpi=600)

## bar plot

In [None]:
from plotnine.data import meat

data2012 = meat.loc[meat["date"] >= '2012-01-01']
summed = data2012.sum()
vals = summed.to_numpy()
colors = 1.0 - vals / vals.max()

(
    ggplot()
    + aes(summed.index, vals, fill = colors)
    + geom_col(show_legend = False)
    + labs(y = "per capita consumption (kg/year)")
    + coord_flip()
    + theme_matplotlib()
    + scale_fill_gradient(low = "black", high = "red")
)

## pie chart
nejspis v `plotline` neni

## boxplot

In [None]:
from plotnine.data import mpg
# mpg - miles per gallon
mpg.head()

In [None]:
(
    ggplot(mpg)
    + aes(x = 'manufacturer', y = 'cty')
    + geom_boxplot()
    + coord_flip()
)

## facets

In [None]:
(
    ggplot(mpg)
    + facet_grid(facets="year~class")
    + aes(x="displ", y="hwy")
    + labs(
        x="Engine Size",
        y="Miles per Gallon",
        title="Miles per Gallon for Each Year and Vehicle Class",
    )
    + geom_point()
)

https://github.com/rstudio/cheatsheets/blob/master/data-visualization-2.1.pdf