# 2. Základy knihovny physt

In [None]:
# Nutné importy
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
%matplotlib inline

In [None]:
# Pojďme si načíst data z předchozího příkladu (ale "jenom" milion)
teploty = pd.read_csv("data/vsechny_teploty.csv.gz", squeeze=True, dtype=np.float32, header=None, nrows=1100000)

# Opět omezíme teploty na "rozumné" rozmezí
teploty = teploty[teploty > -50]
teploty = teploty[teploty < 60]
teploty = teploty[:1000000]

teploty.name = "Teplota"

In [None]:
teploty.head()

In [None]:
import physt
from physt import h1

## Objektová reprezentace

Nejjednodušší histogram

In [None]:
H = physt.h1(teploty)
H

In [None]:
# Odpovídá stejnému volání v numpy
H.numpy_like()

In [None]:
# Trošku vivisekce histogramu neuškodí
H.to_dict()

In [None]:
H.plot()

## "inteligentní" biny

### Pevná šířka

In [None]:
H = physt.h1(teploty, "fixed_width", bin_width=1, adaptive=True )
H.plot()
H.numpy_like()

In [None]:
H._binning.to_dict()

In [None]:
# Na úrovni nejnižšího rozlišení
H = physt.h1(teploty, "fixed_width", bin_width=.1, adaptive=True, range=(-5, 5))
H.plot()

To nebude dobře, začínáme si hrát se zaokrouhlovací chybou!

Trochu to ošidíme (pro počítač je šesté desetinné místo zajímavé), pro nás ne.

In [None]:
H = physt.h1(teploty, "fixed_width", bin_width=.099999, adaptive=True, range=(-5, 5))
H.plot()

**Varování**: Vyhýbejte se hodnotám na hranici binu a mějte opravdu "float" data

In [None]:
H = physt.h1(teploty, "fixed_width", bin_width=.099999, bin_shift=0.001, adaptive=True)
H.plot("line")

### Automatická vhodná šířka ("human")

In [None]:
H = physt.h1(teploty, "human")
H.plot(show_values=True, value_format=lambda x:int(x / 1000))
H.numpy_bins

In [None]:
for n in [3, 7, 10, 15, 20, 40, 50]:
    H = physt.h1(teploty, "human", n)
    print(n, H.bin_count, H._binning.bin_width)

### Biny o stejném obsahu

In [None]:
H = physt.h1(teploty, "quantile", 30)    
H.plot()     # Mělo by být stejně široké! Ale není
H.numpy_like()

In [None]:
physt.h1(teploty, "quantile", 30).plot(density=True)

### Exponenciální

In [None]:
# Teploty (zatím) nejsou exponenciální, tak jiná data:
countries = pd.read_csv("https://www.worlddata.info/download/countries.csv", delimiter=";")
countries = countries[(countries.Population > 0) & (countries.Area > 0)]

In [None]:
h1(countries.Population).plot()

In [None]:
h1(countries.Population, "exponential").plot()

## Plnění histogramů

In [None]:
np.random.seed(42)
H = physt.h1(None, "fixed_width", 5, adaptive=True)
H

In [None]:
H.fill_n(np.random.choice(teploty, 1000))
H.plot("bar", errors=True, density=True)
H