# 1. Numpy, matplotlib, pandas - histogramy

Stručná otázka toho, jak s histogramy pracují tři kanonické knihovny pro numerické počítání / analýzu dat v Pythonu.
Omezíme se na jednorozměrné příklady, mějme však na paměti, že existují i funkce pro více dimenzí.

In [None]:
# Co jsme to dostali za soubor?
!ls -lLh vsechny_teploty.csv.gz
!zcat vsechny_teploty.csv.gz | head -n 10

In [None]:
# Pojďme si data načíst
import pandas as pd
import numpy as np
vsechny_teploty = np.asarray(pd.read_csv("vsechny_teploty.csv.gz", squeeze=True, dtype=np.float32, header=None))

In [None]:
# Zkontrolujme na několika prvních, že se nám načetly správně
vsechny_teploty[:10]

In [None]:
# A kolik jich je?
vsechny_teploty.shape

In [None]:
# Jsou všechny údaje v pořádku?
vsechny_teploty.max()

In [None]:
# Pro jistotu omezíme teploty na "rozumné" rozmezí
vsechny_teploty = vsechny_teploty[vsechny_teploty > -50]
vsechny_teploty = vsechny_teploty[vsechny_teploty < 50]

## numpy

In [None]:
counts, bins = np.histogram(vsechny_teploty)
counts, bins

### Co to udělá?

Vrátí tuple, který obsahuje jednak obsah binů, jednak všechny hranice binů.

*Poznámka: Hranice mezi biny jsou "ošklivé".*

### Odkazy

API dokumentace:

* <https://docs.scipy.org/doc/numpy/reference/generated/numpy.histogram.html>

## matplotlib

In [None]:
import matplotlib.pyplot as plt
%matplotlib inline

In [None]:
plt.hist(vsechny_teploty, bins=20)

### Co udělá?

* nakreslí graf
* vrátí tuple (bins, counts, list obdélníků), podobně jako numpy

### Odkazy

API dokumentace:

* <http://matplotlib.org/api/pyplot_api.html#matplotlib.pyplot.hist>

Příklady:

* <http://matplotlib.org/examples/pylab_examples/histogram_percent_demo.html>
* <http://matplotlib.org/examples/statistics/histogram_demo_multihist.html>

## pandas

In [None]:
pd.Series(vsechny_teploty).hist(bins=range(-20, 50, 5))

### Co udělá?

* nakreslí graf
* vrátí objekt typu AxesSublot

### Odkazy

API dokumentace:
    
* <http://pandas.pydata.org/pandas-docs/stable/generated/pandas.Series.hist.html>
* <http://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.hist.html>

## Seaborn (bonus)

In [None]:
import seaborn as sns

In [None]:
sns.distplot(vsechny_teploty, hist=True, kde=False)

In [None]:
_, ax = plt.subplots()
sns.distplot(vsechny_teploty, hist=False, kde=True, ax=ax)
ax.set_xlim(-50, 50)

### Odkazy

API dokumentace:

* <http://seaborn.pydata.org/generated/seaborn.distplot.html>

Příklady:

* <http://seaborn.pydata.org/examples/distplot_options.html>
