In [None]:
# -*- coding: utf-8 -*-
#
# Licensed under the Apache License, Version 2.0 (the "License");
# you may not use this file except in compliance with the License.
# You may obtain a copy of the License at
#
#    http://www.apache.org/licenses/LICENSE-2.0
#
# Unless required by applicable law or agreed to in writing, software
# distributed under the License is distributed on an "AS IS" BASIS,
# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or
# implied.
# See the License for the specific language governing permissions and
# limitations under the License.
#

# Úvod do práce s dátami pomocou knižníc Numpy a Pandas

Zdroj: https://github.com/FIIT-IAU/IAU-2019-2020

## Niečo k Numpy

Manualy 
* https://docs.scipy.org/doc/numpy-dev/user/quickstart.html
* https://docs.scipy.org/doc/numpy-dev/reference/index.html

In [None]:
%matplotlib inline
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn

In [None]:
pole = [1,2,3]
pole * 3

In [None]:
np_pole = np.array([1,2,3])
np_pole * 3

In [None]:
x = np.arange(20).reshape(4, 5) # skusit viacere dimenzie
x

In [None]:
x.shape

In [None]:
x.ndim

In [None]:
# spocitanie sumy po jednotlivych dimenziach
# funguju aj ine agregacne funkcie
# netreba definovat os
x.sum(axis=1)

## Viacero typov čísel

In [None]:
x.dtype

In [None]:
a = np.array([.1,.2])
print(a)
a.dtype

In [None]:
c = np.array( [ [1,2], [3,4] ], dtype=complex )
print(c)
c.dtype

## Rôzne spôsoby ako vyrobiť pole

In [None]:
np.array([1,2,3])

In [None]:
np.zeros((3,4))

In [None]:
np.ones((2,5))

In [None]:
np.repeat(3, 10).reshape([2,5])

In [None]:
np.linspace(0, 2, 9)

In [None]:
x = np.linspace( 0, 2*np.pi, 100 )
f = np.sin(x)
f

In [None]:
plt.plot(f)

## Maticové operácie

In [None]:
A = np.array( [[1,1], [0,1]] )
B = np.array( [[2,0], [3,4]] )

In [None]:
A

In [None]:
B

In [None]:
np.transpose(B)

In [None]:
A*B

In [None]:
# skutocne nasobenie matic
A.dot(B) # np.dot(A, B)

## Vyberanie prvkov

In [None]:
a = np.arange(10)**3
a

In [None]:
a[2]

In [None]:
a[2:5]

In [None]:
a[:6:2]

In [None]:
# vyber prvkov sa da pouzit aj na upravu pola
a[:6:2] = -1000
a

In [None]:
a[ 9: 3:-1]

## Vyberanie prvkov z viacrozmerného poľa

In [None]:
b = np.arange(20).reshape(4,5)
b

In [None]:
# rozmery su oddelene ciarkou
b[2,3]

In [None]:
b[2,]

In [None]:
b[1:3,2:4]

In [None]:
b[:,2:4]

## Čo je Pandas?
* `data.frame` štruktúry 
* Umožňuje základné operácie s dátami, sampling, group by, merge, ...
* Upravovanie formy dát (data cleaning, reshaping, wrangling)
* Veľmi ľahké základy exploratívnej analýzy a prace s chýbajúcimi hodnotami

**Na čo nám je Pandas?**
* importovať dáta zo štandardných formátov
* vyčistiť
* pozrieť sa do dát (štatistiky, sampling (vzorkovanie), základné grafy)
* posunúť dáta na analýzu / trénovanie modelov

**Základné úlohy**
* Spracovanie chýbajúcich údajov (.dropna(), pd.isnull())
* Merge, join (concat, join)
* Group
* Zmena tvaru dát (pivotovanie) (stack, pivot)
* Práca s časovými radmi (resampling, timezones, ..)
* Kreslenie

**Pandas používa Numpy pole a nad ním si postavili typ `Series` a `DataFrame`**

In [None]:
s = pd.Series([8,6,2,3,4])
s

In [None]:
# k numpy polu je pridany explicitny index 
s.index

In [None]:
s.values

In [None]:
s[0]

In [None]:
# na rozdiel od numpy vsak index moze byt aj nieco ine ako cislo
s2 = pd.Series(np.arange(4), index=['a', 'b', 'c', 'd'])
s2

In [None]:
s2['c']

In [None]:
s2[2]

In [None]:
s2.c

In [None]:
# na vytvorenie Series objektu sa da pouzit aj asociativne pole
population = pd.Series({'Germany': 81.3, 'Belgium': 11.3, 'France': 64.3, 'United Kingdom': 64.9, 'Netherlands': 16.9})
population

In [None]:
population['France']

In [None]:
# kedze je to postavene na Numpy, tak vieme robit vsetky zaujimave operacie
population * 1000

In [None]:
# index ma implicitne dane poradie, takze sa da robit rozsah
population['Belgium':'Netherlands']

In [None]:
population.mean()

In [None]:
population[['France', 'Netherlands']]

In [None]:
population[population > 20]

No a `DataFrame` je vlastne multidimenzionálny `Series`

In [None]:
data = {'country': ['Belgium', 'France', 'Germany', 'Netherlands', 'United Kingdom'],
        'population': [11.3, 64.3, 81.3, 16.9, 64.9],
        'area': [30510, 671308, 357050, 41526, 244820],
        'capital': ['Brussels', 'Paris', 'Berlin', 'Amsterdam', 'London']}
countries = pd.DataFrame(data)
countries

In [None]:
countries.index

In [None]:
countries.columns

In [None]:
countries.values

In [None]:
countries.dtypes

In [None]:
countries.info()

In [None]:
countries.describe()

In [None]:
countries.describe(include='all')

In [None]:
countries = countries.set_index('country')
countries

a vieme teraz veľmi jednoducho pristupovať k jednotlivým stĺpcom

In [None]:
countries.area # countries['area']

In [None]:
countries['population']*1000000 / countries['area'] # hustota zaludnenia

In [None]:
# vieme si jednoducho vyrobit novy stlpec
countries['density'] = countries['population']*1000000 / countries['area']
countries

In [None]:
# existuje ale aj iny sposob ako spracovat vsetky riadky
countries['area_miles'] = countries.area.apply(lambda x: x / 2.58999)
countries['area_miles']

In [None]:
# ak by ste chceli mat moznost pracovat s viacerimi atributmi naraz
countries.apply(lambda x: x.area / 2.58999, axis=1)
# dalo by sa iterovat aj cez stlpce ak axis=0. Dalo by sa to pouzit napriklad na nejake pocitanie statistik po stlpcoch

In [None]:
# a na zaklade neho napriklad vyberat riadky
countries[countries['density'] > 300]

In [None]:
# vieme potom napriklad usporiadavat
countries.sort_values(by='density', ascending=False)

In [None]:
# POZNAMKA: warning lebo je tam bug - opravia casom
# velmi silna vlastnost je priamociare vykreslovanie
# countries.density.plot()
# countries.density.plot(kind='bar')
countries.plot()

In [None]:
countries.plot(kind='scatter', x='population', y='area')

Keďže nám v `DataFrame` pribudla možnosť vyberať stĺpce podľa názvu, tak sa nám trochu skomplikovalo vyberanie prvkov oproti Numpy. Musíme rozoznávať 
* vyberanie podľa názvu a 
* podľa pozície.


In [None]:
countries['area']

In [None]:
countries[['area', 'density']]

In [None]:
# ked ale chceme rozsah, tak nam to pristupuje k riadkom
countries['France':'Netherlands']

Na pokročilejšie vyberanie z tabuľky používame:
* `loc` a
* `iloc`

In [None]:
# pristup ku konkretnej bunke pomocou riadka a stlpca
countries.loc['Germany', 'area']

In [None]:
# tu sa daju pouzit aj rozsahy na oboch rozmeroch
countries.loc['France':'Germany', :]

In [None]:
# ale aj vymenovanie
countries.loc[countries['density']>300, ['capital', 'population']]

In [None]:
# iloc vybera podla poradia. Toto je podobne pristupovaniu k prvkom ako v Numpy
countries.iloc[0:2,1:3]

In [None]:
# samozrejem, ze sa stale daju priradovat hodnoty
countries.loc['Belgium':'Germany', 'population'] = 10
countries

## Zmena tvaru dát pomocou Pandas

In [None]:
df = pd.DataFrame({'A':['one', 'one', 'two', 'two'], 'B':['a', 'b', 'a', 'b'], 'C':range(4)})
# df = pd.DataFrame({'A':['one', 'one', 'two', 'two'], 'B':['a', 'b', 'a', 'b'], 'C':range(4), 'D':range(4)})
df

`unstack` presúva hodnoty v nejakom stĺpci a vytvorí z nich názvy stĺpcov

často sa nám to hodí ak máme dáta, ktoré sú v trochu inej forme ako by sme potrebovali

In [None]:
df = df.set_index(['A', 'B']) # najskor si vyberieme stlpec, ktory pouzijeme ako index. 
# Ten druhy bude dodavat hodnoty do nazvov novych stlpcov
df

In [None]:
# teraz si povieme, v ktorom stlpci su hodnoty a nechame to preskupit
result = df['C'].unstack()
result

### Kedy by som mohol potrebovať takúto transformáciu?

Predstavte si, že máte logy nejakej aplikácie, kde máte id používateľa a názov akcie, ktorú vykonal. Chcete vedieť, koľko krát spravil rôzne akcie každý používateľ a to vykresliť do obrázku.

In [None]:
row_count = 20
user_ids = np.random.choice([1,2,3,4], row_count)
actions = np.random.choice(['create', 'update', 'delete', 'retrieve', 'retrieve'], row_count)

df=pd.DataFrame({'user_id': user_ids, 'action': actions})
df.head()

In [None]:
pom = df.groupby(['user_id', 'action']).size().reset_index() # operaciu groupby vam vysvetlim este raz kusok neskor
pom 

In [None]:
pom = pom.set_index(['user_id', 'action'])
pom

In [None]:
pom[0].unstack()
# pom[0].unstack(fill_value=0)

### Opačná operácia je stack

In [None]:
# Opacna transformacia je stack. Zoberie nazvy stlpcov a spravi z nich hodnoty
df = result.stack().reset_index(name='C')
df

Táto operácia sa používa napríklad, ak máte viaceré pozorovania v jednom riadku a chcete ich rozdeliť. Napríklad na riadku máte teplotu počas rôznych hodín dňa a vy chcete mať na každom riadku len jednu hodnotu teploty a chcete mat namiesto toho 24 riadkov pre každý deň.

In [None]:
from datetime import datetime, timedelta
row_count = 5
index = [datetime.now().date() - timedelta(days=i) for i in range(row_count, 0, -1)]
data = dict(zip(range(24), np.random.rand(24, row_count) * 5 + 20))
df = pd.DataFrame(index=index, data=data)
df.head()

In [None]:
df.stack().reset_index(name='temperature')

## Podobne ako unstack funguje aj pivot
Je to len špeciálny prípad predchádzajúcich dvoch funkcií, ale je ľahšie pochopiteľný a pravdepodobne vám toto bude úplne stačiť na väčšinu vecí. Hlavne ako náhrada unstack

[pekný príklad s vysvetlením](http://nikgrozev.com/2015/07/01/reshaping-in-pandas-pivot-pivot-table-stack-and-unstack-explained-with-pictures/)

In [None]:
# pivot je velmi podobny ako unstack, ale necha nastavit mena stlpcov a moze ich byt viac
df = pd.DataFrame({'A':['one', 'one', 'two', 'two'], 'B':['a', 'b', 'a', 'b'], 'C':range(4)})
df

In [None]:
df.pivot(index='A', columns='B', values='C')

In [None]:
# pivot_table je podobne ako pivot, ale dokaze pracovat s duplicitnymi stlpcami a necha vas definovat agregacnu funkciu
df = pd.DataFrame({'A':['one', 'one', 'two', 'two', 'one', 'two'], 'B':['a', 'b', 'a', 'b', 'a', 'b'], 'C':range(6)})
df

In [None]:
df.pivot_table(index='A', columns='B', values='C', aggfunc=np.sum) #aggfunct je defaultne np.mean

## Ďalšia častá operácia je groupby
určite poznáte z SQL

In [None]:
df = pd.DataFrame({'key':['A','B','C','A','B','C','A','B','C'],
                   'data': [0, 5, 10, 5, 10, 15, 10, 15, 20]})
df

In [None]:
df.groupby('key').aggregate('sum') # df.groupby('key').sum()

# Zopár ďalších užitočných vecí pri práci s Pandas DataFrame

In [None]:
df = pd.read_csv('https://raw.githubusercontent.com/rasbt/python_reference/master/Data/some_soccer_data.csv')
df.head()

In [None]:
# premenovanie vybranych stlpcov
df = df.rename(columns={'P': 'points', 
                        'GP': 'games',
                        'SOT': 'shots_on_target',
                        'G': 'goals',
                        'PPG': 'points_per_game',
                        'A': 'assists',})
df.head()

## Transformácia hodnôt v stĺpci

In [None]:
df['SALARY'] = df['SALARY'].apply(lambda x: x.strip('$m'))
df.head()

## Pridanie prázdneho stĺpcu

In [None]:
df['team'] = pd.Series('', index=df.index)
df['position'] = pd.Series('', index=df.index)
df.head()

## Transformácia jedného stĺpca  a naplnenie viacerých naraz

In [None]:
def process_player_col(text):
    name, rest = text.split('\n')
    position, team = [x.strip() for x in rest.split(' — ')]
    return pd.Series([name, team, position])

df[['PLAYER', 'team', 'position']] = df.PLAYER.apply(process_player_col)
df.head()

In [None]:
df['bla'] = pd.Series('', index=df.index)

## Zistenie, koľko riadkov a stĺpcov má prázdne hodnoty

Počet riadkov s aspoň jednou prázdnou hodnotou

In [None]:
df.shape[0] - df.dropna().shape[0]

Počet prázdnych hodnôt v stĺpcoch

In [None]:
df.isnull().sum()

Počet prázdnych hodnôt v riadkoch

In [None]:
df.isnull().sum(axis=1)

Celkový počet prázdnych hodnôt v dátach

In [None]:
df.isnull().sum().sum()

## Vyber riadkov, kde sú prázdne hodnoty

Na základe jedného atribútu

In [None]:
df[df['assists'].isnull()]

Riadky, v ktorých je aspoň jedna prázdna hodnota

In [None]:
df[df.isnull().any(axis=1)]

## Vyber plných riadkov

Na základe jedného atribútu

In [None]:
df[df['assists'].notnull()]
# df[~df['assists'].isnull()]

Na základe všetkých atribútov

In [None]:
df[df.notnull().all(axis=1)]

Jednoduchšie

In [None]:
df.dropna()

## Spájanie podmienok
Všimnite si zátvorky

In [None]:
df[ (df['team'] == 'Arsenal') | (df['team'] == 'Chelsea') ]

In [None]:
df[ (df['team'] == 'Arsenal') & (df['position'] == 'Forward') ]

## SQL v Pandas

In [None]:
from pandasql import sqldf

In [None]:
from pandasql import load_meat, load_births

meat = load_meat()
births = load_births()

In [None]:
type(meat)

In [None]:
meat.head()

In [None]:
births.head()

In [None]:
data = {'meat': meat}

In [None]:
sqldf('select * from meat limit 10', data)

In [None]:
data2 = {'meat2': meat}

In [None]:
sqldf('select * from meat2 limit 10', data2)

In [None]:
sqldf('select * from meat limit 10', locals())

In [None]:
sqldf('select * from births limit 10', locals())

In [None]:
q = """
    SELECT
        m.date
        , b.births
        , m.beef
    FROM
        meat m
    INNER JOIN
        births b
            on m.date = b.date
    ORDER BY
        m.date
    LIMIT 100;
    """

joined = sqldf(q, locals())
print(joined.head())

Pandasql beží na SQLite3, takže všetky klasické operácie v SQL viete robiť aj tu. Fungujú podmienky, vnorené dopyty, joiny, union, funkcie, ...

# Literatúry

### Numpy
* 100 úloh aj so vzorovými riešeniami - https://github.com/rougier/numpy-100
* Ďalšie úlohy aj s riešeniami - https://www.w3resource.com/python-exercises/numpy/index.php
* Cheat Sheet - https://www.datacamp.com/community/blog/python-numpy-cheat-sheet

### Pandas
* 100 úloh aj so vzorovými riešeniami - https://github.com/ajcr/100-pandas-puzzles
* Ďalšie úlohy aj s riešeniami - https://www.w3resource.com/python-exercises/pandas/index.php
* Tutoriál priamo z dokumentácie ku knižnici - https://pandas.pydata.org/pandas-docs/stable/tutorials.html 
* Úlohy na rôznych skutočných datasetoch - https://github.com/guipsamora/pandas_exercises
* Pandas Cheat Sheet - https://www.datacamp.com/community/blog/python-pandas-cheat-sheet
* Data Wrangling in Python Cheat Sheet - https://www.datacamp.com/community/blog/pandas-cheat-sheet-python


### Ďalšie veľmi pekné návody na prácu s dátami pomocou Pandas
https://github.com/ResearchComputing/Meetup-Fall-2013

Vybrané konkrétne časti, ktoré sú pre nás špeciálne zaujímavé:

* https://github.com/ResearchComputing/Meetup-Fall-2013/blob/master/python/lecture_10_pandas_introduction.ipynb
* https://github.com/ResearchComputing/Meetup-Fall-2013/blob/master/python/lecture_11_pandas_adding_data.ipynb
* https://github.com/ResearchComputing/Meetup-Fall-2013/blob/master/python/lecture_12_pandas_groupby.ipynb
* https://github.com/ResearchComputing/Meetup-Fall-2013/blob/master/python/lecture_13_pandas_movies.ipynb
* https://github.com/ResearchComputing/Meetup-Fall-2013/blob/master/python/lecture_14_pandas_reshape.ipynb
* https://github.com/ResearchComputing/Meetup-Fall-2013/blob/master/python/lecture_15_pandas_transforming.ipynb
* https://github.com/ResearchComputing/Meetup-Fall-2013/blob/master/python/lecture_21_pandas_processing.ipynb
* https://github.com/ResearchComputing/Meetup-Fall-2013/blob/master/python/lecture_22_pandas_cleaning.ipynb
* https://github.com/ResearchComputing/Meetup-Fall-2013/blob/master/python/lecture_23_titanic_example.ipynb
