<h1> Moduly pro datovou analýzu </h1>

<p> Abychom mohli data v jazyce python analyzovat a provádět výpočty rychle a výpočetně efektivně, je zapotřebí nainstalovat a importovat několik klíčových modulů do našeho Jupyter notebooku</p>


<h5>Výpočet statistik, funkcí a matematických operací s vysokým výkonem:</h5> 
Numpy

<https://numpy.org/doc/stable>

<h5>Tvorba, načítání a úprava dat v tabulkových formátech:</h5>
Pandas

<https://pandas.pydata.org/docs/>

<h5>Vizualizace dat a tvorba grafů:</h5>

Matplotlib (nejpopulárnější) 
<https://matplotlib.org/> 
<br>

Plotly (verzatilnější):
<br>

Plotly Express (jednodušší grafy)
<https://plotly.com/python-api-reference/plotly.express.html>
<br>

Plotly Graph Objects (složitější ale flexibilnější grafy a vizualizace)
<https://plotly.com/python-api-reference/plotly.graph_objects.html>
<br>

In [2]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import plotly.graph_objects as go 
import plotly.express as px
import os

<h5>Prvním krokem bude tvorba datové struktury, tzv. Dataframu, který knihovna pandas využívá pro reprezentaci tabulkových dat</h5>

Dataframe lze vytvořit několika způsoby, nejčastěji z Python dictionary, načtením CSV souboru či Excelové tabulky (.xls, .xslx). Podporované jsou například i SQL databáze.

Více o dataframu: <https://pandas.pydata.org/docs/reference/frame.html>

Více o I/O modulu pandas (načítání a ukládání souborů): <https://pandas.pydata.org/docs/reference/io.html>

In [None]:
my_dict = {
   "days":["monday","tuesday","wednesday","thursday","friday","saturday","sunday"],
   "hours_worked":[8,9,11,7,6,2,0]
}

df_dict = pd.DataFrame.from_dict(my_dict)
df_dict

In [None]:
df_csv = pd.read_csv("dataset/sample.csv", usecols=["days","hours_worked"])
df_csv

In [None]:
df_excel = pd.read_excel("dataset/sample.xlsx",
                         usecols=["days", "hours_worked"])
df_excel

<h5>Cíl projektu</h5>

Cílem práce je pomocí modulu Pandas načíst a upravit výpis pohybů na účtu z internetového bankovnictví, výpočítat statistiky pomocí modulu Numpy a vizualizovat data pomocí modulů Matplotlib a Plotly <br>

Ve složce `dataset` se za tímto účelem nacházejí soubory `csob.xls` a `sporitelna.csv`

In [None]:
df_csob = pd.read_excel(os.path.join("dataset", "csob.xls"))
df_csob

In [None]:
df_sporitelna = pd.read_csv(os.path.join("dataset", "sporitelna.csv"),
                            delimiter=';', decimal=",")
df_sporitelna

<h5>Základní informace o Dataframu</h5>

In [None]:
# souhrn informací

df_sporitelna.info()

In [None]:
# názvy všech neindexových sloupců

df_sporitelna.columns

In [None]:
# index a jeho typ

df_sporitelna.index

<h5>Změna indexu dataframu</h5>

Častým požadavkem je změna indexu dataframu z výchozích čísel například na datum a čas či vlastní číslování

In [12]:
# změna indexu dataframu na cílovou hodnotu - v tomto případě přečíslujeme tak, aby dataframe začínal na řádku 1

df_csob["Index"] = [x+1 for x in range(len(df_csob))]
df_sporitelna["Index"] = [x + 1 for x in range(len(df_sporitelna))]

df_csob = df_csob.set_index("Index")
df_sporitelna = df_sporitelna.set_index("Index")

In [None]:
df_csob

<h5>Získávání částí dataframu podle názvů sloupců a indexů</h5>

In [None]:
# data pouze z jednoho sloupce

df_csob["amount"]

In [None]:
# výsledný formát dat je Pandas Series, můžeme indexovat pro získání konkrétní hodnoty

df_csob["amount"][1]

In [None]:
# s daty můžeme dále pracovat, například vizualizovat v grafech - v tomto případě zůstatek na účtě 

px.line(y=df_csob["deposit"], x=df_csob["date of posting"], title="Zůstatek na účtě")

In [None]:
# získávání hodnot řádků na základě numerických indexů (pozor, index běží od 0 do len(df)-1)

df_sporitelna.iloc[6]

In [None]:
df_csob.iloc[[5,10]]

In [None]:
# získání konkrétní hodnoty

df_csob.iloc[25]["amount"]

In [None]:
# také lze získat jednotlivé řádky podle konkrétní hodnoty v indexu (pokud jsou index písmena od a do z, lze podle každého vypsat řádek) - viz. porovnání s iloc

df_sporitelna.loc[6]

In [None]:
df_sporitelna.loc[6]["Název protiuctu"]

In [None]:
# logické indexování pomocí boolean hodnot

df_csob.index.isin([6,30,38])

In [None]:
# pomocí boolean hodnot s indexem shodným s původním Dataframem můžeme filtrovat a získat pouze požadovaná data

df_csob[df_csob.index.isin([6, 30, 38])]

In [None]:
df_csob[df_csob.index.isin([30])]["deposit"]

In [None]:
# lze vyhledávat i v nečíselných hodnotách

df_csob["marking the operation"].isin(["Outgoing instant payment"])

In [None]:
df_csob[df_csob["marking the operation"].isin(["Outgoing instant payment"])]

In [None]:
# získání konkrétní hodnoy podle názvu/vlastního indexu řádku a názvu sloupce

df_sporitelna.at[26, "Castka"]

In [None]:
# podobně jako loc a iloc, lze získat i podle indexu řádku od 0 do len(dataframe)-1 a indexu sloupce podle stejného číslování od 0 do len(df.columns)-1

df_sporitelna.iat[25, -2]

<h5>Filtrování pomocí pravdivostních výroků</h5>

Podobně jako metoda .isin vracející True/False můžeme získat boolean hodnoty výroku či podmínky týkající se sloupců Dataframu a pomocí nich vyfiltrovat řádky, které podmínky nesplňují

In [None]:
df_csob["amount"] > 0.0

In [None]:
df_csob[df_csob["amount"] > 0.0]

In [None]:
df_csob[df_csob["marking the operation"] == "Incoming payment"]

In [None]:
# filtrovat můžeme podle více podmínek, mezi kterými rozhodne některý z logických operátorů and (&), or (|) nebo not (~), každá podmínka musí být v samostatné závorce kvůli pořadí, ve kterém je Python vyhodnocuje

df_csob[(df_csob["amount"] > 500.0) & (df_csob["marking the operation"] == "Incoming instant payment")]

<h5>Cvičení 1: vytvořte program, který z dataframu získá informace o pohybech na účtě a pro každý den spočítá jejich celkovou bilanci, jež pak vhodně vizualizuje ve sloupcovém grafu</h5>

Výdaj vyznačte červeně, příjmy zeleně

Potřebná dokumentace:
<br>

<https://plotly.com/python/bar-charts/>
<br>

<https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#boolean-indexing>


In [31]:
# místo pro váš kód

In [None]:
# vzorové řešení (spusťte pro kontrolu)

def parse_vals(df, time_col, val_col):
    data_dict = {"date":[],"in":[],"out":[]}
    df[time_col] = pd.to_datetime(df[time_col], infer_datetime_format=True)
    for date in df[time_col].unique():
        temp_df = df[df[time_col] == date]
        data_dict["date"].append(date)
        data_dict["in"].append(np.sum(temp_df[temp_df[val_col] > 0.0][val_col]))
        data_dict["out"].append(np.sum(temp_df[temp_df[val_col] < 0.0][val_col]))
    return pd.DataFrame.from_dict(data_dict)

def plot_vals(df,name):
    df['date'] = df['date'].dt.strftime('%d/%m/%Y')
    return px.bar(df,y=["in","out"], x="date", barmode="group",
                  labels={"value": "CZK", "variable": "Pohyb", "date":"Datum"},
             color_discrete_map={"in": "green", "out": "red"},
             title=name)

def main():
    accounts = {
        "csob":[df_csob,"date of posting","amount","ČSOB"],
        "sporitelna":[df_sporitelna, "Datum zauctovani", "Castka", "Česká spořitelna"]
    }
    acc = input("Zadejte účet, ze kterého chcete vidět data (csob/sporitelna)")
    if not(acc in list(accounts.keys())):
        print("Chyba - špatně zadaný účet")
    else:
        df = parse_vals(accounts[acc][0], accounts[acc][1], accounts[acc][2])
        fig = plot_vals(df, accounts[acc][-1])
        fig.show()

if __name__ == "__main__":
    main()

<h5>Do existujících dataframů můžeme vkládat i nové sloupce a řádky</h5>

In [34]:
df_csob["amount"] = df_csob["amount"].astype(np.float32)

In [None]:
# nové sloupce, tyto sloupce pomocí bool hodnoty jednoduše indikují zda se jedná o výdaj či příjem

df_csob["Income"] = df_csob["amount"] > 0.0
df_csob["Expense"] = df_csob["amount"] < 0.0
df_csob

In [None]:
# nový sloupec či sloupce lze k dataframu připojit pomocí metody join

new_col = pd.Series(["Expense" if x else "Income" for x in df_csob["amount"] < 0.0], name="Income/Expense")
df_csob.join(new_col)

In [None]:
# odstranění sloupců

df_csob.drop(["Income","Expense"],axis=1, inplace=True)
df_csob

In [None]:
# nové řádky, provedeno formou konkatování ("slepení") dvou dataframů - původního dataframu a nového řádku

new_line = {"account no.": ["284622580/0300"], "date of posting":["2022-09-01"],"amount":["8000"], "currency":["USD"]}
new_line = pd.DataFrame(new_line)

df_csob = pd.concat([df_csob, new_line], ignore_index=True)
df_csob

In [None]:
# odstranění řádku (stejnou metodou jako u sloupců)

df_csob = df_csob.drop(79, axis=0)
df_csob

<h5>Slučování a připojování dataframů</h5>

Modul pandas nabízí několik způsobů, jak dataframy spojit či sloučit do jednoho, a to na základě indexů či sloupců

In [None]:
# načteme si druhý výpis z účtu ČSOB

df_csob2 = pd.read_excel("dataset/csob2.xls")
df_csob2

In [None]:
# připojení dataframů za sebe do jedné delší tabulky

df_csob_complete = pd.concat([df_csob,df_csob2], axis=0, ignore_index=True)
df_csob_complete

In [None]:
# spojování dataframů na ose x (ose 1) - přidávání sloupců pomocí metody join

new_df = pd.DataFrame({"Income/Expense":["Expense" if x else "Income" for x in df_csob2["amount"] < 0.0], "Custom code":[1 if x else 0 for x in df_csob2["deposit"] > 100000.0]},columns=["Income/Expense","Custom code"])
df_csob2.join(new_df)