<h1>Pandas I/O, práce se soubory, cestami a python argparse pro tvorbu kompletní aplikace pro automatizovanou datovou analýzu</h1>

In [1]:
import os
import plotly.express as px
import plotly.graph_objects as go
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd

<h5>Modul pandas má vestavěné nástroje pro export a načítání velkého množství datových formátů</h5>

In [2]:
# již známé načítání tabulek ve formátu Microsoft Excel
# vyžaduje dodatečnou instalaci modulu xlrd

df_csob = pd.read_excel(os.path.join("dataset", "csob.xls"))
df_csob

Unnamed: 0,account no.,date of posting,amount,currency,deposit,counter-account number,counter-account bank number,name of counter-account,constant symbol,variable symbol,specific symbol,marking the operation,Transaction ID,note
0,284622580/0300,2022-07-19,-791.15,CZK,88782.78,,,,1178.0,405000199.0,2.212104e+09,Debit card transaction,10479404244,"Amount: 31,5 EUR 17.07.2022, Place: Zeppelin M..."
1,284622580/0300,2022-07-19,-45.00,CZK,89573.93,2.008200e+09,5500.0,,,,,Outgoing instant payment,10478823066,Spotify
2,284622580/0300,2022-07-18,-475.93,CZK,89618.93,,,,1178.0,405000198.0,2.212104e+09,Debit card transaction,10476817120,"Amount: 19 USD 15.07.2022, Place: PAYPAL *HOLA..."
3,284622580/0300,2022-07-18,-225.44,CZK,90094.86,,,,1178.0,405000197.0,2.212104e+09,Debit card transaction,10476525982,"Amount: 9 USD 15.07.2022, Place: AIRALO, SINGA..."
4,284622580/0300,2022-07-18,-2335.24,CZK,90320.30,,,,1178.0,405000197.0,2.212104e+09,Debit card transaction,10476525984,"Amount: 92 CHF 14.07.2022, Place: Restaurant H..."
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
74,284622580/0300,2022-06-20,-689.99,CZK,162730.48,,,,1178.0,405000170.0,2.212104e+09,Debit card transaction,10400956338,"Amount: 285 NOK 17.06.2022, Place: VULKANFISK ..."
75,284622580/0300,2022-06-20,-290.52,CZK,163420.47,,,,1178.0,405000170.0,2.212104e+09,Debit card transaction,10400956344,"Amount: 120 NOK 17.06.2022, Place: ONEPARK VUL..."
76,284622580/0300,2022-06-20,-189.92,CZK,163710.99,,,,1178.0,405000169.0,2.212104e+09,Debit card transaction,10400813269,"Amount: 80 SEK 16.06.2022, Place: CAFEVA AB, B..."
77,284622580/0300,2022-06-20,-68.85,CZK,163900.91,,,,1178.0,405000169.0,2.212104e+09,Debit card transaction,10400813274,"Amount: 29 SEK 16.06.2022, Place: KAWAII.SE GB..."


In [3]:
# do formátu xls (Microsoft Excel) lze dataframy i zapisovat
# na ukázku vytvoříme nový dataframe z toho existujícího a uložíme na disk 
# potřebujeme modul openpyxl
csob_july = df_csob[(df_csob["date of posting"] >= '1 Jul 2022'
         ) & (df_csob["date of posting"] < '15.07.2022')]

csob_july.to_excel("./dataset/csob_july.xlsx")

  return self._cmp_method(other, operator.lt)


In [4]:
# čtení z textových souborů a souborů s oddělovači (CSV)
csv_sample = pd.read_csv("./dataset/sample.csv")
csv_sample

Unnamed: 0.1,Unnamed: 0,days,hours_worked
0,0,monday,8
1,1,tuesday,9
2,2,wednesday,11
3,3,thursday,7
4,4,friday,6
5,5,saturday,2
6,6,sunday,0


In [5]:
# načítat soubory, například typu CSV, lze i přímo z webových zdrojů (např. http)
# zkušení CSV soubory
# https://people.sc.fsu.edu/~jburkardt/data/csv/csv.html

ford_escort = pd.read_csv('https://people.sc.fsu.edu/~jburkardt/data/csv/ford_escort.csv')
ford_escort

Unnamed: 0,Year,"""Mileage (thousands)""","""Price"""
0,1998,27,9991
1,1997,17,9925
2,1998,28,10491
3,1998,5,10990
4,1997,38,9493
5,1997,36,9991
6,1997,24,10490
7,1997,37,9491
8,1997,38,9491
9,1997,30,9990


In [6]:
# podobně jako při tvorbě nových dataframů lze specifikovat, které sloupce budou načteny
# parametr names specifikuje jména sloupců, header číslo řádku kde se vyskytují původní názvy sloupců ve zdrojovém souboru
ford_escort_yr_price = pd.read_csv('https://people.sc.fsu.edu/~jburkardt/data/csv/ford_escort.csv',names=["Year","Price"],header=0)
ford_escort_yr_price

Unnamed: 0,Year,Price
1998,27,9991
1997,17,9925
1998,28,10491
1998,5,10990
1997,38,9493
1997,36,9991
1997,24,10490
1997,37,9491
1997,38,9491
1997,30,9990


In [7]:
# podobně lze využívat i parametr usecols
biostats = pd.read_csv('https://people.sc.fsu.edu/~jburkardt/data/csv/biostats.csv', usecols=[0,2,3,4])
biostats

Unnamed: 0,Name,"""Age""","""Height (in)""","""Weight (lbs)"""
0,Alex,41,74,170
1,Bert,42,68,166
2,Carl,32,70,155
3,Dave,39,72,167
4,Elly,30,66,124
5,Fran,33,66,115
6,Gwen,26,64,121
7,Hank,30,71,158
8,Ivan,53,72,175
9,Jake,32,69,143


In [8]:
# parameter index_col umožňuje specifikovat který ze sloupců využít k indexaci dataframu
biostats_alt_index = pd.read_csv('https://people.sc.fsu.edu/~jburkardt/data/csv/biostats.csv',index_col = "Name")
biostats_alt_index

Unnamed: 0_level_0,"""Sex""","""Age""","""Height (in)""","""Weight (lbs)"""
Name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Alex,"""M""",41,74,170
Bert,"""M""",42,68,166
Carl,"""M""",32,70,155
Dave,"""M""",39,72,167
Elly,"""F""",30,66,124
Fran,"""F""",33,66,115
Gwen,"""F""",26,64,121
Hank,"""M""",30,71,158
Ivan,"""M""",53,72,175
Jake,"""M""",32,69,143


In [9]:
# podobně jako u souborů ve formátu excel lze do CSV souborů zapisovat

biostats_alt_index.to_csv("./dataset/biostats.csv")

In [10]:
# dalšími často využívanými formáty jsou JSON, HTML, LaTeX a SQL

biostats_alt_index.to_json('./dataset/biostats.json')
biostats_alt_index.to_html('./dataset/biostats.html')
biostats_alt_index.style.to_latex('./dataset/biostats.tex') # Pouze zápis

# biostats_alt_index.to_sql() Vyžaduje nainstalovaný SQL Engine

In [11]:
# Vizualizace HTML souboru

from IPython.display import display, HTML
with open('./dataset/biostats.html','r', encoding='utf-8') as f:  
    display(HTML(f.read()))

Unnamed: 0_level_0,"""Sex""","""Age""","""Height (in)""","""Weight (lbs)"""
Name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Alex,"""M""",41,74,170
Bert,"""M""",42,68,166
Carl,"""M""",32,70,155
Dave,"""M""",39,72,167
Elly,"""F""",30,66,124
Fran,"""F""",33,66,115
Gwen,"""F""",26,64,121
Hank,"""M""",30,71,158
Ivan,"""M""",53,72,175
Jake,"""M""",32,69,143


In [12]:
# načtení JSON souboru modulem pandas versus načtení modulem JSON

pd.read_json('./dataset/biostats.json')

Unnamed: 0,"""Sex""","""Age""","""Height (in)""","""Weight (lbs)"""
Alex,"""M""",41,74,170
Bert,"""M""",42,68,166
Carl,"""M""",32,70,155
Dave,"""M""",39,72,167
Elly,"""F""",30,66,124
Fran,"""F""",33,66,115
Gwen,"""F""",26,64,121
Hank,"""M""",30,71,158
Ivan,"""M""",53,72,175
Jake,"""M""",32,69,143


In [13]:
import json

with open('./dataset/biostats.json', 'r', encoding='utf-8') as f:
    df_as_json = json.loads(f.read())
df_as_json

{'     "Sex"': {'Alex': '       "M"',
  'Bert': '       "M"',
  'Carl': '       "M"',
  'Dave': '       "M"',
  'Elly': '       "F"',
  'Fran': '       "F"',
  'Gwen': '       "F"',
  'Hank': '       "M"',
  'Ivan': '       "M"',
  'Jake': '       "M"',
  'Kate': '       "F"',
  'Luke': '       "M"',
  'Myra': '       "F"',
  'Neil': '       "M"',
  'Omar': '       "M"',
  'Page': '       "F"',
  'Quin': '       "M"',
  'Ruth': '       "F"'},
 ' "Age"': {'Alex': 41,
  'Bert': 42,
  'Carl': 32,
  'Dave': 39,
  'Elly': 30,
  'Fran': 33,
  'Gwen': 26,
  'Hank': 30,
  'Ivan': 53,
  'Jake': 32,
  'Kate': 47,
  'Luke': 34,
  'Myra': 23,
  'Neil': 36,
  'Omar': 38,
  'Page': 31,
  'Quin': 29,
  'Ruth': 28},
 ' "Height (in)"': {'Alex': 74,
  'Bert': 68,
  'Carl': 70,
  'Dave': 72,
  'Elly': 66,
  'Fran': 66,
  'Gwen': 64,
  'Hank': 71,
  'Ivan': 72,
  'Jake': 69,
  'Kate': 69,
  'Luke': 72,
  'Myra': 62,
  'Neil': 75,
  'Omar': 70,
  'Page': 67,
  'Quin': 71,
  'Ruth': 65},
 ' "Weight (lbs)"':

<h5>Podobně jako u tvorby dataframů z datových typů Pythonu lze při načítání specifikovat datové typy a formáty </h5>

In [14]:
# Explicitní nastavení sloupce Age na 8bitový integer z modulu Numpy
df_stats = pd.read_csv("./dataset/biostats.csv", dtype={' "Age"':np.int8})
df_stats

Unnamed: 0,Name,"""Sex""","""Age""","""Height (in)""","""Weight (lbs)"""
0,Alex,"""M""",41,74,170
1,Bert,"""M""",42,68,166
2,Carl,"""M""",32,70,155
3,Dave,"""M""",39,72,167
4,Elly,"""F""",30,66,124
5,Fran,"""F""",33,66,115
6,Gwen,"""F""",26,64,121
7,Hank,"""M""",30,71,158
8,Ivan,"""M""",53,72,175
9,Jake,"""M""",32,69,143


In [15]:
type(df_stats[' "Age"'][0])

numpy.int8

In [16]:
# Pomocí parametrů true_values a false_values lze upravit, které hodnoty mají být načteny jako Python boolean
df_truefalse = pd.read_csv('./dataset/pravda_nepravda.csv', index_col="Osoba")
df_truefalse

Unnamed: 0_level_0,Vyrok 1,Vyrok 2
Osoba,Unnamed: 1_level_1,Unnamed: 2_level_1
0,Pravda,Nepravda
1,Pravda,Pravda
2,Pravda,Nepravda
3,Nepravda,Nepravda
4,Nepravda,Pravda
5,Pravda,Pravda
6,Pravda,Nepravda


In [17]:
# S parametry true_values a false_values
df_boolean = pd.read_csv('./dataset/pravda_nepravda.csv', index_col="Osoba", true_values=["Pravda"], false_values=["Nepravda"])
df_boolean

Unnamed: 0_level_0,Vyrok 1,Vyrok 2
Osoba,Unnamed: 1_level_1,Unnamed: 2_level_1
0,True,False
1,True,True
2,True,False
3,False,False
4,False,True
5,True,True
6,True,False


In [18]:
type(df_boolean["Vyrok 1"][0])

numpy.bool_

<h5>Konvence a znaky využívané v načítaných souborech typu CSV</h5>


In [19]:
# Při načítání souborů formátu CSV se mohou lišit oddělovači, kódováním znaků či znaky sloužícími k oddělenní tisíců, desetin či typek úvozovek
df_coded = pd.read_csv('./dataset/sample_coded.csv', sep=';', quotechar='"',encoding='utf-8')
df_coded

Unnamed: 0,Name,Occupation,Birth Year
0,Jack,Carpenter,1985
1,Jenny,Accountant,1972
2,Steve,Student,1998
3,Toby,Office worker,1988
4,Allie,McDonald's cook,2002
5,Thomas,Manager,1964


<h1>Finální cvičení - tvorba vlastního programu do příkazové řádky pro automatizované zpracování dat ve známém formátu, např. výpisu z elektronického bankovnictví</h1>

<h5>K nastavení před spuštěním bude potřeba modul argparse</h5>

<https://docs.python.org/3/library/argparse.html>

In [20]:
#!pip install argparse
import argparse
parser = argparse.ArgumentParser(prog="My app for data analysis",description="Takes csv/excel and processes it/computes statistics")
parser.add_argument("--src", required=True, type=Path, default=None)
parser.add_argument("--dest", required=False, type=str, default=None)
parser.add_argument("--make_figs", action=argparse.BooleanOptionalAction)
parser.add_argument("--make_summary", action=argparse.BooleanOptionalAction)

NameError: name 'Path' is not defined

<h5>Kód výše vytvoří objekt typu argparse, nastaví které argumenty má parser očekávat</h5>

Funguje ze souborů typu .py, které se spouštějí z příkazové řádky příkazem: `python *.py [argumenty]`

<h5>Argmenty mohou být zpracovány více způsoby a mohou být předávány jako různé datové typy</h5>

<ul>
<li> type=str/int/float vrátí přímo hodnotu ve zvoleném typu 
<li> hodnoty lze specifikovat parametrem choices, který akceptuje například seznam hodnot [choice1, choice2] nebo číselný rozsah range(N)
<li> pro pouhé pravdivostní přepínače je vhodné využívat akci BooleanOptionalAction, která vrátí True pokud je mezi vstupními argumenty, jinak None (ekvivalentní s hodnotou False)
</ul>

In [None]:
# v případě programu spouštěného z příkazové řádky bychom volali parse_args bez argumentů, které by si parser načetl z konzole/terminálu
args = parser.parse_args(["--src","./dataset/csob_july.xlsx", "--dest", "./dataset", "--make_figs"])
args

Namespace(src='./dataset/csob_july.xlsx', dest='./dataset', make_figs=True, make_summary=None)

In [None]:
args.src

'./dataset/csob_july.xlsx'

V cílovém programu na zpracování dat využijte modul argparse k vytvoření několika nastavitelných možností, například výpočet variabilního množství statistik či ukládání grafů na disk

<h5>Práce se s cestami</h5>

V jazyce Python se k práci s cestami nejčastěji využívají moduly `os` a `pathlib`. Modul `os` obsahuje různé nástroje pro interakci s operačním systémem včetně cest, zatímco `pathlib` umožňuje objektově-orientovanou práci s cestami (základní objekt cesty `Path`)

In [None]:
import pathlib
import os

In [None]:
# specifikujeme složku se souboru
src = './dataset'

In [None]:
# Jako první chceme zjistit absolutní cestu k naší složce

# pomocí modulu os
os_abspath = os.path.abspath(src)
print("Absolute path with os module:",os_abspath)
# pomocí modulu pathlib
pathlib_abspath = pathlib.Path(src).absolute()
print("Absolute path with pathlib module:",pathlib_abspath)

Absolute path with os module: /Users/davidkorcak/Documents/kurz-python-1/python_projekty/bank_account_analysis/dataset
Absolute path with pathlib module: /Users/davidkorcak/Documents/kurz-python-1/python_projekty/bank_account_analysis/dataset


In [None]:
# Další krok bude vypsání obsahu složky

# modul os
os_dir_content = os.listdir(os_abspath)
print("Directory content with os module:",os_dir_content,"\n")
# modul pathlib
pathlib_dir_content = list(pathlib.Path(src).iterdir()) # vytvoří objekt typu iterable který je potřeba rozbalit do seznamu
print("Directory content with pathlib module:",pathlib_dir_content)

Directory content with os module: ['csob_july.xlsx', 'sporitelna.csv', '.DS_Store', 'biostats.tex', 'csob.xls', 'pravda_nepravda.csv', 'sample.xlsx', 'sample.csv', 'biostats.html', 'csob2.csv', 'biostats.json', 'biostats.csv', 'csob2.xls', 'sample_coded.csv', 'sample.txt'] 

Directory content with pathlib module: [PosixPath('dataset/csob_july.xlsx'), PosixPath('dataset/sporitelna.csv'), PosixPath('dataset/.DS_Store'), PosixPath('dataset/biostats.tex'), PosixPath('dataset/csob.xls'), PosixPath('dataset/pravda_nepravda.csv'), PosixPath('dataset/sample.xlsx'), PosixPath('dataset/sample.csv'), PosixPath('dataset/biostats.html'), PosixPath('dataset/csob2.csv'), PosixPath('dataset/biostats.json'), PosixPath('dataset/biostats.csv'), PosixPath('dataset/csob2.xls'), PosixPath('dataset/sample_coded.csv'), PosixPath('dataset/sample.txt')]
