# Analýza záznamů robotů
budeme pracovat s daty robotu z nasich databazi. Podivame se na nastroje `BigData`

## Import knihoven a konstanty

In [1]:
import os
import datetime
import pandas
import sqlalchemy as sql

In [15]:
__file__ = __vsc_ipynb_file__  
SCRIPT_FOLDER = os.path.dirname(__file__)
PROJECT_FOLDER = os.path.dirname(SCRIPT_FOLDER)
DATA_FOLDER = os.path.join(PROJECT_FOLDER,'data')
WORK_FOLDER = os.path.join(DATA_FOLDER,'working')

COL_TIME = 'cas_robota'
COL_ROBOT = 'robot'
COL_DAY = 'day'
COL_MINUTE = 'minute'

PRQT = os.path.join(WORK_FOLDER,'roboti.prqt')
CSV = os.path.join(WORK_FOLDER,'roboti.csv')
XLS = os.path.join(WORK_FOLDER,'roboti.xlsx')
PRQT_PART = os.path.join(WORK_FOLDER,'roboti.part')

## Přístupové údaje do databází

In [3]:
DBSURL = "https://development.techniarch.com/pcsda/robot.php?dbs=psycopg2"
DBUSER = 'robot'
DBPASS = 'Kurz-DAPYT_ST45'

## Získání seznamu databází

In [4]:
dbs = pandas.read_csv(DBSURL)
dbs

Unnamed: 0,conn_name,conn_string
0,martinr,postgresql+psycopg2://{dbuser}:{dbpwd}@ep-mist...
1,jakubm,postgresql+psycopg2://{dbuser}:{dbpwd}@ep-stil...
2,jardak,postgresql+psycopg2://{dbuser}:{dbpwd}@ep-roya...
3,LP,postgresql+psycopg2://{dbuser}:{dbpwd}@ep-with...
4,tomask,postgresql+psycopg2://{dbuser}:{dbpwd}@ep-rapi...
5,honzakovalcik,postgresql+psycopg2://{dbuser}:{dbpwd}@ep-cold...
6,romancervenan,postgresql+psycopg2://{dbuser}:{dbpwd}@ep-curl...
7,dorotan,postgresql+psycopg2://{dbuser}:{dbpwd}@ep-plai...
8,jirin,postgresql+psycopg2://{dbuser}:{dbpwd}@ep-fall...
9,nnnikoly,postgresql+psycopg2://{dbuser}:{dbpwd}@ep-rest...


## Přečtení dat robotů
z SQL DB a vytvoření společného `DataFrame`

In [None]:
dfs = []
start = pandas.Timestamp.now()
for idx,row in dbs.iterrows():
    start_sql = pandas.Timestamp.now()
    try:    
        dbcon = sql.create_engine(row['conn_string'].format(dbuser=DBUSER,dbpwd=DBPASS))
        df = pandas.read_sql_table('cesta_robota',dbcon)
        df[COL_ROBOT] = row['conn_name']
        dfs.append(df)
        print(f"z DB `{row['conn_name']}` jsme preccetli {df.shape[0]} radku za {(pandas.Timestamp.now() - start_sql).total_seconds()} sekund")
    except Exception as err:
        print(f"Chyba pri cteni databaze `{row['conn_name']}`:", err)
robots = pandas.concat(dfs)
print(f'z databazi jsme precetli {robots.shape[0]} radku za {(pandas.Timestamp.now() - start).total_seconds()} sekund')
robots.info()
robots

z DB `martinr` jsme preccetli 12127 radku za 1.153199 sekund
z DB `jakubm` jsme preccetli 11646 radku za 10.050493 sekund
z DB `jardak` jsme preccetli 10301 radku za 1.131768 sekund
z DB `LP` jsme preccetli 11542 radku za 1.188381 sekund
z DB `tomask` jsme preccetli 6941 radku za 7.309568 sekund
z DB `honzakovalcik` jsme preccetli 11588 radku za 9.552935 sekund
z DB `romancervenan` jsme preccetli 11538 radku za 1.285145 sekund
z DB `dorotan` jsme preccetli 11475 radku za 1.164959 sekund
z DB `jirin` jsme preccetli 7058 radku za 7.627716 sekund
z DB `nnnikoly` jsme preccetli 13113 radku za 1.243567 sekund
z DB `gabriela` jsme preccetli 7881 radku za 0.922232 sekund
Chyba pri cteni databaze `JuliaT`: (psycopg2.OperationalError) connection to server at "ep-calm-grass-ag6pzehi-pooler.c-2.eu-central-1.aws.neon.tech" (3.69.34.233), port 5432 failed: ERROR:  password authentication failed for user 'robot'

(Background on this error at: https://sqlalche.me/e/20/e3q8)
z DB `bernaske` jsme precc

Unnamed: 0,cas_robota,zprava,lati,longi,kostka1,kostka2,kostka3,kostka4,kostka5,kostka6,cena,pocitadlo,senzor,robot
0,2025-10-23 21:08:24.597380,Rip: start robotovy cesty,50.306888,14.289606,3,3,2,3,2,2,2054.169,973,1019.392556,martinr
1,2025-10-23 21:43:30.880500,kapsa slinta obrázek výstřel bublanina papírni...,50.306620,14.291078,5,5,1,1,4,2,2073.273,1859,885.593550,martinr
2,2025-10-23 21:44:31.723900,rovnátka odvaha rámus rýma modelka okno výtok ...,50.306729,14.291234,6,6,1,3,3,6,2036.783,2661,802.114208,martinr
3,2025-10-23 21:45:37.731600,postel odpad katapult guláš domov počasí obráz...,50.306935,14.291732,3,4,2,2,2,5,2009.490,3492,831.269343,martinr
4,2025-10-23 21:50:10.807800,liška šepot večírek morálka lusknutí čepice cí...,50.307039,14.291918,2,5,5,1,2,6,2014.313,4305,813.123212,martinr
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
11266,2025-11-03 18:50:59.547900,světice vlčice hrudka úředník pošťák komín pop...,50.397894,14.084559,4,3,4,1,2,1,43.206,6156853,1061.038489,kucerak
11267,2025-11-03 18:52:16.821700,přístroj záložka díra rozhodčí pomeranč cestop...,50.397604,14.087162,1,3,5,4,4,3,42.700,6157924,1070.737596,kucerak
11268,2025-11-03 18:56:59.056800,úskalí pivnice chamtivost burčák výzkum tykev ...,50.397556,14.088194,6,4,4,4,3,1,42.551,6158932,1008.111598,kucerak
11269,2025-11-03 18:59:26.958900,intuice zima panáček kra hřídel tyč hroch komb...,50.397559,14.089010,5,1,3,2,2,6,43.236,6159980,1048.091093,kucerak


## Drobné úpravy v robotech

In [12]:
robots[COL_DAY] = robots[COL_TIME].dt.date
robots[COL_MINUTE] = robots[COL_TIME].dt.floor('min')
robots.info()
robots

<class 'pandas.core.frame.DataFrame'>
Index: 133785 entries, 0 to 11270
Data columns (total 16 columns):
 #   Column      Non-Null Count   Dtype         
---  ------      --------------   -----         
 0   cas_robota  133785 non-null  datetime64[ns]
 1   zprava      133785 non-null  object        
 2   lati        133785 non-null  float64       
 3   longi       133785 non-null  float64       
 4   kostka1     133785 non-null  int64         
 5   kostka2     133785 non-null  int64         
 6   kostka3     133785 non-null  int64         
 7   kostka4     133785 non-null  int64         
 8   kostka5     133785 non-null  int64         
 9   kostka6     133785 non-null  int64         
 10  cena        133785 non-null  float64       
 11  pocitadlo   133785 non-null  int64         
 12  senzor      133785 non-null  float64       
 13  robot       133785 non-null  object        
 14  day         133785 non-null  object        
 15  minute      133785 non-null  datetime64[ns]
dtypes: datet

Unnamed: 0,cas_robota,zprava,lati,longi,kostka1,kostka2,kostka3,kostka4,kostka5,kostka6,cena,pocitadlo,senzor,robot,day,minute
0,2025-10-23 21:08:24.597380,Rip: start robotovy cesty,50.306888,14.289606,3,3,2,3,2,2,2054.169,973,1019.392556,martinr,2025-10-23,2025-10-23 21:08:00
1,2025-10-23 21:43:30.880500,kapsa slinta obrázek výstřel bublanina papírni...,50.306620,14.291078,5,5,1,1,4,2,2073.273,1859,885.593550,martinr,2025-10-23,2025-10-23 21:43:00
2,2025-10-23 21:44:31.723900,rovnátka odvaha rámus rýma modelka okno výtok ...,50.306729,14.291234,6,6,1,3,3,6,2036.783,2661,802.114208,martinr,2025-10-23,2025-10-23 21:44:00
3,2025-10-23 21:45:37.731600,postel odpad katapult guláš domov počasí obráz...,50.306935,14.291732,3,4,2,2,2,5,2009.490,3492,831.269343,martinr,2025-10-23,2025-10-23 21:45:00
4,2025-10-23 21:50:10.807800,liška šepot večírek morálka lusknutí čepice cí...,50.307039,14.291918,2,5,5,1,2,6,2014.313,4305,813.123212,martinr,2025-10-23,2025-10-23 21:50:00
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
11266,2025-11-03 18:50:59.547900,světice vlčice hrudka úředník pošťák komín pop...,50.397894,14.084559,4,3,4,1,2,1,43.206,6156853,1061.038489,kucerak,2025-11-03,2025-11-03 18:50:00
11267,2025-11-03 18:52:16.821700,přístroj záložka díra rozhodčí pomeranč cestop...,50.397604,14.087162,1,3,5,4,4,3,42.700,6157924,1070.737596,kucerak,2025-11-03,2025-11-03 18:52:00
11268,2025-11-03 18:56:59.056800,úskalí pivnice chamtivost burčák výzkum tykev ...,50.397556,14.088194,6,4,4,4,3,1,42.551,6158932,1008.111598,kucerak,2025-11-03,2025-11-03 18:56:00
11269,2025-11-03 18:59:26.958900,intuice zima panáček kra hřídel tyč hroch komb...,50.397559,14.089010,5,1,3,2,2,6,43.236,6159980,1048.091093,kucerak,2025-11-03,2025-11-03 18:59:00


In [13]:
robots.set_index([COL_ROBOT,COL_MINUTE],inplace=True)
robots.info()
robots

<class 'pandas.core.frame.DataFrame'>
MultiIndex: 133785 entries, ('martinr', Timestamp('2025-10-23 21:08:00')) to ('kucerak', Timestamp('2025-11-03 19:02:00'))
Data columns (total 14 columns):
 #   Column      Non-Null Count   Dtype         
---  ------      --------------   -----         
 0   cas_robota  133785 non-null  datetime64[ns]
 1   zprava      133785 non-null  object        
 2   lati        133785 non-null  float64       
 3   longi       133785 non-null  float64       
 4   kostka1     133785 non-null  int64         
 5   kostka2     133785 non-null  int64         
 6   kostka3     133785 non-null  int64         
 7   kostka4     133785 non-null  int64         
 8   kostka5     133785 non-null  int64         
 9   kostka6     133785 non-null  int64         
 10  cena        133785 non-null  float64       
 11  pocitadlo   133785 non-null  int64         
 12  senzor      133785 non-null  float64       
 13  day         133785 non-null  object        
dtypes: datetime64[ns]

Unnamed: 0_level_0,Unnamed: 1_level_0,cas_robota,zprava,lati,longi,kostka1,kostka2,kostka3,kostka4,kostka5,kostka6,cena,pocitadlo,senzor,day
robot,minute,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1
martinr,2025-10-23 21:08:00,2025-10-23 21:08:24.597380,Rip: start robotovy cesty,50.306888,14.289606,3,3,2,3,2,2,2054.169,973,1019.392556,2025-10-23
martinr,2025-10-23 21:43:00,2025-10-23 21:43:30.880500,kapsa slinta obrázek výstřel bublanina papírni...,50.306620,14.291078,5,5,1,1,4,2,2073.273,1859,885.593550,2025-10-23
martinr,2025-10-23 21:44:00,2025-10-23 21:44:31.723900,rovnátka odvaha rámus rýma modelka okno výtok ...,50.306729,14.291234,6,6,1,3,3,6,2036.783,2661,802.114208,2025-10-23
martinr,2025-10-23 21:45:00,2025-10-23 21:45:37.731600,postel odpad katapult guláš domov počasí obráz...,50.306935,14.291732,3,4,2,2,2,5,2009.490,3492,831.269343,2025-10-23
martinr,2025-10-23 21:50:00,2025-10-23 21:50:10.807800,liška šepot večírek morálka lusknutí čepice cí...,50.307039,14.291918,2,5,5,1,2,6,2014.313,4305,813.123212,2025-10-23
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
kucerak,2025-11-03 18:50:00,2025-11-03 18:50:59.547900,světice vlčice hrudka úředník pošťák komín pop...,50.397894,14.084559,4,3,4,1,2,1,43.206,6156853,1061.038489,2025-11-03
kucerak,2025-11-03 18:52:00,2025-11-03 18:52:16.821700,přístroj záložka díra rozhodčí pomeranč cestop...,50.397604,14.087162,1,3,5,4,4,3,42.700,6157924,1070.737596,2025-11-03
kucerak,2025-11-03 18:56:00,2025-11-03 18:56:59.056800,úskalí pivnice chamtivost burčák výzkum tykev ...,50.397556,14.088194,6,4,4,4,3,1,42.551,6158932,1008.111598,2025-11-03
kucerak,2025-11-03 18:59:00,2025-11-03 18:59:26.958900,intuice zima panáček kra hřídel tyč hroch komb...,50.397559,14.089010,5,1,3,2,2,6,43.236,6159980,1048.091093,2025-11-03


In [14]:
robots.loc['tomask']

Unnamed: 0_level_0,cas_robota,zprava,lati,longi,kostka1,kostka2,kostka3,kostka4,kostka5,kostka6,cena,pocitadlo,senzor,day
minute,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1
2025-10-27 11:03:00,2025-10-27 11:03:54.072714,Rip: start robotovy cesty,50.306888,14.289606,1,1,2,5,5,2,2874.687,1498,1044.781980,2025-10-27
2025-10-27 18:42:00,2025-10-27 18:42:04.598700,obratlovec hobit zinek hroch modřina bible vit...,50.307071,14.294151,1,5,4,2,5,5,2931.031,2530,1032.133759,2025-10-27
2025-10-27 18:46:00,2025-10-27 18:46:18.179900,ukazatel výkop estetika metodika rybička zesil...,50.307603,14.294227,2,5,3,1,6,4,2918.721,3500,969.855857,2025-10-27
2025-10-27 18:47:00,2025-10-27 18:47:44.921200,sloh ňadra nudista hřib medvídek bonbon papírn...,50.308108,14.293733,4,4,5,2,2,3,2945.281,4511,1010.584579,2025-10-27
2025-10-27 18:49:00,2025-10-27 18:49:26.998900,sekaná zemětřesení tác hříbě nudista marketing...,50.307510,14.294426,3,3,6,2,3,2,2913.766,5521,1010.095891,2025-10-27
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2025-11-03 18:42:00,2025-11-03 18:42:10.354200,metronom beznaděj cibule strana dekolt aplikac...,50.234561,13.732098,1,2,1,2,3,4,5069.415,3584129,1042.373759,2025-11-03
2025-11-03 18:46:00,2025-11-03 18:46:07.393200,smutek svorka databanka slinta skok krumpáč př...,50.234365,13.732081,2,3,5,1,4,5,5147.484,3585171,1041.535857,2025-11-03
2025-11-03 18:49:00,2025-11-03 18:49:31.653800,výtah medvídek rozprašovač bodec chlápek výrob...,50.234561,13.732098,2,2,6,2,5,1,5214.401,3586222,1051.055891,2025-11-03
2025-11-03 18:52:00,2025-11-03 18:52:55.600300,rozhledna čapka komín blbost mince citrus lišk...,50.233048,13.733064,3,4,4,2,4,2,5123.149,3587252,1029.777596,2025-11-03


## Uložení DF na lokální disk
### CSV

In [16]:
start = pandas.Timestamp.now()
robots.to_csv(CSV)
print(f"roboty jsme zapsali do {CSV} za {(pandas.Timestamp.now() - start).total_seconds()} sekund")


roboty jsme zapsali do c:\Users\Nikolay\Desktop\DATOVA ANALITIKA\working\data\working\roboti.csv za 3.565166 sekund


### Excel

In [18]:
start = pandas.Timestamp.now()
robots.to_excel(XLS)
print(f"roboty jsme zapsali do {XLS} za {(pandas.Timestamp.now() - start).total_seconds()} sekund")

roboty jsme zapsali do c:\Users\Nikolay\Desktop\DATOVA ANALITIKA\working\data\working\roboti.xlsx za 97.752413 sekund


### PARQUET
Soubory `parquet`
- binární soubor(y)
- soubory jsou komprimované
- umožňují indexování a partitioning
- není možné soubor měnit, jen přepsat /POZOR: na adresářové struktury/
- připraveno pro velké objemy data - `BigData`

In [19]:
start = pandas.Timestamp.now()
robots.to_parquet(PRQT)
print(f"roboty jsme zapsali do {PRQT} za {(pandas.Timestamp.now() - start).total_seconds()} sekund")

roboty jsme zapsali do c:\Users\Nikolay\Desktop\DATOVA ANALITIKA\working\data\working\roboti.prqt za 0.484629 sekund


## Čtení celého souboru
### CSV

In [20]:
start = pandas.Timestamp.now()
df =  pandas.read_csv(CSV)
print(f"roboty mame z csv {CSV} za {(pandas.Timestamp.now() - start).total_seconds()} sekund")

roboty mame z csv c:\Users\Nikolay\Desktop\DATOVA ANALITIKA\working\data\working\roboti.csv za 1.025473 sekund


### PARQUET

In [21]:
start = pandas.Timestamp.now()
df =  pandas.read_parquet(PRQT)
print(f"roboty mame z csv {PRQT} za {(pandas.Timestamp.now() - start).total_seconds()} sekund")

roboty mame z csv c:\Users\Nikolay\Desktop\DATOVA ANALITIKA\working\data\working\roboti.prqt za 0.812844 sekund


## Čtení části dat
(potřebujeme data jen jednoho robota)

### Klasický přístup
přečteme vše a filtrujem

In [23]:
start = pandas.Timestamp.now()
df =  pandas.read_csv(CSV,index_col=[COL_ROBOT,COL_DAY])
vcera = df.loc[('tomask','2025-11-02')]
print(f"roboty mame z csv {CSV} za {(pandas.Timestamp.now() - start).total_seconds()} sekund")
print(f"precteno celkem {df.shape[0]} radku z toho za vcerejsek {vcera.shape[0]}")

roboty mame z csv c:\Users\Nikolay\Desktop\DATOVA ANALITIKA\working\data\working\roboti.csv za 0.993224 sekund
precteno celkem 133785 radku z toho za vcerejsek 1152


  vcera = df.loc[('tomask','2025-11-02')]


#### Parquet

In [26]:
start = pandas.Timestamp.now()
df =  pandas.read_parquet(PRQT)
vcera = df[df[COL_DAY]==datetime.date(2025,11,2)].loc['tomask']
print(f"roboty mame z csv {PRQT} za {(pandas.Timestamp.now() - start).total_seconds()} sekund")
print(f"precteno celkem {df.shape[0]} radku z toho za vcerejsek {vcera.shape[0]}")

roboty mame z csv c:\Users\Nikolay\Desktop\DATOVA ANALITIKA\working\data\working\roboti.prqt za 0.34807 sekund
precteno celkem 133785 radku z toho za vcerejsek 1152


### Využití PARQUET partitioning

#### 1. uložíme data rozdělená na části `partition`

In [27]:
start = pandas.Timestamp.now()
robots.to_parquet(PRQT_PART,partition_cols=[COL_ROBOT,COL_DAY])
print(f"roboty jsme zapsali do {PRQT_PART} za {(pandas.Timestamp.now() - start).total_seconds()} sekund")

roboty jsme zapsali do c:\Users\Nikolay\Desktop\DATOVA ANALITIKA\working\data\working\roboti.part za 0.562005 sekund


#### 2. čteme data s využitím filtru

In [29]:
start = pandas.Timestamp.now()
df =  pandas.read_parquet(PRQT_PART,filters=[[(COL_ROBOT,'==','tomask'),(COL_DAY,'==','2025-11-02')]],columns=['kostka1','kostka2'])
#vcera = df[df[COL_DAY]==datetime.date(2025,11,2)].loc['tomask']
print(f"roboty mame z csv {PRQT_PART} za {(pandas.Timestamp.now() - start).total_seconds()} sekund")
print(f"precteno celkem {df.shape[0]} radku")
df

roboty mame z csv c:\Users\Nikolay\Desktop\DATOVA ANALITIKA\working\data\working\roboti.part za 0.049866 sekund
precteno celkem 1152 radku


Unnamed: 0_level_0,Unnamed: 1_level_0,kostka1,kostka2
robot,minute,Unnamed: 2_level_1,Unnamed: 3_level_1
tomask,2025-11-02 00:02:00,2,5
tomask,2025-11-02 00:04:00,1,3
tomask,2025-11-02 00:07:00,1,1
tomask,2025-11-02 00:09:00,6,1
tomask,2025-11-02 00:09:00,5,6
tomask,...,...,...
tomask,2025-11-02 23:55:00,5,3
tomask,2025-11-02 23:56:00,2,3
tomask,2025-11-02 23:57:00,3,2
tomask,2025-11-02 23:58:00,5,4


In [30]:
start = pandas.Timestamp.now()
df =  pandas.read_parquet(PRQT,columns=['kostka1','kostka2'])
print(f"roboty mame z csv {PRQT} za {(pandas.Timestamp.now() - start).total_seconds()} sekund")

roboty mame z csv c:\Users\Nikolay\Desktop\DATOVA ANALITIKA\working\data\working\roboti.prqt za 0.04488 sekund


In [31]:
df

Unnamed: 0_level_0,Unnamed: 1_level_0,kostka1,kostka2
robot,minute,Unnamed: 2_level_1,Unnamed: 3_level_1
martinr,2025-10-23 21:08:00,3,3
martinr,2025-10-23 21:43:00,5,5
martinr,2025-10-23 21:44:00,6,6
martinr,2025-10-23 21:45:00,3,4
martinr,2025-10-23 21:50:00,2,5
...,...,...,...
kucerak,2025-11-03 18:50:00,4,3
kucerak,2025-11-03 18:52:00,1,3
kucerak,2025-11-03 18:56:00,6,4
kucerak,2025-11-03 18:59:00,5,1
