# Analýza záznamů robotů
budeme pracovat s daty robotu z nasich databazi. Podivame se na nastroje `BigData`

## Import knihoven a konstanty

In [1]:
import os
import datetime
import pandas
import sqlalchemy as sql

In [13]:
__file__ = __vsc_ipynb_file__  
SCRIPT_FOLDER = os.path.dirname(__file__)
PROJECT_FOLDER = os.path.dirname(SCRIPT_FOLDER)
DATA_FOLDER = os.path.join(PROJECT_FOLDER,'data')
WORK_FOLDER = os.path.join(DATA_FOLDER,'working')

COL_TIME = 'cas_robota'
COL_ROBOT = 'robot'
COL_DAY = 'day'
COL_MINUTE = 'minute'

PRQT = os.path.join(WORK_FOLDER,'roboti.prqt')
CSV = os.path.join(WORK_FOLDER,'roboti.csv')
XLS = os.path.join(WORK_FOLDER,'roboti.xlsx')
PRQT_PART = os.path.join(WORK_FOLDER,'roboti.part')

## Přístupové údaje do databází

In [3]:
DBSURL = "https://development.techniarch.com/pcsda/robot.php?dbs=psycopg2"
DBUSER = 'robot'
DBPASS = 'Kurz-DAPYT_ST45'

## Získání seznamu databází

In [4]:
dbs = pandas.read_csv(DBSURL)
dbs

Unnamed: 0,conn_name,conn_string
0,martinr,postgresql+psycopg2://{dbuser}:{dbpwd}@ep-mist...
1,jakubm,postgresql+psycopg2://{dbuser}:{dbpwd}@ep-stil...
2,jardak,postgresql+psycopg2://{dbuser}:{dbpwd}@ep-roya...
3,LP,postgresql+psycopg2://{dbuser}:{dbpwd}@ep-with...
4,tomask,postgresql+psycopg2://{dbuser}:{dbpwd}@ep-rapi...
5,honzakovalcik,postgresql+psycopg2://{dbuser}:{dbpwd}@ep-cold...
6,romancervenan,postgresql+psycopg2://{dbuser}:{dbpwd}@ep-curl...
7,dorotan,postgresql+psycopg2://{dbuser}:{dbpwd}@ep-plai...
8,jirin,postgresql+psycopg2://{dbuser}:{dbpwd}@ep-fall...
9,nnnikoly,postgresql+psycopg2://{dbuser}:{dbpwd}@ep-rest...


## Přečtení dat robotů
z SQL DB a vytvoření společného `DataFrame`

In [None]:
dfs = []
start = pandas.Timestamp.now()
for idx,row in dbs.iterrows():
    start_sql = pandas.Timestamp.now()
    try:    
        #start_sql = pandas.Timestamp.now()
        dbcon = sql.create_engine(row['conn_string'].format(dbuser=DBUSER, dbpwd=DBPASS))
        df= pandas.read_sql_table('cesta_robota',dbcon)
        df[COL_ROBOT] = row['conn_name']
        dfs.append(df)
        print(f"z DB {row['conn_name']} jsme přečetli {df.shape[0]} řádků za {(pandas.Timestamp.now() - start_sql).total_seconds()} sekund")
    except Exception as err:
        print(f"Chyba při čtení databáze {row['conn_name']}:", err )

robots = pandas.concat(dfs)
print(f"z DB {row['conn_name']} jsme přečetli {robots.shape[0]} řádků za {(pandas.Timestamp.now() - start).total_seconds()} sekund")
robots.info()
robots


z DB martinr jsme přečetli 12124 řádků za 4.008036 sekund
z DB jakubm jsme přečetli 11643 řádků za 6.977023 sekund
z DB jardak jsme přečetli 10298 řádků za 3.437875 sekund
z DB LP jsme přečetli 11541 řádků za 2.6133100000000002 sekund
z DB tomask jsme přečetli 6940 řádků za 5.065728 sekund
z DB honzakovalcik jsme přečetli 11587 řádků za 5.386623 sekund
z DB romancervenan jsme přečetli 11537 řádků za 1.675653 sekund
z DB dorotan jsme přečetli 11473 řádků za 1.550967 sekund
z DB jirin jsme přečetli 7057 řádků za 4.957629 sekund
z DB nnnikoly jsme přečetli 13111 řádků za 2.13631 sekund
z DB gabriela jsme přečetli 7879 řádků za 1.344541 sekund
Chyba při čtení databáze JuliaT: (psycopg2.OperationalError) connection to server at "ep-calm-grass-ag6pzehi-pooler.c-2.eu-central-1.aws.neon.tech" (2a05:d014:1dff:c27:d3ce:3c1:b24:3ee6), port 5432 failed: ERROR:  password authentication failed for user 'robot'

(Background on this error at: https://sqlalche.me/e/20/e3q8)
z DB bernaske jsme přečetli 

Unnamed: 0,cas_robota,zprava,lati,longi,kostka1,kostka2,kostka3,kostka4,kostka5,kostka6,cena,pocitadlo,senzor,robot
0,2025-10-23 21:08:24.597380,Rip: start robotovy cesty,50.306888,14.289606,3,3,2,3,2,2,2054.169,973,1019.392556,martinr
1,2025-10-23 21:43:30.880500,kapsa slinta obrázek výstřel bublanina papírni...,50.306620,14.291078,5,5,1,1,4,2,2073.273,1859,885.593550,martinr
2,2025-10-23 21:44:31.723900,rovnátka odvaha rámus rýma modelka okno výtok ...,50.306729,14.291234,6,6,1,3,3,6,2036.783,2661,802.114208,martinr
3,2025-10-23 21:45:37.731600,postel odpad katapult guláš domov počasí obráz...,50.306935,14.291732,3,4,2,2,2,5,2009.490,3492,831.269343,martinr
4,2025-10-23 21:50:10.807800,liška šepot večírek morálka lusknutí čepice cí...,50.307039,14.291918,2,5,5,1,2,6,2014.313,4305,813.123212,martinr
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
11264,2025-11-03 18:44:50.105300,strana prales rekreace marketing šepot vidle k...,50.398040,14.081538,4,5,4,5,5,1,43.664,6154771,970.292258,kucerak
11265,2025-11-03 18:46:37.473200,lehkost zrození intuice kruton výzkum díra ško...,50.398147,14.082520,5,5,1,5,5,1,44.074,6155792,1021.055857,kucerak
11266,2025-11-03 18:50:59.547900,světice vlčice hrudka úředník pošťák komín pop...,50.397894,14.084559,4,3,4,1,2,1,43.206,6156853,1061.038489,kucerak
11267,2025-11-03 18:52:16.821700,přístroj záložka díra rozhodčí pomeranč cestop...,50.397604,14.087162,1,3,5,4,4,3,42.700,6157924,1070.737596,kucerak


## Drobné úpravy v robotech

In [9]:
robots[COL_DAY] = robots[COL_TIME].dt.date
robots[COL_MINUTE] = robots[COL_TIME].dt.floor('min')

robots.info()
robots

<class 'pandas.core.frame.DataFrame'>
Index: 133761 entries, 0 to 11268
Data columns (total 16 columns):
 #   Column      Non-Null Count   Dtype         
---  ------      --------------   -----         
 0   cas_robota  133761 non-null  datetime64[ns]
 1   zprava      133761 non-null  object        
 2   lati        133761 non-null  float64       
 3   longi       133761 non-null  float64       
 4   kostka1     133761 non-null  int64         
 5   kostka2     133761 non-null  int64         
 6   kostka3     133761 non-null  int64         
 7   kostka4     133761 non-null  int64         
 8   kostka5     133761 non-null  int64         
 9   kostka6     133761 non-null  int64         
 10  cena        133761 non-null  float64       
 11  pocitadlo   133761 non-null  int64         
 12  senzor      133761 non-null  float64       
 13  robot       133761 non-null  object        
 14  day         133761 non-null  object        
 15  minute      133761 non-null  datetime64[ns]
dtypes: datet

Unnamed: 0,cas_robota,zprava,lati,longi,kostka1,kostka2,kostka3,kostka4,kostka5,kostka6,cena,pocitadlo,senzor,robot,day,minute
0,2025-10-23 21:08:24.597380,Rip: start robotovy cesty,50.306888,14.289606,3,3,2,3,2,2,2054.169,973,1019.392556,martinr,2025-10-23,2025-10-23 21:08:00
1,2025-10-23 21:43:30.880500,kapsa slinta obrázek výstřel bublanina papírni...,50.306620,14.291078,5,5,1,1,4,2,2073.273,1859,885.593550,martinr,2025-10-23,2025-10-23 21:43:00
2,2025-10-23 21:44:31.723900,rovnátka odvaha rámus rýma modelka okno výtok ...,50.306729,14.291234,6,6,1,3,3,6,2036.783,2661,802.114208,martinr,2025-10-23,2025-10-23 21:44:00
3,2025-10-23 21:45:37.731600,postel odpad katapult guláš domov počasí obráz...,50.306935,14.291732,3,4,2,2,2,5,2009.490,3492,831.269343,martinr,2025-10-23,2025-10-23 21:45:00
4,2025-10-23 21:50:10.807800,liška šepot večírek morálka lusknutí čepice cí...,50.307039,14.291918,2,5,5,1,2,6,2014.313,4305,813.123212,martinr,2025-10-23,2025-10-23 21:50:00
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
11264,2025-11-03 18:44:50.105300,strana prales rekreace marketing šepot vidle k...,50.398040,14.081538,4,5,4,5,5,1,43.664,6154771,970.292258,kucerak,2025-11-03,2025-11-03 18:44:00
11265,2025-11-03 18:46:37.473200,lehkost zrození intuice kruton výzkum díra ško...,50.398147,14.082520,5,5,1,5,5,1,44.074,6155792,1021.055857,kucerak,2025-11-03,2025-11-03 18:46:00
11266,2025-11-03 18:50:59.547900,světice vlčice hrudka úředník pošťák komín pop...,50.397894,14.084559,4,3,4,1,2,1,43.206,6156853,1061.038489,kucerak,2025-11-03,2025-11-03 18:50:00
11267,2025-11-03 18:52:16.821700,přístroj záložka díra rozhodčí pomeranč cestop...,50.397604,14.087162,1,3,5,4,4,3,42.700,6157924,1070.737596,kucerak,2025-11-03,2025-11-03 18:52:00


In [10]:
robots.set_index([COL_ROBOT,COL_MINUTE], inplace=True)
robots.info()
robots

<class 'pandas.core.frame.DataFrame'>
MultiIndex: 133761 entries, ('martinr', Timestamp('2025-10-23 21:08:00')) to ('kucerak', Timestamp('2025-11-03 18:56:00'))
Data columns (total 14 columns):
 #   Column      Non-Null Count   Dtype         
---  ------      --------------   -----         
 0   cas_robota  133761 non-null  datetime64[ns]
 1   zprava      133761 non-null  object        
 2   lati        133761 non-null  float64       
 3   longi       133761 non-null  float64       
 4   kostka1     133761 non-null  int64         
 5   kostka2     133761 non-null  int64         
 6   kostka3     133761 non-null  int64         
 7   kostka4     133761 non-null  int64         
 8   kostka5     133761 non-null  int64         
 9   kostka6     133761 non-null  int64         
 10  cena        133761 non-null  float64       
 11  pocitadlo   133761 non-null  int64         
 12  senzor      133761 non-null  float64       
 13  day         133761 non-null  object        
dtypes: datetime64[ns]

Unnamed: 0_level_0,Unnamed: 1_level_0,cas_robota,zprava,lati,longi,kostka1,kostka2,kostka3,kostka4,kostka5,kostka6,cena,pocitadlo,senzor,day
robot,minute,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1
martinr,2025-10-23 21:08:00,2025-10-23 21:08:24.597380,Rip: start robotovy cesty,50.306888,14.289606,3,3,2,3,2,2,2054.169,973,1019.392556,2025-10-23
martinr,2025-10-23 21:43:00,2025-10-23 21:43:30.880500,kapsa slinta obrázek výstřel bublanina papírni...,50.306620,14.291078,5,5,1,1,4,2,2073.273,1859,885.593550,2025-10-23
martinr,2025-10-23 21:44:00,2025-10-23 21:44:31.723900,rovnátka odvaha rámus rýma modelka okno výtok ...,50.306729,14.291234,6,6,1,3,3,6,2036.783,2661,802.114208,2025-10-23
martinr,2025-10-23 21:45:00,2025-10-23 21:45:37.731600,postel odpad katapult guláš domov počasí obráz...,50.306935,14.291732,3,4,2,2,2,5,2009.490,3492,831.269343,2025-10-23
martinr,2025-10-23 21:50:00,2025-10-23 21:50:10.807800,liška šepot večírek morálka lusknutí čepice cí...,50.307039,14.291918,2,5,5,1,2,6,2014.313,4305,813.123212,2025-10-23
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
kucerak,2025-11-03 18:44:00,2025-11-03 18:44:50.105300,strana prales rekreace marketing šepot vidle k...,50.398040,14.081538,4,5,4,5,5,1,43.664,6154771,970.292258,2025-11-03
kucerak,2025-11-03 18:46:00,2025-11-03 18:46:37.473200,lehkost zrození intuice kruton výzkum díra ško...,50.398147,14.082520,5,5,1,5,5,1,44.074,6155792,1021.055857,2025-11-03
kucerak,2025-11-03 18:50:00,2025-11-03 18:50:59.547900,světice vlčice hrudka úředník pošťák komín pop...,50.397894,14.084559,4,3,4,1,2,1,43.206,6156853,1061.038489,2025-11-03
kucerak,2025-11-03 18:52:00,2025-11-03 18:52:16.821700,přístroj záložka díra rozhodčí pomeranč cestop...,50.397604,14.087162,1,3,5,4,4,3,42.700,6157924,1070.737596,2025-11-03


In [11]:
robots.loc['tomask']

Unnamed: 0_level_0,cas_robota,zprava,lati,longi,kostka1,kostka2,kostka3,kostka4,kostka5,kostka6,cena,pocitadlo,senzor,day
minute,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1
2025-10-27 11:03:00,2025-10-27 11:03:54.072714,Rip: start robotovy cesty,50.306888,14.289606,1,1,2,5,5,2,2874.687,1498,1044.781980,2025-10-27
2025-10-27 18:42:00,2025-10-27 18:42:04.598700,obratlovec hobit zinek hroch modřina bible vit...,50.307071,14.294151,1,5,4,2,5,5,2931.031,2530,1032.133759,2025-10-27
2025-10-27 18:46:00,2025-10-27 18:46:18.179900,ukazatel výkop estetika metodika rybička zesil...,50.307603,14.294227,2,5,3,1,6,4,2918.721,3500,969.855857,2025-10-27
2025-10-27 18:47:00,2025-10-27 18:47:44.921200,sloh ňadra nudista hřib medvídek bonbon papírn...,50.308108,14.293733,4,4,5,2,2,3,2945.281,4511,1010.584579,2025-10-27
2025-10-27 18:49:00,2025-10-27 18:49:26.998900,sekaná zemětřesení tác hříbě nudista marketing...,50.307510,14.294426,3,3,6,2,3,2,2913.766,5521,1010.095891,2025-10-27
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2025-11-03 18:39:00,2025-11-03 18:39:04.693800,jasan počasí číslo prodejce smyčec maximum řep...,50.233505,13.736923,3,2,5,6,2,3,4977.334,3583087,981.470504,2025-11-03
2025-11-03 18:42:00,2025-11-03 18:42:10.354200,metronom beznaděj cibule strana dekolt aplikac...,50.234561,13.732098,1,2,1,2,3,4,5069.415,3584129,1042.373759,2025-11-03
2025-11-03 18:46:00,2025-11-03 18:46:07.393200,smutek svorka databanka slinta skok krumpáč př...,50.234365,13.732081,2,3,5,1,4,5,5147.484,3585171,1041.535857,2025-11-03
2025-11-03 18:49:00,2025-11-03 18:49:31.653800,výtah medvídek rozprašovač bodec chlápek výrob...,50.234561,13.732098,2,2,6,2,5,1,5214.401,3586222,1051.055891,2025-11-03


## Uložení DF na lokální disk
### CSV

In [14]:
start = pandas.Timestamp.now()
robots.to_csv(CSV)
print(f"roboty jsme zapsali do  {CSV} za {(pandas.Timestamp.now() - start).total_seconds()} sekund")

roboty jsme zapsali do  c:\Users\Dorota\Desktop\datová analytika\working\data\working\roboti.csv za 7.698153 sekund


### Excel

In [15]:
start = pandas.Timestamp.now()
robots.to_excel(XLS)
print(f"roboty jsme zapsali do  {XLS} za {(pandas.Timestamp.now() - start).total_seconds()} sekund")

roboty jsme zapsali do  c:\Users\Dorota\Desktop\datová analytika\working\data\working\roboti.xlsx za 263.020675 sekund


### PARQUET
Soubory `parquet`
- binární soubor(y)
- soubory jsou komprimované
- umožňují indexování a partitioning
- není možné soubor měnit, jen přepsat /POZOR: na adresářové struktury/
- připraveno pro velké objemy data - `BigData`

In [16]:
start = pandas.Timestamp.now()
robots.to_parquet(PRQT)
print(f"roboty jsme zapsali do  {PRQT} za {(pandas.Timestamp.now() - start).total_seconds()} sekund")

roboty jsme zapsali do  c:\Users\Dorota\Desktop\datová analytika\working\data\working\roboti.prqt za 2.6852 sekund


## Čtení celého souboru
### CSV

In [17]:
start = pandas.Timestamp.now()
df = pandas.read_csv(CSV)
print(f"roboty mame z csv  {CSV} za {(pandas.Timestamp.now() - start).total_seconds()} sekund")

roboty mame z csv  c:\Users\Dorota\Desktop\datová analytika\working\data\working\roboti.csv za 4.807545 sekund


### PARQUET

In [None]:
start = pandas.Timestamp.now()
df = pandas.read_parquet(PRQT)
print(f"roboty mame z parquet  {PRQT} za {(pandas.Timestamp.now() - start).total_seconds()} sekund")

roboty mame z csv  c:\Users\Dorota\Desktop\datová analytika\working\data\working\roboti.prqt za 3.83013 sekund


## Čtení části dat
(potřebujeme data jen jednoho robota)

### Klasický přístup
přečteme vše a filtrujem

In [19]:
start = pandas.Timestamp.now()
df = pandas.read_csv(CSV, index_col=[COL_ROBOT,COL_DAY])
vcera = df.loc[('tomask','2025-11-02')]
print(f"roboty mame z csv  {CSV} za {(pandas.Timestamp.now() - start).total_seconds()} sekund")
print(f"precteno celkem{df.shape[0]} radků z toho za vcerejsek {vcera.shape[0]}")

roboty mame z csv  c:\Users\Dorota\Desktop\datová analytika\working\data\working\roboti.csv za 2.426483 sekund
precteno celkem133761 radků z toho za vcerejsek 1152


  vcera = df.loc[('tomask','2025-11-02')]


#### Parquet

In [22]:
start = pandas.Timestamp.now()
df = pandas.read_parquet(PRQT)
vcera = df[df[COL_DAY] ==  datetime.date(2025,11,2)].loc['tomask']
print(f"roboty mame z parquet  {PRQT} za {(pandas.Timestamp.now() - start).total_seconds()} sekund")
print(f"precteno celkem{df.shape[0]} radků z toho za vcerejsek {vcera.shape[0]}")

roboty mame z parquet  c:\Users\Dorota\Desktop\datová analytika\working\data\working\roboti.prqt za 4.224282 sekund
precteno celkem133761 radků z toho za vcerejsek 1152


### Využití PARQUET partitioning

#### 1. uložíme data rozdělená na části `partition`

In [25]:
start = pandas.Timestamp.now()
robots.to_parquet(PRQT_PART,partition_cols=[COL_ROBOT,COL_DAY])
print(f"roboty mame z parquet  {PRQT_PART} za {(pandas.Timestamp.now() - start).total_seconds()} sekund")

roboty mame z parquet  c:\Users\Dorota\Desktop\datová analytika\working\data\working\roboti.part za 5.783363 sekund


#### 2. čteme data s využitím filtru

In [29]:
start = pandas.Timestamp.now()
df = pandas.read_parquet(PRQT_PART,filters=[[(COL_ROBOT, '==','tomask'),(COL_DAY, '==', '2025-11-02')]],columns=['kostka1','kostka2'])
#vcera = df[df[COL_DAY] ==  datetime.date(2025,11,2)].loc['tomask']
print(f"roboty mame z parquet  {PRQT} za {(pandas.Timestamp.now() - start).total_seconds()} sekund")
print(f"precteno celkem {df.shape[0]} radku")
df

roboty mame z parquet  c:\Users\Dorota\Desktop\datová analytika\working\data\working\roboti.prqt za 0.18875 sekund
precteno celkem 1152 radku


Unnamed: 0_level_0,Unnamed: 1_level_0,kostka1,kostka2
robot,minute,Unnamed: 2_level_1,Unnamed: 3_level_1
tomask,2025-11-02 00:02:00,2,5
tomask,2025-11-02 00:04:00,1,3
tomask,2025-11-02 00:07:00,1,1
tomask,2025-11-02 00:09:00,6,1
tomask,2025-11-02 00:09:00,5,6
tomask,...,...,...
tomask,2025-11-02 23:55:00,5,3
tomask,2025-11-02 23:56:00,2,3
tomask,2025-11-02 23:57:00,3,2
tomask,2025-11-02 23:58:00,5,4


In [30]:
start = pandas.Timestamp.now()
df = pandas.read_parquet(PRQT,columns=['kostka1','kostka2'])
print(f"roboty mame z parquet  {PRQT} za {(pandas.Timestamp.now() - start).total_seconds()} sekund")


roboty mame z parquet  c:\Users\Dorota\Desktop\datová analytika\working\data\working\roboti.prqt za 0.612536 sekund
