# Semesterarbeit Teil 1

## Teil 1

### Erklärung
Die Datei wird in Chunks aufgetrennt und auch Parquet kommt in Anwendung, um die Ladegeschwindigkeit etwas zu beeinflussen. Ist nicht gefragt und unbedingt notwendig, wollte dies aber mal so versuchen, da es ja in Richtung Big Data gehen sollte und ein erster Versuch gewagt werden soll. Natürlich ist es dann auch etwas umständlicher die Queries anzuwenden. Für die Beantwortung der ersten Frage wird dann auch der ganze Datensatz verwendet und nicht die Chunks, habe erst später bemerkt, dass die Ladezeit doch weniger ein Problem darstellt. Für die weiteren Arbeiten wird diese Vorgehensweise wohl ausgelassen, weil mit weiteren Tools und Möglichekiten dann sich dies einfacher gestaltet.

### Voraussetzung
Die Datei mw_trace50.csv wird auf rt-basics via MobaXterm übertragen. Auf rt-basics wird die DB Nachb erstellt, dann die Tabelle mw_trace50 mit folgender Tabellenstruktur, diese Schritte wiederholen sich nicht in diesem Notebook:

```sql
CREATE TABLE mw_trace50 (
    id int,
    code varchar(255),
    client_id int,
    loc_ts int,
    length int,
    op varchar(255),
    err_code varchar(255),
    time  bigint,
    thread_id int,
    PRIMARY KEY (id)
);
```
Anschliessend wird die leere Tabelle mit Inhalten befüllt:
```sql
LOAD DATA LOCAL INFILE "/home/tirsus/Nachb/mw_trace50.csv"
INTO TABLE _trace50
FIELDS TERMINATED BY ',' 
ENCLOSED BY '"'
LINES TERMINATED BY '\n'
IGNORE 1 ROWS
(id, code, client_id, loc_ts, length, op, err_code, time, thread_id);
```

Ebenfalls habe ich davor der Liste eine id Spalte hinzugefügt, mit inkrementierten Werten, dies gleich in Excel.

### Aufbau Verbindung und Lesen der Tabelle
Als erstes wird ein Connector verwendet, um die Verbindung mit der DB "Nachb" aufzubauen,
dann wird die Tabelle angezeigt, dann die Inhalte der Tabelle:

In [1]:
import mysql.connector

In [2]:
cnx = mysql.connector.connect(user='root', password='sqlsecret', host='localhost', database='Nachb')

In [3]:
def execute_query(query):
    cursor = cnx.cursor()
    cursor.execute(query)
    result = cursor.fetchall()
    for row in result: 
        print(row)
    cursor.close()

In [4]:
query = "show tables"
execute_query(query)

('client_trace50',)
('mw_trace50',)


In [5]:
query = "describe mw_trace50"
execute_query(query)

('id', 'int', 'NO', 'PRI', None, '')
('code', 'varchar(255)', 'YES', '', None, '')
('client_id', 'int', 'YES', '', None, '')
('loc_ts', 'int', 'YES', '', None, '')
('length', 'int', 'YES', '', None, '')
('op', 'varchar(255)', 'YES', '', None, '')
('err_code', 'varchar(255)', 'YES', '', None, '')
('time', 'bigint', 'YES', '', None, '')
('thread_id', 'int', 'YES', '', None, '')


In [6]:
query = "SELECT COUNT(*) FROM mw_trace50"
execute_query(query)

(1048575,)


### Beantwortung der Fragen mit Chunks und ohne Chunks
Um die SQL Abfragen rasch awenden zu können, wird Parquet verwendet mit der Snappy Compression. Weitere Komprimierungen kommen nicht zur Anwendung und werden auch nicht in Vergleich gebracht. Die Vorgehensweise mit drei Chunks, also die Auftrennung des Datensatzes in drei Teilen, ist praktisch und lässt die Inhalte schnell laden. Die Auswahl von der Zahl "drei" ist durch Testen bestimmt worden. Ohne Parquet und Chunks ist die Beantwortung der Fragen auch möglich.
<br>
Die Aufrennung ist:
- Erster Chunk 1 bis 400 000
- Zweiter Chunk 400 001 bis 799 999
- Dritter Chunk 800 000 bis 1048576

In [7]:
import pandas as pd
import sqlalchemy

In [8]:
url = "mysql+mysqlconnector://root:sqlsecret@localhost:3306/Nachb"
engine = sqlalchemy.create_engine(url)

In [9]:
from sqlalchemy.sql import text
sql1 = '''
    select * from mw_trace50 LIMIT 400000;
'''
with engine.connect() as conn:
    query = conn.execute(text(sql1))         
df1 = pd.DataFrame(query.fetchall())

In [10]:
df1.to_parquet("data.parquet", engine="pyarrow", compression="snappy")

In [11]:
df1

Unnamed: 0,id,code,client_id,loc_ts,length,op,err_code,time,thread_id
0,1,msg_arr,0,1,43,enrol_req,-1,1414250000000,14
1,2,msg_enq,0,1,43,enrol_req,-1,1414250000000,14
2,3,msg_deq,0,1,0,enrol_req,-1,1414250000000,10
3,4,ta_exec,0,1,0,enrol_req,-1,1414250000000,10
4,5,res_snd,0,1,0,enrol_resp,,1414250000000,10
...,...,...,...,...,...,...,...,...,...
399995,399996,ta_exec,17,5951,0,pop_req,-1,1414250000000,12
399996,399997,res_snd,17,5951,0,err,14,1414250000000,12
399997,399998,msg_arr,17,5952,60,peek_req,-1,1414250000000,18
399998,399999,msg_enq,17,5952,60,peek_req,-1,1414250000000,18


In [12]:
from sqlalchemy.sql import text
sql2 = '''
    select * from mw_trace50 WHERE id BETWEEN 400001 AND 799999;
'''
with engine.connect() as conn:
    query = conn.execute(text(sql2))         
df2 = pd.DataFrame(query.fetchall())

In [13]:
df2.to_parquet("data.parquet", engine="pyarrow", compression="snappy")

In [14]:
df2

Unnamed: 0,id,code,client_id,loc_ts,length,op,err_code,time,thread_id
0,400001,ta_exec,5,6296,0,pop_req,-1,1414250000000,10
1,400002,res_snd,5,6296,0,err,11,1414250000000,10
2,400003,msg_arr,5,6297,57,pop_req,-1,1414250000000,15
3,400004,msg_enq,5,6297,57,pop_req,-1,1414250000000,15
4,400005,msg_deq,1,6418,0,query_queue,-1,1414250000000,11
...,...,...,...,...,...,...,...,...,...
399994,799995,msg_arr,41,11446,179,send_msg,-1,1414250000000,24
399995,799996,msg_enq,41,11446,179,send_msg,-1,1414250000000,24
399996,799997,msg_deq,5,12172,0,pop_req,-1,1414250000000,10
399997,799998,ta_exec,5,12172,0,pop_req,-1,1414250000000,10


In [15]:
from sqlalchemy.sql import text
sql3 = '''
    select * from mw_trace50 WHERE id BETWEEN 800000 AND 1048576;
'''
with engine.connect() as conn:
    query = conn.execute(text(sql3))         
df3 = pd.DataFrame(query.fetchall())

In [16]:
df3.to_parquet("data.parquet", engine="pyarrow", compression="snappy")

In [17]:
df3

Unnamed: 0,id,code,client_id,loc_ts,length,op,err_code,time,thread_id
0,800000,msg_arr,5,12173,59,pop_req,-1,1414250000000,15
1,800001,msg_enq,5,12173,59,pop_req,-1,1414250000000,15
2,800002,msg_deq,1,12275,0,query_queue,-1,1414250000000,12
3,800003,ta_exec,1,12275,0,query_queue,-1,1414250000000,12
4,800004,res_snd,1,12275,0,query_queue_resp,,1414250000000,12
...,...,...,...,...,...,...,...,...,...
248571,1048571,msg_deq,5,15824,0,send_msg,-1,1414250000000,12
248572,1048572,ta_exec,5,15824,0,send_msg,-1,1414250000000,12
248573,1048573,res_snd,5,15824,0,err,11,1414250000000,12
248574,1048574,ts_rcvd,5,15825,166,send_msg,-1,1414250000000,15


#### Fragen und Antworten

Welche Datenwerte sind wie oft in den folgenden Feldern enthalten:

    id
    op
    error_code
    thread_id
    client_id

In [18]:
from sqlalchemy.sql import text
sql1 = '''
    select * from mw_trace50;
'''
with engine.connect() as conn:
    query = conn.execute(text(sql1))         
df_total = pd.DataFrame(query.fetchall())

In [19]:
df_total["id"].value_counts()

id
1          1
699056     1
699043     1
699044     1
699045     1
          ..
349531     1
349532     1
349533     1
349534     1
1048575    1
Name: count, Length: 1048575, dtype: int64

Die id kommt einmalig vor, dies insgesamt 1048575.

In [20]:
df_total["op"].value_counts()

op
send_msg             249395
pop_req              200692
peek_req             199834
query_queue          119304
err                   79569
query_sender          39984
message_sent          33019
create_queue          31868
query_queue_resp      29333
peek_resp             21216
pop_res               16870
query_sender_resp      9859
queue_created          7952
del_queue              7712
queue_deleted          1903
enrol_req                52
enrol_resp               13
Name: count, dtype: int64

Siehe den Print für eine Antwort.

In [21]:
df_total["err_code"].value_counts()

err_code
-1      848841
null    120165
11       47825
14       25599
1         6077
13          25
16          19
10          14
19          10
Name: count, dtype: int64

Siehe den Print für eine Antwort.

In [22]:
df_total["thread_id"].value_counts()

thread_id
10    204552
11    200619
12    194031
14     35863
15     35651
16     35268
17     34910
18     34813
19     34512
20     34403
21     34252
22     34143
23     34000
24     33940
25     33860
26     33758
Name: count, dtype: int64

Siehe den Print für eine Antwort.

In [23]:
df_total["client_id"].value_counts()

client_id
1     83537
5     83118
9     82288
13    81546
17    81146
21    80584
25    80250
29    80033
33    79633
37    79367
41    79181
45    79038
49    78789
0        65
Name: count, dtype: int64

Siehe den Print für eine Antwort.

Welches sind die Minimal- und Maximalwert im Feld length?

In [24]:
print(df1["length"].min())
print(df2["length"].min())
print(df3["length"].min())

print(df1["length"].max())
print(df2["length"].max())
print(df3["length"].max())

print(df_total["length"].min())
print(df_total["length"].max())

0
0
0
215
217
212
0
217


Der Minimalwert von length ist 0, der Maximalwert von length ist 217. Auch hier werden als Demo die Chunks verwendet und als Demo den ganzen Datensatz.

In welchem Format liegen die Timestamps vor? Wann wurden die Daten erhoben?

In [25]:
from datetime import datetime

int_time = df1["time"].unique()
date = pd.to_datetime(int_time, unit='ms')
print(date)

int_time = df2["time"].unique()
date = pd.to_datetime(int_time, unit='ms')
print(date)

int_time = df3["time"].unique()
date = pd.to_datetime(int_time, unit='ms')
print(date)

DatetimeIndex(['2014-10-25 15:13:20'], dtype='datetime64[ns]', freq=None)
DatetimeIndex(['2014-10-25 15:13:20'], dtype='datetime64[ns]', freq=None)
DatetimeIndex(['2014-10-25 15:13:20'], dtype='datetime64[ns]', freq=None)


In [26]:
int_time = df_total["time"].unique()
date = pd.to_datetime(int_time, unit='ms')
print(date)

DatetimeIndex(['2014-10-25 15:13:20'], dtype='datetime64[ns]', freq=None)


Das Format der Timestamps liegt in Millisekunden vor. Anschliessend wird es in Datum und Uhrzeit umformatiert. Die Daten wurden 25.10.2014 15:13:20 Uhr erhoben. Auch hier werden als Demo die Chunks verwendet und als Demo den ganzen Datensatz.