In [1]:
import sqlite3
import pandas as pd
import plotly.express as px

In [2]:
def get_db_conn() -> sqlite3.Connection:
    conn = sqlite3.connect('data/bot.db')
    return conn

In [3]:
# preview food_log table
with get_db_conn() as conn:
    food_df = pd.read_sql_query('SELECT * FROM food_log', conn)

food_df.head()

Unnamed: 0,name,protein,carbs,fats,comment,datetime
0,"Chilli sin carne, nachosy, 4 jajka",High,Medium,Medium,,2024-06-10 07:03:35
1,Pizza Nduja z La Salle,Small,High,High,,2024-06-10 11:03:44
2,Łosoś z ryżem i surówką,High,Medium,Small,,2024-06-10 14:16:29
3,"Huel, pizza ziemniaczana",High,Medium,Small,,2024-06-11 06:53:18
4,Łosoś teryiaki Michiko,High,Medium,Medium,,2024-06-11 10:27:02


In [4]:
food_df.describe()

Unnamed: 0,name,protein,carbs,fats,comment,datetime
count,47,47,47,47,47.0,47
unique,43,3,3,3,3.0,47
top,Huel,High,Medium,Small,,2024-06-10 07:03:35
freq,3,35,31,18,45.0,1


In [5]:
# preview drug_log table
with get_db_conn() as conn:
    drug_df = pd.read_sql_query('SELECT * FROM drug_log', conn)

drug_df.head()

Unnamed: 0,name,dosage,datetime
0,bepis 500ml,1,2024-06-09 20:59:35
1,ALA 300mg,1,2024-06-10 06:53:59
2,bepis 500ml,1,2024-06-10 07:30:06
3,1 coffee,1,2024-06-10 08:59:19
4,ALA 300mg,1,2024-06-10 11:01:29


In [6]:
drug_df.describe()

Unnamed: 0,dosage
count,57.0
mean,1.035088
std,0.185637
min,1.0
25%,1.0
50%,1.0
75%,1.0
max,2.0


In [7]:
# fix datetimes in food_log and drug_log by moving them two hours forward
drug_df['datetime'] = pd.to_datetime(drug_df['datetime']) + pd.Timedelta(hours=2)
drug_df.head()

Unnamed: 0,name,dosage,datetime
0,bepis 500ml,1,2024-06-09 22:59:35
1,ALA 300mg,1,2024-06-10 08:53:59
2,bepis 500ml,1,2024-06-10 09:30:06
3,1 coffee,1,2024-06-10 10:59:19
4,ALA 300mg,1,2024-06-10 13:01:29


In [8]:
food_df['datetime'] = pd.to_datetime(food_df['datetime']) + pd.Timedelta(hours=2)
drug_df.head()

Unnamed: 0,name,dosage,datetime
0,bepis 500ml,1,2024-06-09 22:59:35
1,ALA 300mg,1,2024-06-10 08:53:59
2,bepis 500ml,1,2024-06-10 09:30:06
3,1 coffee,1,2024-06-10 10:59:19
4,ALA 300mg,1,2024-06-10 13:01:29


In [9]:
# load glucose data
glucose_df = pd.read_csv('data/glucose.csv')
glucose_df.head()

Unnamed: 0,Urządzenie,Numer seryjny,Znacznik czasu w urządzeniu,Rodzaj zapisu,Historyczne stężenia glukozy mg/dL,Stężenie glukozy na podstawie skanowania mg/dL,Szybko działająca insulina bez wartości liczbowych,Szybko działająca insulina (j.),Posiłek bez wartości liczbowych,Węglowodany (gramy),Węglowodany (porcje),Długo działająca insulina bez wartości liczbowych,Długo działająca insulina (j.),Notatki,Poziom glukozy na podstawie testu paska mg/dL,Ciała ketonowe mmol/L,Insulina przyjmowana przy posiłkach (j.),Insulina przyjmowana w ramach korekty (j.),Insulina – zmiany wpr. przez użytkownika (j.)
0,FreeStyle LibreLink,07CDF5A1-7ABD-430E-9AE9-551C6A221934,10-06-2024 00:13,0,106.0,,,,,,,,,,,,,,
1,FreeStyle LibreLink,07CDF5A1-7ABD-430E-9AE9-551C6A221934,10-06-2024 00:28,0,108.0,,,,,,,,,,,,,,
2,FreeStyle LibreLink,07CDF5A1-7ABD-430E-9AE9-551C6A221934,10-06-2024 00:43,0,106.0,,,,,,,,,,,,,,
3,FreeStyle LibreLink,07CDF5A1-7ABD-430E-9AE9-551C6A221934,10-06-2024 00:58,0,106.0,,,,,,,,,,,,,,
4,FreeStyle LibreLink,07CDF5A1-7ABD-430E-9AE9-551C6A221934,10-06-2024 01:13,0,103.0,,,,,,,,,,,,,,


In [10]:
# rename column `Znacznik czasu w urządzeniu` to `datetime` and convert it to datetime
glucose_df.rename(columns={'Znacznik czasu w urządzeniu': 'datetime', 'Historyczne stężenia glukozy mg/dL': 'glucose_mg_dl'}, inplace=True)



In [11]:
# drop all columns except `datetime` and `glucose_mg_dl`
glucose_df = glucose_df[['datetime', 'glucose_mg_dl']]
glucose_df.head()

Unnamed: 0,datetime,glucose_mg_dl
0,10-06-2024 00:13,106.0
1,10-06-2024 00:28,108.0
2,10-06-2024 00:43,106.0
3,10-06-2024 00:58,106.0
4,10-06-2024 01:13,103.0


In [12]:
# convert `datetime` to datetime
glucose_df['datetime'] = pd.to_datetime(glucose_df['datetime'], format="%d-%m-%Y %H:%M")
glucose_df

Unnamed: 0,datetime,glucose_mg_dl
0,2024-06-10 00:13:00,106.0
1,2024-06-10 00:28:00,108.0
2,2024-06-10 00:43:00,106.0
3,2024-06-10 00:58:00,106.0
4,2024-06-10 01:13:00,103.0
...,...,...
1388,2024-06-23 10:08:00,
1389,2024-06-23 10:13:00,
1390,2024-06-23 10:17:00,
1391,2024-06-23 10:19:00,


In [13]:
# read activity data
activity_df = pd.read_csv('data/Activities.csv')
activity_df.head()

Unnamed: 0,Typ aktywności,Data,Ulubiony,Tytuł,Dystans,Kalorie,Całkowity czas,Średnie tętno,Maksymalne tętno,Aerobowy TE,...,Maksymalna częstotliwość oddechu,Zmiana poziomu stresu,Początek stresu,Koniec stresu,Śr. Stres,Maksymalny poziom stresu,Czas ruchu,Upłynęło czasu,Minimalna wysokość,Maksymalna wysokość
0,Kardio,2024-07-25 19:40:01,False,Cardio,0.0,793,01:54:20,113,170,2.1,...,--,--,--,--,--,--,00:00:00,02:24:51,--,--
1,Trening siłowy,2024-07-24 19:19:59,False,Strength,0.0,527,01:15:51,113,151,1.8,...,--,--,--,--,--,--,00:31:33,01:15:51,--,--
2,Inne,2024-07-23 17:31:34,False,Sauna,0.0,383,01:16:30,93,151,1.2,...,--,--,--,--,--,--,00:00:00,01:16:30,--,--
3,Piesze wędrówki,2024-07-21 17:48:42,False,Międzyzdroje Piesze wędrówki,3.35,305,00:48:30,108,165,1.9,...,--,--,--,--,--,--,00:42:05,00:48:30,36,69
4,Piesze wędrówki,2024-07-21 13:33:51,False,Wolin Piesze wędrówki,2.23,298,00:30:17,125,146,2.0,...,--,--,--,--,--,--,00:27:57,00:30:17,4,40


In [14]:
activity_df.describe()


Unnamed: 0,Aerobowy TE,Średnia długość kroku,Średnie odchylenie do długości,Średnie odchylenie pionowe,Średni czas kontaktu z podłożem,Training Stress Score® (TSS®),Trudność,Płynność,Średni Swolf,Średnie tempo ruchów,Liczba okrążeń,Maksymalna temperatura
count,80.0,28.0,0.0,0.0,0.0,80.0,0.0,0.0,0.0,0.0,80.0,36.0
mean,1.6875,3.2075,,,,0.0,,,,,1.1375,35.444444
std,1.027517,5.307489,,,,0.0,,,,,0.346547,4.999683
min,0.0,0.0,,,,0.0,,,,,1.0,27.0
25%,0.9,0.82,,,,0.0,,,,,1.0,31.0
50%,2.0,1.805,,,,0.0,,,,,1.0,32.5
75%,2.325,2.81,,,,0.0,,,,,1.0,41.0
max,4.5,26.5,,,,0.0,,,,,2.0,43.0


In [15]:
activity_df["start_datetime"] = pd.to_datetime(activity_df["Data"], format="%Y-%m-%d %H:%M:%S")
activity_df["duration"] = pd.to_timedelta(activity_df["Upłynęło czasu"])
activity_df["end_datetime"] = activity_df["start_datetime"] + activity_df["duration"]

In [16]:
activity_df.head()

Unnamed: 0,Typ aktywności,Data,Ulubiony,Tytuł,Dystans,Kalorie,Całkowity czas,Średnie tętno,Maksymalne tętno,Aerobowy TE,...,Koniec stresu,Śr. Stres,Maksymalny poziom stresu,Czas ruchu,Upłynęło czasu,Minimalna wysokość,Maksymalna wysokość,start_datetime,duration,end_datetime
0,Kardio,2024-07-25 19:40:01,False,Cardio,0.0,793,01:54:20,113,170,2.1,...,--,--,--,00:00:00,02:24:51,--,--,2024-07-25 19:40:01,0 days 02:24:51,2024-07-25 22:04:52
1,Trening siłowy,2024-07-24 19:19:59,False,Strength,0.0,527,01:15:51,113,151,1.8,...,--,--,--,00:31:33,01:15:51,--,--,2024-07-24 19:19:59,0 days 01:15:51,2024-07-24 20:35:50
2,Inne,2024-07-23 17:31:34,False,Sauna,0.0,383,01:16:30,93,151,1.2,...,--,--,--,00:00:00,01:16:30,--,--,2024-07-23 17:31:34,0 days 01:16:30,2024-07-23 18:48:04
3,Piesze wędrówki,2024-07-21 17:48:42,False,Międzyzdroje Piesze wędrówki,3.35,305,00:48:30,108,165,1.9,...,--,--,--,00:42:05,00:48:30,36,69,2024-07-21 17:48:42,0 days 00:48:30,2024-07-21 18:37:12
4,Piesze wędrówki,2024-07-21 13:33:51,False,Wolin Piesze wędrówki,2.23,298,00:30:17,125,146,2.0,...,--,--,--,00:27:57,00:30:17,4,40,2024-07-21 13:33:51,0 days 00:30:17,2024-07-21 14:04:08


In [17]:
# fetch time interval from the glucose data
start_datetime = glucose_df['datetime'].min().date()
end_datetime = glucose_df['datetime'].max().date()
print(start_datetime, end_datetime)

2024-06-09 2024-06-24


In [18]:
activity_df = activity_df[(activity_df['start_datetime'] >= pd.to_datetime(start_datetime)) & (activity_df['end_datetime'] <= pd.to_datetime(end_datetime))]


In [19]:
# rename columns
activity_df.rename(columns={"Tytuł": "title", "Maksymalne tętno": "max_hr", "Średnie tętno": "avg_hr"}, inplace=True)
activity_df.head()

Unnamed: 0,Typ aktywności,Data,Ulubiony,title,Dystans,Kalorie,Całkowity czas,avg_hr,max_hr,Aerobowy TE,...,Koniec stresu,Śr. Stres,Maksymalny poziom stresu,Czas ruchu,Upłynęło czasu,Minimalna wysokość,Maksymalna wysokość,start_datetime,duration,end_datetime
21,Kardio,2024-06-22 23:43:30,False,Cardio,0.0,770,01:36:37,127,187,2.7,...,--,--,--,00:00:00,01:36:37,--,--,2024-06-22 23:43:30,0 days 01:36:37,2024-06-23 01:20:07
22,Inne,2024-06-22 17:23:22,False,Wrocław Sauna,1.05,295,01:01:34,91,157,1.0,...,--,--,--,00:21:31,01:01:35,-500,138,2024-06-22 17:23:22,0 days 01:01:35,2024-06-22 18:24:57
23,Kolarstwo,2024-06-21 20:01:17,False,Siechnice Kolarstwo,12.26,487,00:32:59,158,176,3.5,...,--,--,--,00:31:16,00:32:59,68,275,2024-06-21 20:01:17,0 days 00:32:59,2024-06-21 20:34:16
24,Kolarstwo,2024-06-21 17:34:57,False,Wrocław Kolarstwo,14.76,551,00:45:34,141,169,3.0,...,--,--,--,00:43:24,00:45:34,117,126,2024-06-21 17:34:57,0 days 00:45:34,2024-06-21 18:20:31
25,Kardio,2024-06-19 17:03:26,False,Cardio,0.0,1141,02:58:44,123,176,2.7,...,--,--,--,00:00:00,02:58:44,--,--,2024-06-19 17:03:26,0 days 02:58:44,2024-06-19 20:02:10


In [20]:
from dotenv import load_dotenv

load_dotenv()

True

In [22]:
import deepl
import os

api_key = os.getenv('DEEPL_API_KEY')
translator = deepl.Translator(api_key)

In [26]:
unique_food_names = food_df['name'].unique()
pl_to_eng_translations = {}
for food_name in unique_food_names:
    translated = translator.translate_text(food_name, target_lang="EN-US").text
    pl_to_eng_translations[food_name] = translated
pl_to_eng_translations

{'Chilli sin carne, nachosy, 4 jajka': 'Chilli sin carne, nachos, 4 eggs',
 'Pizza Nduja z La Salle': 'Pizza Nduja from La Salle',
 'Łosoś z ryżem i surówką': 'Salmon with rice and salad',
 'Huel, pizza ziemniaczana': 'Huel, potato pizza',
 'Łosoś teryiaki Michiko': 'Michiko teryiaki salmon',
 'Mleczny napój proteinowy 25g białka': 'Milk protein drink 25g of protein',
 'Dorsz z czarnym ryżem i groszkiem': 'Cod with black rice and peas',
 'Sałatka nicejska z tuńczykiem': 'Nice salad with tuna',
 'dwa batoniki proteinowe': 'two protein bars',
 'Tosty, jajka, pomidor, awokado': 'Toast, eggs, tomato, avocado',
 'Makaron ze szpinakiem i burakiem, mleczny napój białkowy': 'Pasta with spinach and beet, a milky protein drink',
 'Sałatka z kozim serem i huel': 'Salad with goat cheese and huel',
 'Tofu kimchi fries z chingu': 'Tofu kimchi fries with ching',
 'Curry z dorszem': 'Curry with cod',
 'Napój proteinowy i baton nicks': 'Protein drink and nicks bar',
 'Sałatka z soczewicą, huel': 'Salad

In [27]:
pl_to_eng_translations = {'Chilli sin carne, nachosy, 4 jajka': 'Chilli sin carne, nachos, 4 eggs',
 'Pizza Nduja z La Salle': 'Pizza Nduja',
 'Łosoś z ryżem i surówką': 'Salmon with rice and salad',
 'Huel, pizza ziemniaczana': 'Huel, potato pizza',
 'Łosoś teryiaki Michiko': 'Salomon teryiaki sushi set',
 'Mleczny napój proteinowy 25g białka': 'Milk protein drink 25g of protein',
 'Dorsz z czarnym ryżem i groszkiem': 'Cod with black rice and peas',
 'Sałatka nicejska z tuńczykiem': 'Salad with tuna',
 'dwa batoniki proteinowe': 'two protein bars',
 'Tosty, jajka, pomidor, awokado': 'Toast, eggs, tomato, avocado',
 'Makaron ze szpinakiem i burakiem, mleczny napój białkowy': 'Pasta with spinach and beet, a milky protein drink',
 'Sałatka z kozim serem i huel': 'Salad with goat cheese and huel',
 'Tofu kimchi fries z chingu': 'Tofu kimchi fries with ching',
 'Curry z dorszem': 'Curry with cod',
 'Napój proteinowy i baton nicks': 'Protein drink and nicks bar',
 'Sałatka z soczewicą, huel': 'Salad with lentils, huel',
 'Tosty i 3 jajka': 'Toast and 3 eggs',
 'Kasza peczniak, wege kotlety, ogórki, mleczny napój białkowy': 'Pecan groats, vege cutlets, pickles, dairy protein drink',
 'Huel': 'Huel',
 'Ciastko z mozzarellą i łosoś': 'Cake with mozzarella and salmon',
 'Makdonald 3 burgerki i fryty': '3 burgers and fries from McDonald',
 'Łosoś i tosty': 'Salmon and toast',
 'pizza nduja z la salle': 'pizza nduja',
 'Wege kebab w placku i huel': 'Vege kebab in pancake and huel',
 'Pół huela, pizza z batata, pół jogurtu proteinowego': 'Half huela, yam pizza, half protein yogurt',
 'Pizza Godurowa': 'Godurowa Pizza',
 'Precel': 'Precel',
 'Gyros z surówką i frytkami': 'Gyros with salad and fries',
 'Sałatka z łososiem i huel': 'Salmon salad and huel',
 'Tofu z makaronem soba': 'Tofu with soba noodles',
 'Lód z biedry': 'Icecream',
 'Jogurt proteinowy i owoce': 'Protein yogurt and fruit',
 '4 delicje': '4 cookies',
 'Sushi z Michiko': 'Takeaway sushi',
 'Łosoś z kapustą i ziemniaczkami, 6 ptasich mleczek': "Salmon with cabbage and potatoes, 6 candies",
 'Lód oreo': 'Oreo icecream',
 'Dwa tosty mleczny napój proteinowy': 'Two toasted milk protein drink',
 'Sałatka z wege paluszkami rybnymi, huel': 'Salad with vege fish sticks, huel',
 'Tarta marakujowa, inne ciasto marakujowe': 'Maracuja tart, another maracuja cake',
 'Tofu z makaronem ryżowym, warzywaim, shake proteinowy': 'Tofu with rice noodles, veggies, protein shake',
 'Trochę chlebka naan z hummusem i serem, mleczny napój proteinowy zott': 'Some naan bread with hummus and cheese, zott milk protein drink',
 'Poke bowl': 'Poke bowl',
 'Tosty, warzywka, 3 jajka, twarożek': 'Toast, veggies, 3 eggs, cottage cheese'}

In [28]:
food_df['name'] = food_df['name'].map(pl_to_eng_translations)
food_df.head()

Unnamed: 0,name,protein,carbs,fats,comment,datetime
0,"Chilli sin carne, nachos, 4 eggs",High,Medium,Medium,,2024-06-10 09:03:35
1,Pizza Nduja,Small,High,High,,2024-06-10 13:03:44
2,Salmon with rice and salad,High,Medium,Small,,2024-06-10 16:16:29
3,"Huel, potato pizza",High,Medium,Small,,2024-06-11 08:53:18
4,Salomon teryiaki sushi set,High,Medium,Medium,,2024-06-11 12:27:02


In [29]:
unique_drug_names = drug_df['name'].unique()
drug_name_mappings = {name: name for name in unique_drug_names}
drug_name_mappings

{'bepis 500ml': 'bepis 500ml',
 'ALA 300mg': 'ALA 300mg',
 '1 coffee': '1 coffee',
 'concerta 18mg': 'concerta 18mg',
 'Aspiryna 250mg': 'Aspiryna 250mg',
 'weed 3 pufs': 'weed 3 pufs',
 'ibuprofen 400mg': 'ibuprofen 400mg',
 'medikinet CR 10mg': 'medikinet CR 10mg',
 '1 beer': '1 beer'}

In [30]:
drug_name_mappings = {'bepis 500ml': 'Pepsi MAX 500ml',
 'ALA 300mg': 'ALA 300mg',
 '1 coffee': '1 coffee',
 'concerta 18mg': 'concerta 18mg',
 'Aspiryna 250mg': 'Aspiryna 250mg',
 'weed 3 pufs': '3 puffs of weed',
 'ibuprofen 400mg': 'ibuprofen 400mg',
 'medikinet CR 10mg': 'medikinet CR 10mg',
 '1 beer': '1 beer'}

In [31]:
drug_df['name'] = drug_df['name'].map(drug_name_mappings)
drug_df.head()

Unnamed: 0,name,dosage,datetime
0,Pepsi MAX 500ml,1,2024-06-09 22:59:35
1,ALA 300mg,1,2024-06-10 08:53:59
2,Pepsi MAX 500ml,1,2024-06-10 09:30:06
3,1 coffee,1,2024-06-10 10:59:19
4,ALA 300mg,1,2024-06-10 13:01:29


In [32]:
unique_activity_names = activity_df['title'].unique()
activity_name_mappings = {name: name for name in unique_activity_names}
activity_name_mappings

{'Cardio': 'Cardio',
 'Wrocław Sauna': 'Wrocław Sauna',
 'Siechnice Kolarstwo': 'Siechnice Kolarstwo',
 'Wrocław Kolarstwo': 'Wrocław Kolarstwo',
 'Joga': 'Joga'}

In [33]:
activity_name_mappings = {'Cardio': 'Workout',
 'Wrocław Sauna': 'Sauna',
 'Siechnice Kolarstwo': 'Cycling',
 'Wrocław Kolarstwo': 'Cycling',
 'Joga': 'Yoga'}

activity_df['title'] = activity_df['title'].map(activity_name_mappings)
activity_df.head()


Unnamed: 0,Typ aktywności,Data,Ulubiony,title,Dystans,Kalorie,Całkowity czas,avg_hr,max_hr,Aerobowy TE,...,Koniec stresu,Śr. Stres,Maksymalny poziom stresu,Czas ruchu,Upłynęło czasu,Minimalna wysokość,Maksymalna wysokość,start_datetime,duration,end_datetime
21,Kardio,2024-06-22 23:43:30,False,Workout,0.0,770,01:36:37,127,187,2.7,...,--,--,--,00:00:00,01:36:37,--,--,2024-06-22 23:43:30,0 days 01:36:37,2024-06-23 01:20:07
22,Inne,2024-06-22 17:23:22,False,Sauna,1.05,295,01:01:34,91,157,1.0,...,--,--,--,00:21:31,01:01:35,-500,138,2024-06-22 17:23:22,0 days 01:01:35,2024-06-22 18:24:57
23,Kolarstwo,2024-06-21 20:01:17,False,Cycling,12.26,487,00:32:59,158,176,3.5,...,--,--,--,00:31:16,00:32:59,68,275,2024-06-21 20:01:17,0 days 00:32:59,2024-06-21 20:34:16
24,Kolarstwo,2024-06-21 17:34:57,False,Cycling,14.76,551,00:45:34,141,169,3.0,...,--,--,--,00:43:24,00:45:34,117,126,2024-06-21 17:34:57,0 days 00:45:34,2024-06-21 18:20:31
25,Kardio,2024-06-19 17:03:26,False,Workout,0.0,1141,02:58:44,123,176,2.7,...,--,--,--,00:00:00,02:58:44,--,--,2024-06-19 17:03:26,0 days 02:58:44,2024-06-19 20:02:10


In [34]:
food_df.to_csv('data/clean/food.csv', index=False)
drug_df.to_csv('data/clean/drug.csv', index=False)
glucose_df.to_csv('data/clean/glucose.csv', index=False)
activity_df.to_csv('data/clean/activity.csv', index=False)