# Experiment Tracking

Purpose of this notebook is to document the good practices that I found from studying the following git page:

Ref Link: https://particle1331.github.io/ok-transformer/nb/mlops/03-mlflow.html#hpo-with-xgboost

First, we need to run mlflow in the background in order to track the logs for our training. To do this, please use the following command shown here:

```bash
mlflow server -h 127.0.0.1 -p 5001 --backend-store-uri=sqlite:///mlflow.db --default-artifact-root=./artifacts
```

SQLite is used to store logs internally in our local file storage, while ./artifacts is used to store the artifacts from mlflow.

I'll experiment with local stack next time to configure an S3 based artifact, so I can study local stack and integrate with mlflow (2 birds 1 stone).

The following displays the project structure I am following for experiment-tracking:

In [5]:
!tree --prune -I 'venv'

[34;42m.[00m
├── [34;42mconfig[00m
│   ├── __init__.py
│   └── core.py
├── [34;42mdata[00m
│   ├── green_tripdata_2021-01.parquet
│   └── green_tripdata_2021-02.parquet
├── model_linear.py
├── model_linear_pudo.py
├── model_trees.py
├── notebook.ipynb
├── [34;42mproperties[00m
│   └── config.yaml
├── requirements.txt
└── [34;42mutils[00m
    ├── __init__.py
    ├── df_process.py
    ├── df_util.py
    └── feature_util.py

4 directories, 14 files


`config` holds the config class which reads the config yaml from `properties` dir

`data` holds the raw data for this project

`utils` holds the util classes for model classes

The following lines will show the source code of the important classes used. Starting with `df_*` classes and `config`

In [6]:
!cat ./properties/config.yaml

RANDOM_STATE: 0

TARGET: duration
TARGET_MIN: 1
TARGET_MAX: 60

TRAIN_SAMPLE: "green_tripdata_2021-01.parquet"
VALID_SAMPLE: "green_tripdata_2021-02.parquet"
MODEL_SAMPLE: "model_pipe.pkl"

FEATURES:
  - PULocationID
  - DOLocationID
  - trip_distance

CAT_FEATURES:
  - PULocationID
  - DOLocationID

NUM_FEATURES:
  - trip_distance


In [7]:
!pygmentize ./config/core.py

[38;2;0;128;0;01mfrom[39;00m [38;2;0;0;255;01mpathlib[39;00m [38;2;0;128;0;01mimport[39;00m Path

[38;2;0;128;0;01mfrom[39;00m [38;2;0;0;255;01mpydantic[39;00m [38;2;0;128;0;01mimport[39;00m BaseModel
[38;2;0;128;0;01mfrom[39;00m [38;2;0;0;255;01mstrictyaml[39;00m [38;2;0;128;0;01mimport[39;00m load

[38;2;61;123;123;03m# Project directories[39;00m
PACKAGE_ROOT [38;2;102;102;102m=[39m Path([38;2;25;23;124m__file__[39m)[38;2;102;102;102m.[39mresolve()[38;2;102;102;102m.[39mparents[[38;2;102;102;102m1[39m]
ROOT [38;2;102;102;102m=[39m PACKAGE_ROOT[38;2;102;102;102m.[39mparent
CONFIG_FILE_PATH [38;2;102;102;102m=[39m PACKAGE_ROOT [38;2;102;102;102m/[39m [38;2;186;33;33m"[39m[38;2;186;33;33mproperties[39m[38;2;186;33;33m"[39m [38;2;102;102;102m/[39m [38;2;186;33;33m"[39m[38;2;186;33;33mconfig.yaml[39m[38;2;186;33;33m"[39m
DATASET_DIR [38;2;102;102;102m=[39m PACKAGE_ROOT [38;2;102;102;102m/[39m [38;2;186;33;33m"[39m[38;2;186;33;33md

In [8]:
!pygmentize ./utils/df_util.py

[38;2;0;128;0;01mimport[39;00m [38;2;0;0;255;01mseaborn[39;00m [38;2;0;128;0;01mas[39;00m [38;2;0;0;255;01msns[39;00m
[38;2;0;128;0;01mimport[39;00m [38;2;0;0;255;01mmatplotlib[39;00m[38;2;0;0;255;01m.[39;00m[38;2;0;0;255;01mpyplot[39;00m [38;2;0;128;0;01mas[39;00m [38;2;0;0;255;01mplt[39;00m

[38;2;0;128;0;01mfrom[39;00m [38;2;0;0;255;01mconfig[39;00m [38;2;0;128;0;01mimport[39;00m config

[38;2;0;128;0;01mdef[39;00m [38;2;0;0;255mcreate_target_column[39m(df):
    [38;2;186;33;33m"[39m[38;2;186;33;33mCreate target column[39m[38;2;186;33;33m"[39m
    df[config[38;2;102;102;102m.[39mTARGET] [38;2;102;102;102m=[39m df[38;2;102;102;102m.[39mlpep_dropoff_datetime [38;2;102;102;102m-[39m df[38;2;102;102;102m.[39mlpep_pickup_datetime
    df[config[38;2;102;102;102m.[39mTARGET] [38;2;102;102;102m=[39m df[config[38;2;102;102;102m.[39mTARGET][38;2;102;102;102m.[39mdt[38;2;102;102;102m.[39mtotal_seconds() [38;2;102;102;102m/[39m [38;2;10

In [9]:
!pygmentize ./utils/df_process.py

[38;2;0;128;0;01mimport[39;00m [38;2;0;0;255;01mpandas[39;00m [38;2;0;128;0;01mas[39;00m [38;2;0;0;255;01mpd[39;00m

[38;2;0;128;0;01mfrom[39;00m [38;2;0;0;255;01mdf_util[39;00m [38;2;0;128;0;01mimport[39;00m create_target_column, filter_ride_duration
[38;2;0;128;0;01mfrom[39;00m [38;2;0;0;255;01mconfig[39;00m [38;2;0;128;0;01mimport[39;00m config

[38;2;0;128;0;01mdef[39;00m [38;2;0;0;255mpreprocess[39m(data: pd[38;2;102;102;102m.[39mDataFrame, target: [38;2;0;128;0mbool[39m, filter_target: [38;2;0;128;0mbool[39m [38;2;102;102;102m=[39m [38;2;0;128;0;01mFalse[39;00m):
[38;2;187;187;187m    [39m[38;2;186;33;33;03m"""Process and clean data for feature transofrmation"""[39;00m

    data[config[38;2;102;102;102m.[39mCAT_FEATURES] [38;2;102;102;102m=[39m data[config[38;2;102;102;102m.[39mCAT_FEATURES][38;2;102;102;102m.[39mastype([38;2;0;128;0mstr[39m)
    data[config[38;2;102;102;102m.[39mNUM_FEATURES] [38;2;102;102;102m=[39m data[config

The following will show the core classes used in this experiment project, which shall be the following list:

- `feature_util.py`         - contains feature selection functions
- `model_lienar.py`         - contains a linear model with mlflow integration (logging)
- `model_linear_pudo.py`    - contains a linear model using the pu_do feature from `feature_util`
- `model_trees.py`          - contains tree based models while using autolog feature of mlflow

In [10]:
!pygmentize ./utils/feature_util.py

[38;2;0;128;0;01mimport[39;00m [38;2;0;0;255;01mtime[39;00m
[38;2;0;128;0;01mfrom[39;00m [38;2;0;0;255;01mpathlib[39;00m [38;2;0;128;0;01mimport[39;00m Path

[38;2;0;128;0;01mimport[39;00m [38;2;0;0;255;01mmlflow[39;00m
[38;2;0;128;0;01mimport[39;00m [38;2;0;0;255;01mpandas[39;00m [38;2;0;128;0;01mas[39;00m [38;2;0;0;255;01mpd[39;00m
[38;2;0;128;0;01mfrom[39;00m [38;2;0;0;255;01mtoolz[39;00m [38;2;0;128;0;01mimport[39;00m compose

[38;2;0;128;0;01mfrom[39;00m [38;2;0;0;255;01msklearn[39;00m[38;2;0;0;255;01m.[39;00m[38;2;0;0;255;01mmetrics[39;00m [38;2;0;128;0;01mimport[39;00m mean_squared_error
[38;2;0;128;0;01mfrom[39;00m [38;2;0;0;255;01msklearn[39;00m[38;2;0;0;255;01m.[39;00m[38;2;0;0;255;01mpipeline[39;00m [38;2;0;128;0;01mimport[39;00m make_pipeline
[38;2;0;128;0;01mfrom[39;00m [38;2;0;0;255;01msklearn[39;00m[38;2;0;0;255;01m.[39;00m[38;2;0;0;255;01mpreprocessing[39;00m [38;2;0;128;0;01mimport[39;00m FunctionTransformer
[3

In [12]:
!pygmentize model_linear.py

[38;2;0;128;0;01mimport[39;00m [38;2;0;0;255;01mos[39;00m

[38;2;0;128;0;01mimport[39;00m [38;2;0;0;255;01mmlflow[39;00m
[38;2;0;128;0;01mfrom[39;00m [38;2;0;0;255;01msklearn[39;00m[38;2;0;0;255;01m.[39;00m[38;2;0;0;255;01mlinear_model[39;00m [38;2;0;128;0;01mimport[39;00m LinearRegression

[38;2;0;128;0;01mfrom[39;00m [38;2;0;0;255;01mutils[39;00m[38;2;0;0;255;01m.[39;00m[38;2;0;0;255;01mdf_process[39;00m [38;2;0;128;0;01mimport[39;00m preprocess
[38;2;0;128;0;01mfrom[39;00m [38;2;0;0;255;01mutils[39;00m[38;2;0;0;255;01m.[39;00m[38;2;0;0;255;01mfeature_util[39;00m [38;2;0;128;0;01mimport[39;00m (
    data_dict,
    feature_pipeline,
    setup_experiment,
    mlflow_default_logging,
)

setup_experiment()
data [38;2;102;102;102m=[39m data_dict(debug[38;2;102;102;102m=[39m[38;2;0;128;0mint[39m(os[38;2;102;102;102m.[39menviron[[38;2;186;33;33m"[39m[38;2;186;33;33mDEBUG[39m[38;2;186;33;33m"[39m]))

[38;2;0;128;0;01mwith[39;00m mlflow[3

In [13]:
!pygmentize model_linear_pudo.py

[38;2;0;128;0;01mimport[39;00m [38;2;0;0;255;01mos[39;00m

[38;2;0;128;0;01mimport[39;00m [38;2;0;0;255;01mmlflow[39;00m
[38;2;0;128;0;01mfrom[39;00m [38;2;0;0;255;01msklearn[39;00m[38;2;0;0;255;01m.[39;00m[38;2;0;0;255;01mlinear_model[39;00m [38;2;0;128;0;01mimport[39;00m LinearRegression

[38;2;0;128;0;01mfrom[39;00m [38;2;0;0;255;01mutils[39;00m[38;2;0;0;255;01m.[39;00m[38;2;0;0;255;01mdf_process[39;00m [38;2;0;128;0;01mimport[39;00m preprocess
[38;2;0;128;0;01mfrom[39;00m [38;2;0;0;255;01mutils[39;00m[38;2;0;0;255;01m.[39;00m[38;2;0;0;255;01mfeature_util[39;00m [38;2;0;128;0;01mimport[39;00m (
    data_dict,
    feature_pipeline,
    setup_experiment,
    mlflow_default_logging,
    add_pudo_column,
    feature_selector,
)

setup_experiment()
data [38;2;102;102;102m=[39m data_dict(debug[38;2;102;102;102m=[39m[38;2;0;128;0mint[39m(os[38;2;102;102;102m.[39menviron[[38;2;186;33;33m"[39m[38;2;186;33;33mDEBUG[39m[38;2;186;33;33m"[39m])

In [14]:
!pygmentize model_trees.py

[38;2;0;128;0;01mimport[39;00m [38;2;0;0;255;01mos[39;00m

[38;2;0;128;0;01mimport[39;00m [38;2;0;0;255;01mmlflow[39;00m
[38;2;0;128;0;01mfrom[39;00m [38;2;0;0;255;01msklearn[39;00m[38;2;0;0;255;01m.[39;00m[38;2;0;0;255;01mensemble[39;00m [38;2;0;128;0;01mimport[39;00m (
    ExtraTreesRegressor,
    RandomForestRegressor,
    GradientBoostingRegressor,
)

[38;2;0;128;0;01mfrom[39;00m [38;2;0;0;255;01mutils[39;00m[38;2;0;0;255;01m.[39;00m[38;2;0;0;255;01mdf_process[39;00m [38;2;0;128;0;01mimport[39;00m preprocess
[38;2;0;128;0;01mfrom[39;00m [38;2;0;0;255;01mutils[39;00m[38;2;0;0;255;01m.[39;00m[38;2;0;0;255;01mfeature_util[39;00m [38;2;0;128;0;01mimport[39;00m (
    data_dict,
    feature_pipeline,
    setup_experiment,
    mlflow_default_logging,
)

setup_experiment()
mlflow[38;2;102;102;102m.[39msklearn[38;2;102;102;102m.[39mautolog()
data [38;2;102;102;102m=[39m data_dict(debug[38;2;102;102;102m=[39m[38;2;0;128;0mint[39m(os[38;2;102;1