# BiteMe | Data Definition

In this notebook we source and download all available data on insect bites and stings. We hash files (if neccessary), resize and re-write the images to a separate directory. Metadata is also created for both raw and cleaned images based on the folder structure.

N.B. This will be explored more ~in v2 if we decide to progress to that.

In [1]:
import pandas as pd
import os
import sys

sys.path.append("..")
from helpers import create_metadata, read_images

from constants import ROWS, COLS, CHANNELS

In [2]:
# Define directories
base_dir_path = "../"

data_dir_path = os.path.join(base_dir_path, "data")
data_raw_dir_path = os.path.join(data_dir_path, "raw")
data_clean_dir_path = os.path.join(data_dir_path, "cleaned")

## Rename images to its hash

In [3]:
# UNCOMMENT ONLY IF READY TO RENAME AND OVERWRITE FILES!
# CREATE BACKUPS IF NECCESSARY!

##hash_files(data_raw_dir_path)

## Create raw metadata.csv

In [4]:
# Create metadata csv
create_metadata(data_raw_dir_path).to_csv(f"{data_raw_dir_path}/metadata.csv", index=False)

## Resize and re-write images

In [5]:
# Read images, resize and write to cleaned directory
img_array = read_images(
    data_dir_path=data_raw_dir_path, 
    rows=ROWS, 
    cols=COLS, 
    channels=CHANNELS, 
    write_images=True, 
    output_data_dir_path=data_clean_dir_path
)

# Create metadata for cleaned images
create_metadata(data_clean_dir_path).to_csv(f"{data_clean_dir_path}/metadata.csv", index=False)

Reading images from: ../data/raw
Rows set to 512
Columns set to 512
Channels set to 3

Writing images to disk!
Writing images to: ../data/cleaned
Reading images...


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 28/28 [00:01<00:00, 18.20it/s]
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 29/29 [00:00<00:00, 29.58it/s]
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 23/23 [00:00<00:00, 28.87it/s]
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 28/28 [00:01<00:00, 17.01it/s]
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 28/28 [00:01<00:00, 24.16it/s]
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 24/24 [00:01<00:00, 16.09it/s]
100%|█████████████████████████████████████████████████████████████████████████████████████████████████████

Image reading complete.
Image array shape: (214, 512, 512, 3)
