# Code preparation

In [45]:
import json
import numpy as np
from datetime import datetime, timedelta
import torch
import pandas as pd
from collections import Counter
import matplotlib.pyplot as plt
from tqdm import tqdm
import os
from utils.utils import load_data, entropy

In [2]:
# Parameterize time (in seconds) onto the unit circle 
def time_to_circle(time):
    seconds_per_day = 60*60*24
    cos_time = np.cos(2*np.pi*time/seconds_per_day)
    sin_time = np.sin(2*np.pi*time/seconds_per_day)
    return cos_time, sin_time

In [3]:
# Converting Unix time onto the unit circle (time of day) and the week day
def time_stamp(times):
    datetimes = np.array([datetime.fromtimestamp(time[1]) for time in times])
    week_day = [time.weekday() for time in datetimes]
    times = np.array([time.second + time.minute*60 + time.hour*60*60 for time in datetimes])
    time_circle = time_to_circle(times)
    return time_circle, week_day
    

In [4]:
# Creates list of zeros and ones where ones means that it is the first time the location is seen.
def explore(path):
    seen = set()
    explore_path = []
    for place in path:
        if place in seen:
            explore_path.append(0)
        else:
            explore_path.append(1)
            seen.add(place)
    return explore_path

In [5]:
# Preprocess all the data in saved files such that 1 file contains all the information for one person.
# A file for test, train and all of the data is created.
# In total it created a file containing the matrix: [path,time_cos,time_sin,week_day,explore_path,person_ID,lat,lon]
# It also relables the location id in path such that the amount if descending the higher the id.
def prepare_data(peps):
    tmp_max = 0
    for pep in peps:
        try:
            with open(f"Data/{pep}/final_series.json") as json_file:
                data_path = json.load(json_file)
            with open(f"Data/{pep}/timestamps.json") as json_file:
                time = json.load(json_file)
            with open(f"Data_m_loc/{pep}/stop_coords.json") as json_file:
                data_loc = np.array(json.load(json_file))

            [time_cos,time_sin], week_day = time_stamp(time)

            data_path = [path[-1] for path in data_path]
            
            #data_dist = [distance(coord_1,coord_2).km/1000 for coord_1,coord_2 in zip(data_loc[data_path[:-1]],data_loc[data_path[1:]])]

            explore_path = explore(data_path)
            person_list = [pep for _ in range(len(explore_path))]
            
            data = np.array([data_path,time_cos,time_sin,week_day,explore_path,person_list,data_loc.transpose()[0][data_path],data_loc.transpose()[1][data_path]])
            
            frac = int(data.shape[1]*0.90)
            data_train = data[:,:frac].copy()
            data_test = data[:,frac:].copy()
            np.save(f"Data/{pep}/prepared_data_train.npy",data_train)
            np.save(f"Data/{pep}/prepared_data_test.npy",data_test)
            np.save(f"Data/{pep}/prepared_data_all.npy",data)
            
            
            counter = Counter(data_train[0,:])
            counter_all = Counter(data[0,:])
            ranks = {rank[0]:i for i,rank in enumerate(counter.most_common())}
            ranks_all = {rank[0]:i for i,rank in enumerate(counter_all.most_common())}
            data_train_relabeled = [ranks[loc] for loc in data_train[0,:]]
            data_test_relabeled = [ranks[loc] if loc in ranks else 900 for loc in data_test[0,:] ]
            data_all_relabeled = [ranks_all[loc] for loc in data[0,:]]
            data_train[0,:] = data_train_relabeled
            data_test[0,:] = data_test_relabeled
            data[0,:] = data_all_relabeled
            data_location_20 = [data_loc[int(loc[0])] for loc in counter.most_common(100)]
            np.save(f"Data/{pep}/prepared_data_train_relabeled.npy",data_train)
            np.save(f"Data/{pep}/prepared_data_test_relabeled.npy",data_test)
            np.save(f"Data/{pep}/prepared_data_all_relabeled.npy",data)
            np.save(f"Data/{pep}/prepared_data_locations_relabeled.npy",data_location_20)
            df_ranks = pd.DataFrame(list(ranks.keys()),list(ranks.values()))
            df_ranks.to_pickle(f"Data/{pep}/label_dict.pkl")
            
        except FileNotFoundError:
            print(f"File {pep} not found")
            continue

In [37]:
# Preprocess all the data in saved files such that 1 file contains all the information for one person.
# A file for test, train and all of the data is created.
# In total it created a file containing the matrix: [path,time_cos,time_sin,week_day,explore_path,person_ID,lat,lon]
# It also relables the location id in path such that the amount if descending the higher the id.
def prepare_data_global(peps):
    for pep in tqdm(peps):
        try:
            data_tmp = np.genfromtxt(f"data/trace{pep}.csv",delimiter=',',skip_header=True,dtype="int,int,int", names = "loc,start,end")
            if data_tmp.shape[0]==0:
                continue
            with open(f"data/label_coords.json") as json_file:
                dict_loc = json.load(json_file)
            #Removes -1 and and dublicates
            data_tmp = data_tmp[data_tmp['loc'] >= 0]
            data_tmp = np.array([v for i, v in enumerate(data_tmp) if i == 0 or v[0] != data_tmp[i-1][0]])


            [time_cos,time_sin], week_day = time_stamp(data_tmp[['start','end']])
            data_path = data_tmp['loc']
            data_loc = np.array([dict_loc[str(loc)] for loc in data_path])
            #data_dist = [distance(coord_1,coord_2).km/1000 for coord_1,coord_2 in zip(data_loc[data_path[:-1]],data_loc[data_path[1:]])]


            explore_path = explore(data_path)

            person_list = [pep for _ in range(len(explore_path))]

            #data = np.array([data_path,time_cos,time_sin,week_day,explore_path,person_list,data_loc.transpose()[0][data_path],data_loc.transpose()[1][data_path]],data_path)
            data = np.array([data_path,time_cos,time_sin,week_day,explore_path,person_list,data_loc.transpose()[0],data_loc.transpose()[1],data_path])

            frac = int(data.shape[1]*0.90)
            data_train = data[:,:frac].copy()
            data_test = data[:,frac:].copy()

            counter = Counter(data_train[0,:])
            counter_all = Counter(data[0,:])
            ranks = {rank[0]:i for i,rank in enumerate(counter.most_common())}
            ranks_all = {rank[0]:i for i,rank in enumerate(counter_all.most_common())}
            data_train_relabeled = [ranks[loc] for loc in data_train[0,:]]
            data_test_relabeled = [ranks[loc] if loc in ranks else 900 for loc in data_test[0,:] ]
            data_all_relabeled = [ranks_all[loc] for loc in data[0,:]]
            data_train[0,:] = data_train_relabeled
            data_test[0,:] = data_test_relabeled
            data[0,:] = data_all_relabeled
            
            
            
            data_location_20 = [dict_loc[str(int(loc[0]))] for loc in counter.most_common(100)]
            os.makedirs(f"data/{pep}/", exist_ok=True)
            np.save(f"data/{pep}/prepared_data_train_relabeled.npy",data_train)
            np.save(f"data/{pep}/prepared_data_test_relabeled.npy",data_test)
            np.save(f"data/{pep}/prepared_data_all_relabeled.npy",data)
            np.save(f"data/{pep}/prepared_data_locations_relabeled.npy",data_location_20)
            df_ranks = pd.DataFrame(list(ranks.keys()),list(ranks.values()))
            df_ranks.to_pickle(f"data/{pep}/label_dict.pkl")
            
        except (FileNotFoundError, OSError):
            print(f"File {pep} not found")
            continue

In [27]:
# Saves some meta data of all users
def prepare_user_inf(peps):
    df = pd.DataFrame(columns = ["length"])
    for pep in peps:
        try:
            data_tmp = np.genfromtxt(f"data/trace{pep}.csv",delimiter=',',skip_header=True,dtype="int,int,int", names = "loc,start,end")
            if data_tmp.shape[0]==0:
                print(f"File {pep} was empty")
                continue
            data_tmp = data_tmp[data_tmp['loc'] >= 0]
            data_tmp = np.array([v for i, v in enumerate(data_tmp) if i == 0 or v[0] != data_tmp[i-1][0]])
            data_path = data_tmp['loc']
            #with open(f"data/labels_infomap_corr03.json") as json_file:
            #    data_cluster = json.load(json_file)
                
            df.loc[pep] = [len(data_path)] #, data_cluster[str(pep)]]
        except OSError:
            print(f"File {pep} not found")
    #return df
    df.to_pickle("data_inf.pkl")

In [26]:
prepare_user_inf(range(856))

  


File 821 was empty


  


File 846 was empty
File 852 not found
File 853 not found
File 854 not found
File 855 not found


In [38]:
prepare_data_global(range(856))


  0%|                                                                                                                                                   | 0/856 [00:00<?, ?it/s]
  0%|▎                                                                                                                                          | 2/856 [00:00<00:59, 14.29it/s]
  0%|▋                                                                                                                                          | 4/856 [00:00<00:59, 14.29it/s]
  1%|▉                                                                                                                                          | 6/856 [00:00<01:02, 13.70it/s]
  1%|█▎                                                                                                                                         | 8/856 [00:00<01:03, 13.32it/s]
  1%|█▌                                                                                                           

 11%|██████████████▉                                                                                                                           | 93/856 [00:07<00:58, 13.01it/s]
 11%|███████████████▎                                                                                                                          | 95/856 [00:07<00:58, 13.00it/s]
 11%|███████████████▋                                                                                                                          | 97/856 [00:07<01:00, 12.60it/s]
 12%|███████████████▉                                                                                                                          | 99/856 [00:07<00:53, 14.09it/s]
 12%|████████████████▏                                                                                                                        | 101/856 [00:07<00:55, 13.52it/s]
 12%|████████████████▍                                                                                             

 22%|█████████████████████████████▊                                                                                                           | 186/856 [00:14<00:48, 13.81it/s]
 22%|██████████████████████████████                                                                                                           | 188/856 [00:14<00:49, 13.36it/s]
 22%|██████████████████████████████▍                                                                                                          | 190/856 [00:14<00:49, 13.46it/s]
 22%|██████████████████████████████▋                                                                                                          | 192/856 [00:14<00:48, 13.59it/s]
 23%|███████████████████████████████                                                                                                          | 194/856 [00:14<00:51, 12.91it/s]
 23%|███████████████████████████████▎                                                                              

 32%|████████████████████████████████████████████▍                                                                                            | 278/856 [00:21<00:46, 12.42it/s]
 33%|████████████████████████████████████████████▊                                                                                            | 280/856 [00:21<00:47, 12.04it/s]
 33%|█████████████████████████████████████████████▏                                                                                           | 282/856 [00:21<00:48, 11.73it/s]
 33%|█████████████████████████████████████████████▍                                                                                           | 284/856 [00:22<00:46, 12.23it/s]
 33%|█████████████████████████████████████████████▊                                                                                           | 286/856 [00:22<00:48, 11.85it/s]
 34%|██████████████████████████████████████████████                                                                

 44%|███████████████████████████████████████████████████████████▋                                                                             | 373/856 [00:29<00:33, 14.62it/s]
 44%|████████████████████████████████████████████████████████████                                                                             | 375/856 [00:29<00:32, 14.61it/s]
 44%|████████████████████████████████████████████████████████████▎                                                                            | 377/856 [00:29<00:34, 13.91it/s]
 44%|████████████████████████████████████████████████████████████▋                                                                            | 379/856 [00:29<00:34, 13.67it/s]
 45%|████████████████████████████████████████████████████████████▉                                                                            | 381/856 [00:29<00:37, 12.60it/s]
 45%|█████████████████████████████████████████████████████████████▎                                                

 54%|██████████████████████████████████████████████████████████████████████████▍                                                              | 465/856 [00:36<00:32, 11.95it/s]
 55%|██████████████████████████████████████████████████████████████████████████▋                                                              | 467/856 [00:36<00:33, 11.63it/s]
 55%|███████████████████████████████████████████████████████████████████████████                                                              | 469/856 [00:36<00:34, 11.12it/s]
 55%|███████████████████████████████████████████████████████████████████████████▍                                                             | 471/856 [00:36<00:34, 11.25it/s]
 55%|███████████████████████████████████████████████████████████████████████████▋                                                             | 473/856 [00:37<00:33, 11.54it/s]
 55%|████████████████████████████████████████████████████████████████████████████                                  

 65%|█████████████████████████████████████████████████████████████████████████████████████████▏                                               | 557/856 [00:43<00:22, 13.33it/s]
 65%|█████████████████████████████████████████████████████████████████████████████████████████▍                                               | 559/856 [00:43<00:23, 12.72it/s]
 66%|█████████████████████████████████████████████████████████████████████████████████████████▊                                               | 561/856 [00:43<00:23, 12.77it/s]
 66%|██████████████████████████████████████████████████████████████████████████████████████████                                               | 563/856 [00:44<00:22, 13.12it/s]
 66%|██████████████████████████████████████████████████████████████████████████████████████████▍                                              | 565/856 [00:44<00:22, 12.80it/s]
 66%|██████████████████████████████████████████████████████████████████████████████████████████▉                   

 76%|████████████████████████████████████████████████████████████████████████████████████████████████████████                                 | 650/856 [00:50<00:15, 13.12it/s]
 76%|████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                | 652/856 [00:50<00:15, 13.11it/s]
 76%|████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                | 654/856 [00:51<00:15, 12.87it/s]
 77%|████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                | 656/856 [00:51<00:16, 12.31it/s]
 77%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▎                               | 658/856 [00:51<00:15, 12.72it/s]
 77%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▋    

 88%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                | 752/856 [00:57<00:05, 17.37it/s]
 88%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                | 754/856 [00:57<00:05, 17.06it/s]
 88%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                | 756/856 [00:57<00:06, 16.28it/s]
 89%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍               | 759/856 [00:57<00:05, 16.81it/s]
 89%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊               | 761/856 [00:57<00:05, 16.12it/s]
 89%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████

File 852 not found
File 853 not found
File 854 not found
File 855 not found


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 856/856 [01:03<00:00, 13.52it/s]


In [46]:
entropy_dict = {}
step = 10
for pep in tqdm(range(856)):
    if str(pep) not in entropy_dict:
        data = load_data([pep],bs=1,dat_type="all_relabeled",stop_t=False)[0]
        data = data.t().reshape(-1).cpu().numpy()[1:]
        entropy_dict[pep] = []
        for ix in range(step,len(data),step):
            entropy_dict[pep].append(entropy(list(data[:ix]),tqdm_boo=True)[0])


  0%|                                                                                                                                                   | 0/856 [00:00<?, ?it/s]
  0%|▏                                                                                                                                        | 1/856 [00:08<2:00:58,  8.49s/it]
  0%|▎                                                                                                                                        | 2/856 [00:08<1:25:18,  5.99s/it]
  0%|▍                                                                                                                                        | 3/856 [00:09<1:02:06,  4.37s/it]
  0%|▋                                                                                                                                          | 4/856 [00:12<57:15,  4.03s/it]
  1%|▊                                                                                                            

  6%|███████▋                                                                                                                                  | 48/856 [03:42<44:10,  3.28s/it]
  6%|███████▉                                                                                                                                  | 49/856 [03:45<42:49,  3.18s/it]
  6%|████████                                                                                                                                  | 50/856 [03:45<31:08,  2.32s/it]
  6%|████████▏                                                                                                                                 | 51/856 [03:47<27:04,  2.02s/it]
  6%|████████▍                                                                                                                                 | 52/856 [03:51<38:15,  2.86s/it]
  6%|████████▌                                                                                                     

 11%|███████████████▎                                                                                                                          | 95/856 [07:44<28:46,  2.27s/it]
 11%|███████████████▎                                                                                                                        | 96/856 [08:01<1:24:11,  6.65s/it]
 11%|███████████████▍                                                                                                                        | 97/856 [08:06<1:19:05,  6.25s/it]
 11%|███████████████▊                                                                                                                          | 98/856 [08:07<58:56,  4.67s/it]
 12%|███████████████▉                                                                                                                          | 99/856 [08:08<45:28,  3.60s/it]
 12%|████████████████                                                                                              

 17%|██████████████████████▊                                                                                                                | 145/856 [13:37<2:16:38, 11.53s/it]
 17%|███████████████████████                                                                                                                | 146/856 [13:37<1:36:31,  8.16s/it]
 17%|███████████████████████▏                                                                                                               | 147/856 [13:45<1:35:23,  8.07s/it]
 17%|███████████████████████▎                                                                                                               | 148/856 [13:51<1:28:54,  7.53s/it]
 17%|███████████████████████▍                                                                                                               | 149/856 [14:06<1:54:39,  9.73s/it]
 18%|███████████████████████▋                                                                                      

 23%|██████████████████████████████▉                                                                                                          | 193/856 [17:27<16:16,  1.47s/it]
 23%|███████████████████████████████                                                                                                          | 194/856 [17:33<30:59,  2.81s/it]
 23%|███████████████████████████████▏                                                                                                         | 195/856 [17:34<24:28,  2.22s/it]
 23%|██████████████████████████████▉                                                                                                        | 196/856 [17:55<1:26:33,  7.87s/it]
 23%|███████████████████████████████                                                                                                        | 197/856 [17:57<1:05:45,  5.99s/it]
 23%|███████████████████████████████▋                                                                              

 28%|██████████████████████████████████████▍                                                                                                  | 240/856 [21:41<54:32,  5.31s/it]
 28%|██████████████████████████████████████▌                                                                                                  | 241/856 [21:48<59:02,  5.76s/it]
 28%|██████████████████████████████████████▋                                                                                                  | 242/856 [21:49<42:55,  4.19s/it]
 28%|██████████████████████████████████████▎                                                                                                | 243/856 [22:15<1:48:54, 10.66s/it]
 29%|██████████████████████████████████████▍                                                                                                | 244/856 [22:18<1:28:11,  8.65s/it]
 29%|██████████████████████████████████████▋                                                                       

 34%|█████████████████████████████████████████████▍                                                                                         | 288/856 [28:50<1:42:29, 10.83s/it]
 34%|█████████████████████████████████████████████▌                                                                                         | 289/856 [29:03<1:47:11, 11.34s/it]
 34%|█████████████████████████████████████████████▋                                                                                         | 290/856 [29:06<1:22:59,  8.80s/it]
 34%|█████████████████████████████████████████████▉                                                                                         | 291/856 [29:16<1:25:28,  9.08s/it]
 34%|██████████████████████████████████████████████                                                                                         | 292/856 [29:27<1:32:24,  9.83s/it]
 34%|██████████████████████████████████████████████▏                                                               

 40%|██████████████████████████████████████████████████████▍                                                                                  | 340/856 [33:55<32:08,  3.74s/it]
 40%|██████████████████████████████████████████████████████▌                                                                                  | 341/856 [33:57<27:21,  3.19s/it]
 40%|█████████████████████████████████████████████████████▉                                                                                 | 342/856 [34:19<1:14:49,  8.73s/it]
 40%|██████████████████████████████████████████████████████                                                                                 | 343/856 [34:23<1:04:17,  7.52s/it]
 40%|███████████████████████████████████████████████████████                                                                                  | 344/856 [34:24<45:37,  5.35s/it]
 40%|██████████████████████████████████████████████████████▍                                                       

 46%|██████████████████████████████████████████████████████████████▍                                                                          | 390/856 [39:14<28:30,  3.67s/it]
 46%|██████████████████████████████████████████████████████████████▌                                                                          | 391/856 [39:21<37:12,  4.80s/it]
 46%|██████████████████████████████████████████████████████████████▋                                                                          | 392/856 [39:30<45:32,  5.89s/it]
 46%|██████████████████████████████████████████████████████████████▉                                                                          | 393/856 [39:30<32:50,  4.26s/it]
 46%|███████████████████████████████████████████████████████████████                                                                          | 394/856 [39:33<30:29,  3.96s/it]
 46%|███████████████████████████████████████████████████████████████▏                                              

 51%|█████████████████████████████████████████████████████████████████████                                                                  | 438/856 [44:35<1:31:31, 13.14s/it]
 51%|█████████████████████████████████████████████████████████████████████▏                                                                 | 439/856 [44:41<1:18:04, 11.23s/it]
 51%|█████████████████████████████████████████████████████████████████████▍                                                                 | 440/856 [44:44<1:00:50,  8.78s/it]
 52%|█████████████████████████████████████████████████████████████████████▌                                                                 | 441/856 [44:55<1:03:32,  9.19s/it]
 52%|█████████████████████████████████████████████████████████████████████▋                                                                 | 442/856 [45:23<1:43:39, 15.02s/it]
 52%|█████████████████████████████████████████████████████████████████████▊                                        

 57%|█████████████████████████████████████████████████████████████████████████████▉                                                           | 487/856 [51:47<21:32,  3.50s/it]
 57%|██████████████████████████████████████████████████████████████████████████████                                                           | 488/856 [51:48<17:11,  2.80s/it]
 57%|██████████████████████████████████████████████████████████████████████████████▎                                                          | 489/856 [51:54<22:35,  3.69s/it]
 57%|██████████████████████████████████████████████████████████████████████████████▍                                                          | 490/856 [51:58<23:01,  3.78s/it]
 57%|██████████████████████████████████████████████████████████████████████████████▌                                                          | 491/856 [51:58<16:22,  2.69s/it]
 57%|██████████████████████████████████████████████████████████████████████████████▋                               

 62%|█████████████████████████████████████████████████████████████████████████████████████▋                                                   | 535/856 [57:47<46:11,  8.63s/it]
 63%|█████████████████████████████████████████████████████████████████████████████████████▊                                                   | 536/856 [57:56<46:52,  8.79s/it]
 63%|█████████████████████████████████████████████████████████████████████████████████████▉                                                   | 537/856 [57:57<33:56,  6.38s/it]
 63%|██████████████████████████████████████████████████████████████████████████████████████                                                   | 538/856 [58:07<39:36,  7.47s/it]
 63%|██████████████████████████████████████████████████████████████████████████████████████▎                                                  | 539/856 [58:09<30:56,  5.86s/it]
 63%|██████████████████████████████████████████████████████████████████████████████████████▍                       

 68%|███████████████████████████████████████████████████████████████████████████████████████████▉                                           | 583/856 [1:03:13<42:07,  9.26s/it]
 68%|████████████████████████████████████████████████████████████████████████████████████████████                                           | 584/856 [1:03:13<29:34,  6.53s/it]
 68%|████████████████████████████████████████████████████████████████████████████████████████████▎                                          | 585/856 [1:03:17<25:59,  5.76s/it]
 68%|████████████████████████████████████████████████████████████████████████████████████████████▍                                          | 586/856 [1:03:21<24:18,  5.40s/it]
 69%|████████████████████████████████████████████████████████████████████████████████████████████▌                                          | 587/856 [1:03:24<20:03,  4.47s/it]
 69%|████████████████████████████████████████████████████████████████████████████████████████████▋                 

 74%|███████████████████████████████████████████████████████████████████████████████████████████████████▉                                   | 634/856 [1:08:21<18:27,  4.99s/it]
 74%|████████████████████████████████████████████████████████████████████████████████████████████████████▏                                  | 635/856 [1:08:21<13:17,  3.61s/it]
 74%|████████████████████████████████████████████████████████████████████████████████████████████████████▎                                  | 636/856 [1:08:34<23:04,  6.29s/it]
 74%|████████████████████████████████████████████████████████████████████████████████████████████████████▍                                  | 637/856 [1:08:35<17:54,  4.91s/it]
 75%|████████████████████████████████████████████████████████████████████████████████████████████████████▌                                  | 638/856 [1:08:58<37:37, 10.36s/it]
 75%|████████████████████████████████████████████████████████████████████████████████████████████████████▊         

 81%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                          | 690/856 [1:11:45<03:23,  1.23s/it]
 81%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                         | 692/856 [1:11:47<03:06,  1.14s/it]
 81%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                         | 693/856 [1:11:47<02:23,  1.14it/s]
 81%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                         | 694/856 [1:11:47<01:46,  1.52it/s]
 81%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                         | 695/856 [1:11:48<01:38,  1.63it/s]
 81%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▊

 92%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋           | 784/856 [1:13:01<00:06, 10.46it/s]
 92%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉           | 786/856 [1:13:01<00:05, 11.67it/s]
 92%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎          | 788/856 [1:13:11<01:45,  1.55s/it]
 92%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌          | 790/856 [1:13:11<01:13,  1.11s/it]
 93%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉          | 792/856 [1:13:11<00:50,  1.26it/s]
 93%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████

File 821 not found



 96%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊     | 823/856 [1:13:21<00:23,  1.43it/s]
 96%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉     | 824/856 [1:13:22<00:21,  1.47it/s]
 96%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎    | 826/856 [1:13:23<00:18,  1.58it/s]
 97%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍    | 827/856 [1:13:40<02:43,  5.64s/it]
 97%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌    | 828/856 [1:13:42<02:10,  4.65s/it]
 97%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████

File 846 not found



 99%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋ | 848/856 [1:13:56<00:05,  1.52it/s]
 99%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏| 851/856 [1:13:56<00:02,  2.08it/s]

File 852 not found
File 853 not found
File 854 not found
File 855 not found


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 856/856 [1:13:56<00:00,  5.18s/it]


In [47]:
good_peps = []
for i,(pep,ent) in enumerate(entropy_dict.items()):
    y_slope = np.array([abs(ent[j]-ent[j+5]) for j in range(len(ent)-5)])
    for k in range(len(y_slope)-15):
        if sum(abs(y_slope[k:k+10]-y_slope[k+5:k+15])<0.05)>=8:
            good_peps.append(pep)
            break

In [48]:
np.savetxt("good_peps.txt",np.array(good_peps,int))