In [62]:
import pandas as pd
import numpy as np
import random
from randomtimestamp import randomtimestamp
from datetime import datetime, timedelta
import math

# 일반적인 랜덤 숫자 만들기

id 등

In [63]:
nums = np.random.choice(range(1, 8), 15, replace=True)
nums

array([7, 1, 4, 5, 6, 4, 5, 1, 2, 1, 6, 3, 7, 2, 4])

In [64]:
pd.DataFrame(nums)

Unnamed: 0,0
0,7
1,1
2,4
3,5
4,6
5,4
6,5
7,1
8,2
9,1


# 날짜 랜덤으로 생성하기

1. 기본 랜덤 날짜 만들기
2. 기본 랜덤 날짜에서 + 랜덤 시간차이 두고 데이터 만들기
    - ex) 음식 주문시간 -> 배달 완료 시간

## 1. 기본 랜덤 날짜 만들기
`random_timestamp_generator(times, start, end, has_null=False, p=0.1)`

Parameters

- times: 몇회 반복인지
- start: start_year
- end: end_year
- has_null: {True, False}, default False
- p: 0 ~ 1 null값의 비율, default 0.1

has_null = False인 경우 램덤 날짜 결과는 오름차순으로 자동 정렬되어 반환됨. \
has_null = True인 경우 랜덤 날짜 결과는 정렬되지 않음.

In [65]:
# 랜덤 날짜 만들기
# https://pypi.org/project/randomtimestamp/

def random_timestamp_generator(times, start, end, has_null=False, p=0.1):
    time_ts = []
    if has_null:
        null_flags = np.random.binomial(1, 0.2, times)
        print(f'null값 위치: {null_flags}')
        for flag in null_flags:
            if flag:
                time_ts.append(np.nan)
            else:
                time_ts.append(randomtimestamp(start_year=start, end_year=end, text=False))
    else :
        for i in range(times):
            time_ts.append(randomtimestamp(start_year=start, end_year=end, text=False))
    return sorted(time_ts) if has_null == False else time_ts

In [66]:
# null값 없는 랜덤 날짜

random_ts = random_timestamp_generator(15, 2020, 2020)
pd.DataFrame(random_ts, columns={'times'})

Unnamed: 0,times
0,2020-01-06 03:03:03
1,2020-01-09 22:25:40
2,2020-01-14 21:42:06
3,2020-02-10 06:38:47
4,2020-03-28 00:13:15
5,2020-03-28 01:32:45
6,2020-04-28 22:39:53
7,2020-05-21 15:06:32
8,2020-07-24 04:49:29
9,2020-08-06 22:22:25


In [110]:
# null값 있는 랜덤 날짜

random_ts = random_timestamp_generator(15, 2020, 2020, True, 0.4)
pd.DataFrame(random_ts, columns={'times'})

null값 위치: [1 0 1 0 1 1 0 0 0 0 1 0 0 0 0]


Unnamed: 0,times
0,NaT
1,2020-07-01 14:02:10
2,NaT
3,2020-05-09 19:50:10
4,NaT
5,NaT
6,2020-12-06 09:55:46
7,2020-06-16 16:29:56
8,2020-08-18 21:16:27
9,2020-08-01 17:22:18


## 2. 기본 랜덤 날짜에서 + 랜덤 시간차이 두고 데이터 만들기
ex) 음식 주문시간 -> 배달 완료 시간

`time_added(random_times, time_flag, start, end)`

Parameters

- random_times: 기준 날짜 데이터 리스트
- time_flag : {'day', 'hour', 'minute', 'second'}, 시간 차이 만들 기준
- start: start
- end: end

day를 시간 차이를 만들 기준으로 지정한 경우 하위 항목(시,분,초) 모두 함께 랜덤으로 뽑힐 수 있게끔 전달.

In [111]:
# 특정 시간대 이후의 값이 다시 필요한 경우
# ex) 배달 주문 후 배달 완료 시간
# time_flag(시간 차이 만들 기준) : {'day', 'hour', 'minute', 'second'}

def time_added(random_times, time_flag, start, end):
    time_ts = []
    delta = []
    
    for ts in random_times:
        if type(ts) is datetime:
            if time_flag == 'day':
                days = random.choice(range(start, end))
                hours = random.choice(range(0,25))
                minutes = random.choice(range(0,61))
                seconds = random.choice(range(0, 60))
                delta.append(timedelta(days=days, hours=hours, minutes=minutes, seconds=seconds))
            elif time_flag == 'hour':
                hours = random.choice(range(start, end))
                minutes = np.random.choice(range(0,61))
                seconds = random.choice(range(0, 60))
                delta.append(timedelta(hours=hours, minutes=minutes, seconds=seconds))
            elif time_flag == 'minute':
                minutes = random.choice(range(start, end))
                seconds = random.choice(range(0, 60))
                delta.append(timedelta(minutes=minutes, seconds=seconds))
            elif time_flag == 'second':
                seconds = random.choice(range(start, end))
                delta.append(timedelta(seconds=seconds))
        else:
            delta.append(ts)
    
    for ts, delta in zip(random_times, delta):
        if type(ts) is datetime:
            time_ts.append(ts + delta)
        else:
            time_ts.append(ts)
    
    return time_ts

In [112]:
pd.DataFrame(time_added(random_ts, 'minute', 2, 7))

Unnamed: 0,0
0,NaT
1,2020-07-01 14:06:56
2,NaT
3,2020-05-09 19:53:38
4,NaT
5,NaT
6,2020-12-06 09:58:24
7,2020-06-16 16:35:00
8,2020-08-18 21:21:24
9,2020-08-01 17:26:10
