# Tạo dữ liệu mô phỏng với Pandas

### Lê Ngọc Khả Nhi

Trong quá trình thực hành và làm việc, đôi khi chúng ta cần chuẩn bị các dữ liệu mô phỏng. 

Module util.testing của thư viện Pandas cung cấp một số method cho phép tạo ra dữ liệu mô phỏng một cách dễ dàng, thuận tiện:

In [11]:
import pandas as pd
import numpy as np

print(f"Sử dụng pandas version {pd.__version__}")
print(f"Sử dụng numpy version {np.__version__}")

import pandas.util.testing as tm

Sử dụng pandas version 0.25.3
Sử dụng numpy version 1.17.4


Liệt kê tất cả method mô phỏng dữ liệu trong module util.testing: chúng đều bắt đầu bằng từ "make"

In [3]:
[i for i in dir(tm) if i.startswith('make')]

['makeBoolIndex',
 'makeCategoricalIndex',
 'makeCustomDataframe',
 'makeCustomIndex',
 'makeDataFrame',
 'makeDateIndex',
 'makeFloatIndex',
 'makeFloatSeries',
 'makeIntIndex',
 'makeIntervalIndex',
 'makeMissingCustomDataframe',
 'makeMissingDataframe',
 'makeMixedDataFrame',
 'makeMultiIndex',
 'makeObjectSeries',
 'makePeriodFrame',
 'makePeriodIndex',
 'makePeriodSeries',
 'makeRangeIndex',
 'makeStringIndex',
 'makeStringSeries',
 'makeTimeDataFrame',
 'makeTimeSeries',
 'makeTimedeltaIndex',
 'makeUIntIndex',
 'makeUnicodeIndex']

Đầu tiên, ta tùy chỉnh số hàng N và số cột K mặc định trong dataframe cần mô phỏng: Thí dụ 10 hàng và 5 cột

In [4]:
tm.N = 10
tm.K = 5

Tạo một dataframe với tùy chỉnh N=10, k=5

In [5]:
tm.makeDataFrame()

Unnamed: 0,A,B,C,D,E
Fi4ghSwobW,-0.36144,-0.2504,0.011905,0.608938,-0.872758
dNdsbhMwEX,-0.377503,0.436191,0.761339,2.107089,0.236963
TO8saIRecg,0.64181,-0.666242,-0.587668,0.150183,-0.652524
Sof9JvCYQB,0.88446,1.279219,1.043397,-0.996677,0.483124
JMpYRDQqOo,-0.960473,0.783801,0.838424,0.608756,0.172484
9PKnyqyquB,-0.064039,-1.129655,-1.604402,-0.159557,-1.199078
MT8uXca6nK,-1.005163,-1.259508,1.870591,1.103164,-0.482766
GIXo6vjqFE,0.365637,0.495038,2.658238,-1.019838,1.289235
STitFoM3fy,1.220569,1.266613,0.439279,2.826312,1.03745
HkxA5ckMsL,-0.393975,-0.219185,1.445569,-1.746426,1.436962


Tạo một dataframe 5 hàng, 3 cột, index số thứ tự, tên biến string, nội dung là float number tạo bằng hàm np.random.rand()

In [12]:
tm.makeCustomDataframe(nrows = 5, ncols = 3,
                       data_gen_f=lambda r,c:np.random.randn(),
                       r_idx_type = 'i',
                       c_idx_type = 's')

C0,i0UGdcfLFj,2VLgZ6S3lQ,iF2ZIMjxWq
R0,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
0,1.809467,-1.35801,-0.265166
1,-0.802223,-0.881011,-0.306661
2,1.920934,1.02913,-0.683362
3,-1.531888,-1.258191,-0.341
4,0.614262,-0.601163,0.301808


Tạo hệ thống index giá trị boolean

In [8]:
tm.makeBoolIndex()

Index([False, True, False, False, False, False, False, False, False, False], dtype='object')

Tạo index giá trị định tính (categorical)

In [9]:
tm.makeCategoricalIndex()

CategoricalIndex(['Klp9', '248b', '0VOn', '0VOn', '0VOn', 'Klp9', '248b',
                  '0VOn', '248b', 'Klp9'],
                 categories=['0VOn', '248b', 'Klp9'], ordered=False, dtype='category')

Tạo index là số nguyên

In [24]:
tm.makeIntIndex(k = 5, name = 'ID_number')

Int64Index([0, 1, 2, 3, 4], dtype='int64', name='ID_number')

Hàm CustomIndex cho phép tạo index theo kiểu tùy chọn, thí dụ integer:

In [32]:
tm.makeCustomIndex(nentries = 10, nlevels = 1, idx_type = 'i')

Int64Index([0, 1, 2, 3, 4, 5, 6, 7, 8, 9], dtype='int64')

Hoặc datetime:

In [34]:
tm.makeCustomIndex(nentries = 10, nlevels = 1, idx_type = 'dt')

DatetimeIndex(['2000-01-03', '2000-01-04', '2000-01-05', '2000-01-06',
               '2000-01-07', '2000-01-10', '2000-01-11', '2000-01-12',
               '2000-01-13', '2000-01-14'],
              dtype='datetime64[ns]', freq='B')

Tạo index là chuỗi thời gian với chu kỳ là tháng (M)

In [15]:
tm.makeDateIndex(k = 20, freq = 'M', name = "Date")

DatetimeIndex(['2000-01-31', '2000-02-29', '2000-03-31', '2000-04-30',
               '2000-05-31', '2000-06-30', '2000-07-31', '2000-08-31',
               '2000-09-30', '2000-10-31', '2000-11-30', '2000-12-31',
               '2001-01-31', '2001-02-28', '2001-03-31', '2001-04-30',
               '2001-05-31', '2001-06-30', '2001-07-31', '2001-08-31'],
              dtype='datetime64[ns]', name='Date', freq='M')

Tạo index là các khoảng (interval)

In [23]:
tm.makeIntervalIndex(k = 5, name = 'Interval')

IntervalIndex([(0.0, 20.0], (20.0, 40.0], (40.0, 60.0], (60.0, 80.0], (80.0, 100.0]],
              closed='right',
              name='Interval',
              dtype='interval[float64]')

Tạo dataframe hỗn hợp nhiều kiểu dữ liệu:

In [25]:
tm.makeMixedDataFrame()

Unnamed: 0,A,B,C,D
0,0.0,0.0,foo1,2009-01-01
1,1.0,1.0,foo2,2009-01-02
2,2.0,0.0,foo3,2009-01-05
3,3.0,1.0,foo4,2009-01-06
4,4.0,0.0,foo5,2009-01-07


Không chỉ mô phỏng dataframe và index, ta còn mô phỏng được Series, là cấu trúc dữ liệu 1 chiều trong pandas

In [22]:
tm.N = 6
tm.makeFloatSeries(name = "Float_serie")

ZbqM1dT450   -0.127528
L6iIfDvYUe    0.125653
G6IGp7NeUT    0.716625
MB54DbqMWm   -0.179937
lNVEDb5v6u   -1.134447
YI8WU9X6RI    0.948029
Name: Float_serie, dtype: float64

Mô phỏng chuỗi thời gian

In [26]:
tm.makeTimeSeries(nper = 7, freq = "D", name = "Series")

2000-01-01    0.024760
2000-01-02    0.885458
2000-01-03    1.788251
2000-01-04    1.463858
2000-01-05   -0.616507
2000-01-06    0.130840
2000-01-07   -0.157863
Freq: D, Name: Series, dtype: float64

In [27]:
tm.makeObjectSeries(name = 'Obj')

opXuI1uqxW   2000-01-03
ToJlRcTFQE   2000-01-04
LcqXZGmcGO   2000-01-05
I1r3uiCGom   2000-01-06
dAG4eBovjG   2000-01-07
Cobc3Z10TQ   2000-01-10
Name: Obj, dtype: datetime64[ns]

Về nội dung, dữ liệu mô phỏng là giả và vô nghĩa nhưng về hình thức thì lại rất hữu ích, vì chúng thỏa mãn các yếu tố kỹ thuật cho các mục tiêu như:

+ Luyện tập method, function mới
+ Kiểm tra code của chính mình viết
+ Mô tả cấu trúc dữ liệu cho đồng nghiệp khi làm việc nhóm

Ghi chú: Đây là tài liệu cho nhóm Biomedical Data Science Initiatives: 
https://www.facebook.com/groups/1042247899235421/