# 18 - Membentuk Dummy Data Frame
Ketika mengeksplorasi data science, terkadang kita perlu untuk membuat sebuah dummy data frame. Berikut ini adalah 3 cara untuk membentuk dummy data frame yaitu dari dictionary, numpy array, dan pandas.util.testing.

## Import Modules

### Module yang digunakan :
1. pandas
2. numpy

In [1]:
import pandas as pd
import numpy as np

- Mengecheck versi dari 2 module yang digunakan (pandas dan numpy)

In [2]:
print(pd.__version__)
print(np.__version__)

1.0.5
1.18.5


## Membentuk Data Frame dari Dictionary

Membuat dictionary yang terdiri dari pasangan keys (akan menjadi lebel kolom) dan values (akan menjadi isi dari kolom tersebut).

Ada 2 kolom yang akan terbentuk yaitu col1 yang berisikan nilai 1, 2, 3, dan 4 dan col2 yang berisi nilai 5, 6, 7, dan 8.
> pd.DataFrame({'col1':[1, 2, 3, 4], 
              'col2':[5, 6, 7, 8]})

In [3]:
pd.DataFrame({'col1':[1, 2, 3, 4], 
              'col2':[5, 6, 7, 8]})

Unnamed: 0,col1,col2
0,1,5
1,2,6
2,3,7
3,4,8


## Membentuk Data Frame dari Numpy Array

- Menentukan rows dan cols dari data frame yang akan dibuat.
    - Banyak baris yang dibuat adalah 5
    > n_rows = 5
    - Banyak kolom yang dibuat adalah 3
    > n_cols = 3

- Membentuk numpy array dengan memanggil fungsi *np.random.randint()*

>np.random.randint(1, 20, size=(n_rows, n_cols)), columns=cols) 

    Artinya data frame akan diisi oleh bilangan integer dengan jangkauan 1-20 (1,2,3,...,19) yang dipilih secara random. Kemudian, untuk size yang digunakan ditentukan oleh n_rows dan n_cols.

In [3]:
n_rows = 5
n_cols = 3

arr = np.random.randint(1, 20, size=(n_rows, n_cols))
arr

array([[13,  1, 10],
       [12, 16,  9],
       [ 1,  7,  4],
       [14, 13,  3],
       [16, 15, 14]])

- Membentuk sebuah data frame berdasarkan numpy yang telah dibuat
> pd.DataFrame(arr, columns=tuple('ABC'))

    - *pd.DataFrame()* digunakan untuk membuat data frame
    - parameter *arr* digunakan untuk menjadi acuan pembuatan data frame
    - *columns=tuple('ABC')* untuk memberikan label setiap kolom yaitu 'A', 'B', dan 'C'.

In [4]:
pd.DataFrame(arr, columns=tuple('ABC'))

Unnamed: 0,A,B,C
0,13,1,10
1,12,16,9
2,1,7,4
3,14,13,3
4,16,15,14


## Membentuk Data Frame dengan memanfaatkan pandas.util.testing

- Memanfaatkan *makeDataFrame()* untuk membuat data frame
- Memanggil *head()* untuk menampilkan 5 baris pertama

In [4]:
pd.util.testing.makeDataFrame().head()

  import pandas.util.testing


Unnamed: 0,A,B,C,D
Hd5SH74PL6,-0.332173,0.404423,1.39537,-0.40833
JfFMMMROiI,-0.424206,-0.625769,0.906783,0.274997
4KXvogQLoN,-1.292195,-0.513171,-0.511853,-1.54868
iwF3Vv6RQF,-0.281384,-0.360451,-0.824543,-1.034281
tAQHWvWl5T,0.35645,-0.614993,-0.393825,0.008072


- Jika kita ingin membentuk sebuah data frame dengan datanya yang terdiri dari berbagai tipe data, kita dapat memanfaatkan fungsi *makeMixedDataFrame()*

In [5]:
pd.util.testing.makeMixedDataFrame().head()

Unnamed: 0,A,B,C,D
0,0.0,0.0,foo1,2009-01-01
1,1.0,1.0,foo2,2009-01-02
2,2.0,0.0,foo3,2009-01-05
3,3.0,1.0,foo4,2009-01-06
4,4.0,0.0,foo5,2009-01-07


- Jika kita ingin membentuk time series data frame, yaitu data frame yang datanya terdiri dari data deret waktu, kita dapat memanfaatkan fungsi *makeTimeDataFrame()*

In [6]:
pd.util.testing.makeTimeDataFrame().head()

Unnamed: 0,A,B,C,D
2000-01-03,-0.305387,0.077391,-0.601475,-0.354108
2000-01-04,0.642483,-0.64293,-0.703931,-0.673052
2000-01-05,0.238929,1.665595,0.931077,0.295338
2000-01-06,0.774126,1.216463,1.214313,-0.59746
2000-01-07,-0.652336,-1.5773,-0.818634,1.01894


- Jika kita ingin membentuk sebuah data frame yang terdiri dari beberapa missing value (NaN) yang ditempatkan secara random, kita dapat memanfaatkan fungsi *makeMissingDataFrame()*

In [5]:
pd.util.testing.makeMissingDataframe().head()

  import pandas.util.testing


Unnamed: 0,A,B,C,D
GGCVmq6SyS,-0.9008,1.641978,-0.522516,-0.37023
FnQJv9YEOl,-1.559487,1.081323,1.115368,-1.740537
mXBGJl4FkO,0.231185,0.485985,1.039419,
qOsbC39hg0,-1.51365,-0.259337,0.203615,-2.84709
tg2c0P0GRH,0.10846,0.493215,,2.866179
