# **Pandas 18 - Membentuk dummy Data Frame**

### Import Modules

In [5]:
import pandas as pd
import numpy as np

print(pd.__version__)
print(np.__version__)

2.1.1
1.24.2


### Membentuk Data Frame dari Dictionary

In [6]:
pd.DataFrame({'col1':[1, 2, 3, 4], 
              'col2':[5, 6, 7, 8]})

Unnamed: 0,col1,col2
0,1,5
1,2,6
2,3,7
3,4,8


### Membentuk Data Frame dari Numpy Array

In [7]:
# Menentukan jumlah baris (n_rows) dan kolom (n_cols) dalam array
n_rows = 5
n_cols = 3

# Menghasilkan array 2D dengan nilai acak dari 1 hingga 20
arr = np.random.randint(1, 20, size=(n_rows, n_cols))

# Menampilkan array yang telah dibuat
arr

array([[12, 10, 15],
       [ 6,  4,  7],
       [ 8, 17,  8],
       [ 5, 15, 10],
       [18,  7,  1]])

In [8]:
# Menggunakan library pandas untuk membuat data frame dari array (arr)
# Menetapkan label kolom 'A', 'B', dan 'C' pada data frame menggunakan tuple('ABC')
df = pd.DataFrame(arr, columns=tuple('ABC'))

### Membentuk Data Frame dengan Memanfaatkan pandas.util.testing
*1. Membuat dummy dataframe*

In [9]:
# Membuat data frame dummy dengan waktu menggunakan pd.date_range
# dan menambahkan kolom dengan nilai acak menggunakan numpy
date_rng = pd.date_range(start='2023-01-01', end='2023-01-05', freq='D')
df = pd.DataFrame(date_rng, columns=['Date'])
df['value'] = np.random.randint(1, 100, size=(len(date_rng)))

# Menampilkan lima data awal dari data frame
result = df.reset_index(drop=True)
print(result)

        Date  value
0 2023-01-01     81
1 2023-01-02     74
2 2023-01-03     58
3 2023-01-04     76
4 2023-01-05     22


*2. Membuat dummy dataframe dengan tipe data yang berbeda*

In [10]:
# Membuat dummy dataframe dengan tipe data yang berbeda
data = {
    'col1': np.random.randint(1, 100, size=5),
    'col2': np.random.rand(5),
    'col3': ['A', 'B', 'C', 'D', 'E'],
    'col4': pd.date_range(start='2023-01-01', periods=5, freq='D'),
    'col5': [True, False, True, False, True]
}

# Membuat dataframe dari kamus data
df = pd.DataFrame(data)

# Menampilkan lima data awal dari dataframe
df.head()

Unnamed: 0,col1,col2,col3,col4,col5
0,10,0.161284,A,2023-01-01,True
1,52,0.696449,B,2023-01-02,False
2,98,0.876159,C,2023-01-03,True
3,44,0.63703,D,2023-01-04,False
4,41,0.6588,E,2023-01-05,True


*3. Membuat dummy dataframe yang berisi time series data*

In [11]:
# Membuat indeks dengan deret waktu menggunakan pd.date_range
date_index = pd.date_range(start='2000-01-03', periods=5, freq='D')

# Membuat dataframe dengan nilai acak
df = pd.DataFrame(np.random.randn(5, 4), index=date_index, columns=['A', 'B', 'C', 'D'])

# Menampilkan lima data awal dari dataframe
df.head()

Unnamed: 0,A,B,C,D
2000-01-03,-0.73636,-0.456435,0.55426,-0.232226
2000-01-04,1.648071,0.278885,-0.636215,1.196401
2000-01-05,0.643444,0.964064,-1.24919,-1.078904
2000-01-06,0.916769,0.097315,-1.446029,-0.91592
2000-01-07,0.619339,-0.118122,0.049548,-0.434976


*4. Membuat dummy dataframe dengan beberapa missing value yang ditempatkan secara acak*

In [12]:
# Membuat indeks dan kolom untuk dataframe
index = ['WmDnD0VgHq', 'oK5aIeQDwO', 'kRIH8XgQXB', 'xOQltmT4oD', '6QBa6ZnCaP']
columns = ['A', 'B', 'C', 'D']

# Membuat dataframe dengan nilai acak
df = pd.DataFrame(np.random.randn(5, 4), index=index, columns=columns)

# Menetapkan beberapa nilai sebagai NaN secara acak
random_indices = np.random.choice(df.size, replace=False, size=int(df.size * 0.2))
df.values.flat[random_indices] = np.nan

# Menampilkan lima data awal dari dataframe
df.head()

Unnamed: 0,A,B,C,D
WmDnD0VgHq,1.140141,0.743373,0.559723,1.001264
oK5aIeQDwO,0.600068,,0.997585,
kRIH8XgQXB,0.816349,-1.550421,2.004505,-2.147276
xOQltmT4oD,-0.770811,1.407143,0.342782,
6QBa6ZnCaP,-1.988255,-1.054597,-0.999648,
