# Impor library

In [75]:
import pandas as pd

# Load Data

In [76]:
df = pd.read_csv('data_urut_dengan_kode.csv')

In [77]:
df

Unnamed: 0,id,nama
0,BELI-195,Data BELI-195
1,RETUR-153,Data RETUR-153
2,JUAL-415,Data JUAL-415
3,JUAL-74,Data JUAL-74
4,RETUR-263,Data RETUR-263
...,...,...
1473,RETUR-264,Data RETUR-264
1474,RETUR-197,Data RETUR-197
1475,JUAL-86,Data JUAL-86
1476,BELI-423,Data BELI-423


# Lihat kolom id
Untuk mendapatkan gambaran **id** menggunakan pola seperti apa

In [78]:
df['id'].unique()

array(['BELI-195', 'RETUR-153', 'JUAL-415', ..., 'JUAL-86', 'BELI-423',
       'JUAL-67'], dtype=object)

Kolom id berisi menggunakan format **KODE-ANGKA**, kita pastikan dengan:<br>
<ol>
    <li>mengambil huruf yang digunakan</li>
    <li>mengambil karakter non alphanumeric (seperti tanda minus) yang digunakan</li>
    </ol>

# Ekstraksi kolom id

## Mengambil huruf

In [79]:
df['id_huruf'] = df['id'].str.extract('([a-zA-Z]+)')

In [80]:
df

Unnamed: 0,id,nama,id_huruf
0,BELI-195,Data BELI-195,BELI
1,RETUR-153,Data RETUR-153,RETUR
2,JUAL-415,Data JUAL-415,JUAL
3,JUAL-74,Data JUAL-74,JUAL
4,RETUR-263,Data RETUR-263,RETUR
...,...,...,...
1473,RETUR-264,Data RETUR-264,RETUR
1474,RETUR-197,Data RETUR-197,RETUR
1475,JUAL-86,Data JUAL-86,JUAL
1476,BELI-423,Data BELI-423,BELI


### Kata apa saja yang digunakan dalam id

In [81]:
df['id_huruf'].unique()

array(['BELI', 'RETUR', 'JUAL'], dtype=object)

## Mengambil karakter selain alphanumeric

In [82]:
df['id_karakter'] = df['id'].str.extract('(\W+)')

In [83]:
df

Unnamed: 0,id,nama,id_huruf,id_karakter
0,BELI-195,Data BELI-195,BELI,-
1,RETUR-153,Data RETUR-153,RETUR,-
2,JUAL-415,Data JUAL-415,JUAL,-
3,JUAL-74,Data JUAL-74,JUAL,-
4,RETUR-263,Data RETUR-263,RETUR,-
...,...,...,...,...
1473,RETUR-264,Data RETUR-264,RETUR,-
1474,RETUR-197,Data RETUR-197,RETUR,-
1475,JUAL-86,Data JUAL-86,JUAL,-
1476,BELI-423,Data BELI-423,BELI,-


### Karakter non alphanumeric apa saja yang digunakan dalam id

In [84]:
df['id_karakter'].unique()

array(['-'], dtype=object)

## Mengambil angka

In [85]:
df['id_angka'] = df['id'].str.extract('(\d+)').astype('int64')

In [86]:
df

Unnamed: 0,id,nama,id_huruf,id_karakter,id_angka
0,BELI-195,Data BELI-195,BELI,-,195
1,RETUR-153,Data RETUR-153,RETUR,-,153
2,JUAL-415,Data JUAL-415,JUAL,-,415
3,JUAL-74,Data JUAL-74,JUAL,-,74
4,RETUR-263,Data RETUR-263,RETUR,-,263
...,...,...,...,...,...
1473,RETUR-264,Data RETUR-264,RETUR,-,264
1474,RETUR-197,Data RETUR-197,RETUR,-,197
1475,JUAL-86,Data JUAL-86,JUAL,-,86
1476,BELI-423,Data BELI-423,BELI,-,423


# Deteksi gap pada masing-masing kode id

## Daftar kode

In [87]:
kode = df['id_huruf'].unique()
kode

array(['BELI', 'RETUR', 'JUAL'], dtype=object)

## Deteksi gap pada kode RETUR

### Ambil hanya transaksi dengan kode RETUR

In [88]:
data = df[df['id_huruf'].str.contains('RETUR')]
data

Unnamed: 0,id,nama,id_huruf,id_karakter,id_angka
1,RETUR-153,Data RETUR-153,RETUR,-,153
4,RETUR-263,Data RETUR-263,RETUR,-,263
6,RETUR-482,Data RETUR-482,RETUR,-,482
8,RETUR-499,Data RETUR-499,RETUR,-,499
13,RETUR-329,Data RETUR-329,RETUR,-,329
...,...,...,...,...,...
1467,RETUR-297,Data RETUR-297,RETUR,-,297
1471,RETUR-129,Data RETUR-129,RETUR,-,129
1472,RETUR-323,Data RETUR-323,RETUR,-,323
1473,RETUR-264,Data RETUR-264,RETUR,-,264


### Dapatkan angka terendah dan tertinggi dari RETUR

In [89]:
data['id_angka'].describe()

count    491.000000
mean     250.411405
std      144.466513
min        1.000000
25%      125.500000
50%      250.000000
75%      375.500000
max      500.000000
Name: id_angka, dtype: float64

### Buat sebuah list berisi angka urut dari angka terendah sampai angka tertinggi dari RETUR

In [90]:
seq = [i for i in range(data['id_angka'].min(), data['id_angka'].max() + 1)]
seq_df = pd.DataFrame(seq, columns=['no'])
seq_df

Unnamed: 0,no
0,1
1,2
2,3
3,4
4,5
...,...
495,496
496,497
497,498
498,499


### Uji seq_df apakah terdapat nomor yang tidak terdapat pada RETUR

In [91]:
seq_df[~seq_df['no'].isin(data['id_angka'])]

Unnamed: 0,no
23,24
47,48
141,142
223,224
294,295
358,359
359,360
421,422
423,424


#### Uji apakah nomor di atas tidak ada pada RETUR

In [92]:
data[(data['id_angka'] > 22) & (data['id_angka'] < 26)]

Unnamed: 0,id,nama,id_huruf,id_karakter,id_angka
489,RETUR-25,Data RETUR-25,RETUR,-,25
754,RETUR-23,Data RETUR-23,RETUR,-,23


In [93]:
data[(data['id_angka'] > 420) & (data['id_angka'] < 426)]

Unnamed: 0,id,nama,id_huruf,id_karakter,id_angka
31,RETUR-423,Data RETUR-423,RETUR,-,423
813,RETUR-421,Data RETUR-421,RETUR,-,421
1069,RETUR-425,Data RETUR-425,RETUR,-,425


# Buat script untuk menguji semua kode

In [94]:
for k in kode:
    print(k)
    data = df[df['id_huruf'].str.contains(k)]
    seq = [i for i in range(data['id_angka'].min(), data['id_angka'].max() + 1)]
    seq_df = pd.DataFrame(seq, columns=['no'])
    display(seq_df[~seq_df['no'].isin(data['id_angka'])])

BELI


Unnamed: 0,no
132,133
139,140
195,196
343,344
408,409
412,413
447,448
484,485


RETUR


Unnamed: 0,no
23,24
47,48
141,142
223,224
294,295
358,359
359,360
421,422
423,424


JUAL


Unnamed: 0,no
80,81
201,202
412,413
466,467
493,494
