# Sampling Tingkat Pendapatan Pekerja Informal di DKI Jakarta pada Tahun 2023

**Penulis : Axel Ivanda Tanjung - PACMANN Batch 9**

![title](https://accurate.id/wp-content/uploads/2021/01/accurate.id-Pendapatan-perkapita-Pengertian-Fungsi-Komponen-dan-Cara-Menghitungnya.png)

### A.	Introduction & Background

Gaji pekerja informal di Jakarta sering menjadi permasalahan karena mereka tidak memiliki hak dan perlindungan yang sama seperti pekerja formal. Beberapa masalah utama adalah sebagai berikut:
1.	Gaji yang tidak memadai: Banyak pekerja informal di Jakarta yang tidak menerima gaji yang memadai dan tidak seimbang dengan jumlah jam kerja mereka. Mereka sering terpaksa bekerja lebih dari satu pekerjaan untuk memenuhi kebutuhan hidup mereka.
2.	Tidak adanya jaminan sosial: Pekerja informal di Jakarta jarang memiliki akses untuk layanan jaminan sosial seperti asuransi kesehatan dan pensiun. Ini berarti bahwa mereka tidak memiliki jaminan bantuan jika mereka mengalami masalah kesehatan atau menjelang pensiun.
3.	Tidak adanya hak pekerja: Pekerja informal sering kali tidak memiliki hak pekerja yang sama seperti pekerja formal, seperti cuti tahunan, waktu istirahat, dan hak untuk berkumpul dan berserikat.
4.	Stabilitas kerja yang tidak terjamin: Pekerja informal di Jakarta sering kali tidak memiliki kontrak kerja dan tidak memiliki jaminan stabilita kerja. Ini berarti bahwa mereka bisa saja dipecat kapan saja tanpa alasan yang jelas.
5.	Diskriminasi: Banyak pekerja informal di Jakarta mengalami diskriminasi dan stigmatisasi dari masyarakat dan pemberi kerja karena status mereka sebagai pekerja informal.

Berdasarkan hal tersebut, penulis akan melakukan perancangan sampling terhadap tingkat pendapatan pekerja informa DKI Jakarta pada tahun 2023 untuk selanjutnya akan di analisis oleh stakeholder terkait ketahanan kelompok pekerja tersebut menghadapi potensi krisis ekomomi kedepannya. Harapan yang dapat dicapai dari penelitian tersebut adalah didapatkan parameter polulasi untuk tingkat pendapatan berupa rata-rata (mean) dan sebaran (variance) yang nanti dapat digunakan untuk keperluan public policy.

### B.	Import Package

In [158]:
# Load data manipulation package
import numpy as np
import pandas as pd
import math
import copy

# Load data visualization package
import matplotlib.pyplot as plt
import seaborn as sns

# Load statistic package
from scipy import stats

import 

### C.	Load Dataset

In [337]:
# Load dataset
prior_2021_rev = pd.read_csv('Pendapatan_2021_BPS.csv')
prior_2021_percent = pd.read_csv('Informal_2021_BPS.csv')
prior_2021_strata = pd.read_csv('Strata_Pendidikan_2021_BPS.csv')
prior_2021_kota = pd.read_csv('Strata_Kota_2021_BPS.csv')
prior_2021_kec = pd.read_csv('Strata_Kecamatan_2021_BPS.csv')

### D.	Cleansing Dataset

In [85]:
#Cleasing dataset untuk kolom "Rata-rata"
rev_kota_2021 = prior_2021_rev.loc[0:6,["Kabupaten/Kota","Rata-rata"]]
rev_kota_2021["Rata-rata"] = rev_kota_2021["Rata-rata"].str.replace(",","")
rev_kota_2021["Rata-rata"] = rev_kota_2021["Rata-rata"].str.strip()
rev_kota_2021["Rata-rata"] = rev_kota_2021["Rata-rata"].astype(float)
rev_kota_2021

Unnamed: 0,Kabupaten/Kota,Rata-rata
0,Kepulauan Seribu,1938617.4
1,Jakarta Selatan,2575959.43
2,Jakarta Timur,2530202.31
3,Jakarta Pusat,2593224.37
4,Jakarta Barat,2711186.59
5,Jakarta Utara,2849107.24
6,DKI Jakarta,2647851.61


### E.	Rancangan Sampling

*•	Populasi*

Populasi untuk penelitian ini terdiri dari beberapa tahapan diantaranya sebagai berikut
-	Populasi tahap 1 : Seluruh kabupaten/kota di DKI Jakarta untuk masing-masing strata
-	Populasi tahap 2 : Seluruh kecamatan di kabupaten/kota di DKI Jakarta
-	Populasi tahap 3 : Seluruh pekerja informal di kecamatan di DKI Jakarta

*•	Populasi target*

Populasi target adalah seluruh populasi merupakan pekerja informal di DKI Jakarta

*•	Kerangka sampel (sampling frame)*

Untuk mendapatkan informasi dari populasi, penulis menggunakan data dari https://jakarta.bps.go.id/ berdasarkan Survey Angkatan Kerja Nasional (Sakernas) tahun 2021

*•	Unit sampling*

Untuk penelitian terkait tingkat pendapatan pekerja informal, diambil sampel berdasarkan unit berikut:
-	Unit pertama : kabupaten/kota di DKI Jakarta untuk masing-masing strata
-	Unit kedua : kecamatan di kabupaten/kota di DKI Jakarta
-	Unit ketiga : pekerja informal di kecamatan di DKI Jakarta

*•	Unit observasi*

Pada kasus ini, unit observasi adalah pekerja informal di DKI Jakarta karena objek tersebut yang akan di ambil data tingkat pendapatan bulanannya.

*•	Unit analisis*

Karena kita ingin melihat tingkat pendapatan dari pekerja informal di DKI Jakarta, maka unit analisa digunakan pada tingkat unit pekerja informal

*•	Karakeristik yang diteliti*

Karena karakeristik yang diteliti adalah tingkat pendapatan dari pekerja informal di DKI Jakarta. Maka karakter yang ingin diteliti adalah tingkat pendapatan

*•	Nilai karakteristik yang diestimasi*

Nilai karakteristik yang diestimasi adalah rata-rata pendapatan, proporsi pendapatan, dan total pendapatan

*•	Metode sampling*

Metode sampling yang digunakan adalah gabungan dari stratifikasi, cluster sampling dan probability proportional to size atau biasa dikenal sebagai multistage sampling karena untuk mengakomodir strata tingkat pendapatan terhadap tingkat pendidikan diperlukan stratified sampling dan kabupaten/kota, sedangkan cluster sampling dilakukan untuk memilih cluster kecamatan mana yang akan digunakan dalam sampling. Selanjutnya dilakukan pengambilan sample dengan metode SRS.


### F.  Estimasi Kebutuhan Jumlah Sample

Secara garis besar, terdapat 4 tahapan dalam sampling ini **(Multistage Sampling)**

a.	Tahap 1: Membagi populasi ke dalam 4 strata (Stratified Sampling Tahap 1)

b.	Tahap 2 : Membagi populasi ke dalam 6 strata (Stratified Sampling Tahap 2)

c.	Tahap 3 : Cluster sampling pada tahap 1 di masing-masing strata (Kecamatan)

d.	Tahap 4 : Pengambilan sample dengan SRS

#### Tahap 1: Membagi populasi ke dalam 4 strata (Stratified Sampling Tahap 1)

Pembagian ini dilakukan dikarenakan asumsi awal bahwa terdapat perbedaan tingkat pendapatan berdasarkan tingkat pendidikannya. Sehingga populasi dibagi menjadi Tidak Pernah Sekolah / Tidak Lulus SD, SD/MI, SMP/MTs, dan SMA. Pesentase srata didapatkan dari data BPS DKI Jakarta.

Total biaya sampling didapatkan dari persamaan berikut

$$
C = c_{0} + c_{1}n + c_{2}nm
$$

In [120]:
# Digunakan beberapa asumsi untuk pehitungan
c0 = 5_000_000
c1 = 100_000
c2 = 100_000
N = 6
n_ = 6
M = 1000
nm = 1000


$$
m_{\text{opt}} = \sqrt{
\cfrac{c_{1} \sigma_{w}^{2}}
{c_{2} \left( \sigma_{b}^{2} - \cfrac{\sigma_{w}^{2}}{\bar{M}} \right)}
}
$$

$$
\sigma_{b}^{2} = \cfrac{1}{N-1} \sum_{i=1}^{N} (\mu_{i} - \mu)^{2}
$$

$$
\sigma_{w}^{2} = \cfrac{1}{N} \sum_{i=1}^{N} \sigma_{i}^{2}
$$

Kita dapat menghitung variansi dari tingkat pendapatan menggunakan prior information yang merupakan data dari BPS DKI Jakarta pada tahun 2021. Dengan data tersebut didapatkan nilai berikut:

In [89]:
# mencari nilai rata-rata pendapatan di DKI Jakarta
rev_dki_2021 = rev_kota_2021.loc[6::,["Rata-rata"]]
rev_dki_2021 = rev_dki_2021["Rata-rata"].values[0]

In [93]:
rev_kota_2021["Variance"] = (rev_kota_2021["Rata-rata"]-rev_dki_2021)**2

In [99]:
rev_kota_2021

Unnamed: 0,Kabupaten/Kota,Rata-rata,Variance
0,Kepulauan Seribu,1938617.4,503013200000.0
1,Jakarta Selatan,2575959.43,5168486000.0
2,Jakarta Timur,2530202.31,13841360000.0
3,Jakarta Pusat,2593224.37,2984135000.0
4,Jakarta Barat,2711186.59,4011320000.0
5,Jakarta Utara,2849107.24,40503830000.0
6,DKI Jakarta,2647851.61,0.0


Selanjutnya dilakukan perhitungan untuk mencari σ_b^2 dan σ_w^2

In [110]:
# Mencari nilai dari sigma_b^2 dan  sigma_w^2
sigma_b = (1/(N-1))*(rev_kota_2021["Variance"].sum())
sigma_w = (1/(N))*(rev_kota_2021["Variance"].sum())
print("Nilai dai sigma_b^2 adalah", sigma_b)
print("Nilai dai sigma_w^2 adalah", sigma_w)

Nilai dai sigma_b^2 adalah 113904458323.65628
Nilai dai sigma_w^2 adalah 94920381936.38022


Asumsi untuk nilai c_o adalah Rp. 5.000.000 yang merupakan gaji untuk pegawai survey. Lalu di asumsikan nilai dari c_1dan c_2 untuk PSU dan SSU adalah Rp 100.000. Berdasarkan asumsi bahwa nilai M adalah 1.000 untuk data prior, maka didapatkan

In [118]:
# Mencari nilai dari m_opt
m_opt = math.sqrt(c1*sigma_w/(c2*(sigma_b-(sigma_w/M))))
print("Nilai dai m_opt adalah", round(m_opt,3))

Nilai dai m_opt adalah 0.913


Selanjutnya, dilakukan perhitungan untuk mendapatkan total allocation cost (C) dengan nilai PSU sebanyak 6 (N sesuai dengan jumlah kabupaten) dan asumsi jumlah SSU disample data prior adalah 1.000 (Tidak tercantum di data BPS) sehingga dapat dihitung sebagai berikut:

In [127]:
# Menghitung nilai dari C
C = c0 + c1*n_+c2*nm
print("Nilai dai C adalah Rp.",C)

Nilai dai C adalah Rp. 105600000


Dengan nilai C didapat, maka jumlah sampel yang dibutuhkan dapat dihitung menggunakan persamaan berikut:

$$
n = \cfrac{C - c_{0}}{c_{1} + c_{2} m_{\text{opt}}}
$$

In [152]:
# Menghitung nilai n
n = (C-c0)/(c1+c2*m_opt)
n = math.ceil(n)
print("Total dari sample adalah", n)

Total dari sample adalah 526


In [170]:
# melakukan copy untuk strata sekolah
df_2021_strata = copy.copy(prior_2021_strata)

In [172]:
df_2021_strata["Persentase (%)"] = df_2021_strata["Persentase (%)"]/100

In [175]:
# Membagi sample berdasarkan strata sekolah
df_2021_strata["Total Sample"] = round(df_2021_strata["Persentase (%)"]*n,0)

Total dari sample tersebut akan dibagi ke dalam strata pertama untuk kelompok tingkat Pendidikan menggunakan *proportional allocation* dan didapatkan jumlah sample sebagai berikut: 

In [176]:
df_2021_strata

Unnamed: 0,No,Strata Pendidikan,Persentase (%),Total Sample
0,1,Tidak Sekolah,0.1074,56.0
1,2,SD / MI,0.1334,70.0
2,3,SMP / Mts,0.0603,32.0
3,4,SMA ke Atas,0.6989,368.0


#### Tahap 2 : Membagi populasi ke dalam 6 strata (Stratified Sampling Tahap 2)

Pembagian ini dilakukan dikarenakan asumsi awal bahwa terdapat perbedaan tingkat pendapatan berdasarkan kabupaten/kota. Sehingga populasi dibagi menjadi Kepulauan Seribu, Jakata Selatan, Jakarta Timur, Jakarta Pusat, Jakarta Barat, dan Jakarta Utara. Jumlah sampel yang akan digunakan menggunakan *proportional allocation*

In [178]:
prior_2021_kota

Unnamed: 0,Kabupaten/Kota,Presentase
0,Kepulauan Seribu,0.27
1,Jakarta Selatan,21.05
2,Jakarta Timur,28.81
3,Jakarta Pusat,10.05
4,Jakarta Barat,23.0
5,Jakarta Utara,16.82
6,DKI Jakarta,100.0


In [208]:
tingkat_pendidikan = df_2021_strata["Strata Pendidikan"].values.tolist()
kota_dki = prior_2021_kota["Kabupaten/Kota"].values.tolist()

In [226]:
rancang_sampling = pd.DataFrame({'Strata Pendidikan' : ['Tidak Sekolah','Tidak Sekolah','Tidak Sekolah','Tidak Sekolah','Tidak Sekolah','Tidak Sekolah',
                                                        'SD / MI','SD / MI','SD / MI','SD / MI','SD / MI','SD / MI',
                                                        'SMP / Mts','SMP / Mts','SMP / Mts','SMP / Mts','SMP / Mts','SMP / Mts',
                                                        'SMA ke Atas','SMA ke Atas','SMA ke Atas','SMA ke Atas','SMA ke Atas','SMA ke Atas'],
                                 'Kabupaten/Kota' : ['Kepulauan Seribu','Jakarta Selatan', 'Jakarta Timur', 'Jakarta Pusat', 'Jakarta Barat', 'Jakarta Utara',
                                                     'Kepulauan Seribu','Jakarta Selatan', 'Jakarta Timur', 'Jakarta Pusat', 'Jakarta Barat', 'Jakarta Utara',
                                                     'Kepulauan Seribu','Jakarta Selatan', 'Jakarta Timur', 'Jakarta Pusat', 'Jakarta Barat', 'Jakarta Utara',
                                                     'Kepulauan Seribu','Jakarta Selatan', 'Jakarta Timur', 'Jakarta Pusat', 'Jakarta Barat', 'Jakarta Utara',]})

Unnamed: 0,Strata Pendidikan,Kabupaten/Kota
0,Tidak Sekolah,Kepulauan Seribu
1,Tidak Sekolah,Jakarta Selatan
2,Tidak Sekolah,Jakarta Timur
3,Tidak Sekolah,Jakarta Pusat
4,Tidak Sekolah,Jakarta Barat
5,Tidak Sekolah,Jakarta Utara
6,SD / MI,Kepulauan Seribu
7,SD / MI,Jakarta Selatan
8,SD / MI,Jakarta Timur
9,SD / MI,Jakarta Pusat


In [264]:
rancang_sampling["Total Sample"] = round((prior_2021_kota["Presentase"].iloc[0:6]/100)*df_2021_strata["Total Sample"][0])

In [265]:
rancang_sampling["Total Sample"].iloc[6:12] = round((prior_2021_kota["Presentase"].iloc[0:6]/100)*df_2021_strata["Total Sample"][1])

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  rancang_sampling["Total Sample"].iloc[6:12] = round((prior_2021_kota["Presentase"].iloc[0:6]/100)*df_2021_strata["Total Sample"][1])


In [266]:
rancang_sampling["Total Sample"].iloc[12:18] = round((prior_2021_kota["Presentase"].iloc[0:6]/100)*df_2021_strata["Total Sample"][2])

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  rancang_sampling["Total Sample"].iloc[12:18] = round((prior_2021_kota["Presentase"].iloc[0:6]/100)*df_2021_strata["Total Sample"][2])


In [267]:
rancang_sampling["Total Sample"].iloc[18:24] = round((prior_2021_kota["Presentase"].iloc[0:6]/100)*df_2021_strata["Total Sample"][3])

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  rancang_sampling["Total Sample"].iloc[18:24] = round((prior_2021_kota["Presentase"].iloc[0:6]/100)*df_2021_strata["Total Sample"][3])


In [271]:
#melakukan penyesuaian total sample (pembulatan dan akibat Kep. Seribu bernilai 0)
rancang_sampling["Total Sample"][0] = 1 
rancang_sampling["Total Sample"][3] = 5 
rancang_sampling["Total Sample"][6] = 1 
rancang_sampling["Total Sample"][12] = 1
rancang_sampling["Total Sample"][13] = 6

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  rancang_sampling["Total Sample"][0] = 1
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  rancang_sampling["Total Sample"][3] = 5
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  rancang_sampling["Total Sample"][6] = 1
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  rancang_sampling["Total Sample"][12] = 1
A value

Selanjutnya, nilai dari sample dihitung berdasarkan strata ratio yang tertera pada kondisi diatas sehingga didapatkan masing-masing sebagai berikut:

In [272]:
rancang_sampling

Unnamed: 0,Strata Pendidikan,Kabupaten/Kota,Total Sample
0,Tidak Sekolah,Kepulauan Seribu,1.0
1,Tidak Sekolah,Jakarta Selatan,12.0
2,Tidak Sekolah,Jakarta Timur,16.0
3,Tidak Sekolah,Jakarta Pusat,5.0
4,Tidak Sekolah,Jakarta Barat,13.0
5,Tidak Sekolah,Jakarta Utara,9.0
6,SD / MI,Kepulauan Seribu,1.0
7,SD / MI,Jakarta Selatan,15.0
8,SD / MI,Jakarta Timur,20.0
9,SD / MI,Jakarta Pusat,7.0


#### Tahap 3 : Cluster sampling pada tahap 1 di masing-masing strata (Kecamatan)

Pembagian jumlah cluster kecamatan yang digunakan untuk sampling dihitung menggunakan perhitungan rancang design cluster sampling.

In [278]:
#Menghitung Clutering Tahap ke 3 untuk tiap kecamatan
sample_kota = rancang_sampling.groupby(["Kabupaten/Kota"]).sum()
sample_kota

Unnamed: 0_level_0,Total Sample
Kabupaten/Kota,Unnamed: 1_level_1
Jakarta Barat,121.0
Jakarta Pusat,52.0
Jakarta Selatan,110.0
Jakarta Timur,151.0
Jakarta Utara,88.0
Kepulauan Seribu,4.0


In [298]:
#Menghitung nilai M masing-masing kota
M_sample_ks = sample_kota.iloc[5][0]
M_sample_js = sample_kota.iloc[2][0]
M_sample_jt = sample_kota.iloc[3][0]
M_sample_jp = sample_kota.iloc[1][0]
M_sample_jb = sample_kota.iloc[0][0]
M_sample_ju = sample_kota.iloc[4][0]
M_sample_kec = [M_sample_ks, M_sample_js, M_sample_jt, M_sample_jp, M_sample_jb, M_sample_ju]
M_sample_kec

[4.0, 110.0, 151.0, 52.0, 121.0, 88.0]

In [299]:
#Menghitung nilai N masing-masing kota
prior_2021_kec["M Kecamatan"] = M_sample_kec

In [300]:
prior_2021_kec

Unnamed: 0,Kabupaten/Kota,Jumlah Kecamatan,M Kecamatan
0,Kepulauan Seribu,2,4.0
1,Jakarta Selatan,10,110.0
2,Jakarta Timur,10,151.0
3,Jakarta Pusat,8,52.0
4,Jakarta Barat,8,121.0
5,Jakarta Utara,6,88.0


In [301]:
#Asumsi nilai dari B
B = 15_000_000

In [302]:
rev_kota_2021["y"] =  rev_kota_2021["Rata-rata"][0:6]*prior_2021_kec["M Kecamatan"]

In [307]:
rev_kota_2021["miu x m"] = rev_dki_2021*prior_2021_kec["M Kecamatan"]

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  rev_kota_2021["y"][6] = 0
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  rev_kota_2021["miu x m"][6] = 0


In [322]:
rev_kota_2021["(y-miu x m)^2"] = rev_kota_2021["y"] - rev_kota_2021["miu x m"]
rev_kota_2021["(y-miu x m)^2"] = rev_kota_2021["(y-miu x m)^2"]**2

In [323]:
rev_kota_2021["sigma c"] = rev_kota_2021["(y-miu x m)^2"]/(prior_2021_kec["Jumlah Kecamatan"]-1)

In [325]:
rev_kota_2021["D"] = B**2/(4*prior_2021_kec["Jumlah Kecamatan"]**2)

In [330]:
rev_kota_2021["n"] = round((prior_2021_kec["Jumlah Kecamatan"]*rev_kota_2021["sigma c"])/(prior_2021_kec["Jumlah Kecamatan"]*rev_kota_2021["D"]+rev_kota_2021["sigma c"]))

In [334]:
#Adjustment pada nilai n Kepulauan Seribu
rev_kota_2021["y"][6] = 0
rev_kota_2021["miu x m"][6] = 0
rev_kota_2021["sigma c"][6] = 0
rev_kota_2021["D"][6] = 0
rev_kota_2021["n"][6] = 0
rev_kota_2021["n"][0] = 1

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  rev_kota_2021["y"][6] = 0
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  rev_kota_2021["miu x m"][6] = 0
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  rev_kota_2021["sigma c"][6] = 0
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  rev_kota_2021["D"][6] = 0
A value is trying to be set on a copy of a slice fro

In [340]:
rev_kota_2021

Unnamed: 0,Kabupaten/Kota,Rata-rata,Variance,y,miu x m,(y-miu x m)^2,sigma c,D,n
0,Kepulauan Seribu,1938617.4,503013200000.0,7754470.0,10591410.0,8048211000000.0,8048211000000.0,14062500000000.0,1.0
1,Jakarta Selatan,2575959.43,5168486000.0,283355500.0,291263700.0,62538680000000.0,6948742000000.0,562500000000.0,6.0
2,Jakarta Timur,2530202.31,13841360000.0,382060500.0,399825600.0,315596800000000.0,35066310000000.0,562500000000.0,9.0
3,Jakarta Pusat,2593224.37,2984135000.0,134847700.0,137688300.0,8069102000000.0,1152729000000.0,878906200000.0,1.0
4,Jakarta Barat,2711186.59,4011320000.0,328053600.0,320390000.0,58729730000000.0,8389962000000.0,878906200000.0,4.0
5,Jakarta Utara,2849107.24,40503830000.0,250721400.0,233010900.0,313661600000000.0,62732330000000.0,1562500000000.0,5.0
6,DKI Jakarta,2647851.61,0.0,0.0,0.0,0.0,0.0,0.0,0.0


#### Tahap 4 : Pengambilan sample dengan SRS

Berikut merupakan hasil dari rekapitulasi untuk rancang sampling dengan pembagian disesuaikan dengan rancangan sampling dan perhitungan diatas

In [348]:
rancang_sampling["Total Kecamatan yang disampling"] = rev_kota_2021["n"][0:6]

In [350]:
rancang_sampling["Total Kecamatan yang disampling"][6:12] = rev_kota_2021["n"][0:6]

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  rancang_sampling["Total Kecamatan yang disampling"][6:12] = rev_kota_2021["n"][0:6]


In [352]:
rancang_sampling["Total Kecamatan yang disampling"][12:18] = rev_kota_2021["n"][0:6]

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  rancang_sampling["Total Kecamatan yang disampling"][12:18] = rev_kota_2021["n"][0:6]


In [354]:
rancang_sampling["Total Kecamatan yang disampling"][18:24] = rev_kota_2021["n"][0:6]

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  rancang_sampling["Total Kecamatan yang disampling"][18:24] = rev_kota_2021["n"][0:6]


In [357]:
rancang_sampling

Unnamed: 0,Strata Pendidikan,Kabupaten/Kota,Total Sample,Total Kecamatan yang disampling
0,Tidak Sekolah,Kepulauan Seribu,1.0,1.0
1,Tidak Sekolah,Jakarta Selatan,12.0,6.0
2,Tidak Sekolah,Jakarta Timur,16.0,9.0
3,Tidak Sekolah,Jakarta Pusat,5.0,1.0
4,Tidak Sekolah,Jakarta Barat,13.0,4.0
5,Tidak Sekolah,Jakarta Utara,9.0,5.0
6,SD / MI,Kepulauan Seribu,1.0,1.0
7,SD / MI,Jakarta Selatan,15.0,6.0
8,SD / MI,Jakarta Timur,20.0,9.0
9,SD / MI,Jakarta Pusat,7.0,1.0


In [356]:
#berdasarkan perhtiungan dan adjusment didapatkan sample per cluster
per_kecamatan = [[1],[2,2,2,2,2,2],[2,2,2,2,2,2,2,1,1],[5],[3,3,3,4],[2,2,2,2,1],
                 [1],[2,2,2,3,3,3],[2,2,2,2,2,2,2,3,3],[7],[4,4,4,4],[2,2,2,3,3],
                 [1],[1,1,1,1,1,1],[1,1,1,1,1,1,1,1,1],[3],[1,2,2,2],[1,1,1,1,1],
                 [1],[12,13,13,13,13,13],[12,12,12,12,12,12,12,11,11],[37],[21,21,21,22],[12,12,12,13,13]]

In [359]:
rancang_sampling["Pembagian per Kecamatan"] = per_kecamatan
rancang_sampling

Unnamed: 0,Strata Pendidikan,Kabupaten/Kota,Total Sample,Total Kecamatan yang disampling,Pembagian per Kecamatan
0,Tidak Sekolah,Kepulauan Seribu,1.0,1.0,[1]
1,Tidak Sekolah,Jakarta Selatan,12.0,6.0,"[2, 2, 2, 2, 2, 2]"
2,Tidak Sekolah,Jakarta Timur,16.0,9.0,"[2, 2, 2, 2, 2, 2, 2, 1, 1]"
3,Tidak Sekolah,Jakarta Pusat,5.0,1.0,[5]
4,Tidak Sekolah,Jakarta Barat,13.0,4.0,"[3, 3, 3, 4]"
5,Tidak Sekolah,Jakarta Utara,9.0,5.0,"[2, 2, 2, 2, 1]"
6,SD / MI,Kepulauan Seribu,1.0,1.0,[1]
7,SD / MI,Jakarta Selatan,15.0,6.0,"[2, 2, 2, 3, 3, 3]"
8,SD / MI,Jakarta Timur,20.0,9.0,"[2, 2, 2, 2, 2, 2, 2, 3, 3]"
9,SD / MI,Jakarta Pusat,7.0,1.0,[7]


Tabel diatas merupakan output akhir terhadap rancang sampling yang akan dilaksanakan. Masing-masing kecamatan terplot berdasarkan pergitungan kebutuhan sample

### G.  Estimasi Kebutuhan Jumlah Sample

Metode yang digunakan untuk pengumpulan data adalah menggunakan telepon atau menggunakan online messenger. Metode pengumpulan data melalui sampling dengan telepon adalah salah satu cara untuk mengumpulkan data melalui telepon. Ini adalah metode populer untuk melakukan survei dan penelitian pasar, karena relatif lebih murah dan lebih cepat daripada metode lain seperti wawancara langsung atau pengiriman kuesioner.

Untuk menggunakan metode ini, pertama-tama harus dibuat daftar sampel yang akan ditelpon. Sampel ini dapat diambil secara acak dari populasi yang ingin diteliti. Setelah itu, surveyor atau interviewer akan menelpon setiap nomor telepon dalam sampel tersebut dan mengajukan serangkaian pertanyaan yang diperlukan untuk mengumpulkan data.

Beberapa hal yang perlu diperhatikan dalam metode ini adalah:
1.	Validitas sampel: pastikan bahwa sampel yang diambil benar-benar mewakili populasi yang ingin diteliti.
2.	Kemampuan interviewer: interviewer harus memiliki kemampuan yang baik dalam mengelola wawancara telepon dan memastikan bahwa jawaban dari responden valid dan akurat.
3.	Biaya: meskipun relatif lebih murah daripada metode lain, biaya masih bisa menjadi faktor yang signifikan tergantung pada jumlah sampel yang ingin diteliti.
4.	Responden tidak tersedia: beberapa responden mungkin tidak tersedia atau tidak bersedia untuk berpartisipasi dalam wawancara telepon.
5.	Keabsahan jawaban: jawaban yang diberikan oleh responden mungkin kurang akurat karena mereka mungkin tidak ingin membuka diri atau kurang nyaman dengan wawancara melalui telepon.

Meskipun memiliki beberapa keterbatasan, metode pengumpulan data melalui sampling dengan telepon tetap menjadi pilihan yang populer karena kemudahannya dan biaya yang lebih rendah. Berdasarkan analisis sampling tersebut dapat dilakukan karena menurut Survei Sosial Ekonomi Nasional (Susenas) yang dilakukan oleh Badan Pusat Statistik (BPS) pada bulan Maret 2019 penggunaan smartphone telah mencapai 84,32% di DKI Jakarta. Dengan telepon dan online messenger, dilakukan wawancara oleh surveyor terkait data umum seperti NIK, Nama, Alamat, Jumlah Keluarga Tertanggung, Nama Pekerjaan, dan Pendapatan Bulanan.


### H.	Metode Estimasi Parameter

Setelah dilakukan sampling berdasarkan rencana yang telah dipaparkan diatas, data hasil sampling tersebut dapat digunakan untuk melakukan estimasi dari populasi tingkat pendapatan dari pekerja informal di DKI Jakarta. Adapun parameter yang dilakukan inferensi adalah total, mean, dan varians.

Untuk rumusan lebih lengkap sudah tertera pada link medium berikut : 

https://medium.com/@axelivandatanjung/sampling-tingkat-pendapatan-pekerja-informal-di-dki-jakarta-pada-tahun-2023-372ec3cfe1d7

### I.	Analisa

Berdasarkan hasil dari rancang sampling diatas, dapat disimpulkan bahwa:

1.	Prior knowledge sangat dibutuhkan dalam proses perancangan sampling untuk mempermudah dalam memberikan asumsi nilai terhadap parameter dalam sampling
2.	Berdasarkan hasil dari rancang sampling, digunakan multistage sampling dengan stratifikasi pertama menggunakan tingkat Pendidikan, stratifikasi kedua terkait kabupaten/kota, cluster sampling pada tingkat kecamatan, dan simple random sampling pada tingkat paling bawah
3.	Berdasarkan perhitungan rancang sampling, diperlukan setidaknya 526 sample untuk mendapatkan gambaran statistic terkait tingkat pendapatkan pekerja informal di DKI Jakarta dimana total sample tersebut tergolong masuk akal
4.	Biaya yang dikeluarkan untuk melaksanakan sampling ini adalah Rp. 105.600.000 yang terdiri dari fixed cost sebesar Rp. 5.000.000 dan biaya sampling tingkat PSU dan SSU sebesar Rp. 100.000 per sample dimana nilai tersebut masih tergolong affordable untuk instansi pemerintahan dalam kebutuhan survey. Biaya per survey tersebut masih merupakan asumsi “worst case” dimana biaya tersebut masih dapat dikurangi hingga 70-80%
5.	Untuk melaksanakan sampling ini, digunakan metode telepon dan online messenger untuk menayakan besaran pendapatan peserta survey tiap bulannya. Sehingga penggunaan sumber daya dan pengalokasian surveyor akan lebih fleksibel.

Keunggulan dari rancang sampling yang dilakukan adalah:

1.	Stratifikasi sampling yang jelas sehingga dapat dilakukan inferensi juga terhadap masing-masing kabupaten/kota di DKI Jakarta
2.	Multi stage sampling relative lebih murah dan efisien dibandingkan dengan SRS karena target populasi yang besar dan tersebar dari segi geografi
3.	Metode ini tergolong fleksibel dalam menggunakan metode sampling apapun

Kelemahan dari rancang sampling yang dilakukan adalah:

1.	Dibandingkan dengan SRS, diperlukan sample size lebih besar pada sample multi-stage untuk memperoleh statistical inference yang sama
2.	Pemilihan metode sampling terbaik di setiap stage subyektif, sehingga perlu alasan yang jelas untuk menghindari pengambilan keputusan yang bias
3.	Dapat menyebabkan sample tidak representative karena sebagian besar populasi mungkin tidak terpilih dalam pengambilan populasi, berpotensi mengarah ke bias undercoverage dan bias seleksi



### J.	Kesimpulan

1.	Untuk melakukan sampling tingkat pendapatan pekerja infomal di DKI Jakarta pada tahun 2023, diperlukan sample sebesar 526 orang yang di stratifikasi berdasarkan tingkat Pendidikan dan kota tempat tinggalnya (Multi Stage Sampling)
2.	Biaya yang dikeluakan untuk melakukan sampling ini adalah Rp. 105.600.000 dan masih dapat dilakukan optimasi lagi
3.	Sampling ini dilakukan menggunakan metode telepon atau online massager
4.	Keuntungan menggunakan metode ini adalah lebih murah dan efisien untuk target populasi yang tersebar secara geografis
5.	Kekurangan dari metode ini adalah diperlukan sample size yang besar, dan terdapat potensi bias akibat sample yang tidak representatif


### K.	Referensi

https://jakarta.bps.go.id/publication/2022/02/25/5979600247867d861a1f334c/provinsi-dki-jakarta-dalam-angka-2022.html