<div style="text-align: center; font-size:30px; font-weight: bold;">
    Scraping and Extracting Job Listings for Data Scientist Roles from Glints 
</div>


<div style="text-align: center; font-size:20px; font-weight: bold;">
    MOH. KHISANUL FAKHRUDIN AKBAR (JCDS 0512)
</div>

---

# Background

Dalam pasar pekerjaan digital yang terus berkembang, platform seperti Glints menawarkan berbagai peluang pekerjaan untuk profesional, termasuk di bidang spesialis seperti data science. Namun, proses pencarian dan pengumpulan data pekerjaan secara manual dari platform tersebut bisa memakan waktu dan tidak efisien. Proyek ini bertujuan untuk mengotomatiskan proses pengambilan data pekerjaan untuk peran tertentu, seperti Data Scientist, dari situs web Glints menggunakan Selenium. Dengan mengekstraksi data pekerjaan yang mendetail, termasuk judul pekerjaan, deskripsi, kisaran gaji, dan informasi relevan lainnya, tujuan proyek ini adalah untuk mempercepat proses bagi peneliti, pencari kerja, dan analis data dalam mengumpulkan serta menganalisis tren pasar kerja, persyaratan keterampilan, dan data pekerjaan lainnya secara real-time.

Tujuan Utama:

1. Mengotomatiskan pengambilan data pekerjaan dari Glints untuk peran Data Scientist menggunakan Selenium dan Python.
1. Mengumpulkan detail pekerjaan seperti judul pekerjaan, gaji, keterampilan yang dibutuhkan, dan deskripsi pekerjaan.
1. Menyimpan data yang diambil dalam Google Big Query untuk analisis dan referensi di masa depan.
1. Menyusun tren dan pola di pasar pekerjaan, dengan fokus pada profesi Data Scientist, termasuk kisaran gaji, keterampilan yang banyak dicari, dan distribusi geografis.

Proyek ini akan menyediakan kerangka kerja untuk pengumpulan dan analisis data pekerjaan secara otomatis, menghemat waktu bagi profesional dan perusahaan yang membutuhkan data semacam itu untuk penelitian atau keperluan rekrutmen.

# Data Understanding

Data dalam dataset ini dikumpulkan melalui web scraping dari situs Glints. Scraper menggunakan Selenium WebDriver untuk mengotomatisasi proses penelusuran dan ekstraksi data. Selenium digunakan untuk login, mencari lowongan pekerjaan, dan mengekstrak detail seperti judul pekerjaan, gaji, keterampilan yang dibutuhkan, dan metadata lainnya terkait setiap posting lowongan pekerjaan.

Proses:
1. Login: Scraper pertama-tama login ke Glints menggunakan kredensial yang sudah ditentukan.
2. Pencarian: Setelah login, scraper mencari pekerjaan dengan judul "Data Scientist".
3. Scraping: Setelah halaman hasil pencarian dimuat, scraper mengekstrak semua link lowongan pekerjaan yang tersedia.
4. Ekstraksi Detail: Untuk setiap link lowongan pekerjaan, informasi detail pekerjaan (misalnya, nama pekerjaan, kisaran gaji, keterampilan) diekstrak.
5. Penyimpanan Data: Data yang sudah diambil disimpan dalam file CSV, termasuk metadata seperti timestamp yang menunjukkan kapan data diambil.

Dataset yang diberikan berisi data lowongan pekerjaan untuk posisi yang terkait dengan "Data Scientist" dari Glints, sebuah portal pekerjaan di Indonesia. Data ini diperoleh melalui web scraping dari halaman lowongan kerja Glints di Indonesia. Berikut adalah penjelasan kolom-kolom yang ada dalam dataset ini:

1. Job Name: Judul pekerjaan (misalnya Data Scientist, Lead Data Scientist, dll.)
2. Job Type: Jenis pekerjaan yang ditawarkan (misalnya Full Time, Kontrak, Hybrid, dll.)
3. Salary Range: Kisaran gaji yang diberikan untuk pekerjaan tersebut, sering kali disertai dengan satuan (misalnya, "IDR7.000.000 - 10.000.000/Bulan").
4. Salary Min: Gaji minimum untuk pekerjaan tersebut.
5. Salary Max: Gaji maksimum untuk pekerjaan tersebut.
6. Skills Requirements: Keterampilan yang dibutuhkan untuk pekerjaan tersebut (misalnya Python, SQL, AWS).
7. Education Requirements: Tingkat pendidikan minimal yang dibutuhkan untuk pekerjaan tersebut (misalnya, "Minimal Sarjana (S1)").
8. Experience Requirements: Pengalaman kerja yang diperlukan (misalnya, "1 - 3 tahun pengalaman").
9. Other Requirements: Persyaratan lain seperti batasan usia atau keterampilan khusus lainnya.
10. Province: Provinsi tempat pekerjaan tersebut berada (misalnya, DKI Jakarta, Yogyakarta, Banten).
11. City: Kota tempat pekerjaan tersebut berada (misalnya, Jakarta Selatan, Tangerang Selatan).
12. District: Kecamatan dalam kota tempat pekerjaan tersebut berada (misalnya, Tebet, Ciputat).
13. Company Name: Nama perusahaan yang menawarkan pekerjaan tersebut.
14. Company Industry: Industri perusahaan (misalnya, Teknologi Informasi, Telekomunikasi).
15. Company Size: Ukuran perusahaan berdasarkan jumlah karyawan (misalnya, 51 - 200 karyawan).
16. Last Post: Waktu ketika pekerjaan terakhir diposting atau diperbarui.
17. Post Time: Tanggal dan waktu ketika pekerjaan tersebut diposting.
18. Obtained: Tanggal dan waktu saat data diambil (yaitu, saat web scraping dilakukan).
19. URL: URL yang mengarah ke halaman lowongan pekerjaan yang spesifik.

In [2]:
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

import pandas_gbq
from google.oauth2 import service_account

from dotenv import dotenv_values

In [3]:
df = pd.read_csv("../data/(RAW) data_Data Scientist_job.csv", parse_dates=['post_time', 'obtained'])
df.head()

Unnamed: 0,job_name,job_type,salary_range,salary_min,salary_max,skills_requirements,education_requirements,experience_requirements,another_requirements,province,city,district,company name,company_industry,company_size,last_post,post_time,obtained,url
0,Data Scientist,Kontrak · Kerja di kantor,Unspecified,,,"SPSS Statistics, TensorFlow, Python, SQL, Sent...",Minimal Sarjana (S1),1 - 3 tahun pengalaman,,DKI Jakarta,Jakarta Selatan,Tebet,PT Neural Technologies Indonesia (Official),Information Technology and Services,51 - 200 karyawan,5 bulan yang lalu,2024-11-13 17:28:02,2025-04-13 17:28:02,https://glints.com/id/opportunities/jobs/data-...
1,Data Scientist,Penuh Waktu · Hybrid,IDR7.000.000 - 10.000.000/Bulan,7000000.0,10000000.0,"Python, SQL, Amazon Web Services (AWS)",Minimal Sarjana (S1),1 - 3 tahun pengalaman,,DI Yogyakarta,Kab. Sleman,Kapanewon Depok,JALA,Fishery,51 - 200 karyawan,1 bulan yang lalu,2025-03-13 17:28:05,2025-04-13 17:28:05,https://glints.com/id/opportunities/jobs/data-...
2,Data Scientist,Penuh Waktu · Kerja di kantor,IDR4.900.000 - 8.000.000/Bulan,4900000.0,8000000.0,"Data Analytics, Python, SQL, Machine Learning",Minimal Sarjana (S1),3 - 5 tahun pengalaman,,Banten,Tangerang Selatan,Ciputat,PlusPro QS,Construction,11 - 50 karyawan,19 hari yang lalu,2025-03-25 17:28:12,2025-04-13 17:28:12,https://glints.com/id/opportunities/jobs/data-...
3,Lead of Data Scientist,Kontrak · Kerja di kantor,IDR10.000.000 - 14.000.000/Bulan,10000000.0,14000000.0,"SQL Query, Python, Data Analytics, Team Leader...",Minimal Sarjana (S1),5 - 10 tahun pengalaman,,Jawa Timur,Surabaya,Gayungan,PT Sarana Maju Lestari,Telecommunications,51 - 200 karyawan,25 hari yang lalu,2025-03-19 17:28:17,2025-04-13 17:28:17,https://glints.com/id/opportunities/jobs/lead-...
4,Full Stack Data Scientist,Kontrak · Kerja di kantor,IDR20.000.000 - 25.000.000/Bulan,20000000.0,25000000.0,"IT Security, Cloud Computing, Power BI, Amazon...",Minimal Sarjana (S1),3 - 5 tahun pengalaman,25-54 tahun,DKI Jakarta,Jakarta Selatan,Mampang Prapatan,Skolla EdTech,E-Learning,51 - 200 karyawan,27 hari yang lalu,2025-03-17 17:28:22,2025-04-13 17:28:22,https://glints.com/id/opportunities/jobs/full-...


In [4]:
print(f"Dataset ini memiliki jumlah baris: {df.shape[0]}, dan jumlah kolom: {df.shape[1]}")
df.info()

Dataset ini memiliki jumlah baris: 508, dan jumlah kolom: 19
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 508 entries, 0 to 507
Data columns (total 19 columns):
 #   Column                   Non-Null Count  Dtype         
---  ------                   --------------  -----         
 0   job_name                 508 non-null    object        
 1   job_type                 508 non-null    object        
 2   salary_range             508 non-null    object        
 3   salary_min               411 non-null    float64       
 4   salary_max               411 non-null    float64       
 5   skills_requirements      289 non-null    object        
 6   education_requirements   508 non-null    object        
 7   experience_requirements  508 non-null    object        
 8   another_requirements     289 non-null    object        
 9   province                 508 non-null    object        
 10  city                     508 non-null    object        
 11  district                 508 non-nul

In [5]:
print("Jumlah baris kosong disetiap kolom:")
missing_value = df.isnull().sum()
# missing_value = missing_value[missing_value>0]
missing_value

Jumlah baris kosong disetiap kolom:


job_name                     0
job_type                     0
salary_range                 0
salary_min                  97
salary_max                  97
skills_requirements        219
education_requirements       0
experience_requirements      0
another_requirements       219
province                     0
city                         0
district                     0
company name                 0
company_industry             7
company_size                 0
last_post                    0
post_time                    0
obtained                     0
url                          0
dtype: int64

In [6]:
display(df.describe(), df.describe(include='object'))

Unnamed: 0,salary_min,salary_max,post_time,obtained
count,411.0,411.0,508,508
mean,3787754.0,5541730.0,2025-02-24 18:22:35.072834816,2025-04-13 17:49:16.647638016
min,600000.0,1000001.0,2023-04-13 17:45:44,2025-04-13 17:28:02
25%,2100000.0,3300000.0,2025-03-13 18:01:31.500000,2025-04-13 17:37:47.249999872
50%,3386588.0,4900000.0,2025-03-25 17:55:29,2025-04-13 17:47:16.500000
75%,5000000.0,6500000.0,2025-04-08 17:47:20,2025-04-13 18:03:01.500000
max,20000000.0,25000000.0,2025-04-13 16:07:30,2025-04-13 18:12:33
std,2415504.0,3607466.0,,


Unnamed: 0,job_name,job_type,salary_range,skills_requirements,education_requirements,experience_requirements,another_requirements,province,city,district,company name,company_industry,company_size,last_post,url
count,508,508,508,289,508,508,289,508,508,508,508,501,508,508,508
unique,406,14,193,281,7,5,131,25,82,212,290,72,8,43,508
top,Data Analyst,Penuh Waktu · Kerja di kantor,Unspecified,"Microsoft Excel, Corporate Finance, Teamwork, ...",Minimal SMA/SMK,1 - 3 tahun pengalaman,Laki-laki saja,DKI Jakarta,Jakarta Selatan,Setiabudi,PT. Artha Dana Teknologi (Indodana),Information Technology and Services,11 - 50 karyawan,1 bulan yang lalu,https://glints.com/id/opportunities/jobs/baris...
freq,13,347,64,2,208,293,29,177,76,27,19,69,194,48,1


In [7]:
df.isna().sum()

job_name                     0
job_type                     0
salary_range                 0
salary_min                  97
salary_max                  97
skills_requirements        219
education_requirements       0
experience_requirements      0
another_requirements       219
province                     0
city                         0
district                     0
company name                 0
company_industry             7
company_size                 0
last_post                    0
post_time                    0
obtained                     0
url                          0
dtype: int64

In [8]:
pd.reset_option('display.max_colwidth')
# pd.set_option('display.max_colwidth', None)

listItem = []
for col in df.columns :
    listItem.append([col, df[col].dtypes, df[col].isna().sum(), df[col].nunique(), df[col].unique()])

tabel1Desc = pd.DataFrame(columns=['Column Name', 'type', 'null' , 'Number of Unique', 'Unique Sample'], data=listItem)
tabel1Desc

Unnamed: 0,Column Name,type,null,Number of Unique,Unique Sample
0,job_name,object,0,406,"[Data Scientist, Lead of Data Scientist, Full ..."
1,job_type,object,0,14,"[Kontrak · Kerja di kantor, Penuh Waktu · Hybr..."
2,salary_range,object,0,193,"[Unspecified, IDR7.000.000 - 10.000.000/Bulan,..."
3,salary_min,float64,97,69,"[nan, 7000000.0, 4900000.0, 10000000.0, 200000..."
4,salary_max,float64,97,66,"[nan, 10000000.0, 8000000.0, 14000000.0, 25000..."
5,skills_requirements,object,219,281,"[SPSS Statistics, TensorFlow, Python, SQL, Sen..."
6,education_requirements,object,0,7,"[Minimal Sarjana (S1), Minimal Diploma (D1 - D..."
7,experience_requirements,object,0,5,"[1 - 3 tahun pengalaman, 3 - 5 tahun pengalama..."
8,another_requirements,object,219,131,"[nan, 25-54 tahun, 20-35 tahun, 22-30 tahun, 2..."
9,province,object,0,25,"[DKI Jakarta, DI Yogyakarta, Banten, Jawa Timu..."


Insight:
* salary min dan salary max: Kolom ini memiliki tipe data float64 dan memiliki 97 nilai kosong. Hal ini mungkin menunjukkan bahwa gaji minimum dan maksimum tidak selalu tercantum pada setiap pekerjaan, atau informasi gaji tersebut tidak disediakan oleh beberapa perusahaan.
* Kolom ini memiliki 219 nilai kosong, yang mungkin berarti bahwa informasi keterampilan yang dibutuhkan tidak selalu disediakan untuk semua pekerjaan. Hal ini perlu diperhatikan karena bisa mempengaruhi analisis terkait keterampilan yang dibutuhkan dalam pekerjaan tersebut.
* another requirements: Kolom ini memiliki 219 nilai kosong, yang menunjukkan bahwa beberapa pekerjaan tidak mencantumkan persyaratan tambahan seperti batasan usia, jenis kelamin, atau lainnya.

# Cleaning

## skills requirements

Alasan untuk menghapus baris yang memiliki nilai kosong pada kolom `skills requirements `adalah karena banyaknya nilai kosong pada kolom tersebut (219 baris), yang disebabkan oleh masalah dalam proses scraping, di mana tidak semua halaman pekerjaan memuat informasi keterampilan yang diperlukan. Baris-baris dengan nilai kosong ini dapat mengganggu analisis dan visualisasi data karena dapat menyebabkan distorsi dalam interpretasi. Menghapus baris dengan data yang tidak lengkap akan meningkatkan kualitas dataset dan memastikan visualisasi yang lebih akurat dan representatif. Dengan cara ini, analisis dan visualisasi akan lebih fokus pada data yang memiliki informasi yang lengkap, sehingga memberikan gambaran yang lebih jelas tentang keterampilan yang dibutuhkan dalam berbagai pekerjaan.

In [9]:
# drop baris na pada kolom skills requirements
df = df.dropna(subset=['skills_requirements'])

## salary min dan salary max

Unspecified

In [10]:
filtered_df = df[df['salary_min'].isna() & (df['salary_range'] == 'Unspecified')]
# filtered_df.head()

In [11]:
df.loc[df['salary_min'].isna() & (df['salary_range'] == 'Unspecified'), ['salary_min', 'salary_max']] = 0


In [12]:
df.loc[filtered_df.index].head()

Unnamed: 0,job_name,job_type,salary_range,salary_min,salary_max,skills_requirements,education_requirements,experience_requirements,another_requirements,province,city,district,company name,company_industry,company_size,last_post,post_time,obtained,url
0,Data Scientist,Kontrak · Kerja di kantor,Unspecified,0.0,0.0,"SPSS Statistics, TensorFlow, Python, SQL, Sent...",Minimal Sarjana (S1),1 - 3 tahun pengalaman,,DKI Jakarta,Jakarta Selatan,Tebet,PT Neural Technologies Indonesia (Official),Information Technology and Services,51 - 200 karyawan,5 bulan yang lalu,2024-11-13 17:28:02,2025-04-13 17:28:02,https://glints.com/id/opportunities/jobs/data-...
6,Data Analyst,Penuh Waktu · Kerja di kantor,Unspecified,0.0,0.0,"English Language, Python, SQL, A/B Testing",Minimal Sarjana (S1),3 - 5 tahun pengalaman,,DKI Jakarta,Jakarta Selatan,Setiabudi,Glints,Human Resources,501 - 1000 karyawan,6 hari yang lalu,2025-04-07 17:28:31,2025-04-13 17:28:31,https://glints.com/id/opportunities/jobs/data-...
17,Data Analyst,Kontrak · Kerja di kantor,Unspecified,0.0,0.0,"Microsoft Excel, Data Analytics, Statistical D...",Minimal SMA/SMK,1 - 3 tahun pengalaman,19-27 tahun,Jawa Barat,Bogor,Bogor Timur,PT Optima Winwin Solution,Retail,11 - 50 karyawan,20 hari yang lalu,2025-03-24 17:29:23,2025-04-13 17:29:23,https://glints.com/id/opportunities/jobs/data-...
19,Data Analyst,Penuh Waktu · Kerja di kantor,Unspecified,0.0,0.0,"Microsoft Excel, Statistical Data Analysis, Da...",Minimal Sarjana (S1),1 - 3 tahun pengalaman,,DKI Jakarta,Jakarta Barat,Cengkareng,PT HI-COOK Indonesia,Consumer Goods,Unspecified,23 hari yang lalu,2025-03-21 17:29:30,2025-04-13 17:29:30,https://glints.com/id/opportunities/jobs/data-...
25,Data Analyst,Kontrak · Kerja di kantor,Unspecified,0.0,0.0,"Analytical Skills, Statistical Data Analysis, ...",Minimal Sarjana (S1),Pengalaman kurang dari 1 tahun,20-30 tahun,Banten,Tangerang Selatan,Pondok Aren,PT. Ebdesk Teknologi,Information Technology and Services,Unspecified,1 bulan yang lalu,2025-03-13 17:29:54,2025-04-13 17:29:54,https://glints.com/id/opportunities/jobs/data-...


In [13]:
salary_mina = df[df['salary_min'].isna()]
salary_mina.index

Index([ 30,  46,  49,  53, 103, 140, 167, 171, 183, 206, 210, 234, 277, 314,
       379, 389, 468, 477, 495, 500],
      dtype='int64')

In [14]:
df["salary_min"] = df["salary_min"].fillna(df["salary_range"].str.extract(r'IDR([\d\.]+)\/Bulan')[0].str.replace('.', '').astype(float))
df["salary_max"] = df["salary_max"].fillna(df["salary_range"].str.extract(r'IDR([\d\.]+)\/Bulan')[0].str.replace('.', '').astype(float))

In [15]:
df.loc[salary_mina.index].head()

Unnamed: 0,job_name,job_type,salary_range,salary_min,salary_max,skills_requirements,education_requirements,experience_requirements,another_requirements,province,city,district,company name,company_industry,company_size,last_post,post_time,obtained,url
30,Data Analyst,Penuh Waktu · Kerja di kantor,IDR100.000/Bulan,100000.0,100000.0,"Data Analytics, Relational Databases, Data Entry",Minimal Diploma (D1 - D4),1 - 3 tahun pengalaman,,Jawa Barat,Bandung,Bandung Wetan,Shafira Corporation (SHAFCO),Retail,501 - 1000 karyawan,1 tahun yang lalu,2024-04-13 17:30:17,2025-04-13 17:30:17,https://glints.com/id/opportunities/jobs/data-...
46,Data Analyst Production,Kontrak · Kerja di kantor,IDR1.000.000/Bulan,1000000.0,1000000.0,"Potential Fit, Administration, Microsoft Excel...",Minimal SMA/SMK,1 - 3 tahun pengalaman,20-35 tahun,Jawa Barat,Bandung,Andir,CV SENG LIE,Food Production,51 - 200 karyawan,4 hari yang lalu,2025-04-09 17:31:50,2025-04-13 17:31:50,https://glints.com/id/opportunities/jobs/data-...
49,Data Processing Manager,Penuh Waktu · Hybrid,IDR11.000.000/Bulan,11000000.0,11000000.0,"Microsoft Excel, Data Analytics, SQL, Surveying",Minimal Sarjana (S1),3 - 5 tahun pengalaman,,DKI Jakarta,Jakarta Selatan,Cilandak,INTAGE Indonesia,Research,11 - 50 karyawan,17 hari yang lalu,2025-03-27 17:32:01,2025-04-13 17:32:01,https://glints.com/id/opportunities/jobs/data-...
53,Admin Input Data,Penuh Waktu · Kerja di kantor,IDR1.500.000/Bulan,1500000.0,1500000.0,"Microsoft Office, Administration, Teamwork, Re...",Minimal SMA/SMK,1 - 3 tahun pengalaman,20-30 tahun,Jawa Tengah,Surakarta,Serengan,Grandma's Recipe,Restaurants,1 - 10 karyawan,24 hari yang lalu,2025-03-20 17:32:22,2025-04-13 17:32:22,https://glints.com/id/opportunities/jobs/admin...
103,Data Enrichment Intern,Magang · Hybrid,IDR1.000.000/Bulan,1000000.0,1000000.0,"Attention to Detail, Google Sheets, Data Entry...",Minimal Diploma (D1 - D4),Pengalaman kurang dari 1 tahun,20-24 tahun,DKI Jakarta,Jakarta Pusat,Tanah Abang,Zuzu Hospitality,Hospitality,51 - 200 karyawan,2 hari yang lalu,2025-04-11 17:35:55,2025-04-13 17:35:55,https://glints.com/id/opportunities/jobs/data-...


In [28]:
df["experience_requirements"].value_counts()

experience_requirements
1 - 3 tahun pengalaman            167
Pengalaman kurang dari 1 tahun     81
3 - 5 tahun pengalaman             26
5 - 10 tahun pengalaman             8
No Requirement                      7
Name: count, dtype: int64

In [17]:
df.isna().sum()

job_name                     0
job_type                     0
salary_range                 0
salary_min                   0
salary_max                   0
skills_requirements          0
education_requirements       0
experience_requirements      0
another_requirements       125
province                     0
city                         0
district                     0
company name                 0
company_industry             4
company_size                 0
last_post                    0
post_time                    0
obtained                     0
url                          0
dtype: int64

# another requirements

In [18]:
another = df[df["another_requirements"].isnull()]
another.index

Index([  0,   1,   2,   3,   5,   6,  14,  19,  20,  22,
       ...
       449, 452, 453, 464, 468, 470, 483, 490, 491, 496],
      dtype='int64', length=125)

In [19]:
df["another_requirements"] = df["another_requirements"].fillna("No other requirements")

In [20]:
df.loc[another.index].head()

Unnamed: 0,job_name,job_type,salary_range,salary_min,salary_max,skills_requirements,education_requirements,experience_requirements,another_requirements,province,city,district,company name,company_industry,company_size,last_post,post_time,obtained,url
0,Data Scientist,Kontrak · Kerja di kantor,Unspecified,0.0,0.0,"SPSS Statistics, TensorFlow, Python, SQL, Sent...",Minimal Sarjana (S1),1 - 3 tahun pengalaman,No other requirements,DKI Jakarta,Jakarta Selatan,Tebet,PT Neural Technologies Indonesia (Official),Information Technology and Services,51 - 200 karyawan,5 bulan yang lalu,2024-11-13 17:28:02,2025-04-13 17:28:02,https://glints.com/id/opportunities/jobs/data-...
1,Data Scientist,Penuh Waktu · Hybrid,IDR7.000.000 - 10.000.000/Bulan,7000000.0,10000000.0,"Python, SQL, Amazon Web Services (AWS)",Minimal Sarjana (S1),1 - 3 tahun pengalaman,No other requirements,DI Yogyakarta,Kab. Sleman,Kapanewon Depok,JALA,Fishery,51 - 200 karyawan,1 bulan yang lalu,2025-03-13 17:28:05,2025-04-13 17:28:05,https://glints.com/id/opportunities/jobs/data-...
2,Data Scientist,Penuh Waktu · Kerja di kantor,IDR4.900.000 - 8.000.000/Bulan,4900000.0,8000000.0,"Data Analytics, Python, SQL, Machine Learning",Minimal Sarjana (S1),3 - 5 tahun pengalaman,No other requirements,Banten,Tangerang Selatan,Ciputat,PlusPro QS,Construction,11 - 50 karyawan,19 hari yang lalu,2025-03-25 17:28:12,2025-04-13 17:28:12,https://glints.com/id/opportunities/jobs/data-...
3,Lead of Data Scientist,Kontrak · Kerja di kantor,IDR10.000.000 - 14.000.000/Bulan,10000000.0,14000000.0,"SQL Query, Python, Data Analytics, Team Leader...",Minimal Sarjana (S1),5 - 10 tahun pengalaman,No other requirements,Jawa Timur,Surabaya,Gayungan,PT Sarana Maju Lestari,Telecommunications,51 - 200 karyawan,25 hari yang lalu,2025-03-19 17:28:17,2025-04-13 17:28:17,https://glints.com/id/opportunities/jobs/lead-...
5,Lead Data Scientist/Senior Analytics Specialist,Penuh Waktu · Kerja di kantor,IDR8.000.000 - 15.000.000/Bulan,8000000.0,15000000.0,"Ai Applications, Research And Innovation, Mach...",Minimal Sarjana (S1),5 - 10 tahun pengalaman,No other requirements,DKI Jakarta,Jakarta Selatan,Setiabudi,Greater Group Indonesia,Design,11 - 50 karyawan,19 hari yang lalu,2025-03-25 17:28:26,2025-04-13 17:28:26,https://glints.com/id/opportunities/jobs/lead-...


In [21]:
df.isna().sum()

job_name                   0
job_type                   0
salary_range               0
salary_min                 0
salary_max                 0
skills_requirements        0
education_requirements     0
experience_requirements    0
another_requirements       0
province                   0
city                       0
district                   0
company name               0
company_industry           4
company_size               0
last_post                  0
post_time                  0
obtained                   0
url                        0
dtype: int64

In [22]:
df["company_industry"].value_counts().reset_index()

Unnamed: 0,company_industry,count
0,Information Technology and Services,36
1,Retail,33
2,Financial Services,25
3,Outsourcing/Offshoring,21
4,Human Resources,15
...,...,...
58,Facilities Services,1
59,Import and Export,1
60,Machinery,1
61,Consumer Electronics,1


In [23]:
df["skills_requirements"].str.split(",",expand=True).stack().str.strip().value_counts()

Teamwork                          106
Microsoft Excel                    69
Data Analytics                     52
Communication Skills               50
Administration                     43
                                 ... 
Budgeting                           1
Microsoft Outlook                   1
Interior Design                     1
Sertifikat Gada Pratama             1
Chinese-Indonesian Translation      1
Name: count, Length: 405, dtype: int64

In [24]:
pd.reset_option('display.max_colwidth')
listItem = []
for col in df.columns :
    listItem.append([col, df[col].dtypes, df[col].isna().sum(), df[col].nunique(), df[col].unique()])

NewDesc = pd.DataFrame(columns=['Column Name', 'type','null', 'Number of Unique', 'Unique Sample'], data=listItem)
NewDesc

Unnamed: 0,Column Name,type,null,Number of Unique,Unique Sample
0,job_name,object,0,241,"[Data Scientist, Lead of Data Scientist, Full ..."
1,job_type,object,0,12,"[Kontrak · Kerja di kantor, Penuh Waktu · Hybr..."
2,salary_range,object,0,135,"[Unspecified, IDR7.000.000 - 10.000.000/Bulan,..."
3,salary_min,float64,0,60,"[0.0, 7000000.0, 4900000.0, 10000000.0, 200000..."
4,salary_max,float64,0,53,"[0.0, 10000000.0, 8000000.0, 14000000.0, 25000..."
5,skills_requirements,object,0,281,"[SPSS Statistics, TensorFlow, Python, SQL, Sen..."
6,education_requirements,object,0,7,"[Minimal Sarjana (S1), Minimal Diploma (D1 - D..."
7,experience_requirements,object,0,5,"[1 - 3 tahun pengalaman, 3 - 5 tahun pengalama..."
8,another_requirements,object,0,91,"[No other requirements, 25-54 tahun, 20-35 tah..."
9,province,object,0,21,"[DKI Jakarta, DI Yogyakarta, Banten, Jawa Timu..."


In [25]:
table_skill = df["skills_requirements"].str.split(",",expand=True).stack().str.strip().value_counts().reset_index()
table_skill

Unnamed: 0,index,count
0,Teamwork,106
1,Microsoft Excel,69
2,Data Analytics,52
3,Communication Skills,50
4,Administration,43
...,...,...
400,Budgeting,1
401,Microsoft Outlook,1
402,Interior Design,1
403,Sertifikat Gada Pratama,1


# GBQ

In [26]:
env_data = dotenv_values("../privacy/.env")

# ---- BigQuery Configuration
# Get from Google Cloud Dashboard (Overview -> Dashboard)
project_id = env_data.get("PROJECT_ID")
# Dataset ID kita buat sendiri
dataset_id = env_data.get("DATASET_ID")
# file jshon credential path yg didownload tadi
key_path = env_data.get("KEY_PATH")

# ---- Credential configuration
scopes = ["https://www.googleapis.com/auth/bigquery"]
credentials = service_account.Credentials.from_service_account_file(filename=key_path, scopes=scopes) 

print("Google BigQuery Configuration")
print(f"Project ID: {project_id}")
print(f"Dataset ID: {dataset_id}")
print(f"Key Path: {key_path}")

Google BigQuery Configuration
Project ID: arctic-thought-454003-n9
Dataset ID: glints_scraping
Key Path: ../privacy/arctic-thought-454003-n9-a06c959bfe5d.json


In [27]:
# list_table = {"Glints": df, 
#             "Skills": table_skill}

# for table_name, table in list_table.items():
#     # Upload DataFrame to BigQuery
#     pandas_gbq.to_gbq(
#         dataframe=table,
#         destination_table=f"{dataset_id}.{table_name}",
#         project_id=project_id,
#         if_exists="replace",
#         credentials=credentials
#     )
#     print(f"Table {table_name} uploaded successfully!")