## ETL Cleaning Data From SQL Database to Google BigQuery & Spreadsheets

#### Data Source ERD (Entity Relationship Diagram)

![TransactionsDB.png](attachment:TransactionsDB.png)

https://dbdiagram.io/d/Transactions-671081c597a66db9a344b2c7

#### Looker Dashboard Output Example

https://lookerstudio.google.com/u/0/reporting/510f0bd7-265b-400d-9fd4-333a40738dfe/page/21hHE

## **Summary**
### Sumber Data
1. **Database SQL**: Dummy Database from Purwadhika

### Alur Kerja

#### 1. Mengambil Data
**Sumber Data:**
- **Database SQL**: Query SQL digunakan untuk menggabungkan data transaksi dan survei dari tabel-tabel relasional.
- **Query**: Mengambil informasi terkait transaksi (`transact_code`), program (`program_name`, `program_category`), user (`user_email`, `referral_source`), dan survei (`choosing_reason`, `registration_reason`, `other_bootcamps`).

#### 2. Filtering dan Transformasi

- **Data Kolom Waktu**: Pastikan ubah ke datetime dan format ke GMT +7 (WIB), karena value dari database selalu UTC 0
- **Status Transaksi**: Hanya transaksi yang sukses.
- **Study Method**: Hanya perlu Online dan On Campus
- **Referral**: di Kategorikan ulang sesuai dengan form Referral (Darimana kamu mengetahui Purwadhika pertama kali?) terdapat saat user mendaftar pertama kali di website Purwadhika
- **User City**: Pastikan semuanya adalah nama kota atau dianggap luar negri.

**Menambah kolom baru untuk analisis**:
- Menambahkan kolom `student_age` untuk menunjukkan umur student yang mendaftar.

#### 3. Memisahkan Data Survei ke Worksheet / Table Terpisah (tidak dipakai di Looker Dashboardnya)
**Alasan Pemisahan:**
- **choosing_reason**: Menyimpan alasan peserta memilih program.
- **registration_reason**: Menyimpan alasan peserta melakukan registrasi.
- **other_bootcamps**: Menyimpan riwayat bootcamp lain yang pernah diikuti peserta.

Tujuannya adalah untuk mempermudah analisis distribusi, karena valuenya awal hanya dipisahkan dengan 'koma' dan agar data survei tanpa tercampur dengan data transaksi utama.

#### 4. Validasi dan Output
**Langkah-langkah:**
- Memastikan tidak ada anomali atau nilai null pada data hasil pembersihan.
- Menyimpan hasil ke:
  - **File CSV**: Sebagai backup lokal.
  - **Google Sheets**: Dibagi dalam worksheet berdasarkan kategori data. (tidak dipakai untuk sekarang)
  - **BigQuery**: Untuk analisis skala besar di platform Google Cloud. (data source untuk Looker Dashboardnya)

### Persiapan Sebelum Menjalankan

#### 1. Buat API Key JSON untuk Google Cloud
**Langkah-langkah pembuatan API Key JSON untuk Google Sheets dan BigQuery:**
1. Masuk ke Google Cloud Console.
2. Pilih atau buat project baru.
3. Aktifkan Google Sheets API dan BigQuery API.
4. Buka menu **Credentials** > **Create Credentials** > **Service Account**.
5. Isi nama service account, pilih role **Editor** untuk Google Sheets dan **BigQuery Admin** untuk BigQuery.
6. Buat dan unduh key JSON, lalu simpan di direktori utama repository Anda (contoh: `google_api_key.json`).

#### 2. Konfigurasi Notebook
- Pastikan file JSON sudah ada di folder utama.
- Tambahkan path file JSON di notebook:

```python
api_key_path = 'google_api_key.json'

- Tetapi di notebook kita kali ini tidak menggunakan file json, melainkan langsung disimpan credentialnya di notebooknya (di variable "credentials_info")


#### Import Libraries

In [1]:
import pandas as pd
from sqlalchemy import create_engine
import warnings

pd.set_option('display.max_columns', 500)
pd.set_option('display.max_rows', 2000)
pd.set_option('display.width', 1000)
pd.set_option('max_colwidth', 500)
warnings.filterwarnings("ignore", category=FutureWarning)

In [2]:
# Database connection
db_user = 'root'
db_password = 'CV01_Miku'  # Replace with your MySQL root password
db_host = 'localhost'
db_port = '3306'
db_name = 'dummy_transaction_purwadhika'  # Database name

# Create the engine
engine = create_engine(f'mysql+pymysql://{db_user}:{db_password}@{db_host}:{db_port}/{db_name}')

#### **Getting Transactions, Programs, Branches, Students, etc from MySQL Database**

    Sebelumnya tolong dilihat dan dipahami struktur data di https://dbdiagram.io/d/Transactions-671081c597a66db9a344b2c7 biar lebih paham Querynya

In [3]:
# Query to fetch data from the database
query = '''
SELECT
    t.code AS transact_code,
    t.invoice_created_at,
    t.created_at AS transaction_created_date,
    t.user_code,
    t.subtotal_amount,
    t.total_discount_amount,
    t.final_price,
    t.receivable_amount,
    t.created_by,
    t.invoice_code,
    t.order_confirmation_code,

    pt.quantity,
    ts.label AS transaction_status,
    ph.label AS program_name,
    b.label AS branch_name,
    pc.label AS program_category,
    sm.label AS study_method,
    ss.label AS study_schedule,

    p.program_start_date,
    p.program_end_date,
    p.program_start_time,
    p.program_end_time,
    p.program_days,

    u.referral_source,
    u.user_email,
    u.user_city,
    u.birth_date,

    tq.registration_reason,
    tq.time_knowing_program,
    tq.choosing_reason,
    tq.content_source,
    tq.other_bootcamps,
    tq.first_time_knowledge,
    tq.informative_website,
    tq.admission_score

FROM transact t
LEFT JOIN transactstatus ts ON ts.code = t.transaction_status_code
LEFT JOIN programtransact pt ON t.code = pt.transaction_code
LEFT JOIN program p ON p.code = pt.program_code
LEFT JOIN branch b ON b.code = p.branch_code
LEFT JOIN programheader ph ON ph.code = p.program_header_code
LEFT JOIN programcategory pc ON pc.code = ph.program_category_code
LEFT JOIN studymethod sm ON sm.code = p.study_method_code
LEFT JOIN studyschedule ss ON ss.code = p.study_schedule_code
LEFT JOIN student s ON pt.code = s.program_transact_code
LEFT JOIN user u ON u.code = s.user_code
LEFT JOIN transactquestionnaires tq ON t.code = tq.code
'''

# Execute query and load into a pandas DataFrame
df = pd.read_sql(query, engine)


#### **Data Cleaning**

In [4]:
# Data dari SQL by default selalu dalam bentuk UTC 00:00
# Set to UTC
df['transaction_created_date'] = pd.to_datetime(df['transaction_created_date']).dt.tz_localize('Etc/GMT+0')
df['invoice_created_at'] = pd.to_datetime(df['invoice_created_at']).dt.tz_localize('Etc/GMT+0')
# Convert ke GMT+7
df['transaction_created_date'] = df['transaction_created_date'].dt.tz_convert('Etc/GMT-7')
df['invoice_created_at'] = df['invoice_created_at'].dt.tz_convert('Etc/GMT-7')

In [5]:
df.sample()

Unnamed: 0,transact_code,invoice_created_at,transaction_created_date,user_code,subtotal_amount,total_discount_amount,final_price,receivable_amount,created_by,invoice_code,order_confirmation_code,quantity,transaction_status,program_name,branch_name,program_category,study_method,study_schedule,program_start_date,program_end_date,program_start_time,program_end_time,program_days,referral_source,user_email,user_city,birth_date,registration_reason,time_knowing_program,choosing_reason,content_source,other_bootcamps,first_time_knowledge,informative_website,admission_score
354,11994,2023-12-15 10:00:04+07:00,2023-12-15 09:53:24+07:00,30576,47175000,11175000,36000000,0,admission2,INV/2023/12/15/0002,ON/2023/12/15/0004,1,Paid,Job Connector Bootcamp UI/UX Design,Purwadhika Campus Jakarta,Job Connector,On Campus,Full Time Training,2024-02-25 17:00:00,2024-06-10 17:00:00,09:00,16:00,Mon - Fri,Podcast Cukup Menarik,users367@gmail.com,Jakarta Pusat,21/August/2000,"Karena promo yang akan segera berakhir,Waktu belajar yang akhirnya tersedia,Kebutuhan untuk segera mendapatkan pekerjaan,Tergerak karena promo yang menarik",> 1 tahun,"Hanya mengetahui Purwadhika,Kredibilitas Purwadhika sejak tahun 1987",Youtube,Enter,Hanya mengetahui Purwadhika,Sangat Baik,Sangat Baik


##### **Filter Data hanya transaksi Sukses**

In [6]:
df = df[df['transaction_status'] == 'Paid']

##### **Re Categorize Referral Sesuai yang ada di opsi saat mendaftar sebagai user (bisa dilihat di website Purwadhika saat mendaftar)**

In [7]:
referral_opsi_website = ['Google Search','Friends/Family','Instagram Ads','Social Media Purwadhika','News Coverage','Blog Purwadhika','Social Media Influencer']

In [8]:
# referral yang tidak sesuai / other
df[~df['referral_source'].isin(referral_opsi_website)]['referral_source'].unique()

array(['Youtube Purwadhika', 'chat-GPT', 'teman',
       'Instagram Purwadhika (non ads)', 'Podcast Cukup Menarik',
       'Friends / Family Referral', 'Sudah lama dari instagram',
       'Media Coverage', 'Youtube Non Ads', 'youtube', 'Youtube Ads',
       'Media sosial dan forum online', 'Instagram Non Ads', 'Orang tua',
       'Student & Alumni Referral', 'Instagram Purwadhika',
       'LinkedIn Purwadhika', 'Teman',
       'Sudah lama, pernah mengikuti workshop', 'Linkedin Purwadhika',
       'Family', 'Dari teman',
       'Pernah membaca sebuah tweet salah satu alumni purwadhika',
       'Teman ', 'Keluarga', 'Instagram ', 'Kerabat', 'Google search',
       None, 'Student/Alumni Purwadhika referral', 'Saudara',
       'Teman Orang Tua', 'Alumni/Student Purwadhika',
       'Browsing internet', 'Twitter Purwadhika', 'Tik Tok Ads',
       'Friends/Family referral', 'Teman saya'], dtype=object)

In [9]:
# Mapping dictionary
referral_mapping = {
    'Friends / Family Referral': 'Friends/Family',
    'Teman': 'Friends/Family',
    'teman': 'Friends/Family',
    'Teman Orang Tua': 'Friends/Family',
    'Teman sekolah': 'Friends/Family',
    'Teman saya': 'Friends/Family',
    'Dari teman kakak': 'Friends/Family',
    'Saudara': 'Friends/Family',
    'Keluarga': 'Friends/Family',
    'Dari Orang Terdekat': 'Friends/Family',
    'Keponakan saya memberitahukan saya tentang Purwadika': 'Friends/Family',
    'Instagram Purwadhika': 'Social Media Purwadhika',
    'Instagram Non Ads': 'Social Media Purwadhika',
    'Instagram Purwadhika (non ads)': 'Social Media Purwadhika',
    'Youtube Purwadhika': 'Social Media Purwadhika',
    'Youtube Non Ads': 'Social Media Purwadhika',
    'Youtube Ads': 'Social Media Purwadhika',
    'youtube': 'Social Media Purwadhika',
    'Tik Tok Non Ads': 'Social Media Influencer',
    'Tik Tok Ads': 'Social Media Influencer',
    'LinkedIn Purwadhika': 'Social Media Purwadhika',
    'Linkedin Purwadhika': 'Social Media Purwadhika',
    'Facebook Page Purwadhika': 'Social Media Purwadhika',
    'Twitter Purwadhika': 'Social Media Purwadhika',
    'Berita': 'News Coverage',
    'Media Coverage': 'News Coverage',
    'Searching': 'Google Search',
    'Google Search': 'Google Search'
}

# Apply the mapping
df['referral_source'] = df['referral_source'].replace(referral_mapping)


# Replace any values not in referral_opsi_website with 'Other'
df['referral_source'] = df['referral_source'].apply(lambda x: x if x in referral_opsi_website else 'Other')

# Important Note:
# When analyzing referral sources, values can be grouped into specific categories to simplify the interpretation and reporting of the data.
# The following categories can be useful for various purposes such as marketing analysis, campaign effectiveness, or user behavior tracking

##### **Study Method Cukup Online & On Campus**

In [10]:
method_mapping = {
'Livestream Class': 'Online',
'Video Learning':'Online' }
df['study_method'] = df['study_method'].replace(referral_mapping)

##### **User City**

Data User City perlu dibersihkan  untuk memastikan bahwa nilai yang tercatat merupakan nama kota yang valid,
khususnya untuk pengguna diluar Indonesia. Karena, pengguna yang berasal dari luar negeri tercatat dengan nama negara, bukan nama kota.

In [11]:
# List of country names (you can add more as needed)
countries = ['Turkey', 'Switzerland', 'Malaysia', 'Japan', 'Australia']

# Function to clean city names by checking if it's a country
def clean_user_city(city):
    if city in countries:
        return 'Luar Negeri'  # Replace country name with "Luar Negeri"
    elif city is None or city == '':
        return 'Tidak Diketahui'  # Handle None or empty strings
    else:
        return city  # Leave city names unchanged

# Apply the cleaning function to the 'user_city' column
df['user_city'] = df['user_city'].apply(clean_user_city)

# Check the updated column
df['user_city'].unique()


array(['Jambi', 'Batam', 'Denpasar', 'Medan', 'Badung', 'Banjar',
       'Bandung', 'Bandar Lampung', 'Tegal', 'Pekalongan', 'Semarang',
       'Jakarta Utara', 'Singkawang', 'Jakarta Pusat',
       'Tangerang Selatan', 'Manado', 'Banda Aceh', 'Jakarta Barat',
       'Bekasi', 'Majalengka', 'Tangerang', 'Kediri', 'Bengkulu',
       'Blitar', 'Purwokerto', 'Magelang', 'Malang', 'Bontang',
       'Banyumas', 'Ambon', 'Banjarmasing', 'Sleman', 'Wonosobo', 'Depok',
       'Mataram', 'Bima', 'Payakumbuh', 'Purbalingga', 'Tidak Diketahui',
       'Surakarta', 'Tanjungpinang', 'Binjai', 'Samarinda', 'Padang',
       'Jakarta Raya', 'Surabaya', 'Pekanbaru', 'Makassar', 'Luar Negeri',
       'Pematangsiantar', 'Yogyakarta', 'Tasikmalaya', 'Banjarbaru',
       'Palembang', 'Pontianak', 'Cirebon', 'Balikpapan',
       'Jakarta Selatan', 'Bogor', 'Jakarta Timur', 'Badung (Bali)',
       'Sukabumi', 'Cilegon', 'Cimahi'], dtype=object)

### **Student Age**

In [12]:
# Dictionary to map Indonesian months to English
month_translation = {
    'Januari': 'January', 'Februari': 'February', 'Maret': 'March', 'April': 'April',
    'Mei': 'May', 'Juni': 'June', 'Juli': 'July', 'Agustus': 'August',
    'September': 'September', 'Oktober': 'October', 'November': 'November', 'Desember': 'December'
}

# Replace Indonesian month names with English month names
for indo_month, eng_month in month_translation.items():
    df['birth_date'] = df['birth_date'].str.replace(indo_month, eng_month)

# Convert program_start_date to datetime
df['program_start_date'] = pd.to_datetime(df['program_start_date'])

# Convert birth_date to datetime without strict format to handle mixed month names
df['birth_date'] = pd.to_datetime(df['birth_date'], errors='coerce')

# Calculate age in years
df['student_age'] = (df['program_start_date'] - df['birth_date']).dt.days // 365

#### **Transaction Surveys**

1. **Apa yang mendorong Anda untuk mendaftar Purwadhika sekarang?**  
   *(Multiple choice - `registration_reason`)*  
   - Karena promo yang akan segera berakhir
   - Dana belajar yang akhirnya sudah terkumpul
   - Waktu belajar yang akhirnya tersedia
   - Kebutuhan untuk segera mendapatkan pekerjaan
   - Perintah atau diutus oleh Perusahaan
   - Perintah dari Orang Tua/Keluarga
   - Tergerak karena promo yang menarik
   - Alasan Lainnya (Diisi sendiri)

2. **Berapa lama Anda sudah mengetahui Purwadhika?**  
   *(Single choice - `time_knowing_program`)*  
   - 1 Hari - 1 Minggu
   - 1 Minggu - 1 Bulan
   - 1 - 3 Bulan
   - 3 - 6 Bulan
   - 6 Bulan - 1 Tahun
   - '>1 Tahun'
   
3. **Kenapa memilih Purwadhika dibanding bootcamp lain?**  
   *(Multiple choice - `choosing_reason`)*  
   - Hanya mengetahui Purwadhika
   - Kredibilitas Purwadhika sejak tahun 1987
   - Promo yang sedang berjalan
   - Fasilitas kampus Purwadhika
   - Kisah sukses dari para Alumni Purwadhika
   - Pengajar dan Mentor Purwadhika
   - Materi/Silabus/Kurikulum Purwadhika
   - Rekomendasi dari seseorang
   - Pilihan dari Perusahaan
   - Biaya pendidikan Purwadhika
   - Jadwal Intake yang sesuai kebutuhan
   - Alasan Lainnya (Diisi sendiri)

4. **Pilih media sosial Purwadhika yang paling mempengaruhi Anda melakukan transaksi**  
   *(Single choice - `content_source`)*  
   - Instagram
   - Youtube
   - Twitter / (X)
   - Facebook
   - LinkedIn
   - Tidak Ada

5. **Masukkan nama-nama tempat bootcamp lain yang Anda ketahui**  
   *(Free text - `other_bootcamps`)*  
   - Jika lebih dari satu, pisahkan dengan koma.

6. **Apakah Purwadhika adalah tempat bootcamp pertama yang Anda ketahui?**  
   *(Single choice - `first_time_knowledge`)*  
   - Ya
   - Tidak
   - Hanya mengetahui Purwadhika

7. **Apakah website kami memudahkan Anda dalam memperoleh informasi yang diperlukan sebelum mendaftar di Purwadhika?**  
   *(Single choice - `informative_website`)*  
   - Sangat Buruk
   - Buruk
   - Memadai
   - Baik
   - Sangat Baik

8. **Bagaimana penilaian Anda terhadap pelayanan dari Tim Admission kami?**  
   *(Single choice - `admission_score`)*  
   - Sangat Buruk
   - Buruk
   - Memadai
   - Baik
   - Sangat Baik

        
    
    
    


#### **registration_reason, choosing_reason, other_bootcamps (multiple choice columns)**

perlu dibuat table tersendiri dengan value yang sudah tanpa ada koma agar perhitungan mudah dilakukan

##### **registration_reason**

In [13]:
listData = []
for item in df[['registration_reason', 'transact_code']].values:
    trxId = item[1]
    if item[0] is not None:  # Check if the value is not None
        if ',' in item[0]:
            my_list = item[0].split(',')
            for value_list in my_list:
                listData.append([value_list.strip(), trxId])  # strip() to remove any extra spaces
        else:
            listData.append([item[0].strip(), trxId])
    else:
        listData.append([None, trxId])  # Handle None values as well

registration_reason_dataframe = pd.DataFrame(columns=['registration_reason','transact_code'], data=listData)

In [14]:
# Pisah kan jawaban yang diluar template website, dan categori ulang
reason_list = [
    "Karena promo yang akan segera berakhir",
    "Dana belajar yang akhirnya sudah terkumpul",
    "Waktu belajar yang akhirnya tersedia",
    "Kebutuhan untuk segera mendapatkan pekerjaan",
    "Perintah atau diutus oleh Perusahaan",
    "Perintah dari Orang Tua/Keluarga",
    "Tergerak karena promo yang menarik"
]
# List yang tidak sesuai silahkan jika ada jawaban yang mirip atau sama dengan list yang sesuai template website agar diubah sesuaii template website,jika tidak bisa cukup sebagai Other atau membuat categori baru
registration_reason_dataframe[~registration_reason_dataframe['registration_reason'].isin(reason_list)]['registration_reason'].unique()

array(['mencari pengalaman baru',
       'Untuk mendapat ilmu serta mentor yang bisa membimbing saya.',
       'ingin memulai karir di bidang baru yang lebih berpotensi yang nantinya bisa menyokong dana untuk plan selanjutnya',
       'Menambah ilmu dan persiapan untuk masuk ke dunia kerja',
       'Belajar data analyst',
       'Image Bagus dan menciptakan alumni terbaik',
       'Tertarik dan ingin belajar dalam bidang IT Pemrograman',
       'Karena adanya program job conector', 'switcing  karir',
       'perlu mengembangkan skill digital marketing',
       'Ingin upgrade diri terkait skill digitalisasi', 'menambah skill',
       'Ingin mempelajari hal lain dan hal baru selain pelajaran S1',
       'Saya mau switch career',
       'untuk menambah pengalaman dan menambah skill',
       'Ingin memulai berbisnis dan membutuhkan skill tertentu',
       'Mengembangankan usaha',
       'Karena ingin mendapatkan ilmu baru yang dapat menunjang karir',
       '-', 'menambah keterampilam dan 

##### **choosing_reason**

In [15]:
listData = []
for item in df[['choosing_reason', 'transact_code']].values:
    trxId = item[1]
    if item[0] is not None:  # Check if the value is not None
        if ',' in item[0]:
            my_list = item[0].split(',')
            for value_list in my_list:
                listData.append([value_list.strip(), trxId])  # strip() to remove any extra spaces
        else:
            listData.append([item[0].strip(), trxId])
    else:
        listData.append([None, trxId])  # Handle None values as well

choosing_reason_dataframe = pd.DataFrame(columns=['choosing_reason','transact_code'], data=listData)

In [16]:
# Pisah kan jawaban yang diluar template website, dan categori ulang
choosing_reason_list = [
    "Hanya mengetahui Purwadhika",
    "Kredibilitas Purwadhika sejak tahun 1987",
    "Promo yang sedang berjalan",
    "Fasilitas kampus Purwadhika",
    "Kisah sukses dari para Alumni Purwadhika",
    "Pengajar dan Mentor Purwadhika",
    "Materi/Silabus/Kurikulum Purwadhika",
    "Rekomendasi dari seseorang",
    "Pilihan dari Perusahaan",
    "Biaya pendidikan Purwadhika",
    "Jadwal Intake yang sesuai kebutuhan"
]
# List yang tidak sesuai silahkan jika ada jawaban yang mirip atau sama dengan list yang sesuai template website agar diubah sesuaii template website,jika tidak bisa cukup sebagai Other atau membuat categori baru
choosing_reason_dataframe[~choosing_reason_dataframe['choosing_reason'].isin(choosing_reason_list)]['choosing_reason'].unique()

array(['Kelas tatap muka', '', 'Keren',
       'saya membutuhkan bootcamp oppline/ on campus', 'karna on site',
       'Metode pembelajaran offline', 'fasilitas job connector nya',
       'Bisa Offline di Bandung', 'Ada on campus di kota saya tinggal',
       'yakni jogja', 'On campus/ Offline', 'Daerah Jogja',
       'pernah ikut Purwadhika sebelumnya', 'Ada di Jogja',
       'dekat dengan domisili saya yang di Surakarta.',
       'Suka dengan purwadhika detail informasinya dan dari dulu pas awal tahu pengen banget ikut kelas purwadhika',
       'Fasilitas alumni bootcamp untuk mendapatkan koneksi untuk  pekerjaan',
       'interactive onlie', 'Teman yang sudah pernah berada di dalamnya',
       'kelas offline', 'Ada kampus on site',
       'mudah dijangkau dari rumah',
       'relatif dekat dengan tempat tinggal',
       'Jadwal cocok dan dekat dg tmpt kerja',
       'Ingin mendapatkan pekerjaan secepatnya karena fasilitas job connect',
       'jarak', 'Purwadhika memiliki fasilitas 

##### **other_bootcamps**

In [17]:
listData = []
for item in df[['other_bootcamps', 'transact_code']].values:
    trxId = item[1]
    if item[0] is not None:  # Check if the value is not None
        if ',' in item[0]:
            my_list = item[0].split(',')
            for value_list in my_list:
                listData.append([value_list.strip(), trxId])  # strip() to remove any extra spaces
        else:
            listData.append([item[0].strip(), trxId])
    else:
        listData.append([None, trxId])  # Handle None values as well

# Create the new DataFrame
other_bootcamps_dataframe = pd.DataFrame(columns=['other_bootcamps', 'transact_code'], data=listData)

In [18]:
# Normalize the 'other_bootcamps' column
other_bootcamps_dataframe['other_bootcamps'] = (
    other_bootcamps_dataframe['other_bootcamps']
    .str.strip()  # Remove leading and trailing spaces
    .str.replace(r'\s+', ' ', regex=True)  # Replace multiple spaces with a single space
    .str.replace(r'[^a-zA-Z0-9\s]', '', regex=True)  # Remove non-alphabetic and non-numeric characters
    .str.lower()
)


In [19]:
other_bootcamps_dataframe['grouped_bootcamps'] = other_bootcamps_dataframe['other_bootcamps']

other_bootcamps_dataframe.loc[(other_bootcamps_dataframe['other_bootcamps'].str.startswith('hac')) |
                          (other_bootcamps_dataframe['other_bootcamps'].str.startswith('hak')) |
                          (other_bootcamps_dataframe['other_bootcamps'].str.startswith('heac'))|
                          (other_bootcamps_dataframe['other_bootcamps'].str.startswith('h8')) |
                          (other_bootcamps_dataframe['other_bootcamps'] == ' hcktiv8')
                          , 'grouped_bootcamps'] = 'Hacktiv8'
other_bootcamps_dataframe.loc[(other_bootcamps_dataframe['other_bootcamps'].str.startswith('rev',na=False)), 'grouped_bootcamps'] = 'RevoU'
other_bootcamps_dataframe.loc[(other_bootcamps_dataframe['other_bootcamps'].str.startswith('my',na=False)) & (other_bootcamps_dataframe['other_bootcamps'].str.contains('skil',na=False))
                              , 'grouped_bootcamps'] = 'MySkill'
other_bootcamps_dataframe.loc[(other_bootcamps_dataframe['other_bootcamps'].str.contains('senin',na=False))
                          , 'grouped_bootcamps'] = 'Hari Senin'
other_bootcamps_dataframe.loc[(other_bootcamps_dataframe['other_bootcamps'].str.contains('binar',na=False))
                          , 'grouped_bootcamps'] = 'Binar Academy'
other_bootcamps_dataframe.loc[(other_bootcamps_dataframe['other_bootcamps'].str.contains('bimbing',na=False))
                          , 'grouped_bootcamps'] = 'Dibimbing'
other_bootcamps_dataframe.loc[(other_bootcamps_dataframe['other_bootcamps'].str.contains('raka',na=False))
                          , 'grouped_bootcamps'] = 'Rakamin'

# Bisa dilanjutkan, sampai tahap lebih detail tetapi setelah melihat value count sudah cukup kompetitor yang banyak diketahui student.

#### **Update value admission score & informative_website**

form transaksi survey dari waktu ke waktu mengalami update, pastikan data sesuai dengan intrepetasinnya dengan data terbaru

In [20]:
df['informative_website'].unique()

array(['Sangat Baik', 'Buruk', 'Baik', 'Memadai', None, 'Kurang Baik',
       'Cukup'], dtype=object)

In [21]:
df['admission_score'].unique()

array([None, 'Sangat Baik', 'Cukup', 'Kurang Baik', 'Baik', 'Memadai',
       'Buruk'], dtype=object)

In [22]:
# Mapping dictionary
# Karena dulu hanya ada opsi Kurang Baik, Memadai, Sangat Baik, sehingga value kurang baik dan Memadai harus di adjust ke data baru.
score_mapping = {
  'Cukup':'Memadai',
  'Kurang Baik':'Buruk'
}

# Apply the mapping
df['admission_score'] = df['admission_score'].replace(score_mapping)
df['informative_website'] = df['informative_website'].replace(score_mapping)

### **Upload to Big Query**

In [23]:
from google.cloud import bigquery
from pandas.io import gbq
from google.oauth2 import service_account
import pandas_gbq

In [24]:
credentials_info = {
  "type": "service_account",
  "project_id": "pro-tracker-320503",
  "private_key_id": "0d2a994f53a86e71814c642a8654d30fd9cd6462",
  "private_key": "-----BEGIN PRIVATE KEY-----\nMIIEvQIBADANBgkqhkiG9w0BAQEFAASCBKcwggSjAgEAAoIBAQCbszHbiPG1DER1\nvyMDHlNzf1Y+45WgltJnvF8LAl4rbMGSWNQS3/9uNk9AZCzsG3gP8BKpnI87NFeg\nItkEf4U1KM93SqvFKRvHWiHSiQdqqPqBd1anJtGIW6T7QXEbpNa03qdLFsiEUYKZ\nlfxTNsKmWFavp6jEYAVvW1YufZ7476eL0o5TReO1aSVH8sumzhNNoglDFtff/9/f\n+kzjndcmYK03/s0vz16eG/c7NUaNBsqthKMhPOEHPEIJ4yHvyu75h81D2mENciXX\nHyAr89PFzxvHMx/i9xy+VzSSZC4dObdJ2HyN1nhIbRRJbIazgYV3PHvlnHecW7CC\nixv6irz5AgMBAAECggEAN0B1UmL75xQF3UTpL0udMJDA8ctARz8ORlqt3ZHHCiDr\nZjwYceREV/90yzRhTp4G0p0OelsA5vERoVWMbpC0HCOxz7LTVsFaRrmA5B3VYG+7\niaLoQKPBWmKvHqxf73/k40VZ14cru+zS7B6x7nOxymbxyB62gI1UkGo4oIHanpqb\nHe9HiVeOmy1YIkGv/7vzo/2GLIMgIJy/L/8FovB4zbsZdF/KHofdv6WCe+6i8J8r\nkkppg9igiBKVCoVY5CKpozjQdC7w3xDTnhcG6QI9xB2Mu7lhIBfsrPH1jCNoIrAD\nsWevM7hrkMLtoNan2k38/ncffXR+xx4DV7n5WxepswKBgQDRbxtkwCHcC6tOCn5d\nvzZINxFPeovVNVDliYjz0e72vXvunSecK969bZ004kBSzyvg4HysbrviWlbJjCLC\nrD+teVnFKX9QAndD0SMtUcNQUXuP6rHuAWPMpZ+hN3hUsGg0twq83iahrEE8mHsq\newtsyjQBu0OqN2psqzcH9Rvj4wKBgQC+UZHpqbHGviJCqEffeMHYERv1wh9LE/7N\nX8fM/cew06tG5YwH+EFmoOLcjUk3n4RKsN4/KHBFH08Tuc+Aze6PAGMBEEYbe80O\nUbW7DdMo7cl9X0qG4foHLXngrtmNMiVVtmo17/FdJjwvRVQisHrQvcN0Pg/RoYrA\nP0rdJxmKcwKBgQCGetOaNA0J4KxU5kQSKk/Oux1wbX4Qn7WcTl4UQb8xzKYhp+Ph\nUgIqnJIPfSBUjBbexQcJKemXBO8pZ8SCQFx7JarRAT5wv8SZVVdDKHdDwa6X0NoD\nu/y7UbZYrOelacjf4JESiYtA0PzqzfZ4Zp4FcylF21stl3vM33vsriUEhQKBgFVJ\nhqL4ydMvd3j5oqPRoMSr/iSm5pEll8T/TDFf9PIYGSQ/T/5uURiltqRxqEMF+Cnk\nkuQowg8n1a8YUJX/Mw3gdX2Phmtgkmb9VPxLWLp5vRay8ln5wKsgxQJcON/eff6o\nLXaYXUiKDuR8JBUbkx4iPAnGmh4uT1iRxIHQuNBjAoGAEbt+uWtIlV5c8KxFa/KJ\n/B5HyrAm9Zduiz3Snfx+GrnCich12NY8AoxG/qU4QbUT7d8pJUshgdxePCZtZaeE\n77ZAB7WQnhnsxP2oKrUxcfFJTcJkWRMKjD/EXZYpLcdR2SVUHn7xuqsYqNthy4dk\nq7hmk2xz5d4HF+T3hSpzNeA=\n-----END PRIVATE KEY-----\n",
  "client_email": "dummypurwadhikatransaction@pro-tracker-320503.iam.gserviceaccount.com",
  "client_id": "100146115937791683961",
  "auth_uri": "https://accounts.google.com/o/oauth2/auth",
  "token_uri": "https://oauth2.googleapis.com/token",
  "auth_provider_x509_cert_url": "https://www.googleapis.com/oauth2/v1/certs",
  "client_x509_cert_url": "https://www.googleapis.com/robot/v1/metadata/x509/dummypurwadhikatransaction%40pro-tracker-320503.iam.gserviceaccount.com",
  "universe_domain": "googleapis.com"
}

In [25]:
project_id = 'pro-tracker-320503'
dataset_id = 'dummy_transaction'
table_transact = f'{dataset_id}.transaction'
table_choosing_reason = f'{dataset_id}.choosing_reason'
table_registration_reason = f'{dataset_id}.registration_reason'
table_other_bootcamp = f'{dataset_id}.other_bootcamp'

scopes = ["https://www.googleapis.com/auth/bigquery"]
credentials = service_account.Credentials.from_service_account_info(credentials_info, scopes=scopes)

In [26]:
pandas_gbq.to_gbq(df, table_transact, project_id=project_id, if_exists='replace', credentials=credentials)

100%|██████████| 1/1 [00:00<?, ?it/s]


In [27]:
pandas_gbq.to_gbq(choosing_reason_dataframe, table_choosing_reason, project_id=project_id, if_exists='replace', credentials=credentials)

100%|██████████| 1/1 [00:00<?, ?it/s]


In [28]:
pandas_gbq.to_gbq(registration_reason_dataframe, table_registration_reason, project_id=project_id, if_exists='replace', credentials=credentials)

100%|██████████| 1/1 [00:00<?, ?it/s]


In [29]:
pandas_gbq.to_gbq(other_bootcamps_dataframe, table_other_bootcamp, project_id=project_id, if_exists='replace', credentials=credentials)

100%|██████████| 1/1 [00:00<?, ?it/s]


### **Upload to G-Sheet**

In [30]:
import gspread
from google.oauth2.service_account import Credentials
credentials = Credentials.from_service_account_info(credentials_info)
client = gspread.authorize(credentials)

In [31]:
# Define the scopes you need (Google Sheets API)
scopes = [
    "https://www.googleapis.com/auth/spreadsheets",
    "https://www.googleapis.com/auth/drive"
]

# Create a credentials object with the necessary scopes
credentials = Credentials.from_service_account_info(credentials_info, scopes=scopes)

# Authorize and create a gspread client
client = gspread.authorize(credentials)

# Open the spreadsheet by its name
spreadsheet = client.open('007_ETL end to end_Mirul')

# Access the specific worksheets
transaction_worksheet = spreadsheet.worksheet('transaction')
choosing_reason_worksheet = spreadsheet.worksheet('choosing_reason')
registration_reason_worksheet = spreadsheet.worksheet('registration_reason')
other_bootcamps_worksheet = spreadsheet.worksheet('other_bootcamps')

### **Format Worksheet hanya bisa int,string make sure ga ada selain itu**

In [32]:
def process_numeric_columns(df):
    for col in df.columns:
        if pd.api.types.is_numeric_dtype(df[col]):
            if df[col].apply(lambda x: x.is_integer() if isinstance(x, float) else True).all():
                # Convert to integer if all float values are whole numbers
                df[col] = df[col].astype(int)
            else:
                # Convert to string if any float values have decimals
                df[col] = df[col].astype(str)
        else:
            # Ensure all non-numeric columns are string
            df[col] = df[col].astype(str)
    return df

df = process_numeric_columns(df)

In [33]:
transaction_worksheet.update([df.columns.values.tolist()] + df.values.tolist())

{'spreadsheetId': '16yakF_zQj8FSSAnmgjvBro31NAzmB_n3ORmgWT3gEQI',
 'updatedRange': 'transaction!A1:AJ654',
 'updatedRows': 654,
 'updatedColumns': 36,
 'updatedCells': 23544}

In [34]:
choosing_reason_worksheet.update([choosing_reason_dataframe.columns.values.tolist()] + choosing_reason_dataframe.values.tolist())

{'spreadsheetId': '16yakF_zQj8FSSAnmgjvBro31NAzmB_n3ORmgWT3gEQI',
 'updatedRange': 'choosing_reason!A1:B2408',
 'updatedRows': 2408,
 'updatedColumns': 2,
 'updatedCells': 4816}

In [35]:
registration_reason_worksheet.update([registration_reason_dataframe.columns.values.tolist()] + registration_reason_dataframe.values.tolist())

{'spreadsheetId': '16yakF_zQj8FSSAnmgjvBro31NAzmB_n3ORmgWT3gEQI',
 'updatedRange': 'registration_reason!A1:B1730',
 'updatedRows': 1730,
 'updatedColumns': 2,
 'updatedCells': 3460}

In [36]:
other_bootcamps_worksheet.update([other_bootcamps_dataframe.columns.values.tolist()] + other_bootcamps_dataframe.values.tolist())

{'spreadsheetId': '16yakF_zQj8FSSAnmgjvBro31NAzmB_n3ORmgWT3gEQI',
 'updatedRange': 'other_bootcamps!A1:C1341',
 'updatedRows': 1341,
 'updatedColumns': 3,
 'updatedCells': 4019}