### Data Science Salary Analysis

Dataset ini digunakan untuk menganalisis gaji di bidang data science. Data diambil dari sumber berikut:

[Data Science Salary Analysis - Kaggle](https://www.kaggle.com/code/adilashrafi/data-science-salary-analysis/input)

File dataset: `salaries.csv`


### Data Cleaning

### Data Exploration

#### Analisis Univariabel

**Analisis Univariabel**

**Analisis univariabel** adalah langkah awal dalam memahami dataset dengan mempelajari distribusi dan pola dari satu variabel saja, baik itu variabel kategorikal maupun numerik.

---

**1. Jenis Variabel**
- **Kategorikal**: Berisi kategori atau kelompok diskrit (misalnya, jenis kelamin, warna, status pekerjaan).
- **Numerik**: Berisi angka yang bisa kontinu atau diskrit (misalnya, usia, pendapatan, suhu).

---

**2. Contoh Analisis**

**a. Variabel Kategorikal**  
Gunakan `sns.countplot` untuk menghitung frekuensi setiap kategori.  
```python
sns.countplot(data=df, x="Category_Variable")
```

- **Apa yang dianalisis?**  
  Melihat jumlah data untuk setiap kategori.
- **Hasilnya:**  
  Grafik batang yang menunjukkan distribusi setiap kategori, membantu mengetahui apakah ada ketidakseimbangan data.

---

**b. Variabel Numerik**  
Gunakan `sns.histplot` untuk mempelajari distribusi nilai numerik.  
```python
sns.histplot(data=df, x="Numeric_Variable", bins=10, kde=True)
```

- **Apa yang dianalisis?**  
  Melihat pola distribusi data, apakah normal, skewed, atau terdapat outlier.
- **Hasilnya:**  
  Histogram yang menunjukkan jumlah data dalam rentang nilai tertentu (dengan atau tanpa kurva distribusi).

#### Analisa Bivariabel

**Analisis Bivariabel**

**Numerik vs. Numerik**  
Gunakan `sns.scatterplot` untuk memvisualisasikan hubungan antara dua variabel numerik.  
```python
sns.scatterplot(data=df, x="Variable1", y="Variable2")
```
- **Fungsi:** Menunjukkan pola hubungan (positif, negatif, atau tidak ada hubungan) antara dua variabel.
- **Hasil:** Titik-titik data yang merepresentasikan pasangan nilai dari kedua variabel.

---

**Kategorikal vs. Numerik**  
Gunakan `sns.boxplot` untuk membandingkan distribusi variabel numerik di setiap kategori.  
```python
sns.boxplot(data=df, x="Categorical_Variable", y="Numeric_Variable")
```
- **Fungsi:** Menampilkan distribusi data, median, rentang interkuartil, dan outlier untuk setiap kategori.
- **Hasil:** Kotak-kotak yang merepresentasikan distribusi nilai numerik di setiap kategori.

#### Analisis Multivariabel

**Rumus Korelasi Pearson**

Korelasi Pearson mengukur hubungan linear antara dua variabel. Rumusnya adalah:

\[
r = \frac{\sum (x_i - \bar{x})(y_i - \bar{y})}{\sqrt{\sum (x_i - \bar{x})^2 \sum (y_i - \bar{y})^2}}
\]

- \( x_i, y_i \): Nilai individu dari dua variabel.
- \( \bar{x}, \bar{y} \): Rata-rata dari masing-masing variabel.
- \( r \): Nilai korelasi (antara -1 hingga 1).

```python
sns.heatmap(df.corr(), annot=True)
```

1. **`sns.heatmap(...)`**  
   - Membuat heatmap (peta panas) menggunakan library `seaborn` untuk memvisualisasikan data dalam bentuk tabel dengan warna.

2. **`df.corr()`**  
   - Menghitung matriks korelasi untuk semua pasangan kolom dalam DataFrame `df`. Setiap nilai menunjukkan kekuatan dan arah hubungan antara dua variabel:
     - \( r > 0 \): Hubungan positif.
     - \( r < 0 \): Hubungan negatif.
     - \( r = 0 \): Tidak ada hubungan.


### Mendapatkan Insights dari Data

#### Top 10 Pekerjaan di Data Science

Penjelasan Kode

Kode ini menghasilkan diagram batang untuk memvisualisasikan 10 jabatan pekerjaan paling umum di bidang data science berdasarkan dataset yang diberikan.

Langkah-langkah Utama:
1. **Persiapan Data**:
   - `df_chart` mengambil 10 jabatan pekerjaan teratas beserta jumlahnya menggunakan `value_counts()` dari dataset.
   - `job_titles` menyimpan label jabatan pekerjaan (index dari `df_chart`).
   - `total_people` menyimpan jumlah yang sesuai (nilai dari `df_chart`).

2. **Skema Warna**:
   - Daftar warna yang telah ditentukan digunakan untuk memberikan gaya pada batang diagram.

3. **Pembuatan Diagram**:
   - `matplotlib.pyplot` digunakan untuk membuat diagram batang (`ax.bar`) dengan warna batang yang disesuaikan, garis tepi hitam, dan efek transparan sebagian (`alpha=0.7`).

4. **Pemberian Label pada Batang**:
   - Setiap batang diberi label dengan jumlahnya masing-masing (ditempatkan di tengah batang) menggunakan `ax.text`.

5. **Judul dan Sumbu**:
   - Diagram diberi judul deskriptif dan label sumbu untuk kejelasan.

6. **Peningkatan Tampilan**:
   - Label sumbu-x diputar agar lebih mudah dibaca.
   - `plt.tight_layout()` digunakan untuk menyesuaikan tata letak agar tidak terjadi tumpang tindih.

7. **Visualisasi**:
   - Diagram ditampilkan menggunakan `plt.show()`.

Hasil:
- Diagram batang yang menarik secara visual, menampilkan 10 jabatan pekerjaan teratas beserta jumlahnya dengan jelas sehingga data mudah untuk diinterpretasikan.


# Menghitung Rata-Rata Gaji Berdasarkan Job Title

Kode ini melakukan analisis untuk menghitung rata-rata gaji berdasarkan posisi pekerjaan (`job_title`):

1. **Mengelompokkan data** berdasarkan kolom `job_title` dan menghitung rata-rata gaji (`salary_in_usd`) menggunakan fungsi `groupby()` dan `mean()`.
2. **Menyusun ulang hasilnya** menjadi DataFrame baru dan mereset indeksnya menggunakan `reset_index()`.
3. **Mengubah nama kolom** untuk kejelasan (opsional), yaitu menjadi `job_title` dan `average_salary_in_usd`.
4. **Mengurutkan hasil** berdasarkan kolom `average_salary_in_usd` dan menampilkan 10 job title dengan rata-rata gaji tertinggi menggunakan `sort_values()` dan `tail(10)`.

Hasilnya adalah daftar 10 posisi pekerjaan dengan rata-rata gaji tertinggi.


### AI Model Building

#### Feature Engineering

**Feature Engineering**

Feature engineering adalah proses memilih, membuat, atau memodifikasi fitur/variabel dalam dataset untuk meningkatkan kinerja model machine learning. Proses ini penting karena fitur yang relevan dan informatif dapat membantu model memahami pola dalam data lebih baik.

**Langkah-langkah Utama:**
1. **Pemilihan Variabel (Feature Selection)**:
   - Memilih fitur yang paling relevan dengan target menggunakan teknik seperti korelasi, mutual information, atau metode berbasis model (e.g., feature importance dari model pohon keputusan).

2. **Transformasi Data**:
   - Mengubah fitur agar lebih representatif, misalnya melalui normalisasi, standarisasi, atau encoding untuk data kategori.

3. **Pembuatan Fitur Baru**:
   - Menggabungkan fitur yang ada untuk menghasilkan fitur baru yang lebih informatif, seperti membuat fitur interaksi, agregasi, atau fitur temporal.

4. **Reduksi Dimensi**:
   - Mengurangi jumlah fitur menggunakan teknik seperti PCA (Principal Component Analysis) untuk menghindari overfitting atau redundansi.

**Tujuan:**
- Memastikan model hanya bekerja dengan fitur yang relevan dan bebas dari noise, sehingga performa dan efisiensi model meningkat.


#### Label Encoding

**Penjelasan Singkat tentang Label Encoder**

Label Encoder adalah teknik dalam preprocessing data yang digunakan untuk mengubah data kategori menjadi representasi numerik. Setiap kategori unik dalam data diberikan nilai integer. Teknik ini sering digunakan ketika model machine learning hanya dapat bekerja dengan data numerik.

**Cara Kerja:**
1. Setiap kategori unik diurutkan dan diberi label integer mulai dari 0.
2. Data kategori asli diubah menjadi nilai numerik berdasarkan label yang telah ditetapkan.

**Contoh:**
- Data kategori: `['Merah', 'Hijau', 'Biru']`
- Hasil encoding: `{'Merah': 0, 'Hijau': 1, 'Biru': 2}`

**Kelebihan:**
- Mudah digunakan dan sederhana untuk data kategori yang terurut atau ordinal.

**Kekurangan:**
- Tidak mempertahankan hubungan non-hierarkis antar kategori (misalnya, model dapat menganggap 2 lebih besar dari 1).

**Penggunaan:**
Label Encoder cocok untuk data kategori dengan hubungan ordinal, tetapi untuk data kategori nominal, teknik seperti One-Hot Encoding lebih disarankan.


#### Standard Scaling

**Penjelasan Singkat tentang Data Rescaling**

Data rescaling adalah proses transformasi data numerik ke dalam skala tertentu, biasanya untuk memastikan bahwa semua fitur memiliki rentang nilai yang serupa. Teknik ini penting dalam machine learning karena banyak algoritma sensitif terhadap perbedaan skala antar fitur, seperti regresi linier, SVM, dan algoritma berbasis gradien.

**Tujuan:**
- Menghindari dominasi fitur dengan rentang nilai besar terhadap fitur dengan nilai kecil.
- Mempercepat konvergensi model dalam proses pelatihan.

**Teknik Utama:**
1. **Min-Max Scaling**:
   - Mengubah data ke dalam rentang [0, 1] atau skala lain yang ditentukan.
   - Formula: 
     \[
     X_{\text{scaled}} = \frac{X - X_{\text{min}}}{X_{\text{max}} - X_{\text{min}}}
     \]

2. **Standardization (Z-Score Scaling)**:
   - Mengubah data agar memiliki mean 0 dan standar deviasi 1.
   - Formula:
     \[
     X_{\text{standardized}} = \frac{X - \mu}{\sigma}
     \]
     di mana \(\mu\) adalah rata-rata dan \(\sigma\) adalah standar deviasi.

**Kapan Diperlukan:**
- Jika fitur memiliki unit yang berbeda atau rentang nilai yang jauh berbeda.
- Untuk algoritma berbasis jarak (e.g., KNN) atau gradien (e.g., Logistic Regression, Neural Networks).

**Catatan Penting:**
- Rescaling harus dilakukan setelah memisahkan data pelatihan dan pengujian untuk menghindari data leakage.


#### Linear Regression

Linear regression adalah algoritma sederhana yang digunakan untuk **memprediksi hubungan antara dua variabel**: 

1. **Variabel independen** (X) – faktor yang digunakan untuk membuat prediksi.
2. **Variabel dependen** (Y) – hasil yang ingin diprediksi.

Tujuannya adalah **menemukan garis lurus** terbaik yang memetakan hubungan antara X dan Y. Garis ini disebut **garis regresi** dan dinyatakan dengan rumus:

\[
Y = mX + b
\]

- **m** adalah kemiringan garis (seberapa besar perubahan Y jika X berubah).
- **b** adalah titik potong garis di sumbu Y.

Dengan algoritma ini, kita bisa memprediksi nilai Y untuk nilai X tertentu berdasarkan pola data sebelumnya. Linear regression sering digunakan dalam analisis data dan prediksi yang sederhana.

### Use Gradient Boosting Regressor

Gradient Boosting Regressor adalah algoritma machine learning yang digunakan untuk **memprediksi nilai kontinu** (regresi) dengan cara menggabungkan banyak **model sederhana** (biasanya pohon keputusan) untuk membuat model yang kuat.

**Cara Kerjanya:**
1. **Membangun model awal**: Algoritma memulai dengan model prediksi sederhana (contohnya pohon keputusan kecil).
2. **Menghitung error**: Mengukur seberapa jauh prediksi model dari nilai sebenarnya.
3. **Belajar dari error**: Membuat model baru yang fokus memperbaiki error dari model sebelumnya.
4. **Menggabungkan model-model**: Semua model digabung secara bertahap untuk menghasilkan prediksi akhir yang lebih akurat.

### Using Random Forest Regressor

Random Forest Regressor adalah algoritma machine learning yang digunakan untuk **memprediksi nilai kontinu** (regresi) dengan cara menggabungkan banyak **pohon keputusan** untuk menghasilkan prediksi yang lebih akurat dan stabil.

**Cara Kerjanya:**
1. **Membuat banyak pohon keputusan**: Algoritma membangun banyak model pohon keputusan menggunakan bagian-bagian acak dari data.
2. **Menggabungkan hasil pohon**: Setiap pohon memberikan prediksi, dan hasil akhirnya adalah **rata-rata dari semua prediksi**.

Algoritma ini cocok untuk dataset dengan pola yang kompleks dan tidak linier.

### Using Tensorflow as Neural Network Regressor

Kode ini digunakan untuk membangun, melatih, dan mengevaluasi model regresi menggunakan TensorFlow. Berikut adalah penjelasan langkah-langkahnya:

1. **Membangun Model**
- **Input Layer**: Menggunakan `Dense` layer dengan 16 neuron dan aktivasi `relu`, mengambil input dengan dimensi sesuai data pelatihan (`X_train.shape[1]`).
- **Hidden Layer**: Menambahkan satu hidden layer dengan 8 neuron dan aktivasi `relu`.
- **Output Layer**: Layer terakhir memiliki 1 neuron tanpa aktivasi, sesuai dengan output regresi (nilai kontinu).

2. **Mengompilasi Model**
- **Optimizer**: Menggunakan `Adam` optimizer dengan learning rate yang disesuaikan (`0.001`).
- **Loss Function**: Menggunakan `mean_squared_error`, karena ini adalah fungsi yang umum digunakan untuk regresi.
- **Metrics**: `mean_absolute_error` digunakan sebagai metrik tambahan untuk mengevaluasi performa.

3. **Melatih Model**
- Model dilatih menggunakan `X_train` (data fitur) dan `y_train` (data target) selama 10 epoch. Proses pelatihan disimpan dalam variabel `history`.

4. **Prediksi**
- Setelah model dilatih, dilakukan prediksi pada data uji (`X_test`) menggunakan `model.predict()`. Hasil prediksi diratakan menjadi array 1D dengan `flatten()`.

5. **Evaluasi Model**
- **Mean Squared Error (MSE)**: Mengukur seberapa jauh prediksi model dari nilai sebenarnya dalam skala kuadrat.
- **R² Score**: Menilai seberapa baik model menjelaskan variasi dalam data.

6. **Mencetak Hasil**
- Hasil evaluasi model dicetak untuk memahami kinerjanya pada data uji, meliputi MSE dan R² score.

Kode ini secara keseluruhan menunjukkan proses dasar dalam membangun model regresi menggunakan TensorFlow, dengan fokus pada pelatihan, prediksi, dan evaluasi.
