# UAS Project Streamlit: 
- **Nama:** Rival Achmad Firdaus
- **Dataset:** Dataset diambil dari Stack Overflow Developer Survey 2023. Stack Overflow Developer Survey adalah survei tahunan yang diadakan oleh platform komunitas Stack Overflow untuk mengumpulkan data tentang komunitas pengembang perangkat lunak. Survei ini memberikan wawasan mendalam tentang tren, preferensi bahasa pemrograman, pengalaman, dan aspek lainnya dalam komunitas pengembangan perangkat lunak secara global. Link data set: https://insights.stackoverflow.com/survey
- **URL Website:** [Di isi jika web streamlit di upload]

## Menentukan Pertanyaan Bisnis

- Pertanyaan 1:
Bagaimana distribusi gaji per tahun software developer secara global di tahun 2023?
- Pertanyaan 2:
Bagaimana faktor-faktor seperti pengalaman, tingkat pendidikan, jenis developer, dan negara berpengaruh terhadap gaji software developer?

## Import Semua Packages/Library yang Digunakan

import pandas as pd\
import matplotlib.pyplot as plt\
import numpy as np\
import pickle\
from sklearn.preprocessing import LabelEncoder\
from sklearn.linear_model import LinearRegression\
from sklearn.metrics import mean_absolute_error\
from sklearn.tree import DecisionTreeRegressor\
from sklearn.ensemble import RandomForestRegressor\
from sklearn.ensemble import GradientBoostingRegressor

## Data Wrangling

### Gathering Data

- Mengimpor library yang diperlukan.
- Membaca dataset dari file CSV.

### Assessing Data

- Melihat beberapa baris pertama dataset menggunakan df.head().
- Memilih kolom-kolom yang relevan untuk analisis.
- Memberikan nama baru pada kolom 'ConvertedComp' menjadi 'Salary'.
- Menghilangkan baris dengan nilai gaji (Salary) yang kosong.
- Melakukan pemeriksaan informasi dataset menggunakan df.info().

### Cleaning Data

- Menghapus baris dengan nilai yang kosong.
- Menyesuaikan kategorisasi negara dengan fungsi shorten_categories.
- Mengubah nilai-nilai 'YearsCodePro' yang berupa string menjadi format numerik.
- Mengubah tingkat pendidikan ('EdLevel') menjadi kategori yang lebih umum.
- Menyesuaikan kategorisasi jenis developer dengan fungsi shorten_categories.
- Menggunakan LabelEncoder untuk mengubah variabel kategori menjadi numerik.

## Exploratory Data Analysis (EDA)

### Explore ...

Exploratory Data Analysis melibatkan\
Statistik Deskriptif: Menghitung dan merangkum statistik deskriptif seperti mean, median, modus, deviasi standar, dan kuartil\
Visualisasi Data: Membuat plot dan grafik untuk memvisualisasikan distribusi data, hubungan antar variabel, dan pola lainnya. Ini dapat mencakup histogram, scatter plot, box plot, dan grafik lainnya.\
Menangani Data Hilang: Mengidentifikasi dan menangani nilai-nilai yang hilang dalam dataset\
Pemeriksaan Outlier: Mengidentifikasi nilai-nilai ekstrem atau pencilan yang mungkin mempengaruhi analisis\
Transformasi Data: Jika diperlukan, melakukan transformasi data seperti normalisasi atau standarisasi untuk memudahkan analisis atau penggunaan model\
Pemeriksaan Korelasi: Mengevaluasi hubungan antar variabel dan mencari korelasi yang dapat memberikan wawasan tentang bagaimana variabel-variabel saling terkait\
Mengidentifikasi Pola atau Struktur: Menemukan pola, struktur, atau informasi menarik lainnya dalam data

## Visualization & Explanatory Analysis

### Pertanyaan 1:

- Menampilkan boxplot untuk visualisasi distribusi gaji per tahun berdasarkan negara\
fig, ax = plt.subplots(1, 1, figsize=(12, 7))\
df.boxplot('Salary', 'Country', ax=ax)\
plt.title('Salary (US$) v Country')\
plt.ylabel('Salary')\
plt.xticks(rotation=90)\
plt.show()\
\
Dapat disimpulkan bahwa nilai median gaji pertahun software developer tertinggi berada di Amerika Serikat

### Pertanyaan 2:

- Menampilkan plot untuk visualisasi hubungan antara pengalaman, tingkat pendidikan, jenis developer, dan gaji\
\
Scatterplot pengalaman vs gaji\
plt.figure(figsize=(10, 6))\
plt.scatter(df['YearsCodePro'], df['Salary'], alpha=0.5)\
plt.title('YearsCodePro vs Salary')\
plt.xlabel('YearsCodePro')\
plt.ylabel('Salary')\
plt.show()\
\
Secara garis besar gaji developer meningkat sesuai dengan semakin lamanya pengalaman\
\
Boxplot tingkat pendidikan vs gaji\
fig, ax = plt.subplots(1,1, figsize=(12, 7))\
df.boxplot('Salary', 'EdLevel', ax=ax)\
plt.title('Salary v Edlevel')\
plt.ylabel('Salary')\
plt.xticks(rotation=90)\
plt.show()\
\
Dapat disimpulkan bahwa tingkat pendidikan dengan nilai median gaji tertinggi adalah sarjana\
\
fig, ax = plt.subplots(1,1, figsize=(12, 7))\
df.boxplot('Salary', 'DevType', ax=ax)\
plt.title('Salary v DevType')\
plt.ylabel('Salary')\
plt.xticks(rotation=90)\
plt.show()\
\
Dapat disimpulkan bahwa jenis developer dengan nilai median gaji tertinggi adalah Senior Executive (C-Suite, VP, etc.)

## Membuat Model 

Membuat dan melatih beberapa model seperti Linear Regression, Decision Tree, Random Forest, dan Gradient Boosting.

### Training Model

- Training menggunakan Linear Regression\
from sklearn.linear_model import LinearRegression\
linear_reg = LinearRegression()\
linear_reg.fit(X, y.values)
- Training menggunakan Decision Tree\
from sklearn.tree import DecisionTreeRegressor\
dec_tree_reg = DecisionTreeRegressor(random_state=0)\
dec_tree_reg.fit(X, y.values)
- Training menggunakan Random Forest\
from sklearn.ensemble import RandomForestRegressor\
random_forest_reg = RandomForestRegressor(random_state=0)\
random_forest_reg.fit(X, y.values)
- Training menggunakan Gradient Boosting\
from sklearn.ensemble import GradientBoostingRegressor
grad_boost_reg = GradientBoostingRegressor(random_state=0)
grad_boost_reg.fit(X, y.values)

### Evaluasi Model

- Menggunakan metrik evaluasi Mean Absolute Error (MAE)
Tidak menggunakan akurasi karena variabel target (salary) bersifat kontinu (nilai numerik) bukan kategori.
- Benchmarking\
Error = rata-rata nilai(Dollar) yang meleset\
Linear Regression error: 36,315.13\
Decision Tree error: 17,880.92\
Random Forest error: 19,695.64\
Gradient Boosting error: 24,762.60\
\
Jadi dapat disimpulkan bahwa training model yang paling baik adalah Decision Tree

### Menyimpan Model

- Menyimpan model, label encoder, dan langkah-langkah lainnya menggunakan modul pickle\
import pickle\
data = {"model": dec_tree_reg, "le_country": le_country, "le_education": le_education, "le_devtype": le_devtype}\
with open('saved_steps.pkl', 'wb') as file:\
    pickle.dump(data, file)

## Conclusion

- Conclution pertanyaan 1\
Distribusi gaji per tahun software developer di tahun 2023 bervariasi berdasarkan negara, dengan beberapa negara memiliki median gaji yang lebih tinggi daripada yang lain. Negara dengan median gaji tertinggi adalah Amerika Serikat.
- Conclution pertanyaan 2\
Pengalaman, tingkat pendidikan, jenis developer, dan negara asal mempengaruhi gaji software developer. Negara, khususnya, memiliki peran penting dalam menentukan besarnya gaji. Lebih lanjut, pengalaman, tingkat pendidikan, dan jenis developer juga berkontribusi terhadap variasi gaji. Secara garis besar gaji developer meningkat sesuai dengan semakin lamanya pengalaman. Tingkat pendidikan dengan median gaji tertinggi adalah sarjana. Jenis developer dengan median gaji tertinggi adalah Senior Executive (C-Suite, VP, etc.).