# UAS Project Streamlit: 
- **Nama:** Rival Achmad Firdaus
- **Dataset:** Dataset diambil dari Stack Overflow Developer Survey 2020. Stack Overflow Developer Survey adalah survei tahunan yang diadakan oleh platform komunitas Stack Overflow untuk mengumpulkan data tentang komunitas pengembang perangkat lunak. Survei ini memberikan wawasan mendalam tentang tren, preferensi bahasa pemrograman, pengalaman, dan aspek lainnya dalam komunitas pengembangan perangkat lunak secara global. Link data set: https://info.stackoverflowsolutions.com/rs/719-EMH-566/images/stack-overflow-developer-survey-2020.zip
- **URL Website:** [Di isi jika web streamlit di upload]



## Menentukan Pertanyaan Bisnis

- Pertanyaan 1:
Bagaimana distribusi gaji per tahun software developer secara global di tahun 2023?
- Pertanyaan 2:
Bagaimana faktor-faktor seperti pengalaman, tingkat pendidikan, jenis developer, dan negara berpengaruh terhadap gaji software developer?

## Import Semua Packages/Library yang Digunakan

import pandas as pd\
import matplotlib.pyplot as plt\
import numpy as np\
import pickle\
from sklearn.preprocessing import LabelEncoder\
from sklearn.linear_model import LinearRegression\
from sklearn.metrics import mean_squared_error, mean_absolute_error\
from sklearn.tree import DecisionTreeRegressor\
from sklearn.ensemble import RandomForestRegressor\
from sklearn.ensemble import GradientBoostingRegressor

## Data Wrangling

### Gathering Data

- Mengimpor library yang diperlukan.
- Membaca dataset dari file CSV.

### Assessing Data

- Melihat beberapa baris pertama dataset menggunakan df.head().
- Memilih kolom-kolom yang relevan untuk analisis.
- Memberikan nama baru pada kolom 'ConvertedComp' menjadi 'Salary'.
- Menghilangkan baris dengan nilai gaji (Salary) yang kosong.
- Melakukan pemeriksaan informasi dataset menggunakan df.info().

### Cleaning Data

- Menghapus baris dengan nilai yang kosong.
- Menyesuaikan kategorisasi negara dengan fungsi shorten_categories.
- Mengubah nilai-nilai 'YearsCodePro' yang berupa string menjadi format numerik.
- Mengubah tingkat pendidikan ('EdLevel') menjadi kategori yang lebih umum.
- Menggunakan LabelEncoder untuk mengubah variabel kategori menjadi numerik.

## Exploratory Data Analysis (EDA)

### Explore ...

## Visualization & Explanatory Analysis

### Pertanyaan 1:

- Menampilkan boxplot untuk visualisasi distribusi gaji per tahun berdasarkan negara\
fig, ax = plt.subplots(1, 1, figsize=(12, 7))\
df.boxplot('Salary', 'Country', ax=ax)\
plt.suptitle('Salary (US$) v Country')\
plt.title('')\
plt.ylabel('Salary')\
plt.xticks(rotation=90)\
plt.show()\
\
Dapat disimpulkan bahwa gaji pertahun software developer tertinggi berada di Amerika Serikat

### Pertanyaan 2:

- Menampilkan plot untuk visualisasi hubungan antara pengalaman, tingkat pendidikan, dan gaji\
\
Scatterplot pengalaman vs gaji\
plt.figure(figsize=(10, 6))\
plt.scatter(df['YearsCodePro'], df['Salary'], alpha=0.5)\
plt.title('YearsCodePro vs Salary')\
plt.xlabel('YearsCodePro')\
plt.ylabel('Salary')\
plt.show()\
\
Dapat disimpulkan bahwa semakin lama pengalaman developer maka semakin tinggi pula gajinya\
\
Boxplot tingkat pendidikan vs gaji\
fig, ax = plt.subplots(1,1, figsize=(12, 7))\
df.boxplot('Salary', 'EdLevel', ax=ax)\
plt.title('Salary (US$) v Edlevel')\
plt.ylabel('Salary')\
plt.xticks(rotation=90)\
plt.show()\
\
Dapat disimpulkan bahwa tingkat pendidikan dengan gaji tertinggi adalah sarjana

## Membuat Model 

Membuat dan melatih beberapa model seperti Linear Regression, Decision Tree, Random Forest, dan GridSearchCV.

### Training Model

- Training menggunakan Linear Regression\
from sklearn.linear_model import LinearRegression\
linear_reg = LinearRegression()\
linear_reg.fit(X, y.values)
- Training menggunakan Decision Tree\
from sklearn.tree import DecisionTreeRegressor\
dec_tree_reg = DecisionTreeRegressor(random_state=0)\
dec_tree_reg.fit(X, y.values)
- Training menggunakan Random Forest\
from sklearn.ensemble import RandomForestRegressor\
random_forest_reg = RandomForestRegressor(random_state=0)\
random_forest_reg.fit(X, y.values)
- Training menggunakan GridSearchCV\
from sklearn.model_selection import GridSearchCV\
max_depth = [None, 2,4,6,8,10,12]\
parameters = {"max_depth": max_depth}\
regressor = DecisionTreeRegressor(random_state=0)\
gs = GridSearchCV(regressor, parameters, scoring='neg_mean_squared_error')\
gs.fit(X, y.values)\
regressor = gs.best_estimator_\
regressor.fit(X, y.values)

### Evaluasi Model

- Menggunakan metrik evaluasi Root Mean Squared Error (RMSE)
- Benchmarking\
Error = Jumlah nilai(Dollar) yang meleset\
Linear Regression error: 39,177.69\
Decision Tree error: 29,414.94\
Random Forest error: 29,487.76\
GridSearchCV error: 30,462.27\
\
Jadi dapat disimpulkan bahwa training model yang paling bagus adalah Decision Tree

### Menyimpan Model

- Menyimpan model, label encoder, dan langkah-langkah lainnya menggunakan modul pickle\
import pickle\
data = {"model": regressor, "le_country": le_country, "le_education": le_education}\
with open('saved_steps.pkl', 'wb') as file:\
    pickle.dump(data, file)

## Conclusion

- Conclution pertanyaan 1\
Distribusi gaji per tahun software developer bervariasi berdasarkan negara, dengan beberapa negara memiliki median gaji yang lebih tinggi daripada yang lain. Negara dengan median gaji tertinggi adalah Amerika Serikat
- Conclution pertanyaan 2\
Pengalaman, tingkat pendidikan, dan negara asal mempengaruhi gaji software developer. Negara, khususnya, memiliki peran penting dalam menentukan besarnya gaji. Lebih lanjut, pengalaman dan tingkat pendidikan juga berkontribusi terhadap variasi gaji. Semakin lama pengalaman developer maka semakin tinggi pula gajinya. Tingkat pendidikan dengan gaji tertinggi adalah sarjana