# Prediksi Nilai Pembelian Perusahaan Berdasarkan Karakteristik dan Segmen Pasar
Proyek Machine Learning untuk submission kelas Dicoding: Machine Learning

**Pendekatan**: Regresi
**Target**: Purchase Amount


## 1. Pendahuluan
Perusahaan membutuhkan strategi yang lebih baik untuk memprioritaskan pelanggan potensial. Dengan memprediksi `Purchase Amount` berdasarkan data historis, perusahaan dapat lebih efektif mengalokasikan sumber daya dan strategi pemasaran.

## 2. Problem Domain
- **Latar Belakang**: Data pembelian perusahaan dari berbagai negara dan industri
- **Masalah**: Sulit memprediksi nilai pembelian perusahaan baru
- **Solusi**: Gunakan machine learning untuk memprediksi nilai pembelian
- **Manfaat**: Membantu tim sales fokus pada klien bernilai tinggi

## 3. Data Understanding
Kita akan menggunakan dataset dari Kaggle yang berisi informasi:
- Nama perusahaan, negara, wilayah
- Kategori produk, jumlah karyawan, revenue tahunan
- Jumlah pembelian (`Purchase Amount`)
- Segmen pelanggan


In [None]:
# Import library
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import LabelEncoder, StandardScaler
from sklearn.linear_model import LinearRegression
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_absolute_error, mean_squared_error, r2_score

In [None]:
# Load dataset
# Gantilah path di bawah sesuai dengan lokasi file CSV kamu
df = pd.read_csv('/content/company_purchasing.csv')
df.head()

## 4. Data Preparation
- Cek missing value
- Encode kolom kategorikal
- Normalisasi fitur numerik
- Split data

In [None]:
# Preprocessing dasar
# Contoh kode encoding dan scaling
cat_cols = ['Country', 'Region', 'Product Category', 'Customer Segment']
num_cols = ['Employee Count', 'Annual Revenue']

# Encode categorical
le = LabelEncoder()
for col in cat_cols:
    df[col] = le.fit_transform(df[col])

# Scale numerical
scaler = StandardScaler()
df[num_cols] = scaler.fit_transform(df[num_cols])

## 5. Modeling
Coba beberapa model regresi dan bandingkan performanya.

In [None]:
# Split data
X = df.drop(['Company Name', 'Purchase Amount'], axis=1)
y = df['Purchase Amount']

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

In [None]:
# Linear Regression
lr = LinearRegression()
lr.fit(X_train, y_train)
y_pred_lr = lr.predict(X_test)

## 6. Evaluation
Gunakan MAE, RMSE, dan R² Score untuk mengukur performa model.

In [None]:
# Evaluasi Linear Regression
mae = mean_absolute_error(y_test, y_pred_lr)
rmse = np.sqrt(mean_squared_error(y_test, y_pred_lr))
r2 = r2_score(y_test, y_pred_lr)

print(f"MAE: {mae:.2f}")
print(f"RMSE: {rmse:.2f}")
print(f"R²: {r2:.2f}")

## 7. Kesimpulan
Model regresi dapat digunakan untuk memprediksi nilai pembelian berdasarkan karakteristik perusahaan.

Langkah selanjutnya:
- Coba model lain: Random Forest, XGBoost
- Lakukan tuning parameter
- Tambahkan visualisasi hasil prediksi vs aktual