# Analisis Deskriptif Data Penjualan

Notebook ini berisi analisis deskriptif sederhana untuk data penjualan berdasarkan demografis (gender dan umur).

In [None]:
# Import library yang diperlukan
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

# Setting untuk visualisasi
plt.style.use('seaborn-v0_8-whitegrid')
sns.set(font_scale=1.2)
%matplotlib inline

## 1. Membaca Data

In [None]:
# Membaca file CSV
df = pd.read_csv('../sales_data.csv')

# Melihat beberapa baris pertama
df.head()

In [None]:
# Informasi dasar tentang dataset
print("Jumlah baris:", df.shape[0])
print("Jumlah kolom:", df.shape[1])
print("\nInformasi kolom:")
df.info()

In [None]:
# Statistik deskriptif
df.describe()

## 2. Analisis Berdasarkan Gender

In [None]:
# Distribusi gender
gender_counts = df['gender'].value_counts()
print("Jumlah pelanggan berdasarkan gender:")
print(gender_counts)

# Visualisasi distribusi gender
plt.figure(figsize=(8, 5))
sns.countplot(x='gender', data=df)
plt.title('Distribusi Gender')
plt.xlabel('Gender')
plt.ylabel('Jumlah')
plt.show()

In [None]:
# Analisis revenue berdasarkan gender
gender_revenue = df.groupby('gender')['revenue'].agg(['mean', 'median', 'sum', 'count'])
print("Statistik revenue berdasarkan gender:")
print(gender_revenue)

# Visualisasi rata-rata revenue berdasarkan gender
plt.figure(figsize=(8, 5))
sns.barplot(x='gender', y='revenue', data=df, estimator=np.mean)
plt.title('Rata-rata Revenue Berdasarkan Gender')
plt.xlabel('Gender')
plt.ylabel('Rata-rata Revenue (Rp)')
plt.show()

In [None]:
# Visualisasi distribusi revenue berdasarkan gender
plt.figure(figsize=(10, 6))
sns.boxplot(x='gender', y='revenue', data=df)
plt.title('Distribusi Revenue Berdasarkan Gender')
plt.xlabel('Gender')
plt.ylabel('Revenue (Rp)')
plt.show()

## 3. Analisis Berdasarkan Umur

In [None]:
# Membuat kelompok umur
df['age_group'] = pd.cut(df['age'], bins=[18, 25, 35, 45, 55], labels=['18-25', '26-35', '36-45', '46-55'])

# Distribusi kelompok umur
age_group_counts = df['age_group'].value_counts().sort_index()
print("Jumlah pelanggan berdasarkan kelompok umur:")
print(age_group_counts)

# Visualisasi distribusi kelompok umur
plt.figure(figsize=(10, 5))
sns.countplot(x='age_group', data=df, order=['18-25', '26-35', '36-45', '46-55'])
plt.title('Distribusi Kelompok Umur')
plt.xlabel('Kelompok Umur')
plt.ylabel('Jumlah')
plt.show()

In [None]:
# Analisis revenue berdasarkan kelompok umur
age_group_revenue = df.groupby('age_group')['revenue'].agg(['mean', 'median', 'sum', 'count'])
print("Statistik revenue berdasarkan kelompok umur:")
print(age_group_revenue)

# Visualisasi rata-rata revenue berdasarkan kelompok umur
plt.figure(figsize=(10, 5))
sns.barplot(x='age_group', y='revenue', data=df, estimator=np.mean, order=['18-25', '26-35', '36-45', '46-55'])
plt.title('Rata-rata Revenue Berdasarkan Kelompok Umur')
plt.xlabel('Kelompok Umur')
plt.ylabel('Rata-rata Revenue (Rp)')
plt.show()

In [None]:
# Visualisasi hubungan antara umur dan revenue
plt.figure(figsize=(12, 6))
sns.scatterplot(x='age', y='revenue', data=df, hue='gender')
plt.title('Hubungan Umur dan Revenue')
plt.xlabel('Umur')
plt.ylabel('Revenue (Rp)')
plt.show()

## 4. Analisis Kombinasi Gender dan Umur

In [None]:
# Rata-rata revenue berdasarkan kombinasi gender dan kelompok umur
gender_age_revenue = df.groupby(['gender', 'age_group'])['revenue'].mean().unstack()
print("Rata-rata revenue berdasarkan gender dan kelompok umur:")
print(gender_age_revenue)

# Visualisasi dengan heatmap
plt.figure(figsize=(12, 6))
sns.heatmap(gender_age_revenue, annot=True, fmt='.0f', cmap='Blues')
plt.title('Rata-rata Revenue Berdasarkan Gender dan Kelompok Umur')
plt.ylabel('Gender')
plt.xlabel('Kelompok Umur')
plt.show()

In [None]:
# Visualisasi dengan grouped bar chart
plt.figure(figsize=(12, 6))
gender_age_df = df.groupby(['age_group', 'gender'])['revenue'].mean().reset_index()
sns.barplot(x='age_group', y='revenue', hue='gender', data=gender_age_df, order=['18-25', '26-35', '36-45', '46-55'])
plt.title('Rata-rata Revenue Berdasarkan Gender dan Kelompok Umur')
plt.xlabel('Kelompok Umur')
plt.ylabel('Rata-rata Revenue (Rp)')
plt.legend(title='Gender')
plt.show()

## 5. Kesimpulan

Beberapa kesimpulan dari analisis deskriptif:

1. Distribusi gender: ...
2. Perbedaan revenue berdasarkan gender: ...
3. Pengaruh umur terhadap revenue: ...
4. Segmen demografis dengan revenue tertinggi: ...