<a href="https://colab.research.google.com/github/AlanFirdaus13/Air-Poluttion-Clustering-with-K-Means-/blob/main/clustering_customer_segmentation.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Hard and Soft Clustering Customer Segmentation**

* Clustering merupakan sebuah teknik yang digunakan untuk menemukan sub-kelompok atau kluster. Prinsip dari clustering adalah data-data yang termasuk dalam kluster yang sama “diharapkan” memiliki kesamaan satu dengan yang lainnya, sedangkan data-data yang ada dalam kluster yang berbeda cukup berbeda dari satu kluster dengan cluster yang lainnya.

* Meskipun tanpa label, clustering memanfaatkan “karakter/pola” pada data bahwa data yang “mirip” akan berdekatan, seperti pada gambar di samping.

<div align="center">
    <img src="https://miro.medium.com/max/1280/1*WkU1q0Cuha2QKU5JnkcZBw.gif" width=50%/>
</div>

Tahapan yang akan dilakukan pada project meliputi:
<html>
    <body>
        <li>1. Data Preparation</li>
        <li>2. Analisis data dengan pivot table</li>
        <li>3. Analisis dan explorasi data</li>
        <li>4. Analisis segmentasi dengan model machine learning</li>
        <li>5. Build model ke joblib</li>
    </body>
</html>

## **1.Data Preparation**

In [None]:
# import library yang digunakan 
import numpy as np  # library untuk mengolah elemen larik pada python
import pandas as pd # library untuk mengelah dokumen pada python
import joblib 
import warnings 
import matplotlib.pyplot as plt

warnings.filterwarnings('ignore')

In [None]:
tdCustomer = pd.read_csv("https://raw.githubusercontent.com/AlanFirdaus13/Datasheet/master/Mall_Customers.csv")
print(tdCustomer)

<html>
    <h3>
        <b>Insight: </b>
    </h3>
    <p>
        Dari data tersebut dapat diketahui bahwa datasheet yang kita gunakan memiliki 
        jumlah data sebanyak 200 baris dan 5 kolom
    </p> 
</html>

In [None]:
# melihat informasi pada datasheet yang kita miliki
print(tdCustomer.info()) 
print("--------------")
# melihat index dari datasheet 
print(tdCustomer.keys()) 
print("--------------")
# menghitung jumlah data yang mengalami missing value
print(tdCustomer.isnull().sum())

<h3>
    <b>Insight:</b>
</h3>
<li>1.Tipe data dari datahshet yang kita miliki terdiri dari int64 dan object</li>
<li>2.Dataframe yang kita miliki 5 kolom dan 200 baris data</li>
<li>3.Tidak ada data yang bernilai kosong</li>

### 1.1 Cek duplikasi pada datasheet
tahap ini dilakukan pengecekan nilai antar fitur data apakah ada nilai data yang mengalami duplikasi

In [None]:
print("Jumlah duplikasi = ", tdCustomer.duplicated().sum())

<html>
    <h3>
        <b>Insight: </b>
    </h3>
    <p>
        dari hasil analisis tersebut didapatkan bahwa data yag kita miliki tidak ada nilai yang mengalami duplikasi
    </p> 
</html>

### **1.2 Grafik Pie Chart**
pada tahap ini melakukan analisis untuk mengetahui jumlah pelanggan terbanyak berdasarkan jenis kelamin

In [None]:
kat_customer = tdCustomer['Gender'].value_counts()
kat_size  = kat_customer.tolist()
kat_types = kat_customer.axes[0].tolist()
 
myexplode = [0.2, 0]

plt.figure(figsize=(6, 4))

plt.title('Presentase pelanggan berdasarkan gender', fontsize = 13, fontfamily = 'sans serif', y = 1.05)
patches, texts, autotexts = plt.pie(kat_size, labels = kat_types, autopct='%1.1f%%', startangle=360, explode=myexplode)

for text, autotext in zip(texts, autotexts):
    text.set_fontsize(12)
    autotext.set_fontsize(12)
    

plt.legend(loc='upper center', bbox_to_anchor=(0.5, 1.34), ncol=3)

plt.axis('equal')
plt.show()

<html>
    <h3>
        <b>Insight: </b>
    </h3>
    <p>
        dari hasil persentase tersebut didapat bahwa jumlah customer terbanyak berdasarkan jenis kelamin adalah perempuan
        dengan persentase <b>56.0%</b> sehingga kita dapat simpulkan bahwa perempuan adalah pelanggan yang paling banyak 
        berbelanja di toko dibandingkan dengan laki-laki
    </p> 
</html>

## **2.Analisis data dengan Pivot table**
dibagian 2 ini melakukan analisis statistik dari data tdCustomer tujuan dilakukan nya analisis statistik deskriptif ini untuk mempelajari hubungan yang dimiliki antar fitur dan sebagai acuan atau gambaran sementara untuk dilakukan kesimpulan sementara adapaun langkah-langkah pada tahap 2 ini :

<html>
    <body>
        <li>2.1 Perhitungan pivot table</li>
        <li>2.2 Summary dari dataframe</li>
    </body>
</html>

### **2.1 melakukan analisis data dengan pivot table**
melakukan analisis dengan menggunakan pivot table yang sudah disiapkan oleh library external dengan pandas dengan menggunakan pivot ini akan lebih memudahkan kita dalam melakukan explorasi data 

In [None]:
!pip install pivottablejs
from pivottablejs import pivot_ui
from IPython.display import HTML
from IPython.display import IFrame
import json, io

TEMPLATE = u"""
<!DOCTYPE html>
<html>
    <head>
        <meta charset="UTF-8">
        <title>PivotTable.js</title>

        <!-- external libs from cdnjs -->
        <link rel="stylesheet" type="text/css" href="https://cdnjs.cloudflare.com/ajax/libs/c3/0.4.11/c3.min.css">
        <script type="text/javascript" src="https://cdnjs.cloudflare.com/ajax/libs/d3/3.5.5/d3.min.js"></script>
        <script type="text/javascript" src="https://cdnjs.cloudflare.com/ajax/libs/c3/0.4.11/c3.min.js"></script>
        <script type="text/javascript" src="https://cdnjs.cloudflare.com/ajax/libs/jquery/1.11.2/jquery.min.js"></script>
        <script type="text/javascript" src="https://cdnjs.cloudflare.com/ajax/libs/jqueryui/1.11.4/jquery-ui.min.js"></script>
        <script type="text/javascript" src="https://cdnjs.cloudflare.com/ajax/libs/jquery-csv/0.71/jquery.csv-0.71.min.js"></script>


        <link rel="stylesheet" type="text/css" href="https://cdnjs.cloudflare.com/ajax/libs/pivottable/2.19.0/pivot.min.css">
        <script type="text/javascript" src="https://cdnjs.cloudflare.com/ajax/libs/pivottable/2.19.0/pivot.min.js"></script>
        <script type="text/javascript" src="https://cdnjs.cloudflare.com/ajax/libs/pivottable/2.19.0/d3_renderers.min.js"></script>
        <script type="text/javascript" src="https://cdnjs.cloudflare.com/ajax/libs/pivottable/2.19.0/c3_renderers.min.js"></script>
        <script type="text/javascript" src="https://cdnjs.cloudflare.com/ajax/libs/pivottable/2.19.0/export_renderers.min.js"></script>

        <style>
            body {font-family: Verdana;}
            .node {
              border: solid 1px white;
              font: 10px sans-serif;
              line-height: 12px;
              overflow: hidden;
              position: absolute;
              text-indent: 2px;
            }
            .c3-line, .c3-focused {stroke-width: 3px !important;}
            .c3-bar {stroke: white !important; stroke-width: 1;}
            .c3 text { font-size: 12px; color: grey;}
            .tick line {stroke: white;}
            .c3-axis path {stroke: grey;}
            .c3-circle { opacity: 1 !important; }
            .c3-xgrid-focus {visibility: hidden !important;}
        </style>
    </head>
    <body>
        <script type="text/javascript">
            $(function(){

                $("#output").pivotUI(
                    $.csv.toArrays($("#output").text())
                    , $.extend({
                        renderers: $.extend(
                            $.pivotUtilities.renderers,
                            $.pivotUtilities.c3_renderers,
                            $.pivotUtilities.d3_renderers,
                            $.pivotUtilities.export_renderers
                            ),
                        hiddenAttributes: [""]
                    } 
                    , {
                        onRefresh: function(config) {
                            var config_copy = JSON.parse(JSON.stringify(config));
                            //delete some values which are functions
                            delete config_copy["aggregators"];
                            delete config_copy["renderers"];
                            //delete some bulky default values
                            delete config_copy["rendererOptions"];
                            delete config_copy["localeStrings"];
                            $("#output2").text(JSON.stringify(config_copy, undefined, 2));
                        }
                    }
                    , %(kwargs)s
                    , %(json_kwargs)s)
                ).show();
             });
        </script>
        <div id="output" style="display: none;">%(csv)s</div>

        <textarea id="output2"
        style="float: left; width: 0px; height: 0px; margin: 0px; opacity:0;" readonly>
        </textarea>

        <button onclick="copyTextFunction()">Copy settings</button>
        <script>
        function copyTextFunction() {
                    var copyText = document.getElementById("output2");
                    copyText.select();
                    document.execCommand("copy");
                    }
        </script>

    </body>
</html>
"""


def pivot_cht_html(df, outfile_path = "pivottablejs.html", url="",
    width="100%", height="500",json_kwargs='',  **kwargs):
  with io.open(outfile_path, 'wt', encoding='utf8') as outfile:
      csv = df.to_csv(encoding='utf8')
      if hasattr(csv, 'decode'):
          csv = csv.decode('utf8')
      outfile.write(TEMPLATE %
            dict(csv=csv, kwargs=json.dumps(kwargs),json_kwargs=json_kwargs))
  
  IFrame(src=url or outfile_path, width=width, height=height)
  return HTML(outfile_path)

In [None]:
def pivot_ui(tdCustomer, **kwargs):
    import pivottablejs
    class _DataFrame(pd.DataFrame):
        def to_csv(self, **kwargs):
            return super().to_csv(**kwargs).replace("\r\n", "\n")
    return pivottablejs.pivot_ui(_DataFrame(tdCustomer), **kwargs)

In [None]:
pivot_ui(tdCustomer)

<html>
    <h3>
        <b>Insight: </b>
    </h3>
    <p>
        kita bisa melakukan analisis data dengan menggunakan pivot table untuk mencari insight dari hubungan antar data 
    </p> 
</html>

### 2.2 Analisis Statistik  Deskriptif 
ditahap ini melakukan analisis statistik deskriptif untuk melihat rangkuman dari hasil analisis statistik

In [None]:
tdCustomer.describe().T

<html>
    <h3>
        <b>Insight: </b>
    </h3>
    <ul>
        <li>1.nilai mean dari age merupakan nilai yang paling rendah dari keseluruhan data</li>
        <li>2.nilai mean annual income merupakan nilai yang paling tinggi dari keseluruhan data</li>
        <li>3.nilai mean dari spending score merupakan nilai tertinggi kedua setelah annual income</li>
        <li>4.Golongan usia customer bervariasi dari yang paling min yaitu umur 18 sampai usia 70 tahun</li>
        <li>5.pendapatan tahunan tertinggi mencapai angka 137 dengan kata lain kemampuan membeli customer konsumtif</li>
        <li>6.dan nilai skor tahunan tertinggi mencapai angka 99 dari 100 %</li>
    </ul>
</html>

## **3. Eksplorasi data dan analisis statistik**
dibagian 3 ini melakukan visualisasi data tujuan untuk mempelajari hubungan yang dimiliki antar fitur dan sebagai acuan atau gambaran sementara untuk dilakukan analisis adapaun langkah-langkah pada tahap 3 ini :

<html>
    <body>
        <li>3.1 Import library yang digunakan</li>
        <li>3.2 Analisis univariat dan bivariat</li>
        <li>3.3 Deteksi nilai outlier</li>
        <li>3.4 Analisis probilitas data dengan pdf dan cdf</li>
        <li>3.5 Grafik donat dan pie chart untuk data kategorik</li>
    </body>
</html>

### **3.1 import library yang digunakan**
pada bagian ketiga ini melakukan eksplorasi data dan analisis statistik dengan Displot, deteksi nilai outlier, 
analisis univariat, analisis bivariat dan analisis multivariat dengan menggunakan grafik jointplot yang sudah tersedia dari library seaborn

In [None]:
from matplotlib import rcParams
import matplotlib.pyplot as plt
import seaborn as sns 

%matplotlib inline     
sns.set(color_codes=True)
sns.set_theme(style="whitegrid")

plt.style.use('ggplot')

#### **3.1.1 Rename and Drop Columns**
pada tahap ini melakukan perubahan nama pada setiap kolom agar mudah dipahami

In [None]:
tdCustomer.drop('CustomerID', axis = 1, inplace = True)

In [None]:
tdCustomer = tdCustomer.rename(columns={"Annual Income (k$)":"Annual_Income", "Spending Score (1-100)":"Spending_Score"})
tdCustomer.head()

### **3.2 Analisis Univariat dan bivariat**
pada tahap ini melakukan analisis 2 variabel dengan analisis univariat untuk kolom kategori dan gender dengan menggunakan visualisasi countplot

In [None]:
sns.pairplot(tdCustomer, corner = True ,diag_kind="kde")
plt.show()

<html>
    <h3>
        <b>Insight: </b>
    </h3>
    <ul>
        <li>1.probabilitas distribusi data dari kolom age menunjukan hubungan yang positif 
            berarti data yang kita gunakan beragam</li>
        <li>2.probabilitas distribusi data dari kolom annual income menujukan hubungan yang negatif 
            berarti data yang kita gunakan kurang beragam dan perlu di preprocessing</li>
        <li>3.sedangkan untuk probabilitas distribusi data dari spending score memiliki hubungan yang simetri</li>
    </ul>
</html>

### **3.3 Deteksi nilai outlier**
sebelum membuat model machine learning kita perlu melakukan explorasi data untuk mengetahui apakah data kita sudah siap untuk digunakan atau data perlu diproses lebih lanjut seperti deteksi nilai outlier, teknik seleksi fitur atau pun data preprocessing

In [None]:
fig, axs = plt.subplots(1, 3, figsize=(9,4))

# buat grafik boxplot
sns.boxplot(y = 'Annual_Income', data = tdCustomer, ax=axs[0])
sns.boxplot(y = 'Spending_Score', data = tdCustomer, ax=axs[1])
sns.boxplot(y = 'Age', data = tdCustomer, ax=axs[2])

axs[0].set_xlabel("Annual Income",  fontsize = 10, fontfamily = 'serif')
axs[0].set_ylabel("Annual Income",  fontsize = 10, fontfamily = 'serif')

axs[1].set_xlabel("Spending Score", fontsize = 10, fontfamily = 'serif')
axs[1].set_ylabel("Spending Score", fontsize = 10, fontfamily = 'serif')

axs[2].set_xlabel("Age", fontsize = 10, fontfamily = 'serif')
axs[2].set_ylabel("Age", fontsize = 10, fontfamily = 'serif')

axs[0].grid(color = 'black', linestyle = '--', linewidth = 0.4)
axs[1].grid(color = 'black', linestyle = '--', linewidth = 0.4)
axs[2].grid(color = 'black', linestyle = '--', linewidth = 0.4)

plt.tight_layout()
plt.show()

<html>
    <h3>
        <b>Insight: </b>
    </h3>
    <ul>
        <li>1.Terdapat nilai outlier pada kolom data anuual income sehingga perlu kita tangani</li>
        <li>2.pada kolom spending score dan age tidak memiliki nilai yang mengalami outlier sehingga bisa kita proses</li>
    </ul>
</html>

#### **3.3.1 Deteksi data yang mengalami nilai outlier**
buat fungsi untuk menghitung jumlah nilai outlier yang terdeteksi dengan rumus IQR

In [None]:
# buat fungsi untuk menghitung jumlah nilai outlier pada setiap kolom
def detect_outliers(data, x):
    Q1 = tdCustomer[x].describe()['25%']
    Q3 = tdCustomer[x].describe()['75%']
    IQR = Q3-Q1
    return tdCustomer[(tdCustomer[x] < Q1-1.5*IQR) | (tdCustomer[x] > Q3+1.5*IQR)]

In [None]:
# total nilai yang mengalami outliers
print(detect_outliers(tdCustomer,'Annual_Income').count() + detect_outliers(tdCustomer,'Spending_Score').count()) 

<html>
    <h3>
        <b>Insight: </b>
    </h3>
    <p>
        1.Dari hasil analisis tersebut dapat diketahui bahwa jumlah data yang mengalami nilai outlier pada setiap data
        berjumlah 2 dan kita akan menghapus nilai ini dengan perhitungan IQR
    </p>
</html>

#### **3.3.2 Menghilangkan nilai outlier dengan rumus IQR**

In [None]:
# nilai outlier untuk fitur nilai matematika
Q1 = tdCustomer['Annual_Income'].quantile(0.25)
Q3 = tdCustomer['Annual_Income'].quantile(0.75)

IQR = Q3 - Q1
print("Nilai IQR dari data tersebut adalah :", IQR)
print('')

# preprocesing missing outliers
tdCustomer = tdCustomer[~((tdCustomer['Annual_Income'] < (Q1 - 1.5 * IQR )) | (tdCustomer['Annual_Income'] > (Q3 + 1.5 * IQR)))]

In [None]:
fig, axs = plt.subplots(1, 3, figsize=(9,4))

# buat grafik boxplot
sns.boxplot(y = 'Annual_Income', data = tdCustomer, ax=axs[0])
sns.boxplot(y = 'Spending_Score', data = tdCustomer, ax=axs[1])
sns.boxplot(y = 'Age', data = tdCustomer, ax=axs[2])

axs[0].set_xlabel("Annual Income",  fontsize = 10, fontfamily = 'serif')
axs[0].set_ylabel("Annual Income",  fontsize = 10, fontfamily = 'serif')

axs[1].set_xlabel("Spending Score", fontsize = 10, fontfamily = 'serif')
axs[1].set_ylabel("Spending Score", fontsize = 10, fontfamily = 'serif')

axs[2].set_xlabel("Age", fontsize = 10, fontfamily = 'serif')
axs[2].set_ylabel("Age", fontsize = 10, fontfamily = 'serif')

axs[0].grid(color = 'black', linestyle = '--', linewidth = 0.4)
axs[1].grid(color = 'black', linestyle = '--', linewidth = 0.4)
axs[2].grid(color = 'black', linestyle = '--', linewidth = 0.4)

plt.tight_layout()
plt.show()

<html>
    <h3>
        <b>Insight: </b>
    </h3>
    <p>
        1. setelah melakukan perhitungan nilai IQR, mengecek ulang apakah ada data yang mengalami 
        nilai outlier jika ada maka akan dilakukan perhitungan IQR lagi atau membuat model yang toleran dengan nilai outlier
    </p>
</html>

### **3.4 Analisis probabilitas dengan cdf dan pdf**
pada tahap ini akan dilakukan analisis probabilitas untuk mengetahui apakah distribusi data yang dipakai miliki probabiltas positif atau probabilitas negatif 

In [None]:
from scipy.stats import norm  # panggil library scipy untuk analisis cdf dan pdf

#### **3.4.1 Analisis CDF dan PDF untuk data annual income**

In [None]:
annual_income_mean = tdCustomer['Annual_Income'].mean()
annual_income_std  = tdCustomer['Annual_Income'].std()

pdf_annual_income = norm.pdf(tdCustomer['Annual_Income'], loc = annual_income_mean, scale = annual_income_std)
cdf_annual_income = norm.cdf(tdCustomer['Annual_Income'], loc = annual_income_mean, scale = annual_income_std)

fig, axs = plt.subplots(1,2, figsize=(8,4))
sns.kdeplot(x = tdCustomer['Annual_Income'], lw=2, ax=axs[0])
sns.lineplot(x = tdCustomer['Annual_Income'], y = pdf_annual_income, lw=2, ax=axs[0])

# plot grafik untuk cdf
sns.kdeplot(x = tdCustomer['Annual_Income'], cumulative=True, lw=2, ax=axs[1])
sns.lineplot(x = tdCustomer['Annual_Income'], y = cdf_annual_income, lw=2, ax=axs[1])

# buat legenda untuk informasi plot 1 dan 2 
axs[0].legend(["kde","pdf annual income"], shadow = True ,fontsize=9, loc="upper left")
axs[1].legend(["kde kumulatif", "cdf annual income"], shadow = True, fontsize=9)

# buat plot sumbu y pada plot 1
axs[0].set_ylabel("Probabilitas", fontsize=12)

# buat fungsi perulangan untuk sumbu x pada semua plot-
for ax in axs:
    ax.set_xlabel("Annual Income", fontsize=12) # set font 12 pada sumbu x
    ax.set_title("Probabilitas data dengan pdf dan cdf", fontsize = 10, loc="left")
    ax.grid(axis="y", color='darkgray', linestyle=':', linewidth=0.5)
        
ax.set_ylabel("Probabilitas kumulatif", fontsize=12) # set font 12 pada sumbu y

# tampilkan hasil visualisasi 
plt.tight_layout()
plt.grid(color='darkgray', linestyle=':', linewidth=0.5)
plt.show()

<html>
    <h3>
        <b>Insight: </b>
    </h3>
    <ul>
        <li>
            1.Pada tabel sebelah kiri nilai annual income memiliki probabilitas positif 
              dengan nilai kde nya hampir mendekati nilai probabilitas nya 
        </li>
        <li>
            2.Pada tabel sebelah kanan nilai annual income nilai kde dengan cdf nya hampir mendekati nilai probabilitas nya 
        </li>
    </ul>   
</html>

#### **3.4.2 Analisis Probabilitas untuk spending score**

In [None]:
spending_score_mean = tdCustomer['Spending_Score'].mean()
spending_score_std  = tdCustomer['Spending_Score'].std()

pdf_spending_score = norm.pdf(tdCustomer['Spending_Score'], loc = spending_score_mean, scale = spending_score_std)
cdf_spending_score = norm.cdf(tdCustomer['Spending_Score'], loc = spending_score_mean, scale = spending_score_std)

fig, axs = plt.subplots(1,2, figsize=(8,4))
sns.kdeplot(x = tdCustomer['Spending_Score'], lw=2, ax=axs[0])
sns.lineplot(x = tdCustomer['Spending_Score'], y = pdf_spending_score, lw=2, ax=axs[0])

# plot grafik untuk cdf
sns.kdeplot(x = tdCustomer['Spending_Score'], cumulative=True, lw=2, ax=axs[1])
sns.lineplot(x = tdCustomer['Spending_Score'], y = cdf_spending_score, lw=2, ax=axs[1])

# buat legenda untuk informasi plot 1 dan 2 
axs[0].legend(["kde","pdf spending score"], shadow = True ,fontsize=9, loc="upper left")
axs[1].legend(["kde kumulatif", "cdf spending score"], shadow = True, fontsize=9)

# buat plot sumbu y pada plot 1
axs[0].set_ylabel("Probabilitas", fontsize=12)

# buat fungsi perulangan untuk sumbu x pada semua plot-
for ax in axs:
    ax.set_xlabel("Spending score", fontsize=12) # set font 12 pada sumbu x
    ax.set_title("Probabilitas data dengan pdf dan cdf", fontsize = 10, loc="left")
    ax.grid(axis="y", color='darkgray', linestyle=':', linewidth=0.5)
        
ax.set_ylabel("Probabilitas kumulatif", fontsize=12) # set font 12 pada sumbu y

# tampilkan hasil visualisasi 
plt.tight_layout()
plt.grid(color='darkgray', linestyle=':', linewidth=0.5)
plt.show()

<html>
    <h3>
        <b>Insight: </b>
    </h3>
    <ul>
        <li>
            1.Pada tabel sebelah kiri nilai Spending score memiliki probabilitas simetri
              dengan nilai kde nya hampir mendekati nilai probabilitas nya 
        </li>
        <li>
            2.Pada tabel sebelah kanan nilai Spending score nilai kde dengan cdf nya hampir mendekati nilai probabilitas nya 
        </li>
    </ul>   
</html>

#### Analisis probabilitas untuk data umur

In [None]:
age_mean = tdCustomer['Age'].mean()
age_std  = tdCustomer['Age'].std()

pdf_age = norm.pdf(tdCustomer['Age'], loc = age_mean, scale = age_std)
cdf_age = norm.cdf(tdCustomer['Age'], loc = age_mean, scale = age_std)

fig, axs = plt.subplots(1,2, figsize=(8,4))
sns.kdeplot(x = tdCustomer['Age'], lw=2, ax=axs[0])
sns.lineplot(x = tdCustomer['Age'], y = pdf_age, lw=2, ax=axs[0])

# plot grafik untuk cdf
sns.kdeplot(x = tdCustomer['Age'], cumulative=True, lw=2, ax=axs[1])
sns.lineplot(x = tdCustomer['Age'], y = cdf_age, lw=2, ax=axs[1])

# buat legenda untuk informasi plot 1 dan 2 
axs[0].legend(["kde","pdf age"], shadow = True ,fontsize=9, loc="upper left")
axs[1].legend(["kde kumulatif", "cdf age"], shadow = True, fontsize=9)

# buat plot sumbu y pada plot 1
axs[0].set_ylabel("Probabilitas", fontsize=12)

# buat fungsi perulangan untuk sumbu x pada semua plot-
for ax in axs:
    ax.set_xlabel("age", fontsize=12) # set font 12 pada sumbu x
    ax.set_title("Probabilitas data dengan pdf dan cdf", fontsize = 10, loc="left")
    ax.grid(axis="y", color='darkgray', linestyle=':', linewidth=0.5)
        
ax.set_ylabel("Probabilitas kumulatif", fontsize=12) # set font 12 pada sumbu y

# tampilkan hasil visualisasi 
plt.tight_layout()
plt.grid(color='darkgray', linestyle=':', linewidth=0.5)
plt.show()

<html>
    <h3>
        <b>Insight: </b>
    </h3>
    <ul>
        <li>
            1.Pada tabel sebelah kiri nilai age memiliki probabilitas positif 
              dengan nilai kde nya mencapai nilai probabilitas nya 
        </li>
        <li>
            2.Pada tabel sebelah kanan nilai age nilai kde dengan cdf nya hampir mendekati nilai probabilitas nya 
        </li>
    </ul>   
</html>

In [None]:
plt.figure(figsize=(8,6))
matrix = np.triu(tdCustomer.corr())
sns.heatmap(tdCustomer.corr(), annot=True, cmap='Blues', mask=matrix)

<html>
    <h3>
        <b>Insight: </b>
    </h3>
    <ul>
        <li>
            dari visualisasi heatmap tersebut dapat diketahui bahwa korelasi antar fitur nya 
            sangat jauh atau tidak berpengaruh sama sekali
        </li>
    </ul>   
</html>

## **4. Segmentasi Customer dengan K-Means and Fuzzy C-Means**
dibagian 4 ini membuat model machine learning dengan tujuan mendapatkan pola tersembunyj pada data yang dijadikan pengetahuan untuk mengelompokkan customer berdasarkan kemampuan membeli dan umur dan memberi insight pada bisnis perusahaan :

<html>
    <body>
        <li>4.1 import library</li>
        <li>4.2 preprocessing data</li>
        <li>4.3 teknik elbow untuk optimasi nilai k</li>
        <li>4.4 buat model dengan k-means</li>
        <li>4.5 Insight dari analisis dengan Hard Clustering</li>
        <li>4.6 buat model dengan fuzzy c-means</li>
        <li>4.7 build model API dengan joblib</li>
    </body>
</html>

### **4.1 import library**

In [None]:
pip install fuzzy-c-means

In [None]:
from sklearn.preprocessing import StandardScaler, LabelEncoder
from fcmeans import FCM
from sklearn.cluster import KMeans
from time import time
from yellowbrick.cluster import SilhouetteVisualizer, KElbowVisualizer
sns.set(style = 'whitegrid')

<html>
    <h3>
        <b>Insight: </b>
    </h3>
    <p>
        Selanjutnya membuat variabel baru untuk menampung nilai tdCustomer ke dalam 
        variabel df_Customer untuk diproses model machine learning
    </p>
</html>

In [None]:
df_customer = tdCustomer
df_customer.head()

### **4.2 Preprocessing data**
ditahap ini melakukan manipulasi data dengan `standard scaler` agar nilai data-data tersebut memiliki nilai yang optimal dan tidak ada gap jarak antar nilai nya sehingga didapat hasil yang memuaskan pada saat membangun model machine learning. Data kategorik pada kolom gender diubah menjadi data numerik dengan `Label Encoder` agar dapat diproses pada saat proses komputasi

In [None]:
label = LabelEncoder()
df_customer['Gender'] = label.fit_transform(df_customer['Gender'])

scaler = StandardScaler()
Gender = df_customer['Gender']

df_customer.drop('Gender', axis=1)
df_customer = pd.DataFrame(scaler.fit_transform(df_customer), columns = df_customer.columns)
df_customer['Gender'] = Gender
df_customer.head()

<html>
    <h3>
        <b>Insight: </b>
    </h3>
    <p> 
        Dapat dilihat bahwa data yang kita miliki nilai nya sudah dimanipulasi dan sekarang memiliki nilai yang beragam dan
        jarak antar nilai nya tidak jauh satu sama lain, rentan nilai nya antara 0 dan juga 1 untuk semua data
    </p>
</html>

### **4.3 Teknik elbow (optimasi nilai k)**

* Koefisien silhouette dihitung menggunakan persamaan:

$$
\frac{b-a}{\max{(a, b)}},
$$

* dengan $a$ adalah jarak **intra-cluster**, yaitu jarak antar elemen dalam satu cluster, dan $a$ adalah jarak **inter-cluster**, yaitu jarak suatu elemen dengan elemen lain yang tidak dalam satu cluster yang sama. 

* Nilai koefisien silhouette berada pada rentang antara -1 sampai 1. Jika koefisien silhouette semakin mendekati 1, maka bisa dikatakan cluster yang dihasilkan sudah optimal.

* Kita bisa menggunakan fungsi `silhouette_score` dari scikit-learn.

In [None]:
wcss=[]

for i in range(1,11):
    model = KMeans(n_clusters= i, init='k-means++', random_state=0)
    start = time()
    model.fit(df_customer)
    wcss.append(model.inertia_)
    print(f"Done fitting KMeans in {time()-start:.3f}s")

# Good part of Yellowbrick
model = KMeans()
visualizer = KElbowVisualizer(model, k=(2,11), metric='distortion')
# Fit and show the performance with dataset
visualizer.fit(df_customer)
visualizer.show()

<html>
    <h3>
        <b>Insight: </b>
    </h3>
    <p>
        Dari hasil visualisasi tersebut didapat bahwa nilai k yang paling optimal adalah 4 dengan score <b>251.121</b>
        sehingga kita akan menggunakan nilai k ini untuk membuat model. 
    </p>
</html>

### **4.4 Buat model KMeans**

Oleh karena jumlah fitur yang sangat banyak, kita tidak bisa membuat visualisasi dalam bentuk 2 dimensi seperti contoh di bawah ini.

<div align="center">
<img src="https://miro.medium.com/max/948/1*XtLZeA1AY99lTFDAshYnmw.png" width=50%/>
</div>

#### 4.4.1 Grafik pairplot untuk visualisasi customer segmentation 
Kita akan coba menggunakan beberapa pasang fitur yang ada menggunakan `pairplot` dari Seaborn.
Sebagai contoh, kita akan gunakan hasil cluster dengan `K=4` dan menggunakan 20% dari total data karena alasan resource

In [None]:
km = KMeans(n_clusters= 4).fit(df_customer)
tdCustomer['category'] = km.labels_
sns.pairplot(data = tdCustomer, hue = 'category', palette = 'rainbow')
plt.show()

<html>
    <body>
        <h3>
            <b>Insight: </b>
        </h3>
        <p>
            dengan menggunakan visualisasi pairplot kita dapat sekaligus mengetahui hubungan fitur 
            dari pola yang terbentuk berdasarkan kemiripan antar datanya, dimana hasil segmentasi
            customer berdasarkan umur, kemampuan membeili dan skor dikelompokan dalam 4 kategori cluster
        </p>
    </body>
</html>

#### 4.4.2 Model Interpretation
berikut ini kita akan melakukan visualisasi scatter plot untuk mengelompokan hasil analisis yang sudah kita buat kedalam cluster yang sudah kita tentukan sebelum nya dengan menggunakan teknik metode elbow.

In [None]:
plt.figure(figsize=(10,6))
sns.scatterplot(x = 'Annual_Income', y = 'Spending_Score', hue="category",  
                 palette=['green','orange','brown','dodgerblue'], legend='full',data = tdCustomer, s = 60)
plt.xlabel('Annual Income (k$)')
plt.ylabel('Spending Score (1-100)') 
plt.title('Spending Score (1-100) vs Annual Income (k$)')
plt.show()

In [None]:
customer = df_customer.iloc[:, [2,3]]
customer_x = np.array(customer)

Kmeans = KMeans(n_clusters= 4, init='k-means++', n_init= 1, random_state=10)
Kmeans.fit(customer_x)

customer['cluster'] = Kmeans.labels_
customer.head()

In [None]:
y_kmeans= Kmeans.fit_predict(customer_x)

plt.figure(figsize=(6,4))

plt.scatter(customer_x[y_kmeans == 0, 0], customer_x[y_kmeans == 0, 1], s = 100, c = '#FF6000', label = 'Cluster 1')
plt.scatter(customer_x[y_kmeans == 1, 0], customer_x[y_kmeans == 1, 1], s = 100, c = '#FC2947', label = 'Cluster 2')
plt.scatter(customer_x[y_kmeans == 2, 0], customer_x[y_kmeans == 2, 1], s = 100, c = '#FFD93D', label = 'Cluster 3')
plt.scatter(customer_x[y_kmeans == 3, 0], customer_x[y_kmeans == 3, 1], s = 100, c = '#27E1C1', label = 'Cluster 4')

centers = Kmeans.cluster_centers_
plt.scatter(centers[:,0], centers[:,1], c='Black', s=100, alpha=1, marker ="+", label = 'Titik Tengah Data');

plt.title('Clustering Customer Segmentation')
plt.xlabel('Anuual_Income')
plt.ylabel('Spending_Score')

plt.grid(color='darkgray', linestyle=':', linewidth=0.5)
plt.legend(loc='center left', bbox_to_anchor=(1, 0.5), fontsize=11)
plt.show()

In [None]:
#3D Plot as we did the clustering on the basis of 3 input features
fig = plt.figure(figsize=(25,20))
ax = fig.add_subplot(111, projection='3d')
ax.scatter(tdCustomer.Age[tdCustomer.category == 0], tdCustomer["Annual_Income"][tdCustomer.category == 0], tdCustomer["Spending_Score"][tdCustomer.category == 0], c='purple', s=60)
ax.scatter(tdCustomer.Age[tdCustomer.category == 1], tdCustomer["Annual_Income"][tdCustomer.category == 1], tdCustomer["Spending_Score"][tdCustomer.category == 1], c='red', s=60)
ax.scatter(tdCustomer.Age[tdCustomer.category == 2], tdCustomer["Annual_Income"][tdCustomer.category == 2], tdCustomer["Spending_Score"][tdCustomer.category == 2], c='blue', s=60)
ax.scatter(tdCustomer.Age[tdCustomer.category == 3], tdCustomer["Annual_Income"][tdCustomer.category == 3], tdCustomer["Spending_Score"][tdCustomer.category == 3], c='green', s=60)
ax.view_init(35, 185)
plt.xlabel("Age")
plt.ylabel("Annual Income (k$)")
ax.set_zlabel('Spending Score (1-100)')
plt.show()

### **4.5 Insight dari analisis dengan Hard Clustering**

#### 4.5.1 clustering insight for Age, Annual Income and Spending Score

In [None]:
fig, ax = plt.subplots(1,3, figsize=(15,5))

sns.violinplot(x ='category', y ='Age', data = tdCustomer, ax=ax[0])
sns.violinplot(x ='category', y ='Annual_Income', data = tdCustomer, ax=ax[1])
sns.violinplot(x ='category', y ='Spending_Score', data = tdCustomer, ax=ax[2])
plt.tight_layout()
plt.show()

In [None]:
CustomerGroup = tdCustomer.groupby("category")[["Age","Annual_Income","Spending_Score"]].mean()
print(CustomerGroup.head())

#### 4.5 2 Filter data untuk setiap cluster 

In [None]:
group_1 = tdCustomer[tdCustomer['category']==0]

fig, ax = plt.subplots(1, 3, figsize=(15, 5))
sns.violinplot(x = 'Gender', y = 'Age', data = group_1, ax=ax[0])
sns.violinplot(x = 'Gender', y = 'Annual_Income', data = group_1, ax=ax[1])
sns.violinplot(x = 'Gender', y = 'Spending_Score', data = group_1, ax=ax[2])
plt.tight_layout()
plt.show()

<h3>
    <b>Insight:</b>
</h3>
<p>
Dapat dikatan kelompok pria dengan usia 35 tahun dan wanita dengan usia 39 tahun yang memiliki pendapatan dan pengeluaran yang cukup tinggi
</p> 
<li>1.Pada cluster 1 customer wanita dengan usia 70 tahun lebih banyak dibandinkan dengan customer pria yang berusia 65 tahun</li>
<li>2.Kemampuan membeli customer pada cluster 1 di dominasi oleh pria dengan pendapatan $k 80
<li>3.skor pengeluaran pada cluster 1 baik customer pria maupun wanita memliki angka yang sama yaitu mencapai angka 60% dari 100%</li>

In [None]:
group_2 = tdCustomer[tdCustomer['category']==1]

fig, ax = plt.subplots(1, 3, figsize=(15,5))
sns.violinplot(x = 'Gender', y = 'Age', data = group_2, ax=ax[0])
sns.violinplot(x = 'Gender', y = 'Annual_Income', data = group_2, ax=ax[1])
sns.violinplot(x = 'Gender', y = 'Spending_Score', data = group_2, ax=ax[2])

plt.tight_layout()
plt.show()

<h3>
    <b>Insight:</b>
</h3>
<p>
Kelompok usia pria dengan umur 27-40 tahun memiliki pendapan tinggi dan wanita dengan umur 28-40 tahun memiliki pendapatan rendah. Tetapi keduanya memiliki pengeluaran yang tinggi.
</p> 
<li>1.Pada cluster 2 customer wanita dan pria dewasa memiliki kategori usia 27-40 tahun</li>
<li>2.Kemampuan membeli customer pada cluster 2 di dominasi oleh pria dengan pendapatan mencapai $k 120
<li>3.skor pengeluaran pada cluster 2 baik customer pria maupun wanita memliki persentase yang tinggi mencapai angka 90%</li>

In [None]:
group_3 = tdCustomer[tdCustomer['category']==2]

fig, ax = plt.subplots(1, 3, figsize=(15,5))
sns.violinplot(x = 'Gender', y = 'Age', data = group_3, ax=ax[0])
sns.violinplot(x = 'Gender', y = 'Annual_Income', data = group_3, ax=ax[1])
sns.violinplot(x = 'Gender', y = 'Spending_Score', data = group_3, ax=ax[2])

plt.tight_layout()
plt.show()

<h3>
    <b>Insight:</b>
</h3>
<p>
Kelompok pria muda dengan umur 18-40 tahun memiliki pendapatan rendah, Kelompok wanita muda dengan umur 19-38 tahun memiliki pendapatan rendah, tetapi baik pria maupun wanita memiliki pengeluaran yang tinggi.
</p> 
<li>1.Pada cluster 3 customer pria dan wanita muda memiliki kategori usia 18-40 tahun</li>
<li>2.Kemampuan membeli customer pada cluster 2 di dominasi oleh wanita dengan pendapatan mencapai $k 62
<li>3.skor pengeluaran pada cluster 3 baik customer pria maupun wanita memliki persentase yang sangat tinggi mencapai angka 100%</li>

In [None]:
group_4 = tdCustomer[tdCustomer['category']==3]

fig, ax = plt.subplots(1, 3, figsize=(15,5))
sns.violinplot(x = 'Gender', y = 'Age', data = group_4, ax=ax[0])
sns.violinplot(x = 'Gender', y = 'Annual_Income', data = group_4, ax=ax[1])
sns.violinplot(x = 'Gender', y = 'Spending_Score', data = group_4, ax=ax[2])

plt.tight_layout()
plt.show()

<h3>
    <b>Insight:</b>
</h3>
<p>
Kelompok pria dengan umur 21-58 tahun memiliki pendapatan tinggi. Kelompok wanita dengan umur 19-59 tahun memiliki pendapatan rendah, tetapi baik pria maupun wanita memiliki pengeluaran yang rendah.
</p> 
<li>1.Pada cluster 4 customer pria dan wanita muda memiliki kategori usia 19-59 tahun</li>
<li>2.Kemampuan membeli customer pada cluster 4 di dominasi oleh pria dengan pendapatan, tetapi rendah untuk wanita.
<li>3.skor pengeluaran pada cluster 3 baik customer pria maupun wanita memliki persentase yang sangat rendah dibawah angka 50%</li>

### **4.6 buat model dengan fuzzy c-means (soft clustrering)**

In [None]:
from fcmeans import FCM

x = df_customer.iloc[:, :4]
x_array = np.array(x)

my_model = FCM(n_clusters=4)
my_model.fit(x_array)

centers = my_model.centers
labels = my_model.predict(x_array)

tdCustomer['C-means'] = labels
tdCustomer.head()

#### 4.6.1 Grafik Annual income vs spending score untuk soft clustering

In [None]:
plt.figure(figsize=(10,6))
sns.scatterplot(x = 'Annual_Income',y = 'Spending_Score',hue="C-means",  
                 palette=['green','orange','brown','dodgerblue'], legend='full',data = tdCustomer, s = 60)
plt.xlabel('Annual Income (k$)')
plt.ylabel('Spending Score (1-100)') 
plt.title('Spending Score (1-100) vs Annual Income (k$)')
plt.tight_layout()
plt.show()

#### 4.6.2 Grafik Pairplot untuk soft clustering

In [None]:
sns.pairplot(data = tdCustomer, hue = 'C-means', palette = 'rainbow')
plt.tight_layout()
plt.show()

### **4.7 Insight dari analisis soft clustering**

In [None]:
CustomerGroup1 = tdCustomer.groupby("C-means")[["Age","Annual_Income","Spending_Score"]].mean()
print(CustomerGroup1.head())

In [None]:
fig, ax = plt.subplots(1,3, figsize=(15,5))

sns.violinplot(x ='C-means', y ='Age', data = tdCustomer, ax=ax[0])
sns.violinplot(x ='C-means', y ='Annual_Income', data = tdCustomer, ax=ax[1])
sns.violinplot(x ='C-means', y ='Spending_Score', data = tdCustomer, ax=ax[2])
plt.tight_layout()
plt.show()

In [None]:
group_1 = tdCustomer[tdCustomer['C-means']==0]

fig, ax = plt.subplots(1, 3, figsize=(15,5))
sns.violinplot(x = 'Gender', y = 'Age', data = group_1, ax=ax[0])
sns.violinplot(x = 'Gender', y = 'Annual_Income', data = group_1, ax=ax[1])
sns.violinplot(x = 'Gender', y = 'Spending_Score', data = group_1, ax=ax[2])
plt.tight_layout()
plt.show()

<h3>
    <b>Insight:</b>
</h3>
<p>
Kelompok pria dan wanita paruh baya dengan umur 41-70 tahun memiliki pendapatan cukup tinggi, tetapi baik pria maupun wanita memiliki pengeluaran yang rendah.
</p> 
<li>1.Pada cluster 1 customer pria dan wanita paruh baya memiliki kategori usia 41-70 tahun</li>
<li>2.Kemampuan membeli customer pada cluster 2 di dominasi oleh pria dengan pendapatan mencapai $k 68
<li>3.skor pengeluaran pada cluster 1 baik customer pria maupun wanita memliki persentase yang rendah mencapai 60%</li>

In [None]:
group_2 = tdCustomer[tdCustomer['C-means']==1]

fig, ax = plt.subplots(1, 3, figsize=(15,5))
sns.violinplot(x = 'Gender', y = 'Age', data = group_2, ax=ax[0])
sns.violinplot(x = 'Gender', y = 'Annual_Income', data = group_2, ax=ax[1])
sns.violinplot(x = 'Gender', y = 'Spending_Score', data = group_2, ax=ax[2])

plt.tight_layout()
plt.show()

<h3>
    <b>Insight:</b>
</h3>
<p>
Kelompok pria dan wanita dewasa dengan umur 26-40 tahun memiliki pendapatan tinggi, tetapi baik pria maupun wanita memiliki pengeluaran yang tinggi.
</p> 
<li>1.Pada cluster 2 customer pria dan wanita paruh baya memiliki kategori usia 26-40 tahun</li>
<li>2.Kemampuan membeli customer pada cluster 2 di dominasi oleh pria dengan pendapatan mencapai $k 120
<li>3.skor pengeluaran pada cluster 2 baik customer wanita memliki persentase yang tinggi mencapai 92%</li>

In [None]:
group_3 = tdCustomer[tdCustomer['C-means']==2]

fig, ax = plt.subplots(1, 3, figsize=(15,5))
sns.violinplot(x = 'Gender', y = 'Age', data = group_3, ax=ax[0])
sns.violinplot(x = 'Gender', y = 'Annual_Income', data = group_3, ax=ax[1])
sns.violinplot(x = 'Gender', y = 'Spending_Score', data = group_3, ax=ax[2])

plt.tight_layout()
plt.show()

<h3>
    <b>Insight:</b>
</h3>
<p>
Kelompok pria dan wanita muda dengan umur 19-38 tahun memiliki pendapatan rendah, tetapi baik pria maupun wanita memiliki pengeluaran yang tinggi.
</p> 
<li>1.Pada cluster 3 customer pria dan wanita paruh baya memiliki kategori usia 19-38 tahun</li>
<li>2.Kemampuan membeli customer pada cluster 3 di dominasi oleh pria dengan pendapatan mencapai $k 63
<li>3.skor pengeluaran pada cluster 3 baik customer pria maupun wanita memliki persentase yang tinggi mencapai 90%</li>

In [None]:
group_4 = tdCustomer[tdCustomer['C-means']==3]

fig, ax = plt.subplots(1, 3, figsize=(15,5))
sns.violinplot(x = 'Gender', y = 'Age', data = group_4, ax=ax[0])
sns.violinplot(x = 'Gender', y = 'Annual_Income', data = group_4, ax=ax[1])
sns.violinplot(x = 'Gender', y = 'Spending_Score', data = group_4, ax=ax[2])

plt.tight_layout()
plt.show()

<h3>
    <b>Insight:</b>
</h3>
<p>
Kelompok usia paruh baya dengan umur 37-69 tahun memiliki pendapatan rendah, baik pria maupun wanita memiliki pengeluaran yang rendah.
</p> 
<li>1.Pada cluster 4 customer pria dan wanita paruh baya memiliki kategori usia 37-69 tahun</li>
<li>2.Kemampuan membeli customer pada cluster 4 di dominasi oleh pria dengan pendapatan mencapai $k 68
<li>3.skor pengeluaran pada cluster 4 baik customer pria maupun wanita memliki persentase yang rendah mencapai 60%</li>