<div style="padding: 60px;
  text-align: center;
  background: #d4afb9;
  color: #003049;
  font-size: 20px;">
  <h3> 📈 Introduction to Data Profiling using ydata-profiling</h3>
   <hr>
   <h5>🔬 Develop by Dwi Gustin Nurdialit</h5>
</div>

___

**Table of contents**<a id='toc0_'></a>    
- [🎯 Training Objectives](#toc1_)    
- [📊 Introduction to `ydata-profiling`](#toc2_)    
- [Why Use `ydata-profiling`](#toc3_)    
- [Profiling Data](#toc4_)    
  - [🤖 Import Library](#toc4_1_)    
  - [📥 Load Data](#toc4_2_)    
  - [📑 Profil Data](#toc4_3_)    
- [✨ Features](#toc5_)    
  - [`ProfileReport` Parameters](#toc5_1_)    
  - [Configuration Parameters](#toc5_2_)    
  - [📤 Profiling Export](#toc5_3_)    
- [📚 Reference](#toc6_)    

<!-- vscode-jupyter-toc-config
	numbering=false
	anchor=true
	flat=false
	minLevel=1
	maxLevel=6
	/vscode-jupyter-toc-config -->
<!-- THIS CELL WILL BE REPLACED ON TOC UPDATE. DO NOT WRITE YOUR TEXT IN THIS CELL -->

# <a id='toc1_'></a>[🎯 Training Objectives](#toc0_)

Pada materi kali ini, kita akan melakukan eksplorasi terhadap library ydata-profiling yang umum digunakan untuk analisis dan visualisasi data dengan detail. Materi yang akan kita bahas meliputi:

- Dasar-dasar profil data dan visualisasi menggunakan ydata-profiling.
- Mengeksplorasi pola data dan korelasi antar variabel.
- Kustomisasi lebih lanjut pada parameter-parameter ydata-profiling.

Dengan memahami dan menguasai fungsi-fungsi yang disediakan oleh ydata-profiling, kita dapat melakukan analisis data yang lebih mendalam dan mendapatkan wawasan yang berharga dari setiap dataset yang kita hadapi.

# <a id='toc2_'></a>[📊 Introduction to `ydata-profiling`](#toc0_)

`ydata-profiling` adalah library yang digunakan untuk melakukan analisis data secara komprehensif, termasuk profil data, visualisasi, dan penemuan pola yang dapat diintegrasikan dengan mudah dalam proyek analisis data. Dokumentasi penggunaan dapat ditemukan di [https://docs.profiling.ydata.ai/latest/](https://docs.profiling.ydata.ai/latest/).

![](https://docs.profiling.ydata.ai/latest/_static/img/ydata-profiling.gif)

Dengan menggunakan `ydata-profiling`, kita dapat dengan cepat memahami struktur dan karakteristik dari dataset yang kita miliki, serta menghasilkan laporan analisis yang kaya akan informasi untuk mendukung pengambilan keputusan yang lebih baik dalam berbagai konteks analisis data.

library ini juga memungkinkan kita untuk mengekspor hasil analisis ke berbagai bentuk seperti laporan interaktif HTML, atau tampilan visual yang dapat disesuaikan dengan mudah. 

> Salah satu aplikasi yang akan kita terapkan adalah mengekspor hasil analisis ke dalam bentuk dashboard Streamlit. Dengan demikian, pada penerapannya akan lebih mudah bagi pengguna untuk mengakses dan berinteraksi dengan hasil analisis data secara langsung melalui antarmuka yang intuitif dan dinamis.

# <a id='toc3_'></a>[Why Use `ydata-profiling`](#toc0_)

`ydata-profiling` adalah tools yang memiliki beberapa manfaat signifikan yang dapat diberikan oleh proses profil data. Beberapa keuntungan utamanya meliputi:

- **👌 Mudah untuk Dibuat**: Profil data dapat dibuat dengan cepat dan sederhana menggunakan beberapa baris kode.
- **📈 Menghasilkan Insight yang Lengkap dalam Bentuk Report**: Hasil analisis data ditampilkan dalam bentuk laporan komprehensif yang mencakup statistik deskriptif, distribusi data, dan visualisasi yang informatif.
- **🔍 Memahami Kualaitas Data**: Membantu dalam mengevaluasi kualitas data dengan mendeteksi missing values, duplikat, dan inkonsistensi lainnya dalam dataset.
- **🔗 Mudah Diintegrasikan**: Dapat diintegrasikan dengan berbagai tool dan framework data science lainnya, sehingga fleksibel untuk digunakan dalam berbagai workflow.
- **📊 Eksplorasi untuk Data yang Besar**: Dapat menangani dan menganalisis dataset yang besar, memberikan kemampuan untuk mengeksplorasi pola dan anomali dalam data dengan efisien.

Dengan `ydata-profiling`, kita dapat melakukan analisis data secara mendalam dan menyeluruh, sehingga memudahkan dalam memahami karakteristik dan kualitas dataset yang kita miliki.

# <a id='toc4_'></a>[Profiling Data](#toc0_)

Untuk menerapkan `ydata-profiling` dalam melakukan profiling terhadap data tabular yang kita miliki, berikut adalah langkah-langkah umum yang dapat diikuti:

1. **Instalasi ydata-profiling**: Pastikan library `ydata-profiling` sudah terinstal dalam lingkungan Python yang digunakan. Jika belum, instalasi dapat dilakukan dengan perintah `pip install ydata-profiling`.

2. **Impor Library**: Mulai dengan mengimpor `ydata-profiling` ke dalam skrip Python yang akan digunakan untuk melakukan profiling data.

3. **Load Data**: Siapkan data tabular yang ingin diprofilkan. Data ini bisa berupa file CSV, Excel, atau di-load langsung dari database atau sumber data lainnya.

4. **Profil Data**: Gunakan fungsi-fungsi yang disediakan oleh `ydata-profiling` untuk menganalisis data, seperti menghasilkan laporan profil, mengevaluasi kualitas data, dan mengeksplorasi pola data.

5. **Visualisasi Hasil**: Tampilkan hasil profiling dalam bentuk visualisasi yang informatif, seperti grafik, heatmap, atau tabel statistik.

Dengan mengikuti langkah-langkah ini, Anda dapat memanfaatkan `ydata-profiling` untuk mendapatkan wawasan yang mendalam mengenai data tabular yang sedang Anda analisis.

## <a id='toc4_1_'></a>[🤖 Import Library](#toc0_)

Untuk melakukan profiling data tabular, kita membutuhkan library pandas untuk membuka dan memanipulasi data tabular, serta `ydata_profiling` untuk melakukan profiling data. Kita akan mengimpor hanya `ProfileReport` dari `ydata_profiling`.

In [10]:
import pandas as pd 
from ydata_profiling import ProfileReport

## <a id='toc4_2_'></a>[📥 Load Data](#toc0_)

Untuk melakukan loading data tabular dan memanipulasinya menggunakan `ydata_profiling`, kita akan menggunakan library pandas untuk membaca data dan mengonversinya menjadi pandas dataframe.




In [11]:
# Load data menjadi pandas dataframe
data = pd.read_csv("data_input/promotion_clean.csv")

Dengan menggunakan pandas untuk membaca dan mengubah data menjadi dataframe, kita dapat melanjutkan untuk melakukan profiling data menggunakan `ydata_profiling` dengan mudah dan efisien. Pastikan data yang digunakan tersedia dalam format CSV, Excel, atau dapat diakses melalui database SQL untuk dapat diolah menggunakan `ydata_profiling`.

## <a id='toc4_3_'></a>[📑 Profil Data](#toc0_)

Setelah kita memiliki objek dataframe, kita bisa langsung melakukan generate report menggunakan fungsi `ProfileReport()`


In [12]:
# Membuat profil data menggunakan ProfileReport
report = ProfileReport(data)

In [14]:
%pip install ipywidgets
report.to_notebook_iframe()

Collecting ipywidgetsNote: you may need to restart the kernel to use updated packages.

  Using cached ipywidgets-8.1.3-py3-none-any.whl.metadata (2.4 kB)
Collecting widgetsnbextension~=4.0.11 (from ipywidgets)
  Using cached widgetsnbextension-4.0.11-py3-none-any.whl.metadata (1.6 kB)
Collecting jupyterlab-widgets~=3.0.11 (from ipywidgets)
  Using cached jupyterlab_widgets-3.0.11-py3-none-any.whl.metadata (4.1 kB)
Using cached ipywidgets-8.1.3-py3-none-any.whl (139 kB)
Using cached jupyterlab_widgets-3.0.11-py3-none-any.whl (214 kB)
Using cached widgetsnbextension-4.0.11-py3-none-any.whl (2.3 MB)
Installing collected packages: widgetsnbextension, jupyterlab-widgets, ipywidgets
Successfully installed ipywidgets-8.1.3 jupyterlab-widgets-3.0.11 widgetsnbextension-4.0.11


Summarize dataset: 100%|██████████| 50/50 [01:02<00:00,  1.25s/it, Completed]                                     
Generate report structure: 100%|██████████| 1/1 [00:37<00:00, 37.93s/it]
Render HTML: 100%|██████████| 1/1 [00:10<00:00, 10.11s/it]


Hasil dari profiling data dengan `ydata_profiling` akan mencakup beberapa bagian utama yang memberikan wawasan mendalam tentang data kita. Berikut adalah hasil yang dihasilkan dari profiling data:

1. **Overview**: 
   - Berisi ringkasan umum tentang dataset, termasuk jumlah baris dan kolom, ukuran dataset, dan informasi umum lainnya.

2. **Variables**: 
   - Menampilkan analisis mendetail untuk setiap variabel dalam dataset, termasuk distribusi, statistik deskriptif, dan deteksi outlier.

3. **Interactions**: 
   - Menunjukkan interaksi antar variabel dengan visualisasi interaktif, seperti scatter plot dan heatmap, untuk mengidentifikasi hubungan dan pola antar variabel.

4. **Correlations**: 
   - Menampilkan matriks korelasi untuk semua variabel numerik dalam dataset, membantu kita mengidentifikasi korelasi positif atau negatif yang kuat antara variabel.

5. **Missing values**: 
   - Mendeteksi dan memvisualisasikan nilai yang hilang dalam dataset, membantu kita memahami seberapa banyak data yang hilang dan pola hilangnya data tersebut.

6. **Sample**: 
   - Menyediakan sampel data yang mewakili dataset secara keseluruhan, memberikan gambaran langsung tentang struktur dan konten data.


# <a id='toc5_'></a>[✨ Features](#toc0_)

## <a id='toc5_1_'></a>[`ProfileReport` Parameters](#toc0_)

`ProfileReport` memiliki beberapa parameter utama yang dapat disesuaikan sesuai kebutuhan analisis data kita:

1. **df**: 
   - **Deskripsi**: DataFrame yang akan diprofiling.
   - **Contoh**: `df = my_data`

2. **title**: 
   - **Deskripsi**: Judul untuk laporan profil data.
   - **Argumen**: String yang menyediakan judul untuk laporan.
   - **Contoh**: `title="Profil Data Penjualan"`

3. **minimal**: 
   - **Deskripsi**: Menghasilkan laporan minimal yang lebih cepat dan lebih ringan.
   - **Argumen**: Boolean (True/False).
   - **Contoh**: `minimal=True`

4. **explorative**: 
   - **Deskripsi**: Mengaktifkan mode eksplorasi yang menyediakan lebih banyak wawasan dan visualisasi.
   - **Argumen**: Boolean (True/False).
   - **Contoh**: `explorative=True`

5. **sensitive**: 
   - **Deskripsi**: Mengaktifkan mode sensitif yang menyembunyikan informasi yang berpotensi sensitif.
   - **Argumen**: Boolean (True/False).
   - **Contoh**: `sensitive=True`

6. **orange_mode**: 
   - **Deskripsi**: Mengaktifkan mode oranye untuk menghasilkan laporan yang kompatibel dengan alat Orange.
   - **Argumen**: Boolean (True/False).
   - **Contoh**: `orange_mode=True`

7. **dark_mode**: 
   - **Deskripsi**: Mengaktifkan mode gelap untuk laporan.
   - **Argumen**: Boolean (True/False).
   - **Contoh**: `dark_mode=True`

8. **samples**:
   - **Deskripsi**: Menentukan jumlah sampel yang akan disertakan dalam laporan.
   - **Argumen**: Dictionary
   - **Contoh**: 
```python
samples={
        "head": 5,  # Menampilkan 5 baris pertama
        "tail": 5,  # Menampilkan 5 baris terakhir
        "random": 5,  # Menampilkan 5 baris acak
        "full": False  # Menonaktifkan tampilan sampel lengkap
        }
```



In [16]:
report1 = ProfileReport(
    df=data,
    title='Profiling Data Promotion',
    explorative = True,
    sensitive = True,
    dark_mode = True
)
report1.to_notebook_iframe()

Summarize dataset: 100%|██████████| 50/50 [00:28<00:00,  1.74it/s, Completed]                                     
Generate report structure: 100%|██████████| 1/1 [00:08<00:00,  8.25s/it]
Render HTML: 100%|██████████| 1/1 [00:02<00:00,  2.13s/it]


> Untuk parameter lain dapat dilihat pada [dokumentasi resmi](https://docs.profiling.ydata.ai/latest/advanced_settings/available_settings/#reports-appearance)

## <a id='toc5_2_'></a>[Configuration Parameters](#toc0_)

Untuk menggunakan fitur-fitur konfigurasi lainnya dalam `ProfileReport`, kita dapat mendefinisikan konfigurasi dalam bentuk dictionary dan menyertakannya sebagai argumen saat membuat objek `ProfileReport`.



In [17]:
# Definisikan dictionary konfigurasi
html_config={
        "minify_html": True,
        "use_local_assets": True,
        "inline": True,
        "navbar_show": False,
        "style": {
            "theme": "flatly",  # Menggunakan tema 'flatly' (dark)
            "primary_color": "#337ab7",
            "full_width": True
        }
    }

## <a id='toc5_3_'></a>[📤 Profiling Export](#toc0_)

Selain dapat melihat profil data langsung di notebook, kita juga dapat mengekspor hasil laporan ke berbagai format file untuk berbagi atau penyimpanan. Berikut beberapa format ekspor yang didukung:

1. **HTML**: 
   - **Deskripsi**: Ekspor laporan sebagai file HTML yang dapat dibuka di browser.
   - **Contoh**: `report.to_file("profil_data.html")`

2. **JSON**: 
   - **Deskripsi**: Ekspor laporan sebagai file JSON untuk pengolahan lebih lanjut atau integrasi dengan sistem lain.
   - **Contoh**: `report.to_file("profil_data.json")`

3. **Widget**: 
   - **Deskripsi**: Menyematkan laporan langsung di notebook menggunakan widget yang interaktif.
   - **Contoh**: `report.to_notebook_iframe()`

Dengan fitur ekspor ini, kita dapat memilih format yang sesuai dengan kebutuhan kolaborasi, presentasi, atau analisis lanjutan dari hasil profiling data yang telah kita lakukan menggunakan `ydata_profiling`.

In [18]:
report.to_file("profile_data.html")

Export report to file: 100%|██████████| 1/1 [00:00<00:00, 13.16it/s]


In [None]:
report2 = ProfileReport(data,
              html=html_config)
report2.to_notebook_iframe()

In [None]:
# untuk mengubah ke html
html_content = report.to_html()
# untuk menyimpan ke HTML
with open("profiling.html", "w") as file:
    file.write(html_content)

# <a id='toc6_'></a>[📚 Reference](#toc0_)

1. **Dokumentasi Resmi**: 
   - [ydata-profiling Documentation](https://ydata-profiling.ydata.ai/docs/master/index.html)

2. **Repositori GitHub**:
   - [ydata-profiling GitHub Repository](https://github.com/ydataai/ydata-profiling)

3. **Contoh Penggunaan dan Tutorial**:
   - [ydata-profiling Examples](https://ydata-profiling.ydata.ai/docs/master/examples.html)