# 💻 **Introduction - Data Cleaning**

Data cleaning adalah suatu prosedur untuk memastikan kebenaran, konsistensi, dan kegunaan suatu data yang ada dalam dataset. Caranya adalah dengan mendeteksi adanya error atau corrupt pada data, kemudian memperbaiki atau menghapus data jika memang diperlukan.

Proses data cleaning yang sering dilakukan adalah sebagai berikut

<li>Handling Missing Value</li>
<li>Redudansi Data (Data Duplikat)</li>
<li>Handling Outlier</li>
<li>Standarisasi Format Nilai</li>

Pada contoh dibawah ini akan dilakukan beberapa tahapan cleaning data dengan dataset yang telah disediakan

# 🏃🏻‍♂️ **A. First Step : Data yang Digunakan**

Data yang digunakan adalah data penjualan

In [15]:
# Import library yang dibutuhkan
import pandas as pd
import warnings

# Ignore all warnings
warnings.filterwarnings('ignore')

# Proses ekstraksi data
data_inventory = pd.read_excel('/content/DQToys Inventory.xlsx', engine = 'openpyxl')

# Tampilkan data
display(data_inventory)

Unnamed: 0,sale_id,date,product_name,product_category,product_cost,product_price,units,store_name,store_city,store_location,store_open_date,stock_on_hand
0,1.0,01/01/2017,Chutes & Ladders,Games,Rp. 158629,Rp. 206265,1,DQToys Padang 1,PADANG,Downtown,2010-07-31,1.0
1,,,Action Figure,Toys,Rp. 158629,Rp. 253901,1,DQToys Jayapura 2,Jayapura,Downtown,2011-04-01,6.0
2,3.0,01/01/2017,Deck Of Cards,Games,Rp. 63356,Rp. 110992,1,DQToys Semarang 1,Semarang,Commercial,2003-12-13,50.0
3,4.0,01/01/2017,Dart Gun,Sports & Outdoors,Rp. 190386,Rp. 253901,1,DQToys Medan 2,Medan,Commercial,2016-03-23,28.0
4,5.0,01/01/2017,Lego Bricks,Toys,Rp. 555597,Rp. 634991,1,DQToys Jayapura 3,JAYAPURA,Residential,2014-12-27,117.0
...,...,...,...,...,...,...,...,...,...,...,...,...
199995,199996.0,02/07/2017,Deck Of Cards,Games,Rp. 63356,Rp. 110992,1,DQToys Banda Aceh 1,Banda Aceh,Commercial,2010-06-12,32.0
199996,199997.0,02/07/2017,PlayDoh Can,Art & Crafts,Rp. 31599,Rp. 47477,1,DQToys Samarinda 1,Samarinda,Downtown,2008-08-22,74.0
199997,,,Animal Figures,Toys,Rp. 158629,Rp. 206265,3,DQToys Samarinda 1,Samarinda,Downtown,2008-08-22,12.0
199998,,02/07/2017,Deck Of Cards,Games,Rp. 63356,Rp. 110992,2,DQToys Surabaya 1,Surabaya,Residential,1992-09-18,63.0


In [None]:
data_inventory.columns

Index(['sale_id', 'date', 'product_name', 'product_category', 'product_cost',
       'product_price', 'units', 'store_name', 'store_city', 'store_location',
       'store_open_date', 'stock_on_hand'],
      dtype='object')

1. **sale_id**: ID unik untuk transaksi penjualan.
2. **date**: Tanggal terjadinya transaksi penjualan.
3. **product_name**: Nama produk yang dijual.
4. **product_category**: Kategori produk.
5. **product_cost**: Biaya perolehan produk.
6. **product_price**: Harga jual produk.
7. **units**: Jumlah unit produk yang terjual.
8. **store_name**: Nama toko tempat penjualan.
9. **store_city**: Kota tempat toko berada.
10. **store_location**: Lokasi spesifik toko.
11. **store_open_date**: Tanggal toko dibuka.
12. **stock_on_hand**: Jumlah stok produk yang tersedia di toko.

In [3]:
# Memperoleh informasi umum pada data
data_inventory.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 200000 entries, 0 to 199999
Data columns (total 12 columns):
 #   Column            Non-Null Count   Dtype  
---  ------            --------------   -----  
 0   sale_id           199990 non-null  float64
 1   date              199994 non-null  object 
 2   product_name      200000 non-null  object 
 3   product_category  200000 non-null  object 
 4   product_cost      200000 non-null  object 
 5   product_price     199995 non-null  object 
 6   units             200000 non-null  int64  
 7   store_name        200000 non-null  object 
 8   store_city        200000 non-null  object 
 9   store_location    200000 non-null  object 
 10  store_open_date   200000 non-null  object 
 11  stock_on_hand     199034 non-null  float64
dtypes: float64(2), int64(1), object(9)
memory usage: 18.3+ MB


# 📝 **B. Standarisasi Data**

Standarisasi data perlu dilakukan, karena :

* Standarisasi membantu memastikan bahwa semua fitur atau variabel dalam dataset memiliki konsistensi
* Mempermudah dalam melakukan proses analisa
* Menyeragamkan data, skema dan metadata lain yang disimpan ke basis data
* dll

Standarisasi data yang biasanya dilakukan adalah :      
* Menyeragamkan format tanggal (YYYY-MM-DD)
* Menyeragamkan format *free text*
* Mentransformasi tipe data yang sesuai
* dll


### 👨‍💻 Task B1

Pada dataframe `data_inventory`, Ubah format date DD/MM/YYYY pada kolom date di `data_inventory` menjadi format YYYY-MM-DD

Note : Untuk mengubah string menjadi format datetime gunakan sintaks berikut

```
pd.to_datetime(Series, format)
```

<p align="right"><sup>docs : <i><a href="https://pandas.pydata.org/docs/reference/api/pandas.to_datetime.html">https://pandas.pydata.org/docs/reference/api/pandas.to_datetime.html</i></sup></a></p>

Lalu lanjutkan dengan sintaks berikut untuk merubah format menjadi format yang diinginkan

```
Series.dt.strftime(format_yang_diinginkan)
```
<p align="right"><sup>docs : <i><a href="https://pandas.pydata.org/docs/reference/api/pandas.Series.dt.strftime.html">https://pandas.pydata.org/docs/reference/api/pandas.Series.dt.strftime.html</i></sup></a></p>



In [4]:
data_inventory['date'].unique()

array(['01/01/2017', nan, '02/01/2017', '03/01/2017', '04/01/2017',
       '05/01/2017', '06/01/2017', '07/01/2017', '08/01/2017',
       '09/01/2017', '10/01/2017', '11/01/2017', '12/01/2017',
       '13/01/2017', '14/01/2017', '15/01/2017', '16/01/2017',
       '17/01/2017', '18/01/2017', '19/01/2017', '20/01/2017',
       '21/01/2017', '22/01/2017', '23/01/2017', '24/01/2017',
       '25/01/2017', '26/01/2017', '27/01/2017', '28/01/2017',
       '29/01/2017', '30/01/2017', '31/01/2017', '01/02/2017',
       '02/02/2017', '03/02/2017', '04/02/2017', '05/02/2017',
       '06/02/2017', '07/02/2017', '08/02/2017', '09/02/2017',
       '10/02/2017', '11/02/2017', '12/02/2017', '13/02/2017',
       '14/02/2017', '15/02/2017', '16/02/2017', '17/02/2017',
       '18/02/2017', '19/02/2017', '20/02/2017', '21/02/2017',
       '22/02/2017', '23/02/2017', '24/02/2017', '25/02/2017',
       '26/02/2017', '27/02/2017', '28/02/2017', '01/03/2017',
       '02/03/2017', '03/03/2017', '04/03/2017', '

In [5]:
# Convert to datetime object
data_inventory['date'] = pd.to_datetime(data_inventory['date'], format='%d/%m/%Y')

# Tampilkan hasilnya
display(data_inventory)

Unnamed: 0,sale_id,date,product_name,product_category,product_cost,product_price,units,store_name,store_city,store_location,store_open_date,stock_on_hand
0,1.0,2017-01-01,Chutes & Ladders,Games,Rp. 158629,Rp. 206265,1,DQToys Padang 1,PADANG,Downtown,2010-07-31,1.0
1,,NaT,Action Figure,Toys,Rp. 158629,Rp. 253901,1,DQToys Jayapura 2,Jayapura,Downtown,2011-04-01,6.0
2,3.0,2017-01-01,Deck Of Cards,Games,Rp. 63356,Rp. 110992,1,DQToys Semarang 1,Semarang,Commercial,2003-12-13,50.0
3,4.0,2017-01-01,Dart Gun,Sports & Outdoors,Rp. 190386,Rp. 253901,1,DQToys Medan 2,Medan,Commercial,2016-03-23,28.0
4,5.0,2017-01-01,Lego Bricks,Toys,Rp. 555597,Rp. 634991,1,DQToys Jayapura 3,JAYAPURA,Residential,2014-12-27,117.0
...,...,...,...,...,...,...,...,...,...,...,...,...
199995,199996.0,2017-07-02,Deck Of Cards,Games,Rp. 63356,Rp. 110992,1,DQToys Banda Aceh 1,Banda Aceh,Commercial,2010-06-12,32.0
199996,199997.0,2017-07-02,PlayDoh Can,Art & Crafts,Rp. 31599,Rp. 47477,1,DQToys Samarinda 1,Samarinda,Downtown,2008-08-22,74.0
199997,,NaT,Animal Figures,Toys,Rp. 158629,Rp. 206265,3,DQToys Samarinda 1,Samarinda,Downtown,2008-08-22,12.0
199998,,2017-07-02,Deck Of Cards,Games,Rp. 63356,Rp. 110992,2,DQToys Surabaya 1,Surabaya,Residential,1992-09-18,63.0


### 👨‍💻 Task B2

Pada dataframe `data_inventory`, hapus simbol currency (Rp. ) pada kolom `product_cost` dan `product_price` kemudian konversi tipe datanya menjadi float

Untuk mengubah suatu string menjadi string yang lain gunakan sintaks

```
Series.str.replace(pat, repl, regex = False)
```

<p align="right"><sup>docs : <i><a href="https://pandas.pydata.org/docs/reference/api/pandas.Series.str.replace.html">https://pandas.pydata.org/docs/reference/api/pandas.Series.str.replace.html</i></sup></a></p>

Sedangkan untuk mengubah / mentransformasi tipedata gunakan

```
Series.astype(dtipe)
```

<p align="right"><sup>docs : <i><a href="https://pandas.pydata.org/docs/reference/api/pandas.Series.astype.html">https://pandas.pydata.org/docs/reference/api/pandas.Series.astype.html</i></sup></a></p>

In [16]:
# Hapus currency (Rp. ) pada kolom product_cost
data_inventory['product_cost'] = data_inventory['product_cost'].str.replace('Rp. ', '')

# Transformasi tipe data kolom product_cost menjadi float
data_inventory['product_cost'] = data_inventory['product_cost'].astype(float)

data_inventory.head()

Unnamed: 0,sale_id,date,product_name,product_category,product_cost,product_price,units,store_name,store_city,store_location,store_open_date,stock_on_hand
0,1.0,01/01/2017,Chutes & Ladders,Games,158629.0,Rp. 206265,1,DQToys Padang 1,PADANG,Downtown,2010-07-31,1.0
1,,,Action Figure,Toys,158629.0,Rp. 253901,1,DQToys Jayapura 2,Jayapura,Downtown,2011-04-01,6.0
2,3.0,01/01/2017,Deck Of Cards,Games,63356.0,Rp. 110992,1,DQToys Semarang 1,Semarang,Commercial,2003-12-13,50.0
3,4.0,01/01/2017,Dart Gun,Sports & Outdoors,190386.0,Rp. 253901,1,DQToys Medan 2,Medan,Commercial,2016-03-23,28.0
4,5.0,01/01/2017,Lego Bricks,Toys,555597.0,Rp. 634991,1,DQToys Jayapura 3,JAYAPURA,Residential,2014-12-27,117.0


In [17]:
# Hapus currency (Rp. ) pada kolom product_price
data_inventory['product_price'] = data_inventory['product_price'].str.replace('Rp. ', '')

# Transformasi tipe data kolom product_cost menjadi float
data_inventory['product_price'] = data_inventory['product_price'].astype(float)

In [None]:
# Tampilkan hasilnya
display(data_inventory)

Unnamed: 0,sale_id,date,product_name,product_category,product_cost,product_price,units,store_name,store_city,store_location,store_open_date,stock_on_hand
0,1,2017-01-01,Chutes & Ladders,Games,158629.0,206265.0,1,DQToys Padang 1,PADANG,Downtown,2010-07-31,1.0
1,,,Action Figure,Toys,158629.0,253901.0,1,DQToys Jayapura 2,Jayapura,Downtown,2011-04-01,6.0
2,3,2017-01-01,Deck Of Cards,Games,63356.0,110992.0,1,DQToys Semarang 1,Semarang,Commercial,2003-12-13,50.0
3,4,2017-01-01,Dart Gun,Sports & Outdoors,190386.0,253901.0,1,DQToys Medan 2,Medan,Commercial,2016-03-23,28.0
4,5,2017-01-01,Lego Bricks,Toys,555597.0,634991.0,1,DQToys Jayapura 3,JAYAPURA,Residential,2014-12-27,117.0
...,...,...,...,...,...,...,...,...,...,...,...,...
199995,199996,2017-07-02,Deck Of Cards,Games,63356.0,110992.0,1,DQToys Banda Aceh 1,Banda Aceh,Commercial,2010-06-12,32.0
199996,199997,2017-07-02,PlayDoh Can,Art & Crafts,31599.0,47477.0,1,DQToys Samarinda 1,Samarinda,Downtown,2008-08-22,74.0
199997,,,Animal Figures,Toys,158629.0,206265.0,3,DQToys Samarinda 1,Samarinda,Downtown,2008-08-22,12.0
199998,,2017-07-02,Deck Of Cards,Games,63356.0,110992.0,2,DQToys Surabaya 1,Surabaya,Residential,1992-09-18,63.0


### 👨‍💻 Task B3

Pada dataframe `data_inventory`, Ubah semua nilai yang ada di kolom store_name & store_city menjadi uppercase (kapital semua)<br>

Note :
Gunakan sintaks berikut untuk mengubah kolom / series menjadi uppercase

```
Series.str.upper()
```

<p align="right"><sup>docs : <i><a href="https://pandas.pydata.org/docs/reference/api/pandas.Series.str.upper.html">https://pandas.pydata.org/docs/reference/api/pandas.Series.str.upper.html</i></sup></a></p>

In [18]:
# Ubah kolom store_name menjadi uppercase semua
data_inventory['store_name'] = data_inventory['store_name'].str.upper()

# Ubah kolom store_city menjadi uppercase semua
data_inventory['store_city'] = data_inventory['store_city'].str.upper()

# Tampilkan hasilnya
display(data_inventory)

Unnamed: 0,sale_id,date,product_name,product_category,product_cost,product_price,units,store_name,store_city,store_location,store_open_date,stock_on_hand
0,1.0,01/01/2017,Chutes & Ladders,Games,158629.0,206265.0,1,DQTOYS PADANG 1,PADANG,Downtown,2010-07-31,1.0
1,,,Action Figure,Toys,158629.0,253901.0,1,DQTOYS JAYAPURA 2,JAYAPURA,Downtown,2011-04-01,6.0
2,3.0,01/01/2017,Deck Of Cards,Games,63356.0,110992.0,1,DQTOYS SEMARANG 1,SEMARANG,Commercial,2003-12-13,50.0
3,4.0,01/01/2017,Dart Gun,Sports & Outdoors,190386.0,253901.0,1,DQTOYS MEDAN 2,MEDAN,Commercial,2016-03-23,28.0
4,5.0,01/01/2017,Lego Bricks,Toys,555597.0,634991.0,1,DQTOYS JAYAPURA 3,JAYAPURA,Residential,2014-12-27,117.0
...,...,...,...,...,...,...,...,...,...,...,...,...
199995,199996.0,02/07/2017,Deck Of Cards,Games,63356.0,110992.0,1,DQTOYS BANDA ACEH 1,BANDA ACEH,Commercial,2010-06-12,32.0
199996,199997.0,02/07/2017,PlayDoh Can,Art & Crafts,31599.0,47477.0,1,DQTOYS SAMARINDA 1,SAMARINDA,Downtown,2008-08-22,74.0
199997,,,Animal Figures,Toys,158629.0,206265.0,3,DQTOYS SAMARINDA 1,SAMARINDA,Downtown,2008-08-22,12.0
199998,,02/07/2017,Deck Of Cards,Games,63356.0,110992.0,2,DQTOYS SURABAYA 1,SURABAYA,Residential,1992-09-18,63.0


---

# **🚫 C. *Missing Data***

*Missing data*, juga dikenal sebagai data yang hilang, merujuk pada keadaan di mana tidak ada nilai yang tersedia atau tercatat untuk satu atau lebih variabel dalam kumpulan data. Dalam konteks analisis data, *missing data* terjadi ketika ada kekosongan atau ketidakhadiran informasi dalam dataset yang sedang dianalisis.

Data yang hilang dapat berupa nilai yang sebenarnya tidak diketahui atau tidak ada (misalnya, orang yang tidak merespons pertanyaan dalam survei), atau bisa juga berupa nilai yang hilang secara tidak sengaja (misalnya, kesalahan entri data)

*Missing data* dapat memiliki dampak yang signifikan pada analisis data dan interpretasi hasilnya. Ketika data yang hilang tidak diperlakukan dengan benar, dapat menyebabkan bias, pengurangan ukuran sampel, pengurangan efisiensi statistik, kesulitan dalam analisis, atau kesalahan interpretasi. Perhatikan contoh berikut :<br>

**[Contoh Kasus]** Sebuah toko ingin memeriksa seberapa besar *Salary* pelanggan mempengaruhi tingkat kumulatif *Spending Money* perminggu di tokonya. Diberikan data sebagai berikut
<center>
<table>
  <tr>
    <td align="center">Loyalty</td>
    <td align="center">Salary</td>
    <td align="center">Spend</td>
  </tr>
  <tr>
    <td align="center">Silver</td>
    <td align="center">4.500.000</td>
    <td align="center">250.000</td>
  </tr>
  <tr>
    <td align="center">Silver</td>
    <td align="center">4.750.000</td>
    <td align="center">NULL</td>
  </tr>
  <tr>
    <td align="center">Silver</td>
    <td align="center">5.200.000</td>
    <td align="center">NULL</td>
  </tr>
  <tr>
    <td align="center">Gold</td>
    <td align="center">NULL</td>
    <td align="center">110.000</td>
  </tr>
  <tr>
    <td align="center">Gold</td>
    <td align="center">NULL</td>
    <td align="center">89.000</td>
  </tr>
  <tr>
    <td align="center">Gold</td>
    <td align="center">10.000.000</td>
    <td align="center">NULL</td>
  </tr>
  <tr>
    <td align="center">Gold</td>
    <td align="center">10.750.000</td>
    <td align="center">0</td>
  </tr>
  <tr>
    <td align="center">Gold</td>
    <td align="center">11.500.000</td>
    <td align="center">800.000</td>
  </tr>
</table>
</center>

<br>

**[Jawab]** : Untuk menjawab persoalan tersebut dapat menggunakan analisa regresi sederhana

Bentuk umum Regresi Linear Sederhana adalah sebagai berikut

\begin{equation}
y = m\cdot x + b
\end{equation}

dengan :   
<ul>  
<li>𝑦 = variabel dependen</li>
<li>𝑥 = variabel independen</li>
<li>𝑚 = slope / kemiringan (angka ini menyatakan perubahan nilai Y saat kenaikan satu satuan nilai X)</li>
<li>𝑏 = intersep, angka ini menyatakan nilai 𝑦 saat nilai 𝑥 = 0</li>
</ul>

𝑚 dan 𝑏 dirumuskan sebagai berikut :

<img src="https://i.stack.imgur.com/JxedC.jpg">

Menurut kalian, apakah perhitungan diatas mungkin dilakukan jika masih mengandung data yang hilang?
<br><br>
<p align="right"><sup>docs : <i><a href="https://pandas.pydata.org/docs/user_guide/missing_data.html">https://pandas.pydata.org/docs/user_guide/missing_data.html</i></sup></a></p>

<h3><b>👌 Simbol <i>Missing Data</i></b></h3>

Jika anda menemukan simbol seperti<br><br>
<center>
<table>
  <tr>
    <td align="center"><b>Simbol</b></td>
    <td align="center"><b>Sistem</b></td>
  </tr>
  <tr>
    <td align="center"><b>NULL</b></td>
    <td align="left">Database (SQL / NoSQL) dan beberapa bahasa pemrograman (C++, R)</td>
  </tr>
  <tr>
    <td align="center"><b>None</b></td>
    <td align="left">Python (Native)</td>
  </tr>
  <tr>
    <td align="center"><b>NA</b> atau <b>NaN</b> atau <b>NaT</b></td>
    <td align="left">Python dengan library tertentu (pandas / numpy)</td>
  </tr>
  <tr>
    <td align="center"><b>N/A</b></td>
    <td align="left">Excel</td>
  </tr>
  <tr>
    <td align="center">String Kosong, Simbol '-' atau teks lain</td>
    <td align="left">File format lain</td>
  </tr>
  <tr>
    <td align="center"><b>nil</b></td>
    <td align="left">Bahasa pemrograman Swift / Objective-C</td>
  </tr>
</table>
</center>
<br>

Maka ada data yang hilang (<i>Missing Data</i>) atau tidak terisi.


<h3><b>🗄️ Jenis <i>Missing Data</i></b></h3>

1. <b>Missing Completely at Random (MCAR)</b><br>
Misalkan pengumpulan data tentang tinggi badan dari sekelompok responden. Namun, dalam proses pengumpulan data, beberapa responden tidak mengisi pertanyaan tentang tinggi badan mereka. Setelah dianalisis, tidak ada pola yang menghubungkan data yang hilang dengan nilai variabel lainnya. Dalam hal ini, data yang hilang dapat dianggap sebagai hilang secara acak tanpa adanya keterkaitan dengan variabel yang diamati (MCAR).

2. <b>Missing at Random (MAR)</b><br>
Misalkan data pendapatan dan jenis kelamin. Jika responden pria lebih cenderung tidak memberikan informasi tentang pendapatan mereka daripada responden wanita, tetapi setelah diketahui jenis kelaminnya, ketidaklengkapan data tidak lagi berkaitan dengan pendapatan, maka hilangnya data dapat dikategorikan sebagai MAR

3. <b>Missing Not at Random (MNAR)</b><br>
Misalkan dilakukan survei tentang kebiasaan merokok di antara responden. Beberapa responden yang merokok berat mungkin enggan mengungkapkan informasi tersebut dalam survei karena merasa malu atau karena alasan lain. Dalam hal ini, data tentang kebiasaan merokok responden yang merokok berat akan cenderung hilang (MNAR) karena adanya pola tersembunyi terkait dengan variabel yang hilang (kebiasaan merokok responden).
<br>
<img src="https://raw.githubusercontent.com/bachtiyarmawork/DQLab-Project/main/Pilot%20Class%20-%20Jenis%20Missing%20Data.png" width="600" height="245">


<h3><b>🔍 Deteksi <i>Missing Data</i></b></h3>

Untuk mengetahui apakah sebuah data termasuk data yang hilang dapat menggunakan sintaks <br><br>

<center><code>DataFrame.isnull()</code> atau <code>DataFrame.isna()</code></center>

<br>Data yang ada akan diberi tanda **False** dan data yang hilang akan diberi tanda **True**<br>


docs : <i>https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.isnull.html</i>

### 👨‍💻 Task C1

Pada dataframe `data_inventory`, lakukan pemeriksaan kolom mana saja yang mempunyai *missing value* dan berapa jumlahnya?

Note :      
Untuk memeriksa apakah suatu nilai termasuk missing data gunakan sintaks

```
DataFrame.isnull()
```

Untuk memeriksa banyak nilai null pada setiap kolom tambahkan sintaks

```
DataFrame.isnull().sum()
```

<p align="right"><sup>docs : <i><a href="https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.isna.html">https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.isnull.html</i></sup></a></p>

In [19]:
# Pemeriksaan nilai null pada data
data_inventory.isnull()

Unnamed: 0,sale_id,date,product_name,product_category,product_cost,product_price,units,store_name,store_city,store_location,store_open_date,stock_on_hand
0,False,False,False,False,False,False,False,False,False,False,False,False
1,True,True,False,False,False,False,False,False,False,False,False,False
2,False,False,False,False,False,False,False,False,False,False,False,False
3,False,False,False,False,False,False,False,False,False,False,False,False
4,False,False,False,False,False,False,False,False,False,False,False,False
...,...,...,...,...,...,...,...,...,...,...,...,...
199995,False,False,False,False,False,False,False,False,False,False,False,False
199996,False,False,False,False,False,False,False,False,False,False,False,False
199997,True,True,False,False,False,False,False,False,False,False,False,False
199998,True,False,False,False,False,False,False,False,False,False,False,False


In [21]:
# Perhitungan banyak nilai null pada data
data_inventory.isnull().sum()

Unnamed: 0,0
sale_id,10
date,6
product_name,0
product_category,0
product_cost,0
product_price,5
units,0
store_name,0
store_city,0
store_location,0


### 👨‍💻 Task C2

Pada dataframe `data_inventory`, tampilkan semua data dimana kolom sale_id nya kosong / berupa missing value

Note :      
Untuk memeriksa nilai null pada sebuah kolom gunakan sintaks

```
Series.isnull()
```

<p align="right"><sup>docs : <i><a href="https://pandas.pydata.org/docs/reference/api/pandas.Series.isna.html">https://pandas.pydata.org/docs/reference/api/pandas.Series.isna.html</i></sup></a></p>

In [22]:
# Buat kondisi dimana sale_id kosong
conditions = data_inventory['sale_id'].isnull()

# Tampilkan hasilnya
display(data_inventory.loc[conditions])

Unnamed: 0,sale_id,date,product_name,product_category,product_cost,product_price,units,store_name,store_city,store_location,store_open_date,stock_on_hand
1,,,Action Figure,Toys,158629.0,253901.0,1,DQTOYS JAYAPURA 2,JAYAPURA,Downtown,2011-04-01,6.0
1999,,02/01/2017,Lego Bricks,Toys,555597.0,634991.0,1,DQTOYS KUPANG 3,KUPANG,Commercial,2014-06-27,21.0
8170,,,Colorbuds,Electronics,110992.0,238022.0,3,DQTOYS BANDA ACEH 2,BANDA ACEH,Downtown,2014-03-18,54.0
17614,,20/01/2017,Glass Marbles,Games,95114.0,174507.0,1,DQTOYS PEKANBARU 1,PEKANBARU,Downtown,2010-09-08,20.0
43130,,,Toy Robot,Electronics,333295.0,412689.0,1,DQTOYS PEKANBARU 1,PEKANBARU,Downtown,2010-09-08,23.0
58904,,,Colorbuds,Electronics,110992.0,238022.0,1,DQTOYS BANDUNG 2,BANDUNG,Downtown,2003-12-25,10.0
90180,,01/04/2017,Dart Gun,Sports & Outdoors,190386.0,253901.0,1,DQTOYS SEMARANG 1,SEMARANG,Commercial,2003-12-13,18.0
199997,,,Animal Figures,Toys,158629.0,206265.0,3,DQTOYS SAMARINDA 1,SAMARINDA,Downtown,2008-08-22,12.0
199998,,02/07/2017,Deck Of Cards,Games,63356.0,110992.0,2,DQTOYS SURABAYA 1,SURABAYA,Residential,1992-09-18,63.0
199999,,,PlayDoh Can,Art & Crafts,31599.0,47477.0,1,DQTOYS BANJARMASIN 2,BANJARMASIN,Commercial,2014-05-27,13.0


<h3><b>💡 Mengatasi <i>Missing Data</i></b></h3>

Untuk mengatasi hilangnya beberapa data yang telah diperoleh hal ini ada beberapa cara yang bisa dilakukan, diantaranya adalah :

1. Leave as it is (dibiarkan)
2. Filling the missing value (imputasi) with statistics value or other valid value
3. Drop them (hapus row yang mengandung missing value)


<p align="right"><sup>docs : <i><a href="https://pandas.pydata.org/docs/user_guide/missing_data.html">https://pandas.pydata.org/docs/user_guide/missing_data.html</i></sup></a></p>

<img src="https://i.imgur.com/68u0dD2.png">

<h3> <b>🚶1. <i>Leave As It Is</i></b></h3>

Mengatasi missing data dengan cara meninggalkannya begitu saja (leave as it is) atau tidak melakukan tindakan apa pun terhadap nilai yang hilang disebut dengan *ignoring missing data* atau *leave as it is* (biarkan saja). Ini berarti Anda membiarkan missing data tetap ada dalam dataset tanpa melakukan imputasi atau penghapusan.


docs : https://pandas.pydata.org/docs/user_guide/missing_data.html

<h4><b>📝 Ketentuan</i></b></h4>

Beberapa alasan umum mengapa memilih untuk membiarkan *missing data*:

* Missing data termuat pada kolom yang tidak digunakan dalam analisa data, contoh : Missing data pada Alamat rumah, hal ini dikarenakan alamat sering tidak digunakan dalam proses analisa sehingga jika kolom tersebut tidak terisi maka lebih baik untuk membiarkan saja

<h3><b>🔗2. <i>Drop Missing Value</i></b></h3>

Menghapus data dengan nilai yang hilang adalah salah satu cara untuk mengatasi missing data, tetapi keputusan ini harus dibuat dengan hati-hati dan dipertimbangkan. Namun, penting untuk mempertimbangkan konsekuensi penghapusan data, terutama jika missing data tersebut tidak bersifat acak atau jika variabel yang dihapus memiliki signifikansi dalam analisis. Seperti kehilangan informasi, mengubah total sampel, mengubah nilai statistik secara signifikan, dll.

<img src="https://i.imgur.com/tBvdfyX.png">

<h4><b>📝 Ketentuan</i></b></h4>

Beberapa alasan umum mengapa memilih untuk menghapus missing data:

* **Pentingnya Data yang Hilang**: Jika data yang hilang tidak kritis untuk tujuan analisis atau tidak memiliki dampak signifikan pada kesimpulan, beberapa orang mungkin memilih untuk menghapusnya untuk menyederhanakan analisis.

* **Ketidakberdayaan untuk Diperbaiki**: Terkadang, missing data mungkin terjadi pada variabel atau kolom yang sulit atau tidak mungkin diimputasi dengan benar. Dalam situasi seperti itu, menghapus data yang hilang mungkin menjadi alternatif yang lebih baik daripada imputasi yang tidak dapat diandalkan.

* **Ukuran Sampel yang Cukup Besar**: Jika jumlah total data sangat besar dan jumlah missing data relatif kecil, menghapusnya mungkin tidak signifikan secara statistik.

* **Konsistensi dengan Tujuan Analisis**: Jika tujuan analisis lebih fokus pada data yang lengkap dan penghapusan data yang hilang tidak mengarah pada bias yang tidak diinginkan, maka ini mungkin dianggap sebagai langkah yang wajar
<br>

**[Contoh]** : Dalam sebuah transaksi, `transaksi_id` adalah sebuah kolom dengan urgensi nilai yang tinggi. Ketidakadaan data `transaksi_id` menyebabkan kecurigaan adanya kerusakan sistem atau ditengarai adanya manipulasi data dan juga `transaksi_id` biasanya dianggap sebagai identifikasi unik dan penting dalam melacak dan menganalisis transaksi. Hal ini dikarenakan `transaksi_id` adalah kode yang di-*generate* secara otomatis oleh *system* saat transaksi terjadi. Sehingga user sering kali akan menghapus data jika transaksi_id-nya kosong.
<br>

Untuk menghapus missing data pada DataFrame gunakan sintaks

<center><code>DataFrame.dropna(subset, how)</code></center>

dengan
* **subset** adalah list kolom yang terdapat *missing data* didalamnya
* **how** dapat diisi 'any' (jika salah satu berisi null) atau 'all' (jika semuanya list kolom yang disebutkan mengandung missing data)(
<br>

docs : https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.dropna.html

### 👨‍💻 Task C3

Pada dataframe `data_inventory`, hapus data dimana **sale_id** dan **date**-nya berupa missing value / NULL. Hal ini dilakukan karena data tersebut dianggap data tidak valid karena kerusakan sistem

Note :      
Untuk memeriksa nilai null pada sebuah kolom gunakan sintaks

```
DataFrame.dropna(subset)
```

<p align="right"><sup>docs : <i><a href="https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.dropna.html">https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.dropna.html</i></sup></a></p>

In [24]:
# Periksa ukuran data sebelum di drop
data_inventory.shape

(200000, 12)

In [25]:
data_inventory[data_inventory[['sale_id', 'date']].isnull()]

Unnamed: 0,sale_id,date,product_name,product_category,product_cost,product_price,units,store_name,store_city,store_location,store_open_date,stock_on_hand
0,,,,,,,,,,,,
1,,,,,,,,,,,,
2,,,,,,,,,,,,
3,,,,,,,,,,,,
4,,,,,,,,,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...
199995,,,,,,,,,,,,
199996,,,,,,,,,,,,
199997,,,,,,,,,,,,
199998,,,,,,,,,,,,


In [26]:
# Lakukan proses dropna
data_inventory = data_inventory.dropna(subset = ['sale_id', 'date'])

# Periksa kembali ukuran
display(data_inventory.shape)

(199990, 12)

<h3><b>🧩 3. <i>Imputation</i></b></h3>

Proses imputasi merujuk pada metode atau teknik untuk mengisi nilai yang hilang dalam data. Ketika kita bekerja dengan data yang tidak lengkap, di mana beberapa nilai tidak tersedia atau hilang, imputasi digunakan untuk menggantikan nilai yang hilang dengan estimasi yang masuk akal berdasarkan informasi yang ada dalam data yang lengkap.

<h4><b>📝 Ketentuan</i></b></h4>

Ada beberapa alasan mengapa proses imputasi penting:

* **Mencegah kehilangan informasi:** Ketika kita memiliki data yang hilang, menghapus baris atau kolom yang mengandung nilai yang hilang dapat mengakibatkan kehilangan informasi yang berharga. Dengan mengimputasi nilai yang hilang, kita dapat mempertahankan sebagian besar data yang tersedia dan memaksimalkan penggunaannya.

* **Mempertahankan ukuran sampel yang cukup besar:** Dalam analisis statistik, ukuran sampel yang besar sering diinginkan untuk mendapatkan hasil yang lebih dapat diandalkan dan signifikan. Dengan mengisi nilai yang hilang, kita dapat mempertahankan ukuran sampel yang cukup besar dan mengurangi bias dalam analisis.

* **Meminimalkan distorsi hasil analisis:** Jika kita memiliki data yang hilang secara acak, menghapus baris atau kolom dengan nilai yang hilang dapat menghasilkan bias dalam analisis. Dengan mengimputasi nilai yang hilang, kita dapat meminimalkan distorsi hasil analisis dan menghasilkan estimasi yang lebih akurat.

* **Mempertahankan hubungan antar variabel:** Jika kita memiliki data yang hilang dalam beberapa variabel yang saling terkait, menghapus baris atau kolom dengan nilai yang hilang dapat mengganggu hubungan antar variabel tersebut. Dengan mengimputasi nilai yang hilang, kita dapat mempertahankan hubungan antar variabel yang penting dalam analisis.

* **Memungkinkan penggunaan algoritma yang mengharuskan data lengkap:** Beberapa algoritma atau metode analisis statistik memerlukan data yang lengkap untuk memberikan hasil yang valid. Dengan mengimputasi nilai yang hilang, kita dapat memungkinkan penggunaan algoritma ini dan memperoleh hasil yang akurat.

Proses imputasi dapat dilakukan menggunakan berbagai metode, seperti imputasi sederhana (seperti mengisi nilai yang hilang dengan rata-rata atau median), metode regresi, metode MICE, atau metode lainnya yang sesuai dengan karakteristik data dan tujuan analisis.

Untuk melakukan imputasi missing data pada Series gunakan sintaks

<center><code>Series.fillna(subset, how)</code></center>

dengan
* **subset** adalah list kolom yang terdapat *missing data* didalamnya
* **how** dapat diisi 'any' (jika salah satu berisi null) atau 'all' (jika semuanya list kolom yang disebutkan mengandung missing data)(
<br>

docs : https://pandas.pydata.org/docs/reference/api/pandas.Series.fillna.html

### 👨‍💻 Task C4

Pada dataframe `data_inventory`, isilah kolom **product_price** dengan nilai median data tersebut

Note :      
Untuk menghitung nilai median gunakan sintaks berikut

```
Series.median()
```

<p align="right"><sup>docs : <i><a href="https://pandas.pydata.org/docs/reference/api/pandas.Series.median.html">https://pandas.pydata.org/docs/reference/api/pandas.Series.median.html</i></sup></a></p>


Sedangkan untuk melakukan proses imputasi data gunakan sintaks berikut

```
DataFrame.fillna(value)
```

<p align="right"><sup>docs : <i><a href="https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.fillna.html">https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.fillna.html</i></sup></a></p>

In [27]:
data_inventory['product_price'].isna().sum()

5

In [29]:
data_inventory['product_price'].median()

238022.0

In [33]:
data_inventory.describe()

Unnamed: 0,sale_id,product_cost,product_price,units,stock_on_hand
count,199990.0,199990.0,199990.0,199990.0,199024.0
mean,100001.274914,164558.20535,229898.326071,1.294515,24.684661
std,57733.727428,123595.336009,135394.493531,0.782693,22.330594
min,1.0,31599.0,47477.0,1.0,0.0
25%,50003.25,95114.0,142750.0,1.0,9.0
50%,100002.5,126871.0,238022.0,1.0,18.0
75%,149999.75,190386.0,253901.0,1.0,32.0
max,199997.0,555597.0,634991.0,30.0,139.0


In [34]:
# Hitung median pada kolom product_price
median_product_price = data_inventory['product_price'].median()

# Lakukan proses imputasi pada kolom product_price dengan nilai mediannya
data_inventory['product_price'] = data_inventory['product_price'].fillna(median_product_price)

In [31]:
data_inventory.describe()

Unnamed: 0,sale_id,product_cost,product_price,units,stock_on_hand
count,199990.0,199990.0,199990.0,199990.0,199024.0
mean,100001.274914,164558.20535,229898.326071,1.294515,24.684661
std,57733.727428,123595.336009,135394.493531,0.782693,22.330594
min,1.0,31599.0,47477.0,1.0,0.0
25%,50003.25,95114.0,142750.0,1.0,9.0
50%,100002.5,126871.0,238022.0,1.0,18.0
75%,149999.75,190386.0,253901.0,1.0,32.0
max,199997.0,555597.0,634991.0,30.0,139.0


### 👨‍💻 Task C5

Pada dataframe `data_inventory`, isilah kolom **stock_on_hand** dengan nilai 0

In [35]:
# Lakukan proses imputasi pada kolom stock_on_hand dengan nilai 0
data_inventory['stock_on_hand'] = data_inventory['stock_on_hand'].fillna(0)

In [None]:
# Periksa kembali informasi umum pada data yang telah dilakukan transformasi sejauh ini
data_inventory.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 199994 entries, 0 to 199998
Data columns (total 12 columns):
 #   Column            Non-Null Count   Dtype  
---  ------            --------------   -----  
 0   sale_id           199994 non-null  object 
 1   date              199994 non-null  object 
 2   product_name      199994 non-null  object 
 3   product_category  199994 non-null  object 
 4   product_cost      199994 non-null  float64
 5   product_price     199994 non-null  float64
 6   units             199994 non-null  int64  
 7   store_name        199994 non-null  object 
 8   store_city        199994 non-null  object 
 9   store_location    199994 non-null  object 
 10  store_open_date   199994 non-null  object 
 11  stock_on_hand     199994 non-null  float64
dtypes: float64(3), int64(1), object(8)
memory usage: 19.8+ MB


---

#📑 **D. Redudansi Data**

Redudansi data adalah duplikasi atau penyimpanan data yang sama secara berulang dalam satu atau lebih tabel, sehingga data yang sama di simpan di dalam lebih dari 1 lokasi.

Data bisa terjadi duplikasi karena kesalahan manusia (<i>Human Error</i>) atau bisa jadi karena kesalahan sistem. Untuk mengatasinya kadang perlu diperiksa terlebih dahulu baru akan dilakukan tindakan seperti membiarkan saja atau perlu di hapus

<p align="right"><sup>docs : <i><a href="https://pandas.pydata.org/docs/user_guide/duplicates.html">https://pandas.pydata.org/docs/user_guide/duplicates.html</i></sup></a></p>

### 👨‍💻 Task C1

Pada dataframe `data_inventory`, lakukan pemeriksaan terhadap kolom **sale_id** yang mempunyai *duplicated value* dan berapa jumlahnya?

Note :      
Untuk memeriksa banyak nilai duplikat pada kolom tertentu gunakan sintaks

```
DataFrame.duplicated(subset, keep = False).sum()
```

<p align="right"><sup>docs : <i><a href="https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.drop_duplicates.html">https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.duplicated.html</i></sup></a></p>

In [44]:
# Periksa duplikasi kolom sale_id dan hitung
data_inventory.duplicated(subset = ['sale_id']).sum()

7

Setelah itu tampilkan data duplikat untuk diperiksa

In [39]:
# Buat kondisi
conditions = data_inventory.duplicated(subset = ['sale_id'], keep = False)

# Tampilkan hasilnya
display(data_inventory.loc[conditions].sort_values(by = 'sale_id'))

Unnamed: 0,sale_id,date,product_name,product_category,product_cost,product_price,units,store_name,store_city,store_location,store_open_date,stock_on_hand
10,12.0,01/01/2017,Deck Of Cards,Games,63356.0,110992.0,1,DQTOYS SEMARANG 1,SEMARANG,Commercial,2003-12-13,50.0
11,12.0,01/01/2017,Deck Of Cards,Games,63356.0,110992.0,1,DQTOYS TARAKAN 1,TARAKAN,Downtown,2013-06-07,68.0
1993,1995.0,02/01/2017,Dart Gun,Sports & Outdoors,190386.0,253901.0,1,DQTOYS JAKARTA 2,JAKARTA,Airport,2012-05-04,18.0
1994,1995.0,02/01/2017,PlayDoh Toolkit,Art & Crafts,63356.0,79235.0,3,DQTOYS JAYAPURA 1,JAYAPURA,Commercial,2008-12-16,27.0
18170,18172.0,20/01/2017,Lego Bricks,Toys,555597.0,634991.0,1,DQTOYS KENDARI 1,KENDARI,Downtown,2014-06-30,16.0
18171,18172.0,20/01/2017,Colorbuds,Electronics,110992.0,238022.0,1,DQTOYS SURABAYA 3,SURABAYA,Airport,2011-10-20,18.0
20980,18172.0,22/01/2017,Glass Marbles,Games,95114.0,174507.0,1,DQTOYS BANJARMASIN 2,BANJARMASIN,Commercial,2014-05-27,13.0
11110,22222.0,12/01/2017,Rubik's Cube,Games,285659.0,317416.0,1,DQTOYS MANADO 1,MANADO,Downtown,2007-01-31,10.0
22221,22222.0,24/01/2017,Colorbuds,Electronics,110992.0,238022.0,1,DQTOYS KUPANG 3,KUPANG,Commercial,2014-06-27,29.0
33332,22222.0,04/02/2017,Action Figure,Toys,158629.0,253901.0,1,DQTOYS BANJARMASIN 2,BANJARMASIN,Commercial,2014-05-27,10.0


### 👨‍💻 Task C2

Hapus row yang duplikat pada bagian sale_id dan keep bagian terakhir

Gunakan sintaks berikut untuk menghapus data duplikat

```
DataFrame.drop_duplicates(subset, keep)
```

<p align="right"><sup>docs : <i><a href="https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.drop_duplicates.html">https://pandas.pydata.org/docs/reference/api/pandas.Series.drop_duplicates.html</i></sup></a></p>


In [41]:
# Periksa ukuran data sebelum di drop
display(data_inventory.shape)

(199990, 12)

In [45]:
# Hapus data duplikat pada kolom sale_id
data_inventory = data_inventory.drop_duplicates(subset = ['sale_id'], keep = 'last')

In [46]:
# Periksa ukuran data sebelum di drop
display(data_inventory.shape)

(199983, 12)

In [47]:
# Tampilkan hasil akhir data yang telah dibersihkan
data_inventory

Unnamed: 0,sale_id,date,product_name,product_category,product_cost,product_price,units,store_name,store_city,store_location,store_open_date,stock_on_hand
0,1.0,01/01/2017,Chutes & Ladders,Games,158629.0,206265.0,1,DQTOYS PADANG 1,PADANG,Downtown,2010-07-31,1.0
2,3.0,01/01/2017,Deck Of Cards,Games,63356.0,110992.0,1,DQTOYS SEMARANG 1,SEMARANG,Commercial,2003-12-13,50.0
3,4.0,01/01/2017,Dart Gun,Sports & Outdoors,190386.0,253901.0,1,DQTOYS MEDAN 2,MEDAN,Commercial,2016-03-23,28.0
4,5.0,01/01/2017,Lego Bricks,Toys,555597.0,634991.0,1,DQTOYS JAYAPURA 3,JAYAPURA,Residential,2014-12-27,117.0
5,6.0,01/01/2017,Splash Balls,Sports & Outdoors,126871.0,142750.0,1,DQTOYS SURABAYA 1,SURABAYA,Residential,1992-09-18,7.0
...,...,...,...,...,...,...,...,...,...,...,...,...
199992,199993.0,02/07/2017,Action Figure,Toys,158629.0,253901.0,1,DQTOYS JAYAPURA 3,JAYAPURA,Residential,2014-12-27,0.0
199993,199994.0,02/07/2017,Action Figure,Toys,158629.0,253901.0,1,DQTOYS JAKARTA 4,JAKARTA,Commercial,2015-06-21,26.0
199994,199995.0,02/07/2017,Plush Pony,Toys,142750.0,317416.0,1,DQTOYS SURABAYA 2,SURABAYA,Commercial,1999-12-27,0.0
199995,199996.0,02/07/2017,Deck Of Cards,Games,63356.0,110992.0,1,DQTOYS BANDA ACEH 1,BANDA ACEH,Commercial,2010-06-12,32.0


**Written By :** <br>
<a href="https://linkedin.com/in/caroline-elzauli-silitonga"><img alt="Linked In Link" src="https://img.shields.io/badge/-Caroline%20E.%20Silitonga-0072b1?style=for-the-badge&logo=None&logoColor=white" align="left"/></a>

<br><br>**for :**

<a href="https://dqlab.id/"><img src="https://dqlab.id/files/dqlab/cache/87e30118ebba5ec7d96f6ea8c9dcc10b_x_118_X_55.png" align="left" /></a>