# Proyek Analisis Data Dico 

### Persiapan
> siapkan environment, sangat disarankan Anda untuk selalu membuat virtual env baru pada setiap proyek. Hal ini untuk meminimalisasi masalah yang berhubungan dengan dependency pada library yang akan digunakan.

##### virtual environment menggunakan conda
- conda create --name main-ds python=3.9
- conda activate main-ds
- pip install numpy pandas scipy matplotlib seaborn jupyter
- Buat sebuah folder baru yang akan menjadi directory utama dalam proyek ini. 

### Proses gathering data
> Setelah tahap persiapan selesai, kita bisa masuk ke tahap gathering data. Pada tahap ini, kita akan mengumpulkan semua data yang dibutuhkan.


In [33]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

customers_df = pd.read_csv("https://raw.githubusercontent.com/dicodingacademy/dicoding_dataset/main/DicodingCollection/customers.csv")
#head() menampilkan 5 baris teratas data
customers_df.head()
orders_df = pd.read_csv("https://raw.githubusercontent.com/dicodingacademy/dicoding_dataset/main/DicodingCollection/orders.csv")
orders_df.head()
product_df = pd.read_csv("https://raw.githubusercontent.com/dicodingacademy/dicoding_dataset/main/DicodingCollection/products.csv")
product_df.head()
sales_df = pd.read_csv("https://raw.githubusercontent.com/dicodingacademy/dicoding_dataset/main/DicodingCollection/sales.csv")
sales_df.head()

Unnamed: 0,sales_id,order_id,product_id,price_per_unit,quantity,total_price
0,0,1,218,106,2,212.0
1,1,1,481,118,1,118.0
2,2,1,2,96,3,288.0
3,3,1,1002,106,2,212.0
4,4,1,691,113,3,339.0


### Proses Assessing Data
> Sekarang kita masuk ke tahap kedua dalam proses data wrangling yaitu assessing data. Seperti yang telah kita bahas sebelumnya, pada proses ini kita akan menilai kualitas dari seluruh data yang akan digunakan. Penilaian ini bertujuan untuk melihat berbagai permasalahan yang ada dalam data tersebut.

In [34]:
#memeriksa tipe data dan missing value dan duplikasi data
# table customer
customers_df.info()  # chek tipe data dan missing value 
print("missing value customer_df:\n", customers_df.isna().sum()) # sum missing value
print("jumlah duplikasi customer_df:\n", customers_df.duplicated().sum()) # sum/chek duplikasi data
print("table customer\n", customers_df.describe())

# table orders
orders_df.info() # chek tipe data dan missing value
print("Jumlah duplikasi product_df:\n",orders_df.duplicated().sum()) # sum/chek duplikasi data
print("table orders\n", orders_df.describe())

# table product 
product_df.info() # chek tipe data dan missing value
print("Jumlah duplikasi product_df:\n", product_df.duplicated().sum())  # sum/chek duplikasi data
print("table product\n", product_df.describe())

# table sales
sales_df.info() # chek tipe data dan missing value
print("missing value sales_df:\n", sales_df.isna().sum()) # sum missing value
print("Jumlah duplikasi sales_df:\n", sales_df.duplicated().sum()) # sum/chek duplikasi data
print("table sales\n", sales_df.describe())


'''method describe() memeriksa parameter statistik dari kolom numerik yang terdapat 
dalam customers_df. Untuk mempermudah pemeriksaan, kita akan menggunakan 
method describe(). Method tersebut akan menampilkan ringkasan parameter 
statistik (mean, median, dll.) '''


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1007 entries, 0 to 1006
Data columns (total 9 columns):
 #   Column         Non-Null Count  Dtype 
---  ------         --------------  ----- 
 0   customer_id    1007 non-null   int64 
 1   customer_name  1007 non-null   object
 2   gender         989 non-null    object
 3   age            1007 non-null   int64 
 4   home_address   1007 non-null   object
 5   zip_code       1007 non-null   int64 
 6   city           1007 non-null   object
 7   state          1007 non-null   object
 8   country        1007 non-null   object
dtypes: int64(3), object(6)
memory usage: 70.9+ KB
missing value customer_df:
 customer_id       0
customer_name     0
gender           18
age               0
home_address      0
zip_code          0
city              0
state             0
country           0
dtype: int64
jumlah duplikasi customer_df:
 6
table customer
        customer_id          age     zip_code
count  1007.000000  1007.000000  1007.000000
mean    50

'method describe() memeriksa parameter statistik dari kolom numerik yang terdapat \ndalam customers_df. Untuk mempermudah pemeriksaan, kita akan menggunakan \nmethod describe(). Method tersebut akan menampilkan ringkasan parameter \nstatistik (mean, median, dll.) '

### Proses cleaning data
> proses terakhir dalam data wrangling yaitu pembersihan atau cleaning data. Pada tahap ini, kita akan membersihkan berbagai masalah yang telah teridentifikasi dalam proses assessing data.

_Berdasarkan hasil proses assessing data, diketahui bahwa terdapat tiga masalah yang dijumpai dalam customer_df, yaitu duplicate data, missing value, dan inaccurate value. Pada tahap ini, kita akan membersihkan ketiga masalah tersebut._

In [40]:
#'''Menghilangkan duplicate data'''

customers_df.drop_duplicates(inplace=True) # kode untuk menghapus duplikasi pada customer_df.
print("Jumlah duplikasi customers_df:\n", customers_df.duplicated().sum()) #periksa masih terdapat duplikasi pada data

#'''Menangani missing value'''

'''#terdapat tiga metode untuk mengatasi missing value yaitu dropping, imputation, dan interpolation
Untuk menentukan metode mana yang akan digunakan, kita perlu melihat data yang mengandung missing value tersebut menggunakan 
teknik filtering seperti berikut.'''
customers_df[customers_df.gender.isna()] #menampilkan baris data yang hanya mengandung missing value pada kolom

'''#pada kasus ini, kita akan menggunakan metode imputation untuk menangani missing value
Pada metode imputation, kita akan menggunakan nilai tertentu untuk mengganti missing value. 
Musabab kolom gender merupakan kolom kategorik, kita akan menggunakan nilai yang dominan sebagai pengganti missing value tersebut. 
Gunakanlah method value_counts()untuk mengidentifikasi nilai yang dominan.'''

customers_df.gender.value_counts()

'''Berdasarkan hasil di atas, dapat diketahui bahwa nilai yang paling dominan dalam kolom gender  
ialah “Prefer not to say”.Nilai inilah yang selanjutnya akan kita gunakan sebagai pengganti 
missing value.'''

customers_df.fillna(value="Prefer not to say", inplace=True)
customers_df.isna().sum() #mengidentifikasi missing value 

#'''#Menangani inaccurate value'''

customers_df[customers_df.age == customers_df.age.max()] #menggunakan teknik filter
customers_df.age.replace(customers_df.age.max(), 70 ,inplace=True) #mengganti inaccurate value
customers_df[customers_df.age == customers_df.age.max()]  #pastikan age telah sesuai
customers_df.age.replace(customers_df.age.max(), 50, inplace=True) #masih ada yg tidak sesuai
customers_df[customers_df.age == customers_df.age.max()] #chek telah sesuai apa belom

customers_df.describe() #memastikan tidak terdapat inaccurate value pada table custumer.

#''' membersihan data orders_df'''
'''Berdasarkan proses assessing data sebelumnya, diketahui bahwa terdapat kesalahan tipe data untuk 
kolom order_date & delivery_date. Untuk mengatasi masalah ini, kita akan mengganti tipe data pada kolom order_date 
& delivery_date menjadi datetime.'''

datetime_columns = ["order_date", "delivery_date"]

for column in datetime_columns:
    orders_df[column] = pd.to_datetime(orders_df[column])

orders_df.info() #check order_date & delivery_date menjadi datetime

#''' membersihan data product_df'''
'''Data berikutnya yang akan kita bersihkan ialah product_df. Sesuai hasil assessing data sebelumnya, kita mengetahui bahwa terdapat 6 data 
yang terduplikasi pada product_df. Untuk mengatasi hal ini, kita perlu membuang data yang sama tersebut menggunakan method drop_duplicates()'''

product_df.drop_duplicates(inplace=True)
print("Jumlah duplikasi product_df: ", product_df.duplicated().sum())

#''' membersihan data sales_df'''
'''Data selanjutnya yang perlu Anda bersihkan ialah sales_df. Berdasarkan hasil penilain data sebelumnya, diketahui bahwa 
terdapat 19 missing value pada kolom total_price. '''

sales_df[sales_df.total_price.isna()]

'''dari hasil tersebut kita menemukan bahwa nilai total_price merupakan hasil perkalian antara 
price_per_unit dan quantity.'''

sales_df["total_price"] = sales_df["price_per_unit"] * sales_df["quantity"]

'''Kode di atas akan mengatasi seluruh missing value serta memastikan nilai pada kolom total_price telah sesuai. '''

sales_df.isna().sum() # check apakah masih ada value yg NaN (missing value)






Jumlah duplikasi customers_df:
 0
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 5 columns):
 #   Column         Non-Null Count  Dtype         
---  ------         --------------  -----         
 0   order_id       1000 non-null   int64         
 1   customer_id    1000 non-null   int64         
 2   payment        1000 non-null   int64         
 3   order_date     1000 non-null   datetime64[ns]
 4   delivery_date  1000 non-null   datetime64[ns]
dtypes: datetime64[ns](2), int64(3)
memory usage: 39.2 KB
Jumlah duplikasi product_df:  0


sales_id          0
order_id          0
product_id        0
price_per_unit    0
quantity          0
total_price       0
dtype: int64