# ***EXPLORATION DATA***

In [1]:
import os
import pandas as pd
from dotenv import load_dotenv
from sqlalchemy import create_engine

In [2]:
load_dotenv()

# Ambil variabel dari .env
db_user = os.getenv("DB_USER")
db_password = os.getenv("DB_PASSWORD")
db_host = os.getenv("DB_HOST")
db_port = os.getenv("DB_PORT")
db_name = os.getenv("DB_NAME")

# Buat connection string
connection_string = f"postgresql+psycopg2://{db_user}:{db_password}@{db_host}:{db_port}/{db_name}"

# Buat engine SQLAlchemy
postgres_engine = create_engine(connection_string)

In [3]:
pg_query = 'SELECT * FROM shoes_sales_cloud'
pg_df = pd.read_sql(pg_query, postgres_engine)

In [4]:
print(pg_df)

           Date                Product Name Product Type       brand  gender  \
0    2022-05-27  Fear of God Essentials Tee      T-shirt  Essentials  Unisex   
1    2022-08-22             Yeezy Boost 350     Sneakers      Adidas  Unisex   
2    2022-04-03               Nike Dunk Low     Sneakers        Nike   Women   
3    2022-07-13            Nike Tech Fleece       Hoodie        Nike     Men   
4    2022-08-25               Jordan 1 High     Sneakers        Nike   Women   
..          ...                         ...          ...         ...     ...   
348  2022-04-08               Jordan 1 High     Sneakers        Nike     Men   
349  2022-08-03            Nike Tech Fleece       Hoodie        Nike   Women   
350  2022-05-05                Puma Joggers      Joggers        Puma   Women   
351  2022-05-19           Adidas Ultraboost     Sneakers      Adidas     Men   
352  2022-07-17               Nike Dunk Low     Sneakers        Nike   Women   

            category    country  quanti

## **Mengetahui Tipe Data**

Pertama tama kita akan mengentahui terlebih dahulu, kira kira apa tipe data dari setiap kolom yang ada pada dataset yang sudah kita kumpulkan. berikut ini adalah tipe datanya

![tipe-data](type-data-sneakers.png "Tipe Data Power BI")


![tipe-data-table](type-data-table-sneakers.png "Tipe Data Table")


## **Quality Check Data**

Pada power BI kita bisa melihat kualitas dari suatu data. Caranya adalah dengan mengklik tab Transformasi Data. Selanjutnya berikut ini adalah point point yang penulis akan cek. 

-  **Outliers Detection**

    Berikut ini adalah proses pengecekan outliers dengan menggunakan Power BI, dimana saya juga menjalankan script python untuk menampilkan scatter plotnya
    ![outliers-detection-sneakers](outliers-detection-sneakers.png "Outliers Detection")

- **Konsistensi Data** 

    Data bagus, jadi tidak ada data unik pada kolom yang memang datanya adalah klasifikasi. Berikut ini adalah salah satu contoh gambar yang penulis berikan untuk mengecek konsistensi data. Dimana data gender tidak memiliki data unik dan tetap menggunakan 3 data saja antara Men, Women, Unisex
    ![konstistensi-data-sneakers](konsistensi-data-sneakers.png "Konsistensi data")

-  **Missing Value**
    
    Pada dataset yang saya cari dan gunakah tidak ditemukan adanya missing value, bisa terlihat pada gambar yang ada dibawah ini bahwa nilai dari missing valuenya adalah nol. Jadi dataset yang saya gunakan cukup bagus. 

    ![checking-missing-value](checking-missing-value-sneakers.png "Missing Value Check")

