#**Data Understanding**

**Data Understanding** atau yang biasa disebut dengan **Memahami Data** adalah salah satu tahap penting dalam proses *Knowledge Discovery in Databases* (KDD) atau Data Mining. Ini merupakan langkah awal yang bertujuan untuk memahami data secara mendalam sebelum melakukan analisis lebih lanjut. Pemahaman data yang baik sangat krusial karena akan memengaruhi keberhasilan seluruh proses data mining.

Beberapa kegiatan dalam memahami data diantaranya adalah:


*   Pengumpulan Data

    Fungsi dari pengumpulan data adalah mengumpulkan data dari berbagai sumber, seperti database, file CSV, API, atau sensor. Serta memastikan bahwa semua data yang relevan telah dikumpulkan sesuai tujuan analisis.

*   Profiling Data

    Untuk fungsi profiling data yaitu membuat ringkasan tentang setiap variabel dalam dataset, termasuk tipe data (numerik, kategorikal, ordinal), rentang nilai, dan frekuensi kemunculan. Serta memahami hubungan antarvariabel menggunakan korelasi atau analisis asosiasi.

*   Korelasi dan Asosiasi

    Fungsi dari kegiatan tersebut adalah menghitung koefisien korelasi (misalnya Pearson, Spearman) untuk melihat hubungan linier antar variabel. Selain itu, juga untuk menggunakan teknik asosiasi untuk menemukan pola hubungan antara variabel kategorikal.
*   Eksplorasi Data

    Eksplorasi Data berfungsi sebagai deskripsi statistik untuk memahami distribusi data, seperti mean, median, modus, standar deviasi, minimum, dan maksimum menggunakan visualisasi data.
*   Identifikasi Masalah Data

    Ada beberapa masalah ketika identifikasi data, seperti;
    1. Missing Values: Menemukan data yang hilang atau tidak lengkap.
    2. Outliers: Mendeteksi nilai-nilai ekstrem yang mungkin merupakan kesalahan atau anomali.
    3. Duplikasi Data: Mengidentifikasi baris atau entri yang duplikat.
    4. Inkonsistensi: Memeriksa apakah ada ketidaksesuaian dalam format atau nilai data.

*   Validasi Data

    Ada beberapa masalah ketika validasi data, seperti;
    1. Memastikan bahwa data sesuai dengan domain atau konteks bisnis.
    2. Memverifikasi apakah data mencerminkan realitas atau fenomena yang ingin dipelajari

###**Manfaat Data Understanding**

*   Meningkatkan Kualitas Data

    Dengan memahami masalah data, kita dapat melakukan preprocessing yang lebih efektif

*   Menghemat Waktu dan Biaya

    Menghindari kesalahan analisis yang disebabkan oleh data buruk.

*   Mendukung Pengambilan Keputusan

    Memberikan wawasan awal yang berguna untuk merumuskan strategi analisis.

*   Mengurangi Risiko Kesalahan Model

    Data yang dipahami dengan baik akan menghasilkan model prediktif yang lebih akurat.


## **Proses dalam Memahami Data**


###**1. Pengumpulan Data**

Dataset **IRIS** adalah dataset yang berisi informasi tentang tiga spesies bunga iris (*Setosa, Versicolor, Virginica*) dengan fitur utama yaitu; panjang dan lebar dari sepal serta petal.


####**Lokasi Data**
Teruntuk lokasi dari data **IRIS** berada dalam **aiven.io** (platform cloud dan AI berbasis open source):


*   Data IRIS *petal* berada di database **MySQL**
*   Data IRIS *sepal* berada di database **PostgreSQL**

####**Metode Pengumpulan**
Langkah untuk mengumpulkan data dilakukan menggunakan **Python** sebagai berikut:
*   **`pymysql`** : Digunakan untuk menghubungkan dan mengambil data dari MySQL.
*   **`psycopg2`** : Digunakan untuk menghubungkan dan mengambil data dari PostgreSQL.
*   **`pandas`** : Digunakan untuk membaca dan mengolah data setelah diambil dari database.

####**Proses Mengumpulkan Data**
#####**a. Menghubungkan Data dari MySQL dan PostgreSQL**
*   Install library yang diperlukan





In [1]:
!pip install pymysql
!pip install pandas
!pip install psycopg2-binary
!pip install sqlalchemy
!pip install python-dotenv

Collecting pymysql
  Downloading PyMySQL-1.1.1-py3-none-any.whl.metadata (4.4 kB)
Downloading PyMySQL-1.1.1-py3-none-any.whl (44 kB)
[?25l   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m0.0/45.0 kB[0m [31m?[0m eta [36m-:--:--[0m[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m45.0/45.0 kB[0m [31m3.0 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: pymysql
Successfully installed pymysql-1.1.1
Collecting psycopg2-binary
  Downloading psycopg2_binary-2.9.10-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (4.9 kB)
Downloading psycopg2_binary-2.9.10-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (3.0 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m3.0/3.0 MB[0m [31m22.3 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: psycopg2-binary
Successfully installed psycopg2-binary-2.9.10
Collecting python-dotenv
  Downloading python_dotenv-1.0.1-py3-none-any.whl.metadata (23 kB)
Do

*   Buat file dengan format (.env) untuk koneksi database dari **aiven**. Untuk isi dari file tersebut sebagai berikut:

```python
# Database MySQL
MYSQL_HOST=<HOSTNAME>
MYSQL_USER=<USERNAME>
MYSQL_PASSWORD=<PASSWORD>
MYSQL_PORT=<PORT>
MYSQL_DATABASE=<DATABASE_NAME>

# Database PostgreSQL
PG_HOST=<HOSTNAME>
PG_USER=<USERNAME>
PG_PASSWORD=<PASSWORD>
PG_PORT=<PORT>
PG_DATABASE=<DATABASE_NAME>
```
*   Lalu upload filenya ke colab.


In [2]:
from google.colab import files
uploaded = files.upload()

Saving pendata.env to pendata.env


*   Koneksikan database dari aiven

In [3]:
import pandas as pd
from sqlalchemy import create_engine
import os
from dotenv import load_dotenv

# Load file .env
load_dotenv()

# Fungsi untuk mendapatkan variabel environment dengan default
def get_env_var(var_name, default=None, cast_type=str):
    value = os.getenv(var_name, default)
    if value is not None:
        try:
            return cast_type(value)  # Konversi ke tipe yang diinginkan
        except ValueError:
            print(f"Warning: {var_name} harus bertipe {cast_type.__name__}, tetapi nilainya '{value}'")
            return default
    return default

# Ambil variabel koneksi dari lingkungan
MYSQL_HOST = get_env_var("MYSQL_HOST", "localhost")
MYSQL_PORT = get_env_var("MYSQL_PORT", 3306, int)
MYSQL_USER = get_env_var("MYSQL_USER", "root")
MYSQL_PASSWORD = get_env_var("MYSQL_PASSWORD", "")
MYSQL_DATABASE = get_env_var("MYSQL_DATABASE", "test_db")

PG_HOST = get_env_var("PG_HOST", "localhost")
PG_PORT = get_env_var("PG_PORT", 5432, int)
PG_USER = get_env_var("PG_USER", "postgres")
PG_PASSWORD = get_env_var("PG_PASSWORD", "")
PG_DATABASE = get_env_var("PG_DATABASE", "test_db")

# Gunakan SQLAlchemy untuk koneksi ke MySQL
try:
    mysql_engine = create_engine(f"mysql+pymysql://{MYSQL_USER}:{MYSQL_PASSWORD}@{MYSQL_HOST}:{MYSQL_PORT}/{MYSQL_DATABASE}")
    print("Koneksi ke MySQL berhasil!")
except Exception as e:
    print(f"Error koneksi ke MySQL: {e}")

# Gunakan SQLAlchemy untuk koneksi ke PostgreSQL
try:
    pg_engine = create_engine(f"postgresql+psycopg2://{PG_USER}:{PG_PASSWORD}@{PG_HOST}:{PG_PORT}/{PG_DATABASE}")
    print("Koneksi ke PostgreSQL berhasil!")
except Exception as e:
    print(f"Error koneksi ke PostgreSQL: {e}")

# Jalankan query jika koneksi berhasil
try:
    mysql_query = "SELECT * FROM iris_data;"
    df_mysql = pd.read_sql(mysql_query, mysql_engine)
    print("Data dari MySQL:")
    print(df_mysql.head())
except Exception as e:
    print(f"Error query MySQL: {e}")

try:
    pg_query = "SELECT * FROM iris_data;"
    df_postgres = pd.read_sql(pg_query, pg_engine)
    print("\nData dari PostgreSQL:")
    print(df_postgres.head())
except Exception as e:
    print(f"Error query PostgreSQL: {e}")


Koneksi ke MySQL berhasil!
Koneksi ke PostgreSQL berhasil!
Error query MySQL: (pymysql.err.OperationalError) (2003, "Can't connect to MySQL server on 'localhost' ([Errno 99] Cannot assign requested address)")
(Background on this error at: https://sqlalche.me/e/20/e3q8)
Error query PostgreSQL: (psycopg2.OperationalError) connection to server at "localhost" (127.0.0.1), port 5432 failed: Connection refused
	Is the server running on that host and accepting TCP/IP connections?
connection to server at "localhost" (::1), port 5432 failed: Cannot assign requested address
	Is the server running on that host and accepting TCP/IP connections?

(Background on this error at: https://sqlalche.me/e/20/e3q8)


#####**b. Mengambil dan menampilkan data serta menghapus file yang di upload sebelumnya**

In [14]:
mysql_query = "SELECT * FROM iris_data;"
df_mysql = pd.read_sql(mysql_query, mysql_engine)

pg_query = "SELECT * FROM iris_data;"
df_postgres = pd.read_sql(pg_query, pg_engine)

# Print hasil query
print("Data dari MySQL:")
print(df_mysql.head())

print("\n Data dari PostgreSQL:")
print(df_postgres.head())

#Menghapus file yang di upload sebelumnya
if os.path.exists(".env"):
    os.remove(".env")

OperationalError: (pymysql.err.OperationalError) (2003, "Can't connect to MySQL server on 'localhost' ([Errno 99] Cannot assign requested address)")
(Background on this error at: https://sqlalche.me/e/20/e3q8)

#####**c. Menggabungkan Data dari Kedua Database**

In [None]:
df_combined = pd.merge(df_postgres, df_mysql.drop(columns=['class']), on="id", how="inner")

print("\nData gabungan:")
print(df_combined)

###**2. Profiling Data**
Profiling data termasuk langkah penting dalam memahami karakteristik dataset sebelum melakukan analisis lebih lanjut.

####**Informasi tentang Dataset**
*   Menampilkan Informasi Dataset



In [None]:
df_combined.info()

NameError: name 'df_combined' is not defined

*   Menampilkan Statistik Variabel Numerik



In [None]:
df_combined.drop(columns=['id']).describe()

*   Menampilkan Statistik Variabel Kategorikal

In [None]:
print(df_combined['class'].value_counts())

###**3. Korelasi dan Asosiasi**
####**Memahami Hubungan antar Variabel**
*   Menghitung Korelasi antar Variabel Numerik

In [None]:
df_corr = df_combined.drop(columns=['id', 'class']).corr()
print(df_corr)

In [None]:
import seaborn as sns
import matplotlib.pyplot as plt

plt.figure(figsize=(6,5))
sns.heatmap(df_corr, annot=True, cmap='magma', fmt=".2f")

plt.show()


*   Statistik Deskriptif Per Class

In [None]:
df_mean = df_combined.drop(columns=['id']).groupby('class').mean()
print(df_mean)

In [None]:
import seaborn as sns
import matplotlib.pyplot as plt

sns.boxplot(x="class", y="petal length", data=df_combined)
plt.show()

###**4. Eksplorasi Data**
Eksplorasi data bertujuan untuk mendeskripsikan statistik untuk memahami distribusi data


In [None]:
df_combined.drop(columns=['id']).describe().loc[['mean', 'std', 'min', '50%', 'max']]

**a. Distribusi Data Numerik**

menggunakan histogram untuk melihat sebaran nilai dari setiap fitur

In [None]:
import matplotlib.pyplot as plt

df_combined.loc[:, df_combined.columns != 'id'].hist(figsize=(10, 6), bins=20)
plt.show()

**b. Hubungan antar Variabel**

Scatter plot membantu melihat hubungan antara dua variabel numerik.

In [None]:
sns.pairplot(df_combined.drop(columns=["id"]), hue="class")
plt.show()

**c. Ditribusi Data tiap Kategori**

Menggunakan box plot untuk melihat tiap kategori.

In [None]:
plt.figure(figsize=(8,6))
sns.boxplot(data=df_combined.loc[:, df_combined.columns != 'id'])
plt.show()

**d. Proporsi tiap Spesies Bunga**

Menggunakan pie chart untuk melihat tiap spesies bunga.

In [None]:
import matplotlib.pyplot as plt

category_counts = df_combined['class'].value_counts()

# Membuat pie chart
plt.figure(figsize=(8, 8))
plt.pie(category_counts, labels=category_counts.index, autopct='%1.1f%%', startangle=140, colors=['lightblue', 'lightcoral', 'lightgreen'])
plt.show()


###**5. Indentifikasi Masalah**

Mengidentifikasi Masalah jika menemukan potensi kendala dalam dataset yang bisa mempengaruhi analisis dan modeling.

####**Mengecek Data Hilang (Missing Value)**

In [None]:
print(df_combined.isnull().sum())

####**Mendeteksi Outliers**

In [None]:
# Memilih hanya kolom numerik
df_numeric = df_combined.select_dtypes(include=['number'])

# Menghitung IQR
Q1 = df_numeric.quantile(0.25)
Q3 = df_numeric.quantile(0.75)
IQR = Q3 - Q1

# Menentukan outliers
outliers = (df_numeric < (Q1 - 1.5 * IQR)) | (df_numeric > (Q3 + 1.5 * IQR))
print(outliers.sum())


####**Mengecek Duplikasi Data**


In [None]:
print(df_combined.duplicated().sum())

####**Mengecek Inkonsistensi**

In [None]:
# Cek kategori unik dalam Class
print(df_combined['class'].unique())

In [None]:
# Cek tipe data setiap kolom
print(df_combined.dtypes)

In [None]:
# cek tipe data setiap nilai
for col in ['sepal_length', 'sepal_width', 'petal length', 'petal width']:
    print(f"{col}: {df_combined[col].apply(type).unique()}")