<a href="https://colab.research.google.com/github/fadel11-hub/Dicoding-belajar-analisis-data/blob/main/gatheringdata.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Gathering data

## Prepare library

In [None]:
import pandas as pd
import sqlalchemy as sqla

## Format berkas CSV


In [None]:
df = pd.read_csv("data.csv", delimiter=',')


## Format berkas XLSX atau XLS

In [None]:
df = pd.read_excel("data.xlsx", sheet_name='Sheet1')

## Format berkas JSON


In [None]:
df = pd.read_json('data.json')


## Format berkas HTML


In [None]:
url = "https://www.fdic.gov/resources/resolutions/bank-failures/failed-bank-list"
df = pd.read_html(url)[0]

## Format berkas XML


In [None]:
df = pd.read_xml("https://www.w3schools.com/xml/books.xml")


## Akses data dari SQL database


In [None]:
# read_sql_table()untuk membaca SQL database table dan mempresentasikannya ke dalam bentuk pandas DataFrame.
db = sqla.create_engine("sqlite:///mydata.sqlite")
pd.read_sql_table("table_name", db)

# read_sql_query()untuk membaca SQL query dan mempresentasikannya ke dalam bentuk pandas DataFrame.
db = sqla.create_engine("sqlite:///mydata.sqlite")
pd.read_sql_query("SELECT * FROM table_name", db)

# read_sql()untuk membaca SQL query atau table dan mempresentasikannya ke dalam bentuk pandas DataFrame.
db = sqla.create_engine("sqlite:///mydata.sqlite")
pd.read_sql("SELECT * FROM table_name", db)

## Menggabungkan Beberapa Data Menjadi Satu DataFrame


In [None]:
product_df = pd.read_csv("product.csv")
orders_df = pd.read_csv("orders.csv")

new_order_df = pd.merge(
    left=product_df,
    right=orders_df,
    how="inner",
    left_on="product_id",
    right_on="product_id"
)

# Assesing data

##Missing value


karena adanya data yang hilang

In [None]:
import pandas as pd
product_df = pd.read_csv("product.csv")
# sebuah method bernama isnull() atau isna() untuk mengidentifikasi missing value dalam sebuah DataFrame.
product_df.isnull().sum()

## Duplicated data

adanya data yang sama pada baris/kolom


In [None]:
import pandas as pd

url = "https://www.fdic.gov/resources/resolutions/bank-failures/failed-bank-list"
df = pd.read_html(url)[0]
df.duplicated().sum()

## Outlier

 pencilan merupakan titik data yang berada sangat jauh dari titik data yang lain dalam sebuah dataset.


 **Method IQR**
 QR method merupakan metode penentuan outlier berdasarkan nilai interquartile range (IQR). Ia mengidentifikasi outlier dengan cara membuat nilai cut-off sebagai faktor k (Umumnya kita menggunakan nilai 1.5 s/d 3) dari nilai IQR. Cut-off tersebut selanjutnya akan digunakan untuk menghitung nilai ambang batas (boundary values). Nilai tersebut dibagi menjadi dua yaitu ambang batas minimum dan maksimum. Semua titik data lebih kecil dari ambang batas minimum atau lebih besar dari ambang batas maksimum akan dianggap sebagai outlier.

**Metode lain Box plot**
Ia merupakan bentuk visual untuk merepresentasikan nilai IQR beserta ambang batas bawah dan atas dari sebuah data.

In [None]:
import numpy as np

q25, q75 = np.percentile(data, 25), np.percentile(data, 75)
iqr = q75 - q25
cut_off = iqr * 1.5
minimum, maximum = q25 - cut_off, q75 + cut_off

outliers = [x for x in data if x < minimum or x > maximum]

# Cleaning data

## Teknik untuk Mengatasi Missing Value


### Dropping

In [None]:
import pandas as pd

products_df = pd.read_csv("product.csv")

products_df.dropna(axis=0, inplace=True)

Pada contoh kode di atas, parameter **axis=0** (menerima nilai 0 atau 1) menandakan kita ingin men-drop seluruh baris yang mengandung missing value. **inplace=True** menandakan kita ingin langsung menerapkan operasi tersebut ke dalam DataFrame products_df.

Anda dapat membaca dokumentasi berikut untuk lebih memahami penggunaan method ini: pandas.DataFrame.dropna.


### imputation

Metode ini bekerja dengan cara mengisi (fill) missing value dengan nilai tertentu. Hal ini tentunya akan mencegah hilangnya informasi akibat missing value.

Pada data kontinu, kita bisa menggunakan nilai mean, median, atau mode sebagai pengganti missing value. Jika bekerja menggunakan data kategoris, kita dapat mengisi missing value dengan kategori yang paling sering muncul. Namun, perlu diingat bahwa pemilihan nilai pengganti ini harus didukung oleh background knowledge dari data tersebut. Pada beberapa kasus ada suatu nilai tertentu yang digunakan untuk mengganti missing value.

In [None]:
import pandas as pd

data=pd.read_csv('employee_data.csv')

data.age.fillna(value=data.age.mean(), inplace=True)

Nah, jika Anda perhatikan metode ini masih memiliki banyak kekurangan salah satunya ialah dapat mempengaruhi variance atau sebaran dari sebuah data. Selain itu, metode ini juga masih belum cukup baik untuk diterapkan pada data time series.


### Interpolation
interpolasi merupakan salah satu pendekatan numerik yang digunakan untuk menghitung titik data baru berdasarkan range data yang sudah ada. Perhitungan ini menggunakan sebuah persamaan garis linear ataupun polynomial. Perhitungan tersebut membuat metode ini sangat cocok digunakan untuk menangani missing value pada **data time series**.

In [None]:
import pandas as pd

data=pd.read_csv('bbca_index.csv')

data.close_price.interpolate(method='linear', limit_direction='forward', inplace=True)

 kita perlu mendefinisikan metode interpolasi yang ingin digunakan, seperti linear, polynomial, dll. Selain itu, kita juga perlu mendefinisikan parameter limit_direction (forward, backward, dan both) untuk menspesifikkan arah konstruktif dari proses interpolasi. Berikut merupakan contoh kode untuk menggunakan method interpolate().

## Teknik untuk Mengatasi Outlier


###Drop

Metode pertama yang paling mudah ialah men-drop atau menghapus seluruh baris yang mengandung outlier. Metode ini mampu mencegah outlier mempengaruhi hasil analisis yang kita buat.


In [None]:
import pandas as pd

df = pd.read_csv("data.csv")

Q1 = (df['TotalCharges']).quantile(0.25)
Q3 = (df['TotalCharges']).quantile(0.75)
IQR = Q3 - Q1

maximum = Q3 + (1.5*IQR)
minimum = Q1 - (1.5*IQR)

kondisi_lower_than = df['TotalCharges'] < minimum
kondisi_more_than = df['TotalCharges'] > maximum

df.drop(df[kondisi_lower_than].index, inplace=True)
df.drop(df[kondisi_more_than].index, inplace=True)

###Imputation

Konsepnya mirip seperti sebelumnya yaitu mengganti outlier dengan nilai tertentu. Nilai yang bisa kita gunakan ialah mean, median, dan mode. Selain itu, tidak jarang juga kita mengganti outlier dengan boundary value.

In [None]:
df = pd.read_csv("data.csv")

Q1 = (df['TotalCharges']).quantile(0.25)
Q3 = (df['TotalCharges']).quantile(0.75)
IQR = Q3 - Q1

maximum = Q3 + (1.5*IQR)
minimum = Q1 - (1.5*IQR)

kondisi_lower_than = df['TotalCharges'] < minimum
kondisi_more_than = df['TotalCharges'] > maximum

df.mask(cond=kondisi_more_than, maximum, axis=1, inplace=True)
df.mask(cond=kondisi_lower_than, minimum, axis=1, inplace=True)

Untuk menerapkan metode ini, kita bisa menggunakan method mask() yang disediakan oleh library pandas. Method tersebut menerima parameter cond sebagai kondisi untuk memfilter nilai outlier. Berikut merupakan contoh kode untuk melakukannya.


## Teknik untuk Mengatasi Duplicate Data


Untungnya, library pandas telah menyediakan sebuah method drop_duplicates() untuk menghilangkan duplikasi dalam sebuah DataFrame. Berikut merupakan contoh kode untuk menggunakan method tersebut.



In [None]:
import pandas as pd

df = pd.read_csv("data.csv")
df.drop_duplicates(inplace=True)