# Exploratory Data Analysis (EDA) Pada Data Assay Nikel Laterite

Setelah data cleaning, kita melakukan Exploratory Data Analysis pada data Assay.
Dari EDA kita bisa melihat kecenderungan data sekaligus juga melihat kesesuaian interpretasi layer geologi yang dilakukan geologis pada tahap Evaluation dengan model umum profil laterit.
Contoh hal yang harus diperhatikan :
* Domaining Fe, pada layer limonite tidak boleh lebih dari satu domain, ditunjukkan oleh histogram yang positively skewed.
* Cluster MgO pada bedrock cenderung tinggi, sedangkan di limonite akan rendah, dengan sedikit outlier (kategori MgO, Fe, Ni biasanya ditentukan oleh Principal Geologist untuk area tertentu, pada data ini MgO > 25 = tinggi (penciri area bedrock)).
* Cluster Fe pada limonite cenderung paling tinggi, dan sebaliknya di bedrock, gunakan scatter plot Fe6 vs MgO6 Limonite.
* Jika outlier lebih besar dari 5% kembalikan data Assay pada Geologis Evaluasi untuk diinterpretasi dan di kros cek dengan foto core atau direassay. 
* Sebaran Ni limonite berbentuk normal distribution
* Gunakan scatter plot Fe vs Cr di Saprolite untuk melihat korelasi positif keduanya.
* Dst yang dianggap perlu.
 
 ##Credit untuk Indonesia Belajar
// from IPython.display import YouTubeVideo
// YouTubeVideo('Op3019SFYzI')

### Import Modules

In [None]:
import pandas as pd # Modul yang dipakai untuk mengolah dan analisis data

#### Load dataset

In [None]:
assay_df = pd.read_excel('assay.xls') # memuat file csv sebagai data frame
assay_df.head() # tampilkan 5 baris pertama


#### Identify the shape of the datatset

In [None]:
assay_df.shape # bentuk/dimensi dataset (baris,kolom)

#### Identify missing values

In [None]:
# assay_df.isnull().values.any()
assay_df.isna().values.any() # mendeteksi keberadaan nilai kosong

In [None]:
#Check null atau nan di masing-masing kolom
print("\n\nNumber of empty cells or Nans in the datasets :\n",'#' * 40)
print("\nAssay_df : \n",'-' * 20,"\n", assay_df.isnull().sum())

Untuk EDA, kita tidak hilangkan NaN atau empty data, tetapi untuk proses estimasi, sebaiknya data NaN diganti dengan -9999

#### Get the list of columns

In [None]:
assay_df.columns # daftar nama kolom

#### Identify data types for each column

In [None]:
assay_df.dtypes # tipe data untuk tiap kolom

#### Get bassic dataset information

In [None]:
assay_df.info() # informasi dataset

#### Identify duplicate entries/rows

In [None]:
# assay_df[assay_df.duplicated(keep=False)] # tampilkan seluruh baris dengan duplikasi
assay_df[assay_df.duplicated()] # tampilkan hanya baris duplikasi sekunder

In [None]:
assay_df.duplicated().value_counts() # hitung jumlah duplikasi data

#### Drop duplicate entries/rows

In [None]:
assay_df.drop_duplicates(inplace=True) # menghapus duplikasi data
assay_df.shape

#### Describe the dataset

In [None]:
assay_df.describe() # deskripsi data

#### Correlation Matrix

In [None]:
assay_df.corr() # korelasi antar kolom

## Drillhole Dataset: Data Visualisation

#### Import Modules

In [None]:
import matplotlib.pyplot as plt # visualisasi data
import seaborn as sns # visualisasi data

# output dari visualisasi data akan diarahkan ke notebook
%matplotlib inline 

#### Histogram

In [None]:
assay_df.hist(column='FE', by='LYR', figsize=(6,6), bins=20)
plt.tight_layout()

In [None]:
assay_df.hist(column='NI', by='LYR', figsize=(6,6), bins=20)
plt.tight_layout()

In [None]:
assay_df.hist(column='MGO', by='LYR', figsize=(6,6), bins=20)
plt.tight_layout()

In [None]:
assay_df.hist(column='CO', by='LYR', figsize=(6,6), bins=1000)
plt.tight_layout()

#### Dari histogram Fe pada limonite, saprolite dan bedrock terlihat bahwa Fe, Ni dan MgO sesuai profil laterit, sehingga data assay ini interpretasi layernya sudah bagus. 

#### Scatter Plot

In [None]:
df1=assay_df[assay_df['LYR']=='LIM']
df2=assay_df[assay_df['LYR']=='SAP']
df3=assay_df[assay_df['LYR']=='BRK']

sns.scatterplot(x='NI', y='FE', color='blue', data=df1,label = 'LIM')

In [None]:
Cek ulang sample dengan Ni > 1.5 dan Fe < 25, perhatikan fotocore dan posisi from to nya

In [None]:
sns.scatterplot(x='NI', y='FE', color = 'orange', data=df2,label = 'SAP')

Cek ulang sample dengan Ni<0.5 dan Fe < 10 (mungkin brk, cek MgO dan Co nya)

In [None]:
sns.scatterplot(x='NI', y='FE', color = 'green', data=df3,label ='BRK')

In [None]:
sns.scatterplot(x='NI', y='FE', data=assay_df, hue='LYR')


In [None]:
sns.scatterplot(x='NI', y='MGO', color='blue', data=df1,label = 'LIM')

Cek Outliers

In [None]:
sns.scatterplot(x='NI', y='MGO', color = 'orange', data=df2,label = 'SAP')

In [None]:
Cek Low Ni with high MgO

In [None]:
sns.scatterplot(x='NI', y='MGO', color = 'green', data=df3,label ='BRK')

Cek Ni > 1 dan MgO < 25

In [None]:
sns.scatterplot(x='NI', y='MGO', data=assay_df, hue='LYR')

#### Boxplot

In [None]:
assay_df.boxplot()
plt.tight_layout()

In [None]:
df1.boxplot()
plt.tight_layout()

In [None]:
df2.boxplot()
plt.tight_layout()

In [None]:
df3.boxplot()
plt.tight_layout()

#### Pair Plot

In [None]:
sns.pairplot(assay_df, hue='LYR', markers='+')
plt.tight_layout()

#### Violin Plot

In [None]:
sns.violinplot(data=assay_df, y='LYR', x='FE', inner='quartile')
plt.tight_layout()

In [None]:
sns.violinplot(data=assay_df, y='LYR', x='NI', inner='quartile')
plt.tight_layout()

In [None]:
sns.violinplot(data=assay_df, y='LYR', x='MGO', inner='quartile')
plt.tight_layout()

#### Kesimpulan
Pada dasarnya interpretasi profil geologi sudah bisa diterima, dengan catatan beberapa outlier dicek ulang. Proses EDA sudah selesai, berikutnya adalah pemodelan geologi menggunakan metode geostatistik kriging (dan Nearest Neighbour sebagai pembanding). Di bawah ini merupakan estimasi tanpa spatial(collar/koordinat) menggunakan K-Nearest Neighbour hanya untuk pembelajaran/eksperimen machine learning perilaku pada dataset assay Nikel laterite.