# 1. Missing Value

Sering kali, data rusak, atau hilang, kita perlu mengurusnya terlebih dahulu karena kedepannya data ini tidak berfungsi saat data hilang atau tidak lengkap.

## Imputing missing values dengan Imputer

In [None]:
import pandas as pd
from sklearn.preprocessing import Imputer

In [None]:
df = pd.read_csv('Data.csv')
df

In [None]:
df.isnull().sum()

In [None]:
df.dropna()

In [None]:
# drop kolom spesifik yang mengandung NaN 
df.dropna(subset=['Age'])

In [None]:
df.iloc[:, 1:3]

In [None]:
# replace every occurrence of missing_values to one defined by strategy
# which can be mean, median, mode. Axis = 0 means rows, 1 means column

imputer = Imputer(missing_values='NaN', strategy='mean', axis = 0)
df.iloc[:, 1:3] = imputer.fit_transform(df.iloc[:, 1:3])
df

## 2. Encoding Data Kategori

In [None]:
# Label Encoder will replace every categorical variable with number. Useful for replacing yes by 1, no by 0.
# One Hot Encoder will create a separate column for every variable and give a value of 1 where the variable is present
from sklearn.preprocessing import LabelEncoder, OneHotEncoder

In [None]:
lable_encoder = LabelEncoder()
temp = df.copy()
temp.iloc[:, 0] = lable_encoder.fit_transform(df.iloc[:, 0])
print(lable_encoder.classes_)
temp.iloc[:, 3] = lable_encoder.fit_transform(df.iloc[:, 3])
print(lable_encoder.classes_)
print(temp)

In [None]:
# you can pass an array of indices of categorical features
# one_hot_encoder = OneHotEncoder(categorical_features=[0])
# temp = df.copy()
# temp.iloc[:, 0] = one_hot_encoder.fit_transform(df.iloc[:, :0])
# temp
# you can achieve the same thing using get_dummies
pd.get_dummies(df.iloc[:, :-1])

# 3. Binarizing

Mengubah Data menjadi 0 dan 1.
Kita akan mencoba dataset lain, yaitu dataset iris yang ada pada library scikit-learn. (https://archive.ics.uci.edu/ml/datasets/iris)

In [None]:
from sklearn.datasets import load_iris

iris_dataset = load_iris()
X = iris_dataset.data
y = iris_dataset.target
feature_names = iris_dataset.feature_names
print(feature_names)

In [None]:
X[:, 1]

Kita akan mengubah 0 jika dibawah rata-rata, dan 1 jika diatas rata-rata

In [None]:
from sklearn.preprocessing import Binarizer
binarizer_obj = Binarizer(threshold=X[:, 1].mean())
X[:, 1:2] = binarizer_obj.fit_transform(X[:, 1].reshape(-1, 1))
X[:, 1]

# 4. Fitur Scaling

In [None]:
import pandas as pd
import numpy as np

from sklearn.preprocessing import StandardScaler, Normalizer, MinMaxScaler

df = pd.read_csv('Data.csv').dropna()
print(df)
X = df[["Age", "Salary"]].values.astype(np.float64)
print(X)

In [None]:
standard_scaler = StandardScaler()
normalizer = Normalizer()
min_max_scaler = MinMaxScaler()

print("Standardization")
print(standard_scaler.fit_transform(X))

print("Normalizing")
print(normalizer.fit_transform(X))

print("MinMax Scaling")
print(min_max_scaler.fit_transform(X))

# 5. Ekstraksi Fitur
Pada pertemuan sebelumnya kalian telah mencoba membuat program WordCount. WordCount merupakan sebuah teknik dalam melakukan ekstraksi Fitur. Namun, kalian tidak perlu membuat sendiri. Scikit-Learn telah menyediakan librarynya. Ekstraksi Fitur ini nantinya akan berguna dalam pemrosesan klasifikasi, clustering, maupun teknik pembelajaran mesin lainnya.
## 5.1 Count Vectorizer

In [None]:
from sklearn.feature_extraction.text import CountVectorizer

docs = ["Mayur mayur is a nice boy.", "Mayur rock! wohooo!", "My name is Mayur, and I am a Pythonista!"]
cv = CountVectorizer()
X = cv.fit_transform(docs)
print(X)
print(cv.vocabulary_)
print(X.todense())

## Dict Vectorizer

DictVectorizer melakukan mapping dari dictionry wordcount ke Vektor

In [None]:
from sklearn.feature_extraction import DictVectorizer

docs = [{"Aku": 1, "suka": 1, "makan": 2}, {"Aku": 1, "tidak": 1, "suka": 2, "makan": 3, "kambing": 1, "bakar": 2, "madu": 3}]
dv = DictVectorizer()
X = dv.fit_transform(docs)
print(X)
print(dv.vocabulary_)
print(X.todense())

## TfIdf Vectorizer:
Word Count (Term Frekuensi dikali dengan Inverse Dokumen Frekuensi),

Tutorial dapat dilihat pada link berikut:
https://datascience.mipa.ugm.ac.id/id/representasi-teks-dalam-vektor-part-1/
https://datascience.mipa.ugm.ac.id/id/representasi-teks-dalam-vektor-part-2/

In [None]:
from sklearn.feature_extraction.text import TfidfVectorizer, CountVectorizer

tfidf_vectorizer = TfidfVectorizer()
cv_vectorizer = CountVectorizer()
docs = ["Mayur is a Guitarist Guitarist", "Mayur is Cooker", "Mayur is Musician", "Mayur is also a programmer"]
X_idf = tfidf_vectorizer.fit_transform(docs)
X_cv = cv_vectorizer.fit_transform(docs)
print(X_idf.todense())
print(tfidf_vectorizer.vocabulary_)
print(X_cv.todense())

# GROUP PROJECT

Tujuan dari Project ini adalah mengaplikasikan hal-hal yang telah dipelajari dari setiap pertemuan pada Digital Talent pada sebuah "big dataset" yang dipilih hingga akhirnya menemukan "insight" dari data tersebut.

Grup Terdiri dari 4-5 orang, dan akan dipilihkan oleh pengajar secara acak.

Dataset yang digunakan adalah GDELT Dataset (Tentatif) https://www.gdeltproject.org


Terdapat milestone yang harus dilaporkan setiap minggunya dalam bentuk Pdf:

Milestone 1 : 
- Deskripsi Project & Dataset. 
- Eksplorasi Data

Milestone 2 : 
- Eksplorasi dengan Statistik Deskriptif
- Research Question

Milestone 3 :
- Model Pembelajaran Mesin yang mungkin diterapkan
- Dasar Pemilihan Metode

Milestone 4 :
- Pembahasan Mengenai Hasil dari riset yang telah dilakukan
- Visualisasi Data dengan Tools yang diajarkan


Milestone 5 :
- Menjawab Research Question beserta kesimpulan dan pembahasan

Milestone 6 : 
- Laporan Final 
- Pembuatan Presentasi dan Poster
- Publikasi dalam paper (opsional) 
