# Data Engineering with Python

## Creating a Database
Yang akan dilakukan pertama adalah membuat database NoSQL. Database NoSQL yang akan digunakan adalah MongoDB, dan untuk menggunakan MongoDB dengan Python dibutuhkan library **pymongo**. Jangan lupa untuk instal MongoDB terlebih dahulu di OS kalian!

In [54]:
#Mengimport library yang diperlukan
from pymongo import MongoClient
#Membuat sebuah mongoclient agar kita dapat menggunakan layanan MongoDB
client = MongoClient()

Perintah <code>client = MongoClient()</code> menciptakan sebuah MongoClient secara default, yaitu terkoneksi pada *localhost* dan port 27107 (port default yang digunakan oleh MongoDB). Untuk saat ini, kita cukup menggunakan yang default saja karena semua proses akan dilaksanakan offline, artinya kita tidak terhubung dengan server secara online.

In [55]:
#Cara lain menulis kode di sel sebelumnya:
client = MongoClient('localhost', 27017)
#atau menggunakan MongoDB URI
client = MongoClient('mongodb://localhost:27017/')
#Semuanya akan menghasilkan hasil yang sama.

Di sel sebelumnya sempat kita lihat istilah **MongoDB URI**. Apa itu MongoDB URI? MongoDB URI adalah alamat unik server MongoDB yang tersedia secara online. Kita menggunakan format MongoDB URI ini untuk berinteraksi dengan database secara online.

In [56]:
#Ini adalah contoh format MongoDB URI yang pernah digunakan penulis secara riil dalam sebuah proyek
#Sedikit diubah ya agar databasenya tidak sembarangan diakses orang, hehehe
#client = MongoClient('mongodb+srv://idetl:ScwfhmKutQUde0p6jgsS4qcYxxxxxxx@cluster0.xxxxx.mongodb.net/')

Setelah kita membuat MongoClient, kita akan coba melihat database yang ada di dalam MongoClient tersebut. Karena MongoClient baru saja kita inisiasi, seharusnya belum ada database yang terbuat

In [57]:
print("Database List:")
print('---------------')
for col in client.list_database_names():
    print(col)
print('---------------')
print('End of Database List')

Database List:
---------------
admin
config
local
---------------
End of Database List


Setelah dicek, ternyata ada admin, config, dan local. Ketiganya merupakan database default, jadi untuk saat ini kita abaikan saja.

In [58]:
#Kita akan menginisiasi sebuah database
#fungsi di bawah ini digunakan untuk meng-assign database yang sudah tersedia
#sekiranya belum tersedia, dia akan membuat database baru
db = client['test-database']

In [59]:
#setelah meng-assign database, kita coba cari collection yang ada di dalamnya
#seharusnya tidak ada, karena database baru saja dibuat
print("Collection List:")
print('---------------')
for col in db.list_collection_names():
    print(col)
print('---------------')
print('End of Collection List')

Collection List:
---------------
---------------
End of Collection List


In [60]:
#pilih collection yang kita inginkan untuk menyimpan data
test_collection = db['test-collection']

In [61]:
#masukkan data ke collection
test_collection.insert_one({'name': 'Garry', 'age': '21', 'hobby': 'football'})

<pymongo.results.InsertOneResult at 0x191d1383788>

In [62]:
#verifikasi: sekarang seharusnya ada database baru yang muncul
print("Database List:")
print('---------------')
for col in client.list_database_names():
    print(col)
print('---------------')
print('End of Database List')

Database List:
---------------
admin
config
local
test-database
---------------
End of Database List


In [63]:
#seharusnya ada collection baru juga
print("Collection List:")
print('---------------')
for col in db.list_collection_names():
    print(col)
print('---------------')
print('End of Collection List')

Collection List:
---------------
test-collection
---------------
End of Collection List


In [64]:
#querying isi dari collection
tested = test_collection.find( {} )
#{} mengindisikan kita ingin mengambil seluruh data dalam collection
#bisa juga mengambil data secara spesifik, dengan cara {'key':'value'}
#data kita ubah ke bentul list supaya lebih enak dilihat
list_cur = list(tested) #cursor to list
list_cur

[{'_id': ObjectId('606684d4415e7cc60c116f12'),
  'name': 'Garry',
  'age': '21',
  'hobby': 'football'}]

In [65]:
#Menambahkan data tambahan supaya dataframe kita tidak hanya 1 saja isinya
test_collection.insert_many([{'name': 'Malik', 'age': '25', 'hobby': 'basketball'},
                            {'name': 'Surya', 'age': '18', 'hobby': 'singing'}])

<pymongo.results.InsertManyResult at 0x191ce0db948>

In [66]:
#Mengecek perubahan
tested = test_collection.find( {} )
list_cur = list(tested) #cursor to list
list_cur

[{'_id': ObjectId('606684d4415e7cc60c116f12'),
  'name': 'Garry',
  'age': '21',
  'hobby': 'football'},
 {'_id': ObjectId('606684d4415e7cc60c116f13'),
  'name': 'Malik',
  'age': '25',
  'hobby': 'basketball'},
 {'_id': ObjectId('606684d4415e7cc60c116f14'),
  'name': 'Surya',
  'age': '18',
  'hobby': 'singing'}]

## Extracting from NoSQL Database
Setelah kita sudah punya sebuah database yang siap digunakan, mari kita coba mengekstrak data dari database tersebut untuk mengubahnya menjadi sebuah dataframe, salah satu bentuk data yang paling sering digunakan dalam data science.

In [67]:
#mengecek ada database apa saja yang tersedia
print("Database List:")
print('---------------')
for col in client.list_database_names():
    print(col)
print('---------------')
print('End of Database List')

Database List:
---------------
admin
config
local
test-database
---------------
End of Database List


In [68]:
#inisiasi database
db = client['test-database'] 

In [69]:
#mengecek collection apa saja yang tersedia
print("Collection List:")
print('---------------')
for col in db.list_collection_names():
    print(col)
print('---------------')
print('End of Collection List')

Collection List:
---------------
test-collection
---------------
End of Collection List


In [70]:
#inisiasi collection
test_collection = db['test-collection']

In [71]:
#mengambil data dan mengubahnya jadi list
tested = test_collection.find( {} )
list_cur = list(tested) #cursor to list
list_cur

[{'_id': ObjectId('606684d4415e7cc60c116f12'),
  'name': 'Garry',
  'age': '21',
  'hobby': 'football'},
 {'_id': ObjectId('606684d4415e7cc60c116f13'),
  'name': 'Malik',
  'age': '25',
  'hobby': 'basketball'},
 {'_id': ObjectId('606684d4415e7cc60c116f14'),
  'name': 'Surya',
  'age': '18',
  'hobby': 'singing'}]

In [72]:
import pandas as pd
df = pd.DataFrame(list_cur)
df

Unnamed: 0,_id,name,age,hobby
0,606684d4415e7cc60c116f12,Garry,21,football
1,606684d4415e7cc60c116f13,Malik,25,basketball
2,606684d4415e7cc60c116f14,Surya,18,singing


## Transforming Big Data
Setelah kita memiliki data dalam bentuk dataFrame, kita bisa leluasa menggunakannya untuk mengubah-ubah data tersebut untuk membuat model ML ataupun melakukan analisis data

In [73]:
df

Unnamed: 0,_id,name,age,hobby
0,606684d4415e7cc60c116f12,Garry,21,football
1,606684d4415e7cc60c116f13,Malik,25,basketball
2,606684d4415e7cc60c116f14,Surya,18,singing


In [74]:
#menghapus kolom yang tidak terpakai
df.drop(columns=['_id'], inplace=True)
df

Unnamed: 0,name,age,hobby
0,Garry,21,football
1,Malik,25,basketball
2,Surya,18,singing


In [75]:
#menambah kolom baru
df['origin'] = {'Surakarta', 'Magelang', 'Yogyakarta'}
df

Unnamed: 0,name,age,hobby,origin
0,Garry,21,football,Yogyakarta
1,Malik,25,basketball,Magelang
2,Surya,18,singing,Surakarta


In [76]:
#menambah kolom baru dengan fungsi apply
df['eligible'] = ''
df

Unnamed: 0,name,age,hobby,origin,eligible
0,Garry,21,football,Yogyakarta,
1,Malik,25,basketball,Magelang,
2,Surya,18,singing,Surakarta,


In [87]:
#menggunakan apply cara 1
df['eligible'] = df['age'].apply(lambda x: int(x)>=21)
df

Unnamed: 0,name,age,hobby,origin,eligible
0,Garry,21,football,Yogyakarta,True
1,Malik,25,basketball,Magelang,True
2,Surya,18,singing,Surakarta,False


In [92]:
#menggunakan apply cara 2
#membuat fungsi
def di_bawah_umur(x):
    if int(x) < 21:
        return True
    else:
        return False

#aplikasikan    
df['underage'] = df['age'].apply(di_bawah_umur)
df

Unnamed: 0,name,age,hobby,origin,eligible,underage
0,Garry,21,football,Yogyakarta,True,False
1,Malik,25,basketball,Magelang,True,False
2,Surya,18,singing,Surakarta,False,True


Bisa ngga sih mengotak-atik dataframe pakai cara lain? Bisa. Misalnya di bawah ini kita ingin pakai looping, tapi sebelumnya kita hapus dulu isi kolom underage.

In [95]:
df['underage'] = ''
df

Unnamed: 0,name,age,hobby,origin,eligible,underage
0,Garry,21,football,Yogyakarta,True,
1,Malik,25,basketball,Magelang,True,
2,Surya,18,singing,Surakarta,False,


In [96]:
for i in range(0, len(df)):
    if int(df['age'][i]) < 21:
        df['underage'][i] = True
    else:
        df['underage'][i] = False
df

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  """
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  This is separate from the ipykernel package so we can avoid doing imports until


Unnamed: 0,name,age,hobby,origin,eligible,underage
0,Garry,21,football,Yogyakarta,True,False
1,Malik,25,basketball,Magelang,True,False
2,Surya,18,singing,Surakarta,False,True


Bisa kan, lalu apa bedanya? Bedanya ialah kalau kita menggunakan apply, kita bisa langsung apply fungsi ke seluruh row di dataframe secara bersamaan. Namun kalau looping, kita memasukkannya satu per satu. Tentu saja lebih tidak efisien jika looping, apalagi untuk data yang jumlahnya ratusan ribu

## Loading Data to SQL Database
### Database Diagram
Sebuah diagram sederhana yang menunjukkan struktur data pada database. Ini merupakan contoh arsitektur data yang pernah dikerjakan penulis sebelumnya.
<img title="Data Architecture" alt="Alt text" src="data structure.jpg">

In [97]:
df

Unnamed: 0,name,age,hobby,origin,eligible,underage
0,Garry,21,football,Yogyakarta,True,False
1,Malik,25,basketball,Magelang,True,False
2,Surya,18,singing,Surakarta,False,True


### Database Diagram untuk DataFrame Kita
<img title="Data Architecture" alt="Alt text" src="DATA ARCHI.png" style= "float: left">

### Loading The Data
Kita akan menggunakan SQLite3, dengan library sqlite3.

In [121]:
import sqlite3

#Menghubungkan dengan database
conn = sqlite3.connect('new_db.db')
c = conn.cursor()

In [131]:
#Menulis Query Untuk Membuat Tabel
command = """CREATE TABLE IF NOT EXISTS BIODATA (
name VARCHAR(20) PRIMARY KEY NOT NULL,
age INTEGER,
hobby VARCHAR(20),
origin VARCHAR(20),
eligible BOOLEAN,
underage BOOLEAN
);"""

In [132]:
#Eksekusi
c.execute(command)
conn.commit()
conn.close()

In [140]:
#Melakukan Query untuk Memasukkan data
for i in range(0,len(df)):
    conn = sqlite3.connect('new_db.db')
    c = conn.cursor()
    name = df['name'][i]
    age = int(df['age'][i])
    hobby = df['hobby'][i]
    origin = df['origin'][i]
    eligible = df['eligible'][i]
    underage = df['underage'][i]
    query = "INSERT OR IGNORE INTO BIODATA VALUES ('{}', {}, '{}', '{}', {}, {});".format(name, age, hobby, origin, eligible, underage)    
    c.execute(query)
    conn.commit()
    conn.close()

In [141]:
#Mengecek Isi
conn = sqlite3.connect('new_db.db')
c = conn.cursor()
query = "select * from BIODATA"    
c.execute(query)
print(c.fetchall())
conn.commit()
conn.close()

[('Garry', 21, 'football', 'Surakarta', 1, 0), ('Malik', 25, 'basketball', 'Magelang', 1, 0), ('Surya', 18, 'singing', 'Surakarta', 0, 1)]


In [143]:
#Memasukkannya kembali ke dataframe
conn = sqlite3.connect('new_db.db')
c = conn.cursor()
df2 = pd.read_sql_query("SELECT * FROM BIODATA", conn)
conn.commit()
conn.close()
df2

Unnamed: 0,name,age,hobby,origin,eligible,underage
0,Garry,21,football,Surakarta,1,0
1,Malik,25,basketball,Magelang,1,0
2,Surya,18,singing,Surakarta,0,1
