### 1. Menghubungkan ke Database MongoDB
- **Tugas 1**: Pastikan MongoDB telah terpasang dan berjalan. Hubungkan ke MongoDB lokal.


In [1]:
# Menggunakan librarry pymongo untuk import module MongoCLient agar dapat mengakses library
from pymongo import MongoClient
import pandas as pd

# Inisialisasi client dan koneksi ke database
client = MongoClient('mongodb://localhost:27017/')

# Membuat sebuah database di dalam mongodb bernama company_db
db = client['company_db']
# Membuat sebuah collection di dalam database tersebut. Collections itu adalah table pada mongodb
collection = db['employees']
collection.delete_many({})
# Contoh untuk memastikan koneksi
print('Connected to MongoDB')

Connected to MongoDB


### 2. Operasi CRUD Dasar
- **Tugas 2**: Insert, Update, dan Delete data pada koleksi `employees`.


In [2]:
# Contoh Insert Data
employee_data = {
    'name': 'Alice',
    'department': 'Finance',
    'age': 29,
    'salary': 4500
}

# Menambahkan data dalam satu kali baris saja.
# JIka menambah banyak baris collection.insert_many([])
collection.insert_one(employee_data)
print('Data inserted')

# Tugas: Insert beberapa data tambahan, lakukan update, serta delete data

# Insert
# Menyiapkan data yang akan ditambahkan
employee_datas = [
    {
        'name': 'Julioez',
        'department': 'CEO',
        'age': 19,
        'salary': 10000
    },
    {
        'name': 'Figo',
        'department': 'Web Developer',
        'age': 23,
        'salary': 12000
    },
    {
        'name': 'Nadia',
        'department': 'UI/UX Designer',
        'age': 25,
        'salary': 9500
    },
    {
        'name': 'Raka',
        'department': 'Data Analyst',
        'age': 27,
        'salary': 11000
    },
    {
        'name': 'Sinta',
        'department': 'Marketing',
        'age': 22,
        'salary': 8700
    },
    {
        'name': 'Bagas',
        'department': 'Web Developer',
        'age': 24,
        'salary': 12500
    },
    {
        'name': 'Lina',
        'department': 'Finance',
        'age': 28,
        'salary': 11500
    },
    {
        'name': 'Tono',
        'department': 'Security',
        'age': 31,
        'salary': 8000
    },
    {
        'name': 'Wulan',
        'department': 'HR',
        'age': 26,
        'salary': 10500
    },
    {
        'name': 'Rendi',
        'department': 'Data Analyst',
        'age': 29,
        'salary': 11200
    },
    {
        'name': 'Mira',
        'department': 'Marketing',
        'age': 23,
        'salary': 9100
    },
    {
        'name': 'Adit',
        'department': 'Web Developer',
        'age': 21,
        'salary': 11800
    }
]

# Menambahkan Data dalam banyak baris
collection.insert_many(employee_datas)
print("Data ditambahkan")

# Delete
# Menghapus satu baris data saja yang pertama kali ditemukan
collection.delete_one({'name':'Mira'})
print("Data dengan nama mira terhapus")

# Menghapus banyak baris data
collection.delete_many({'age' : {'$gt':24}})
print("Data dengan umur di atas 24 dihapus")

# Update
# Menyiapkan pemfilteran apa yang terpenuhi agar terupdate
filterQuery = {'departments': 'Web Developer'}

# Menyiapkan field mana yang akan diganti
setQuery = {'$set' : {'salary': 15000}}

# Melakukan update banyak baris
collection.update_many(filterQuery, setQuery)
print("Data berhasil diubah di banyak baris")

# Delete
# Menghapus data yang banyak baris berdasarkan departmentnya Markteting
collection.delete_many({'department': 'Marketing'})

# Menampilkan Data
df = pd.DataFrame(list(collection.find({})))
df.drop(columns=['_id'])

Data inserted
Data ditambahkan
Data dengan nama mira terhapus
Data dengan umur di atas 24 dihapus
Data berhasil diubah di banyak baris


Unnamed: 0,name,department,age,salary
0,Julioez,CEO,19,10000
1,Figo,Web Developer,23,12000
2,Bagas,Web Developer,24,12500
3,Adit,Web Developer,21,11800


### 3. Query Lebih Kompleks Menggunakan Aggregation
- **Tugas 3**: Terapkan aggregation untuk menghitung rata-rata gaji per departemen.


In [3]:
# Query Aggregation untuk mencari rata-rata gaji per departemen
pipeline = [
    {'$match' : {}}, # Data yang diambil adalah semua data tidak ada pemfilterian
    {'$group': {'_id': '$department', 'average_salary': {'$avg': '$salary'}}},
    # Agar data yang tampil sesuai dengan yang di inginkan
    { '$project': {
        '_id': 0,                  # sembunyikan kolom _id
        'department': '$_id',      # tampilkan nama departemen
        'average_salary': 1        # tampilkan rata-rata gaji
    }}
]

# Dilakukannya pengesekusian agregasi sesuai dengan nilai argument pipeline yang diberikan 
hasilAgregasi = collection.aggregate(pipeline)

# Menampilkan Data
df = pd.DataFrame(list(hasilAgregasi))
df

Unnamed: 0,average_salary,department
0,12100.0,Web Developer
1,10000.0,CEO


### 4. Latihan Tambahan
- **Latihan 4.1**: Buatlah koleksi baru `products` dan masukkan data produk (minimal 10 produk).

In [4]:
# Membuat collections baru pada database company_db
products = db["products"]

# Menyiapkan dataset
product_datas = [
    {
        "name": "Indomie Goreng Original",
        "category": "Makanan",
        "brand": "Indofood",
        "price": 3500,
        "stock": 120
    },
    {
        "name": "Teh Botol Sosro",
        "category": "Minuman",
        "brand": "Sosro",
        "price": 5000,
        "stock": 200
    },
    {
        "name": "Kopi Kapal Api Special",
        "category": "Minuman",
        "brand": "Kapal Api",
        "price": 7000,
        "stock": 150
    },
    {
        "name": "Aqua 600ml",
        "category": "Minuman",
        "brand": "Danone",
        "price": 4000,
        "stock": 300
    },
    {
        "name": "SilverQueen Chunky Bar",
        "category": "Cokelat",
        "brand": "SilverQueen",
        "price": 12500,
        "stock": 80
    },
    {
        "name": "Tolak Angin Cair",
        "category": "Obat Tradisional",
        "brand": "Sidomuncul",
        "price": 8500,
        "stock": 60
    },
    {
        "name": "Rinso Anti Noda 800g",
        "category": "Kebutuhan Rumah Tangga",
        "brand": "Unilever",
        "price": 18000,
        "stock": 90
    },
    {
        "name": "Lifebuoy Sabun Cair 450ml",
        "category": "Perawatan Diri",
        "brand": "Unilever",
        "price": 22000,
        "stock": 75
    },
    {
        "name": "Wardah Lightening Day Cream",
        "category": "Kosmetik",
        "brand": "Wardah",
        "price": 45000,
        "stock": 40
    },
    {
        "name": "ABC Kecap Manis 620ml",
        "category": "Bumbu Dapur",
        "brand": "ABC",
        "price": 18000,
        "stock": 100
    },
    {
        "name": "Sari Roti Tawar",
        "category": "Makanan",
        "brand": "Sari Roti",
        "price": 15000,
        "stock": 50
    },
    {
        "name": "Ultra Milk Full Cream 1L",
        "category": "Minuman",
        "brand": "Ultra Jaya",
        "price": 19000,
        "stock": 120
    },
    {
        "name": "Roma Malkist Crackers",
        "category": "Makanan Ringan",
        "brand": "Mayora",
        "price": 8000,
        "stock": 130
    },
    {
        "name": "Pocari Sweat 500ml",
        "category": "Minuman",
        "brand": "Otsuka",
        "price": 7500,
        "stock": 110
    },
    {
        "name": "Good Day Cappuccino 250ml",
        "category": "Minuman",
        "brand": "Kapal Api",
        "price": 6000,
        "stock": 140
    }
]

products.insert_many(product_datas)
# Menampilkan Data
df = pd.DataFrame(list(products.find({})))
df.drop(columns=["_id"])


Unnamed: 0,name,department,age,salary,category,brand,price,stock
0,Figo,Web Developer,23.0,12000.0,,,,
1,Bagas,Web Developer,24.0,12500.0,,,,
2,Adit,Web Developer,21.0,11800.0,,,,
3,Reza,Web Developer,27.0,13000.0,,,,
4,Rani,Web Developer,25.0,12200.0,,,,
5,Raka,Data Analyst,27.0,11000.0,,,,
6,Rendi,Data Analyst,29.0,11200.0,,,,
7,Dina,Data Analyst,26.0,10800.0,,,,
8,Fahmi,Data Analyst,30.0,11500.0,,,,
9,Yuli,Data Analyst,28.0,11100.0,,,,


### 4. Latihan Tambahan
- **Latihan 4.2**: Lakukan query untuk menemukan produk dengan harga di atas rata-rata.


In [5]:
# Membuat sebuah query untuk menemukan produk dengan harga di atas rata - rata

# Mencari rata - rata harganya terlebih dahulu
# Membuat sebuah pipeline untuk menyetel pipeline
pipeline = [
    {'$match' : {}},
    {'$group': {'_id': None, 'average_price': {'$avg': '$price'} } }
]

# mendapatkan rata - rata dari harga
avgPrice = list(products.aggregate(pipeline))[0]['average_price']
print("Jumlah rata - rata product berjumlah", avgPrice) 

# Setelah mendapatkan data rata - ratanya tinggal mencari yang harganya lebih besar dari rata - rata yang baru didapatkan
hasilQuery = products.find({'price': {'$gt': avgPrice } })

# Menampilkan hasil query
df = pd.DataFrame(list(hasilQuery))
df

Jumlah rata - rata product berjumlah 13266.666666666666


Unnamed: 0,_id,name,category,brand,price,stock
0,6906e34fd1f3ab48e820f781,Rinso Anti Noda 800g,Kebutuhan Rumah Tangga,Unilever,18000,90
1,6906e34fd1f3ab48e820f782,Lifebuoy Sabun Cair 450ml,Perawatan Diri,Unilever,22000,75
2,6906e34fd1f3ab48e820f783,Wardah Lightening Day Cream,Kosmetik,Wardah,45000,40
3,6906e34fd1f3ab48e820f784,ABC Kecap Manis 620ml,Bumbu Dapur,ABC,18000,100
4,6906e34fd1f3ab48e820f785,Sari Roti Tawar,Makanan,Sari Roti,15000,50
5,6906e34fd1f3ab48e820f786,Ultra Milk Full Cream 1L,Minuman,Ultra Jaya,19000,120


### 4. Latihan Tambahan
- **Latihan 4.3**: Buatlah aggregation pipeline untuk menghitung total produk dalam setiap kategori.


In [6]:
# Menbuat sebuah pipeline untuk menghitung jumlah total produk dalam setiap kategori
pipeline = [
    {'$match': {}},
    {'$group': {'_id': '$category', 'Count Product' : {'$sum': 1}}}
]

# Pipeline yang dibuat dimasukan kedalam argumen aggregate untuk dihitung agregasinya
df = products.aggregate(pipeline)

# Menampilkan datasetnya
df = pd.DataFrame(df)
df

Unnamed: 0,_id,Count Product
0,Kosmetik,1
1,Cokelat,1
2,Minuman,6
3,,25
4,Makanan,2
5,Obat Tradisional,1
6,Perawatan Diri,1
7,Kebutuhan Rumah Tangga,1
8,Bumbu Dapur,1
9,Makanan Ringan,1


In [9]:
employee_datas = [
    # === Web Developer ===
    {'name': 'Figo', 'department': 'Web Developer', 'age': 23, 'salary': 12000},
    {'name': 'Bagas', 'department': 'Web Developer', 'age': 24, 'salary': 12500},
    {'name': 'Adit', 'department': 'Web Developer', 'age': 21, 'salary': 11800},
    {'name': 'Reza', 'department': 'Web Developer', 'age': 27, 'salary': 13000},
    {'name': 'Rani', 'department': 'Web Developer', 'age': 25, 'salary': 12200},

    # === Data Analyst ===
    {'name': 'Raka', 'department': 'Data Analyst', 'age': 27, 'salary': 11000},
    {'name': 'Rendi', 'department': 'Data Analyst', 'age': 29, 'salary': 11200},
    {'name': 'Dina', 'department': 'Data Analyst', 'age': 26, 'salary': 10800},
    {'name': 'Fahmi', 'department': 'Data Analyst', 'age': 30, 'salary': 11500},
    {'name': 'Yuli', 'department': 'Data Analyst', 'age': 28, 'salary': 11100},

    # === Marketing ===
    {'name': 'Sinta', 'department': 'Marketing', 'age': 22, 'salary': 8700},
    {'name': 'Mira', 'department': 'Marketing', 'age': 23, 'salary': 9100},
    {'name': 'Andi', 'department': 'Marketing', 'age': 25, 'salary': 9400},
    {'name': 'Tina', 'department': 'Marketing', 'age': 26, 'salary': 9600},
    {'name': 'Rico', 'department': 'Marketing', 'age': 28, 'salary': 9850},

    # === Finance ===
    {'name': 'Lina', 'department': 'Finance', 'age': 28, 'salary': 11500},
    {'name': 'Dewi', 'department': 'Finance', 'age': 32, 'salary': 11800},
    {'name': 'Anton', 'department': 'Finance', 'age': 27, 'salary': 11200},
    {'name': 'Yoga', 'department': 'Finance', 'age': 29, 'salary': 11700},
    {'name': 'Bela', 'department': 'Finance', 'age': 31, 'salary': 12000},

    # === HR ===
    {'name': 'Wulan', 'department': 'HR', 'age': 26, 'salary': 10500},
    {'name': 'Nadia', 'department': 'HR', 'age': 25, 'salary': 9800},
    {'name': 'Putra', 'department': 'HR', 'age': 28, 'salary': 10700},
    {'name': 'Doni', 'department': 'HR', 'age': 30, 'salary': 10900},
    {'name': 'Sari', 'department': 'HR', 'age': 27, 'salary': 10300},
]

collection.delete_many({})
collection.insert_many(employee_datas)

InsertManyResult([ObjectId('6906e38fd1f3ab48e820f7a3'), ObjectId('6906e38fd1f3ab48e820f7a4'), ObjectId('6906e38fd1f3ab48e820f7a5'), ObjectId('6906e38fd1f3ab48e820f7a6'), ObjectId('6906e38fd1f3ab48e820f7a7'), ObjectId('6906e38fd1f3ab48e820f7a8'), ObjectId('6906e38fd1f3ab48e820f7a9'), ObjectId('6906e38fd1f3ab48e820f7aa'), ObjectId('6906e38fd1f3ab48e820f7ab'), ObjectId('6906e38fd1f3ab48e820f7ac'), ObjectId('6906e38fd1f3ab48e820f7ad'), ObjectId('6906e38fd1f3ab48e820f7ae'), ObjectId('6906e38fd1f3ab48e820f7af'), ObjectId('6906e38fd1f3ab48e820f7b0'), ObjectId('6906e38fd1f3ab48e820f7b1'), ObjectId('6906e38fd1f3ab48e820f7b2'), ObjectId('6906e38fd1f3ab48e820f7b3'), ObjectId('6906e38fd1f3ab48e820f7b4'), ObjectId('6906e38fd1f3ab48e820f7b5'), ObjectId('6906e38fd1f3ab48e820f7b6'), ObjectId('6906e38fd1f3ab48e820f7b7'), ObjectId('6906e38fd1f3ab48e820f7b8'), ObjectId('6906e38fd1f3ab48e820f7b9'), ObjectId('6906e38fd1f3ab48e820f7ba'), ObjectId('6906e38fd1f3ab48e820f7bb')], acknowledged=True)

### 5. Tugas
- **Tugas 1**: Cari 5 karyawan dengan gaji tertinggi dalam setiap departemen, gunakan query atau aggregation yang sesuai.
  

In [17]:
# Membuat sebuah pipeline untuk mencari gaji tertinggi dalam setiap departemen
pipeline = [
    # Mengurutkan berdasarkan department dan salary menurun dari terbesar hingga terkecil
    {"$sort": {"department": 1, "salary": -1}},
    
    # Lalu mengelompokan berdasarkan departemen dan di push atau di tambahkan bergiliran konsep FIFO
    {
        "$group": {
            "_id": "$department",
            "top_5_employees": {"$push": {"name": "$name", "salary": "$salary"}},
        }
    },
    
    #  MEngambil 5 data teratas per departemen
    {
        "$project": {
            "_id": 1,
            "top_5_employees": {"$slice": ["$top_5_employees", 5]}
        }
    }
]

# Pipeline yang dibuat dimasukan kedalam argumen aggregate untuk dihitung agregasinya
hasil = collection.aggregate(pipeline)
# Menampilkan datasetnya
df = pd.DataFrame(hasil)
df

Unnamed: 0,_id,top_5_employees
0,Marketing,"[{'name': 'Rico', 'salary': 9850}, {'name': 'T..."
1,HR,"[{'name': 'Doni', 'salary': 10900}, {'name': '..."
2,Data Analyst,"[{'name': 'Fahmi', 'salary': 11500}, {'name': ..."
3,Finance,"[{'name': 'Bela', 'salary': 12000}, {'name': '..."
4,Web Developer,"[{'name': 'Reza', 'salary': 13000}, {'name': '..."


### 5. Tugas
- **Tugas 2**: Buatlah skenario di mana Anda harus menghapus karyawan yang berusia di bawah 25 tahun dari database.

In [23]:
## Menghapus karyawan yang umurnya di bawah 25 tahun
karyawanL25 = collection
karyawanL25.delete_many({'age' : {'$lt' : 25}})

df = pd.DataFrame(list(karyawanL25.find({})))
df

Unnamed: 0,_id,name,department,age,salary
0,6906e38fd1f3ab48e820f7a6,Reza,Web Developer,27,13000
1,6906e38fd1f3ab48e820f7a7,Rani,Web Developer,25,12200
2,6906e38fd1f3ab48e820f7a8,Raka,Data Analyst,27,11000
3,6906e38fd1f3ab48e820f7a9,Rendi,Data Analyst,29,11200
4,6906e38fd1f3ab48e820f7aa,Dina,Data Analyst,26,10800
5,6906e38fd1f3ab48e820f7ab,Fahmi,Data Analyst,30,11500
6,6906e38fd1f3ab48e820f7ac,Yuli,Data Analyst,28,11100
7,6906e38fd1f3ab48e820f7af,Andi,Marketing,25,9400
8,6906e38fd1f3ab48e820f7b0,Tina,Marketing,26,9600
9,6906e38fd1f3ab48e820f7b1,Rico,Marketing,28,9850


### 5. Tugas
- **Tugas 3**: Buatlah laporan ringkas (menggunakan MongoDB query) yang menghitung total gaji karyawan di setiap departemen, serta rata-rata umur karyawan.


In [25]:
# Membuat sebuah pipeline untuk menghitung total gaji karyawan di setiap departemen, serta rata-rata umur karyawan.
pipeline = [
    # Mengelompokan berdasarkan departemen dan mencari total gaji karyawan di setiap departemen
    {
        "$group": {
            "_id": "$department",
            "Summary_Salary" : {'$sum' : '$salary'},
            'Average_Age' : {'$avg' : '$age'}
        }
    }
    
]

# Pipeline yang dibuat dimasukan kedalam argumen aggregate untuk dihitung agregasinya
hasil = collection.aggregate(pipeline)
# Menampilkan datasetnya
df = pd.DataFrame(hasil)
df

Unnamed: 0,_id,Summary_Salary,Average_Age
0,Data Analyst,55600,28.0
1,Web Developer,25200,26.0
2,Marketing,28850,26.333333
3,HR,52200,27.2
4,Finance,58200,29.4
