# Practice Case - PyMongo
## By Tio Rahaditya Luthfitama

![Gambar](https://files.realpython.com/media/python-and-mongo-logos.078b4c768b62.png)

***

Terdapat 2 soal yang harus dikerjakan. Yaitu:

__1. Membuat collection__ baru dengan nama clean_movies yang sama persis dengan `movies` collection pada database sample_mflix dengan memakai collection `movies_intial` (projecting_queries pymongo) <br> <br>
__2. Validasi collection__ yang telah dibuat dengan parameter sbb: <br>
    a. Semua document pada clean_movies dan movie sama <br>
    b. Banyak document pada clean_movies dan movie sama <br>
    c. Semua fields pada clean_movies ada pada movie <br>
    d. Semua value pada clean_movies sama dengan semua value pada movies dengan urutan yang sama <br>

## 0. Library

_Library_ yang digunakan untuk membantu mengerjakan:

In [82]:
import pymongo
from pymongo import MongoClient
import pprint
import pandas as pd
from IPython.display import clear_output
from IPython.display import Image
from IPython.core.display import HTML
import warnings 
warnings.filterwarnings('ignore')
import re

## 1.Client

In [25]:
client = MongoClient('mongodb+srv://userstudent:admin1234@cluster0-nnbxe.gcp.mongodb.net/test?retryWrites=true&w=majority')
client2 = MongoClient('mongodb+srv://user1234:user1234@cluster0-1dcm4.gcp.mongodb.net/test?retryWrites=true&w=majority')

 MongoClient merupakan penghubung anatara _MongoDB_ dengan _Python_. Lalu dibagi menjadi 2 client sesuai kebutuhannya.
  * `client` berisikan database `sample_mflix` yang diambil bagian _collection_ `movies` yang berisikan data awal. (yang nantinya dijadikan data awal)
  * `client2` berisikan database `sample_mflix` yang nantinya digunakan sebagai tempat untuk menaruh data baru yang sudah diolah dalam aturan _pipeline_ yang baru.

Melihat isi database yang tersedia pada client:

In [26]:
print(client.list_database_names())

['sample_mflix', 'admin', 'local']


Melihat isi database yang tersedia pada client2:

In [27]:
print(client2.list_database_names())

['movies_list', 'sample_mflix', 'admin', 'local']


_assign_ kolom __sample_mflix__ kepada `db` dan `db2`

In [30]:
db = client.sample_mflix
db2 = client2.sample_mflix

In [33]:
print(db.list_collection_names())

['clean_nama_kamu', 'clean_movies_nurlailiis', 'clean_movies_devita', 'movies_initial', 'clean_movies_frans', 'clean_movies_tara', 'clean_movies_tunggal', 'clean_movies', 'users', 'clean_movies_nurrimah', 'movies_testtopik', 'clean_movies_firdaus', 'movies_scratch', 'clean_movies_topik', 'movies', 'clean_movies_afifah', 'clean_movies_andreas', 'clean_movies_indra_1']


In [261]:
print(db2.list_collection_names())

['clean_movies_devita', 'clean_movies_adipta', 'movies_initial', 'clean_movies_hania', 'clean_movies_firli', 'clean_movies_tio', 'clean_movies_isra', 'clean_movies_febi']


* **col_mov** berisikan kolom `movies` (yang merupakan kolom asli yang akan diolah)
* **col_mi** berisikan kolom `movies_initial` (yang merupakan contoh kolom format tujuan yang akan dibuat)
* **col_tio** berisikan perubahan dari `col_mov` yang diubah dengan format `col_mi`

In [53]:
col_mov = db.movies

In [54]:
col_mi = db2.movies_initial

Berisikan gambaran dari kolom-kolom yang tersedia:

In [55]:
pprint.pprint(col_mov.find_one())

{'_id': ObjectId('573a1390f29313caabcd5a93'),
 'awards': {'nominations': 0, 'text': '1 win.', 'wins': 1},
 'cast': ['Howard C. Hickman', 'Enid Markey', 'Lola May', 'Kate Bruce'],
 'countries': ['USA'],
 'directors': ['Reginald Barker',
               'Thomas H. Ince',
               'Raymond B. West',
               'Walter Edwards',
               'David Hartford',
               'Jay Hunt',
               'J. Parker Read Jr.'],
 'fullplot': 'Allegorical film about peace. A king starts a war, many of the '
             'women are against it, people are pressed into service. A count '
             'has constructed a submarine and gets the order to sink an ocean '
             'liner, that is also carrying - supposedly - ammunition for the '
             'enemy. The count refuses to fire the torpedos, and sinks the '
             'submarine. He survives, but in a limbo between death and life '
             'where he meets Jesus, who takes him over to preach peace. '
             'Natura

In [129]:
pprint.pprint(col_mi.find_one())

{'_id': ObjectId('5db003a2d0a60ca4acd0bee3'),
 'awards': '',
 'cast': 'Carmencita',
 'country': 'USA',
 'director': 'William K.L. Dickson',
 'fullplot': 'Performing on what looks like a small wooden stage, wearing a '
             'dress with a hoop skirt and white high-heeled pumps, Carmencita '
             'does a dance with kicks and twirls, a smile always on her face.',
 'genre': 'Documentary, Short',
 'imdbID': 1,
 'imdbRating': 5.9,
 'imdbVotes': 1032,
 'language': '',
 'lastupdated': '2015-08-26 00:03:45.040000000',
 'metacritic': '',
 'plot': 'Performing on what looks like a small wooden stage, wearing a dress '
         'with a hoop skirt and white high-heeled pumps, Carmencita does a '
         'dance with kicks and twirls, a smile always on her face.',
 'poster': 'http://ia.media-imdb.com/images/M/MV5BMjAzNDEwMzk3OV5BMl5BanBnXkFtZTcwOTk4OTM5Ng@@._V1_SX300.jpg',
 'rating': 'NOT RATED',
 'released': '',
 'runtime': '1 min',
 'title': 'Carmencita',
 'type': 'movie',
 'writer':

### 1.a Pipeline

In [56]:
imdb = list(col_mov.find({},{'_id':0, 'imdb':1}))
imdb_list=[]
for x in imdb:
    imdb_list.append(list(x.values())[0])

Membuat list yang berisikan _id, rating dan votes_ untuk nantinya dibandingkan dengan data `pipeline` dengan tujuan menghilangkan duplikasi yang ada.

In [72]:
imdb_list[:5]

[{'id': 6517, 'rating': 6.3, 'votes': 162},
 {'id': 8133, 'rating': 7.8, 'votes': 4680},
 {'id': 12512, 'rating': 6.8, 'votes': 489},
 {'id': 13025, 'rating': 7.8, 'votes': 3738},
 {'id': 15498, 'rating': 7.1, 'votes': 327}]

_Pipeline_ berisikan kolom-kolom yang membentuk sebuah dokumen yang dihasilkan sebagai _collection_ baru yang diminta pada nomor 1. Dengan membandingkan hasil dari variabel `imdb_list` dengan agregasi pada __line ke 60__ menggunakan data `movies_initial`, didapatkan bagian yang sesuai dengan kebutuhan dan diberikan nama output berupa `clean_movies_tio`.

In [245]:
pipeline = [
        {
        '$project': {
            'plot': '$plot',
            'genres': {'$split': ["$genre", ", "]},
            'runtime': {"$cond": [{'$eq': ["$runtime", ""]}, 0 ,{'$arrayElemAt':[{'$split': [ "$runtime", " min" ]}, 0]}]},
            'cast': {'$split': ["$cast", ", "]},
            'num_mflix_comments' : '',
            'metacritic':{"$cond": [{"$eq": ["$metacritic", ""]}, "$nonExistinField", "$metacritic"]},
            'directors' : {'$split' : ['$director', ', ']},
            'title': '$title',
            'countries': {'$split': ["$country", ", "]},
            'fullplot': "$fullplot",
            'languages' : {'$split' : ['$language', ', ']},
            'rated': "$rating",
             'released': {
                '$cond': {
                    'if': {'$ne': ["$released", ""]},
                    'then': {
                        '$dateFromString': {
                            'dateString': "$released"
                        }
                    },
                    'else': ""}},
            'awards': {'nominations': {'$arrayElemAt':[{'$split':[{'$arrayElemAt':[{'$split': [ "$awards", " nomination" ]}, -2]},' ']},-1]},
                       'text': "$awards",
                       'wins': {'$arrayElemAt':[{'$split':[{'$arrayElemAt':[{'$split': [ "$awards", " win" ]}, -2]},' ']},-1]}
                      },
            'year': '$year',
            'type': '$type',
            'poster': 1,
            'imdb': {
                'id': "$imdbID",
                'rating': "$imdbRating",
                'votes': "$imdbVotes"
                },
            'type': 1,
            'writers': {'$split': ["$writer", ", "]},
            'lastupdated': "$lastupdated",
            'tomatoes': {
                'viewer':{
                    'rating': "",
                    'numReviews': "",
                    'meter': "",
                },
                'lastUpdated':""
                        }
        }
    },
    {
      "$match":{"imdb":{'$in':[dict(sorted(imdb_list[x].items(), key=lambda x: x[0])) for x in range (len(imdb_list))]}}  
    },
    {
        ### naming the new collection as output ###
        '$out': "clean_movies_tio"
    }
]

clear_output()
pprint.pprint(list(client2.sample_mflix.movies_initial.aggregate(pipeline)))

[]


## 2. Validasi collection

### a. Semua document pada clean_movies dan movie sama

In [258]:
x = col_mov.find({}).sort('title')
y = col_tio.find({}).sort('title')
if x==y:
    print('Semua dokumen sama')
else:
    print('Ada perbedaan pada dokumen')

Ada perbedaan pada dokumen


Penjelasaan dari perbedaan dokumen diberikan pada jawaban __b__.

### b. Banyak document pada clean_movies dan movie sama

In [246]:
print(db2.list_collection_names())

['clean_movies_devita', 'clean_movies_adipta', 'movies_initial', 'clean_movies_hania', 'clean_movies_firli', 'clean_movies_tio', 'clean_movies_isra', 'clean_movies_febi']


In [247]:
col_tio = db2.clean_movies_tio

In [259]:
db2.clean_movies_tio.count()

23539

In [260]:
db.movies.count()

23541

In [248]:
db2.clean_movies_tio.count() - db.movies.count()

-2

Terdapat perbedaan data yang tersedia sejumalah __2 data__. Mari kita cari apa yang menyebabkan perbedaan dari kedua data tersebut.

In [154]:
query = {}
projection = {"_id":0, "title":1}
doc_tio = []

for document in col_tio.find(query,projection): 
    doc_tio.append(document)
    
query = {}
projection = {"_id":0, "title":1}
doc_mov = []

for document in col_mov.find(query,projection): 
    doc_mov.append(document)

In [159]:
doc2_tio = []
doc2_mov = []
doc3_tio = []

for item in doc_tio:
    name = item['title']
    doc2_tio.append(name)
    
for item in doc_mov:
    name = item['title']
    doc2_mov.append(name)
    
for i in range(len(doc2_tio)):
    line = str(doc2_tio[i])
    line = re.sub(r"�", "è", line)
    doc3_tio.append(line)

In [262]:
grup = list(col_tio.aggregate([{"$sortByCount":"$imdb"}]))
grup2 = list(col_mov.aggregate([{"$sortByCount":"$imdb"}]))

for i in grup2:
  if i not in grup:
    print(i)

{'_id': {'id': 5, 'rating': 6.2, 'votes': 1189}, 'count': 2}


In [212]:
def Diff(li1, li2): 
    return (list(set(li1) - set(li2)))

print(Diff(doc2_mov, doc3_tio))

[1408, 1, 3, 4, 8, 9, 10, 10.5, 12, 13, 11.6, 15, 21, 23, 24, 36, 42, 300, 1969, 1971, 45365, 54, 1981, 1987, 1989, 977, 2010, 'Blacksmith Scene II', 2012, 360, 1900, 1776, 1911, 2046]


* Dapat dilihat bahwasanya terdapat kumpulan angka dan judul pada hasil `Diff`. Munculnya angka disebabkan dari penggunaan _regex_ pada 2 kotak code sebelumnya (Teks dari huruf __è__ tidak terbaca dengan baik pada array, sehingga perlu dilakukan regex). Setelah dilakukan proses _regex_ nilai bilangan pada string mengalami perubahan. <br>
* Walaupun begitu, Dapat dilihat film yang memang membuat perbedaan pada kedua data (kolom `doc2_mov` dan `doc3_tio`) yaitu __Blacksmith Scene II__. Film tersebut menunjukkan kalau memang terdapat dua data yang memang muncul 2 kali (dapat dilihat dari 2 _kotak code_ sebelumnya) 

## c. Semua fields pada clean_movies ada pada movie

In [249]:
col_find = col_mov.find_one({})
col_keys = col_find.keys()
col_find_all = col_mov.find({})

for document in col_find_all: 
    keys = document.keys()
    if len(keys)>len(col_keys):
        col_keys = keys
    else:
        keys = keys

Ide awalnya adalah dengan mencari `col_find` yang berisikan _keys_ dari _document_ pertama. Lalu dibandingkan dengan `col_find_all` yang berisikan _looping_ dari dokumen yang tersedia. Lalu dengan mencari _length keys_ terpanjang diharapkan menghasilkan _keys_ yang paling lengkap.

In [250]:
col_tio_find = col_tio.find_one({})
col_tio_keys = col_tio_find.keys()
col_tio_all = col_tio.find({})

for document in col_tio_all: 
    keys = document.keys()
    if len(keys)>len(col_tio_keys):
        col_tio_keys = keys
    else:
        col_tio_keys = col_tio_keys

Dengan konsep yang sama untuk pencarian _keys_ seperti sebelumnya, setelah itu dibandingkan kedua keys tersebut untuk melihat apakah ada kolom yang belum dimasukkan/berbeda. 

In [263]:
sorted_colkeys=list(col_keys)   
sorted_colkeys.sort()            
print('Urutan ascending dari /col_movie/ adalah: ',sorted_colkeys)

Urutan ascending dari /col_movie/ adalah:  ['_id', 'awards', 'cast', 'countries', 'directors', 'fullplot', 'genres', 'imdb', 'languages', 'lastupdated', 'metacritic', 'num_mflix_comments', 'plot', 'poster', 'rated', 'released', 'runtime', 'title', 'tomatoes', 'type', 'writers', 'year']


In [264]:
sorted_coltio=list(col_tio_keys)
sorted_coltio.sort()           
print('Urutan ascending dari /col_tio_keys/ adalah:',sorted_coltio)

Urutan ascending dari /col_tio_keys/ adalah: ['_id', 'awards', 'cast', 'countries', 'directors', 'fullplot', 'genres', 'imdb', 'languages', 'lastupdated', 'metacritic', 'num_mflix_comments', 'plot', 'poster', 'rated', 'released', 'runtime', 'title', 'tomatoes', 'type', 'writers', 'year']


In [253]:
def Diff(li1, li2): 
    return (list(set(li1) - set(li2))) 

print(Diff(sorted_colkeys, sorted_coltio))

[]


Setelah dibandingkan dari kedua kolom yang tersedia (`sorted_colkeys` dan `sorted_coltio`), terlihat bahwasanya tidak ada perbedaan dari keduanya. Hal ini dibuktikan dengan _code_ diatas. <br>

Jawaban diatas juga berhasil __menyelesaikan tugas 2.c.__

## d. Semua value pada clean_movies sama dengan semua value pada movies dengan urutan yang sama

Seperti yang sudah dijelaskan sebelumnya, bahwsanya Film __Blacksmith Scene II__ memiliki duplikasi pada datanya. Sehingga untuk dapat menjawab bagian 'D' diperlukan penghapusan pada film tersebut. Tujuannya adalah jika tanpa judul film tersebut, apakah value dari kedua _collection_ memang sama. (untuk menjawab soal D)

In [287]:
y = db2.clean_movies_tio.find( { "title": { "$ne": 'Blacksmith Scene II' } } ).count()
y

23539

In [288]:
x = db.movies.find({ "title": { "$ne": 'Blacksmith Scene II' } }).count()
x

23539

Jumlah yang dihasilkan sudah sama, selanjutnya adalah membandingkan keduanya.

In [308]:
x = db.movies.find({ "title": { "$ne": 'Blacksmith Scene II' } })
y = db2.clean_movies_tio.find( { "title": { "$ne": 'Blacksmith Scene II' } } )

x = db.movies.find({}).sort('title') #data asli
y = db2.clean_movies_tio.find({}).sort('title') #data replika

In [309]:
if x==y:
    print('Semua dokumen sama')
else:
    print('Ada perbedaan pada dokumen')

Ada perbedaan pada dokumen


In [310]:
for data in x.limit(1):
    pprint.pprint(data)

{'_id': ObjectId('573a13dcf29313caabdb2734'),
 'awards': {'nominations': 1, 'text': '1 nomination.', 'wins': 0},
 'cast': ['Rhys Wakefield', 'Logan Miller', 'Ashley Hinshaw', 'Natalie Hall'],
 'countries': ['USA'],
 'directors': ['Dennis Iliadis'],
 'fullplot': 'Three college friends hit the biggest party of the year, where a '
             'mysterious phenomenon disrupts the night, quickly descending '
             'into a chaos that challenges their friendships -- and whether '
             'they can stay alive.',
 'genres': ['Sci-Fi', 'Thriller'],
 'imdb': {'id': 2395385, 'rating': 5.5, 'votes': 5626},
 'languages': ['English'],
 'lastupdated': '2015-09-11 00:09:26.053000000',
 'metacritic': 60,
 'plot': 'Three college friends hit the biggest party of the year, where a '
         'mysterious phenomenon disrupts the night, quickly descending into a '
         'chaos that challenges their friendships -- and whether they can stay '
         'alive.',
 'poster': 'https://m.media-amazon.

In [311]:
for data in y.limit(1):
    pprint.pprint(data)

{'_id': ObjectId('5db005a9d0a60ca4acd15eb4'),
 'awards': {'nominations': '1', 'text': '1 nomination.', 'wins': None},
 'cast': ['Rhys Wakefield', 'Logan Miller', 'Ashley Hinshaw', 'Natalie Hall'],
 'countries': ['USA'],
 'directors': ['Dennis Iliadis'],
 'fullplot': 'Three college friends hit the biggest party of the year, where a '
             'mysterious phenomenon disrupts the night, quickly descending '
             'into a chaos that challenges their friendships -- and whether '
             'they can stay alive.',
 'genres': ['Sci-Fi', 'Thriller'],
 'imdb': {'id': 2395385, 'rating': 5.5, 'votes': 5626},
 'languages': ['English'],
 'lastupdated': '2015-09-11 00:09:26.053000000',
 'metacritic': 60,
 'num_mflix_comments': '',
 'plot': 'Three college friends hit the biggest party of the year, where a '
         'mysterious phenomenon disrupts the night, quickly descending into a '
         'chaos that challenges their friendships -- and whether they can stay '
         'alive.',
 'p

Dari data yang sudah diurutkan, terlihat bahwasanya dari urutan tidak jauh berbeda. Tapi sayangnya, pada beberapa bagian seperti `tomatoes`,`awards` dan `num_mflix_comments` tidak memiliki data yang sama (__db2.clean_movies_tio__) dengan pembandingnya (__db.movies__).

Selain itu, setelah dicek menggunakan MongoDB Compass, ada beberapa bagian yang memang tidak memiliki data type/format yang sama.

Maka dari itu, didapatkan statmen 'Ada perbedaan pada dokumen'.