In [1]:
pip install pymongo



Note: you may need to restart the kernel to use updated packages.


Una volta installata la libreria pymongo, si procede con la connessione al nostro database. Attraverso i campi: server, database, collection e index_name, ci si collega al database scelto.

In [2]:
import pymongo
import datetime

# MongoDB Server and Database Data
server = "mongodb://localhost:27017/"
database = "City"
collection = "City_Inspections_DB"
index_name = "date_index"

Di seguito la funzione con cui avviene effettivamente la connessione. Si utilizzano i dati definiti nello snippet precedente e si stabilisce una connessione con il database e la collezione di documenti selezionata.

In [3]:
def connect():
  myclient = pymongo.MongoClient(server)
  mydb = myclient[database]
  mycol = mydb[collection]
  return mycol

Di seguito la funzione di inserimento e aggiornamento dei dati all'interno del database. Entrambe effettuano un controllo sull'esistenza del documento su cui fare inserimento/aggiornamento, per evitare di avere duplicati o oggetti con solo due campi (in caso di update senza un documento di riferimento esistente).

In [4]:
def insert(mycol):
  
  inspection = {"id" : "00000-0000-ENFO", "certificate_number" : "17041999", "business_name" : "Videogames Center",
  "date" : "1999-4-17", "result" : "Fail", "sector" : "Videogames", "address" : {"city" : "Georgia",
  "zip" : "41030", "street" : "Rue de Baptiste", "number" : "19"}}  
  
  check = mycol.find({"id":str(inspection.get("id"))}).distinct("id")
  
  if not check:
    mycol.insert_one(inspection)
  else:
    print("There is already this object")
    
  

def update(mycol):
  query = {"id":"00000-0000-ENFO"}
  new_values = {"$set":{"Inspector Name":"Lorenzo Stigliano"}}

  check = mycol.find(query).distinct("id")
  if not check:
    print("There is document with the right id to be updated")
  else:
    mycol.update_one(query, new_values, upsert = True)

Di seguito la funzione per fare indexing sul campo date, in modo da velocizzare le query che facciano un uso intesivo del campo date:

In [None]:
def index(mycol):
  mycol.create_index([('date', pymongo.ASCENDING )], name = index_name)

All'interno della prima abbiamo una interrogazione riguardo il periodo che comprende 2015-1-1 e 2015-6-30 (year-month-day) e considera tutte le ispezioni che sono risultate come "Fail" o "Violation Issued", fatte a New York a Frederick Douglass Boulevard. Il risultato è stato poi ordinato in base al nome della attività e sono stati stampati solamente i nomi delle attività.

Nella seconda interrogazione vengono invece presi gli oggetti che hanno due determinati zip code: 10030 e 11373 e si selezionano inoltre solamente quelli che hanno come settore quello della vendita ambulante di cibo. Fatto ciò si crea un gruppo con id dell'oggetto e nome dell'attività, si effettua un unwind su questo gruppo e si ordina il risultato in ordine alfabetico crescente.

Per la terza interrogazione si prendono invece gli oggetti appartenenti alla città con il seguente zip code: 11234 e si selezionano le attività che lavorano nel settore del "Cigarette Retail Dealer" all'interno della finestra temporale che intercorre tra il 2016-1-1 e il 2016-4-30. Di questi si crea un gruppo basato sull'id dell'oggetto, il nome della via in cui risiede l'attività e il nome stesso dell'attività. Il gruppo viene sottoposto ad una operazione di unwind che permette di effettuare infine un sort sulla somma delle attività con le caratteristiche sopra citate, per ogni via (address.street).

Riguardo la quarta interrogazione si predono in considerazione 3 aree diverse e si vuole cercare, all'interno di una finestra temporale precisa (2015-1-1 e 2016-12-31) quale sia la tipologia di attività che abbia più risultati negativi (Fail o Violation Issued).

In [8]:
def query(mycol):
    #   ___ _        _      ___                    
    #  | __(_)_ _ __| |_   / _ \ _  _ ___ _ _ _  _ 
    #  | _|| | '_(_-|  _| | (_) | || / -_| '_| || |
    #  |_| |_|_| /__/\__|  \__\_\\_,_\___|_|  \_, |
    #                                         |__/ 
    # Every inspections within 2015-1-1 and 2015-6-30, that have this two type of result: Fail or Violation Issued
    # that are done in NEW YORK city at FREDERICK DOUGLASS BLVD. The result are sorted by business_name and only this field is displayed

    print("First Query:\n")
    result = mycol.find({"date" : {"$gte":"2015-1-1", "$lte":"2015-6-30"}, "result" : {"$in" : ["Fail", "Violation Issued"]}, 
                        "$and" : [{"address.city" : "NEW YORK"}, {"address.street" : "FREDERICK DOUGLASS BLVD"}]}).sort("business_name").distinct("business_name")

    for x in result:
      print(x)  

    print("\n------------------------------------------------------------------\n")

    #   ___                              _      ___                            
    #  / __|  ___   __   ___   _ _    __| |    / _ \   _  _   ___   _ _   _  _ 
    #  \__ \ / -_) / _| / _ \ | ' \  / _` |   | (_) | | || | / -_) | '_| | || |
    #  |___/ \___| \__| \___/ |_||_| \__,_|    \__\_\  \_,_| \___| |_|    \_, |
    #                                                                     |__/ 
    # Every inspections with address.zip 10030 and 11373, that have Mobile Food Vendor - 881 as sector, grouped  by id and business_name
    # and sorted by business_name

    query = [
      {"$match" : {"address.zip" : {"$in" : [10030, 11373]}}},
      {"$match" : {"sector" : "Mobile Food Vendor - 881"}},
      {"$group" : {"_id": "$id", "inspected_business": {"$addToSet": "$business_name"}}},
      {"$unwind" : "$inspected_business"},
      {"$sort": {"inspected_business": 1}}
    ]

    print("Second Query:\n")

    result = mycol.aggregate(query)

    for x in result:
      print(x)
    
    print("\n------------------------------------------------------------------\n")

    #   _____ _    _        _    ___                    
    #  |_   _| |_ (_)_ _ __| |  / _ \ _  _ ___ _ _ _  _ 
    #    | | | ' \| | '_/ _` | | (_) | || / -_| '_| || |
    #    |_| |_||_|_|_| \__,_|  \__\_\\_,_\___|_|  \_, |
    #                                              |__/     
    # query on all object with 11234 zip code, that have Cigarette Retail Dealer as sector between the 2016-1-4 and the 2016-4-30
    # then create a group with the object id and the street of all the company inspected and make a count about how many company per street
    # have been inspected. Finally sort the result by the count yet done
    
    query = [
      {"$match" : {"address.zip" : 11234, "sector" : "Cigarette Retail Dealer - 127", "date" : {"$gte":"2016-1-1", "$lte":"2016-4-30"}}},
      {"$group" : { "_id" : "$id", "street_inspected" : {"$addToSet" : "$address.street"}}},
      {"$unwind" : "$street_inspected"},                
      {"$group": {"_id": "$street_inspected", "count": { "$sum": 1}}},
      {"$sort": {"count": 1}}
    ]

    result = mycol.aggregate(query)

    print("Third Query:\n")

    for x in result:
      print(x)
    
    print("\n------------------------------------------------------------------\n")

    #   ___             _   _       ___                    
    #  | _____ _  _ _ _| |_| |_    / _ \ _  _ ___ _ _ _  _ 
    #  | _/ _ | || | '_|  _| ' \  | (_) | || / -_| '_| || |
    #  |_|\___/\_,_|_|  \__|_||_|  \__\_\\_,_\___|_|  \_, |
    #                                                 |__/     
    # Inspect in 3 differents part of New York, between the 2015-1-1 and the 2016-12-31, which is the most sector that have more result like:
    # - Fail
    # - Violation Issued

    query = [
      {"$match" : {"address.zip" : {"$in" : [10475, 11234, 11427]}, "result" : {"$in" : ["Fail", "Violation Issued"]}, "date" : {"$gte":"2015-1-1", "$lte":"2016-12-31"}}},
      {"$group" : { "_id" : "$certificate_number", "sector_inspected" : {"$addToSet" : '$sector'}}},
      {"$unwind" : "$sector_inspected"},                
      {"$group": {"_id": "$sector_inspected", "count": { "$sum": 1}}},
      {'$sort': {'count': -1}},
      {"$group": { "_id": "$sector_inspected", "maxval": { "$first": '$$ROOT'}}},
      {"$replaceWith": "$maxval"} 
    ]

    result = mycol.aggregate(query)

    print("Fourth Query:\n")

    for x in result:
      print(x)
    
    print("\n------------------------------------------------------------------\n")

Di seguito la funzione main

In [9]:
def main():
  # connect
  print("Trying to connect to: " + str(server))
  mycol = connect()
  print("OK\n")

  # insert
  print("Inserting new object inside: " + str(collection))
  insert(mycol)
  print("OK\n")
  
  # update
  print("Updating the collection: " + str(collection))
  update(mycol)
  print("OK\n")
  
  # indexing
  print("Indexing the collection: " + str(collection) + " with an index on " + index_name)
  index(mycol)
  print("OK\n")

  # query
  print("Queries on collection: " + str(collection))
  query(mycol)

  

if __name__ == "__main__":
  main()

Trying to connect to: mongodb://localhost:27017/

OK



Inserting new object inside: City_Inspections_DB

OK



Updating the collection: City_Inspections_DB

OK



Queries on collection: City_Inspections_DB

First Query:



148 DELI GROCERY, INC.

2117 8TH AVENUE LAUNDROMAT CORP.

2268 DELI & GROCERY INC.

ABDOU KINGS DELI INC.

ABREU, CATALINO

ANAN GOURMET DELI CORP.

APOLLO DELI & FRUIT CORP.

AVON PRODUCTS, INC.

AZAL GROCERY STORE INC

BEST YET MARKET OF HARLEM, INC.

BIER INTERNATIONAL, LLC

BIG APPLE 2 DELI INC.

Best Market

CATALINO ABREU

CJ PARK FOODS INC

CMC NAIL & SPA

COUMBA DIARRA GUEYE

ELHADJ M BARRY

EVERGREEN CLEANERS 144 ST INC.

EXPRESS IVOIR - TOUBALO

FELDER & SONS, INC.

FINE FARE SUPERMARKET

FREDERICK DOUGLAS FURNITURE

L S MOBILE INC.

LD BUSINESS SOLUTIONS

LEGACY CLEANERS INC.

LEGACY WIRELESS INC.

MELO AND FALCON DELI GROCERY CORP.

N&A FOOD MARKET CORP

N.H.A. DELI GROCERY STORE, INC.

NEW BETTY BRITE CLEANERS, INC.

NYC CANDY STORE SHOP CORP

POLO GROU