Brief MongoDB
===========

- Connecter la base MongoDB

# imports

In [1]:
from dotenv import load_dotenv
import os
from pymongo import MongoClient, InsertOne
from bson.json_util import loads
from bson.decimal128 import Decimal128

In [2]:
try:
    load_dotenv()
    usr = os.getenv("mongo_usr")
    pwd = os.getenv("mongo_pw")
except Exception as e:
    exit()

In [3]:
client = MongoClient(f'mongodb://{usr}:{pwd}@localhost:27017/')
db = client["airbnb"]
db

Database(MongoClient(host=['localhost:27017'], document_class=dict, tz_aware=False, connect=True), 'airbnb')

- On va utiliser la base de données listingsAndReviews

In [17]:
if "listingsAndReviews" in db.list_collections_names():  #we drop table to avoid duplicated insertions
    db.drop_collection("listingsAndReviews")

collection = db["listingsAndReviews"]

In [82]:
rows = []
with open('../data/listingsAndReviews.json', 'r', encoding='utf8') as json_file:
    for json_object in json_file:
        try:
            row = loads(json_object)
            rows.append(InsertOne(row))
        except Exception as e:
            print(f'Error processing: {e.args[0]}')

collection.bulk_write(rows)

BulkWriteResult({'writeErrors': [], 'writeConcernErrors': [], 'nInserted': 5555, 'nUpserted': 0, 'nMatched': 0, 'nModified': 0, 'nRemoved': 0, 'upserted': []}, acknowledged=True)

In [89]:
first_doc = collection.find_one()
first_doc.keys()

dict_keys(['_id', 'listing_url', 'name', 'summary', 'space', 'description', 'neighborhood_overview', 'notes', 'transit', 'access', 'interaction', 'house_rules', 'property_type', 'room_type', 'bed_type', 'minimum_nights', 'maximum_nights', 'cancellation_policy', 'last_scraped', 'calendar_last_scraped', 'first_review', 'last_review', 'accommodates', 'bedrooms', 'beds', 'number_of_reviews', 'bathrooms', 'amenities', 'price', 'security_deposit', 'cleaning_fee', 'extra_people', 'guests_included', 'images', 'host', 'address', 'availability', 'review_scores', 'reviews'])

1. Trouver le prix par nuit du premier document dans la collection listingsAndReviews.

In [86]:
first_doc["price"]

80.00


2. Récupérer les frais de ménage du premier document dans la collection listingsAndReviews.


In [88]:
first_doc["cleaning_fee"]

35.00


3. Trouver le nom de l'hôte, l'emplacement de l'hôte et les informations sur l'hôte du premier document dans la collection listingsAndReviews.

In [97]:
host_name = first_doc["host"]["host_name"]
host_location = first_doc["host"]["host_location"]
host_about = first_doc["host"]["host_about"]
print(f"Host Name: {host_name}\nHost Location: {host_location}\nHost About: {host_about}")

Host Name: Ana&Gonçalo
Host Location: Porto, Porto District, Portugal
Host About: Gostamos de passear, de viajar, de conhecer pessoas e locais novos, gostamos de desporto e animais! Vivemos na cidade mais linda do mundo!!!


4. Récupérer le nombre de chambres du premier document dans la collection listingsAndReviews.

In [94]:
first_doc["bedrooms"]

3

5. Récupérer le nombre d'invités inclus dans le premier document de la collection listingsAndReviews.

In [95]:
first_doc["accommodates"]

8


6. Écrire une requête MongoDB pour vérifier si l'hôte a une photo de profil dans le premier document de la collection listingsAndReviews.

In [99]:
has_profile_pic = "host_picture_url" in first_doc["host"]
if has_profile_pic:
    stm = "Has Profile Picture"
else:
    stm = "Has Not Profile Picture"
stm

'Has Profile Picture'

7. Écrire une requête MongoDB pour vérifier si l'identité de l'hôte a été vérifiée dans le premier document de la collection listingsAndReviews.

In [None]:
is_identity_verified = first_doc["host"]["host_identity_verified"]

if is_identity_verified:
    stm = "Has Identity Verified"
else:
    stm = "Has Not Identity Verified"
stm

8. Écrire une requête MongoDB pour trouver combien de listings l'hôte possède dans le premier document de la collection listingsAndReviews.

In [101]:
first_doc["host"]["host_listings_count"]

3

9. Écrire une requête MongoDB pour trouver l'adresse de la rue du premier document dans la collection listingsAndReviews.


In [102]:
first_doc["address"]["street"]

'Porto, Porto, Portugal'

10. Trouver tous les listings dans la collection listingsAndReviews où le champ property_type est défini sur "House".


In [124]:
house_listings = list(collection.find({"property_type": "House"}))
len(house_listings)
# house_listings #caution on printing result

606

11. Trouver tous les listings dans la collection listingsAndReviews avec listing_url, nom, nom de l'hôte, emplacement de l'hôte et prix qui ont un prix par nuit supérieur à 500 $.

In [119]:
expensive_listings = list(collection.find(
    {"price": {"$gte": Decimal128("500")}},
    {"listing_url": 1, "name": 1, "host.host_name": 1, "host.host_location": 1, "price": 1, "_id": 0}
))
len(expensive_listings)
#list(expensive_listings) #we do not print the output to not crash IO output

747



12. Trouver tous les listings dans la collection listingsAndReviews situés au Brésil et ayant une note d'évaluation d'au moins 9. Retourner le nom, l'adresse et la note d'évaluation.

In [127]:
result = collection.find(
    {
        "address.country": "Brazil",
        "review_scores.review_scores_value": {"$gte": 9}
    },
    {
        "name": 1,
        "address": 1,
        "review_scores.review_scores_rating": 1,
        "_id": 0
    }
)
brazilian_listings = list(result)
len(brazilian_listings)

296

13. Trouver tous les listings avec nom, adresse, hôte dans la collection listingsAndReviews qui ont un hôte avec un nom d'hôte contenant le mot "Livia"

In [133]:
result = collection.find(
    {"host.host_name": {"$regex": "Livia"}},
    {"name": 1, "address": 1, "host": 1, "_id": 0}
)

livia_listings = list(result)
# len(livia_listings)
livia_listings

[{'name': 'Apt Linda Vista Lagoa - Rio',
  'host': {'host_id': '51496939',
   'host_url': 'https://www.airbnb.com/users/show/51496939',
   'host_name': 'Livia',
   'host_location': 'BR',
   'host_about': '',
   'host_thumbnail_url': 'https://a0.muscache.com/im/pictures/b7911710-9088-451d-a27b-62ad2fc2eac0.jpg?aki_policy=profile_small',
   'host_picture_url': 'https://a0.muscache.com/im/pictures/b7911710-9088-451d-a27b-62ad2fc2eac0.jpg?aki_policy=profile_x_medium',
   'host_neighbourhood': 'Lagoa',
   'host_is_superhost': False,
   'host_has_profile_pic': True,
   'host_identity_verified': False,
   'host_listings_count': 1,
   'host_total_listings_count': 1,
   'host_verifications': ['email', 'phone', 'jumio', 'government_id']},
  'address': {'street': 'Rio de Janeiro, Rio de Janeiro, Brazil',
   'suburb': 'Lagoa',
   'government_area': 'Lagoa',
   'market': 'Rio De Janeiro',
   'country': 'Brazil',
   'country_code': 'BR',
   'location': {'type': 'Point',
    'coordinates': [-43.20504

14. Récupérer tous les documents avec listing_url, nom, commodité, hôte dans la collection listingsAndReviews où le tableau amenities contient à la fois "TV" et "Wifi".

In [135]:
result = collection.find(
    {"amenities": {"$all": ["TV", "Wifi"]}},
    {"listing_url": 1, "name": 1, "amenities": 1, "host": 1, "_id": 0}
)

tv_wifi_listings = list(result)
len(tv_wifi_listings)
# tv_wifi_listings # Do not display result, could crash kernel

4140

15. Trouver tous les listings avec listing_url, nom, adresse, vérifications de l'hôte et nombre des vérifications de l'hôte dans la collection listingsAndReviews qui ont un hôte avec au moins 3 vérifications.

In [141]:
result = collection.find(
     { 
        "$expr": { 
            "$gte": [{ "$size": "$host.host_verifications" }, 3] 
        } 
    },
    {
        "listing_url": 1,
        "name": 1,
        "address": 1,
        "host.host_verifications": 1,
        "host.host_total_listings_count": 1,
        "_id": 0
    }
)
verified_listings = list(result)
len(verified_listings)
#verified_listings #uncomment only if you're to want to

4668

16. Trouver tous les listings avec listing_url, nom, adresse, host_picture_url dans la collection listingsAndReviews qui ont un hôte avec une URL de photo.

In [142]:
result = collection.find(
    {"host.host_picture_url": {"$exists": True}},
    {
        "listing_url": 1,
        "name": 1,
        "address": 1,
        "host.host_picture_url": 1,
        "_id": 0
    }
)
listings_with_host_photo= list(result)
len(listings_with_host_photo)
#listings_with_host_photo #uncomment only if you're to want to

5555

Créer une API flask en définissant la  route suivante pour trouver les documents contenant les amenities dans le marché spécifié et retourner les ``listings_url``:
- ``/amenities`` prend un json:


```
{
    city: string
    amenties: amenties_list
}
```
