1. **Import MongoClient and ServerApi**: These are classes from the `pymongo` library. `MongoClient` is used to interact with MongoDB and `ServerApi` is used to specify the server API version.

2. **Define URI**: The `uri` is the connection string to the MongoDB server. It includes the username (`hughmongus`), password (`mongodb`), and the host (`cluster0.fqvfuqm.mongodb.net`).

3. **Create a new client**: A `MongoClient` instance is created using the `uri` and the MongoDB server API version (`1`).

4. **Ping the server**: The `ping` command is sent to the server to confirm the connection. If the connection is successful, it prints a success message. If there's an exception, it prints the exception.


In [3]:

from pymongo.mongo_client import MongoClient
from pymongo.server_api import ServerApi

uri = "mongodb+srv://hughmongus:mongodb@cluster0.fqvfuqm.mongodb.net/?retryWrites=true&w=majority"

# Create a new client and connect to the server
client = MongoClient(uri, server_api=ServerApi('1'))

# Send a ping to confirm a successful connection
try:
    client.admin.command('ping')
    print("Pinged your deployment. You successfully connected to MongoDB!")
except Exception as e:
    print(e)

Pinged your deployment. You successfully connected to MongoDB!


**CREATING A DATABASE AND A COLLECTION**

In [5]:
db = client["db_products"]
coll = db["products"]

In [44]:
client.list_database_names()

['db_products', 'admin', 'local']

In [None]:
product = {"product": "computer", "quantity": 60}
coll.insert_one(product)

<pymongo.results.InsertOneResult at 0x7f17436ab3d0>

**THE DB WILL APPEAR AFTER INSERTING DATA INTO IT**

In [None]:
coll.find_one()

['db_products', 'admin', 'local']

**EXTRACTING DATA FROM THE API USING REQUESTS LIB**

In [None]:
import requests

response = requests.get("https://labdados.com/produtos")
response.json()

[{'Produto': 'Modelagem preditiva',
  'Categoria do Produto': 'livros',
  'Preço': 92.45,
  'Frete': 5.6096965236,
  'Data da Compra': '01/01/2020',
  'Vendedor': 'Thiago Silva',
  'Local da compra': 'BA',
  'Avaliação da compra': 1,
  'Tipo de pagamento': 'cartao_credito',
  'Quantidade de parcelas': 3,
  'lat': -13.29,
  'lon': -41.71},
 {'Produto': 'Iniciando em programação',
  'Categoria do Produto': 'livros',
  'Preço': 43.84,
  'Frete': 0.0,
  'Data da Compra': '01/01/2020',
  'Vendedor': 'Mariana Ferreira',
  'Local da compra': 'SP',
  'Avaliação da compra': 5,
  'Tipo de pagamento': 'cartao_credito',
  'Quantidade de parcelas': 1,
  'lat': -22.19,
  'lon': -48.79},
 {'Produto': 'Pandeiro',
  'Categoria do Produto': 'instrumentos musicais',
  'Preço': 87.18,
  'Frete': 2.2265117938,
  'Data da Compra': '01/01/2020',
  'Vendedor': 'Thiago Silva',
  'Local da compra': 'RJ',
  'Avaliação da compra': 4,
  'Tipo de pagamento': 'cartao_credito',
  'Quantidade de parcelas': 4,
  'lat':

**CHECKING HOW MANY OBJECTS ARE THERE**

In [None]:
length = len(response.json())
length

9435

**INSERTING THESE OBJECTS INTO OUR COLLECTION**

In [None]:
docs = coll.insert_many(response.json())

In [None]:
quantity_ids = len(docs.inserted_ids)

9435

In [45]:
coll.count_documents({})

9435

In [None]:
for col in coll.find():
    print(col)

{'_id': ObjectId('65998723f0e8ba133292b34b'), 'Produto': 'Modelagem preditiva', 'Categoria do Produto': 'livros', 'Preço': 92.45, 'Frete': 5.6096965236, 'Data da Compra': '01/01/2020', 'Vendedor': 'Thiago Silva', 'Local da compra': 'BA', 'Avaliação da compra': 1, 'Tipo de pagamento': 'cartao_credito', 'Quantidade de parcelas': 3, 'lat': -13.29, 'lon': -41.71}
{'_id': ObjectId('65998723f0e8ba133292b34c'), 'Produto': 'Iniciando em programação', 'Categoria do Produto': 'livros', 'Preço': 43.84, 'Frete': 0.0, 'Data da Compra': '01/01/2020', 'Vendedor': 'Mariana Ferreira', 'Local da compra': 'SP', 'Avaliação da compra': 5, 'Tipo de pagamento': 'cartao_credito', 'Quantidade de parcelas': 1, 'lat': -22.19, 'lon': -48.79}
{'_id': ObjectId('65998723f0e8ba133292b34d'), 'Produto': 'Pandeiro', 'Categoria do Produto': 'instrumentos musicais', 'Preço': 87.18, 'Frete': 2.2265117938, 'Data da Compra': '01/01/2020', 'Vendedor': 'Thiago Silva', 'Local da compra': 'RJ', 'Avaliação da compra': 4, 'Tipo de

In [None]:
coll.update_many({}, {"$rename": {"lat":"latitude", "lon":"longitude"}})

<pymongo.results.UpdateResult at 0x7f1765d83c10>

In [None]:
coll.find_one()

{'_id': ObjectId('65998723f0e8ba133292b34b'),
 'Produto': 'Modelagem preditiva',
 'Categoria do Produto': 'livros',
 'Preço': 92.45,
 'Frete': 5.6096965236,
 'Data da Compra': '01/01/2020',
 'Vendedor': 'Thiago Silva',
 'Local da compra': 'BA',
 'Avaliação da compra': 1,
 'Tipo de pagamento': 'cartao_credito',
 'Quantidade de parcelas': 3,
 'latitude': -13.29,
 'longitude': -41.71}

In [None]:
coll.distinct("Categoria do Produto")

['brinquedos',
 'eletrodomesticos',
 'eletronicos',
 'esporte e lazer',
 'instrumentos musicais',
 'livros',
 'moveis',
 'utilidades domesticas']

In [14]:
query = {"Categoria do Produto": "livros"}
books = []
for book in coll.find(query):
    print(book)
    books.append(book)


{'_id': ObjectId('65998723f0e8ba133292b34b'), 'Produto': 'Modelagem preditiva', 'Categoria do Produto': 'livros', 'Preço': 92.45, 'Frete': 5.6096965236, 'Data da Compra': '01/01/2020', 'Vendedor': 'Thiago Silva', 'Local da compra': 'BA', 'Avaliação da compra': 1, 'Tipo de pagamento': 'cartao_credito', 'Quantidade de parcelas': 3, 'latitude': -13.29, 'longitude': -41.71}
{'_id': ObjectId('65998723f0e8ba133292b34c'), 'Produto': 'Iniciando em programação', 'Categoria do Produto': 'livros', 'Preço': 43.84, 'Frete': 0.0, 'Data da Compra': '01/01/2020', 'Vendedor': 'Mariana Ferreira', 'Local da compra': 'SP', 'Avaliação da compra': 5, 'Tipo de pagamento': 'cartao_credito', 'Quantidade de parcelas': 1, 'latitude': -22.19, 'longitude': -48.79}
{'_id': ObjectId('65998723f0e8ba133292b35e'), 'Produto': 'Iniciando em programação', 'Categoria do Produto': 'livros', 'Preço': 63.25, 'Frete': 3.894137208, 'Data da Compra': '01/01/2022', 'Vendedor': 'Juliana Costa', 'Local da compra': 'RJ', 'Avaliação 

In [15]:
books

[{'_id': ObjectId('65998723f0e8ba133292b34b'),
  'Produto': 'Modelagem preditiva',
  'Categoria do Produto': 'livros',
  'Preço': 92.45,
  'Frete': 5.6096965236,
  'Data da Compra': '01/01/2020',
  'Vendedor': 'Thiago Silva',
  'Local da compra': 'BA',
  'Avaliação da compra': 1,
  'Tipo de pagamento': 'cartao_credito',
  'Quantidade de parcelas': 3,
  'latitude': -13.29,
  'longitude': -41.71},
 {'_id': ObjectId('65998723f0e8ba133292b34c'),
  'Produto': 'Iniciando em programação',
  'Categoria do Produto': 'livros',
  'Preço': 43.84,
  'Frete': 0.0,
  'Data da Compra': '01/01/2020',
  'Vendedor': 'Mariana Ferreira',
  'Local da compra': 'SP',
  'Avaliação da compra': 5,
  'Tipo de pagamento': 'cartao_credito',
  'Quantidade de parcelas': 1,
  'latitude': -22.19,
  'longitude': -48.79},
 {'_id': ObjectId('65998723f0e8ba133292b35e'),
  'Produto': 'Iniciando em programação',
  'Categoria do Produto': 'livros',
  'Preço': 63.25,
  'Frete': 3.894137208,
  'Data da Compra': '01/01/2022',
  

In [16]:
import pandas as pd

df = pd.DataFrame(books)
df.head()

Unnamed: 0,_id,Produto,Categoria do Produto,Preço,Frete,Data da Compra,Vendedor,Local da compra,Avaliação da compra,Tipo de pagamento,Quantidade de parcelas,latitude,longitude
0,65998723f0e8ba133292b34b,Modelagem preditiva,livros,92.45,5.609697,01/01/2020,Thiago Silva,BA,1,cartao_credito,3,-13.29,-41.71
1,65998723f0e8ba133292b34c,Iniciando em programação,livros,43.84,0.0,01/01/2020,Mariana Ferreira,SP,5,cartao_credito,1,-22.19,-48.79
2,65998723f0e8ba133292b35e,Iniciando em programação,livros,63.25,3.894137,01/01/2022,Juliana Costa,RJ,5,cartao_credito,4,-22.25,-42.66
3,65998723f0e8ba133292b36c,Ciência de dados com python,livros,86.13,5.273176,01/02/2021,Camila Ribeiro,RJ,4,cartao_credito,3,-22.25,-42.66
4,65998723f0e8ba133292b36e,Ciência de dados com python,livros,72.75,1.458158,01/02/2021,Beatriz Moraes,PR,4,cartao_credito,2,-24.89,-51.55


**FORMATING DATES**

In [29]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 742 entries, 0 to 741
Data columns (total 13 columns):
 #   Column                  Non-Null Count  Dtype  
---  ------                  --------------  -----  
 0   _id                     742 non-null    object 
 1   Produto                 742 non-null    object 
 2   Categoria do Produto    742 non-null    object 
 3   Preço                   742 non-null    float64
 4   Frete                   742 non-null    float64
 5   Data da Compra          742 non-null    object 
 6   Vendedor                742 non-null    object 
 7   Local da compra         742 non-null    object 
 8   Avaliação da compra     742 non-null    int64  
 9   Tipo de pagamento       742 non-null    object 
 10  Quantidade de parcelas  742 non-null    int64  
 11  latitude                742 non-null    float64
 12  longitude               742 non-null    float64
dtypes: float64(4), int64(2), object(7)
memory usage: 75.5+ KB


In [30]:
df["Data da Compra"] = pd.to_datetime(df["Data da Compra"], format="%d/%m/%Y")

ValueError: time data "2020-01-01" doesn't match format "%d/%m/%Y", at position 0. You might want to try:
    - passing `format` if your strings have a consistent format;
    - passing `format='ISO8601'` if your strings are all ISO8601 but not necessarily in exactly the same format;
    - passing `format='mixed'`, and the format will be inferred for each element individually. You might want to use `dayfirst` alongside this.

In [20]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 742 entries, 0 to 741
Data columns (total 13 columns):
 #   Column                  Non-Null Count  Dtype         
---  ------                  --------------  -----         
 0   _id                     742 non-null    object        
 1   Produto                 742 non-null    object        
 2   Categoria do Produto    742 non-null    object        
 3   Preço                   742 non-null    float64       
 4   Frete                   742 non-null    float64       
 5   Data da Compra          742 non-null    datetime64[ns]
 6   Vendedor                742 non-null    object        
 7   Local da compra         742 non-null    object        
 8   Avaliação da compra     742 non-null    int64         
 9   Tipo de pagamento       742 non-null    object        
 10  Quantidade de parcelas  742 non-null    int64         
 11  latitude                742 non-null    float64       
 12  longitude               742 non-null    float64   

In [27]:
df["Data da Compra"] = df["Data da Compra"].dt.strftime("%Y-%m-%d") 

AttributeError: Can only use .dt accessor with datetimelike values

In [6]:
df.head()

NameError: name 'df' is not defined

In [40]:
df.to_csv("table_books.csv", index=False)

In [4]:
coll.find_one()

NameError: name 'coll' is not defined

In [7]:
query = {"Data da Compra": {"$regex": "/202[1-9]"}}
products_list = []
for doc in coll.find(query):
    products_list.append(doc)


In [8]:
products_list

[{'_id': ObjectId('65998723f0e8ba133292b354'),
  'Produto': 'Xadrez de madeira',
  'Categoria do Produto': 'brinquedos',
  'Preço': 25.23,
  'Frete': 0.0,
  'Data da Compra': '01/01/2021',
  'Vendedor': 'Thiago Silva',
  'Local da compra': 'BA',
  'Avaliação da compra': 5,
  'Tipo de pagamento': 'cartao_credito',
  'Quantidade de parcelas': 2,
  'latitude': -13.29,
  'longitude': -41.71},
 {'_id': ObjectId('65998723f0e8ba133292b355'),
  'Produto': 'Impressora',
  'Categoria do Produto': 'eletronicos',
  'Preço': 322.04,
  'Frete': 14.7321002401,
  'Data da Compra': '01/01/2021',
  'Vendedor': 'João Souza',
  'Local da compra': 'SP',
  'Avaliação da compra': 3,
  'Tipo de pagamento': 'cartao_credito',
  'Quantidade de parcelas': 1,
  'latitude': -22.19,
  'longitude': -48.79},
 {'_id': ObjectId('65998723f0e8ba133292b356'),
  'Produto': 'Mesa de centro',
  'Categoria do Produto': 'moveis',
  'Preço': 282.22,
  'Frete': 12.6118050347,
  'Data da Compra': '01/01/2021',
  'Vendedor': 'João 

In [10]:
import pandas as pd
df_prods = pd.DataFrame(products_list)
df_prods.head()

Unnamed: 0,_id,Produto,Categoria do Produto,Preço,Frete,Data da Compra,Vendedor,Local da compra,Avaliação da compra,Tipo de pagamento,Quantidade de parcelas,latitude,longitude
0,65998723f0e8ba133292b354,Xadrez de madeira,brinquedos,25.23,0.0,01/01/2021,Thiago Silva,BA,5,cartao_credito,2,-13.29,-41.71
1,65998723f0e8ba133292b355,Impressora,eletronicos,322.04,14.7321,01/01/2021,João Souza,SP,3,cartao_credito,1,-22.19,-48.79
2,65998723f0e8ba133292b356,Mesa de centro,moveis,282.22,12.611805,01/01/2021,João Souza,SP,3,boleto,1,-22.19,-48.79
3,65998723f0e8ba133292b357,Tablet ABXY,eletronicos,1100.42,68.451348,01/01/2021,Beatriz Moraes,SP,1,cupom,1,-22.19,-48.79
4,65998723f0e8ba133292b358,Fogão,eletrodomesticos,791.81,42.444626,01/01/2021,Juliana Costa,SP,4,boleto,1,-22.19,-48.79


In [11]:
df_prods["Data da Compra"] = pd.to_datetime(df_prods["Data da Compra"], format="%d/%m/%Y")

In [12]:
df_prods["Data da Compra"] = df_prods["Data da Compra"].dt.strftime("%Y-%m-%d") 

In [13]:
df_prods.head()

Unnamed: 0,_id,Produto,Categoria do Produto,Preço,Frete,Data da Compra,Vendedor,Local da compra,Avaliação da compra,Tipo de pagamento,Quantidade de parcelas,latitude,longitude
0,65998723f0e8ba133292b354,Xadrez de madeira,brinquedos,25.23,0.0,2021-01-01,Thiago Silva,BA,5,cartao_credito,2,-13.29,-41.71
1,65998723f0e8ba133292b355,Impressora,eletronicos,322.04,14.7321,2021-01-01,João Souza,SP,3,cartao_credito,1,-22.19,-48.79
2,65998723f0e8ba133292b356,Mesa de centro,moveis,282.22,12.611805,2021-01-01,João Souza,SP,3,boleto,1,-22.19,-48.79
3,65998723f0e8ba133292b357,Tablet ABXY,eletronicos,1100.42,68.451348,2021-01-01,Beatriz Moraes,SP,1,cupom,1,-22.19,-48.79
4,65998723f0e8ba133292b358,Fogão,eletrodomesticos,791.81,42.444626,2021-01-01,Juliana Costa,SP,4,boleto,1,-22.19,-48.79


In [14]:
df_prods.to_csv("products_book.csv", index=False)