In [31]:
import yaml
from pymongo.mongo_client import MongoClient
from pymongo.server_api import ServerApi

In [32]:
with open('../config.yaml', 'r', encoding='utf-8') as cfg:
    config = yaml.safe_load(cfg)

mongodb_server = config['mongodb_server']
mongodb_password = config['mongodb_password']
uri = config['uri'].replace("{mongodb_server}",mongodb_server).replace("{mongodb_password}",mongodb_password)

In [33]:
client = MongoClient(uri, server_api=ServerApi('1'))

# Send a ping to confirm a successful connection
try:
    client.admin.command('ping')
    print("Pinged your deployment. You successfully connected to MongoDB!")
except Exception as e:
    print(e)

Pinged your deployment. You successfully connected to MongoDB!


In [34]:
db = client["db_produtos"]
collection = db["produtos"]

In [35]:
for doc in collection.find():
    print(doc)

{'_id': ObjectId('68e13ab7c1ddf79092dae785'), 'Produto': 'Violão', 'Categoria do Produto': 'instrumentos musicais', 'Preço': 316.84, 'Frete': 17.1595536296, 'Data da Compra': '01/01/2022', 'Vendedor': 'Pedro Gomes', 'Local da compra': 'SP', 'Avaliação da compra': 5, 'Tipo de pagamento': 'cartao_credito', 'Quantidade de parcelas': 2, 'Latitude': -22.19, 'Longitude': -48.79}
{'_id': ObjectId('68e13ab7c1ddf79092dae78c'), 'Produto': 'Bola de vôlei', 'Categoria do Produto': 'esporte e lazer', 'Preço': 75.11, 'Frete': 1.5838206052, 'Data da Compra': '01/01/2022', 'Vendedor': 'Isabella Pereira', 'Local da compra': 'SP', 'Avaliação da compra': 5, 'Tipo de pagamento': 'cartao_credito', 'Quantidade de parcelas': 1, 'Latitude': -22.19, 'Longitude': -48.79}
{'_id': ObjectId('68e13ab7c1ddf79092dae78d'), 'Produto': 'Bateria', 'Categoria do Produto': 'instrumentos musicais', 'Preço': 1031.24, 'Frete': 55.199204426, 'Data da Compra': '01/01/2023', 'Vendedor': 'Bruno Rodrigues', 'Local da compra': 'BA'

In [36]:
collection.update_many({}, {"$rename": {"lat": "Latitude", "lon":"Longitude"}})

UpdateResult({'n': 18870, 'electionId': ObjectId('7fffffff0000000000000028'), 'opTime': {'ts': Timestamp(1759672867, 1), 't': 40}, 'nModified': 0, 'ok': 1.0, '$clusterTime': {'clusterTime': Timestamp(1759672867, 1), 'signature': {'hash': b"\x93V]\xbaUUkR@\xa2F%p{\x06%\xb0\x1e\x93'", 'keyId': 7493706372232511494}}, 'operationTime': Timestamp(1759672867, 1), 'updatedExisting': True}, acknowledged=True)

In [37]:
collection.find_one()


{'_id': ObjectId('68e13ab7c1ddf79092dae785'),
 'Produto': 'Violão',
 'Categoria do Produto': 'instrumentos musicais',
 'Preço': 316.84,
 'Frete': 17.1595536296,
 'Data da Compra': '01/01/2022',
 'Vendedor': 'Pedro Gomes',
 'Local da compra': 'SP',
 'Avaliação da compra': 5,
 'Tipo de pagamento': 'cartao_credito',
 'Quantidade de parcelas': 2,
 'Latitude': -22.19,
 'Longitude': -48.79}

In [38]:
collection.distinct("Categoria do Produto")

['brinquedos',
 'eletrodomesticos',
 'eletronicos',
 'esporte e lazer',
 'instrumentos musicais',
 'livros',
 'moveis',
 'utilidades domesticas']

In [39]:
query = {"Categoria do Produto": "livros"}

In [40]:
lista_livros = []

for doc in collection.find(query):
    lista_livros.append(doc)

In [41]:
import pandas as pd

In [42]:
df_livros = pd.DataFrame(lista_livros)
df_livros.head()

Unnamed: 0,_id,Produto,Categoria do Produto,Preço,Frete,Data da Compra,Vendedor,Local da compra,Avaliação da compra,Tipo de pagamento,Quantidade de parcelas,Latitude,Longitude
0,68e13ab7c1ddf79092dae7d0,Dashboards com Power BI,livros,43.35,3.248105,01/03/2023,Rafael Costa,BA,5,cartao_credito,2,-13.29,-41.71
1,68e13ab7c1ddf79092dae821,Dashboards com Power BI,livros,46.87,0.0,01/07/2021,Beatriz Moraes,RS,5,cartao_credito,8,-30.17,-53.5
2,68e13ab7c1ddf79092dae87a,Ciência de dados com python,livros,80.32,1.861237,01/10/2021,Rafael Costa,SP,4,cartao_credito,2,-22.19,-48.79
3,68e13ab7c1ddf79092dae888,Dashboards com Power BI,livros,54.59,3.189879,01/10/2022,Juliana Costa,SP,3,cartao_credito,8,-22.19,-48.79
4,68e13ab7c1ddf79092dae891,Iniciando em programação,livros,60.27,3.492322,01/11/2021,Juliana Costa,SP,5,cartao_credito,1,-22.19,-48.79


In [43]:
df_livros.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1484 entries, 0 to 1483
Data columns (total 13 columns):
 #   Column                  Non-Null Count  Dtype  
---  ------                  --------------  -----  
 0   _id                     1484 non-null   object 
 1   Produto                 1484 non-null   object 
 2   Categoria do Produto    1484 non-null   object 
 3   Preço                   1484 non-null   float64
 4   Frete                   1484 non-null   float64
 5   Data da Compra          1484 non-null   object 
 6   Vendedor                1484 non-null   object 
 7   Local da compra         1484 non-null   object 
 8   Avaliação da compra     1484 non-null   int64  
 9   Tipo de pagamento       1484 non-null   object 
 10  Quantidade de parcelas  1484 non-null   int64  
 11  Latitude                1484 non-null   float64
 12  Longitude               1484 non-null   float64
dtypes: float64(4), int64(2), object(7)
memory usage: 150.8+ KB


In [None]:
df_livros["Data da Compra"] = pd.to_datetime(df_livros["Data da Compra"], format='%d/%m/%Y')

df_livros["Data da Compra"] = df_livros["Data da Compra"].dt.strftime('%Y-%m-%d')
df_livros.head()

Unnamed: 0,_id,Produto,Categoria do Produto,Preço,Frete,Data da Compra,Vendedor,Local da compra,Avaliação da compra,Tipo de pagamento,Quantidade de parcelas,Latitude,Longitude
0,68e13ab7c1ddf79092dae7d0,Dashboards com Power BI,livros,43.35,3.248105,2023-03-01,Rafael Costa,BA,5,cartao_credito,2,-13.29,-41.71
1,68e13ab7c1ddf79092dae821,Dashboards com Power BI,livros,46.87,0.0,2021-07-01,Beatriz Moraes,RS,5,cartao_credito,8,-30.17,-53.5
2,68e13ab7c1ddf79092dae87a,Ciência de dados com python,livros,80.32,1.861237,2021-10-01,Rafael Costa,SP,4,cartao_credito,2,-22.19,-48.79
3,68e13ab7c1ddf79092dae888,Dashboards com Power BI,livros,54.59,3.189879,2022-10-01,Juliana Costa,SP,3,cartao_credito,8,-22.19,-48.79
4,68e13ab7c1ddf79092dae891,Iniciando em programação,livros,60.27,3.492322,2021-11-01,Juliana Costa,SP,5,cartao_credito,1,-22.19,-48.79


In [46]:
df_livros.head()

Unnamed: 0,_id,Produto,Categoria do Produto,Preço,Frete,Data da Compra,Vendedor,Local da compra,Avaliação da compra,Tipo de pagamento,Quantidade de parcelas,Latitude,Longitude
0,68e13ab7c1ddf79092dae7d0,Dashboards com Power BI,livros,43.35,3.248105,2023-03-01,Rafael Costa,BA,5,cartao_credito,2,-13.29,-41.71
1,68e13ab7c1ddf79092dae821,Dashboards com Power BI,livros,46.87,0.0,2021-07-01,Beatriz Moraes,RS,5,cartao_credito,8,-30.17,-53.5
2,68e13ab7c1ddf79092dae87a,Ciência de dados com python,livros,80.32,1.861237,2021-10-01,Rafael Costa,SP,4,cartao_credito,2,-22.19,-48.79
3,68e13ab7c1ddf79092dae888,Dashboards com Power BI,livros,54.59,3.189879,2022-10-01,Juliana Costa,SP,3,cartao_credito,8,-22.19,-48.79
4,68e13ab7c1ddf79092dae891,Iniciando em programação,livros,60.27,3.492322,2021-11-01,Juliana Costa,SP,5,cartao_credito,1,-22.19,-48.79


In [47]:
df_livros.to_csv('../data/tabela_livros.csv', index=False)

In [48]:
collection.find_one()

{'_id': ObjectId('68e13ab7c1ddf79092dae785'),
 'Produto': 'Violão',
 'Categoria do Produto': 'instrumentos musicais',
 'Preço': 316.84,
 'Frete': 17.1595536296,
 'Data da Compra': '01/01/2022',
 'Vendedor': 'Pedro Gomes',
 'Local da compra': 'SP',
 'Avaliação da compra': 5,
 'Tipo de pagamento': 'cartao_credito',
 'Quantidade de parcelas': 2,
 'Latitude': -22.19,
 'Longitude': -48.79}

In [49]:
query = {"Data da Compra": {"$regex": "/202[1-9]"}}

In [50]:
lista_produtos = []
for doc in collection.find(query):
    lista_produtos.append(doc)

In [51]:
lista_produtos

[{'_id': ObjectId('68e13ab7c1ddf79092dae785'),
  'Produto': 'Violão',
  'Categoria do Produto': 'instrumentos musicais',
  'Preço': 316.84,
  'Frete': 17.1595536296,
  'Data da Compra': '01/01/2022',
  'Vendedor': 'Pedro Gomes',
  'Local da compra': 'SP',
  'Avaliação da compra': 5,
  'Tipo de pagamento': 'cartao_credito',
  'Quantidade de parcelas': 2,
  'Latitude': -22.19,
  'Longitude': -48.79},
 {'_id': ObjectId('68e13ab7c1ddf79092dae78c'),
  'Produto': 'Bola de vôlei',
  'Categoria do Produto': 'esporte e lazer',
  'Preço': 75.11,
  'Frete': 1.5838206052,
  'Data da Compra': '01/01/2022',
  'Vendedor': 'Isabella Pereira',
  'Local da compra': 'SP',
  'Avaliação da compra': 5,
  'Tipo de pagamento': 'cartao_credito',
  'Quantidade de parcelas': 1,
  'Latitude': -22.19,
  'Longitude': -48.79},
 {'_id': ObjectId('68e13ab7c1ddf79092dae78d'),
  'Produto': 'Bateria',
  'Categoria do Produto': 'instrumentos musicais',
  'Preço': 1031.24,
  'Frete': 55.199204426,
  'Data da Compra': '01/0

In [52]:
df_produtos = pd.DataFrame(lista_produtos)
df_produtos.head()

Unnamed: 0,_id,Produto,Categoria do Produto,Preço,Frete,Data da Compra,Vendedor,Local da compra,Avaliação da compra,Tipo de pagamento,Quantidade de parcelas,Latitude,Longitude
0,68e13ab7c1ddf79092dae785,Violão,instrumentos musicais,316.84,17.159554,01/01/2022,Pedro Gomes,SP,5,cartao_credito,2,-22.19,-48.79
1,68e13ab7c1ddf79092dae78c,Bola de vôlei,esporte e lazer,75.11,1.583821,01/01/2022,Isabella Pereira,SP,5,cartao_credito,1,-22.19,-48.79
2,68e13ab7c1ddf79092dae78d,Bateria,instrumentos musicais,1031.24,55.199204,01/01/2023,Bruno Rodrigues,BA,5,boleto,1,-13.29,-41.71
3,68e13ab7c1ddf79092dae792,Xadrez de madeira,brinquedos,44.82,3.274945,01/01/2023,Bianca Santos,PR,5,cupom,1,-24.89,-51.55
4,68e13ab7c1ddf79092dae7aa,Smartwatch,eletronicos,184.84,17.919822,01/02/2023,Lucas Oliveira,BA,4,cartao_credito,3,-13.29,-41.71


In [53]:
df_produtos["Data da Compra"] = pd.to_datetime(df_produtos["Data da Compra"], format='%d/%m/%Y')



In [54]:
df_produtos["Data da Compra"] = df_produtos["Data da Compra"].dt.strftime('%Y-%m-%d')
df_produtos.head()

Unnamed: 0,_id,Produto,Categoria do Produto,Preço,Frete,Data da Compra,Vendedor,Local da compra,Avaliação da compra,Tipo de pagamento,Quantidade de parcelas,Latitude,Longitude
0,68e13ab7c1ddf79092dae785,Violão,instrumentos musicais,316.84,17.159554,2022-01-01,Pedro Gomes,SP,5,cartao_credito,2,-22.19,-48.79
1,68e13ab7c1ddf79092dae78c,Bola de vôlei,esporte e lazer,75.11,1.583821,2022-01-01,Isabella Pereira,SP,5,cartao_credito,1,-22.19,-48.79
2,68e13ab7c1ddf79092dae78d,Bateria,instrumentos musicais,1031.24,55.199204,2023-01-01,Bruno Rodrigues,BA,5,boleto,1,-13.29,-41.71
3,68e13ab7c1ddf79092dae792,Xadrez de madeira,brinquedos,44.82,3.274945,2023-01-01,Bianca Santos,PR,5,cupom,1,-24.89,-51.55
4,68e13ab7c1ddf79092dae7aa,Smartwatch,eletronicos,184.84,17.919822,2023-02-01,Lucas Oliveira,BA,4,cartao_credito,3,-13.29,-41.71


In [55]:
df_produtos.to_csv('../data/tabela_2021_em_diante.csv', index=False)