In [1]:
import urllib.parse
from pymongo.mongo_client import MongoClient
from pymongo.server_api import ServerApi

from configs_db import *

parse_password = urllib.parse.quote(PASSWORD_MONGODB)
uri = f"mongodb+srv://{USERNAME_MONGODB}:{parse_password}@cluster-pipeline.jcgyaej.mongodb.net/?retryWrites=true&w=majority&appName=Cluster-pipeline"

# # Create a new client and connect to the server
client = MongoClient(uri, server_api=ServerApi('1'))

# Send a ping to confirm a successful connection
try:
    client.admin.command('ping')
    print("Pinged your deployment. You successfully connected to MongoDB!")
except Exception as e:
    print(e)

Pinged your deployment. You successfully connected to MongoDB!


In [2]:
db = client["db_produtos"]
collection = db["produtos"]

In [3]:
for doc in  collection.find():
    print(doc)


{'_id': ObjectId('6675b13616cc5a9be7ccb11d'), 'Produto': 'Modelagem preditiva', 'Categoria do Produto': 'livros', 'Preço': 92.45, 'Frete': 5.6096965236, 'Data da Compra': '01/01/2020', 'Vendedor': 'Thiago Silva', 'Local da compra': 'BA', 'Avaliação da compra': 1, 'Tipo de pagamento': 'cartao_credito', 'Quantidade de parcelas': 3, 'Latitude': -13.29, 'Longintude': -41.71}
{'_id': ObjectId('6675b13616cc5a9be7ccb11e'), 'Produto': 'Iniciando em programação', 'Categoria do Produto': 'livros', 'Preço': 43.84, 'Frete': 0.0, 'Data da Compra': '01/01/2020', 'Vendedor': 'Mariana Ferreira', 'Local da compra': 'SP', 'Avaliação da compra': 5, 'Tipo de pagamento': 'cartao_credito', 'Quantidade de parcelas': 1, 'Latitude': -22.19, 'Longintude': -48.79}
{'_id': ObjectId('6675b13616cc5a9be7ccb11f'), 'Produto': 'Pandeiro', 'Categoria do Produto': 'instrumentos musicais', 'Preço': 87.18, 'Frete': 2.2265117938, 'Data da Compra': '01/01/2020', 'Vendedor': 'Thiago Silva', 'Local da compra': 'RJ', 'Avaliação

In [4]:
# Existem dois campos nos documentos da nossa base "lat" e "lon", referem-se a latitude e longitude.
# Vou alterar esses nomes em massa (para todos os documentos) com a finalizade de deixar explicito a que se referem.

# ----> {}: indica que todos os documetos serão alterados
# ----> operadores devem receber "$" seguido da operação a ser realizado, neste caso "rename": $rename
# ----> dentro do objeto rename deve ser passado adicionado um objeto json, sendo a chave o "nome original" e o valor "novo nome".
collection.update_many({}, {"$rename": {"lat": "Latitude", "lon": "Longintude"}})


UpdateResult({'n': 9435, 'electionId': ObjectId('7fffffff0000000000000025'), 'opTime': {'ts': Timestamp(1718999653, 5), 't': 37}, 'nModified': 0, 'ok': 1.0, '$clusterTime': {'clusterTime': Timestamp(1718999653, 5), 'signature': {'hash': b'\xcfa\xdbN~\xd3\x06"\xa9v>\\\xa2\x97\xd1\x1e;5-\xa1', 'keyId': 7346659654228770823}}, 'operationTime': Timestamp(1718999653, 5), 'updatedExisting': True}, acknowledged=True)

In [5]:
# conferindo as alterações
collection.find_one()

{'_id': ObjectId('6675b13616cc5a9be7ccb11d'),
 'Produto': 'Modelagem preditiva',
 'Categoria do Produto': 'livros',
 'Preço': 92.45,
 'Frete': 5.6096965236,
 'Data da Compra': '01/01/2020',
 'Vendedor': 'Thiago Silva',
 'Local da compra': 'BA',
 'Avaliação da compra': 1,
 'Tipo de pagamento': 'cartao_credito',
 'Quantidade de parcelas': 3,
 'Latitude': -13.29,
 'Longintude': -41.71}

In [6]:
cursor = collection.find({"Produto": "Corda de pular"}, {"_id": 0, "Produto": 1, "Data da Compra": 1, "Vendedor": 1})

for doc in cursor:
    print(doc)

{'Produto': 'Corda de pular', 'Data da Compra': '01/01/2020', 'Vendedor': 'Camila Ribeiro'}
{'Produto': 'Corda de pular', 'Data da Compra': '01/02/2022', 'Vendedor': 'Larissa Alves'}
{'Produto': 'Corda de pular', 'Data da Compra': '01/03/2022', 'Vendedor': 'Juliana Costa'}
{'Produto': 'Corda de pular', 'Data da Compra': '01/05/2020', 'Vendedor': 'Bruno Rodrigues'}
{'Produto': 'Corda de pular', 'Data da Compra': '01/06/2020', 'Vendedor': 'Rafael Costa'}
{'Produto': 'Corda de pular', 'Data da Compra': '01/06/2022', 'Vendedor': 'Bruno Rodrigues'}
{'Produto': 'Corda de pular', 'Data da Compra': '01/07/2022', 'Vendedor': 'Thiago Silva'}
{'Produto': 'Corda de pular', 'Data da Compra': '01/08/2022', 'Vendedor': 'Bianca Santos'}
{'Produto': 'Corda de pular', 'Data da Compra': '01/08/2022', 'Vendedor': 'Isabella Pereira'}
{'Produto': 'Corda de pular', 'Data da Compra': '01/12/2021', 'Vendedor': 'Beatriz Moraes'}
{'Produto': 'Corda de pular', 'Data da Compra': '02/01/2020', 'Vendedor': 'Bianca S

In [7]:
# obtendo valores únicos dos campos, neste caso que verificar as categorias do campo "Categoria do Produto".
# esse tipo de visualização é importante para entendimento da base, por exemplo:

# >>>> observei: todas as categotias estão todas salvas com letras minusculas e estão no plural.

collection.distinct("Categoria do Produto")

['brinquedos',
 'eletrodomesticos',
 'eletronicos',
 'esporte e lazer',
 'instrumentos musicais',
 'livros',
 'moveis',
 'utilidades domesticas']

In [8]:
# query de exemplo, filtrando apenas os "livros" vendidos pela "Categoria do Produto".
query = {"Categoria do Produto": "livros"}
lista_livros = []
for doc in collection.find(query):
    lista_livros.append(doc)
    # print(doc.keys())

In [9]:
lista_livros

[{'_id': ObjectId('6675b13616cc5a9be7ccb11d'),
  'Produto': 'Modelagem preditiva',
  'Categoria do Produto': 'livros',
  'Preço': 92.45,
  'Frete': 5.6096965236,
  'Data da Compra': '01/01/2020',
  'Vendedor': 'Thiago Silva',
  'Local da compra': 'BA',
  'Avaliação da compra': 1,
  'Tipo de pagamento': 'cartao_credito',
  'Quantidade de parcelas': 3,
  'Latitude': -13.29,
  'Longintude': -41.71},
 {'_id': ObjectId('6675b13616cc5a9be7ccb11e'),
  'Produto': 'Iniciando em programação',
  'Categoria do Produto': 'livros',
  'Preço': 43.84,
  'Frete': 0.0,
  'Data da Compra': '01/01/2020',
  'Vendedor': 'Mariana Ferreira',
  'Local da compra': 'SP',
  'Avaliação da compra': 5,
  'Tipo de pagamento': 'cartao_credito',
  'Quantidade de parcelas': 1,
  'Latitude': -22.19,
  'Longintude': -48.79},
 {'_id': ObjectId('6675b13616cc5a9be7ccb130'),
  'Produto': 'Iniciando em programação',
  'Categoria do Produto': 'livros',
  'Preço': 63.25,
  'Frete': 3.894137208,
  'Data da Compra': '01/01/2022',


In [10]:
import pandas as pd

In [11]:
df_livros = pd.DataFrame(lista_livros)
df_livros.head()

Unnamed: 0,_id,Produto,Categoria do Produto,Preço,Frete,Data da Compra,Vendedor,Local da compra,Avaliação da compra,Tipo de pagamento,Quantidade de parcelas,Latitude,Longintude
0,6675b13616cc5a9be7ccb11d,Modelagem preditiva,livros,92.45,5.609697,01/01/2020,Thiago Silva,BA,1,cartao_credito,3,-13.29,-41.71
1,6675b13616cc5a9be7ccb11e,Iniciando em programação,livros,43.84,0.0,01/01/2020,Mariana Ferreira,SP,5,cartao_credito,1,-22.19,-48.79
2,6675b13616cc5a9be7ccb130,Iniciando em programação,livros,63.25,3.894137,01/01/2022,Juliana Costa,RJ,5,cartao_credito,4,-22.25,-42.66
3,6675b13616cc5a9be7ccb13e,Ciência de dados com python,livros,86.13,5.273176,01/02/2021,Camila Ribeiro,RJ,4,cartao_credito,3,-22.25,-42.66
4,6675b13616cc5a9be7ccb140,Ciência de dados com python,livros,72.75,1.458158,01/02/2021,Beatriz Moraes,PR,4,cartao_credito,2,-24.89,-51.55


In [12]:
df_livros.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 742 entries, 0 to 741
Data columns (total 13 columns):
 #   Column                  Non-Null Count  Dtype  
---  ------                  --------------  -----  
 0   _id                     742 non-null    object 
 1   Produto                 742 non-null    object 
 2   Categoria do Produto    742 non-null    object 
 3   Preço                   742 non-null    float64
 4   Frete                   742 non-null    float64
 5   Data da Compra          742 non-null    object 
 6   Vendedor                742 non-null    object 
 7   Local da compra         742 non-null    object 
 8   Avaliação da compra     742 non-null    int64  
 9   Tipo de pagamento       742 non-null    object 
 10  Quantidade de parcelas  742 non-null    int64  
 11  Latitude                742 non-null    float64
 12  Longintude              742 non-null    float64
dtypes: float64(4), int64(2), object(7)
memory usage: 75.5+ KB


In [13]:
# formatando a coluna "Data da Compra" para que seja aceita como Datetime no MySQL futuramente.
df_livros["Data da Compra"] = pd.to_datetime(df_livros["Data da Compra"], format="%d/%m/%Y")
df_livros.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 742 entries, 0 to 741
Data columns (total 13 columns):
 #   Column                  Non-Null Count  Dtype         
---  ------                  --------------  -----         
 0   _id                     742 non-null    object        
 1   Produto                 742 non-null    object        
 2   Categoria do Produto    742 non-null    object        
 3   Preço                   742 non-null    float64       
 4   Frete                   742 non-null    float64       
 5   Data da Compra          742 non-null    datetime64[ns]
 6   Vendedor                742 non-null    object        
 7   Local da compra         742 non-null    object        
 8   Avaliação da compra     742 non-null    int64         
 9   Tipo de pagamento       742 non-null    object        
 10  Quantidade de parcelas  742 non-null    int64         
 11  Latitude                742 non-null    float64       
 12  Longintude              742 non-null    float64   

In [14]:
# formatando a data de compra de modo que fique: ano, mês e dia.
df_livros["Data da Compra"] = df_livros["Data da Compra"].dt.strftime("%Y-%m-%d")

In [16]:
df_livros.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 742 entries, 0 to 741
Data columns (total 13 columns):
 #   Column                  Non-Null Count  Dtype  
---  ------                  --------------  -----  
 0   _id                     742 non-null    object 
 1   Produto                 742 non-null    object 
 2   Categoria do Produto    742 non-null    object 
 3   Preço                   742 non-null    float64
 4   Frete                   742 non-null    float64
 5   Data da Compra          742 non-null    object 
 6   Vendedor                742 non-null    object 
 7   Local da compra         742 non-null    object 
 8   Avaliação da compra     742 non-null    int64  
 9   Tipo de pagamento       742 non-null    object 
 10  Quantidade de parcelas  742 non-null    int64  
 11  Latitude                742 non-null    float64
 12  Longintude              742 non-null    float64
dtypes: float64(4), int64(2), object(7)
memory usage: 75.5+ KB


In [17]:
df_livros.to_csv("../data/tabela_livros.csv", index=False)