**Realizando a conexão com o MongoDB**

In [None]:
import urllib.parse
from pymongo.mongo_client import MongoClient
from pymongo.server_api import ServerApi

from dotenv import load_dotenv
import os

# Carrega as variáveis do arquivo .env
load_dotenv()

# Acessa as variáveis de ambiente
username = os.getenv('username')
password = os.getenv('password')

# Codifique o nome de usuário e a senha
username_encoded = urllib.parse.quote_plus(username)
password_encoded = urllib.parse.quote_plus(password)

# Use f-strings para criar a URI
uri = f"mongodb+srv://{username_encoded}:{password_encoded}@cluster0.ugrha.mongodb.net/?retryWrites=true&w=majority&appName=Cluster0"

# Create a new client and connect to the server
client = MongoClient(uri, server_api=ServerApi('1'))

# Send a ping to confirm a successful connection
try:
    client.admin.command('ping')
    print("Pinged your deployment. You successfully connected to MongoDB!")
except Exception as e:
    print(e)

## Lendo os dados no MongoDB

In [3]:
db = client["db_produtos"]
collection = db["produtos"]

In [None]:
for doc in collection.find():
    print(doc)

**Alterando os nomes dos campos de latitude e longitude**

In [10]:
collection.update_many({}, {"$rename": {"latitude":"Latitude", "longitude":"Longitude"}})

UpdateResult({'n': 9435, 'electionId': ObjectId('7fffffff0000000000000071'), 'opTime': {'ts': Timestamp(1731974329, 208), 't': 113}, 'nModified': 9435, 'ok': 1.0, '$clusterTime': {'clusterTime': Timestamp(1731974329, 208), 'signature': {'hash': b'vUW\xc8\xa3\xd7\xfd\xfav\xd4\x17l\xb8\x19zwi\xdav\x16', 'keyId': 7406387913283338246}}, 'operationTime': Timestamp(1731974329, 208), 'updatedExisting': True}, acknowledged=True)

In [None]:
collection.find_one()

## Aplicando transformações: filtrando registros da categoria livros

Agora, vamos executar uma consulta para obter apenas os dados relacionados à categoria de **livros**.

In [15]:
collection.distinct("Categoria do Produto")

['brinquedos',
 'eletrodomesticos',
 'eletronicos',
 'esporte e lazer',
 'instrumentos musicais',
 'livros',
 'moveis',
 'utilidades domesticas']

In [16]:
query = {"Categoria do Produto":"livros"}

In [19]:
lista_livros = []
for doc in collection.find(query):
    #print (doc)
    lista_livros.append(doc)

**Salvando os dados em um DataFrame**

In [None]:
import pandas as pd

df_livros = pd.DataFrame(lista_livros)
df_livros.head()

## Formatando as datas

Para adicionar dados do tipo DATE em um banco de dados MySQL, é necessário que a data esteja no formato **%Y-%m-%d (ano-mês-dia)**. Portanto, realizaremos uma transformação na coluna "Data de Compra" para ajustá-la a esse formato. Dessa forma, poderemos armazenar corretamente as datas no banco de dados MySQL, garantindo consistência e facilitando consultas baseadas em datas posteriormente.

In [25]:
df_livros.info()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 742 entries, 0 to 741
Data columns (total 13 columns):
 #   Column                  Non-Null Count  Dtype  
---  ------                  --------------  -----  
 0   _id                     742 non-null    object 
 1   Produto                 742 non-null    object 
 2   Categoria do Produto    742 non-null    object 
 3   Preço                   742 non-null    float64
 4   Frete                   742 non-null    float64
 5   Data da Compra          742 non-null    object 
 6   Vendedor                742 non-null    object 
 7   Local da compra         742 non-null    object 
 8   Avaliação da compra     742 non-null    int64  
 9   Tipo de pagamento       742 non-null    object 
 10  Quantidade de parcelas  742 non-null    int64  
 11  Latitude                742 non-null    float64
 12  Longitude               742 non-null    float64
dtypes: float64(4), int64(2), object(7)
memory usage: 75.5+ KB


In [27]:
df_livros["Data da Compra"] = pd.to_datetime(df_livros["Data da Compra"], format="%d/%m/%Y")
df_livros.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 742 entries, 0 to 741
Data columns (total 13 columns):
 #   Column                  Non-Null Count  Dtype         
---  ------                  --------------  -----         
 0   _id                     742 non-null    object        
 1   Produto                 742 non-null    object        
 2   Categoria do Produto    742 non-null    object        
 3   Preço                   742 non-null    float64       
 4   Frete                   742 non-null    float64       
 5   Data da Compra          742 non-null    datetime64[ns]
 6   Vendedor                742 non-null    object        
 7   Local da compra         742 non-null    object        
 8   Avaliação da compra     742 non-null    int64         
 9   Tipo de pagamento       742 non-null    object        
 10  Quantidade de parcelas  742 non-null    int64         
 11  Latitude                742 non-null    float64       
 12  Longitude               742 non-null    float64   

In [None]:
df_livros["Data da Compra"] = df_livros["Data da Compra"].dt.strftime("%Y-%m-%d")

In [31]:
df_livros.head()

Unnamed: 0,_id,Produto,Categoria do Produto,Preço,Frete,Data da Compra,Vendedor,Local da compra,Avaliação da compra,Tipo de pagamento,Quantidade de parcelas,Latitude,Longitude
0,673a57faafb3bf994738cfda,Iniciando em programação,livros,63.25,3.894137,2022-01-01,Juliana Costa,RJ,5,cartao_credito,4,-22.25,-42.66
1,673a57faafb3bf994738cff4,Ciência de dados com python,livros,79.28,1.805861,2022-02-01,Lucas Oliveira,SP,5,cartao_credito,1,-22.19,-48.79
2,673a57faafb3bf994738cff8,Dashboards com Power BI,livros,41.76,2.754699,2022-02-01,Juliana Costa,SP,5,cartao_credito,1,-22.19,-48.79
3,673a57faafb3bf994738d000,Modelagem preditiva,livros,70.49,1.33782,2023-02-01,Isabella Pereira,PE,4,cupom,1,-8.38,-37.86
4,673a57faafb3bf994738cfea,Ciência de dados com python,livros,72.75,1.458158,2021-02-01,Beatriz Moraes,PR,4,cartao_credito,2,-24.89,-51.55


In [32]:
df_livros.to_csv("../data/tabela_livros.csv", index=False)

## Aplicando transformações: filtrando produtos vendidos a partir de 2021

Nesta etapa, faremos uma query para selecionar apenas os produtos vendidos a partir do ano de 2021. Utilizaremos um filtro na coluna de data de compra para obter os registros que atendam a essa condição.

In [33]:
collection.find_one()

{'_id': ObjectId('673a57faafb3bf994738cfca'),
 'Produto': 'Corda de pular',
 'Categoria do Produto': 'esporte e lazer',
 'Preço': 13.65,
 'Frete': 1.2579259604,
 'Data da Compra': '01/01/2020',
 'Vendedor': 'Camila Ribeiro',
 'Local da compra': 'RJ',
 'Avaliação da compra': 4,
 'Tipo de pagamento': 'boleto',
 'Quantidade de parcelas': 1,
 'Latitude': -22.25,
 'Longitude': -42.66}

In [38]:
query={"Data da Compra": {"$regex": "/202[1-9]"}}
lista_produtos = []
for doc in collection.find(query):
    lista_produtos.append(doc)



In [None]:
lista_produtos

In [40]:
df_produtos = pd.DataFrame(lista_produtos)
df_produtos.head()

Unnamed: 0,_id,Produto,Categoria do Produto,Preço,Frete,Data da Compra,Vendedor,Local da compra,Avaliação da compra,Tipo de pagamento,Quantidade de parcelas,Latitude,Longitude
0,673a57faafb3bf994738cfd9,Blocos de montar,brinquedos,36.84,0.0,01/01/2022,Pedro Gomes,SP,4,boleto,1,-22.19,-48.79
1,673a57faafb3bf994738cfda,Iniciando em programação,livros,63.25,3.894137,01/01/2022,Juliana Costa,RJ,5,cartao_credito,4,-22.25,-42.66
2,673a57faafb3bf994738cfef,Guitarra,instrumentos musicais,1158.33,62.208692,01/02/2022,Bruno Rodrigues,SP,4,cartao_credito,2,-22.19,-48.79
3,673a57faafb3bf994738cff4,Ciência de dados com python,livros,79.28,1.805861,01/02/2022,Lucas Oliveira,SP,5,cartao_credito,1,-22.19,-48.79
4,673a57faafb3bf994738cff8,Dashboards com Power BI,livros,41.76,2.754699,01/02/2022,Juliana Costa,SP,5,cartao_credito,1,-22.19,-48.79


**Formatando as datas**

In [41]:
df_produtos["Data da Compra"] = pd.to_datetime(df_produtos["Data da Compra"], format="%d/%m/%Y")
df_produtos["Data da Compra"] = df_produtos["Data da Compra"].dt.strftime("%Y-%m-%d")
df_produtos.head()

Unnamed: 0,_id,Produto,Categoria do Produto,Preço,Frete,Data da Compra,Vendedor,Local da compra,Avaliação da compra,Tipo de pagamento,Quantidade de parcelas,Latitude,Longitude
0,673a57faafb3bf994738cfd9,Blocos de montar,brinquedos,36.84,0.0,2022-01-01,Pedro Gomes,SP,4,boleto,1,-22.19,-48.79
1,673a57faafb3bf994738cfda,Iniciando em programação,livros,63.25,3.894137,2022-01-01,Juliana Costa,RJ,5,cartao_credito,4,-22.25,-42.66
2,673a57faafb3bf994738cfef,Guitarra,instrumentos musicais,1158.33,62.208692,2022-02-01,Bruno Rodrigues,SP,4,cartao_credito,2,-22.19,-48.79
3,673a57faafb3bf994738cff4,Ciência de dados com python,livros,79.28,1.805861,2022-02-01,Lucas Oliveira,SP,5,cartao_credito,1,-22.19,-48.79
4,673a57faafb3bf994738cff8,Dashboards com Power BI,livros,41.76,2.754699,2022-02-01,Juliana Costa,SP,5,cartao_credito,1,-22.19,-48.79


In [42]:
df_produtos.to_csv("../data/2021_em_diante.csv")

In [43]:
client.close()