**Realizando a conexão com o MongoDB**

In [2]:

from pymongo.mongo_client import MongoClient
from pymongo.server_api import ServerApi

uri = "mongodb+srv://dcamposdev:sodebirra@cluste-pipeline.iwo5r.mongodb.net/?retryWrites=true&w=majority&appName=Cluste-pipeline"

# Create a new client and connect to the server
client = MongoClient(uri, server_api=ServerApi('1'))

# Send a ping to confirm a successful connection
try:
    client.admin.command('ping')
    print("Pinged your deployment. You successfully connected to MongoDB!")
except Exception as e:
    print(e)

Pinged your deployment. You successfully connected to MongoDB!


## Lendo os dados no MongoDB

In [3]:
db = client["db_produtos"]

collection = db["produtos"]

In [None]:
for doc in collection.find():
    print(doc)

**Alterando os nomes dos campos de latitude e longitude**

In [5]:
collection.update_many({}, {"$rename": {"lat": "latitude", "lon": "longitude"}})

<pymongo.results.UpdateResult at 0x7f978486a2f0>

In [None]:
collection.find_one()

## Aplicando transformações: filtrando registros da categoria livros

Agora, vamos executar uma consulta para obter apenas os dados relacionados à categoria de **livros**.

In [None]:
collection.distinct("Categoria do Produto")

In [8]:
query = {"Categoria do Produto": "livros"}

In [9]:
lista_livros = []

for doc in collection.find(query):
    lista_livros.append(doc)

In [None]:
lista_livros

**Salvando os dados em um DataFrame**

In [None]:
import pandas as pd

df = pd.DataFrame(lista_livros)

df.head()

## Formatando as datas

Para adicionar dados do tipo DATE em um banco de dados MySQL, é necessário que a data esteja no formato **%Y-%m-%d (ano-mês-dia)**. Portanto, realizaremos uma transformação na coluna "Data de Compra" para ajustá-la a esse formato. Dessa forma, poderemos armazenar corretamente as datas no banco de dados MySQL, garantindo consistência e facilitando consultas baseadas em datas posteriormente.

In [None]:
df.info()

In [None]:
df["Data da Compra"] = pd.to_datetime(df["Data da Compra"], format="%d/%m/%Y")
df.info()

In [None]:
df["Data da Compra"] = df["Data da Compra"].dt.strftime("%Y-%m-%d")
df.head()

In [20]:
import os

# Create the directory if it does not exist
os.makedirs("../data", exist_ok=True)

# Save the dataframe to a CSV file
df.to_csv("../data/produtos_livros.csv", index=False)

## Aplicando transformações: filtrando produtos vendidos a partir de 2021

Nesta etapa, faremos uma query para selecionar apenas os produtos vendidos a partir do ano de 2021. Utilizaremos um filtro na coluna de data de compra para obter os registros que atendam a essa condição.

In [None]:
collection.find_one()

In [23]:
query = {"Data da Compra": {"$regex": "/202[1-9]"}}

lista_produtos = []

for doc in collection.find(query):
    lista_produtos.append(doc)


In [None]:
lista_produtos

In [None]:
import pandas as pd

df_produtos = pd.DataFrame(lista_produtos)
df_produtos.head()

**Formatando as datas**

In [None]:
df_produtos["Data da Compra"] = pd.to_datetime(df_produtos["Data da Compra"], format="%d/%m/%Y")
df_produtos["Data da Compra"] = df_produtos["Data da Compra"].dt.strftime("%Y-%m-%d")
df_produtos.head()

In [28]:
df_produtos.to_csv("../data/produtos_2021.csv", index=False)

In [29]:
client.close()