**Realizando a conexão com o MongoDB**

In [1]:
from pymongo.mongo_client import MongoClient
from pymongo.server_api import ServerApi

uri = "mongodb+srv://lucascavalheiro:12345@cluster-pipeline.nxgric5.mongodb.net/?appName=Cluster-pipeline"

# Create a new client and connect to the server
client = MongoClient(uri, server_api=ServerApi('1'))

# Send a ping to confirm a successful connection
try:
    client.admin.command('ping')
    print("Pinged your deployment. You successfully connected to MongoDB!")
except Exception as e:
    print(e)

Pinged your deployment. You successfully connected to MongoDB!


## Lendo os dados no MongoDB

In [2]:
db = client['db_produtos']
collection = db['produtos']

In [3]:
for doc in collection.find():
    print(doc)

{'_id': ObjectId('690a8c66fe046b52b55756ae'), 'Produto': 'Modelagem preditiva', 'Categoria do Produto': 'livros', 'Preço': 92.45, 'Frete': 5.6096965236, 'Data da Compra': '01/01/2020', 'Vendedor': 'Thiago Silva', 'Local da compra': 'BA', 'Avaliação da compra': 1, 'Tipo de pagamento': 'cartao_credito', 'Quantidade de parcelas': 3, 'Latitude': -13.29, 'Longitude': -41.71}
{'_id': ObjectId('690a8c66fe046b52b55756af'), 'Produto': 'Iniciando em programação', 'Categoria do Produto': 'livros', 'Preço': 43.84, 'Frete': 0.0, 'Data da Compra': '01/01/2020', 'Vendedor': 'Mariana Ferreira', 'Local da compra': 'SP', 'Avaliação da compra': 5, 'Tipo de pagamento': 'cartao_credito', 'Quantidade de parcelas': 1, 'Latitude': -22.19, 'Longitude': -48.79}
{'_id': ObjectId('690a8c66fe046b52b55756b0'), 'Produto': 'Pandeiro', 'Categoria do Produto': 'instrumentos musicais', 'Preço': 87.18, 'Frete': 2.2265117938, 'Data da Compra': '01/01/2020', 'Vendedor': 'Thiago Silva', 'Local da compra': 'RJ', 'Avaliação d

**Alterando os nomes dos campos de latitude e longitude**

In [4]:
collection.update_many({},{"$rename":{'lat':'Latitude','lon':'Longitude'}})

<pymongo.results.UpdateResult at 0x73b7c55af640>

## Aplicando transformações: filtrando registros da categoria livros

Agora, vamos executar uma consulta para obter apenas os dados relacionados à categoria de **livros**.

In [5]:
query = {'Categoria do Produto':'livros'}

In [6]:
lista_produto = []
for i in collection.find(query):
    lista_produto.append(i)


**Salvando os dados em um DataFrame**

In [7]:
import pandas as pd

In [None]:
import pandas as pd

df = pd.DataFrame(lista_produto)

## Formatando as datas

Para adicionar dados do tipo DATE em um banco de dados MySQL, é necessário que a data esteja no formato **%Y-%m-%d (ano-mês-dia)**. Portanto, realizaremos uma transformação na coluna "Data de Compra" para ajustá-la a esse formato. Dessa forma, poderemos armazenar corretamente as datas no banco de dados MySQL, garantindo consistência e facilitando consultas baseadas em datas posteriormente.

In [11]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 742 entries, 0 to 741
Data columns (total 13 columns):
 #   Column                  Non-Null Count  Dtype  
---  ------                  --------------  -----  
 0   _id                     742 non-null    object 
 1   Produto                 742 non-null    object 
 2   Categoria do Produto    742 non-null    object 
 3   Preço                   742 non-null    float64
 4   Frete                   742 non-null    float64
 5   Data da Compra          742 non-null    object 
 6   Vendedor                742 non-null    object 
 7   Local da compra         742 non-null    object 
 8   Avaliação da compra     742 non-null    int64  
 9   Tipo de pagamento       742 non-null    object 
 10  Quantidade de parcelas  742 non-null    int64  
 11  Latitude                742 non-null    float64
 12  Longitude               742 non-null    float64
dtypes: float64(4), int64(2), object(7)
memory usage: 75.5+ KB


In [12]:
df['Data da Compra']  = pd.to_datetime(df['Data da Compra'],format="%d/%m/%Y")

In [14]:
df.info()
df['Data da Compra'] = df['Data da Compra'].dt.strftime("%Y-%m-%d")
df.to_csv('lista-produto.csv', index=False)


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 742 entries, 0 to 741
Data columns (total 13 columns):
 #   Column                  Non-Null Count  Dtype         
---  ------                  --------------  -----         
 0   _id                     742 non-null    object        
 1   Produto                 742 non-null    object        
 2   Categoria do Produto    742 non-null    object        
 3   Preço                   742 non-null    float64       
 4   Frete                   742 non-null    float64       
 5   Data da Compra          742 non-null    datetime64[ns]
 6   Vendedor                742 non-null    object        
 7   Local da compra         742 non-null    object        
 8   Avaliação da compra     742 non-null    int64         
 9   Tipo de pagamento       742 non-null    object        
 10  Quantidade de parcelas  742 non-null    int64         
 11  Latitude                742 non-null    float64       
 12  Longitude               742 non-null    float64   

## Aplicando transformações: filtrando produtos vendidos a partir de 2021

Nesta etapa, faremos uma query para selecionar apenas os produtos vendidos a partir do ano de 2021. Utilizaremos um filtro na coluna de data de compra para obter os registros que atendam a essa condição.

In [20]:
query = {'Data da Compra':{'$regex':'/202[1-9]'}}
produtos_acima21 = []

for i in collection.find(query):
    produtos_acima21.append(i)

produtos_acima21


[{'_id': ObjectId('690a8c66fe046b52b55756b7'),
  'Produto': 'Xadrez de madeira',
  'Categoria do Produto': 'brinquedos',
  'Preço': 25.23,
  'Frete': 0.0,
  'Data da Compra': '01/01/2021',
  'Vendedor': 'Thiago Silva',
  'Local da compra': 'BA',
  'Avaliação da compra': 5,
  'Tipo de pagamento': 'cartao_credito',
  'Quantidade de parcelas': 2,
  'Latitude': -13.29,
  'Longitude': -41.71},
 {'_id': ObjectId('690a8c66fe046b52b55756b8'),
  'Produto': 'Impressora',
  'Categoria do Produto': 'eletronicos',
  'Preço': 322.04,
  'Frete': 14.7321002401,
  'Data da Compra': '01/01/2021',
  'Vendedor': 'João Souza',
  'Local da compra': 'SP',
  'Avaliação da compra': 3,
  'Tipo de pagamento': 'cartao_credito',
  'Quantidade de parcelas': 1,
  'Latitude': -22.19,
  'Longitude': -48.79},
 {'_id': ObjectId('690a8c66fe046b52b55756b9'),
  'Produto': 'Mesa de centro',
  'Categoria do Produto': 'moveis',
  'Preço': 282.22,
  'Frete': 12.6118050347,
  'Data da Compra': '01/01/2021',
  'Vendedor': 'João 

In [21]:
df2 = pd.DataFrame(produtos_acima21)
df2.head()

Unnamed: 0,_id,Produto,Categoria do Produto,Preço,Frete,Data da Compra,Vendedor,Local da compra,Avaliação da compra,Tipo de pagamento,Quantidade de parcelas,Latitude,Longitude
0,690a8c66fe046b52b55756b7,Xadrez de madeira,brinquedos,25.23,0.0,01/01/2021,Thiago Silva,BA,5,cartao_credito,2,-13.29,-41.71
1,690a8c66fe046b52b55756b8,Impressora,eletronicos,322.04,14.7321,01/01/2021,João Souza,SP,3,cartao_credito,1,-22.19,-48.79
2,690a8c66fe046b52b55756b9,Mesa de centro,moveis,282.22,12.611805,01/01/2021,João Souza,SP,3,boleto,1,-22.19,-48.79
3,690a8c66fe046b52b55756ba,Tablet ABXY,eletronicos,1100.42,68.451348,01/01/2021,Beatriz Moraes,SP,1,cupom,1,-22.19,-48.79
4,690a8c66fe046b52b55756bb,Fogão,eletrodomesticos,791.81,42.444626,01/01/2021,Juliana Costa,SP,4,boleto,1,-22.19,-48.79


In [22]:
df2['Data da Compra'] = pd.to_datetime(df2['Data da Compra'],format="%d/%m/%Y")
df2['Data da Compra'] = df2['Data da Compra'].dt.strftime('%Y-%m-%d')
df2.head()

Unnamed: 0,_id,Produto,Categoria do Produto,Preço,Frete,Data da Compra,Vendedor,Local da compra,Avaliação da compra,Tipo de pagamento,Quantidade de parcelas,Latitude,Longitude
0,690a8c66fe046b52b55756b7,Xadrez de madeira,brinquedos,25.23,0.0,2021-01-01,Thiago Silva,BA,5,cartao_credito,2,-13.29,-41.71
1,690a8c66fe046b52b55756b8,Impressora,eletronicos,322.04,14.7321,2021-01-01,João Souza,SP,3,cartao_credito,1,-22.19,-48.79
2,690a8c66fe046b52b55756b9,Mesa de centro,moveis,282.22,12.611805,2021-01-01,João Souza,SP,3,boleto,1,-22.19,-48.79
3,690a8c66fe046b52b55756ba,Tablet ABXY,eletronicos,1100.42,68.451348,2021-01-01,Beatriz Moraes,SP,1,cupom,1,-22.19,-48.79
4,690a8c66fe046b52b55756bb,Fogão,eletrodomesticos,791.81,42.444626,2021-01-01,Juliana Costa,SP,4,boleto,1,-22.19,-48.79


In [23]:
df2.to_csv('lista-produto-21.csv')

In [24]:
client.close()

**Formatando as datas**