**Realizando a conexão com o MongoDB**

In [75]:
import os
from dotenv import load_dotenv


In [76]:
load_dotenv()

True

In [77]:
# definindo o token e a versão da API
access_token = os.getenv("DB_PASSWORD")

if not access_token:
    raise ValueError("A variável de ambiente DB_PASSWORD não está definida.")

In [78]:
from pymongo.mongo_client import MongoClient
from pymongo.server_api import ServerApi

uri = f'mongodb+srv://silvaBreno:{access_token}@cluster-pipeline-estudo.s3yd6yk.mongodb.net/?retryWrites=true&w=majority&appName=Cluster-pipeline-estudos'

# Create a new client and connect to the server
client = MongoClient(uri, server_api=ServerApi('1'))

# Send a ping to confirm a successful connection
try:
    client.admin.command('ping')
    print("Pinged your deployment. You successfully connected to MongoDB!")
except Exception as e:
    print(e)

Pinged your deployment. You successfully connected to MongoDB!


## Lendo os dados no MongoDB

In [79]:
db = client['db_produtos']
collection = db['produtos']

In [80]:
collection.find()

<pymongo.cursor.Cursor at 0x7523f658b5b0>

In [81]:
for doc in collection.find():
    print(doc)

{'_id': ObjectId('688978777e2f470cd6fbcce7'), 'Produto': 'Iniciando em programação', 'Categoria do Produto': 'livros', 'Preço': 43.84, 'Frete': 0.0, 'Data da Compra': '01/01/2020', 'Vendedor': 'Mariana Ferreira', 'Local da compra': 'SP', 'Avaliação da compra': 5, 'Tipo de pagamento': 'cartao_credito', 'Quantidade de parcelas': 1, 'Latitude': -22.19, 'Longitude': -48.79}
{'_id': ObjectId('688978777e2f470cd6fbccea'), 'Produto': 'Dinossauro Rex', 'Categoria do Produto': 'brinquedos', 'Preço': 28.32, 'Frete': 2.0390593271, 'Data da Compra': '01/01/2020', 'Vendedor': 'Juliana Costa', 'Local da compra': 'RJ', 'Avaliação da compra': 1, 'Tipo de pagamento': 'cartao_debito', 'Quantidade de parcelas': 1, 'Latitude': -22.25, 'Longitude': -42.66}
{'_id': ObjectId('688978777e2f470cd6fbcceb'), 'Produto': 'Jogo de copos', 'Categoria do Produto': 'utilidades domesticas', 'Preço': 54.67, 'Frete': 9.2906273957, 'Data da Compra': '01/01/2020', 'Vendedor': 'Camila Ribeiro', 'Local da compra': 'SP', 'Avali

**Alterando os nomes dos campos de latitude e longitude**

In [82]:
collection.update_many({}, {"$rename": {'lat':'Latitude', 'lon': 'Longitude'}})

<pymongo.results.UpdateResult at 0x7523f5fa73d0>

In [83]:
collection.find_one()

{'_id': ObjectId('688978777e2f470cd6fbcce7'),
 'Produto': 'Iniciando em programação',
 'Categoria do Produto': 'livros',
 'Preço': 43.84,
 'Frete': 0.0,
 'Data da Compra': '01/01/2020',
 'Vendedor': 'Mariana Ferreira',
 'Local da compra': 'SP',
 'Avaliação da compra': 5,
 'Tipo de pagamento': 'cartao_credito',
 'Quantidade de parcelas': 1,
 'Latitude': -22.19,
 'Longitude': -48.79}

## Aplicando transformações: filtrando registros da categoria livros

Agora, vamos executar uma consulta para obter apenas os dados relacionados à categoria de **livros**.

In [84]:
# primeiro passo analisar valores unicos no campo Categoria do Produto
collection.distinct("Categoria do Produto")

['brinquedos',
 'eletrodomesticos',
 'eletronicos',
 'esporte e lazer',
 'instrumentos musicais',
 'livros',
 'moveis',
 'utilidades domesticas']

In [85]:
# agora sabemos que é livros com letra minuscula
query = {"Categoria do Produto": 'livros'}

lista_livros = []
for doc in collection.find(query):
    #print(doc)
    lista_livros.append(doc)

In [86]:
lista_livros

[{'_id': ObjectId('688978777e2f470cd6fbcce7'),
  'Produto': 'Iniciando em programação',
  'Categoria do Produto': 'livros',
  'Preço': 43.84,
  'Frete': 0.0,
  'Data da Compra': '01/01/2020',
  'Vendedor': 'Mariana Ferreira',
  'Local da compra': 'SP',
  'Avaliação da compra': 5,
  'Tipo de pagamento': 'cartao_credito',
  'Quantidade de parcelas': 1,
  'Latitude': -22.19,
  'Longitude': -48.79},
 {'_id': ObjectId('688978777e2f470cd6fbcd0c'),
  'Produto': 'Iniciando em programação',
  'Categoria do Produto': 'livros',
  'Preço': 61.73,
  'Frete': 0.0,
  'Data da Compra': '01/02/2021',
  'Vendedor': 'Beatriz Moraes',
  'Local da compra': 'SP',
  'Avaliação da compra': 4,
  'Tipo de pagamento': 'cartao_credito',
  'Quantidade de parcelas': 1,
  'Latitude': -22.19,
  'Longitude': -48.79},
 {'_id': ObjectId('688978777e2f470cd6fbcd13'),
  'Produto': 'Ciência de dados com python',
  'Categoria do Produto': 'livros',
  'Preço': 79.28,
  'Frete': 1.8058605601,
  'Data da Compra': '01/02/2022',


In [87]:
import pandas as pd

In [88]:
df_livros = pd.DataFrame(lista_livros)  
df_livros.head()

Unnamed: 0,_id,Produto,Categoria do Produto,Preço,Frete,Data da Compra,Vendedor,Local da compra,Avaliação da compra,Tipo de pagamento,Quantidade de parcelas,Latitude,Longitude
0,688978777e2f470cd6fbcce7,Iniciando em programação,livros,43.84,0.0,01/01/2020,Mariana Ferreira,SP,5,cartao_credito,1,-22.19,-48.79
1,688978777e2f470cd6fbcd0c,Iniciando em programação,livros,61.73,0.0,01/02/2021,Beatriz Moraes,SP,4,cartao_credito,1,-22.19,-48.79
2,688978777e2f470cd6fbcd13,Ciência de dados com python,livros,79.28,1.805861,01/02/2022,Lucas Oliveira,SP,5,cartao_credito,1,-22.19,-48.79
3,688978777e2f470cd6fbcd17,Dashboards com Power BI,livros,41.76,2.754699,01/02/2022,Juliana Costa,SP,5,cartao_credito,1,-22.19,-48.79
4,688978777e2f470cd6fbcd3d,Modelagem preditiva,livros,71.64,1.399054,01/03/2023,Mariana Ferreira,SP,4,cartao_credito,2,-22.19,-48.79


## Formatando as datas

Para adicionar dados do tipo DATE em um banco de dados MySQL, é necessário que a data esteja no formato **%Y-%m-%d (ano-mês-dia)**. Portanto, realizaremos uma transformação na coluna "Data de Compra" para ajustá-la a esse formato. Dessa forma, poderemos armazenar corretamente as datas no banco de dados MySQL, garantindo consistência e facilitando consultas baseadas em datas posteriormente.

In [89]:
df_livros.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 742 entries, 0 to 741
Data columns (total 13 columns):
 #   Column                  Non-Null Count  Dtype  
---  ------                  --------------  -----  
 0   _id                     742 non-null    object 
 1   Produto                 742 non-null    object 
 2   Categoria do Produto    742 non-null    object 
 3   Preço                   742 non-null    float64
 4   Frete                   742 non-null    float64
 5   Data da Compra          742 non-null    object 
 6   Vendedor                742 non-null    object 
 7   Local da compra         742 non-null    object 
 8   Avaliação da compra     742 non-null    int64  
 9   Tipo de pagamento       742 non-null    object 
 10  Quantidade de parcelas  742 non-null    int64  
 11  Latitude                742 non-null    float64
 12  Longitude               742 non-null    float64
dtypes: float64(4), int64(2), object(7)
memory usage: 75.5+ KB


In [90]:
df_livros['Data da Compra'] = pd.to_datetime(df_livros['Data da Compra'], format='%d/%m/%Y')
df_livros.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 742 entries, 0 to 741
Data columns (total 13 columns):
 #   Column                  Non-Null Count  Dtype         
---  ------                  --------------  -----         
 0   _id                     742 non-null    object        
 1   Produto                 742 non-null    object        
 2   Categoria do Produto    742 non-null    object        
 3   Preço                   742 non-null    float64       
 4   Frete                   742 non-null    float64       
 5   Data da Compra          742 non-null    datetime64[ns]
 6   Vendedor                742 non-null    object        
 7   Local da compra         742 non-null    object        
 8   Avaliação da compra     742 non-null    int64         
 9   Tipo de pagamento       742 non-null    object        
 10  Quantidade de parcelas  742 non-null    int64         
 11  Latitude                742 non-null    float64       
 12  Longitude               742 non-null    float64   

In [91]:
df_livros.head()

Unnamed: 0,_id,Produto,Categoria do Produto,Preço,Frete,Data da Compra,Vendedor,Local da compra,Avaliação da compra,Tipo de pagamento,Quantidade de parcelas,Latitude,Longitude
0,688978777e2f470cd6fbcce7,Iniciando em programação,livros,43.84,0.0,2020-01-01,Mariana Ferreira,SP,5,cartao_credito,1,-22.19,-48.79
1,688978777e2f470cd6fbcd0c,Iniciando em programação,livros,61.73,0.0,2021-02-01,Beatriz Moraes,SP,4,cartao_credito,1,-22.19,-48.79
2,688978777e2f470cd6fbcd13,Ciência de dados com python,livros,79.28,1.805861,2022-02-01,Lucas Oliveira,SP,5,cartao_credito,1,-22.19,-48.79
3,688978777e2f470cd6fbcd17,Dashboards com Power BI,livros,41.76,2.754699,2022-02-01,Juliana Costa,SP,5,cartao_credito,1,-22.19,-48.79
4,688978777e2f470cd6fbcd3d,Modelagem preditiva,livros,71.64,1.399054,2023-03-01,Mariana Ferreira,SP,4,cartao_credito,2,-22.19,-48.79


In [92]:
df_livros['Data da Compra'] = df_livros['Data da Compra'].dt.strftime('%Y-%m-%d')
df_livros.head()

Unnamed: 0,_id,Produto,Categoria do Produto,Preço,Frete,Data da Compra,Vendedor,Local da compra,Avaliação da compra,Tipo de pagamento,Quantidade de parcelas,Latitude,Longitude
0,688978777e2f470cd6fbcce7,Iniciando em programação,livros,43.84,0.0,2020-01-01,Mariana Ferreira,SP,5,cartao_credito,1,-22.19,-48.79
1,688978777e2f470cd6fbcd0c,Iniciando em programação,livros,61.73,0.0,2021-02-01,Beatriz Moraes,SP,4,cartao_credito,1,-22.19,-48.79
2,688978777e2f470cd6fbcd13,Ciência de dados com python,livros,79.28,1.805861,2022-02-01,Lucas Oliveira,SP,5,cartao_credito,1,-22.19,-48.79
3,688978777e2f470cd6fbcd17,Dashboards com Power BI,livros,41.76,2.754699,2022-02-01,Juliana Costa,SP,5,cartao_credito,1,-22.19,-48.79
4,688978777e2f470cd6fbcd3d,Modelagem preditiva,livros,71.64,1.399054,2023-03-01,Mariana Ferreira,SP,4,cartao_credito,2,-22.19,-48.79


**Salvando os dados em um DataFrame**

In [93]:
df_livros.to_csv('../data/tabela_livros.csv', index = False)

## Aplicando transformações: filtrando produtos vendidos a partir de 2021

Nesta etapa, faremos uma query para selecionar apenas os produtos vendidos a partir do ano de 2021. Utilizaremos um filtro na coluna de data de compra para obter os registros que atendam a essa condição.

In [94]:
collection.find_one()

{'_id': ObjectId('688978777e2f470cd6fbcce7'),
 'Produto': 'Iniciando em programação',
 'Categoria do Produto': 'livros',
 'Preço': 43.84,
 'Frete': 0.0,
 'Data da Compra': '01/01/2020',
 'Vendedor': 'Mariana Ferreira',
 'Local da compra': 'SP',
 'Avaliação da compra': 5,
 'Tipo de pagamento': 'cartao_credito',
 'Quantidade de parcelas': 1,
 'Latitude': -22.19,
 'Longitude': -48.79}

In [95]:
query = {"Data da Compra": {"$regex": r"/202[1-9]"}}

In [96]:
lista_produtos = []
for doc in collection.find(query):
    lista_produtos.append(doc)

In [97]:
lista_produtos

[{'_id': ObjectId('688978777e2f470cd6fbccfc'),
  'Produto': 'Bateria',
  'Categoria do Produto': 'instrumentos musicais',
  'Preço': 1031.24,
  'Frete': 55.199204426,
  'Data da Compra': '01/01/2023',
  'Vendedor': 'Bruno Rodrigues',
  'Local da compra': 'BA',
  'Avaliação da compra': 5,
  'Tipo de pagamento': 'boleto',
  'Quantidade de parcelas': 1,
  'Latitude': -13.29,
  'Longitude': -41.71},
 {'_id': ObjectId('688978777e2f470cd6fbccfd'),
  'Produto': 'Boneca bebê',
  'Categoria do Produto': 'brinquedos',
  'Preço': 50.72,
  'Frete': 3.2317919389,
  'Data da Compra': '01/01/2023',
  'Vendedor': 'Isabella Pereira',
  'Local da compra': 'SP',
  'Avaliação da compra': 4,
  'Tipo de pagamento': 'boleto',
  'Quantidade de parcelas': 1,
  'Latitude': -22.19,
  'Longitude': -48.79},
 {'_id': ObjectId('688978777e2f470cd6fbcd05'),
  'Produto': 'Micro-ondas',
  'Categoria do Produto': 'eletrodomesticos',
  'Preço': 1035.84,
  'Frete': 55.6864683002,
  'Data da Compra': '01/02/2021',
  'Vended

In [98]:
df_produtos = pd.DataFrame(lista_produtos)
df_produtos.head()

Unnamed: 0,_id,Produto,Categoria do Produto,Preço,Frete,Data da Compra,Vendedor,Local da compra,Avaliação da compra,Tipo de pagamento,Quantidade de parcelas,Latitude,Longitude
0,688978777e2f470cd6fbccfc,Bateria,instrumentos musicais,1031.24,55.199204,01/01/2023,Bruno Rodrigues,BA,5,boleto,1,-13.29,-41.71
1,688978777e2f470cd6fbccfd,Boneca bebê,brinquedos,50.72,3.231792,01/01/2023,Isabella Pereira,SP,4,boleto,1,-22.19,-48.79
2,688978777e2f470cd6fbcd05,Micro-ondas,eletrodomesticos,1035.84,55.686468,01/02/2021,Felipe Santos,SP,2,cartao_credito,6,-22.19,-48.79
3,688978777e2f470cd6fbcd0b,Headset,eletronicos,340.22,15.700131,01/02/2021,Thiago Silva,SP,2,cupom,1,-22.19,-48.79
4,688978777e2f470cd6fbcd0c,Iniciando em programação,livros,61.73,0.0,01/02/2021,Beatriz Moraes,SP,4,cartao_credito,1,-22.19,-48.79


**Formatando as datas**

In [99]:
df_produtos.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6574 entries, 0 to 6573
Data columns (total 13 columns):
 #   Column                  Non-Null Count  Dtype  
---  ------                  --------------  -----  
 0   _id                     6574 non-null   object 
 1   Produto                 6574 non-null   object 
 2   Categoria do Produto    6574 non-null   object 
 3   Preço                   6574 non-null   float64
 4   Frete                   6574 non-null   float64
 5   Data da Compra          6574 non-null   object 
 6   Vendedor                6574 non-null   object 
 7   Local da compra         6574 non-null   object 
 8   Avaliação da compra     6574 non-null   int64  
 9   Tipo de pagamento       6574 non-null   object 
 10  Quantidade de parcelas  6574 non-null   int64  
 11  Latitude                6574 non-null   float64
 12  Longitude               6574 non-null   float64
dtypes: float64(4), int64(2), object(7)
memory usage: 667.8+ KB


In [100]:
df_produtos["Data da Compra"] = pd.to_datetime(df_produtos["Data da Compra"], format= "%d/%m/%Y")

In [101]:
df_produtos.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6574 entries, 0 to 6573
Data columns (total 13 columns):
 #   Column                  Non-Null Count  Dtype         
---  ------                  --------------  -----         
 0   _id                     6574 non-null   object        
 1   Produto                 6574 non-null   object        
 2   Categoria do Produto    6574 non-null   object        
 3   Preço                   6574 non-null   float64       
 4   Frete                   6574 non-null   float64       
 5   Data da Compra          6574 non-null   datetime64[ns]
 6   Vendedor                6574 non-null   object        
 7   Local da compra         6574 non-null   object        
 8   Avaliação da compra     6574 non-null   int64         
 9   Tipo de pagamento       6574 non-null   object        
 10  Quantidade de parcelas  6574 non-null   int64         
 11  Latitude                6574 non-null   float64       
 12  Longitude               6574 non-null   float64 

In [107]:
df_produtos["Data da Compra"].dtype.name

'object'

In [103]:
df_produtos["Data da Compra"] = df_produtos["Data da Compra"].dt.strftime('%Y-%m-%d')

In [104]:
df_produtos.head()

Unnamed: 0,_id,Produto,Categoria do Produto,Preço,Frete,Data da Compra,Vendedor,Local da compra,Avaliação da compra,Tipo de pagamento,Quantidade de parcelas,Latitude,Longitude
0,688978777e2f470cd6fbccfc,Bateria,instrumentos musicais,1031.24,55.199204,2023-01-01,Bruno Rodrigues,BA,5,boleto,1,-13.29,-41.71
1,688978777e2f470cd6fbccfd,Boneca bebê,brinquedos,50.72,3.231792,2023-01-01,Isabella Pereira,SP,4,boleto,1,-22.19,-48.79
2,688978777e2f470cd6fbcd05,Micro-ondas,eletrodomesticos,1035.84,55.686468,2021-02-01,Felipe Santos,SP,2,cartao_credito,6,-22.19,-48.79
3,688978777e2f470cd6fbcd0b,Headset,eletronicos,340.22,15.700131,2021-02-01,Thiago Silva,SP,2,cupom,1,-22.19,-48.79
4,688978777e2f470cd6fbcd0c,Iniciando em programação,livros,61.73,0.0,2021-02-01,Beatriz Moraes,SP,4,cartao_credito,1,-22.19,-48.79


In [105]:
df_produtos.to_csv('../data/tabela_produtos_2021_em_diante.csv', index=False)

In [106]:
client.close()