**Connecting with MongoDB**

In [30]:
from pymongo.mongo_client import MongoClient
from pymongo.server_api import ServerApi

uri = "mongodb+srv://brunoleo3347:12345@cluster-pipeline.d0mmjw8.mongodb.net/?retryWrites=true&w=majority"

# Create a new client and connect to the server
client = MongoClient(uri, server_api=ServerApi('1'))

# Send a ping to confirm a successful connection
try:
    client.admin.command('ping')
    print("Pinged your deployment. You successfully connected to MongoDB!")
except Exception as e:
    print(e)

Pinged your deployment. You successfully connected to MongoDB!


**Reading data into MongoDB**

In [31]:
db = client["db_products"]
collection = db["products"]


In [32]:
for doc in collection.find():
    print(doc)


{'_id': ObjectId('657c51c6e0cea7e7663db2a3'), 'Produto': 'Modelagem preditiva', 'Categoria do Produto': 'livros', 'Preço': 92.45, 'Frete': 5.6096965236, 'Data da Compra': '01/01/2020', 'Vendedor': 'Thiago Silva', 'Local da compra': 'BA', 'Avaliação da compra': 1, 'Tipo de pagamento': 'cartao_credito', 'Quantidade de parcelas': 3, 'Latitude': -13.29, 'Longitude': -41.71}
{'_id': ObjectId('657c51c6e0cea7e7663db2a4'), 'Produto': 'Iniciando em programação', 'Categoria do Produto': 'livros', 'Preço': 43.84, 'Frete': 0.0, 'Data da Compra': '01/01/2020', 'Vendedor': 'Mariana Ferreira', 'Local da compra': 'SP', 'Avaliação da compra': 5, 'Tipo de pagamento': 'cartao_credito', 'Quantidade de parcelas': 1, 'Latitude': -22.19, 'Longitude': -48.79}
{'_id': ObjectId('657c51c6e0cea7e7663db2a5'), 'Produto': 'Pandeiro', 'Categoria do Produto': 'instrumentos musicais', 'Preço': 87.18, 'Frete': 2.2265117938, 'Data da Compra': '01/01/2020', 'Vendedor': 'Thiago Silva', 'Local da compra': 'RJ', 'Avaliação d

**Changing the names of latitude and longitude fields**

In [33]:
collection.update_many({}, {'$rename': {'lat': 'Latitude', 'lon': 'Longitude'}})


<pymongo.results.UpdateResult at 0x7f8e14761030>

In [34]:
collection.find_one()


{'_id': ObjectId('657c51c6e0cea7e7663db2a3'),
 'Produto': 'Modelagem preditiva',
 'Categoria do Produto': 'livros',
 'Preço': 92.45,
 'Frete': 5.6096965236,
 'Data da Compra': '01/01/2020',
 'Vendedor': 'Thiago Silva',
 'Local da compra': 'BA',
 'Avaliação da compra': 1,
 'Tipo de pagamento': 'cartao_credito',
 'Quantidade de parcelas': 3,
 'Latitude': -13.29,
 'Longitude': -41.71}

**Query to detect documents where the "Categoria do produto" is "livros"**

In [35]:
query = { "Categoria do Produto": "livros" }

books_list = []
for doc in collection.find(query):
    #print(doc)
    books_list.append(doc)


**Saving data in a DataFrame**

In [36]:
import pandas as pd

df_books =  pd.DataFrame(books_list)
df_books.head()


Unnamed: 0,_id,Produto,Categoria do Produto,Preço,Frete,Data da Compra,Vendedor,Local da compra,Avaliação da compra,Tipo de pagamento,Quantidade de parcelas,Latitude,Longitude
0,657c51c6e0cea7e7663db2a3,Modelagem preditiva,livros,92.45,5.609697,01/01/2020,Thiago Silva,BA,1,cartao_credito,3,-13.29,-41.71
1,657c51c6e0cea7e7663db2a4,Iniciando em programação,livros,43.84,0.0,01/01/2020,Mariana Ferreira,SP,5,cartao_credito,1,-22.19,-48.79
2,657c51c6e0cea7e7663db2b6,Iniciando em programação,livros,63.25,3.894137,01/01/2022,Juliana Costa,RJ,5,cartao_credito,4,-22.25,-42.66
3,657c51c6e0cea7e7663db2c4,Ciência de dados com python,livros,86.13,5.273176,01/02/2021,Camila Ribeiro,RJ,4,cartao_credito,3,-22.25,-42.66
4,657c51c6e0cea7e7663db2c6,Ciência de dados com python,livros,72.75,1.458158,01/02/2021,Beatriz Moraes,PR,4,cartao_credito,2,-24.89,-51.55


**Formatting dates for date type**

In [38]:
df_books["Data da Compra"] = pd.to_datetime(df_books["Data da Compra"], format="%d/%m/%Y")
df_books.info()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1484 entries, 0 to 1483
Data columns (total 13 columns):
 #   Column                  Non-Null Count  Dtype         
---  ------                  --------------  -----         
 0   _id                     1484 non-null   object        
 1   Produto                 1484 non-null   object        
 2   Categoria do Produto    1484 non-null   object        
 3   Preço                   1484 non-null   float64       
 4   Frete                   1484 non-null   float64       
 5   Data da Compra          1484 non-null   datetime64[ns]
 6   Vendedor                1484 non-null   object        
 7   Local da compra         1484 non-null   object        
 8   Avaliação da compra     1484 non-null   int64         
 9   Tipo de pagamento       1484 non-null   object        
 10  Quantidade de parcelas  1484 non-null   int64         
 11  Latitude                1484 non-null   float64       
 12  Longitude               1484 non-null   float64 

**Changing the current day/month/year format to year-month-day, which is the accepted date type in MySQL**

In [39]:
df_books["Data da Compra"] = df_books["Data da Compra"].dt.strftime("%Y-%m-%d")
df_books.head()


Unnamed: 0,_id,Produto,Categoria do Produto,Preço,Frete,Data da Compra,Vendedor,Local da compra,Avaliação da compra,Tipo de pagamento,Quantidade de parcelas,Latitude,Longitude
0,657c51c6e0cea7e7663db2a3,Modelagem preditiva,livros,92.45,5.609697,2020-01-01,Thiago Silva,BA,1,cartao_credito,3,-13.29,-41.71
1,657c51c6e0cea7e7663db2a4,Iniciando em programação,livros,43.84,0.0,2020-01-01,Mariana Ferreira,SP,5,cartao_credito,1,-22.19,-48.79
2,657c51c6e0cea7e7663db2b6,Iniciando em programação,livros,63.25,3.894137,2022-01-01,Juliana Costa,RJ,5,cartao_credito,4,-22.25,-42.66
3,657c51c6e0cea7e7663db2c4,Ciência de dados com python,livros,86.13,5.273176,2021-02-01,Camila Ribeiro,RJ,4,cartao_credito,3,-22.25,-42.66
4,657c51c6e0cea7e7663db2c6,Ciência de dados com python,livros,72.75,1.458158,2021-02-01,Beatriz Moraes,PR,4,cartao_credito,2,-24.89,-51.55


In [42]:
df_books.to_csv('../data/books_table.csv', index=False)


**Applying transformations: filtering products sold from 2021**

In [43]:
query = {"Data da Compra": {"$regex": "/202[1-9]"}}

products_list = []
for doc in collection.find(query):
    products_list.append(doc)


In [44]:
df_products = pd.DataFrame(products_list)
df_products.head()

Unnamed: 0,_id,Produto,Categoria do Produto,Preço,Frete,Data da Compra,Vendedor,Local da compra,Avaliação da compra,Tipo de pagamento,Quantidade de parcelas,Latitude,Longitude
0,657c51c6e0cea7e7663db2ac,Xadrez de madeira,brinquedos,25.23,0.0,01/01/2021,Thiago Silva,BA,5,cartao_credito,2,-13.29,-41.71
1,657c51c6e0cea7e7663db2ad,Impressora,eletronicos,322.04,14.7321,01/01/2021,João Souza,SP,3,cartao_credito,1,-22.19,-48.79
2,657c51c6e0cea7e7663db2ae,Mesa de centro,moveis,282.22,12.611805,01/01/2021,João Souza,SP,3,boleto,1,-22.19,-48.79
3,657c51c6e0cea7e7663db2af,Tablet ABXY,eletronicos,1100.42,68.451348,01/01/2021,Beatriz Moraes,SP,1,cupom,1,-22.19,-48.79
4,657c51c6e0cea7e7663db2b0,Fogão,eletrodomesticos,791.81,42.444626,01/01/2021,Juliana Costa,SP,4,boleto,1,-22.19,-48.79


In [45]:
df_products["Data da Compra"] = pd.to_datetime(df_products["Data da Compra"], format="%d/%m/%Y")
df_products['Data da Compra'] = df_products['Data da Compra'].dt.strftime('%Y-%m-%d')
df_products.head()


Unnamed: 0,_id,Produto,Categoria do Produto,Preço,Frete,Data da Compra,Vendedor,Local da compra,Avaliação da compra,Tipo de pagamento,Quantidade de parcelas,Latitude,Longitude
0,657c51c6e0cea7e7663db2ac,Xadrez de madeira,brinquedos,25.23,0.0,2021-01-01,Thiago Silva,BA,5,cartao_credito,2,-13.29,-41.71
1,657c51c6e0cea7e7663db2ad,Impressora,eletronicos,322.04,14.7321,2021-01-01,João Souza,SP,3,cartao_credito,1,-22.19,-48.79
2,657c51c6e0cea7e7663db2ae,Mesa de centro,moveis,282.22,12.611805,2021-01-01,João Souza,SP,3,boleto,1,-22.19,-48.79
3,657c51c6e0cea7e7663db2af,Tablet ABXY,eletronicos,1100.42,68.451348,2021-01-01,Beatriz Moraes,SP,1,cupom,1,-22.19,-48.79
4,657c51c6e0cea7e7663db2b0,Fogão,eletrodomesticos,791.81,42.444626,2021-01-01,Juliana Costa,SP,4,boleto,1,-22.19,-48.79


In [47]:
df_products.to_csv('../data/tb_2021_onwards.csv', index=False)
