## Conectando ao MongoDB

In [1]:
from pymongo.mongo_client import MongoClient

client = MongoClient('mongodb://localhost:27017')

try:
    print(client.admin.command('ping'))
except Exception as e:
    print(e)

{'ok': 1.0}



## Lendo os dados

In [3]:
db = client['db_products']
collection = db['products']

In [6]:
for doc in collection.find():
    print(doc)

{'_id': ObjectId('669878c0b279a3e1dff5081c'), 'Produto': 'Modelagem preditiva', 'Categoria do Produto': 'livros', 'Preço': 92.45, 'Frete': 5.6096965236, 'Data da Compra': '01/01/2020', 'Vendedor': 'Thiago Silva', 'Local da compra': 'BA', 'Avaliação da compra': 1, 'Tipo de pagamento': 'cartao_credito', 'Quantidade de parcelas': 3, 'lat': -13.29, 'lon': -41.71}
{'_id': ObjectId('669878c0b279a3e1dff5081d'), 'Produto': 'Iniciando em programação', 'Categoria do Produto': 'livros', 'Preço': 43.84, 'Frete': 0.0, 'Data da Compra': '01/01/2020', 'Vendedor': 'Mariana Ferreira', 'Local da compra': 'SP', 'Avaliação da compra': 5, 'Tipo de pagamento': 'cartao_credito', 'Quantidade de parcelas': 1, 'lat': -22.19, 'lon': -48.79}
{'_id': ObjectId('669878c0b279a3e1dff5081e'), 'Produto': 'Pandeiro', 'Categoria do Produto': 'instrumentos musicais', 'Preço': 87.18, 'Frete': 2.2265117938, 'Data da Compra': '01/01/2020', 'Vendedor': 'Thiago Silva', 'Local da compra': 'RJ', 'Avaliação da compra': 4, 'Tipo de

## Alterando nome das colunas

In [7]:
collection.update_many({}, {'$rename': {'lat': 'Latitude', 'lon': 'Longitude'}})

UpdateResult({'n': 9435, 'nModified': 9435, 'ok': 1.0, 'updatedExisting': True}, acknowledged=True)

In [8]:
collection.find_one()

{'_id': ObjectId('669878c0b279a3e1dff5081c'),
 'Produto': 'Modelagem preditiva',
 'Categoria do Produto': 'livros',
 'Preço': 92.45,
 'Frete': 5.6096965236,
 'Data da Compra': '01/01/2020',
 'Vendedor': 'Thiago Silva',
 'Local da compra': 'BA',
 'Avaliação da compra': 1,
 'Tipo de pagamento': 'cartao_credito',
 'Quantidade de parcelas': 3,
 'Latitude': -13.29,
 'Longitude': -41.71}

## Filtrando registro da categoria livros

In [12]:
collection.distinct('Categoria do Produto')

['brinquedos',
 'eletrodomesticos',
 'eletronicos',
 'esporte e lazer',
 'instrumentos musicais',
 'livros',
 'moveis',
 'utilidades domesticas']

In [16]:
query = {'Categoria do Produto': 'livros'}
list_livros = []

for doc in collection.find(query):
    #print(doc)
    list_livros.append(doc)

In [17]:
list_livros

[{'_id': ObjectId('669878c0b279a3e1dff5081c'),
  'Produto': 'Modelagem preditiva',
  'Categoria do Produto': 'livros',
  'Preço': 92.45,
  'Frete': 5.6096965236,
  'Data da Compra': '01/01/2020',
  'Vendedor': 'Thiago Silva',
  'Local da compra': 'BA',
  'Avaliação da compra': 1,
  'Tipo de pagamento': 'cartao_credito',
  'Quantidade de parcelas': 3,
  'Latitude': -13.29,
  'Longitude': -41.71},
 {'_id': ObjectId('669878c0b279a3e1dff5081d'),
  'Produto': 'Iniciando em programação',
  'Categoria do Produto': 'livros',
  'Preço': 43.84,
  'Frete': 0.0,
  'Data da Compra': '01/01/2020',
  'Vendedor': 'Mariana Ferreira',
  'Local da compra': 'SP',
  'Avaliação da compra': 5,
  'Tipo de pagamento': 'cartao_credito',
  'Quantidade de parcelas': 1,
  'Latitude': -22.19,
  'Longitude': -48.79},
 {'_id': ObjectId('669878c0b279a3e1dff5082f'),
  'Produto': 'Iniciando em programação',
  'Categoria do Produto': 'livros',
  'Preço': 63.25,
  'Frete': 3.894137208,
  'Data da Compra': '01/01/2022',
  

In [18]:
import pandas as pd

df_livros = pd.DataFrame(list_livros)
df_livros.head()

Unnamed: 0,_id,Produto,Categoria do Produto,Preço,Frete,Data da Compra,Vendedor,Local da compra,Avaliação da compra,Tipo de pagamento,Quantidade de parcelas,Latitude,Longitude
0,669878c0b279a3e1dff5081c,Modelagem preditiva,livros,92.45,5.609697,01/01/2020,Thiago Silva,BA,1,cartao_credito,3,-13.29,-41.71
1,669878c0b279a3e1dff5081d,Iniciando em programação,livros,43.84,0.0,01/01/2020,Mariana Ferreira,SP,5,cartao_credito,1,-22.19,-48.79
2,669878c0b279a3e1dff5082f,Iniciando em programação,livros,63.25,3.894137,01/01/2022,Juliana Costa,RJ,5,cartao_credito,4,-22.25,-42.66
3,669878c0b279a3e1dff5083d,Ciência de dados com python,livros,86.13,5.273176,01/02/2021,Camila Ribeiro,RJ,4,cartao_credito,3,-22.25,-42.66
4,669878c0b279a3e1dff5083f,Ciência de dados com python,livros,72.75,1.458158,01/02/2021,Beatriz Moraes,PR,4,cartao_credito,2,-24.89,-51.55


### Formatando datas
Formato para datas no MySQL: **%Y-%m-%d**

In [24]:
df_livros['Data da Compra'].info()

<class 'pandas.core.series.Series'>
RangeIndex: 742 entries, 0 to 741
Series name: Data da Compra
Non-Null Count  Dtype 
--------------  ----- 
742 non-null    object
dtypes: object(1)
memory usage: 5.9+ KB


In [28]:
df_livros['Data da Compra'] = pd.to_datetime(df_livros['Data da Compra'], format='%d/%m/%Y')
df_livros.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 742 entries, 0 to 741
Data columns (total 13 columns):
 #   Column                  Non-Null Count  Dtype         
---  ------                  --------------  -----         
 0   _id                     742 non-null    object        
 1   Produto                 742 non-null    object        
 2   Categoria do Produto    742 non-null    object        
 3   Preço                   742 non-null    float64       
 4   Frete                   742 non-null    float64       
 5   Data da Compra          742 non-null    datetime64[ns]
 6   Vendedor                742 non-null    object        
 7   Local da compra         742 non-null    object        
 8   Avaliação da compra     742 non-null    int64         
 9   Tipo de pagamento       742 non-null    object        
 10  Quantidade de parcelas  742 non-null    int64         
 11  Latitude                742 non-null    float64       
 12  Longitude               742 non-null    float64   

In [29]:
df_livros['Data da Compra'] = df_livros['Data da Compra'].dt.strftime('%Y-%m-%d')
df_livros.head()

Unnamed: 0,_id,Produto,Categoria do Produto,Preço,Frete,Data da Compra,Vendedor,Local da compra,Avaliação da compra,Tipo de pagamento,Quantidade de parcelas,Latitude,Longitude
0,669878c0b279a3e1dff5081c,Modelagem preditiva,livros,92.45,5.609697,2020-01-01,Thiago Silva,BA,1,cartao_credito,3,-13.29,-41.71
1,669878c0b279a3e1dff5081d,Iniciando em programação,livros,43.84,0.0,2020-01-01,Mariana Ferreira,SP,5,cartao_credito,1,-22.19,-48.79
2,669878c0b279a3e1dff5082f,Iniciando em programação,livros,63.25,3.894137,2022-01-01,Juliana Costa,RJ,5,cartao_credito,4,-22.25,-42.66
3,669878c0b279a3e1dff5083d,Ciência de dados com python,livros,86.13,5.273176,2021-02-01,Camila Ribeiro,RJ,4,cartao_credito,3,-22.25,-42.66
4,669878c0b279a3e1dff5083f,Ciência de dados com python,livros,72.75,1.458158,2021-02-01,Beatriz Moraes,PR,4,cartao_credito,2,-24.89,-51.55


### Salvando em CSV

In [31]:
df_livros.to_csv('../data/venda_livros.csv')

## Filtrando vendas a partir de 2021

In [33]:
query = {'Data da Compra': {'$regex': '/202[1-9]'}}
list_products = []

for doc in collection.find(query):
    list_products.append(doc)

In [34]:
list_products

[{'_id': ObjectId('669878c0b279a3e1dff50825'),
  'Produto': 'Xadrez de madeira',
  'Categoria do Produto': 'brinquedos',
  'Preço': 25.23,
  'Frete': 0.0,
  'Data da Compra': '01/01/2021',
  'Vendedor': 'Thiago Silva',
  'Local da compra': 'BA',
  'Avaliação da compra': 5,
  'Tipo de pagamento': 'cartao_credito',
  'Quantidade de parcelas': 2,
  'Latitude': -13.29,
  'Longitude': -41.71},
 {'_id': ObjectId('669878c0b279a3e1dff50826'),
  'Produto': 'Impressora',
  'Categoria do Produto': 'eletronicos',
  'Preço': 322.04,
  'Frete': 14.7321002401,
  'Data da Compra': '01/01/2021',
  'Vendedor': 'João Souza',
  'Local da compra': 'SP',
  'Avaliação da compra': 3,
  'Tipo de pagamento': 'cartao_credito',
  'Quantidade de parcelas': 1,
  'Latitude': -22.19,
  'Longitude': -48.79},
 {'_id': ObjectId('669878c0b279a3e1dff50827'),
  'Produto': 'Mesa de centro',
  'Categoria do Produto': 'moveis',
  'Preço': 282.22,
  'Frete': 12.6118050347,
  'Data da Compra': '01/01/2021',
  'Vendedor': 'João 

In [35]:
df_products = pd.DataFrame(list_products)
df_products.head()

Unnamed: 0,_id,Produto,Categoria do Produto,Preço,Frete,Data da Compra,Vendedor,Local da compra,Avaliação da compra,Tipo de pagamento,Quantidade de parcelas,Latitude,Longitude
0,669878c0b279a3e1dff50825,Xadrez de madeira,brinquedos,25.23,0.0,01/01/2021,Thiago Silva,BA,5,cartao_credito,2,-13.29,-41.71
1,669878c0b279a3e1dff50826,Impressora,eletronicos,322.04,14.7321,01/01/2021,João Souza,SP,3,cartao_credito,1,-22.19,-48.79
2,669878c0b279a3e1dff50827,Mesa de centro,moveis,282.22,12.611805,01/01/2021,João Souza,SP,3,boleto,1,-22.19,-48.79
3,669878c0b279a3e1dff50828,Tablet ABXY,eletronicos,1100.42,68.451348,01/01/2021,Beatriz Moraes,SP,1,cupom,1,-22.19,-48.79
4,669878c0b279a3e1dff50829,Fogão,eletrodomesticos,791.81,42.444626,01/01/2021,Juliana Costa,SP,4,boleto,1,-22.19,-48.79


### Formatando datas
Formato para datas no MySQL: **%Y-%m-%d**

In [37]:
df_products['Data da Compra'] = pd.to_datetime(df_products['Data da Compra'], format='%d/%m/%Y')

In [38]:
df_products['Data da Compra'] = df_products['Data da Compra'].dt.strftime('%Y-%m-%d')
df_products.head()

Unnamed: 0,_id,Produto,Categoria do Produto,Preço,Frete,Data da Compra,Vendedor,Local da compra,Avaliação da compra,Tipo de pagamento,Quantidade de parcelas,Latitude,Longitude
0,669878c0b279a3e1dff50825,Xadrez de madeira,brinquedos,25.23,0.0,2021-01-01,Thiago Silva,BA,5,cartao_credito,2,-13.29,-41.71
1,669878c0b279a3e1dff50826,Impressora,eletronicos,322.04,14.7321,2021-01-01,João Souza,SP,3,cartao_credito,1,-22.19,-48.79
2,669878c0b279a3e1dff50827,Mesa de centro,moveis,282.22,12.611805,2021-01-01,João Souza,SP,3,boleto,1,-22.19,-48.79
3,669878c0b279a3e1dff50828,Tablet ABXY,eletronicos,1100.42,68.451348,2021-01-01,Beatriz Moraes,SP,1,cupom,1,-22.19,-48.79
4,669878c0b279a3e1dff50829,Fogão,eletrodomesticos,791.81,42.444626,2021-01-01,Juliana Costa,SP,4,boleto,1,-22.19,-48.79


### Salvando em CSV

In [39]:
df_livros.to_csv('../data/venda_2021_em_diante.csv')

In [40]:
client.close()