**Realizando a conexão com o MongoDB**

In [1]:

from pymongo.mongo_client import MongoClient
from pymongo.server_api import ServerApi

uri = "mongodb+srv://pvreboucas:12345@cluster-pipeline.r7drw.mongodb.net/?retryWrites=true&w=majority&appName=Cluster-pipeline"

# Create a new client and connect to the server
client = MongoClient(uri, server_api=ServerApi('1'))

# Send a ping to confirm a successful connection
try:
    client.admin.command('ping')
    print("Pinged your deployment. You successfully connected to MongoDB!")
except Exception as e:
    print(e)

Pinged your deployment. You successfully connected to MongoDB!


## Lendo os dados no MongoDB

In [2]:
db = client["db_produtos"]
collection = db["produtos"]

In [3]:
for doc in collection.find():
    print(doc)

{'_id': ObjectId('670adfd11d6415c0d0a940c4'), 'Produto': 'Modelagem preditiva', 'Categoria do Produto': 'livros', 'Preço': 92.45, 'Frete': 5.6096965236, 'Data da Compra': '01/01/2020', 'Vendedor': 'Thiago Silva', 'Local da compra': 'BA', 'Avaliação da compra': 1, 'Tipo de pagamento': 'cartao_credito', 'Quantidade de parcelas': 3, 'lat': -13.29, 'lon': -41.71}
{'_id': ObjectId('670adfd11d6415c0d0a940c5'), 'Produto': 'Iniciando em programação', 'Categoria do Produto': 'livros', 'Preço': 43.84, 'Frete': 0.0, 'Data da Compra': '01/01/2020', 'Vendedor': 'Mariana Ferreira', 'Local da compra': 'SP', 'Avaliação da compra': 5, 'Tipo de pagamento': 'cartao_credito', 'Quantidade de parcelas': 1, 'lat': -22.19, 'lon': -48.79}
{'_id': ObjectId('670adfd11d6415c0d0a940c6'), 'Produto': 'Pandeiro', 'Categoria do Produto': 'instrumentos musicais', 'Preço': 87.18, 'Frete': 2.2265117938, 'Data da Compra': '01/01/2020', 'Vendedor': 'Thiago Silva', 'Local da compra': 'RJ', 'Avaliação da compra': 4, 'Tipo de

**Alterando os nomes dos campos de latitude e longitude**

In [4]:
collection.update_many({}, {"$rename":{"lat":"Latidude", "lon":"Longitude"}})

UpdateResult({'n': 9435, 'electionId': ObjectId('7fffffff0000000000000198'), 'opTime': {'ts': Timestamp(1728767055, 474), 't': 408}, 'nModified': 9435, 'ok': 1.0, '$clusterTime': {'clusterTime': Timestamp(1728767055, 474), 'signature': {'hash': b'\x94\x8e\x98;\x88\xa9\xdc\xb8\x18\xf4\x1cl\xad\xff\x91\x17\xaf\xf6\xe4~', 'keyId': 7363753473742995497}}, 'operationTime': Timestamp(1728767055, 474), 'updatedExisting': True}, acknowledged=True)

In [7]:
collection.find_one()

{'_id': ObjectId('670adfd11d6415c0d0a940c4'),
 'Produto': 'Modelagem preditiva',
 'Categoria do Produto': 'livros',
 'Preço': 92.45,
 'Frete': 5.6096965236,
 'Data da Compra': '01/01/2020',
 'Vendedor': 'Thiago Silva',
 'Local da compra': 'BA',
 'Avaliação da compra': 1,
 'Tipo de pagamento': 'cartao_credito',
 'Quantidade de parcelas': 3,
 'Latidude': -13.29,
 'Longitude': -41.71}

### Método find()

Lembra do método find_one() que vimos anteriormente? Ele é usado para recuperar um único documento de uma coleção que corresponda a um determinado critério. Agora, vamos falar sobre o método find() que é bastante similar, porém usado para recuperar múltiplos documentos de uma coleção.

O método find() do pymongo é usado para buscar documentos em uma coleção no MongoDB. Ele é equivalente a uma operação de SELECT em um banco de dados SQL. Este método é bastante flexível e poderoso, pois permite especificar critérios de pesquisa, controlar o número de documentos retornados e ordenar os resultados.

O método find() pode receber os seguintes parâmetros:

1. query (opcional): um filtro que especifica as condições que os documentos devem atender para serem retornados. É basicamente um dicionário Python que especifica os campos e valores que você está procurando. Por exemplo, {"Produto": "Corda de pular"} procuraria por todos os documentos onde o campo "Produto" é igual a "Corda de pular". Se o parâmetro query for omitido, o método find() retornará todos os documentos na coleção.

2. projection (opcional): filtro para especificar quais campos devem ser incluídos nos documentos retornados. É útil quando você tem interesse apenas em alguns campos específicos e não em todo o documento.

O retorno do método find() é um objeto Cursor que você pode iterar para acessar os documentos retornados. É importante lembrar que os dados realmente não são recuperados do banco de dados até que a gente comece a iterar o cursor. Isso é conhecido como "lazy loading" e pode ser muito eficiente quando se lida com grandes quantidades de dados.

Aqui está um exemplo de como poderíamos usar o método find():

```python
cursor = collection.find({"Produto": "Corda de pular"}, {"_id": 0, "Produto": 1, "Data da Compra": 1, "Vendedor": 1})

for doc in cursor:
    print(doc)
```
Nele estamos buscando todos os documentos onde o campo "Produto" é igual a "Corda de pular". Além disso, estamos solicitando que apenas os campos "Produto", "Data da Compra" e "Vendedor" sejam retornados em cada documento (estamos excluindo o campo "_id", que é incluído por padrão).

Portanto, este script imprimirá todas as vendas do produto "Corda de pular", mostrando apenas o nome do produto, a data da compra e o vendedor para cada venda.


## Aplicando transformações: filtrando registros da categoria livros

Agora, vamos executar uma consulta para obter apenas os dados relacionados à categoria de **livros**.

In [8]:
collection.distinct("Categoria do Produto")

['brinquedos',
 'eletrodomesticos',
 'eletronicos',
 'esporte e lazer',
 'instrumentos musicais',
 'livros',
 'moveis',
 'utilidades domesticas']

In [10]:
query = {"Categoria do Produto": "livros"}

lista_livros = []
for doc in collection.find(query):
    print(doc)
    lista_livros.append(doc)

{'_id': ObjectId('670adfd11d6415c0d0a940c4'), 'Produto': 'Modelagem preditiva', 'Categoria do Produto': 'livros', 'Preço': 92.45, 'Frete': 5.6096965236, 'Data da Compra': '01/01/2020', 'Vendedor': 'Thiago Silva', 'Local da compra': 'BA', 'Avaliação da compra': 1, 'Tipo de pagamento': 'cartao_credito', 'Quantidade de parcelas': 3, 'Latidude': -13.29, 'Longitude': -41.71}
{'_id': ObjectId('670adfd11d6415c0d0a940c5'), 'Produto': 'Iniciando em programação', 'Categoria do Produto': 'livros', 'Preço': 43.84, 'Frete': 0.0, 'Data da Compra': '01/01/2020', 'Vendedor': 'Mariana Ferreira', 'Local da compra': 'SP', 'Avaliação da compra': 5, 'Tipo de pagamento': 'cartao_credito', 'Quantidade de parcelas': 1, 'Latidude': -22.19, 'Longitude': -48.79}
{'_id': ObjectId('670adfd11d6415c0d0a940d7'), 'Produto': 'Iniciando em programação', 'Categoria do Produto': 'livros', 'Preço': 63.25, 'Frete': 3.894137208, 'Data da Compra': '01/01/2022', 'Vendedor': 'Juliana Costa', 'Local da compra': 'RJ', 'Avaliação 

In [11]:
lista_livros

[{'_id': ObjectId('670adfd11d6415c0d0a940c4'),
  'Produto': 'Modelagem preditiva',
  'Categoria do Produto': 'livros',
  'Preço': 92.45,
  'Frete': 5.6096965236,
  'Data da Compra': '01/01/2020',
  'Vendedor': 'Thiago Silva',
  'Local da compra': 'BA',
  'Avaliação da compra': 1,
  'Tipo de pagamento': 'cartao_credito',
  'Quantidade de parcelas': 3,
  'Latidude': -13.29,
  'Longitude': -41.71},
 {'_id': ObjectId('670adfd11d6415c0d0a940c5'),
  'Produto': 'Iniciando em programação',
  'Categoria do Produto': 'livros',
  'Preço': 43.84,
  'Frete': 0.0,
  'Data da Compra': '01/01/2020',
  'Vendedor': 'Mariana Ferreira',
  'Local da compra': 'SP',
  'Avaliação da compra': 5,
  'Tipo de pagamento': 'cartao_credito',
  'Quantidade de parcelas': 1,
  'Latidude': -22.19,
  'Longitude': -48.79},
 {'_id': ObjectId('670adfd11d6415c0d0a940d7'),
  'Produto': 'Iniciando em programação',
  'Categoria do Produto': 'livros',
  'Preço': 63.25,
  'Frete': 3.894137208,
  'Data da Compra': '01/01/2022',
  

**Salvando os dados em um DataFrame**

In [12]:
import pandas as pd

df_livros = pd.DataFrame(lista_livros)
df_livros.head()

Unnamed: 0,_id,Produto,Categoria do Produto,Preço,Frete,Data da Compra,Vendedor,Local da compra,Avaliação da compra,Tipo de pagamento,Quantidade de parcelas,Latidude,Longitude
0,670adfd11d6415c0d0a940c4,Modelagem preditiva,livros,92.45,5.609697,01/01/2020,Thiago Silva,BA,1,cartao_credito,3,-13.29,-41.71
1,670adfd11d6415c0d0a940c5,Iniciando em programação,livros,43.84,0.0,01/01/2020,Mariana Ferreira,SP,5,cartao_credito,1,-22.19,-48.79
2,670adfd11d6415c0d0a940d7,Iniciando em programação,livros,63.25,3.894137,01/01/2022,Juliana Costa,RJ,5,cartao_credito,4,-22.25,-42.66
3,670adfd11d6415c0d0a940e5,Ciência de dados com python,livros,86.13,5.273176,01/02/2021,Camila Ribeiro,RJ,4,cartao_credito,3,-22.25,-42.66
4,670adfd11d6415c0d0a940e7,Ciência de dados com python,livros,72.75,1.458158,01/02/2021,Beatriz Moraes,PR,4,cartao_credito,2,-24.89,-51.55


## Formatando as datas

Para adicionar dados do tipo DATE em um banco de dados MySQL, é necessário que a data esteja no formato **%Y-%m-%d (ano-mês-dia)**. Portanto, realizaremos uma transformação na coluna "Data de Compra" para ajustá-la a esse formato. Dessa forma, poderemos armazenar corretamente as datas no banco de dados MySQL, garantindo consistência e facilitando consultas baseadas em datas posteriormente.

In [13]:
df_livros.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 742 entries, 0 to 741
Data columns (total 13 columns):
 #   Column                  Non-Null Count  Dtype  
---  ------                  --------------  -----  
 0   _id                     742 non-null    object 
 1   Produto                 742 non-null    object 
 2   Categoria do Produto    742 non-null    object 
 3   Preço                   742 non-null    float64
 4   Frete                   742 non-null    float64
 5   Data da Compra          742 non-null    object 
 6   Vendedor                742 non-null    object 
 7   Local da compra         742 non-null    object 
 8   Avaliação da compra     742 non-null    int64  
 9   Tipo de pagamento       742 non-null    object 
 10  Quantidade de parcelas  742 non-null    int64  
 11  Latidude                742 non-null    float64
 12  Longitude               742 non-null    float64
dtypes: float64(4), int64(2), object(7)
memory usage: 75.5+ KB


In [14]:
df_livros["Data da Compra"] = pd.to_datetime(df_livros["Data da Compra"], format="%d/%m/%Y")
df_livros.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 742 entries, 0 to 741
Data columns (total 13 columns):
 #   Column                  Non-Null Count  Dtype         
---  ------                  --------------  -----         
 0   _id                     742 non-null    object        
 1   Produto                 742 non-null    object        
 2   Categoria do Produto    742 non-null    object        
 3   Preço                   742 non-null    float64       
 4   Frete                   742 non-null    float64       
 5   Data da Compra          742 non-null    datetime64[ns]
 6   Vendedor                742 non-null    object        
 7   Local da compra         742 non-null    object        
 8   Avaliação da compra     742 non-null    int64         
 9   Tipo de pagamento       742 non-null    object        
 10  Quantidade de parcelas  742 non-null    int64         
 11  Latidude                742 non-null    float64       
 12  Longitude               742 non-null    float64   

In [22]:
df_livros["Data da Compra"] = df_livros["Data da Compra"].dt.strftime("%Y-%m-%d")
df_livros.head()

Unnamed: 0,_id,Produto,Categoria do Produto,Preço,Frete,Data da Compra,Vendedor,Local da compra,Avaliação da compra,Tipo de pagamento,Quantidade de parcelas,Latidude,Longitude
0,670adfd11d6415c0d0a940c4,Modelagem preditiva,livros,92.45,5.609697,2020=01-01,Thiago Silva,BA,1,cartao_credito,3,-13.29,-41.71
1,670adfd11d6415c0d0a940c5,Iniciando em programação,livros,43.84,0.0,2020=01-01,Mariana Ferreira,SP,5,cartao_credito,1,-22.19,-48.79
2,670adfd11d6415c0d0a940d7,Iniciando em programação,livros,63.25,3.894137,2022=01-01,Juliana Costa,RJ,5,cartao_credito,4,-22.25,-42.66
3,670adfd11d6415c0d0a940e5,Ciência de dados com python,livros,86.13,5.273176,2021=02-01,Camila Ribeiro,RJ,4,cartao_credito,3,-22.25,-42.66
4,670adfd11d6415c0d0a940e7,Ciência de dados com python,livros,72.75,1.458158,2021=02-01,Beatriz Moraes,PR,4,cartao_credito,2,-24.89,-51.55


In [23]:
df_livros.to_csv("Dados/5_tabela_livros.csv", index=False)

## Aplicando transformações: filtrando produtos vendidos a partir de 2021

Nesta etapa, faremos uma query para selecionar apenas os produtos vendidos a partir do ano de 2021. Utilizaremos um filtro na coluna de data de compra para obter os registros que atendam a essa condição.

In [24]:
collection.find_one()

{'_id': ObjectId('670adfd11d6415c0d0a940c4'),
 'Produto': 'Modelagem preditiva',
 'Categoria do Produto': 'livros',
 'Preço': 92.45,
 'Frete': 5.6096965236,
 'Data da Compra': '01/01/2020',
 'Vendedor': 'Thiago Silva',
 'Local da compra': 'BA',
 'Avaliação da compra': 1,
 'Tipo de pagamento': 'cartao_credito',
 'Quantidade de parcelas': 3,
 'Latidude': -13.29,
 'Longitude': -41.71}

In [25]:
query = {"Data da Compra": {"$regex":"/202[1-9]"}}

lista_produtos = []

for doc in collection.find(query):
    lista_produtos.append(doc)

In [26]:
lista_produtos

[{'_id': ObjectId('670adfd11d6415c0d0a940cd'),
  'Produto': 'Xadrez de madeira',
  'Categoria do Produto': 'brinquedos',
  'Preço': 25.23,
  'Frete': 0.0,
  'Data da Compra': '01/01/2021',
  'Vendedor': 'Thiago Silva',
  'Local da compra': 'BA',
  'Avaliação da compra': 5,
  'Tipo de pagamento': 'cartao_credito',
  'Quantidade de parcelas': 2,
  'Latidude': -13.29,
  'Longitude': -41.71},
 {'_id': ObjectId('670adfd11d6415c0d0a940ce'),
  'Produto': 'Impressora',
  'Categoria do Produto': 'eletronicos',
  'Preço': 322.04,
  'Frete': 14.7321002401,
  'Data da Compra': '01/01/2021',
  'Vendedor': 'João Souza',
  'Local da compra': 'SP',
  'Avaliação da compra': 3,
  'Tipo de pagamento': 'cartao_credito',
  'Quantidade de parcelas': 1,
  'Latidude': -22.19,
  'Longitude': -48.79},
 {'_id': ObjectId('670adfd11d6415c0d0a940cf'),
  'Produto': 'Mesa de centro',
  'Categoria do Produto': 'moveis',
  'Preço': 282.22,
  'Frete': 12.6118050347,
  'Data da Compra': '01/01/2021',
  'Vendedor': 'João 

In [28]:
import pandas as pd

df_produtos = pd.DataFrame(lista_produtos)
df_produtos.head()

Unnamed: 0,_id,Produto,Categoria do Produto,Preço,Frete,Data da Compra,Vendedor,Local da compra,Avaliação da compra,Tipo de pagamento,Quantidade de parcelas,Latidude,Longitude
0,670adfd11d6415c0d0a940cd,Xadrez de madeira,brinquedos,25.23,0.0,01/01/2021,Thiago Silva,BA,5,cartao_credito,2,-13.29,-41.71
1,670adfd11d6415c0d0a940ce,Impressora,eletronicos,322.04,14.7321,01/01/2021,João Souza,SP,3,cartao_credito,1,-22.19,-48.79
2,670adfd11d6415c0d0a940cf,Mesa de centro,moveis,282.22,12.611805,01/01/2021,João Souza,SP,3,boleto,1,-22.19,-48.79
3,670adfd11d6415c0d0a940d0,Tablet ABXY,eletronicos,1100.42,68.451348,01/01/2021,Beatriz Moraes,SP,1,cupom,1,-22.19,-48.79
4,670adfd11d6415c0d0a940d1,Fogão,eletrodomesticos,791.81,42.444626,01/01/2021,Juliana Costa,SP,4,boleto,1,-22.19,-48.79


**Formatando as datas**

In [29]:
df_produtos["Data da Compra"] = pd.to_datetime(df_produtos["Data da Compra"], format="%d/%m/%Y")
df_produtos["Data da Compra"] = df_produtos["Data da Compra"].dt.strftime("%Y-%m-%d")
df_produtos.head()

Unnamed: 0,_id,Produto,Categoria do Produto,Preço,Frete,Data da Compra,Vendedor,Local da compra,Avaliação da compra,Tipo de pagamento,Quantidade de parcelas,Latidude,Longitude
0,670adfd11d6415c0d0a940cd,Xadrez de madeira,brinquedos,25.23,0.0,2021-01-01,Thiago Silva,BA,5,cartao_credito,2,-13.29,-41.71
1,670adfd11d6415c0d0a940ce,Impressora,eletronicos,322.04,14.7321,2021-01-01,João Souza,SP,3,cartao_credito,1,-22.19,-48.79
2,670adfd11d6415c0d0a940cf,Mesa de centro,moveis,282.22,12.611805,2021-01-01,João Souza,SP,3,boleto,1,-22.19,-48.79
3,670adfd11d6415c0d0a940d0,Tablet ABXY,eletronicos,1100.42,68.451348,2021-01-01,Beatriz Moraes,SP,1,cupom,1,-22.19,-48.79
4,670adfd11d6415c0d0a940d1,Fogão,eletrodomesticos,791.81,42.444626,2021-01-01,Juliana Costa,SP,4,boleto,1,-22.19,-48.79


In [30]:
df_produtos.to_csv("Dados/5_tabela_2021_a_2029.csv")

In [31]:
client.close()

## Desafio 3 : Desenvolvendo um Script

Seguindo nosso objetivo de ter um pipeline de dados eficiente e automatizado, vamos agora transformar o código que desenvolvemos no nosso notebook da aula 3 em um novo script Python estruturado em funções.
Orientações para o desafio

**Preparando o ambiente:**

* na pasta scripts crie um arquivo chamado "transform_data.py"

**Desenvolvendo o código:**

Para aplicar as transformações, precisamos realizar a conexão com o MongoDB e com a base de dados e coleção específicas. No script extract_and_save_data.py, nós já temos funções que realizam esse processo. Sendo assim, para não termos que criar funções repetidas, podemos importar essas funções nesse novo script:

```python
from extract_and_save_data import connect_mongo, create_connect_db, create_connect_collection
```

Para desenvolver as funções a seguir, você pode utilizar os códigos já feitos no notebook, adaptando-os para que se tornem funções, sendo elas:

1 - visualize_collection(col): imprime todos os documentos existentes na coleção.

2 - rename_column(col, col_name, new_name): renomeia uma coluna existente.

3 - select_category(col, category): seleciona documentos que correspondam a uma categoria específica.

4 - make_regex(col, regex): seleciona documentos que correspondam a uma expressão regular específica.

5 - create_dataframe(lista): cria um dataframe a partir de uma lista de documentos.

6 - format_date(df): formata a coluna de datas do dataframe para o formato "ano-mes-dia".

7 - save_csv(df, path): salva o dataframe como um arquivo CSV no caminho especificado.

Com as funções prontas, o próximo desafio é executá-las, realizando os seguintes passos:

* conectar ao MongoDB;
* ler os dados da coleção existente no banco de dados "db_produtos_desafio";
* renomear as colunas "lat" para "Latitude" e "lon" para "Longitude;
* selecionar os dados da categoria livros e salvá-los em csv;
* filtrar os produtos vendidos a partir de 2021 e salvá-los em csv.

Se precisar de ajuda, na seção "Opinião da pessoa instrutora" você pode encontrar uma das formas de resolver o desafio proposto acima.

**Código das funções**

Nós podemos começar importando todas as bibliotecas que precisamos utilizar e em seguida construir as funções. Os códigos de cada função são basicamente os códigos que desenvolvemos no nosso notebook transform_data.ipynb, a diferença é que estão adaptados de acordo com os parâmetros que cada função deve receber.

In [None]:
from extract_and_save_data import connect_mongo, create_connect_db, create_connect_collection
import pandas as pd

def visualize_collection(col):
    for doc in col.find():
        print(doc)

def rename_column(col, col_name, new_name):
    col.update_many({}, {"$rename": {f"{col_name}": f"{new_name}"}})

def select_category(col, category):
    query = { "Categoria do Produto": f"{category}"}
    
    lista_categoria = []
    for doc in col.find(query):
        lista_categoria.append(doc)

    return lista_categoria

def make_regex(col, regex):
    query = {"Data da Compra": {"$regex": f"{regex}"}}

    lista_regex = []
    for doc in col.find(query):
        lista_regex.append(doc)
    
    return lista_regex

def create_dataframe(lista):
    df =  pd.DataFrame(lista)
    return df

def format_date(df):
    df["Data da Compra"] = pd.to_datetime(df["Data da Compra"], format="%d/%m/%Y")
    df['Data da Compra'] = df['Data da Compra'].dt.strftime('%Y-%m-%d')

def save_csv(df, path):
    df.to_csv(path, index=False)
    print(f"\nO arquivo {path} foi salvo")


**Executando as funções**

Uma vez que as funções estão prontas, nós podemos executá-las para testar seu funcionamento. Antes de fazer isso, criamos uma subpasta chamada "data_teste" que vamos utilizar para armazenar os arquivos csv a serem salvos. Para testar as funções, fazemos:

In [None]:
if __name__ == "__main__":

    # estabelecendo a conexão e recuperando os dados do MongoDB
    client = connect_mongo("sua_uri")
    db = create_connect_db(client, "db_produtos_desafio")
    col = create_connect_collection(db, "produtos")

    # renomeando as colunas de latitude e longitude
    rename_column(col, "lat", "Latitude")
    rename_column(col, "lon", "Longitude")

    # salvando os dados da categoria livros
    lst_livros = select_category(col, "livros")
    df_livros = create_dataframe(lst_livros)
    format_date(df_livros)
    save_csv(df_livros, "../data_teste/tb_livros.csv")

    # salvando os dados dos produtos vendidos a partir de 2021
    lst_produtos = make_regex(col, "/202[1-9]")
    df_produtos = create_dataframe(lst_produtos)
    format_date(df_produtos)
    save_csv(df_produtos, "Dados/5_tb_produtos.csv")


No primeiro bloco de código, logo após o comentário "# estabelecendo a conexão e recuperando os dados do MongoDB", estamos empregando três funções essenciais que foram importadas do script "extract_and_save_data.py". São elas:

1 - connect_mongo: estabelece a conexão com nossa instância do MongoDB.

2 - create_connect_db: cria/conecta à base de dados específica dentro da instância do MongoDB.

3 - create_connect_collection: cria/conecta à coleção específica dentro da base de dados. 