## Realizando a conexão com o MongoDB

Nesse momento vamos utilizar o código fornecido no MongoDB Atlas para realizarmos a conexão com o nosso banco de dados utilizando a biblioteca pymongo.

In [1]:

from pymongo.mongo_client import MongoClient
from pymongo.server_api import ServerApi

uri = "mongodb+srv://pvreboucas:12345@cluster-pipeline.r7drw.mongodb.net/?retryWrites=true&w=majority&appName=Cluster-pipeline"

# Create a new client and connect to the server
client = MongoClient(uri, server_api=ServerApi('1'))

# Send a ping to confirm a successful connection
try:
    client.admin.command('ping')
    print("Pinged your deployment. You successfully connected to MongoDB!")
except Exception as e:
    print(e)

Pinged your deployment. You successfully connected to MongoDB!


## Criando o banco de dados e uma coleção

Conectados ao banco de dados, está tudo pronto para realizar operações nele. Primeiramente, vamos criar nossa base de dados chamada "db_produtos" e uma coleção dentro dela chamada "produtos". Vale lembrar que para um banco de dados do MongoDB ser efetivamente criado, ele precisa conter dados.

In [2]:
db = client["db_produtos"]
collection = db["produtos"]

In [3]:
client.list_database_names()

['sample_mflix', 'admin', 'local']

In [4]:
product = {"produto": "computador", "quantidade": 77}
collection.insert_one(product)

InsertOneResult(ObjectId('670ade431d6415c0d0a940c3'), acknowledged=True)

In [5]:
collection.find_one()

{'_id': ObjectId('670ade431d6415c0d0a940c3'),
 'produto': 'computador',
 'quantidade': 77}

In [6]:
client.list_database_names()

['db_produtos', 'sample_mflix', 'admin', 'local']

## Extraindo os dados da API

Agora que nossa base de dados e coleção estão criadas, podemos prosseguir para a etapa de extração dos dados que desejamos adicionar a esse banco de dados.

Como já sabemos, os registros referentes aos produtos vendidos pela empresa de e-commerce estão armazenados em uma API. A URL que nos permite acessar esses dados é: https://labdados.com/produtos

In [9]:
import requests

response = requests.get("https://labdados.com/produtos")
response.json()

[{'Produto': 'Modelagem preditiva',
  'Categoria do Produto': 'livros',
  'Preço': 92.45,
  'Frete': 5.6096965236,
  'Data da Compra': '01/01/2020',
  'Vendedor': 'Thiago Silva',
  'Local da compra': 'BA',
  'Avaliação da compra': 1,
  'Tipo de pagamento': 'cartao_credito',
  'Quantidade de parcelas': 3,
  'lat': -13.29,
  'lon': -41.71},
 {'Produto': 'Iniciando em programação',
  'Categoria do Produto': 'livros',
  'Preço': 43.84,
  'Frete': 0.0,
  'Data da Compra': '01/01/2020',
  'Vendedor': 'Mariana Ferreira',
  'Local da compra': 'SP',
  'Avaliação da compra': 5,
  'Tipo de pagamento': 'cartao_credito',
  'Quantidade de parcelas': 1,
  'lat': -22.19,
  'lon': -48.79},
 {'Produto': 'Pandeiro',
  'Categoria do Produto': 'instrumentos musicais',
  'Preço': 87.18,
  'Frete': 2.2265117938,
  'Data da Compra': '01/01/2020',
  'Vendedor': 'Thiago Silva',
  'Local da compra': 'RJ',
  'Avaliação da compra': 4,
  'Tipo de pagamento': 'cartao_credito',
  'Quantidade de parcelas': 4,
  'lat':

In [10]:
len(response.json())

9435

## Adicionando os dados extraídos na coleção

Com os dados extraídos no formato JSON, que é compatível com o MongoDB, podemos adicioná-los facilmente ao nosso banco de dados. Podemos utilizar o método `insert_many()` para adicionar todos os dados extraídos de uma vez.

In [11]:
docs = collection.insert_many(response.json())

In [12]:
docs.inserted_ids

[ObjectId('670adfd11d6415c0d0a940c4'),
 ObjectId('670adfd11d6415c0d0a940c5'),
 ObjectId('670adfd11d6415c0d0a940c6'),
 ObjectId('670adfd11d6415c0d0a940c7'),
 ObjectId('670adfd11d6415c0d0a940c8'),
 ObjectId('670adfd11d6415c0d0a940c9'),
 ObjectId('670adfd11d6415c0d0a940ca'),
 ObjectId('670adfd11d6415c0d0a940cb'),
 ObjectId('670adfd11d6415c0d0a940cc'),
 ObjectId('670adfd11d6415c0d0a940cd'),
 ObjectId('670adfd11d6415c0d0a940ce'),
 ObjectId('670adfd11d6415c0d0a940cf'),
 ObjectId('670adfd11d6415c0d0a940d0'),
 ObjectId('670adfd11d6415c0d0a940d1'),
 ObjectId('670adfd11d6415c0d0a940d2'),
 ObjectId('670adfd11d6415c0d0a940d3'),
 ObjectId('670adfd11d6415c0d0a940d4'),
 ObjectId('670adfd11d6415c0d0a940d5'),
 ObjectId('670adfd11d6415c0d0a940d6'),
 ObjectId('670adfd11d6415c0d0a940d7'),
 ObjectId('670adfd11d6415c0d0a940d8'),
 ObjectId('670adfd11d6415c0d0a940d9'),
 ObjectId('670adfd11d6415c0d0a940da'),
 ObjectId('670adfd11d6415c0d0a940db'),
 ObjectId('670adfd11d6415c0d0a940dc'),
 ObjectId('670adfd11d6415

In [13]:
len(docs.inserted_ids)

9435

In [14]:
collection.count_documents({})

9436

**Removendo o registro de exemplo**

In [17]:
id_remover = collection.find_one()["_id"]
id_remover

ObjectId('670ade431d6415c0d0a940c3')

In [18]:
collection.delete_one({"_id": id_remover})

DeleteResult({'n': 1, 'electionId': ObjectId('7fffffff0000000000000198'), 'opTime': {'ts': Timestamp(1728766149, 23), 't': 408}, 'ok': 1.0, '$clusterTime': {'clusterTime': Timestamp(1728766149, 23), 'signature': {'hash': b'\x04|\x0c7\xcf\xb6\x1e\xb2\xb4\x83;\xf6\x12\xf5\xc3N\xc8q\x01\xff', 'keyId': 7363753473742995497}}, 'operationTime': Timestamp(1728766149, 23)}, acknowledged=True)

In [19]:
collection.find_one()

{'_id': ObjectId('670adfd11d6415c0d0a940c4'),
 'Produto': 'Modelagem preditiva',
 'Categoria do Produto': 'livros',
 'Preço': 92.45,
 'Frete': 5.6096965236,
 'Data da Compra': '01/01/2020',
 'Vendedor': 'Thiago Silva',
 'Local da compra': 'BA',
 'Avaliação da compra': 1,
 'Tipo de pagamento': 'cartao_credito',
 'Quantidade de parcelas': 3,
 'lat': -13.29,
 'lon': -41.71}

In [20]:
client.close()

### Desafio 1 e 2: Desenvolvendo um Script



Até o momento temos desenvolvido nosso pipeline em um notebook Jupyter, que oferece um ambiente interativo e prático para o aprendizado e experimentação de novos conceitos e métodos. Agora, temos um novo desafio!

Nosso objetivo é ter um pipeline de dados eficiente e automatizado. Portanto, para nos aproximarmos ainda mais dessa realidade, nosso próximo desafio é transformar o código que desenvolvemos até agora no nosso notebook em um script Python estruturado em funções.

Essa abordagem traz vantagens como: facilidade de teste, reutilização de código, manutenção mais simples e automação do pipeline. Sem contar que, em um ambiente de produção, geralmente são utilizados scripts ao invés de notebooks. Então, bora desenvolver e praticar essa habilidade?

**Orientações para o desafio**

**Preparando o ambiente:**

* crie uma subpasta chamada scripts na sua pasta de trabalho;
* na pasta scripts crie um arquivo chamado "extract_and_save_data.py".

**Desenvolvendo o código:**

Para desenvolver as funções a seguir, você pode utilizar os códigos já feitos no notebook, adaptando-os para que se tornem funções, sendo elas:

1 - connect_mongo(uri): estabelece a conexão com a instância do MongoDB usando a URI fornecida. Ela retorna o cliente do MongoDB que permite interagir com o banco de dados.

2 - create_connect_db(client, db_name): utiliza o(a) cliente do MongoDB para criar (se não existir) e conectar-se ao banco de dados especificado pelo parâmetro db_name. Ela retorna o objeto de banco de dados que pode ser usado para interagir com as coleções dentro dele.

3 - create_connect_collection(db, col_name): cria (se não existir) e conecta-se à coleção especificada pelo parâmetro col_name dentro do banco de dados fornecido. Ela retorna o objeto de coleção que pode ser usado para interagir com os documentos dentro dela.

4 - extract_api_data(url): extrai dados de uma API na URL fornecida e retorna os dados extraídos no formato JSON.

5 - insert_data(col, data): recebe uma coleção e os dados que serão inseridos nela. Ela deve adicionar todos os documentos à coleção e retornar a quantidade de documentos inseridos.

Com as funções prontas, o próximo desafio é executá-las, realizando os seguintes passos:

* criar um novo banco de dados;
* criar uma coleção;
* extrair os dados da API: https://labdados.com/produtos;
* inserir os dados da API na coleção criada.

Se precisar de ajuda, na seção "Opinião da pessoa instrutora" você pode encontrar uma das formas de resolver o desafio proposto acima.

**Código das funções**

Nós podemos começar importando todas as bibliotecas que precisamos utilizar e em seguida construir as funções. Os códigos de cada função são basicamente os códigos que desenvolvemos no nosso notebook até o momento, a diferença é que estão adaptados de acordo com os parâmetros que cada função deve receber. 


In [None]:
from pymongo.mongo_client import MongoClient
from pymongo.server_api import ServerApi
import requests

def connect_mongo(uri):
    # Criando um novo cliente e conectando ao servidor
    client = MongoClient(uri, server_api=ServerApi('1'))

    # Enviando um ping pra conferir se a conexão foi realizada
    try:
        client.admin.command('ping')
        print("Pinged your deployment. You successfully connected to MongoDB!")
    except Exception as e:
        print(e)

    return client

def create_connect_db(client, db_name):
    db = client[db_name]
    return db

def create_connect_collection(db, col_name):
    return db[col_name]

def extract_api_data(url):
    return requests.get(url).json()

def insert_data(col, data):
    result = col.insert_many(data)
    n_docs_inseridos = len(result.inserted_ids)
    return n_docs_inseridos 


Na função insert_data o trecho de código len(result.inserted_ids) retorna a quantidade de ids que foram inseridos na nossa base de dados, ou seja, a quantidade de documentos inseridos. Essa informação é importante para conseguirmos conferir se foram inseridos a quantidade de dados que esperávamos.
**Executando as funções**

Uma vez que as funções estão prontas, nós podemos executá-las para testar seu funcionamento. Para testá-las, vamos:

* criar um banco de dados chamado "db_produtos_desafio";
* criar uma coleção com o nome "produtos";
* extrair os dados da API e adicioná-los à nossa coleção.

O código a seguir foi desenvolvido no mesmo script de criação das funções:

In [None]:
if __name__ == "__main__":
    
    client = connect_mongo("mongodb+srv://pvreboucas:12345@cluster-pipeline.r7drw.mongodb.net/?retryWrites=true&w=majority&appName=Cluster-pipeline")
    db = create_connect_db(client, "db_produtos_desafio")
    col = create_connect_collection(db, "produtos")

    data = extract_api_data("https://labdados.com/produtos")
    print(f"\nQuantidade de dados extraidos: {len(data)}")

    n_docs = insert_data(col, data)
    print(f"\nDocumentos inseridos na colecao: {n_docs}")

    client.close()


Entendendo o if __name__ == "__main__":

O if __name__ == "__main__": é um código comum em Python e sua principal utilização é permitir ou impedir partes do código de serem executadas quando os módulos (scripts) são importados.

Quando um módulo Python é importado, o Python define uma variável especial __name__ para esse módulo. Para o módulo que está sendo executado diretamente, o __name__ será sempre __main__. No entanto, para os que são importados, a variável __name__ será o nome do módulo.

Assim, ao usar if __name__ == "__main__":, estamos essencialmente dizendo: "Execute este bloco de código apenas se este arquivo estiver sendo executado diretamente e não se ele estiver sendo importado por outro script."

Isso permite que a gente tenha partes do código (geralmente testes ou exemplos) que podem ser executadas quando o arquivo é executado diretamente, mas que não serão executadas quando o arquivo é importado como módulo. Isso pode ser útil em situações em que você deseja usar suas funções em outro script, porém não quer que o código de teste seja executado nesse momento.