<a href="https://colab.research.google.com/github/OrleiSan/AWS_Arquitetura_Conteineres_Docker/blob/main/Pipeline.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
'''
Crie um processo de ETL completo (Pipeline)
que cumpra as seguintes tarefas em um unico ipynb:

1 - Usando a API pública do mercado livre traga todos os resultados de
uma consulta sobre um termo especifico para o ambiente python

2 - Armazene os resultados dessa busca em um df pandas

3 - faça as transformações que julgar necessárias no DataFrame
Ex: mudar nomes de colunas, mudar tipos de dados, remover dados nulos,
criar novas colunas e etc...

4 - Salve os arquivos em formato CSV.

5 - envie os arquivos CSV para um bucket chamado Mercado Livre no GCP

6 - Converta os arquivos CSV em coleções e os envie para o Atlas/MongoDB

7 - Crie um DataBase SQL em sua instancia chamado mercado e abasteça esse DB
com o dados dos arquivos CSV

8 - Crie uma conexão entre o Cloud SQL e a bigquery para enviar os dados
do banco mercado para um conjunto de dados chamado mercado_livre na Big Query.

9 - Envie os arquivos CSV do colab para outro conjunto de dados da Big Query
chamado mercado2.

10 - Concerte os arquivos do Dataset mercado com um relatório no looker studio.
'''

In [17]:
import requests
import pandas as pd
import json

# 1 - Usando a API pública do mercado livre traga todos os resultados de uma consulta sobre um termo especifico para o ambiente python

In [None]:
termo_de_busca = input("Digite o termo da busca: ")
url = f"https://api.mercadolibre.com/sites/MLB/search?q={termo_de_busca}"
response = requests.get(url)
if response.status_code == 200:
    dados = response.json()
    produtos = []
    for item in dados.get('results', []):
        produto = {
            "Título": item.get('title'),
            "Preço (R$)": item.get('price'),
            "Link": item.get('permalink'),
            "Condição": item.get('condition'),
            "Categoria": item.get('category_id')
        }
        produtos.append(produto)
        df = pd.DataFrame(produtos) # Armazenando o resultado de busca num df pandas
    display(df)
    df.to_csv(f'{termo_de_busca}_arquivo.csv', index=False)  # Salvar o DataFrame em um arquivo CSV
    print(f"Dados salvos em {termo_de_busca}_arquivo.csv")
else:
    print(f'Erro na requisição: {response.status_code}')

## 2 - Armazene os resultados dessa busca em um df pandas

In [19]:
df.head()

Unnamed: 0,Título,Preço (R$),Link,Condição,Categoria
0,Violão Clássico Queen's Conthey D13751 Para De...,257.99,https://www.mercadolivre.com.br/violo-classico...,new,MLB3016
1,Violão Clássico Queen's Acústico Conthey D1375...,267.99,https://www.mercadolivre.com.br/violo-classico...,new,MLB3016
2,Violão Acústico Seven Sv-17 Para Destros Dark ...,299.0,https://www.mercadolivre.com.br/violo-acustico...,new,MLB3016
3,Violão Eletroacústico Giannini Performance Plu...,762.0,https://www.mercadolivre.com.br/violo-eletroac...,new,MLB3016
4,Violão Clássico Waldman Class One Cl-1 Para De...,288.0,https://www.mercadolivre.com.br/violo-classico...,new,MLB3016


# 3 - faça as transformações que julgar necessárias no DataFrame Ex: mudar nomes de colunas, mudar tipos de dados, remover dados nulos, criar novas colunas e etc...

In [20]:
# 3 - mudando a descrição do produto em condição
df['Condição'] = df['Condição'].replace('new', 'novo')
df['Condição'] = df['Condição'].replace('used', 'usado')
df['Condição'] = df['Condição'].replace('not_specified', 'não especificado')

In [21]:
df.head()

Unnamed: 0,Título,Preço (R$),Link,Condição,Categoria
0,Violão Clássico Queen's Conthey D13751 Para De...,257.99,https://www.mercadolivre.com.br/violo-classico...,novo,MLB3016
1,Violão Clássico Queen's Acústico Conthey D1375...,267.99,https://www.mercadolivre.com.br/violo-classico...,novo,MLB3016
2,Violão Acústico Seven Sv-17 Para Destros Dark ...,299.0,https://www.mercadolivre.com.br/violo-acustico...,novo,MLB3016
3,Violão Eletroacústico Giannini Performance Plu...,762.0,https://www.mercadolivre.com.br/violo-eletroac...,novo,MLB3016
4,Violão Clássico Waldman Class One Cl-1 Para De...,288.0,https://www.mercadolivre.com.br/violo-classico...,novo,MLB3016


In [22]:
# 3 - renomeando as colunas para nomes amigaveis e retirando espaços
df_ml = df.rename(columns={
    'Título': 'titulo',
    'Preço (R$)': 'preco',
    'Link': 'link',
    'Condição': 'condicao',
    'Categoria': 'categoria'},inplace=True)
display(df_ml)

None

In [23]:
df.head()

Unnamed: 0,titulo,preco,link,condicao,categoria
0,Violão Clássico Queen's Conthey D13751 Para De...,257.99,https://www.mercadolivre.com.br/violo-classico...,novo,MLB3016
1,Violão Clássico Queen's Acústico Conthey D1375...,267.99,https://www.mercadolivre.com.br/violo-classico...,novo,MLB3016
2,Violão Acústico Seven Sv-17 Para Destros Dark ...,299.0,https://www.mercadolivre.com.br/violo-acustico...,novo,MLB3016
3,Violão Eletroacústico Giannini Performance Plu...,762.0,https://www.mercadolivre.com.br/violo-eletroac...,novo,MLB3016
4,Violão Clássico Waldman Class One Cl-1 Para De...,288.0,https://www.mercadolivre.com.br/violo-classico...,novo,MLB3016


# 4 - Salve os arquivos em formato CSV.

In [24]:
from google.colab import auth
auth.authenticate_user()
project_id = 'grupo-projeto-440013'
!gcloud config set project {project_id}
from google.cloud import storage
client = storage.Client()
bucket_name = 'm_livre'
bucket = client.bucket(bucket_name)
df.to_csv('violão_arquivo.csv',index=False)
destination_blob_name =  'm_livre/violão_arquivo.csv'
source_file_name = 'violão_arquivo.csv'
blob = bucket.blob(destination_blob_name)
blob.upload_from_filename(source_file_name)

Are you sure you wish to set property [core/project] to kleitongds?

Do you want to continue (Y/n)?  

Command killed by keyboard interrupt

^C


# Pymongo 6 - Converta os arquivos CSV em coleções e os envie para o Atlas/MongoDB

In [None]:
!pip install pymongo

Collecting pymongo
  Downloading pymongo-4.10.1-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (22 kB)
Collecting dnspython<3.0.0,>=1.16.0 (from pymongo)
  Downloading dnspython-2.7.0-py3-none-any.whl.metadata (5.8 kB)
Downloading pymongo-4.10.1-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (1.4 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m1.4/1.4 MB[0m [31m14.5 MB/s[0m eta [36m0:00:00[0m
[?25hDownloading dnspython-2.7.0-py3-none-any.whl (313 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m313.6/313.6 kB[0m [31m22.7 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: dnspython, pymongo
Successfully installed dnspython-2.7.0 pymongo-4.10.1


In [None]:
!curl ipecho.net/plain

34.80.220.148

In [None]:
from pymongo import MongoClient
client = MongoClient('mongodb+srv://orlei:8imWRUl0yDVf1MFR@orlei.zfopg.mongodb.net/?retryWrites=true&w=majority&appName=Orlei')
db = client['mercado_livre']

In [None]:
ml = df
ml = ml.to_dict(orient='records')
db.versa13_arquivo.csv.csv.insert_many(ml)

InsertManyResult([ObjectId('675c7e486dbf98928029fe7b'), ObjectId('675c7e486dbf98928029fe7c'), ObjectId('675c7e486dbf98928029fe7d'), ObjectId('675c7e486dbf98928029fe7e'), ObjectId('675c7e486dbf98928029fe7f'), ObjectId('675c7e486dbf98928029fe80'), ObjectId('675c7e486dbf98928029fe81'), ObjectId('675c7e486dbf98928029fe82'), ObjectId('675c7e486dbf98928029fe83'), ObjectId('675c7e486dbf98928029fe84'), ObjectId('675c7e486dbf98928029fe85'), ObjectId('675c7e486dbf98928029fe86'), ObjectId('675c7e486dbf98928029fe87'), ObjectId('675c7e486dbf98928029fe88'), ObjectId('675c7e486dbf98928029fe89'), ObjectId('675c7e486dbf98928029fe8a'), ObjectId('675c7e486dbf98928029fe8b'), ObjectId('675c7e486dbf98928029fe8c'), ObjectId('675c7e486dbf98928029fe8d'), ObjectId('675c7e486dbf98928029fe8e'), ObjectId('675c7e486dbf98928029fe8f'), ObjectId('675c7e486dbf98928029fe90'), ObjectId('675c7e486dbf98928029fe91'), ObjectId('675c7e486dbf98928029fe92'), ObjectId('675c7e486dbf98928029fe93'), ObjectId('675c7e486dbf98928029fe

In [None]:
mercado_livre = db['ml']

In [None]:
print(client.list_database_names())

# 9 - Envie os arquivos CSV do colab para outro conjunto de dados da Big Query chamado mercado2.

In [27]:
df.head()

Unnamed: 0,titulo,preco,link,condicao,categoria
0,Violão Clássico Queen's Conthey D13751 Para De...,257.99,https://www.mercadolivre.com.br/violo-classico...,novo,MLB3016
1,Violão Clássico Queen's Acústico Conthey D1375...,267.99,https://www.mercadolivre.com.br/violo-classico...,novo,MLB3016
2,Violão Acústico Seven Sv-17 Para Destros Dark ...,299.0,https://www.mercadolivre.com.br/violo-acustico...,novo,MLB3016
3,Violão Eletroacústico Giannini Performance Plu...,762.0,https://www.mercadolivre.com.br/violo-eletroac...,novo,MLB3016
4,Violão Clássico Waldman Class One Cl-1 Para De...,288.0,https://www.mercadolivre.com.br/violo-classico...,novo,MLB3016


In [28]:
df = pd.read_csv('violão_arquivo.csv')
display(df)

Unnamed: 0,titulo,preco,link,condicao,categoria
0,Violão Clássico Queen's Conthey D13751 Para De...,257.99,https://www.mercadolivre.com.br/violo-classico...,novo,MLB3016
1,Violão Clássico Queen's Acústico Conthey D1375...,267.99,https://www.mercadolivre.com.br/violo-classico...,novo,MLB3016
2,Violão Acústico Seven Sv-17 Para Destros Dark ...,299.0,https://www.mercadolivre.com.br/violo-acustico...,novo,MLB3016
3,Violão Eletroacústico Giannini Performance Plu...,762.0,https://www.mercadolivre.com.br/violo-eletroac...,novo,MLB3016
4,Violão Clássico Waldman Class One Cl-1 Para De...,288.0,https://www.mercadolivre.com.br/violo-classico...,novo,MLB3016
5,Violão Acústico Konig Para Destro Classic Vern...,199.92,https://produto.mercadolivre.com.br/MLB-509756...,novo,MLB3016
6,Violão Eletroacústica Takamine Gd11mce Para De...,2332.0,https://www.mercadolivre.com.br/violo-eletroac...,novo,MLB3016
7,Violão Clássico Giannini Estudo Gs-15 Para Des...,390.63,https://www.mercadolivre.com.br/violo-classico...,novo,MLB3016
8,Violão Eletroacústica Giannini Start Sf-14 Ceq...,469.0,https://www.mercadolivre.com.br/violo-eletroac...,novo,MLB3016
9,Violão Clássico Michael Go Play Vm15ny Cor Nat...,396.0,https://www.mercadolivre.com.br/violo-classico...,novo,MLB3016


In [31]:
from google.colab import files
from google.cloud import bigquery
from google.colab import auth


# Autenticar no Google Cloud
auth.authenticate_user()

# Criar o cliente do BigQuery
client = bigquery.Client()

# Definir o ID do projeto e o ID da tabela
project_id = 'grupo-projeto-440013'
table_id = 'grupo-projeto-440013.mercado2.violao'

# Enviar o DataFrame para o BigQuery
df.to_gbq(table_id, project_id=project_id, if_exists='replace')

  df.to_gbq(table_id, project_id=project_id, if_exists='replace')
100%|██████████| 1/1 [00:00<00:00, 6626.07it/s]


# 10 - Concerte os arquivos do Dataset mercado com um relatório no looker studio.