EXTRACT

In [88]:
import requests
from bs4 import BeautifulSoup
from datetime import datetime
import pandas as pd

# Funcao para obter o documento HTML de uma URL
def get_doc(url):
    response = requests.get(url)
    if response.status_code != 200:
        raise Exception(f"Falha ao carregar a página {url}, status code {response.status_code}")
    return BeautifulSoup(response.text, 'html.parser')

# Funcao para obter os títulos das ofertas
def get_items_title(doc):
    title_tags = doc.find_all('p', class_='promotion-item__title')
    titles = [tag.text.strip() for tag in title_tags]
    return titles

# Funcao para obter os preços das ofertas
def get_items_low_prices(doc):
    price_tags = doc.find_all('div', class_='andes-money-amount-combo__main-container')
    prices = []

    for price_tag in price_tags:
        currency_symbol = price_tag.find('span', class_='andes-money-amount__currency-symbol').text.strip()
        fraction = price_tag.find('span', class_='andes-money-amount__fraction').text.strip()
        cents = price_tag.find('span', class_='andes-money-amount__cents')
        cents = cents.text.strip() if cents else '00'
        full_price = f'{currency_symbol}{fraction},{cents}'
        prices.append(full_price)
    return prices
  
# Funcao para raspar várias páginas e retornar um DataFrame
def scrape_multiple_pages(n):
    url_base = "https://www.mercadolivre.com.br/ofertas?container_id=MLB779362-1&page="
    titles, prices = [], []

    for page in range(1, n+1):
        url = f"{url_base}{page}"
        doc = get_doc(url)
        titles_page = get_items_title(doc)
        prices_page = get_items_low_prices(doc)
        titles.extend(titles_page)
        prices.extend(prices_page)
        
    items = {
        'TITLE': titles,
        'LOW_PRICE': prices,
    }

    return pd.DataFrame(items)

# Executar o scraper para o quantitivo de páginas que o usuário desejar
df_mercado_livre = scrape_multiple_pages(20)

# Adicionar coluna de data e hora atual
df_mercado_livre['SCREPY_DATE'] = datetime.now().strftime('%Y-%m-%d')

df_mercado_livre.head(60)

Unnamed: 0,TITLE,LOW_PRICE,SCREPY_DATE
0,Samsung Galaxy A15 4G Dual SIM 128 GB Azul esc...,"R$806,55",2024-07-28
1,"Samsung Smart TV 43"" UHD 4K 43du7700 2024 Cor ...","R$1.999,00",2024-07-28
2,Furadeira parafusadeira sem fio de 10mm Wap BP...,"R$159,90",2024-07-28
3,Cetaphil Loção Hidratante 473ml,"R$59,30",2024-07-28
4,"Notebook Samsung Chromebook Intel Dual-core, 4...","R$1.099,00",2024-07-28
5,Samsung Galaxy A15 128 GB Azul Escuro 4 GB RAM,"R$805,60",2024-07-28
6,Multifuncional L3250 Ecotank Cor Preto 110v/220v,"R$1.065,00",2024-07-28
7,Cobre Leito Queen 600 Fios Bela 100% Algodão 2...,"R$79,90",2024-07-28
8,Parafusadeira E Furadeira Impacto Wap K21 Id02...,"R$249,90",2024-07-28
9,Smart TV LG 32’’ LED HD 32LQ621 Bivolt Preta -...,"R$1.081,00",2024-07-28


TRANSFORM

In [None]:
# Remove simbolo de moeda, substitui vírgulas por pontos decimais e converte para float
df_mercado_livre['LOW_PRICE'] = (
    df_mercado_livre['LOW_PRICE']
    .str.replace('R$', '', regex=False) 
    .str.replace('.', '', regex=False) 
    .str.replace(',', '.', regex=False)  
    .astype(float)  
)

# Revemovendo espaços em branco da coluna de títulos
df_mercado_livre['TITLE'] = df_mercado_livre['TITLE'].str.strip().astype(str)

# Normalização de texto da coluna de títulos
df_mercado_livre['TITLE'] = df_mercado_livre['TITLE'].str.lower()

# Tirar duplicadas do dataframe (se houver)
df_mercado_livre = df_mercado_livre.drop_duplicates()


LOAD

In [90]:
# Biblioteca para acessar variavel de ambiente, banco de dados e inserir dados
import os
from psycopg2.extras import execute_values
import psycopg2

# Variaveis de conexao banco de dados
host = "aws-0-sa-east-1.pooler.supabase.com"
port = 6543
dbname = "postgres"
user = "postgres.azzxfrsxjkxbqbxezvct"
senha_supabase  = os.environ['PASS_SUPABASE']

# Conexao com o banco de dados em nuvem
connection = psycopg2.connect(
    host = host,
    port = port,
    dbname = dbname,
    user = user,
    password = senha_supabase
)

# Criacao de tabala para armazenamento
def criar_tabela():

    try:
        cursor = connection.cursor()
        cursor.execute("""
            CREATE TABLE OFERTAS_DO_DIA_ML (
                Id_oferta SERIAL PRIMARY KEY,
                Titulo_oferta VARCHAR (500),
                Preco_oferta FLOAT,
                Data_raspagem TIMESTAMP
                       );                    
""")
        connection.commit()
        
        print('Tabela criada com sucesso!')

    except Exception as e:
        print(f'Erro na criacao de tabela: {e}.')
        raise

def insercao_dados(dataframe):
    
    try:
        cursor = connection.cursor()
        data = dataframe.to_records(index=False).tolist()
        insert_query = """
            INSERT INTO OFERTAS_DO_DIA_ML (
            Titulo_oferta, Preco_oferta, Data_raspagem) VALUES %s
        """

        execute_values(cursor, insert_query,data)

        connection.commit()
        
        print('Insercao ocorrida com sucesso!')
        
    except Exception as e:
        print(f'Erro na insercao de dados: {e}.')
        connection.rollback()

    finally:
        cursor.close()
        connection.close()        

# Chamando a funcao para criacao da tabela
criar_tabela()

# Chamando funcao para insercao de dados na tabela
insercao_dados(df_mercado_livre)


Tabela criada com sucesso!
Insercao ocorrida com sucesso!
