### Automatização de Coleta de Dados em E-commerce com RPA em Python

No mundo digital, onde a competição é acirrada e a agilidade é fundamental, a coleta de dados em e-commerce é uma tarefa crucial para entender o mercado, monitorar concorrentes e manter-se atualizado sobre as tendências do setor. No entanto, realizar essa coleta manualmente pode consumir tempo precioso e recursos humanos, além de ser suscetível a erros.

<Center><h5><font>Fluxograma da Automatização da Coleta de Dados na Web </font></h5></center>

<center>



<img src="../img/Automatização_Coleta_Dados_Web.png" width="60%">
</center>


<font color="yellow">Requisitos</font>
***
Instalação das bibliotecas:
- Requests (pip install requests)
- Beautifulsoup4 (pip install beautifulsoup4)
- Python-dotenv (pip install python-dotenv)

#### Importação das Bibliotecas

In [133]:
import requests
from bs4 import BeautifulSoup
import csv
import random
import time
import smtplib
import os
import dotenv
dotenv.load_dotenv('../config/.env')

True

#### Acessando Página na Web

In [161]:
url = 'https://produto.mercadolivre.com.br/MLB-1819810336-automatizaco-de-processos-com-rpa-_JM#polycard_client=storefronts&type=item&tracking_id=883bb066-f7df-4b07-b9c7-17e223e14c88&source=eshops'
headers = {'User-Agent' : 'Chrome'}
pagina = requests.get(url, headers=headers)
soup = BeautifulSoup(pagina.content, 'html.parser')

#### Coletando Dados do Produto

In [135]:
# <h1 class="ui-pdp-title">Automatização De Processos Com Rpa</h1>
# <p class="title__element">Clientes sem luz da Enel conseguem indenização por comida estragada e perda de 'paz de espírito'<!----></p>

In [136]:
produto = soup.select_one('h1.ui-pdp-title').text

print(produto)


Automatização De Processos Com Rpa


In [137]:
preco = soup.select_one('span.andes-money-amount').text
print(preco)

R$131,04


#### Realizando Tratamento de dados
***
Em Python, os números de ponto flutuante (float) são representados usando um ponto como separador decimal, em vez de vírgula, que é comum em algumas regiões do mundo. Portanto, quando você está coletando informações de preço de uma fonte externa, como um site de e-commerce, é importante garantir que o formato dos números esteja em conformidade com o esperado pela linguagem.

In [138]:
preco = float(preco[2:].replace(',','.'))
print(preco)

131.04


In [139]:
type(preco)

float

#### Coletando Dados da Lista de Desejos
***


In [140]:
def ler_arquivo(nome_arquivo):
    lista_desejos = []

    with open(nome_arquivo, 'r') as file:
        arquivo = csv.reader(file, delimiter=';')
        next(arquivo)

        for linha in arquivo:
            if len(linha) == 2:
                item = {
                    'url': linha[0],
                    'preço_alvo': float(linha[1].replace(',', '.')),
                }
                lista_desejos.append(item)
    return lista_desejos     

In [141]:
arquivo = '../datasets/lista_de_desejos.txt'
lista_desejos = ler_arquivo(arquivo)


#### Visualizando Dados Coletados
***

In [142]:
lista_desejos[1]

{'url': 'https://www.mercadolivre.com.br/data-science-para-negocios/p/MLB22819951#polycard_client=storefronts&type=product&tracking_id=a1e2d65b-6361-40a1-8ab3-89357f43c6f2&source=eshops&wid=MLB3315351201&sid=storefronts ',
 'preço_alvo': 79.9}

#### Função Esperar e Executar - Comportamento Humano
***

In [143]:
def esperar_e_executar(segundos=None):
    if not segundos:
        segundos = random.randrange(2,8)
    print(f'Esperando time de {segundos} segundos')
    time.sleep(segundos)
        

#### Validação da Função Esperar e Executar


In [144]:
tempo = 5
esperar_e_executar(tempo)

Esperando time de 5 segundos


#### Gera Dados de Email
***

In [145]:
def gera_dados_email(produto, url, preco_atual):
    if len(produto) > 30:
        dsc_produto = produto[0:30] +'...'
    else:
        dsc_produto = produto
                
    assunto = f'Preço Caiu! Item: {dsc_produto}'
    corpo_email = f'''    
    Oportunidade de compra:
    Acesse agora! - {produto}
    Preço atual: {preco_atual}
    link: {url}
    '''
    
    return assunto, corpo_email
        

#### Validação da Função de Gerar Dados do Email 

In [146]:
produto = 'Curso de Coleta de Dados de Ciências de Dados com Machine Learning com Python e VScode'
url = 'www.leandrolessa.com.br'
preco_atual = '149.90'

assunto, corpo_email = gera_dados_email(produto, url, preco_atual)

In [147]:
assunto

'Preço Caiu! Item: Curso de Coleta de Dados de Ci...'

In [126]:
print(corpo_email)

    
    Oportunidade de compra:
    Acesse agora! - Curso de Coleta de Dados de Ciências de Dados com Machine Learning com Python e VScode
    Preço atual: 149.90
    link: www.leandrolessa.com.br
    


### Realiza Conexão com o Servidor de E-mail
***

In [148]:
def realizar_conexao():
    host = 'smtp.gmail.com'
    port = 587
    user = 'pegons.log@gmail.com'
    password = 'edjkmmokunrpxpgb'
    
    try:
        print('Iniciando conexão com o servidor de email...')
        server = smtplib.SMTP(host=host, port=port)
        server.starttls()
        server.login(user, password)
        print('Login realizado com sucesso')
        return server
        
    except Exception as e:
        print(f'Ocorreu um erro na conexão. Erro: {e}')
        return None


#### Validação da Conexão com o Servidor de E-mail

In [149]:
realizar_conexao()

Iniciando conexão com o servidor de email...
Login realizado com sucesso


<smtplib.SMTP at 0x19ff9558710>

#### Coleta de dados de Lista de Email

In [150]:
def coleta_lista(list_emails):
    with open(list_emails, 'r') as file:
        lista = [linha.strip() for linha in file]
        return lista

In [151]:
lista_emails = '../datasets/lista_emails.txt'
destinatarios = coleta_lista(lista_emails)
for destinatario in destinatarios:
    print(destinatario)

prof.leandrolessa@gmail.com
pegons.log@gmail.com


In [152]:
destinatario

'pegons.log@gmail.com'

#### Função de Envio de Email
***

In [153]:
def enviar_email(produto, url, preco_atual):
    
    #Realizar a conexão com o servidor de email    
    server = realizar_conexao()
    
    #Montar a estrutura do email
    assunto, corpo_email = gera_dados_email(produto, url, preco_atual)
    
    try:
        remetente = 'pegons.log@gmail.com'
        lista_destinatarios = coleta_lista(list_emails=lista_emails)
        
        msg = f'Subject: {assunto}\n\n {corpo_email}'
        server.sendmail(from_addr=remetente, to_addrs=lista_destinatarios, msg=msg.encode(encoding='latin1'))
        
        server.quit()
        print('Email enviado com sucesso')
        
        
    except Exception as e:
        print(f'Não foi possível enviar o e-mail. Erro: {e}')

In [154]:
produto = 'Curso de Coleta de Dados de Ciências de Dados com Machine Learning com Python e VScode'
url = 'www.leandrolessa.com.br'
preco_atual = '149.90'

enviar_email(produto, url, preco_atual)

Iniciando conexão com o servidor de email...
Login realizado com sucesso
Email enviado com sucesso


#### Coletando Dados da Lista de Desejos
***

In [159]:
def extrator_dados(lista_desejos):
    print('--' * 17 + 'Iniciando extração e dados' + '--' * 20)
    for produto in lista_desejos:
        
        url = produto['url']
        preço_alvo = produto['preço_alvo']
        headers = {'User-Agent' : 'Chrome'}
        pagina = requests.get(url=url, headers=headers)
        
        esperar_e_executar()
        
        soup = BeautifulSoup(pagina.content, 'html.parser')
        produto = soup.select_one('h1.ui-pdp-title').text        
        preco = soup.select_one('span.andes-money-amount').text
        preco_atual = float(preco[2:].replace(',', '.'))
        
        show = produto + '| Preço Atual ' + preco
        
        print(f'Coletando o produto: {show}')

        if preco_atual <= preço_alvo:
            print(f'Atenção: O produto está com o preço atual menos que o alvo')
            enviar_email(produto, url, preco_atual=preco_atual)
        else:
            print(f'O produto NÃO está no preço alvo')
            
            print('--' * 50 )
    

In [162]:
extrator_dados(lista_desejos)

----------------------------------Iniciando extração e dados----------------------------------------
Esperando time de 5 segundos
Coletando o produto: Automatização De Processos Com Rpa| Preço Atual R$131,04
O produto NÃO está no preço alvo
----------------------------------------------------------------------------------------------------
Esperando time de 6 segundos
Coletando o produto: Data Science Para Negócios - Editora Alta Books| Preço Atual R$85,50
O produto NÃO está no preço alvo
----------------------------------------------------------------------------------------------------
Esperando time de 7 segundos
Coletando o produto: Storytelling Com Dados - Editora Alta Books| Preço Atual R$60
Atenção: O produto está com o preço atual menos que o alvo
Iniciando conexão com o servidor de email...
Login realizado com sucesso
Email enviado com sucesso
Esperando time de 7 segundos
Coletando o produto: Livro Projetando Sistemas De Machine Learning: Processo Interativo Para Aplicações Pr