# **Projeto de Web Scraping e Integração com E-commerce**

## **Objetivo do Projeto**

O principal objetivo deste projeto é automatizar o processo de **coleta de informações de produtos** de um site e **inserir esses dados em uma plataforma de e-commerce** como Shopify, WordPress (WooCommerce) ou Wix. A ideia é garantir que os produtos sejam constantemente atualizados e sincronizados no e-commerce de maneira eficiente e automatizada.

## **Tecnologias Utilizadas**

Neste projeto, utilizamos diversas tecnologias e ferramentas para garantir a execução eficiente do processo. As principais são:

- **Python**: Linguagem principal usada no projeto para desenvolvimento do web scraping e automação.
- **BeautifulSoup**: Biblioteca Python para **web scraping**, utilizada para extrair dados do HTML de páginas web.
- **Requests**: Utilizada para fazer as **requisições HTTP** e obter o conteúdo das páginas.
- **Regex (re)**: Usada para **manipulação de strings** e garantir a formatação correta dos dados, como remover múltiplos hífens.
- **APIs de E-commerce**: Integração com plataformas como **Shopify**, **WooCommerce** e **Wix**, através de suas respectivas APIs.

---

## **Fluxo do Projeto**

1. **Coleta de Dados**: Fazemos o scraping das páginas do site, extraindo informações essenciais como nome, preço e descrição do produto.
2. **Formatação dos Dados**: Os dados coletados são processados para garantir a correta padronização, como a remoção de espaços e múltiplos hífens.
3. **Inserção no E-commerce**: Usamos APIs específicas das plataformas de e-commerce para enviar os dados formatados e criar/atualizar produtos automaticamente.
4. **Automatização**: O processo é agendado para rodar periodicamente, garantindo que as informações dos produtos estejam sempre atualizadas.

---

## **Estrutura do Código**

O código está estruturado da seguinte maneira:

- **Web Scraping**: Scripts responsáveis por acessar as páginas de produtos e extrair as informações relevantes.
- **Formatação**: Funções que formatam e limpam os dados extraídos.
- **Integração com APIs**: Funções que conectam com as APIs das plataformas de e-commerce.
- **Automatização**: Scripts que agendam e automatizam o processo de scraping e envio de produtos.

---

## **Conclusão**

Este projeto é uma solução eficiente para **automatizar a gestão de produtos em plataformas de e-commerce**, utilizando **Python** e **web scraping** como base. A integração com APIs e o agendamento de tarefas garantem que o sistema esteja sempre atualizado, facilitando o trabalho e reduzindo erros manuais.



## **Código**

# Extração Alfatech

### 1.0 - Bibliotecas

In [1]:
# requisições para o html
import requests
from bs4 import BeautifulSoup
# manipulação do sistema
import os
# manipulação de Dados
import re
import pandas as pd
import datetime as dt

In [12]:
pd.read_parquet(r"todos_produtos (7).parquet")

### 2.0 - Extração

In [43]:
categorias = pd.read_pickle(r'../data/alfatech/files/categorys_alfatech.pickle')

In [44]:
# categorias de produtos dentro do Site da ALfatech

categorys = [
    'https://www.grupoalfatec.com.py/category/aro-led',
    'https://www.grupoalfatec.com.py/category/bastao-led',
    'https://www.grupoalfatec.com.py/category/flash',
    'https://www.grupoalfatec.com.py/category/kit-de-iluminacao',
    'https://www.grupoalfatec.com.py/category/lampada-suporte',
    
]

In [45]:
t = 'https://www.grupoalfatec.com.py/product/aro-led-rl-14'

In [83]:
soup.find_all('h1')[1].text.strip()

'Aro Led RL-14'

In [90]:
url_ = 'https://www.grupoalfatec.com.py/product/aro-led-yongnuo-yn508-s'

In [97]:
response = requests.get(t)
soup = BeautifulSoup(response.content, 'html.parser')

In [98]:
if soup.find_all('div', attrs={'class':'unavailable'}) != []:
    print('\n Indisponivel')
    inds = 'indisponivel'
    
else:
    print('\n Produto em Estoque')
    inds = 'Produto em Estoque' 


 Indisponivel


In [46]:
url = t
response = requests.get(url)
soup = BeautifulSoup(response.content, 'html.parser')

print('\n Encontrando os valores do produto')
# Extrair o título (h1)
title = soup.find_all('h1')[1].text.strip()


 Encontrando os valores do produto


In [47]:
soup.find_all('h1')[1].text.strip()

'Aro Led RL-14'

In [48]:
descricao = soup.find_all(
    'p'
)[0].text.strip()

In [128]:
url = 'https://www.grupoalfatec.com.py/product/mini-rebotador-plata-blanca-para-flash'
response = requests.get(url)
soup = BeautifulSoup(response.content, 'html.parser')
if soup.find_all('h1')[1].text.strip() == '¡Atención! No entregamos productos en Brasil.':
    print('\n Produto não encontrado')


 Produto não encontrado


In [137]:
def scrape_product(url, produto):
    response = requests.get(url)
    soup = BeautifulSoup(response.content, 'html.parser')

    print('\n Encontrando os valores do produto')
    # Extrair o título (h1)
    title = soup.find_all('h1')[1].text.strip()

    # Extrair o preço em diferentes moedas
    price_div = soup.find('div', class_='price')
    usd_price = price_div.contents[0].strip().replace('U$ ','')  # Preço em USD
    brl_price = price_div.find('span').text.strip().replace('R$ ','').replace('/','')  # Preço em BRL
    gs_price = price_div.find_all('span')[1].text.strip().replace('Gs ','')  # Preço em Gs
    descricao = soup.find_all('p')[0].text.strip() # Descricao do Produto

    # Retornar os dados extraídos como dicionário
    print({
        'Nome do Produto': title,
        'Descricao Do Produto': descricao,
        'Valor Em Dólar': usd_price,
        'Valor Em Real': brl_price,
        'Valor Em Peso': gs_price
    })
    data = pd.DataFrame({
        'nome_produto':[title],
        'valor_dolar':[usd_price],
        'descricao': [descricao],
        'valor_real':[brl_price],
        'valor_em_guaranis':[gs_price],
        'landing_date': [dt.date.today()]
    })
    dt_ = dt.date.today()
    #data.to_parquet(fr'../data/alfatech_{produto}_{dt_}.parquet')
    return data


In [66]:
scrape_product(t,'aro-led-rl-14')


 Encontrando os valores do produto
{'Nome do Produto': 'Aro Led RL-14', 'Descricao Do Produto': 'La luz del anillo es muy adecuada para maquillaje, selfie, fotografía, transmisión en vivo, conferencias, esteticista, YouTube, tatuador, blogger de video, peluquería/salón, Facebook en vivo, transmisión en vivo de Instagram, Snapchat, iluminación.', 'Valor Em Dólar': '17.00', 'Valor Em Real': '100,30 ', 'Valor Em Peso': '133.450'}


Unnamed: 0,nome_produto,valor_dolar,descricao,valor_real,valor_em_guaranis,landing_date
0,Aro Led RL-14,17.0,La luz del anillo es muy adecuada para maquill...,10030,133.45,2024-11-11


In [None]:
def find_all_categorys_products(category):
    ''' Find all categorys products from the Alfatec site'''
    # set the url_
    url_ = fr'{category}'
    response = requests.get(url_)
    soup = BeautifulSoup(response.content, 'html.parser')
    titles = soup.find_all('h1')
    processed_titles = [
        re.sub(r'-+', '-', title.text.strip().lower().replace(' ', '-').replace('/', '-'))  # minusculo e substituindo espaços por hifens
        for title in titles
            if title.text.strip().lower() != 'menu'  # removendo o 'menu'
    ]
    menus_ = ['páginas', 'categorías', 'categorias', 'hable-con-nosotros', 'sobre-nosotros', 'fale-conosco', 'marcas']
    # Filtrando os títulos
    processed_titles = [
        title for title in processed_titles if title not in menus_
    ]
    dfs = []

    for produto in processed_titles:
        print(produto)
        dfs.append(scrape_product(fr'https://www.grupoalfatec.com.py/product/{produto}',produto))


In [142]:
pd.read_parquet(r'part.parquet')

Unnamed: 0,nome_produto,valor_dolar,descricao,valor_real,valor_em_guaranis,estoque,landing_date,url
0,Kit Flash Studio Nicefoto KT-TB605 (400W/220V),0,Tem se concentrado na pesquisa e desenvolvimen...,0,0,Indisponível,2024-11-12,https://www.grupoalfatec.com.py/product/kit-fl...
1,Kit Led Nicefoto KT-503,0,Tem se concentrado na pesquisa e desenvolvimen...,0,0,Indisponível,2024-11-12,https://www.grupoalfatec.com.py/product/kit-le...
2,Kit Flash Studio Nicefoto KT-GE250,0,Tem se concentrado na pesquisa e desenvolvimen...,0,0,Indisponível,2024-11-12,https://www.grupoalfatec.com.py/product/kit-fl...
3,Kit Flash De Estudio Godox MS300-F (220V),0,,0,0,Indisponível,2024-11-12,https://www.grupoalfatec.com.py/product/kit-fl...
4,Kit Studio E-Reise ER-BSU01,0,Este Kit de Iluminación es perfecto para aquel...,0,0,Indisponível,2024-11-12,https://www.grupoalfatec.com.py/product/kit-st...


In [67]:
import awswrangler as awr

In [135]:
'''awr.s3.read_parquet(
    's3://behe-ecommerce/data/alfatech/parquet/todos_produtos_2024-11-11.parquet'
)'''
url = pd.read_parquet(
    'todos_produtos (2).parquet'
)

In [136]:
url

In [82]:
url['url'][0]

'https://www.grupoalfatec.com.py/product/tampas'

In [40]:
for category in categorias:
    print(f'https://www.grupoalfatec.com.py/{category}')
    find_all_categorys_products(f'https://www.grupoalfatec.com.py/{category}')

https://www.grupoalfatec.com.py/
¡atención!-no-entregamos-productos-en-brasil.

 Encontrando os valores do produto
{'Nome do Produto': '¡Atención! No entregamos productos en Brasil.', 'Valor Em Dólar': 'U$ 369.00', 'Valor Em Real': 'R$ 2.136,51 /', 'Valor Em Peso': 'Gs 2.933.550'}
novidades

 Encontrando os valores do produto
{'Nome do Produto': '¡Atención! No entregamos productos en Brasil.', 'Valor Em Dólar': 'U$ 369.00', 'Valor Em Real': 'R$ 2.136,51 /', 'Valor Em Peso': 'Gs 2.933.550'}
switch-live-streaming-yololiv-yolobox-pro

 Encontrando os valores do produto
{'Nome do Produto': 'Switch Live Streaming Yololiv Yolobox Pro', 'Valor Em Dólar': 'U$ 1225.00', 'Valor Em Real': 'R$ 7.092,75 /', 'Valor Em Peso': 'Gs 9.738.750'}
tilta-mirage-vnd-kite-box-mb-t16-a

 Encontrando os valores do produto
{'Nome do Produto': 'Tilta Mirage VND Kite Box MB-T16-A', 'Valor Em Dólar': 'U$ 369.00', 'Valor Em Real': 'R$ 2.136,51 /', 'Valor Em Peso': 'Gs 2.933.550'}
dron-dji-mini-4k

 Encontrando os va

KeyboardInterrupt: 

In [30]:
dfs = []
for category in categorys:
    print(category)
    dfs.append(find_all_categorys_products(category))

https://www.grupoalfatec.com.py/category/aro-led

 Encontrando os valores do produto
{'Nome do Produto': '¡Atención! No entregamos productos en Brasil.', 'Valor Em Dólar': 'U$ 1225.00', 'Valor Em Real': 'R$ 7.092,75 /', 'Valor Em Peso': 'Gs 9.738.750'}

 Encontrando os valores do produto
{'Nome do Produto': 'Mini Aro Led Yongnuo YN08', 'Valor Em Dólar': 'U$ 17.00', 'Valor Em Real': 'R$ 98,43 /', 'Valor Em Peso': 'Gs 135.150'}

 Encontrando os valores do produto
{'Nome do Produto': 'Aro Led Yongnuo YN308 Bicolor', 'Valor Em Dólar': 'U$ 90.00', 'Valor Em Real': 'R$ 521,10 /', 'Valor Em Peso': 'Gs 715.500'}

 Encontrando os valores do produto
{'Nome do Produto': 'Aro Led 16 / AFI R16', 'Valor Em Dólar': 'U$ 50.00', 'Valor Em Real': 'R$ 289,50 /', 'Valor Em Peso': 'Gs 397.500'}

 Encontrando os valores do produto
{'Nome do Produto': '¡Atención! No entregamos productos en Brasil.', 'Valor Em Dólar': 'U$ 369.00', 'Valor Em Real': 'R$ 2.136,51 /', 'Valor Em Peso': 'Gs 2.933.550'}

 Encontrand

KeyboardInterrupt: 

In [56]:
url_ = 'https://www.grupoalfatec.com.py/category/aro-led'
response = requests.get(url_)
soup = BeautifulSoup(response.content, 'html.parser')

In [57]:
titles = soup.find_all('h1')

In [58]:
scrape_product(t,'suporte-de-lampada-para-iluminacao-nicefoto-flh-01')


 Encontrando os valores do produto
{'Nome do Produto': 'Soporte de lámpara para iluminación Nicefoto FLH-01', 'Valor Em Dólar': 'U$ 18.00', 'Valor Em Real': 'R$ 104,22 /', 'Valor Em Peso': 'Gs 141.300'}


In [59]:
response = requests.get(t)
soup = BeautifulSoup(response.content, 'html.parser')

In [60]:
soup.find_all('img')

[<img class="img-fluid" src="/assets/img/logo.png"/>,
 <img class="img-fluid" src="/assets/img/logo.png"/>,
 <img class="lazyload img-fluid" data-original="https://cdn.grupoalfatec.com.py/upload/product/2864/bracket-nicefoto-flh-01-e27.jpeg" src="/assets/img/loading.gif"/>,
 <img class="lazyload img-fluid" data-original="https://cdn.grupoalfatec.com.py/upload/product/2864/2864-suporte-de-lampada-de-iluminacao-nicefoto-flh-01-e7de9.jpeg" src="/assets/img/loading-small.gif"/>,
 <img class="img-fluid lazyload" data-original="https://cdn.grupoalfatec.com.py/upload/brand/nicefoto.jpg" src="/assets/img/loading-small.gif"/>,
 <img class="lazyload img-fluid" data-original="https://cdn.grupoalfatec.com.py/upload/product/5409/m-lampara-led-e-reise-led-120w.jpg" src="/assets/img/loading.gif"/>,
 <img class="lazyload img-fluid" data-original="https://cdn.grupoalfatec.com.py/upload/product/3384/m-flash-e27-godox-a45s-1661174984.jpeg" src="/assets/img/loading.gif"/>,
 <img class="lazyload img-fluid"

In [29]:
# Função para salvar a imagem no caminho especificado
def salvar_imagem(url_imagem, nome_arquivo):
    response = requests.get(url_imagem)
    if response.status_code == 200:
        with open(nome_arquivo, 'wb') as f:
            f.write(response.content)
        print(f'Imagem salva em: {nome_arquivo}')
    else:
        print(f'Falha ao baixar a imagem: {url_imagem}')

In [62]:
# Função principal para buscar e salvar a primeira imagem correta
def baixar_primeira_imagem_produto(product_url):
    response = requests.get(product_url)
    soup = BeautifulSoup(response.content, 'html.parser')
    
    # Procurar a primeira tag <img> que contém o atributo 'data-original'
    primeira_imagem = soup.find('img', {'data-original': True})
    
    if primeira_imagem:
        # Extrair a URL da imagem do atributo 'data-original'
        image_url = primeira_imagem['data-original']
        hj = dt.date.today()
        # Criar o caminho do arquivo onde a imagem será salva
        nome_produto = product_url.split('/')[-1]
        nome_arquivo = os.path.join('..', '..', 'data', 'alfatech', 'imgs', f'{nome_produto}_{hj}.jpeg')
        
        # Salvar a imagem
        salvar_imagem(image_url, nome_arquivo)
        
    else:
        print("Nenhuma imagem encontrada.")

# URL do produto que está sendo analisado
url_produto = 'https://www.grupoalfatec.com.py/product/suporte-de-lampada-para-iluminacao-nicefoto-flh-01'

# Chamar a função para baixar e salvar a primeira imagem
baixar_primeira_imagem_produto(url_produto)


Imagem salva em: ..\data\alfatech\imgs\suporte-de-lampada-para-iluminacao-nicefoto-flh-01_2024-10-23.jpeg


### 3.0 - Transformação de Dados

In [63]:
from glob import glob

In [64]:
list_files = glob(r'../data/alfatech/parquet/*.parquet')

In [65]:
df = []
for file in list_files:
    df.append(pd.read_parquet(file))
    
df_ = pd.concat(df, ignore_index=True)

In [66]:
df_ = df_[df_['nome_produto'] != '¡Atención! No entregamos productos en Brasil.'].copy()

In [67]:
df_['valor_real'] = df_['valor_real'].str.replace(' /','')

In [68]:
df_['landing_date'] = dt.date.today()

In [69]:
df_.to_parquet('../data/todos_os_produtos_alfatech.parquet')

## Extracao Pro Digital

In [51]:
url = ('https://www.prodigital.com.py/')
response = requests.get(url)

In [52]:
soup = BeautifulSoup(
    response.content, 'html.parser'
)

In [53]:
categorias = soup.find_all(
    'a', class_='father'
)

In [54]:
url_to_extract = []
for link in categorias:
    href = link['href']
    href = href.strip('/')
    url_to_extract.append(f'{url}{href}')

In [87]:
import pickle

In [88]:
with open('../data/prodigital/files/category.pickle','wb') as file:
    pickle.dump(url_to_extract,file)

In [75]:
url_product = 'https://www.prodigital.com.py/categoria/estabilizadores-e-suportes'

In [76]:
response_1 = requests.get(url_product)

soup = BeautifulSoup(response_1.content, 'html.parser')


In [77]:
soup

<!DOCTYPE html>
<html lang="en"><head><meta charset="utf-8"/><meta content="notranslate" name="google"/><meta content="width=device-width,initial-scale=1,maximum-scale=1,user-scalable=0" name="viewport"/><meta content="ie=edge" http-equiv="X-UA-Compatible"/><title>  Estabilizadores e Suportes   | PRO Digital</title><meta content="" name="description"/><meta content="" name="keywords"/><link href="/assets/img/favicon.ico" rel="shortcut icon" type="image/x-icon"/><link href="https://fonts.googleapis.com/css?family=Open+Sans:400,700" rel="stylesheet"/><link href="/assets/css/main.min.css?v=dmmM5Nl8fyFyQtIfSJohurwIbJeQnAfw" rel="stylesheet"/></head><body><header class="d-none d-md-none d-lg-none d-xl-block"><div class="container"><div class="row"><div class="col-12"><a href="/"><img class="logo" src="/assets/img/logo.png"/></a><div class="search"><form action="/busca" id="search" method="post"><input autocomplete="off" class="term" name="term" placeholder="Escriba lo que está buscando" typ

In [78]:
products = soup.find_all('h1')

In [80]:
produtos_ = []
for produto in products:
    produtos_.append(produto.text.lower().lstrip(' ').rstrip(' ').replace(' ','-').replace('ã','a').replace(
        'marcas','').replace('hable-con-nosotros','').replace(
        'onde-estamos', '').replace('sobre-nosotros','').replace(
        'menu','').replace( 'páginas','').replace('categorías','')
        )

In [81]:
produtos_

['estabilizadores-e-suportes',
 'adaptador-ulanzi-st-29-p/tablet',
 'soporte-super-mag-plate-2-encaixes',
 'soporte-p/hombro-beike-shoulder',
 'soporte-p/filmadora-livshi-cx-azul',
 'soporte-p/cam.-lw-c01-plastico-cx/branca',
 'cabeça-para-tripé-girato-gimbal-head-beike',
 'soporte-anti-choque-p/microfone',
 'smallrig-4366-easy-loading-fast-clamp',
 'glidecam-iglide-orange-c/adapt-p/iphone',
 'glidecam-iglide-green-c/adapt.-p/iphone',
 'estabilizador-l7c-pro-3-axis-gimbal',
 'braço-articulado-shure-sh-broadcast-1',
 'estabilizador-zhiyun-weebill-3',
 'soporte-vidpro-tt-4-grip-stand',
 'cage-smallrig-4299-universal-celular',
 'estabilizador-zhiyun-smooth-5',
 'suporte-shock-mount-boya-by-c03',
 'estabilizador-zhiyun-smooth-5-combo',
 'haste-extensora-de-fibra-de-carbono-smallrig-870-15mm',
 'suporte-para-microfone-e-celular-fm-st01',
 'tripé-flexível-magnus-tb-200go-para-gopro',
 'tripé-flexível-joby-jb1494-com-bluetooth-para-celular',
 'suporte-puluz-3-way-pu202-para-gopro',
 'adaptado

In [None]:
def extract_product

In [82]:
pdr_url = 'https://www.prodigital.com.py/produto/grid-nanlite-ec-ptii6c-para-pavo-tube-6c'

In [83]:
response_2 = requests.get(pdr_url)

In [84]:
soup_1 = BeautifulSoup(response_2.content, 'html.parser')

In [None]:
<div class="price convert"><span class="currency convert-currency">U$</span> <span class="convert-price">18.00</span></div>

In [None]:
soup_1.find_all(
    'div', attrs={'class':'price convert'}
)

In [111]:
soup_1.find_all(
    'div')

[<div class="container"><div class="row"><div class="col-12"><a href="/"><img class="logo" src="/assets/img/logo.png"/></a><div class="search"><form action="/busca" id="search" method="post"><input autocomplete="off" class="term" name="term" placeholder="Escriba lo que está buscando" type="search"/> <button type="submit"><i class="zmdi zmdi-search"></i></button></form></div><div class="download"><a href="/download"><div class="icon"><i class="zmdi zmdi-cloud-outline"></i></div><div class="text"><small>Baixe nossa</small><p><strong>Lista de Preços</strong></p></div></a></div><div class="quotation"><div class="icon"><i class="zmdi zmdi-money"></i></div><div class="info">Cambio del día<br/><span>U$ x R$ 5.76</span></div></div><div class="language" data-action="/language"><ul><li class="" id="pt_BR">PT</li><li class="active" id="es_PY">ES</li><ul></ul></ul></div></div></div></div>,
 <div class="row"><div class="col-12"><a href="/"><img class="logo" src="/assets/img/logo.png"/></a><div clas

In [85]:
price = soup_1.find_all(
    'div', attrs={'class':'price convert'}
)

produto = soup_1.find_all('h1')[0]

url_imagem = soup_1.find_all('img')[1]

In [108]:
produto

<h1>Grid Nanlite EC-PTII6C Para Pavo Tube 6C</h1>

In [50]:
url_imagem_ = url_imagem['data-original']

In [53]:
hj = dt.date.today()

In [55]:
nome_arquivo = os.path.join('..', 'data', 'prodigital', 'imgs', f'{produto.text}_{hj}.jpg')

In [56]:
salvar_imagem(url_imagem=url_imagem_, nome_arquivo=nome_arquivo)

Imagem salva em: ..\data\prodigital\imgs\Grid Nanlite EC-PTII6C Para Pavo Tube 6C_2024-10-26.jpg


In [93]:
info = soup_1.find_all('div')

In [107]:
cambio = info[9].text.replace('Cambio del díaU$ x R$ ','')
brl_price = float(usd_price) * float(cambio)

In [90]:
for preco in price:
    usd_price = preco.text.replace('U$ ','')
    print(usd_price)

18.00


In [8]:
main_url = requests.get('https://www.grupoalfatec.com.py/')

In [9]:
sp = BeautifulSoup(main_url.content,'html.parser')

In [10]:
main_url_ = sp.find_all('a')

In [11]:
to_category = []
for url in main_url_:
    to_category.append(url['href'].lstrip('/'))

In [12]:
df_t = pd.DataFrame(to_category)

In [14]:
to_category

['',
 '',
 '#category-1',
 'category/adaptadores',
 'category/adaptadores',
 'category/filtros',
 'category/filtros',
 'category/follow-focus',
 'category/follow-focus',
 'category/kit-limpeza',
 'category/kit-limpeza',
 'category/matte-box',
 'category/matte-box',
 'category/parasoles',
 'category/parasoles',
 'category/suporte-de-lente',
 'category/suporte-de-lente',
 'category/tampas',
 'category/tampas',
 'category/lentes',
 '#category-2',
 'category/aro-led',
 'category/aro-led',
 'category/bastao-led',
 'category/bastao-led',
 '#category-3',
 'category/accesorios-para-flash-led',
 'category/flash',
 'category/kit-de-iluminacao',
 'category/kit-de-iluminacao',
 'category/lampada-suporte',
 'category/lampada-suporte',
 'category/leds',
 'category/leds',
 'category/projector',
 'category/projector',
 'category/radio-flash',
 'category/radio-flash',
 'category/suporte',
 'category/suporte',
 '#category-25',
 'category/bolsa-para-tripe',
 'category/rodas-pernas-para-tripe',
 'category

In [102]:
file_path = os.path.join(os.getcwd(),'..','data','alfatech','files')
cate = pd.read_pickle(fr'{file_path}/categorys_alfatech.pickle')

In [108]:
cate.replace("https://api.whatsapp.com/send?phone=595992765967&text= Hola, me comunico con usted directamente a través del sitio web https://www.grupoalfatec.com.py y quisiera ser atendido por el vendedor(a) Junior Cañete (Silvino).']",'')

0                                                       
3                                   category/adaptadores
5                                       category/filtros
7                                  category/follow-focus
9                                   category/kit-limpeza
                             ...                        
280                                     category/yongnuo
281                                      category/zgcine
282                                       category/zomei
283                                        category/zoom
345    https://api.whatsapp.com/send?phone=5959927659...
Name: 0, Length: 149, dtype: object

In [111]:
cate.to_excel(r'tratar_lista.xlsx',index=False)

In [16]:
df_t[0] = df_t[0].replace(
['sellers',
 'location',
 'https://www.grupoalfatec.com.py/search/zoom',
 'https://www.grupoalfatec.com.py/search/e10%20ii',
 '#',
 'https://www.grupoalfatec.com.py/product/flash-godox-ad200-pro',
 'https://www.grupoalfatec.com.py/product/camera-blackmagic-design-pocket-cinema-6k-pro-corpo-2-anos-de-garantia-em-brasil',
 'https://www.grupoalfatec.com.py/product/drone-dji-air-3s-fly-more-combo-dji-rc-2',
 'https://www.grupoalfatec.com.py/search/OSMO%20ACTION%205%20PRO',
 'https://www.grupoalfatec.com.py/search/dji%20neo',
 'https://www.grupoalfatec.com.py/search/zv-e10',
 'brand/baofeng', 'https://www.grupoalfatec.com.py/search/zoom',
 'https://www.grupoalfatec.com.py/search/e10%20ii',
 '#',
 'https://www.grupoalfatec.com.py/product/flash-godox-ad200-pro',
 'https://www.grupoalfatec.com.py/product/camera-blackmagic-design-pocket-cinema-6k-pro-corpo-2-anos-de-garantia-em-brasil',
 'https://www.grupoalfatec.com.py/product/drone-dji-air-3s-fly-more-combo-dji-rc-2',
 'https://www.grupoalfatec.com.py/search/OSMO%20ACTION%205%20PRO',
 'https://www.grupoalfatec.com.py/search/dji%20neo',
 'https://www.grupoalfatec.com.py/search/zv-e10',
 'brand/baofeng',
 'brand/sandisk',
 'brand/canon',
 'brand/kingston',
 'brand/kingjoy',
 'brand/jbl',
 'brand/boya',
 'brand/nikon',
 'brand/seagate',
 'brand/sony',
 'brand/zomei',
 'brand/tascam',
 'brand/dji',
 'brand/puluz',
 'brand/jvc',
 'brand/insta-360',
 'brand/incoflash',
 'brand/sokani',
 'brand/hp',
 'brand/phillips',
 'brand/zoom',
 'product/switch-live-streaming-yololiv-yolobox-pro',
 'product/drone-dji-mini-4k',
 'product/camera-de-acao-gopro-hero-13-black-chdhx-131-rw',
 'product/tilta-mirage-vnd-kite-box-mb-t16-a',
 'https://www.grupoalfatec.com.py/search/lark%20m2',
 'https://www.grupoalfatec.com.py/search/dji%20neo',
 'https://www.grupoalfatec.com.py/search/e10%20ii',
 'product/flash-de-estudio-godox-ms300v-220v',
 'product/mochila-beta-20l-kf13-119',
 'product/lente-tamron-28-200mm-f-2-8-5-6-di-iii-rxd-para-sony',
 'product/kit-de-limpeza-vsgo-vs-a3e-para-cameras',
 'product/controlador-yololiv-yolodeck',
 'product/lente-viltrox-af-16mm-f-1-8-z-nikon-z-fullframe',
 'product/ulanzi-ma35-magsafe-bluetooth-smartphone-grip',
 'product/mochila-beta-zip-22l-kf13-104v1',
 'product/bastao-led-beston-sla-024r-10w-rgb-30cm',
 'product/lente-sigma-35mm-f-1-4-dg-dn-hsm-art-p-sony',
 'product/filtro-de-lente-k-f-uv-67mm-serie-c-kf01-1426',
 'product/lente-tamron-28-75mm-f-2-8-di-iii-p-sony',
 'product/kit-de-limpeza-vsgovs-a2e-para-cameras',
 'product/estabilizador-zhiyun-crane-m3s-combo',
 'product/tilta-tiltaing-pocket-follow-focus-ff-t07',
 'product/adaptador-canon-ef-m-para-lentes-ef-ef-s',
  'https://telegram.me/alfatecpy',
    '#category-18',
    '#category-19',
    '#category-2',
'#category-21',
'#category-25',
'#category-3',
'#category-4',
'#category-40',    
'#category-5',
'brands',
 'cdn-cgi/l/email-protection',
'https://withyou.tech',
 'https://www.instagram.com/alfatecpy/?hl=es',
 'https://www.facebook.com/alfatecpy',
 'https://www.youtube.com/channel/UC074owzlVivZWtmo-JBzz7Q/featured',
 'https://telegram.me/alfatecpy',
 'cdn-cgi/l/email-protection',
 'https://withyou.tech',
 'javascript:void(0);',
 '#category-1',
 'https://api.whatsapp.com/send?phone=595994990686&text= Hola, me comunico con usted directamente a través del sitio web https://www.grupoalfatec.com.py y quisiera ser atendido por el vendedor(a) Carlos Franco.'
 ],''
)

In [21]:
df_t

Unnamed: 0,0
0,
3,category/adaptadores
5,category/filtros
7,category/follow-focus
9,category/kit-limpeza
...,...
280,category/yongnuo
281,category/zgcine
282,category/zomei
283,category/zoom


In [17]:
df_t = df_t.drop_duplicates()

In [22]:
df_t[0].to_pickle(r'categorys_alfatech.pickle')