In [175]:
import pandas as pd
import emoji
import re
import numpy as np
import pickle
from snorkel.labeling import labeling_function
from snorkel.labeling import LFAnalysis
from snorkel.labeling import PandasLFApplier
from snorkel.labeling.model import LabelModel, MajorityLabelVoter

from snorkel.utils import probs_to_preds

In [126]:
df = pd.read_csv('topic_modelling/webscraper/scrape_data/facebook_scrape.csv', sep=',')
df['description'] = df['description'].str.replace('\s*\n\s*', ' ')
df.head()

  df['description'] = df['description'].str.replace('\s*\n\s*', ' ')


Unnamed: 0.1,Unnamed: 0,title,price,url,id,location,image_src,department,scraped_at,condition,description,time_posted
0,0,PRATELEIRA BRANCA RETA MDF DECORAÇÃO SALA QUAR...,R$10,https://www.facebook.com/marketplace/item/1499...,149964434341027,"São Paulo, SP",https://scontent.fcgh5-1.fna.fbcdn.net/v/t45.5...,furniture,2023-04-11 19:56,New,PRATELEIRA UNIDADE 30 × 10cm,"Listed in São Paulo, SP"
1,1,SOFAS DE CANTO A PARTIR 550,R$10,https://www.facebook.com/marketplace/item/1144...,1144208509585508,"São Paulo, SP",https://scontent.fcgh5-1.fna.fbcdn.net/v/t45.5...,furniture,2023-04-11 19:56,,",🤯SOFA DE CANTO 220X140 POR 550 🤯SOFA DE CANTO...","Listed in São Paulo, SP"
2,2,Sofás Retratil e Reclinavel Frete Gratis Em To...,R$10,https://www.facebook.com/marketplace/item/1541...,1541669532983192,"São Paulo, SP",https://scontent.fcgh5-1.fna.fbcdn.net/v/t45.5...,furniture,2023-04-11 19:56,New,💥LINDOS SOFÁS DIRETO DA FÁBRICA PARA SUA CASA ...,"Listed in São Paulo, SP"
3,6,"Display Acrílico Para Apoiar Livros, Cardápios...",R$12,https://www.facebook.com/marketplace/item/2760...,2760112397459738,"São Paulo, SP",https://scontent.fcgh5-1.fna.fbcdn.net/v/t45.5...,furniture,2023-04-11 19:56,Used - like new,Display de acrílico transparente para apoiar l...,"Listed in São Paulo, SP"
4,10,(SOMENTE RETIRADA) Puffs - Laranja e Roxo disp...,R$15,https://www.facebook.com/marketplace/item/1731...,173148078800253,"São Paulo, SP",https://scontent.fcgh5-1.fna.fbcdn.net/v/t45.5...,furniture,2023-04-11 19:56,Used - Good,"Puffs usados, laranja e roxo - unidades dispon...","Listed 6 weeks ago in São Paulo, SP"


In [45]:
# Define labels
TRUE_PRICE = 1
NOT_TRUE_PRICE = 0
ABSTAIN = -1

In [167]:
@labeling_function()
def lf_contains_emoji(x):
    # Return a label of NOT_TRUE_PRICE if text contains emoji - indicates a shop selling, otherwise TRUE_PRICE
    return NOT_TRUE_PRICE if len(emoji.emoji_list(x['description'])) > 0 else TRUE_PRICE
 
@labeling_function()
def lf_contains_link(x):
    # Return a label of NOT_TRUE_PRICE if "http" in text, otherwise TRUE_PRICE
    return NOT_TRUE_PRICE if "http" in x['description'].lower() else TRUE_PRICE
                                 
@labeling_function()
def lf_contains_shop_words(x):
    # Return a label of NOT_TRUE_PRICE if  using traditional shop wordings, otherwise TRUE_PRICE
    match = re.search('juros\w+|parcela\w+|boleto\s+|orçamento', x['description'].lower())
    return NOT_TRUE_PRICE if "http" is not None else TRUE_PRICE                                 
                                   
                                 

  return NOT_TRUE_PRICE if "http" is not None else TRUE_PRICE


In [168]:
def get_lf_outputs(df:pd.DataFrame) -> np.ndarray:
    lfs = [lf_contains_emoji, lf_contains_link, lf_contains_shop_words]
    applier = PandasLFApplier(lfs=lfs)
    L_train = applier.apply(df=df)
    return L_train

L_train = get_lf_outputs(df)

100%|█████████████████████████████████████| 1051/1051 [00:00<00:00, 9025.94it/s]


In [169]:
LFAnalysis(L=L_train, lfs=lfs).lf_summary()

Unnamed: 0,j,Polarity,Coverage,Overlaps,Conflicts
lf_contains_emoji,0,"[0, 1]",1.0,1.0,0.981922
lf_contains_link,1,"[0, 1]",1.0,1.0,0.981922
lf_contains_shop_words,2,[0],1.0,1.0,0.981922


In [174]:
label_model = LabelModel(cardinality=2, verbose=True)
label_model.fit(L_train=L_train, n_epochs=500, log_freq=100, seed=123)

INFO:root:Computing O...
INFO:root:Estimating \mu...
  0%|                                                | 0/500 [00:00<?, ?epoch/s]INFO:root:[0 epochs]: TRAIN:[loss=5.288]
INFO:root:[100 epochs]: TRAIN:[loss=0.001]
 23%|████████▍                           | 117/500 [00:00<00:00, 1164.70epoch/s]INFO:root:[200 epochs]: TRAIN:[loss=0.001]
 50%|█████████████████▊                  | 248/500 [00:00<00:00, 1246.35epoch/s]INFO:root:[300 epochs]: TRAIN:[loss=0.000]
 75%|██████████████████████████▊         | 373/500 [00:00<00:00, 1109.33epoch/s]INFO:root:[400 epochs]: TRAIN:[loss=0.000]
100%|████████████████████████████████████| 500/500 [00:00<00:00, 1191.93epoch/s]
INFO:root:Finished Training


In [154]:
df['label'] = label_model.predict(L_train)
df['label']

0       1
1       0
2       0
3       1
4       1
       ..
1046    1
1047    1
1048    1
1049    1
1050    1
Name: label, Length: 1051, dtype: int64

In [159]:
for ix, row in df.loc[df['label'] == 1].iterrows():
    print(row['title'])
    print(row['price'])
    print(row['description'])   
    print()

PRATELEIRA BRANCA RETA MDF DECORAÇÃO SALA QUARTO FOTOS UNIDADE 30 × 10
R$10
PRATELEIRA UNIDADE 30 × 10cm

Display Acrílico Para Apoiar Livros, Cardápios, Folhetos, DVD, CD, Tablet Etc
R$12
Display de acrílico transparente para apoiar livros, cardápios, folhetos, DVD, CD, Tablet Frete por sedex incluso no valor. Valor para pagamento no pix. Pagamento no crédito sujeito a taxas.

(SOMENTE RETIRADA) Puffs - Laranja e Roxo disponíveis
R$15
Puffs usados, laranja e roxo - unidades disponíveis apenas para retirada - bairro do Tatuapé.

Super Estrado 40x40x4,5cm Preto Super Estrado Pallet Palet
R$17
Super Estrado 40x40x4,5cm Preto Super Estrado Pallet Palet Medida 40x40x4,5 cm Cor preto Pisoplastic Estrados plasticos Medida 50x25x2,5 cm Super Estrado 40x40x4,5cm Preto Super Estrado Pallet Palet

Vende se uma casa no Villa calu próximo ao mercadão 
R$20
Send seller a message

Fogao Semi Novo
R$350
Fogão sem nenhuma avariação

Vende-se
R$300
Fogão ELECTROLUX dois fornos novo 

Lava e seca SANSUN

Jardim Vertical Artificial na promoção 1m²
Free
Jardim Vertical realista a preço de custo, solicite nosso catalogo com valores. Insta:@verdesjardinsoficial

Sofá de Couro
R$700
Vendo este sofá de couro. Ele está bem conservado, apenas com rasguinhos pequenos da mudança. Ele tem um baú interno e também vira sofá-cama, como dá pra ver nas fotos. O sofá é original anos 70, era da família e tá bem conservado, talvez precise de um estofado na parte central. Estou vendendo porque vou comprar outro. Profundidade: 70cm Largura: 200cm Altura: 75 Retirar na Barra Funda.

Pias lavatório esculpido em Porcelanato bancada nichos e passa pratos sobre medida cha [hidden information]
R$1
Novo

Lava e seca LG 10kg
R$980
Lava e seca LG 10kg 110v em ótimo estado, funcionando perfeitamente, silenciosa, lava edredom, função lavagem com água quente, tem vários modos de lavagem e secagem.

Forno De Embutir a gás
R$300
Send seller a message

Bar e restaurante
R$1
Bar e restaurante 

Frigobar Consul Top 05 com 

Pouco tempo de uso, gaveta ok, porta ok, pesinhos ok. 

Banco De Madeira Maciça Com Futon Altamente Confortavel
R$500
Banco de madeira maciça com Futón altamente confortável Altura 70cm Largura 80cm Comprimento 1m20cm.

Efeito cimento queimado
R$80
Se sua parede já estiver pronta para aplicação do efeito cimento queimado e tiver pelo menos 10 m2 O valor do m2 saí por APENAS 80,00 COM MATERIAL INCLUSO!!!! Dividimos em até 4x no cartão

Sofá barato madeira pura
R$250
Sofá barato vem nele madeira pura tô vendendo por conta da reforma da casa preço de banana vem nele sou do Grajaú [hidden information] whatsapp

Lavar e seca
R$950
Em perfeito estado . Sem defeitos

Mini Geladeira Portátil 24 L Black + Decker 12v
R$520
Mini Geladeira Portatil Com Carregador Veicular 24L-12V Black Decker A Mini geladeira Black & Decker é uma ótima opção para utilizar em suas viagens e também no dia-dia. Além da capacidade de resfriamento, o produto conta com a função de aquecimento para garantir que seus alim

In [160]:
for ix, row in df.loc[df['label'] == 0].iterrows():
    print(row['title'])
    print(row['price'])
    print(row['description'])   
    print()

SOFAS DE CANTO A PARTIR 550
R$10
,🤯SOFA DE CANTO 220X140 POR 550 🤯SOFA DE CANTO 220X 3.60X 220 POR 1400 🤯PAGAMENTO NA ENTREGA 🤯ENTREGA RÁPIDA

Sofás Retratil e Reclinavel Frete Gratis Em Toda Sao Paulo!!
R$10
💥LINDOS SOFÁS DIRETO DA FÁBRICA PARA SUA CASA 💥FRETE GRÁTISS💥 🚚PRONTA ENTREGA ➡️FAÇA SEU PEDIDO VIA WHATS APP E PAGUE SOMENTE NO ATO DA ENTREGA. ⚠️FRETE GRÁTIS GRANDE SP

MOVEIS EM PROMOÇÃO DIRETO DA FABRICA PRATELEIRA COM PAGAMENTO NA ENTREGA ESTANTE A PRONTA ENTREGA
R$16
🖥 jmmoveis.meloja.com.br WhatsApp [hidden information] 💵PAGAMENTO SÓ NA ENTREGA 💳 PARCELE EM ATE 05x SEM JUROS OU ATE 12x COM JUROS 🚚 CONSULTE O VALOR DO FRETE ✅MELHOR PREÇO ✅DIRETO DA FÁBRICA ✅ENTREGA FACILITADA ✅CUSTO BENEFICIO

ESTANTE PRATELEIRA DE FABRICA A PRONTA ENTREGA EM PROMOÇÃO
R$19
Acesse catalogo: jmmoveis.meloja.com.br WhatsApp [hidden information] 💵PAGAMENTO SÓ NA ENTREGA 💳 PARCELE EM ATE 05x SEM JUROS OU ATE 12x COM JUROS 🚚 CONSULTE O VALOR DO FRETE ✅MELHOR PREÇO ✅DIRETO DA FÁBRICA ✅ENTREGA FACIL

In [176]:
%ls

[1m[36mCoursera NLP Specialization[m[m/
Ideas.ipynb
Snorkel - Labelling Facebook Markeplace Data.ipynb
[1m[36mnatural-language-processing[m[m/
[1m[36mtopic_modelling[m[m/


In [None]:
with open('') label_model