In [1]:
from transformers import pipeline

In [2]:
sentiment = pipeline("sentiment-analysis", 
                     model="nlptown/bert-base-multilingual-uncased-sentiment")

In [4]:
texts = ["Das funktioniert überhaupt nicht.",
         "Ich bin absolut begeistert!",
         "Works like a charm.",
         "J'aime beaucoup.",
         "Der letzte Müll!"]
output = sentiment(texts)

In [5]:
import pandas as pd
df = pd.DataFrame(output)
df["text"] = texts
df

Unnamed: 0,label,score,text
0,1 star,0.905974,Das funktioniert überhaupt nicht.
1,5 stars,0.927584,Ich bin absolut begeistert!
2,5 stars,0.641361,Works like a charm.
3,5 stars,0.473482,J'aime beaucoup.
4,1 star,0.808242,Der letzte Müll!


In [1]:
from readability import Document
import requests
from bs4 import BeautifulSoup
doc = Document(requests.get("https://en.wikipedia.org/wiki/BERT_(language_model)", 
                            stream=True).text)
soup = BeautifulSoup(doc.summary())            
content = soup.text

In [2]:
from transformers import pipeline
summarizer = pipeline("summarization", model="sshleifer/distilbart-cnn-12-6")

Downloading:   0%|          | 0.00/1.80k [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/1.22G [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/26.0 [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/899k [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/456k [00:00<?, ?B/s]

In [3]:
output = summarizer(content[0:4000])
output

[{'summary_text': ' Bidirectional Encoder Representations from Transformers (BERT) is a family of language models introduced in 2018 by researchers at Google . BERT uses WordPiece to convert each English word into an integer code . Its vocabulary has size 30,000 . The high performance of the BERT could also be attributed to the fact that it is bidirectionally trained .'}]

In [11]:
sentences = """
Meine Lieblingssprache ist Python.
Ich programmiere gerne in Java.
Webseiten werden mit HTML gestaltet.
Für Data Science sind Jupyter Notebooks gut geeignet.
BPNM dient zur Modellierung von Geschäftsprozessen
""".split("\n")
sentences = [s for s in sentences if s != '']
sentences

['Meine Lieblingssprache ist Python.',
 'Ich programmiere gerne in Java.',
 'Webseiten werden mit HTML gestaltet.',
 'Für Data Science sind Jupyter Notebooks gut geeignet.',
 'BPNM dient zur Modellierung von Geschäftsprozessen']

In [15]:
from sentence_transformers import SentenceTransformer, util

model = SentenceTransformer('distiluse-base-multilingual-cased-v1')
embeddings = model.encode(sentences)

In [16]:
cos_sim = util.cos_sim(embeddings, embeddings)

df_sim = pd.DataFrame(cos_sim.numpy(), index=sentences, columns=sentences)
df_sim

Unnamed: 0,Meine Lieblingssprache ist Python.,Ich programmiere gerne in Java.,Webseiten werden mit HTML gestaltet.,Für Data Science sind Jupyter Notebooks gut geeignet.,BPNM dient zur Modellierung von Geschäftsprozessen
Meine Lieblingssprache ist Python.,1.0,0.452825,0.090428,0.14309,0.017947
Ich programmiere gerne in Java.,0.452825,1.0,0.212441,0.253948,0.027977
Webseiten werden mit HTML gestaltet.,0.090428,0.212441,1.0,0.055036,0.052099
Für Data Science sind Jupyter Notebooks gut geeignet.,0.14309,0.253948,0.055036,1.0,0.029335
BPNM dient zur Modellierung von Geschäftsprozessen,0.017947,0.027977,0.052099,0.029335,1.0
