In [96]:
import requests 
import json
import pandas as pd
import re
import spacy
import numpy as np
import scipy
from sklearn.cluster import KMeans
from spacy.lang.de.examples import sentences 
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.cluster import DBSCAN
import de_core_news_sm
from operator import itemgetter

In [10]:
pip install azure-ai-textanalytics==5.1.0

Note: you may need to restart the kernel to use updated packages.


In [1]:
from azure.ai.textanalytics import TextAnalyticsClient
from azure.core.credentials import AzureKeyCredential

In [2]:
key = "c09dde90c9f34da3b69065aabdb735c8"
endpoint = "https://berlinbobbi.cognitiveservices.azure.com/"

In [3]:
def authenticate_client(key, endpoint):
    ta_credential = AzureKeyCredential(key)
    text_analytics_client = TextAnalyticsClient(
            endpoint=endpoint, 
            credential=ta_credential)
    return text_analytics_client


In [4]:
client = authenticate_client()

In [17]:
nlp = spacy.load('de_core_news_lg')

In [5]:
def get_json_from_solr(query, max_elems):
    query = query.replace(' ', '%20')
    url = f"http://localhost:8983/solr/d115Services/select?indent=true&q.op=OR&q=*{query}*&rows={max_elems}"
    return requests.get(url).json()

In [6]:
def get_df_from_json(json_file):
    data = json_file["response"]["docs"]
    return pd.DataFrame.from_dict(data)

In [232]:
df_res["ssdsLemma"]

0     [anwohnerpark, fußgängerzone, anwohnerparkausw...
1     [angehörig, pflege, parkausweis, pflegen, gast...
2     [erteilung, handwerkerparkausweis, betreiben, ...
3     [perser, personalausweisverlust, ausweisverlus...
4     [mensch, rundfunk-, merkzeichen, eigenschaft, ...
5     [personalausweisverlust, reisedokument, ersatz...
6     [gehbehinderung, parkausweis, parkerlaubnis, a...
7     [perso, personalausweisangelegenheit, beantrag...
8     [ausweisantrag, eid, beantragung, ausstellen, ...
9     [online-ausweisfunktion, perso, eid, elektroni...
10    [perser, perso, ausweispflicht, elektronisch, ...
11    [ausland, ewr, berufsausweis, europäisch, kran...
12    [kfz-steuer, wertmark, merkzeichen, fahrmarke,...
13    [beschädigt, merkzeichen, handycap, stehlen, p...
14    [übertragen, pass, aufenthaltserlaubnis-schwei...
15    [ausstellung, deutsche, bestehen, -, nachweis,...
16    [wertmark, behinderung, wertmarke, ausstellung...
17    [wohnsitz, ersatzausweis, künstlername, fi

In [7]:
def clean_df(df):
    df = df[["id", "d115Url", "d115Name", "ssdsLemma", "d115Description"]]
    df.columns = ["id", "url", "name", "lemmas", "description"]
    df["to_cluster"] = df.apply(lambda row: re.sub("<[^<]+?>", " "," ".join(row.lemmas)).replace("\n", " "), axis=1)
    return df

In [8]:
def preprocess_text(text, nlp_model):
    doc = nlp_model(text)
    return " ".join([tok.lemma_ for tok in doc if not tok.is_stop and not tok.is_punct and not tok.is_space])

In [9]:
def get_clusters(df):
    vectorizer = TfidfVectorizer()
    clustering = DBSCAN(eps=1.38, min_samples=1)
    vectors = vectorizer.fit_transform(df_res["lemmas"].tolist())
    clusters = clustering.fit(vectors).labels_
    df["cluster"] = clusters
    return df

In [10]:
def get_kmeans_clust(df,k):
    kvectorizer = TfidfVectorizer()
    kvector = kvectorizer.fit_transform(df['lemmas'].tolist())
    Kmodel = KMeans(n_clusters=k,init='k-means++',max_iter=100,n_init=1)
    Kmodel.fit(kvector)
    df["Kcluster"] = Kmodel.labels_
    return df

In [11]:
def group_by_cluster(df):
    df_work = df[['lemmas','cluster']]
    df_work=df_work.groupby(['cluster'])['lemmas'].apply(lambda x: ' '.join(x)).reset_index()
    return df_work

In [12]:
def return_topics(df,n=1):
    vectorizer=TfidfVectorizer()
    rows = vectorizer.fit_transform(df['lemmas'].tolist()).toarray()
    features=vectorizer.get_feature_names()
    i=0
    topics=[]
    while i<len(rows):
        top_feats=[]
        topn_ids = np.argsort(rows[i])[::-1][:n]
        top_feats = [(features[j]) for j in topn_ids]
        topics.append(top_feats)
        i+=1
    df['Topics']=topics
    return df

In [13]:
def topics_to_service(df_res,df_clus):
    df_res["topic"]=df_res.apply(lambda row: df_clus.iloc[df_res.iloc[row.name,6],2], axis=1)
    return df_res

In [131]:
def categorize_text(df,):
    topic=[None]*len(df)
    i=0
    while i<len(df):    
        documents=[df['lemmas'].iloc[i]]
        result =client.recognize_entities(documents)[0]
        summary=[]
        for entity in result.entities:
            categorized=[entity.text,entity.category,round(entity.confidence_score,2),entity.offset]
            summary.append(categorized)
        topic[i]=(sorted(summary,key=itemgetter(2),reverse=False))
        i+=1
    df['categorized']=topic
    return df

In [132]:
json_file=get_json_from_solr('antrag', 1000)
df_res = get_df_from_json(json_file)
df_res = clean_df(df_res)
df_res["lemmas"] = df_res.apply(lambda row: preprocess_text(row.ssdsLemmas, nlp), axis=1)
df_res = get_clusters(df_res)
print(df_res)

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df["ssdsLemmas"] = df.apply(lambda row: re.sub("<[^<]+?>", " "," ".join(row.ssdsLemmas)).replace("\n", " "), axis=1)


        id                                               url  \
0   120656  https://service.berlin.de/dienstleistung/120656/   
1   120665  https://service.berlin.de/dienstleistung/120665/   
2   318993  https://service.berlin.de/dienstleistung/318993/   
3   324703  https://service.berlin.de/dienstleistung/324703/   
4   325685  https://service.berlin.de/dienstleistung/325685/   
5   326003  https://service.berlin.de/dienstleistung/326003/   
6   326235  https://service.berlin.de/dienstleistung/326235/   
7   326952  https://service.berlin.de/dienstleistung/326952/   
8   327098  https://service.berlin.de/dienstleistung/327098/   
9   327661  https://service.berlin.de/dienstleistung/327661/   
10  328020  https://service.berlin.de/dienstleistung/328020/   
11  328050  https://service.berlin.de/dienstleistung/328050/   
12  328469  https://service.berlin.de/dienstleistung/328469/   
13  329250  https://service.berlin.de/dienstleistung/329250/   
14  329295  https://service.berlin.de/di

In [133]:
df_top=group_by_cluster(df_res)
df_top=return_topics(df_top,3)
df_res=topics_to_service(df_res,df_top)
print(df_res)

        id                                               url  \
0   120656  https://service.berlin.de/dienstleistung/120656/   
1   120665  https://service.berlin.de/dienstleistung/120665/   
2   318993  https://service.berlin.de/dienstleistung/318993/   
3   324703  https://service.berlin.de/dienstleistung/324703/   
4   325685  https://service.berlin.de/dienstleistung/325685/   
5   326003  https://service.berlin.de/dienstleistung/326003/   
6   326235  https://service.berlin.de/dienstleistung/326235/   
7   326952  https://service.berlin.de/dienstleistung/326952/   
8   327098  https://service.berlin.de/dienstleistung/327098/   
9   327661  https://service.berlin.de/dienstleistung/327661/   
10  328020  https://service.berlin.de/dienstleistung/328020/   
11  328050  https://service.berlin.de/dienstleistung/328050/   
12  328469  https://service.berlin.de/dienstleistung/328469/   
13  329250  https://service.berlin.de/dienstleistung/329250/   
14  329295  https://service.berlin.de/di

In [137]:
df_top_cat["categorized"][7]

[['Weber', 'PersonType', 0.29, 2511],
 ['Handwerkskammer', 'Location', 0.3, 2747],
 ['Kraftfahrzeugtechniker', 'Product', 0.34, 151],
 ['Heizungsbauer', 'Product', 0.36, 567],
 ['Bürstenmacher', 'PersonType', 0.37, 948],
 ['Rammgewerbe', 'Product', 0.38, 1589],
 ['Bäcker', 'PersonType', 0.38, 1743],
 ['Speiseeishersteller', 'Product', 0.38, 2857],
 ['holzschindelmach', 'Product', 0.39, 2469],
 ['Galvaniseur', 'Product', 0.39, 2546],
 ['Klöppler', 'PersonType', 0.39, 2738],
 ['Bogenmacher', 'PersonType', 0.4, 279],
 ['Ausstattungsmaler', 'PersonType', 0.4, 449],
 ['Fuger', 'PersonType', 0.4, 2825],
 ['Metallbauer', 'PersonType', 0.41, 1108],
 ['Karosseriebauer', 'PersonType', 0.41, 2196],
 ['Steinbildhauer', 'Product', 0.42, 254],
 ['Baumaschinenmechatroniker', 'Product', 0.42, 1466],
 ['Kälteanlagenbauer', 'Product', 0.42, 2097],
 ['Datum', 'Product', 0.42, 2529],
 ['Kosmetiker', 'Product', 0.42, 2535],
 ['Handschuhmacher', 'PersonType', 0.42, 2573],
 ['Kuttler', 'PersonType', 0.43, 97

In [126]:
df_top_cat

Unnamed: 0,cluster,lemmas,Topics,categorized
0,0,Perso Personalausweisangelegenheit Beantragung...,"[ausweis, elektronisch, personalausweis]","[[Wohnung, Location, 0.57, 897], [Tourist, Per..."
1,1,wissenschaftlich Erwerbstätigkeit arbeitsaufna...,"[beschäftigung, arbeitsaufnahm, personal]","[[Personal, PersonType, 0.6, 62], [Mitarbeiter..."
2,2,suchen Kur Auskunftserteilung Krankenfürsorg v...,"[krankheit, beamte, informationserteilung]","[[Richter, PersonType, 0.59, 55], [beamte, Per..."


In [135]:
df_top_cat

Unnamed: 0,cluster,lemmas,Topics,categorized
0,0,Wohngeld mieten Mietzuschuss Wohnhilfe Lastenz...,"[antrag, rechtsanwaltschaft, rechtsanwaltsverz...","[[Wohnung, Location, 0.43, 91], [EU, Location,..."
1,1,liegenschaftskatasterauskunft Grundstücksberei...,"[grundstück, liegenschaftskataster, grundbuchb...",[]
2,2,elektronisch elektronsich einkommensteuertabel...,"[elsteronline, elektronisch, steuerbescheid]","[[Elster, Location, 0.7, 142], [Finanzamt, Loc..."
3,3,-- Rechtsanwaltszwang Ehescheidung Scheidung S...,"[scheidung, scheitern, versorgungsausgleich]","[[Ehescheidung, Event, 0.66, 22], [Scheidung, ..."
4,4,Vollstreckungsschutz Maßnahme Räumungsschutzan...,"[räumungsschutzantrag, räumungsschutz, zwangsv...",[]
5,5,Geschäftsbetrieb Firmeninsolvenz Unternehmensi...,"[überschuldung, firmenpleit, insolvenz]",[]
6,6,Erlaubnis Swingerclub Prostschg Bordell Prosti...,"[betreiben, straßensex, sexbus]","[[Orgie, Event, 0.4, 158], [Bordellbus, Produc..."
7,7,Modist Pinselmacher Holzblasinstrumentenmacher...,"[fleischer, handwerksähnlich, löschung]","[[Weber, PersonType, 0.29, 2511], [Handwerkska..."
8,8,vereidigen versteigerergewerbe notverkauf sach...,"[vereidigen, sachverständig, öffentlich]","[[Versteigerung, Skill, 0.54, 210], [versteige..."


In [134]:
df_top_cat=categorize_text(df_top)

Query von ALLEN führt zu cluster 0 für alle