In [17]:
import requests 
import json
import pandas as pd
import re
import spacy
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.cluster import DBSCAN

In [2]:
nlp = spacy.load('de_core_news_lg')

In [3]:
def get_json_from_solr(query, max_elems):
    query = query.replace(' ', '%20')
    url = f"http://localhost:8983/solr/d115Services/select?indent=true&q.op=OR&q=*{query}*&rows={max_elems}"
    return requests.get(url).json()

In [4]:
def get_df_from_json(json_file):
    data = json_file["response"]["docs"]
    return pd.DataFrame.from_dict(data)

In [35]:
def clean_df(df):
    df = df[["id", "d115Url", "d115Name", "ssdsAll", "d115Description"]]
    df.columns = ["id", "url", "name", "lemmas", "description"]
    df["description"] = df.apply(lambda row: re.sub("<[^<]+?>", " ",row.description).replace("\n", " "), axis=1)
    return df

In [36]:
def preprocess_text(text, nlp_model):
    doc = nlp_model(text)
    return " ".join([tok.lemma_ for tok in doc if not tok.is_stop and not tok.is_punct and not tok.is_space])

In [60]:
def get_clusters(df):
    vectorizer = TfidfVectorizer()
    clustering = DBSCAN(eps=1.38, min_samples=1)
    vectors = vectorizer.fit_transform(df_res["description_preprocessed"].tolist())
    clusters = clustering.fit(vectors).labels_
    df["cluster"] = clusters
    return df

In [38]:
json_file = get_json_from_solr("ausweis", 20)

In [39]:
df_res = get_df_from_json(json_file)
df_res = clean_df(df_res)
df_res["description_preprocessed"] = df_res.apply(lambda row: preprocess_text(row.description, nlp), axis=1)
df_res = get_clusters(df_res)

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df["description"] = df.apply(lambda row: re.sub("<[^<]+?>", " ",row.description).replace("\n", " "), axis=1)


In [40]:
df_res

Unnamed: 0,id,url,name,lemmas,description,description_preprocessed,cluster
0,120682,https://service.berlin.de/dienstleistung/120682/,Personalausweis vorläufig beantragen,"[Personalausweis vorläufig beantragen, Ihr Per...",Ihr Personalausweis ist bereits abgelaufen ode...,Personalausweis ablaufen Verlust geraten vorlä...,0
1,120703,https://service.berlin.de/dienstleistung/120703/,Personalausweis beantragen,"[Personalausweis beantragen, Mit einem Persona...",Mit einem Personalausweis können Sie sich ausw...,Personalausweis ausweisen brauchen Personalaus...,1
2,120726,https://service.berlin.de/dienstleistung/120726/,Verlust des Personalausweises melden (Verlusta...,[Verlust des Personalausweises melden (Verlust...,Wenn Ihr Personalausweis weg ist – zum Beispie...,Personalausweis weg verlieren stehlen informie...,2
3,121721,https://service.berlin.de/dienstleistung/121721/,"Parkausweis für Anwohner beantragen, umschreib...","[Parkausweis für Anwohner beantragen, umschrei...",In Berlin werden Parkzonen bewirtschaftet. Par...,Berlin Parkzone bewirtschaften Parkraumbewirts...,3
4,121737,https://service.berlin.de/dienstleistung/121737/,Schwerbehindertenausweis,"[Schwerbehindertenausweis, Mit einem Schwerbeh...",Mit einem Schwerbehindertenausweis können Sie ...,Schwerbehindertenausweis Vorteil nutzen besond...,4
5,306684,https://service.berlin.de/dienstleistung/306684/,"Personalausweis, vorläufig, für Berliner Einwo...","[Personalausweis, vorläufig, für Berliner Einw...","Wenn Sie sich in Berlin aufhalten, aber kei...",Berlin aufhalten fest Wohnung wohnungslose vor...,5
6,324325,https://service.berlin.de/dienstleistung/324325/,Personalausweis abholen,"[Personalausweis abholen, Wenn Ihr neuer Perso...","Wenn Ihr neuer Personalausweis fertig ist, kön...",neu Personalausweis fertig ca. 4 Woche abholen...,6
7,325339,https://service.berlin.de/dienstleistung/325339/,Schwerbehinderung - Ausstellung des Beiblatts ...,[Schwerbehinderung - Ausstellung des Beiblatts...,Wenn Ihr Beiblatt mit oder ohne Wertmarke abha...,Beiblatt Wertmarke abhanden kommen beschädigen...,7
8,325471,https://service.berlin.de/dienstleistung/325471/,Reiseausweis - Neuausstellung,"[Reiseausweis - Neuausstellung, Durch eine Aus...",Durch eine Ausländerbehörde ausgestellte Reise...,Ausländerbehörde ausgestellt Reiseausweis insb...,8
9,326439,https://service.berlin.de/dienstleistung/326439/,Parkausweis für Schwerbehinderte Ausstellung,"[Parkausweis für Schwerbehinderte Ausstellung,...",Es können Parkerleichterungen für schwerbehind...,Parkerleichterunge schwerbehindert Mensch auße...,9
