In [None]:
import pandas as pd
from hashlib import md5

# 1. Excel-Datei laden
df = pd.read_excel("../../data/df_de_final.xlsx")

# 2. Neue Spalte 'Duplikat': prüft, ob Frage_Text mehrfach vorkommt
df["Duplikat"] = df.duplicated("Frage_Text", keep=False)

# 3. Hash-ID für jede Frage (zum Gruppieren identischer Texte)
df["Frage_Hash"] = df["Frage_Text"].apply(lambda x: md5(x.strip().encode("utf-8")).hexdigest())

# 4. Neue Spalte 'Duplikat_Gruppe': Hash nur für tatsächliche Duplikate
df["Duplikat_Gruppe"] = df["Frage_Hash"].where(df["Duplikat"])


In [6]:
df.head(3)

Unnamed: 0,ID_Wahl,Datum,Frage_ID,Frage_Text,Frage_Typ,Bereich_ID,Bereich,ID_gesamt,Sprache,Duplikat,Frage_Hash,Duplikat_Gruppe
0,2.0,2019-10-20 00:00:00,5.0,"Wie beurteilen Sie diese Aussage: ""Wer sich ni...",options7,4734.0,Werthaltungen,Q00000,de,True,f2aae15124ee3545b9c89fae390f5248,f2aae15124ee3545b9c89fae390f5248
1,2.0,2019-10-20 00:00:00,8.0,"Wie beurteilen Sie diese Aussage: ""Die Bestraf...",options7,4734.0,Werthaltungen,Q00001,de,True,8a94c3975fc8c159c14b90d45a60b8d0,8a94c3975fc8c159c14b90d45a60b8d0
2,2.0,2019-10-20 00:00:00,11.0,"Wie beurteilen Sie diese Aussage: ""Für ein Kin...",options7,4734.0,Werthaltungen,Q00002,de,True,7e014c9f94d4b3936f1d048fe9510cd2,7e014c9f94d4b3936f1d048fe9510cd2


In [8]:
# Wie viele Fragen sind Duplikate?
print(f"{df['Duplikat'].sum()} Fragen kommen mehrfach im Datensatz vor.")

# Zeige ein paar Gruppen
df[df["Duplikat"]].groupby("Duplikat_Gruppe").head(2)[["Frage_Text", "Duplikat_Gruppe"]].head(6)


5558 Fragen kommen mehrfach im Datensatz vor.


Unnamed: 0,Frage_Text,Duplikat_Gruppe
0,"Wie beurteilen Sie diese Aussage: ""Wer sich ni...",f2aae15124ee3545b9c89fae390f5248
1,"Wie beurteilen Sie diese Aussage: ""Die Bestraf...",8a94c3975fc8c159c14b90d45a60b8d0
2,"Wie beurteilen Sie diese Aussage: ""Für ein Kin...",7e014c9f94d4b3936f1d048fe9510cd2
3,Soll der Bund Ausländer/-innen bei der Integra...,80b912b3dc74458a0602712be9bd0625
4,Soll der Konsum von Cannabis legalisiert werden?,47056b453a87b839bb928dd32520d281
5,Soll die Schweiz das Schengen-Abkommen mit der...,67a808fbb560600f21cd2e9e22830078


In [9]:
df.head(3)

Unnamed: 0,ID_Wahl,Datum,Frage_ID,Frage_Text,Frage_Typ,Bereich_ID,Bereich,ID_gesamt,Sprache,Duplikat,Frage_Hash,Duplikat_Gruppe
0,2.0,2019-10-20 00:00:00,5.0,"Wie beurteilen Sie diese Aussage: ""Wer sich ni...",options7,4734.0,Werthaltungen,Q00000,de,True,f2aae15124ee3545b9c89fae390f5248,f2aae15124ee3545b9c89fae390f5248
1,2.0,2019-10-20 00:00:00,8.0,"Wie beurteilen Sie diese Aussage: ""Die Bestraf...",options7,4734.0,Werthaltungen,Q00001,de,True,8a94c3975fc8c159c14b90d45a60b8d0,8a94c3975fc8c159c14b90d45a60b8d0
2,2.0,2019-10-20 00:00:00,11.0,"Wie beurteilen Sie diese Aussage: ""Für ein Kin...",options7,4734.0,Werthaltungen,Q00002,de,True,7e014c9f94d4b3936f1d048fe9510cd2,7e014c9f94d4b3936f1d048fe9510cd2


In [None]:
# Neue Datei schreiben (z. B. mit neuem Namen)
df.to_excel("../../data/df_de_final_duplikate_markiert.xlsx", index=False, engine="openpyxl")


In [10]:
print(len(df))



7459


In [11]:
# Nur Duplikate auswählen
duplikate_df = df[df["Duplikat"]]

# Gruppieren nach Frage_Text und Anzahl berechnen
duplikat_gruppen = (
    duplikate_df
    .groupby("Frage_Text")
    .size()
    .reset_index(name="Anzahl_Vorkommen")
    .sort_values("Anzahl_Vorkommen", ascending=False)
)

# Zeige die Top 10 Duplikate
duplikat_gruppen.head(10)


Unnamed: 0,Frage_Text,Anzahl_Vorkommen
775,Soll die Schweiz das Schengen-Abkommen mit der...,97
1190,"Wie beurteilen Sie die folgende Aussage: ""Ein ...",71
1193,"Wie beurteilen Sie die folgende Aussage: ""Von ...",68
1189,"Wie beurteilen Sie die folgende Aussage: ""Die ...",65
406,Gemäss dem Konzept der integrativen Schule wer...,60
1196,"Wie beurteilen Sie diese Aussage: ""Die Bestraf...",59
957,"Sollen Ausländer/-innen, die seit mindestens z...",59
965,Sollen Ehepaare getrennt als Einzelpersonen be...,59
1197,"Wie beurteilen Sie diese Aussage: ""Für ein Kin...",58
712,Soll der Konsum von Cannabis legalisiert werden?,58


In [12]:
print(len(duplikat_gruppen))

1339
