In [None]:
import pandas as pd
import numpy as np
import matplotlib as mpl
import matplotlib.pyplot as plt
import seaborn as sns

# Datei mit UTF-16-Codierung einlesen
data = pd.read_csv('data_nfdi4chem2023_survey.csv', encoding='utf-16', delimiter='\t')
values = pd.read_csv('values_nfdi4chem2023_survey.csv', encoding='utf-16', delimiter='\t')
variables = pd.read_csv('variables_nfdi4chem2023_survey.csv', encoding='utf-16', delimiter='\t')

In [None]:
df_data = pd.DataFrame (data)
df_values = pd.DataFrame (values)
df_variables = pd.DataFrame (variables)

In [None]:
# Daten bereinigen. Spalten und Zeilen mit NaN entfernen.
# Df mit ausgewählten Spalten erstellen
selected_columns = ['CASE', 'A001', 'A001s', 'A002', 'A002_05', 'A003', 'A003_07', 'A004', 'A004_01', 'A004_02', 'A004_03', 'A004_04', 'A004_05', 'A004_06', 'A004_07', 'A004_08', 'A004_09', 'A004_10', 'A004_11', 'A004_12', 'A004_13', 'A004_13a', 'B001', 'B001_01', 'B001_02', 'B001_03', 'B001_04', 'B001_05', 'B001_06', 'B001_07', 'B001_08', 'B001_08a', 'B002', 'B003_01', 'B004', 'B005_01', 'B006', 'B006_01', 'B006_02', 'B006_03', 'B006_04', 'B006_04a', 'B006_05', 'B006_06', 'B007', 'B025_01', 'B008_CN', 'B008x01', 'B008x02', 'B008x03', 'B008x04', 'B008x05', 'B008x06', 'B008x07', 'B008x08', 'B008x09', 'B027_01', 'B009', 'B026_01', 'B010', 'B011', 'B012', 'B013_01', 'B014', 'B014_01', 'B014_02', 'B014_03', 'B014_04', 'B014_05', 'B014_06', 'B014_07', 'B014_08', 'B014_08a', 'B015', 'B015_01', 'B015_02', 'B015_03', 'B015_04', 'B015_05', 'B015_06', 'B015_08', 'B015_08a', 'B015_07', 'B016', 'B016_01', 'B016_02', 'B016_03', 'B016_04', 'B016_05', 'B016_06', 'B016_07', 'B016_09', 'B016_09a', 'B016_08', 'B017', 'B017_01', 'B017_02', 'B017_03', 'B017_04', 'B017_05', 'B017_05a', 'B018', 'B018_01', 'B019', 'B019_01', 'B019_02', 'B019_03', 'B019_04', 'B019_05', 'B019_05a', 'B019_06', 'B019_07', 'B019_08', 'B019_09', 'B019_10', 'B019_10a', 'B020_01', 'B021', 'B021_01', 'B022_01', 'B023_01', 'B024', 'B024_01', 'B024_02', 'B024_03', 'B024_04', 'B024_05', 'B024_06', 'B024_07', 'B024_08', 'B024_08a', 'C001', 'C002', 'C003', 'C003_01', 'C004', 'C005_01', 'C006', 'C008', 'C008_03', 'C009_01']
df_questions_2023 = df_data[selected_columns]
df_questions_2023

In [None]:
# Zeilen filtern, bei denen nach der Spalte A002 keine Einträge mehr folgen (alle Werte sind NaN)
result_rows = df_questions_2023[df_questions_2023.iloc[:, df_questions_2023.columns.get_loc('A002')+1:].isna().all(axis=1)]

# gefundene leere Zeilen aus dem df entfernen 
# bereinigten df erzeugen
df_cleanquest_2023 = df_questions_2023.drop(result_rows.index)

df_cleanquest_2023

In [None]:
# NFDI4Chem-Farben definieren
petrol_rgb = (0/255, 156/255, 188/255)
orange_rgb = (238/255, 116/255, 0/255)
yellow_rgb = (241/255, 222/255, 30/255)

## B05. Which kind of data do you collect in your research?
### Multiple selections possible.

In [None]:
# Spalten mit Namen, die "B001" enthalten, anzeigen
df_B001 = df_cleanquest_2023.filter(like='B001')
df_B001

In [None]:
# Leeres Dictionary für die Werte erstellen
values_dict = {}

# For-Schleife um Zeilen zu durchsuchen, bei denen die Spalte "VAR" den aktuellen Spaltennamen (column) enthält. 
# Ergebnis in values_dict speichern
for col_name in df_B001:
    values_dict[col_name] = df_values[df_values["VAR"] == col_name]

# Ergebnisse anzeigen
for col_name, values_df in values_dict.items():
    print(f"Values for {col_name}:")
    print(values_df)
    print()

In [None]:
# Zeilen von Index 27 bis 36 anzeigen
selected_rows_B001 = df_variables.iloc[27:37]
selected_rows_B001

In [None]:
# Spalten umbenennen, so dass Datenbeschreibung bekannt wird
# Dictionary erstellen
col_name_clear_B001 = {
    'B001': 'Ausweichoption (negativ) oder Anzahl',
    'B001_01': 'Experimental data from synthesis',
    'B001_02': 'Simulation data or quantum mechanical calculations',
    'B001_03': 'Spectroscopic data',
    'B001_04': 'Microscopic data',
    'B001_05': 'Crystallographic data',
    'B001_06': 'Voltammetric data',
    'B001_07': 'Laboratory / field observation data',
    'B001_08': 'other data',
    'B001_08a': 'open text'
}

df_B001 = df_B001.rename(columns=col_name_clear_B001)

# Anzahl der Vorkommen von 2 in den Spalten B001_01 - B001_08a zählen und Liste in einen df schreiben
df_B001_count = df_B001.apply(lambda col: (col == 2).sum()).to_frame()

# Spalten umbenennen
df_B001_count.reset_index(inplace=True)
df_B001_count.rename(columns={'index':'kind of data', 0:'quantity'}, inplace=True)

# Imdex 0 löschen
df_B001_count = df_B001_count.drop(0)

df_B001_count

In [None]:
# Freitextantworten und Häufigkeit zur Frage anzeigen ->Spalte B001_08a
df_B001_a = df_cleanquest_2023['B001_08a'].value_counts().to_frame()

# Spalten benennen
df_B001_a.reset_index(inplace=True)
df_B001_a.rename(columns={'index': 'kind of data', 'B001_08a': 'quantity'}, inplace=True)

df_B001_a

In [None]:
# Werte mit gleicher Bedeutung zusammenführen
df_B001_a['kind of data'] = df_B001_a['kind of data'].apply(lambda x: 'Spectrometric data' if 'spectromet' in x.lower() or 'ms' in x.lower() or 'mass' in x.lower() else 
                                                               ('Chromatographic data' if 'chrom' in x.lower() or 'hplc' in x.lower() else 
                                                                ('Scattering data' if 'scat' in x.lower() else
                                                                 ('Impedance data' if 'impe' in x.lower() else
                                                                  ('Experimental data from synthesis' if 'exp' in x.lower() else
                                                                   ('Biological assays' if 'assay' in x.lower() else
                                                                    ('Kinetic data' if 'kin' in x.lower() else x)))))))

# Gruppieren der Bedeutungen und Summierung durchführen
df_B001_grouped = df_B001_a.groupby('kind of data')['quantity'].sum().reset_index()

# Ergebnisse nach Häufigkeit sortieren
df_B001_sorted = df_B001_grouped.sort_values(by='quantity', ascending=False)

print(df_B001_sorted)

In [None]:
# Dfs anhand des gemeinsamen Schlüssels 'kind of data' zusammenführen
df_B001_merge = pd.merge(df_B001_sorted, df_B001_count, on='kind of data', how='outer')

# Spalten quantity_x und quantity_y zusammenführen und Werte summieren
df_B001_merge['merged_quantity'] = df_B001_merge[['quantity_x', 'quantity_y']].sum(axis=1)

# Löschen der ursprünglichen Spalten
df_B001_merge.drop(['quantity_x', 'quantity_y'], axis=1, inplace=True)

df_B001_merge

In [None]:
# Df nach 'quantity' sortieren
df_B001_merge_sorted = df_B001_merge.sort_values(by='merged_quantity', ascending=False)

print(df_B001_merge_sorted)

In [None]:
# Spalte "kind of data" als Index setzen
df_B001_merge_sorted.set_index('kind of data', inplace=True)

# Zeilen mit einer Quantity von über 6 filtern
df_B001_merge_filter = df_B001_merge_sorted[df_B001_merge_sorted['merged_quantity'] > 6]

# Balkendiagramm plotten
df_B001_merge_filter.plot.barh(color=orange_rgb)
plt.xlabel('Quantity')
plt.ylabel('Kind of data')
plt.title('Kind of data of the participants')

plt.show()

## B06. Do you collect any data in a non-electronic format that may be digitized at a later point in time?

In [None]:
# Spalten mit Namen, die "B002" enthalten, anzeigen
df_B002 = df_cleanquest_2023.filter(like='B002')
df_B002

In [None]:
# Df erstellen, der nur die Werte in der Spalte "VAR" gleich "B004"enthält
values_B002=df_values[df_values["VAR"]=="B002"]

# Zahlen in den Zellen gegen die Bedeutung ersetzen
df_cleanquest_2023["B002-m"]=df_cleanquest_2023["B002"].map(values_B002.drop_duplicates("RESPONSE").set_index("RESPONSE")["MEANING"])
df_cleanquest_2023["B002-m"]

# Werte zählen und in neuen df schreiben
df_B002_counted = df_B002['B002'].value_counts().to_frame()

# Spalten umbenennen
df_B002_counted.reset_index(inplace=True)
df_B002_counted.rename(columns={'index': 'answer', 'B002': 'quantity'}, inplace=True)

df_B002_counted

In [None]:
# Spalte "answer" als Index setzen
df_B002_counted.set_index('answer', inplace=True)

# Säulendiagramm plotten
df_B002_counted.plot.bar(color=orange_rgb)
plt.xlabel('Answer')
plt.ylabel('Quantity')
plt.title('Use of eletronic lab notebooks')

plt.show()

### If yes:
## B07. Which data do you record this way?

In [None]:
# Spalten mit Namen, die "B003" enthalten, anzeigen
df_B003 = df_cleanquest_2023.filter(like='B003')
df_B003

In [None]:
# Werte zählen und in neuen df schreiben
df_B003_counted = df_B003['B003_01'].value_counts().to_frame()
df_B003_counted

Diese Frage wurde nur den Personen gezeigt, die angegeben haben, dass sie ein Elektronischen Lab Notebook (ELN) verwenden. Von 397 Personen, die ein ELN einsetzen, haben 274 eine Begründung geliefert.

## B08. Do you have any workflows where digital data is treated in an analogue way to become digital again?

In [None]:
# Df erstellen, der nur die Werte in der Spalte "VAR" gleich "B004"enthält
values_B004=df_values[df_values["VAR"]=="B004"]

# Zahlen in den Zellen gegen die Bedeutung ersetzen
df_cleanquest_2023["B004-m"]=df_cleanquest_2023["B004"].map(values_B002.drop_duplicates("RESPONSE").set_index("RESPONSE")["MEANING"])
df_cleanquest_2023["B004-m"]

# Werte zählen und in df schreiben 
df_B004_counted = df_cleanquest_2023["B004-m"].value_counts().to_frame()

# Spalten umbenennen
df_B004_counted.reset_index(inplace=True)
df_B004_counted.rename(columns={'index': 'answer', 'B004': 'quantity'}, inplace=True)

df_B004_counted

In [None]:
# Spalte "answer" als Index setzen
df_B004_counted.set_index('answer', inplace=True)

# Säulendiagramm plotten
df_B004_counted.plot.bar(color=orange_rgb)
plt.xlabel('Answer')
plt.ylabel('Quantity')
plt.title('Digital workflows and analogue data')

# Zeige das Diagramm an
plt.show()

### If no:
## B09. Can you describe the data analysis steps which you perform without software in your most old-fashioned method?

In [None]:
# Spalten mit Namen, die "B005" enthalten, anzeigen
df_B005 = df_cleanquest_2023.filter(like='B005')
df_B005

In [None]:
# Werte zählen und in einen neuen df schreiben
df_B005_counted = df_B005['B005_01'].value_counts().to_frame()
df_B005_counted

Diese Frage wurde nur den Personen gezeigt, die angegeben haben, dass sie kein digitalen Daten im analogen Kontext verwenden. Von 169 Personen, haben 129 Schritte oder einzelne Begründungen genannt.

## B10. Which version of your data do you archive at the project’s end? 
### Multiple selections possible.

In [None]:
# Spalten mit Namen, die "B006" enthalten, anzeigen
df_B006 = df_cleanquest_2023.filter(like='B006')
df_B006

In [None]:
# Leeres Dictionary für die Werte erstellen
values_dict = {}

# For-Schleife um Zeilen zu durchsuchen, bei denen die Spalte "VAR" den aktuellen Spaltennamen (column) enthält. 
# Ergebnis in values_dict speichern
for col_name in df_B006:
    values_dict[col_name] = df_values[df_values["VAR"] == col_name]

# Ergebnisse anzeigen
for col_name, values_df in values_dict.items():
    print(f"Values for {col_name}:")
    print(values_df)
    print()

In [None]:
# Zeilen von Index 41 bis 48 anzeigen
selected_rows_B006 = df_variables.iloc[41:49]
selected_rows_B006

In [None]:
# Spalten umbenennen, so dass Art der Daten bekannt wird
# Dictionary erstellen
col_name_clear_B006 = {
    'B006': 'Ausweichoption (negativ) oder Anzahl',
    'B006_01': 'Raw data',
    'B006_02': 'Processed data',
    'B006_03': 'Analysed data',
    'B006_04': 'Other data',
    'B006_04a': 'open text',
    'B006_05': 'All data',
    'B006_06': 'I delete with caution data'
}

df_B006 = df_B006.rename(columns=col_name_clear_B006)

# Anzahl der Werte 2 in den Spalten B005_01 - B006_06 zählen und in einen neuen df schreiben
df_B006_count = df_B006.apply(lambda col: (col == 2).sum()).to_frame()

# Spalten umbenennen
df_B006_count.reset_index(inplace=True)
df_B006_count.rename(columns={'index':'kind of archived data', 0:'quantity'}, inplace=True)

# Index 0 löschen
df_B006_count = df_B006_count.drop(0)

df_B006_count

In [None]:
# Freitextantworten und Häufigkeit zur Frage anzeigen ->Spalte A006_04a und in einen neuen df schreiben
df_B006_a = df_cleanquest_2023['B006_04a'].value_counts().to_frame()

# Spalten umbenennen
df_B006_a.reset_index(inplace=True)
df_B006_a.rename(columns={'index': 'kind of archived data', 'B006_04a': 'quantity'}, inplace=True)

df_B006_a

In [None]:
# Werte mit gleicher Bedeutung zusammenführen
df_B006_a['kind of archived data'] = df_B006_a['kind of archived data'].apply(lambda x: 'Results' if 'last' in x.lower() or 'resu' in x.lower() or 'mass' in x.lower() else 
                                                               ('Lab Journal' if 'lab' in x.lower() else 
                                                                ('Metadata' if 'meta' in x.lower() or 'how' in x.lower() else x)))

# Gruppieren der Bedeutungen und Summierung durchführen
df_B006_grouped = df_B006_a.groupby('kind of archived data')['quantity'].sum().reset_index()

# Ergebnisse nach Häufigkeit sortieren
df_B006_sorted = df_B006_grouped.sort_values(by='quantity', ascending=False)

print(df_B006_sorted)

In [None]:
# Dfs anhand des gemeinsamen Schlüssels 'kind of archived data' zusammenführen
df_B006_merge = pd.merge(df_B006_count, df_B006_sorted, on='kind of archived data', how='outer')

# Spalten quantity_x und quantity_y zusammenführen und Werte summieren
df_B006_merge['merged_quantity'] = df_B006_merge[['quantity_x', 'quantity_y']].sum(axis=1)

# ursprüngliche Spalten löschen
df_B006_merge.drop(['quantity_x', 'quantity_y'], axis=1, inplace=True)

# Ergebnisse nach Häufigkeit sortieren
df_B006_msorted = df_B006_merge.sort_values(by='merged_quantity', ascending=False)

df_B006_msorted

In [None]:
# Löschen der Zeilen mit Index 3 und 4, weil sie in den Freitextantworten aufgeschlüsselt wurde und als solche eingefügt wurden.
rows_to_delete_B006 = [3,4]

df_B006_msorted = df_B006_msorted.drop(rows_to_delete_B006)

In [None]:
# Spalte "kind of archived data" als Index setzen
df_B006_msorted.set_index('kind of archived data', inplace=True)

# Zeilen mit einer Quantity von über 80 filtern
df_B006_merge_filter = df_B006_msorted[df_B006_msorted['merged_quantity'] > 80]

# Balkendiagramm plotten
df_B006_merge_filter.plot.barh(color=orange_rgb)
plt.xlabel('Quantity')
plt.ylabel('Kind of archived data')
plt.title('Kind of archived data of the participants')

plt.show()

## B11. Do you have in your institute/working group rules for how and where data needs to be archived?

In [None]:
# Spalten mit Namen, die "B004" enthalten, anzeigen
df_B007 = df_cleanquest_2023.filter(like='B007')
df_B007

In [None]:
# Leeres Dictionary für die Werte erstellen
values_dict = {}

# For-Schleife um Zeilen zu durchsuchen, bei denen die Spalte "VAR" den aktuellen Spaltennamen (column) enthält. 
# Ergebnis in values_dict speichern
for col_name in df_B007:
    values_dict[col_name] = df_values[df_values["VAR"] == col_name]

# Ergebnisse anzeigen
for col_name, values_df in values_dict.items():
    print(f"Values for {col_name}:")
    print(values_df)
    print()

In [None]:
# Ergebnis in values_B007 speichern
values_B007=df_values[df_values["VAR"]=="B007"]

# Zahlen in den Zellen gegen die Bedeutung ersetzen
df_cleanquest_2023["B007-m"]=df_cleanquest_2023["B007"].map(values_B007.drop_duplicates("RESPONSE").set_index("RESPONSE")["MEANING"])
df_cleanquest_2023["B007-m"]

# Werte zählen und in einen neuen df schreiben
df_B007_counted = df_B007['B007'].value_counts().to_frame()

# Spalten umbenennen
df_B007_counted.reset_index(inplace=True)
df_B007_counted.rename(columns={'index': 'group rules', 'B004': 'quantity'}, inplace=True)

df_B007_counted

In [None]:
# Spalte "group rules" als Index setzen
df_B007_counted.set_index('group rules', inplace=True)

# Säulendiagramm plotten
df_B007_counted.plot.bar(color=orange_rgb)
plt.xlabel('Group Rules')
plt.ylabel('Quantity')
plt.title('Rules for Archiving')

plt.show()

## B12. Do you describe your collected data with other data (so-called metadata) to make these data later more comprehensible?

In [None]:
# Spalten mit Namen, die "B008" enthalten, anzeigen
df_B008 = df_cleanquest_2023.filter(like='B008')
df_B008

In [None]:
df_values = pd.DataFrame (values)

# Leeres Dictionary für die Werte erstellen
values_dict = {}

# For-Schleife
for col_name in df_B008:
    values_dict[col_name] = df_values[df_values["VAR"] == col_name]

# Ergebnisse anzeigen
for col_name, values_df in values_dict.items():
    print(f"Values for {col_name}:")
    print(values_df)
    print()

In [None]:
# Zeilen von Index 50 bis 62 anzeigen
selected_rows_B008 = df_variables.iloc[50:62]
selected_rows_B008

In [None]:
# Spalten umbenennen, so dass Art der Daten bekannt wird
# Dictionary erstellen
col_name_clear_B008 = {
    'B008_CN': 'Number of Selections',
    'B008x01': 'Yes, I add',
    'B008x02': 'Name of the researcher',
    'B008x03': 'Number from lab notebook',
    'B008x04': 'Sample description',
    'B008x05': 'Project number',
    'B008x06': 'Date of experiment',
    'B008x07': 'Method of data collection',
    'B008x08': 'Other',
    'B008x09': 'No',
    'B027_01': 'Comments'
}

# Werte im dictionary umbenennen
df_B008 = df_B008.rename(columns=col_name_clear_B008)

# Anzahl der Werte 2 in den Spalten B008x01 - B00x0908 zählen
df_B008_count = df_B008.apply(lambda col: (col == 2).sum()).to_frame()

# Spalten umbenennen
df_B008_count.reset_index(inplace=True)
df_B008_count.rename(columns={'index':'metadata', 0:'quantity'}, inplace=True)

# Index 0 entfernen
df_B008_count = df_B008_count.drop(0)

df_B008_count

In [None]:
# Indizes 1 und 9 auswählen
selected_data_B008 = df_B008_count.loc[[1, 9]]

# Balkendiagramm plotten
plt.barh(selected_data_B008['metadata'], selected_data_B008['quantity'], color=petrol_rgb)
plt.xlabel('Quantity')
plt.ylabel('Add Metadata')
plt.title('Metadata')

plt.show()

In [None]:
# Freitextantworten und Häufigkeit zur Frage anzeigen ->Spalte B027_01 und in einen neuen df schreiben
df_B008_a = df_cleanquest_2023['B027_01'].value_counts().to_frame()

# Spalten umbenennen
df_B008_a.reset_index(inplace=True)
df_B008_a.rename(columns={'index': 'metadata', 'B027_01': 'quantity'}, inplace=True)

df_B008_a

In [None]:
# Werte mit gleicher Bedeutung zusammenführen
df_B008_a['metadata'] = df_B008_a['metadata'].apply(lambda x: 'Parameters/Conditions' if 'param' in x.lower() or 'cond' in x.lower() or 'set' in x.lower() else 
                                                               ('Software' if 'soft' in x.lower() else
                                                                ('Personal Identifier' if 'ide' in x.lower() or 'personal' in x.lower() or 'init' in x.lower() else
                                                                 ('Files from Calculations/ Software' if 'sim' in x.lower() or 'calc' in x.lower() or 'code' in x.lower() else 
                                                                  ('Description' if 'descr' in x.lower() or 'text' in x.lower() or 'txt' in x.lower() else 
                                                                   ('Schema' if 'schem' in x.lower() else x))))))
# Gruppieren der Bedeutungen und Summierung durchführen
df_B008_grouped = df_B008_a.groupby('metadata')['quantity'].sum().reset_index()

# Ergebnisse nach Häufigkeit sortieren
df_B008_sorted = df_B008_grouped.sort_values(by='quantity', ascending=False)

print(df_B008_sorted)

In [None]:
# Dfs anhand des gemeinsamen Schlüssels 'metadata' zusammenführen
df_B008_merge = pd.merge(df_B008_count, df_B008_sorted, on='metadata', how='outer')

# Spalten quantity_x und quantity_y zusammenführen und Werte summieren
df_B008_merge['merged_quantity'] = df_B008_merge[['quantity_x', 'quantity_y']].sum(axis=1)

# ursprüngliche Spalten löschen
df_B008_merge.drop(['quantity_x', 'quantity_y'], axis=1, inplace=True)

# Ergebnisse nach Häufigkeit sortieren
df_B008_msorted = df_B008_merge.sort_values(by='merged_quantity', ascending=False)
df_B008_msorted

In [None]:
# Indizes 1 bis 6 auswählen -> alle anderen Werte sind im Verhältnis so gering, dass sie in der Graphik vernachlässigt werden.
df_B008_msorted = df_B008_msorted.loc[[5,3,1, 2,6,4]]

# Diagramm erstellen
plt.barh(df_B008_msorted['metadata'], df_B008_msorted['merged_quantity'], color=petrol_rgb)
plt.xlabel('Quantity')
plt.ylabel('Added Metadata')
plt.title('Metadata')
plt.show()

### If yes:
## B13. How do you generate or collect this metadata & additional information/parameters?

In [None]:
# Spalten mit Namen, die "B008" enthalten, anzeigen

df_B009 = df_cleanquest_2023.filter(items=['B009', 'B026_01'])
df_B009

In [None]:
# Df erstellen, der nur die Werte in der Spalte "VAR" gleich "B009"enthält
values_B009=df_values[df_values["VAR"]=="B009"]

# Zahlen in den Zellen gegen die Bedeutung ersetzen
df_cleanquest_2023["B009-m"]=df_cleanquest_2023["B009"].map(values_B009.drop_duplicates("RESPONSE").set_index("RESPONSE")["MEANING"])
df_cleanquest_2023["B009-m"]

# Werte zählen und in einen neuen df schreiben
df_B009_counted = df_B009['B009'].value_counts().to_frame()

# Spalten umbenennen
df_B009_counted.reset_index(inplace=True)
df_B009_counted.rename(columns={'index': 'metadata handling', 'B009': 'quantity'}, inplace=True)

df_B009_counted

In [None]:
# Spalte "metadata handling" als Index setzen
df_B009_counted.set_index('metadata handling', inplace=True)

# Balkendiagramm plotten
df_B009_counted.plot.barh(color=orange_rgb)
plt.xlabel('Quantity')
plt.ylabel('Metadata Handling')
plt.title('Metadata Handling of the participants')

plt.show()

In [None]:
# Freitextantworten anzeigen
comments_B026 = df_B009['B026_01'].dropna()
comments_B026

## B14. Do you think your descriptive (meta)data helps other scientists to understand your data?

In [None]:
# Spalten mit Namen, die "B008" enthalten, anzeigen
df_B010 = df_cleanquest_2023.filter(like='B010')
df_B010

In [None]:
# Leeres Dictionary für die Werte erstellen
values_dict = {}

# For-Schleife um Zeilen zu durchsuchen, bei denen die Spalte "VAR" den aktuellen Spaltennamen (column) enthält. 
# Ergebnis in values_dict speichern
for col_name in df_B010:
    values_dict[col_name] = df_values[df_values["VAR"] == col_name]

# Ergebnisse anzeigen
for col_name, values_df in values_dict.items():
    print(f"Values for {col_name}:")
    print(values_df)
    print()

In [None]:
# Zahlen in den Zellen gegen die Bedeutung ersetzen
df_cleanquest_2023["B010-m"]=df_cleanquest_2023["B010"].map(values_df.drop_duplicates("RESPONSE").set_index("RESPONSE")["MEANING"])
df_cleanquest_2023["B010-m"]

In [None]:
value_counts = df_cleanquest_2023['B010-m'].value_counts()
print(value_counts)

In [None]:
# Zeile "nicht beantwortet" aus df filtern
df_B10_filter = df_cleanquest_2023[df_cleanquest_2023['B010-m'] != 'nicht beantwortet']

# Balkendiagramm plotten
df_B10_filter['B010-m'].value_counts().plot.barh(color=petrol_rgb)
plt.xlabel('Quantity')
plt.ylabel('Answers')
plt.title('desciptive metadata for other researchers')

plt.show()

## B15. Do you describe your data with additional information/parameters (metadata) following defined rules of your working group or institution?

In [None]:
# Spalten mit Namen, die "B011" enthalten, anzeigen
df_B011 = df_cleanquest_2023.filter(like='B011')
df_B011

In [None]:
# Leeres Dictionary für die Werte erstellen
values_dict = {}

# For-Schleife um Zeilen zu durchsuchen, bei denen die Spalte "VAR" den aktuellen Spaltennamen (column) enthält. 
# Ergebnis in values_dict speichern
for col_name in df_B011:
    values_dict[col_name] = df_values[df_values["VAR"] == col_name]

# Ergebnisse anzeigen
for col_name, values_df in values_dict.items():
    print(f"Values for {col_name}:")
    print(values_df)
    print()

In [None]:
# Bedeutungen zuordnen und in neue Spalte B011-m schreiben
df_cleanquest_2023["B011-m"]=df_cleanquest_2023["B011"].map(values_df.drop_duplicates("RESPONSE").set_index("RESPONSE")["MEANING"])
df_cleanquest_2023["B011-m"]

In [None]:
# Werte zusammenzählen
value_counts = df_cleanquest_2023['B011-m'].value_counts()
print(value_counts)

In [None]:
# Zeile "nicht beantwortet" aus dem df filtern
df_B11_filter = df_cleanquest_2023[df_cleanquest_2023['B011-m'] != 'nicht beantwortet']

# Balkendiagramm plotten
df_B11_filter['B011-m'].value_counts().plot.barh(color=petrol_rgb)
plt.xlabel('Quantity')
plt.ylabel('Answers')
plt.title('descibing data following defined rules')

plt.show()

## B16. Do you use an electronic lab notebook?

In [None]:
# Spalten mit Namen, die "B012" enthalten, anzeigen
df_B012 = df_cleanquest_2023.filter(like='B012')
df_B012

In [None]:
# Leeres Dictionary für die Werte erstellen
values_dict = {}

# For-Schleife um Zeilen zu durchsuchen, bei denen die Spalte "VAR" den aktuellen Spaltennamen (column) enthält. 
# Ergebnis in values_dict speichern
for col_name in df_B012:
    values_dict[col_name] = df_values[df_values["VAR"] == col_name]

# Ergebnisse anzeigen
for col_name, values_df in values_dict.items():
    print(f"Values for {col_name}:")
    print(values_df)
    print()

In [None]:
# Bedeutungen zuordnen und in neue Spalte B012-m schreiben
df_cleanquest_2023["B012-m"]=df_cleanquest_2023["B012"].map(values_df.drop_duplicates("RESPONSE").set_index("RESPONSE")["MEANING"])
value_counts = df_cleanquest_2023['B012-m'].value_counts()
print(value_counts)

In [None]:
# Zeile "nicht beantwortet" aus dem df filtern
df_B12_filter = df_cleanquest_2023[df_cleanquest_2023['B012-m'] != 'nicht beantwortet']

# Balkendiagramm plotten
df_B12_filter['B012-m'].value_counts().plot.barh(color=petrol_rgb)
plt.xlabel('Quantity')
plt.ylabel('Answers')
plt.title('Use of an electronic lab notebook')

plt.show()

### If yes: 
## B17. Which electronic lab notebook do you use?


In [None]:
# Spalten mit Namen, die "B013" enthalten, anzeigen
df_B013 = df_cleanquest_2023.filter(like='B013')
df_B013

In [None]:
# Werte mit gleicher Bedeutung zusammenführen und summieren
df_B013['B013_01_mapped'] = df_B013['B013_01'].astype(str).apply(lambda x: 'Chemotion' if 'chemotion' in x.lower() else
                                                            ('eLabFTW' if 'elabftw' in x.lower() or 'ftw' in x.lower() else
                                                             ('Sciformation' if 'scifor' in x.lower() else
                                                              ('MBook' if 'mbook' in x.lower() else
                                                               ('Word' if 'word' in x.lower() or 'txt' in x.lower() else
                                                                ('OneNote' if 'note' in x.lower() else
                                                                 ('Signals Notebook' if 'signal' in x.lower() or 'perkin' in x.lower() else
                                                                  ('LabCollector' if 'collect' in x.lower() else
                                                                   ('LabFolder' if 'folder' in x.lower() else
                                                                    ('LabStep' if 'step' in x.lower() else
                                                                     ('RSpace' if 'rspace' in x.lower() else x)))))))))))

# Gruppieren der Bedeutungen und Summierung durchführen
df_B013['quantity'] = 1
df_B013_grouped = df_B013.groupby('B013_01_mapped')['quantity'].sum().reset_index()

# Ergebnisse nach Summe sortieren
df_B013_sorted = df_B013_grouped.sort_values(by='quantity', ascending=False)

print(df_B013_sorted)

In [None]:
# Index 57 löschen, da er die NaN-Werte enthält
df_B013_sorted = df_B013_sorted.drop(57)

# Spalte umbenennen
df_B013_sorted.rename(columns={'B013_01_mapped': 'Lab notebook'}, inplace=True)

df_B013_sorted

In [None]:
# Spalte "lab notebook" als Index setzen
df_B013_sorted.set_index('Lab notebook', inplace=True)

# Zeilen mit einer Quantity von über 4 filtern
df_B013_sorted = df_B013_sorted[df_B013_sorted['quantity'] > 4]

# Balkendiagramm plotten
df_B013_sorted.plot.barh(color=orange_rgb)
plt.xlabel('Quantity')
plt.ylabel('Electronic Lab Notebooks')
plt.title('Use of different Electronic Lab Notebooks of the participants')

plt.show()

## B18. How do you store data in the long term (~10 years) after the end of a project?
### Multiple selections possible.

In [None]:
# Spalten mit Namen, die "B014" enthalten, anzeigen
df_B014 = df_cleanquest_2023.filter(like='B014')
df_B014

In [None]:
# Leeres Dictionary für die Werte erstellen
values_dict = {}

# For-Schleife um Zeilen zu durchsuchen, bei denen die Spalte "VAR" den aktuellen Spaltennamen (column) enthält. 
# Ergebnis in values_dict speichern
for col_name in df_B014:
    values_dict[col_name] = df_values[df_values["VAR"] == col_name]

# Ergebnisse anzeigen
for col_name, values_df in values_dict.items():
    print(f"Values for {col_name}:")
    print(values_df)
    print()

In [None]:
# Zeilen von Index 68 bis 77 anzeigen
selected_rows_B014 = df_variables.iloc[68:78]
selected_rows_B014

In [None]:
# Spalten umbenennen, so dass Teildisziplin bekannt wird
# Dictionary erstellen
col_name_clear_B014 = {
    'B014': 'Ausweichoption (negativ) oder Anzahl',
    'B014_01': 'Local workspace',
    'B014_02': 'Server of working group/institute',
    'B014_03': 'University server/ server at university IT center',
    'B014_04': 'External hard drive',
    'B014_05': 'USB stick, DVD, CD',
    'B014_06': 'Cloud system',
    'B014_07': 'Data repository',
    'B014_08': 'other data',
    'B014_08a': 'open text'
}

# Im Dictionary Spaltennamen gegen Bedeutungen ersetzen
df_B014 = df_B014.rename(columns=col_name_clear_B014)

# Anzahl der Vorkommen von 2 in den Spalten B014_01 - B014_08 zählen und Liste in einen df schreiben
df_B014_count = df_B014.apply(lambda col: (col == 2).sum()).to_frame()

#Spalten umbenennen
df_B014_count.reset_index(inplace=True)
df_B014_count.rename(columns={'index':'kind of media', 0:'quantity'}, inplace=True)

# Index 0 löschen
df_B014_count = df_B014_count.drop(0)

df_B014_count

In [None]:
# Freitextantworten und Häufigkeit zur Frage auswerten ->Spalte B014_08a und in einen neuen df schreiben
df_B014_a = df_cleanquest_2023['B014_08a'].value_counts().to_frame()

# Spaltennamen umbenennen
df_B014_a.reset_index(inplace=True)
df_B014_a.rename(columns={'index': 'kind of media', 'B014_08a': 'quantity'}, inplace=True)

df_B014_a

In [None]:
# Werte mit gleicher Bedeutung zusammenführen
df_B014_a['kind of media'] = df_B014_a['kind of media'].apply(lambda x: 'Lab Journal/Book' if 'lab' in x.lower() else
                                                              ('Supporting Information' if 'publish' in x.lower() else
                                                               ('Cloud system' if 'sciebo' in x.lower() or 'cloud' in x.lower () else
                                                                ('Tape' if 'tape' in x.lower() or 'magnet' in x.lower () else x))))


# Gruppieren der Bedeutungen und Summierung durchführen
df_B014_grouped = df_B014_a.groupby('kind of media')['quantity'].sum().reset_index()

# Ergebnisse nach Häufigkeit sortieren
df_B014_sorted = df_B014_grouped.sort_values(by='quantity', ascending=False)

df_B014_sorted

In [None]:
# Dfs anhand des gemeinsamen Schlüssels 'kind of media' zusammenführen
df_B014_merge = pd.merge(df_B014_count, df_B014_sorted, on='kind of media', how='outer')

# Spalten quantity_x und quantity_y zusammenführen und Werte summieren
df_B014_merge['merged_quantity'] = df_B014_merge[['quantity_x', 'quantity_y']].sum(axis=1)

# ursprüngliche Spalten löschen
df_B014_merge.drop(['quantity_x', 'quantity_y'], axis=1, inplace=True)

df_B014_merge

In [None]:
# Löschen der Zeilen mit Index 7 und 8, weil sie in den Freitextantworten aufgeschlüsselt wurde und als solche eingefügt wurden.
rows_to_delete_B014 = [7,8]
df_B014_merge = df_B014_merge.drop(rows_to_delete_B014)

# Ergebnisse nach Häufigkeit sortieren
df_B014_msorted = df_B014_merge.sort_values(by='merged_quantity', ascending=False)

df_B014_msorted

In [None]:
# Spalte "kind of media" als Index setzen
df_B014_msorted.set_index('kind of media', inplace=True)

# Zeilen mit einer Quantity von über 14 filtern
df_B014_filtered = df_B014_msorted[df_B014_msorted['merged_quantity'] > 10]

# Balkendiagramm plotten
df_B014_filtered.plot.barh(color=petrol_rgb)
plt.xlabel('Quantity')
plt.ylabel('Kind of media')
plt.title('Kind of media the participants use')

plt.show()

## B19. How do you share your data within your working group?
### Multiple selections possible.

In [None]:
# Spalten mit Namen, die "B015" enthalten, anzeigen
df_B015 = df_cleanquest_2023.filter(like='B015')
df_B015

In [None]:
# Leeres Dictionary für die Werte erstellen
values_dict = {}

# For-Schleife um Zeilen zu durchsuchen, bei denen die Spalte "VAR" den aktuellen Spaltennamen (column) enthält. 
# Ergebnis in values_dict speichern
for col_name in df_B015:
    values_dict[col_name] = df_values[df_values["VAR"] == col_name]

# Ergebnisse anzeigen
for col_name, values_df in values_dict.items():
    print(f"Values for {col_name}:")
    print(values_df)
    print()

In [None]:
# Zeilen von Index 78 bis 87 anzeigen
selected_rows_B015 = df_variables.iloc[78:88]
selected_rows_B015

In [None]:
# Spalten umbenennen, so dass Teildisziplin bekannt wird
# Dictionary erstellen
col_name_clear_B015 = {
    'B015': 'Ausweichoption (negativ) oder Anzahl',
    'B015_01': 'Electronic lab journal',
    'B015_02': 'Via server of institute/working group',
    'B015_03': 'Cloud system',
    'B015_04': 'E-Mail',
    'B015_05': 'USB stick, DVD, CD',
    'B015_06': 'Data repository',
    'B015_07': ' I do not share my data.',
    'B015_08': 'other data',
    'B015_08a': 'open text'
}

# Spaltennamen in Dictionary gegen Bedeutung ersetzen
df_B015 = df_B015.rename(columns=col_name_clear_B015)

# Anzahl der Vorkommen von 2 in den Spalten B015_01 - B015_08 zählen und in einen df schreiben
df_B015_count = df_B015.apply(lambda col: (col == 2).sum()).to_frame()

# Spalten umbenennen
df_B015_count.reset_index(inplace=True)
df_B015_count.rename(columns={'index':'kind of media', 0:'quantity'}, inplace=True)

# Index 0 löschen
df_B015_count = df_B015_count.drop(0)

df_B015_count

In [None]:
# Freitextantworten und Häufigkeit zur Frage auswerten ->Spalte B015_8a und in neuen df schreiben
df_B015_a = df_cleanquest_2023['B015_08a'].value_counts().to_frame()

# Spalten umbenennen
df_B015_a.reset_index(inplace=True)
df_B015_a.rename(columns={'index': 'kind of media', 'B015_08a': 'quantity'}, inplace=True)

df_B015_a

In [None]:
# Werte mit gleicher Bedeutung zusammenführen
df_B015_a['kind of media'] = df_B015_a['kind of media'].apply(lambda x: 'Lab Journal/Book' if 'lab' in x.lower() else
                                                              ('Supporting Information' if 'publish' in x.lower() else
                                                               ('Cloud system' if 'sciebo' in x.lower() or 'cloud' in x.lower () else
                                                                ('Tape' if 'tape' in x.lower() or 'magnet' in x.lower () else x))))

# Gruppieren der Bedeutungen und Summierung durchführen
df_B015_grouped = df_B015_a.groupby('kind of media')['quantity'].sum().reset_index()

# Ergebnisse nach Häufigkeit sortieren
df_B015_sorted = df_B015_grouped.sort_values(by='quantity', ascending=False)

df_B015_sorted

In [None]:
# Dfs anhand des gemeinsamen Schlüssels 'kind of media' zusammenführen
df_B015_merge = pd.merge(df_B015_count, df_B015_sorted, on='kind of media', how='outer')

# Spalten quantity_x und quantity_y zusammenführen und Werte summieren
df_B015_merge['merged_quantity'] = df_B015_merge[['quantity_x', 'quantity_y']].sum(axis=1)

# ursprüngliche Spalten löschen
df_B015_merge.drop(['quantity_x', 'quantity_y'], axis=1, inplace=True)

df_B015_merge

In [None]:
# Zeilen mit Index 6 und 7 löschen, weil sie in den Freitextantworten aufgeschlüsselt wurde und als solche eingefügt wurden.
rows_to_delete_B015 = [6,7]
df_B015_merge = df_B015_merge.drop(rows_to_delete_B015)

# Ergebnisse nach Häufigkeit sortieren
df_B015_msorted = df_B015_merge.sort_values(by='merged_quantity', ascending=False)

df_B015_msorted

In [None]:
# Größe des Diagramms anpassen
fig, ax = plt.subplots(figsize=(10, 6))

# Spalte "kind of media" als Index setzen
df_B015_msorted.set_index('kind of media', inplace=True)

# Zeilen mit einer Quantity von über 10 filtern
df_B015_filtered = df_B015_msorted[df_B015_msorted['merged_quantity'] > 10]

# Balkendiagramm mit absoluten Werten im Balken plotten
bars = df_B015_filtered.plot.barh(ax=ax, color=petrol_rgb)

# absolute Werte in die Balken einfügen
for bar in bars.patches:
    ax.text(bar.get_width(), bar.get_y() + bar.get_height() / 2, int(bar.get_width()),
            va='center', ha='right', color='white')
     
plt.xlabel('Quantity')
plt.ylabel('Kind of media')
plt.title('Kind of media the participants share data')

plt.show()

## B20. How do you share your data outside your working group?
### Multiple selections possible.

In [None]:
# Spalten mit Namen, die "B016" enthalten, anzeigen
df_B016 = df_cleanquest_2023.filter(like='B016')
df_B016

In [None]:
# Leeres Dictionary für die Werte erstellen
values_dict = {}

# For-Schleife um Zeilen zu durchsuchen, bei denen die Spalte "VAR" den aktuellen Spaltennamen (column) enthält. 
# Ergebnis in values_dict speichern
for col_name in df_B016:
    values_dict[col_name] = df_values[df_values["VAR"] == col_name]

# Ergebnisse anzeigen
for col_name, values_df in values_dict.items():
    print(f"Values for {col_name}:")
    print(values_df)
    print()

In [None]:
# Zeilen von Index 88 bis 98 anzeigen
selected_rows_B016 = df_variables.iloc[88:99]
selected_rows_B016

In [None]:
# Spalten umbenennen, so dass Teildisziplin bekannt wird
# Dictionary erstellen
col_name_clear_B016 = {
    'B016': 'Ausweichoption (negativ) oder Anzahl',
    'B016_01': 'Electronic lab journal',
    'B016_02': 'Via server of institute/working group',
    'B016_03': 'Cloud system',
    'B016_04': 'E-Mail',
    'B016_05': 'USB stick, DVD, CD',
    'B016_06': 'Data repository',
    'B016_07': 'Publication as data publication or Supplementary Information.',
    'B016_08': 'I do not share my data.',
    'B016_09': 'other data',
    'B016_09a': 'open text'
}

# Variable gegen Bedeutung ersetzen
df_B016 = df_B016.rename(columns=col_name_clear_B016)

# Anzahl der Vorkommen von 2 in den Spalten B016_01 - B016_09 zählen und Liste in einen df schreiben
df_B016_count = df_B016.apply(lambda col: (col == 2).sum()).to_frame()

# Spalten umbenennen
df_B016_count.reset_index(inplace=True)
df_B016_count.rename(columns={'index':'kind of media', 0:'quantity'}, inplace=True)

# Index 0 löschen
df_B016_count = df_B016_count.drop(0)

df_B016_count

In [None]:
# Freitextantworten und Häufigkeit zur Frage anzeigen ->Spalte B016_09a und in neuen df schreiben
df_B016_a = df_cleanquest_2023['B016_09a'].value_counts().to_frame()

# Spalten umbenennen
df_B016_a.reset_index(inplace=True)
df_B016_a.rename(columns={'index': 'kind of media', 'B016_09a': 'quantity'}, inplace=True)

df_B016_a

In [None]:
# Werte mit gleicher Bedeutung zusammenführen
df_B016_a['kind of media'] = df_B016_a['kind of media'].apply(lambda x: 'Cryptshare' if 'cryp' in x.lower() else
                                                              ('I do not share my data.' if 'share' in x.lower() else
                                                               ('Cloud system' if 'sciebo' in x.lower() or 'hessen' in x.lower () else
                                                                ('Publication as data publication or Supplementary Information.' if 'public' in x.lower() else x))))

# Gruppieren der Bedeutungen und Summierung durchführen
df_B016_grouped = df_B016_a.groupby('kind of media')['quantity'].sum().reset_index()

# Ergebnisse nach Häufigkeit sortieren
df_B016_sorted = df_B016_grouped.sort_values(by='quantity', ascending=False)

df_B016_sorted

In [None]:
# Dfs anhand des gemeinsamen Schlüssels 'kind of media' zusammenführen
df_B016_merge = pd.merge(df_B016_count, df_B016_sorted, on='kind of media', how='outer')

# Spalten quantity_x und quantity_y zusammenführen und Werte summieren
df_B016_merge['merged_quantity'] = df_B016_merge[['quantity_x', 'quantity_y']].sum(axis=1)

# ursprüngliche Spalten löschen
df_B016_merge.drop(['quantity_x', 'quantity_y'], axis=1, inplace=True)

df_B016_merge

In [None]:
# Zeilen mit Index 7 und 8 löschen, weil sie in den Freitextantworten aufgeschlüsselt wurde und als solche eingefügt wurden.
rows_to_delete_B016 = [7,8]
df_B016_merge = df_B016_merge.drop(rows_to_delete_B016)

# Ergebnisse nach Häufigkeit sortieren
df_B016_msorted = df_B016_merge.sort_values(by='merged_quantity', ascending=False)

df_B016_msorted

In [None]:
# Spalte "kind of media" als Index setzen
df_B016_msorted.set_index('kind of media', inplace=True)

# Zeilen mit einer Quantity von über 60 filtern
df_B016_filtered = df_B016_msorted[df_B016_msorted['merged_quantity'] > 60]

# Balkendiagramm plotten
df_B016_filtered.plot.barh(color=petrol_rgb)
plt.xlabel('Quantity')
plt.ylabel('Kind of media')
plt.title('Kind of media the participants use for sharing data outside')

plt.show()

## B21. Have you already published your data in the form of raw data, processed data or analysed data?
### Multiple selections possible.

In [None]:
# Spalten mit Namen, die "B017" enthalten, anzeigen
df_B017 = df_cleanquest_2023.filter(like='B017')
df_B017

In [None]:
# Leeres Dictionary für die Werte erstellen
values_dict = {}

# For-Schleife um Zeilen zu durchsuchen, bei denen die Spalte "VAR" den aktuellen Spaltennamen (column) enthält. 
# Ergebnis in values_dict speichern
for col_name in df_B017:
    values_dict[col_name] = df_values[df_values["VAR"] == col_name]

# Ergebnisse anzeigen
for col_name, values_df in values_dict.items():
    print(f"Values for {col_name}:")
    print(values_df)
    print()

In [None]:
# Zeilen von Index 68 bis 78 anzeigen
selected_rows_B017 = df_variables.iloc[99:106]
selected_rows_B017

In [None]:
# Spalten umbenennen, so dass Teildisziplin bekannt wird
# Dictionary erstellen
col_name_clear_B017 = {
    'B017': 'Ausweichoption (negativ) oder Anzahl',
    'B017_01': 'Yes, as part of a text publication in the form of supplemental material.',
    'B017_02': 'Yes, as part of a text publication in a data repository.',
    'B017_03': 'Yes, as pure data publication in a data repository independent on a text publication.',
    'B017_04': 'No, I have not yet published any data.',
    'B017_05': 'Other',
    'B017_05a': 'Open Text'
}

# Variable gegen Bedeutung ersetzen
df_B017 = df_B017.rename(columns=col_name_clear_B017)

# Anzahl der Vorkommen von 2 in den Spalten B017_01 - B017_05 zählen und in einen df schreiben
df_B017_count = df_B017.apply(lambda col: (col == 2).sum()).to_frame()

# Spalten umbenennen
df_B017_count.reset_index(inplace=True)
df_B017_count.rename(columns={'index':'kind of publication', 0:'quantity'}, inplace=True)

# Index 0 löschen
df_B017_count = df_B017_count.drop(0)

df_B017_count

In [None]:
# Freitextantworten und Häufigkeit zur Frage anzeigen ->Spalte B017_05a
df_B017_a = df_cleanquest_2023['B017_05a'].value_counts().to_frame()

# Spalten umbenennen
df_B017_a.reset_index(inplace=True)
df_B017_a.rename(columns={'index': 'kind of publication', 'B017_05a': 'quantity'}, inplace=True)

df_B017_a

In [None]:
# Dfs anhand des gemeinsamen Schlüssels 'kind of publication' zusammenführen
df_B017_merge = pd.merge(df_B017_count, df_B017_a, on='kind of publication', how='outer')

# Spalten quantity_x und quantity_y zusammenführen und Werte summieren
df_B017_merge['merged_quantity'] = df_B017_merge[['quantity_x', 'quantity_y']].sum(axis=1)

# ursprüngliche Spalten löschen
df_B017_merge.drop(['quantity_x', 'quantity_y'], axis=1, inplace=True)

df_B017_merge

In [None]:
# Zeilen mit Index 4 und 5 löschen, weil sie in den Freitextantworten aufgeschlüsselt wurde und als solche eingefügt wurden.
rows_to_delete_B017 = [4,5]
df_B017_merge = df_B017_merge.drop(rows_to_delete_B017)

# Ergebnisse nach Häufigkeit sortieren
df_B017_msorted = df_B015_merge.sort_values(by='merged_quantity', ascending=False)

df_B017_msorted

In [None]:
# Spalte "kind of media" als Index setzen
df_B017_msorted.set_index('kind of media', inplace=True)

# Zeilen mit einer Quantity von über 50 setzen
df_B017_filtered = df_B017_msorted[df_B017_msorted['merged_quantity'] > 50]

# Balkendiagramm plotten
df_B017_filtered.plot.barh(color=petrol_rgb)
plt.xlabel('Quantity')
plt.ylabel('Kind of media')
plt.title('Kind of media the participants use')

# Zeige das Diagramm an
plt.show()

### If no:
## B22. Do you know of online databases or data repositories where you can find data for your domain?


In [None]:
# Spalten mit Namen, die "B018" enthalten, anzeigen
df_B018 = df_cleanquest_2023.filter(like='B018')
df_B018

In [None]:
# Leeres Dictionary für die Werte erstellen
values_dict = {}

# For-Schleife um Zeilen zu durchsuchen, bei denen die Spalte "VAR" den aktuellen Spaltennamen (column) enthält. 
# Ergebnis in values_dict speichern
for col_name in df_B018:
    values_dict[col_name] = df_values[df_values["VAR"] == col_name]

# Ergebnisse anzeigen
for col_name, values_df in values_dict.items():
    print(f"Values for {col_name}:")
    print(values_df)
    print()

In [None]:
# Zahlen gegen Bedeutungen ersetzen
df_B018.loc[:, 'B018'].replace({1: 'Yes', 2: 'No', -9: 'No answer'}, inplace=True)

# Zellen mit gleichem Inhalt zählen und neuen df erzeugen
df_B018_counted = df_B018['B018'].value_counts().to_frame()

# Spalten umbenennen
df_B018_counted.reset_index(inplace=True)
df_B018_counted.rename(columns={'index': 'answer', 'B018': 'quantity'}, inplace=True)

df_B018_counted

In [None]:
# Spalte "answer" als Index setzen
df_B018_counted.set_index('answer', inplace=True)

# Säulendiagramm plotten
df_B018_counted.plot.bar(color=orange_rgb)
plt.xlabel('Answer')
plt.ylabel('Quantity')
plt.title('Knowing of online databases')

# Zeige das Diagramm an
plt.show()

In [None]:
# Freitextantworten und Häufigkeit zur Frage anzeigen ->Spalte B018_1 und in neuen df schreiben
df_B018_a = df_cleanquest_2023['B018_01'].value_counts().to_frame()

# Spalten umbenennen
df_B018_a.reset_index(inplace=True)
df_B018_a.rename(columns={'index': 'database', 'B018_01': 'quantity'}, inplace=True)

df_B018_a

In [None]:
print(df_B018_a['database'].dtype)

In [None]:
df_B018_a['database'] = df_B018_a['database'].astype(str)

In [None]:
# Dictionary erzeugen. was im nächsten Schritt in einen df umgewandelt wird. split() hat nicht funktioniert
data_B018_01 = {
    'database': [
        'CCDC',
        'chemotion repository',
        'Scifinder',
        'Zenodo',
        'ECHA databases on chemical safety',
        'dataverseNL',
        'Chembl',
        'Crystallography Open Database',
        'ICDD',
        'echemdb.org',
        'Seafile',
        'Reaxis',
        'SciFindern',
        'Zenodo',
        'Kadi4Mat',
        'Nomad',
        'SciFinder',
        'sciencedirect',
        'onlinelibrary.wiley',
        'Rruff',
        'PDB',
        'Reaxys',
        'SciFinder',
        'NIST',
        'DESY sync & share cloud',
        'ExPaNDS',
        'DAPHNE4NFDI',
        'ICSD',
        'CSD',
        'CSD',
        'ICSD',
        'NOMAD',
        'Kadi4Mat',
        'Zenodo',
        'nomad',
        'materials project',
        'Metabolights',
        'zenodo',
        'PubChem',
        'NMR data bases',
        'csd',
        'CCDC',
        'CSD',
        'ccdc',
        'Scifinder',
        'nmrdb',
        'Chemotion',
        'arXiv',
        'NCBI databases (inlc. PubChem)',
        'ChEMBL',
        'PDB',
        'Darus',
        'GitHub',
        'SciFinder',
        'Seek',
        'ChEMBL',
        'drug bank',
        'chemeo',
        'pubchem',
        'ICSD',
        'COD',
        'CCDC',
        'CSD',
        'CCDC',
        'KEGG PAthway database',
        'SCI-Finder',
        'reaxys',
        'Structure databases',
        'inptdat',
        'Cristallographic database',
        'NIST',
        're3data.org',
        'figshare',
        'Reaxys'
    ],
    'quantity': [
        2, 2, 2, 2, 1, 1, 1, 1, 1, 1,
        1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
        1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
        1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
        1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
        1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
        1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
        1, 1, 1, 1
    ]
}

df_B018_a_modified = pd.DataFrame(data_B018_01)

print(df_B018_a_modified)

In [None]:
# Werte mit gleicher Bedeutung zusammenführen
df_B018_a_modified['database'] = df_B018_a_modified['database'].apply(lambda x: 'Cambridge Structural Database' if 'ccdc' in x.lower() or 'csd' in x.lower() or 'cristal' in x.lower() else
                                                              ('Zenodo' if 'zen' in x.lower() else
                                                               ('SciFinder' if 'sci' in x.lower() or 'find' in x.lower () else
                                                                ('Reaxys' if 'reax' in x.lower() else 
                                                                 ('PubChem' if 'pubch' in x.lower() else 
                                                                  ('Chemotion' if 'chemotion' in x.lower() else
                                                                   ('Crystallography Open Database' if 'cod' in x.lower() else
                                                                    ('Nomad' if 'nomad' in x.lower() else x))))))))

# Gruppieren der Bedeutungen und Summierung durchführen
df_B018_grouped = df_B018_a_modified.groupby('database')['quantity'].sum().reset_index()

# Ergebnisse nach Häufigkeit sortieren
df_B018_sorted = df_B018_grouped.sort_values(by='quantity', ascending=False)

df_B018_sorted

In [None]:
# Spalte "database" als Index setzen
df_B018_sorted.set_index('database', inplace=True)

# Balkendiagramm anpassen
fig, ax = plt.subplots(figsize=(10, 6))  # Größe des Diagramms anpassen
bar_width = 0.5  # Breite der Balken anpassen

# Daten mit angepasster Balkenbreite und Farbe plotten
df_B018_sorted.plot.bar(color=orange_rgb, width=bar_width, ax=ax)
plt.xlabel('Database')
plt.ylabel('Quantity')
plt.title('Most used databases')

plt.show()

## B23. Have you re-used data provided by other scientists?
### Multiple selections possible.

In [None]:
# Spalten mit Namen, die "B019" enthalten, anzeigen
df_B019 = df_cleanquest_2023.filter(like='B019')
df_B019

In [None]:
# Leeres Dictionary für die Werte erstellen
values_dict = {}

# For-Schleife um Zeilen zu durchsuchen, bei denen die Spalte "VAR" den aktuellen Spaltennamen (column) enthält. 
# Ergebnis in values_dict speichern
for col_name in df_B019:
    values_dict[col_name] = df_values[df_values["VAR"] == col_name]

# Ergebnisse anzeigen
for col_name, values_df in values_dict.items():
    print(f"Values for {col_name}:")
    print(values_df)
    print()

In [None]:
# Zeilen von Index 108 bis 120 anzeigen
selected_rows_B019 = df_variables.iloc[108:121]
selected_rows_B019

In [None]:
# Werte in Spalten umbenennen, so dass Teildisziplin bekannt wird
# Dictionary erstellen
col_name_clear_B019 = {
    'B019': 'Ausweichoption (negativ) oder Anzahl',
    'B019_01': 'Yes, data by a colleague from the same institute/working group.',
    'B019_02': 'Yes, data by a colleague from another institute.',
    'B019_03': 'Yes, data from supplemental materials of a publication.',
    'B019_04': 'Yes, data from a data repository.',
    'B019_05': 'Yes, other.',
    'B019_05a': 'Yes, open text',
    'B019_06': 'No, the desired data were not available.',
    'B019_07': 'No, the desired data were not sufficiently described.',
    'B019_08': 'No, I do not trust data from others.',
    'B019_09': 'No, until now, it was not required to use other data.',
    'B019_10': 'No, because',
    'B019_10a': 'No, open text'
}

# Variable gegen Bedeutung ersetzen
df_B019 = df_B019.rename(columns=col_name_clear_B019)

# Anzahl der Vorkommen von 2 in den Spalten B019_01 - B019_10 zählen und in einen df schreiben
df_B019_count = df_B019.apply(lambda col: (col == 2).sum()).to_frame()
df_B019_count.reset_index(inplace=True)

# Spalten umbenennen
df_B019_count.rename(columns={'index':'re-use of data', 0:'quantity'}, inplace=True)
df_B019_count = df_B019_count.drop(0)

df_B019_count

In [None]:
# Freitextantworten und Häufigkeit zur Frage anzeigen ->Spalte B019_5a "Yes, other" und in neuen df schreiben
df_B019_a = df_cleanquest_2023['B019_05a'].value_counts().to_frame()

# Spalten umbenennen
df_B019_a.reset_index(inplace=True)
df_B019_a.rename(columns={'index': 're-use of data', 'B019_05a': 'quantity'}, inplace=True)

df_B019_a

In [None]:
# Freitextantworten und Häufigkeit zur Frage anzeigen ->Spalte B019_10a "No, because" und in neuen df schreiben
df_B019_b = df_cleanquest_2023['B019_10a'].value_counts().to_frame()

# Spalten umbenennen
df_B019_b.reset_index(inplace=True)
df_B019_b.rename(columns={'index': 're-use of data', 'B019_10a': 'quantity'}, inplace=True)

df_B019_b

In [None]:
# Zeilen mit Index 6 und 12 löschen, weil sie freien Text beinhalten.
indices_to_drop = [6, 12]
df_B019_count.drop(indices_to_drop, inplace=True)

# Ergebnisse nach Häufigkeit sortieren
df_B019_sorted = df_B019_count.sort_values(by='quantity', ascending=False)

df_B019_sorted

In [None]:
# Größe des Diagramms anpassen
fig, ax = plt.subplots(figsize=(10, 6)) 

# Spalte "re-use of data" als Index setzen
df_B019_sorted.set_index('re-use of data', inplace=True)

# Balkendiagramm plotten
bars = df_B019_sorted.plot.barh(ax=ax, color=petrol_rgb)

# Füge die absoluten Werte in die Balken ein
for bar in bars.patches:
    ax.text(bar.get_width(), bar.get_y() + bar.get_height() / 2, int(bar.get_width()),
            va='center', ha='right', color='white')

plt.xlabel('Quantity')
plt.ylabel('Re-use of data')
plt.title('How the participants re-use data')

plt.show()

### If yes:
## B24. Please describe briefly for which purpose you re-used data.

In [None]:
# Spalten mit Namen, die "B020" enthalten, anzeigen
df_B020 = df_cleanquest_2023.filter(like='B020')
df_B020

In [None]:
# Extrahiere die nicht-NA-Werte aus der Spalte "B020_01" und speichere sie in einer Liste
list_B020 = df_B020['B020_01'].dropna().tolist()

# Zeige die Liste der nicht-NA-Werte an
print(list_B020)

In [None]:
# Zeige die Gesamtanzahl der Einträge in der Liste an
gesamt_anzahl_B020 = len(list_B020)
print(f'Gesamtanzahl der Einträge: {gesamt_anzahl_B020}')

In [None]:
from collections import Counter

# Liste der gesuchten Wörter
interessante_keywords = ['complement', 'confirm', 'compare', 'publish', 'process']  # Ersetze diese mit den tatsächlichen Wörtern

# Zählen, wie oft jedes gesuchte Wort in der Liste vorkommt
wort_zaehlen = Counter(value for value in list_B020 for wort in interessante_keywords if wort in value)

# Anzahl der Vorkommen jedes gesuchten Worts ausgeben
for wort, anzahl in wort_zaehlen.items():
    print(f'Wort: {wort}, Anzahl: {anzahl}')

In [None]:
# insgesamte Anzahl für jedes gesuchte Wort berechnen
insgesamt_complement = wort_zaehlen['complement']
insgesamt_compare = wort_zaehlen['compare']

# insgesamte Anzahl für jedes gesuchte Wort ausgeben
print(f'Insgesamt Anzahl für complement: {insgesamt_complement}')
print(f'Insgesamt Anzahl für wort2: {insgesamt_compare}')

In [None]:
# Counter-Daten in ein df schreiben
df_wort_zaehlen = pd.DataFrame.from_dict(wort_zaehlen, orient='index', columns=['Anzahl'])

print(df_wort_zaehlen)

## B25. Do you know services that could support in handling your data (archiving, exchange with partners, publication)?


In [None]:
# Spalten mit Namen, die "B018" enthalten, anzeigen
df_B021 = df_cleanquest_2023.filter(like='B021')
df_B021

In [None]:
# Leeres Dictionary für die Werte erstellen
values_dict = {}

# For-Schleife um Zeilen zu durchsuchen, bei denen die Spalte "VAR" den aktuellen Spaltennamen (column) enthält. 
# Ergebnis in values_dict speichern
for col_name in df_B021:
    values_dict[col_name] = df_values[df_values["VAR"] == col_name]

# Ergebnisse anzeigen
for col_name, values_df in values_dict.items():
    print(f"Values for {col_name}:")
    print(values_df)
    print()

In [None]:
# Values gegen Bedeutung ersetzen
df_B021.loc[:, 'B021'].replace({1: 'Yes, I know', 2: 'No', -9: 'No answer'}, inplace=True)

# Bedeutungen zählen und in einen neuen df ausgeben
df_B021_counted = df_B021['B021'].value_counts().to_frame()

# Spalten umbenennen
df_B021_counted.reset_index(inplace=True)
df_B021_counted.rename(columns={'index': 'answer', 'B021': 'quantity'}, inplace=True)

df_B021_counted

In [None]:
# Spalte "answer" als Index setzen
df_B021_counted.set_index('answer', inplace=True)

# Balkendiagramm plotten
df_B021_counted.plot.bar(color=orange_rgb)
plt.xlabel('Answer')
plt.ylabel('Quantity')
plt.title('Knowing of services')

plt.show()

In [None]:
# Freitextantworten und Häufigkeit zur Frage anzeigen ->Spalte B021_01 und in neuen df schreiben
df_B021_a = df_cleanquest_2023['B021_01'].value_counts().to_frame()

# Spalten umbenennen
df_B021_a.reset_index(inplace=True)
df_B021_a.rename(columns={'index': 'service', 'B021_01': 'quantity'}, inplace=True)

df_B021_a

In [None]:
# Angaben in der Spalte aufteilen, bei denen mehrere Angaben durch Kommas getrennt sind
df_B021_a['service'] = df_B021_a['service'].str.split(',')

# aufgeteilte Angaben in separate Zeilen zu schreiben
df_B021_a_exploded = df_B021_a.explode('service')

print(df_B021_a_exploded)

In [None]:
# Werte mit gleicher Bedeutung zusammenführen
df_B021_a_exploded['service'] = df_B021_a_exploded['service'].apply(lambda x: 'Cambridge Structural Database' if 'ccdc' in x.lower() or 'csd' in x.lower() or 'cristal' in x.lower() else
                                                              ('Zenodo' if 'zen' in x.lower() else
                                                               ('SciFinder' if 'sci' in x.lower() or 'find' in x.lower () else
                                                                ('Reaxys' if 'reax' in x.lower() else 
                                                                 ('PubChem' if 'pubch' in x.lower() else 
                                                                  ('Chemotion' if 'chemotion' in x.lower() else
                                                                   ('Crystallography Open Database' if 'cod' in x.lower() else
                                                                    ('Nomad' if 'nomad' in x.lower() else 
                                                                     ('GitHub/GitLab' if 'git' in x.lower() else 
                                                                      ('Cloud service' if 'sciebo' in x.lower() or 'cloud' in x.lower () or 'sync' in x.lower () or 'share' in x.lower () else
                                                                       ('Institutional service' if 'university' in x.lower() or 'department' in x.lower () or 'library' in x.lower () or 'institut' in x.lower () or 'local' in x.lower () or 'darus' in x.lower () else 
                                                                        ('eLabFTW' if 'ftw' in x.lower() else 
                                                                         ('ELN in general' if 'eln' in x.lower() else
                                                                          ('NFDI' if 'nfdi' in x.lower() else x))))))))))))))

# Gruppieren der Bedeutungen und Summierung durchführen
df_B021_grouped = df_B021_a_exploded.groupby('service')['quantity'].sum().reset_index()

# Ergebnisse nach Häufigkeit sortieren
df_B021_sorted = df_B021_grouped.sort_values(by='quantity', ascending=False)

df_B021_sorted

In [None]:
# Größe des Diagramms anpassen
fig, ax = plt.subplots(figsize=(10, 6))

# Zeilen mit einer Quantity von über 3 filtern
df_B021_filtered = df_B021_sorted[df_B021_sorted['quantity'] > 3]

# Spalte "service" als Index setzen
df_B021_filtered.set_index('service', inplace=True)

# Balkendiagramm plotten
bars_B021 = df_B021_filtered.plot.barh(ax=ax, color=petrol_rgb)

# absolute Werte in die Balken einfügen
for bar in bars_B021.patches:
    ax.text(bar.get_width(), bar.get_y() + bar.get_height() / 2, int(bar.get_width()),
            va='center', ha='right', color='white')

plt.xlabel('Quantity')
plt.ylabel('Service')
plt.title('Kind of Services the participants use')

plt.show()

## B26. From your point of view, describe what tools and resources for managing and publishing your research data should be created/and or how they should function/be improved?

In [None]:
# Spalten mit Namen, die "B022" enthalten, anzeigen
df_B022 = df_cleanquest_2023.filter(like='B022')
df_B022

In [None]:
# Extrahiere die nicht-NA-Werte aus der Spalte "B022_01" und speichere sie in einer Liste
list_B022 = df_B022['B022_01'].dropna().tolist()

# Zeige die Liste der nicht-NA-Werte an
print(list_B022)

In [None]:
# Zeige die Gesamtanzahl der Einträge in der Liste an
gesamt_anzahl_B022 = len(list_B022)
print(f'Gesamtanzahl der Einträge: {gesamt_anzahl_B022}')

## B27. What does not work at all in your own data management and should urgently be improved?

In [None]:
# Spalten mit Namen, die "B023" enthalten, anzeigen
df_B023 = df_cleanquest_2023.filter(like='B023')
df_B023

In [None]:
# nicht-NA-Werte aus der Spalte "B023_01" extrahieren und als Liste speichern
list_B023 = df_B023['B023_01'].dropna().tolist()

print(list_B023)

In [None]:
# Zeige die Gesamtanzahl der Einträge in der Liste an
gesamt_anzahl_B023 = len(list_B023)
print(f'Gesamtanzahl der Einträge: {gesamt_anzahl_B023}')

## B28. What is the largest obstacle for you to share data?
### Multiple selections possible.

In [None]:
# Spalten mit Namen, die "B024" enthalten, anzeigen
df_B024 = df_cleanquest_2023.filter(like='B024')
df_B024

In [None]:
# Leeres Dictionary für die Werte erstellen
values_dict = {}

# For-Schleife um Zeilen zu durchsuchen, bei denen die Spalte "VAR" den aktuellen Spaltennamen (column) enthält. 
# Ergebnis in values_dict speichern
for col_name in df_B024:
    values_dict[col_name] = df_values[df_values["VAR"] == col_name]

# Ergebnisse anzeigen
for col_name, values_df in values_dict.items():
    print(f"Values for {col_name}:")
    print(values_df)
    print()

In [None]:
# Zeilen von Index 126 bis 135 anzeigen
selected_rows_B024 = df_variables.iloc[126:136]
selected_rows_B024

In [None]:
# Spalten umbenennen, so dass Teildisziplin bekannt wird
# Dictionary erstellen
col_name_clear_B024 = {
    'B024': 'Ausweichoption (negativ) oder Anzahl',
    'B024_01': 'Not enough time',
    'B024_02': 'Fear of stolen data',
    'B024_03': 'Not enough money',
    'B024_04': 'Not enough knowledge',
    'B024_05': 'Not yet thought about it',
    'B024_06': 'My data are not meaningful to others.',
    'B024_07': 'Adequate software tools / infrastructures / services etc. are not available',
    'B024_08': 'Other',
    'B024_08a': 'Open Text'
}

# Values durch die Bedeutung ersetzen
df_B024 = df_B024.rename(columns=col_name_clear_B024)

# Anzahl der Vorkommen von 2 in den Spalten B024_01 - B024_08 zählen und Liste in einen df schreiben
df_B024_count = df_B024.apply(lambda col: (col == 2).sum()).to_frame()

# Spalten umbenennen
df_B024_count.reset_index(inplace=True)
df_B024_count.rename(columns={'index':'largest obstacle', 0:'quantity'}, inplace=True)

# Index 0 löschen
df_B024_count = df_B024_count.drop(0)

df_B024_count

In [None]:
# Freitextantworten und Häufigkeit zur Frage anzeigen ->Spalte B024_08a und in neuen df schreiben
df_B024_a = df_cleanquest_2023['B024_08a'].value_counts().to_frame()

# Spalten umbenennen
df_B024_a.reset_index(inplace=True)
df_B024_a.rename(columns={'index': 'largest obstacle', 'B024_08a': 'quantity'}, inplace=True)

df_B024_a

In [None]:
# Werte mit gleicher Bedeutung zusammenführen
df_B024_a['largest obstacle'] = df_B024_a['largest obstacle'].apply(lambda x: 'Not enough knowledge' if 'problem' in x.lower() or 'fear of error' in x.lower() else
                                                              ('Risk-benefit analysis' if 'risk' in x.lower() else
                                                               ('Not enough money' if 'paid' in x.lower() or 'see above' in x.lower () or 'money' in x.lower () or 'cost' in x.lower () else
                                                                ('Non-disclosure Agreements/Legal Aspects' if 'nda' in x.lower() or 'confident' in x.lower () or 'legal' in x.lower () or 'patent' in x.lower () else 
                                                                 ('Not enough time' if 'time' in x.lower() else 
                                                                  ('No obstacle' if 'obstacle' in x.lower() or 'non' in x.lower () else
                                                                   ('Adequate software tools / infrastructures / services etc. are not available' if 'interface' in x.lower() or 'ui' in x.lower () or 'missing' in x.lower () else x)))))))

# Gruppieren und Summieren der Werte
df_B024_grouped = df_B024_a.groupby('largest obstacle')['quantity'].sum().reset_index()


# Ergebnisse nach Häufigkeit sortieren
df_B024_sorted = df_B024_grouped.sort_values(by='quantity', ascending=False)

df_B024_sorted

In [None]:
# Dfs anhand des gemeinsamen Schlüssels 'largest obstacle' zusammenführen
df_B024_merge = pd.merge(df_B024_count, df_B024_sorted, on='largest obstacle', how='outer')

# Spalten quantity_x und quantity_y zusammenführen und Werte summieren
df_B024_merge['merged_quantity'] = df_B024_merge[['quantity_x', 'quantity_y']].sum(axis=1)

# ursprüngliche Spalten löschen
df_B024_merge.drop(['quantity_x', 'quantity_y'], axis=1, inplace=True)

df_B024_merge

In [None]:
# Zeilen mit Index 7 und 8 löschen, weil sie in den Freitextantworten aufgeschlüsselt wurde und als solche eingefügt wurden.
rows_to_delete_B024 = [7,8]
df_B024_merge = df_B024_merge.drop(rows_to_delete_B024)

# Ergebnisse nach Häufigkeit sortieren
df_B024_msorted = df_B024_merge.sort_values(by='merged_quantity', ascending=False)

df_B024_msorted

In [None]:
# Größe des Diagramms anpassen
fig, ax = plt.subplots(figsize=(10, 6))  # Hier kannst du die Größe des Diagramms anpassen

# Zeilen mit einer Quantity von über 50 filtern
df_B024_filtered = df_B024_msorted[df_B024_msorted['merged_quantity'] > 50]

# Spalte "largest obstacle" als Index setzen
df_B024_filtered.set_index('largest obstacle', inplace=True)

# Balkendiagramm plotten
bars_B024 = df_B024_filtered.plot.barh(ax=ax, color=petrol_rgb)

# absolute Werte in die Balken einfügen
for bar in bars_B024.patches:
    ax.text(bar.get_width(), bar.get_y() + bar.get_height() / 2, int(bar.get_width()),
            va='center', ha='right', color='white')

plt.xlabel('Quantity')
plt.ylabel('Largest obstacle')
plt.title('Largest obstacle the participants have')

plt.show()