In [96]:
import pandas as pd
import ast
import os

pd.set_option('display.max_columns', None)
pd.set_option('display.max_colwidth', None)
pd.set_option('display.max_rows', None)

folder_path = 'C:/Users/JGras/instagram-topics/instagram-topics/Data'  # Passe den Pfad zu deinem Ordner an
json_files = [f for f in os.listdir(folder_path) if f.endswith('.ndjson')]

all_data = pd.DataFrame()

for json_file in json_files:
    df = pd.read_json(os.path.join(folder_path, json_file), lines=True, dtype=str)
    
    df = df.loc[:, df.columns.intersection(['code','caption', 'taken_at', 'user', 'owner', 'like_count', 'view_count'])]

    def extract_value(string, key):
        try:
            data_dict = ast.literal_eval(string)  
            return data_dict.get(key, '')
        except:
            return ''

    df['text'] = df['caption'].apply(lambda x: extract_value(x, 'text'))
    df['full_name'] = df['owner'].apply(lambda x: extract_value(x, 'full_name'))
    df['user_name'] = df['user'].apply(lambda x: extract_value(x, 'username'))

    
    df = df.loc[:, df.columns.intersection(['code','taken_at', 'like_count', 'view_count', 'text', 'full_name', 'user_name'])]
    df = df[['user_name', 'full_name', 'text', 'taken_at', 'like_count', 'view_count', 'code']]
    
    df['taken_at'] = pd.to_datetime(df['taken_at'])
    df['taken_at'] = df['taken_at'].dt.date
    
    # Füge den aktuellen DataFrame dem Gesamtdatensatz hinzu
    all_data = pd.concat([all_data, df], ignore_index=True)

# Speichere den Gesamtdatensatz als CSV
all_data.to_csv('combined_dataset.csv', index=False)

In [6]:
#all_data = pd.read_csv('combined_dataset.csv')

In [7]:
full_name_counts = all_data['full_name'].value_counts()

to_keep = full_name_counts[full_name_counts >= 10].index

reduced_data = all_data[all_data['full_name'].isin(to_keep)]

print("Anzahl der verbleibenden eindeutigen full_name-Werte:", reduced_data['full_name'].nunique())

print("Anzahl der Zeilen nach der Reduzierung:", len(reduced_data))

Anzahl der verbleibenden eindeutigen full_name-Werte: 59
Anzahl der Zeilen nach der Reduzierung: 14311


In [71]:
pd.set_option('display.max_rows', None)

In [99]:
df = reduced_data

In [100]:
df['full_name'].unique()

array(['Alternative für Deutschland', 'Alice Weidel', 'Annalena Baerbock',
       'Robert Habeck', 'Olaf Scholz', 'Stephan Brandner',
       'Marco Buschmann', 'Bundesministerium der Justiz', 'FDP',
       'Christian Lindner', 'Volker Wissing', 'CDU Deutschlands',
       'Friedrich Merz', 'Carsten Linnemann', 'Martin Huber',
       'CDU/CSU-Bundestagsfraktion', 'Junge Union Deutschlands',
       'Markus Söder', 'Christlich-Soziale Union', 'Mario Czaja',
       'Bundesfinanzministerium', 'Tino Chrupalla',
       'Tanja Schorer-Dremel', 'Saskia Esken', 'SPD', 'Nancy Faeser',
       'SPD Hessen', 'Lars Klingbeil 🇪🇺', 'BÜNDNIS 90/DIE GRÜNEN',
       'GRÜNE JUGEND', 'DGB Jugend', 'Timon Dzienus',
       'Sarah-Lee Heinrich', 'Jusos', 'Gregor Gysi', 'BMEL',
       'SPD-Fraktion im Bundestag', 'Hubertus Heil', 'Anton Hofreiter',
       'Jens Spahn', 'Junge Liberale (JuLis)', 'Karl Lauterbach',
       'Kevin Kühnert', 'Steffi Lemke', 'Bundesumweltministerium #BMUV',
       'Die Linke', 'Ja

In [90]:
polit_dict = {
    'AfD': ['Alternative für Deutschland', 'Alice Weidel', 'Tino Chrupalla', 'Stephan Brandner', 'Beatrix von Storch'],
    'Bündnis 90/Die Grünen': ['Annalena Baerbock', 'Robert Habeck', 'BÜNDNIS 90/DIE GRÜNEN', 'GRÜNE JUGEND', 'Timon Dzienus', 'Sarah-Lee Heinrich', 'BMEL', 'Anton Hofreiter', 'Steffi Lemke', 'Bundesumweltministerium #BMUV', 'Cem Özdemir', 'Lisa Paus', 'BÜNDNIS 90/DIE GRÜNEN Charlottenburg-Wilmersdorf'],
    'FDP': ['Marco Buschmann', 'Bundesministerium der Justiz', 'FDP', 'Christian Lindner', 'Volker Wissing', 'Bundesfinanzministerium', 'Junge Liberale (JuLis)', 'Bettina Stark-Watzinger', 'BMBF'],
    'Die Linke': ["Linksjugend ['solid]", 'Die Linke', 'Martin Schirdewan', 'Janine Wissler', 'Gregor Gysi'],
    'SPD': ['Olaf Scholz', 'Nancy Faeser', 'SPD Hessen', 'Lars Klingbeil 🇪🇺', 'SPD', 'Jusos', 'SPD-Fraktion im Bundestag', 'Hubertus Heil', 'Karl Lauterbach', 'Saskia Esken', 'Svenja Schulze', 'Bundesentwicklungsministerium', 'Katarina Barley', 'Kevin Kühnert'],
    'Union': ['CDU Deutschlands', 'Friedrich Merz', 'Carsten Linnemann', 'Martin Huber', 'CDU/CSU-Bundestagsfraktion', 'Junge Union Deutschlands', 'Markus Söder', 'Christlich-Soziale Union', 'Mario Czaja', 'Tanja Schorer-Dremel', 'Jens Spahn'],
    'BSW': ['Sahra Wagenknecht'],
    'unabhängig': ['DGB Jugend']
}

In [103]:
for party, members in polit_dict.items():
    df.loc[df['full_name'].isin(members), 'partei'] = party

In [8]:
df['partei'].value_counts()

partei
Union                    4543
SPD                      2690
AfD                      2380
FDP                      1922
Bündnis 90/Die Grünen    1601
Die Linke                 954
BSW                       204
unabhängig                 17
Name: count, dtype: int64

In [10]:
len(df)

14311

In [118]:
df.to_csv('combined_dataset.csv', index=False)