In [1]:
import os
import pandas as pd

# Step 1: Load and combine all CSV files from the specified folder
folder_path = 'data'
csv_files = [os.path.join(folder_path, file) for file in os.listdir(folder_path) if file.endswith('.csv')]
dataframes = [pd.read_csv(file, delimiter=';') for file in csv_files]
combined_df = pd.concat(dataframes, ignore_index=True)

# Step 2: Save the combined data to a temporary CSV
output_path = 'combined_data.csv'
combined_df.to_csv(output_path, index=False, sep=';')

# Step 3: Load the combined data and clean it
data = pd.read_csv(output_path, sep=';')

# Remove rows where the 'ID' column (or first column) starts with '"'
data = data[~data['ID'].astype(str).str.startswith('"')]

# Strip leading/trailing whitespace from all text columns
str_columns = data.select_dtypes(include=['object']).columns
data[str_columns] = data[str_columns].apply(lambda x: x.str.strip())

# Remove duplicate rows based on specified columns
unique_data = data.drop_duplicates(subset=[
    'ID', 'Überschrift', 'Kurztext', 'Text', 'Linien', 
    'Startdatum', 'Enddatum', 'Quelle', 'Anhänge', 
    'Links', 'Bild', 'Kategorien', 'Nachrichtentypen', 'Betroffene Haltestellen'
])

# Drop the 'Bild' and 'Anhänge' columns
unique_data = unique_data.drop(columns=['Bild', 'Anhänge'], errors='ignore')

# Step 4: Save the cleaned data
unique_data.to_csv('clean.csv', index=False)
print("Cleaned dataset without duplicates, unwanted rows, and specified columns has been saved as 'clean.csv'.")

Cleaned dataset without duplicates, unwanted rows, and specified columns has been saved as 'clean.csv'.


In [2]:
unique_data['Überschrift'].value_counts(dropna=False)

Überschrift
Einschränkungen im S-Bahnverkehr auf mehreren Linien aufgrund von Instandhaltungsarbeiten                            35
Ausfall der Linie S62                                                                                                24
Ausfall Linie S62                                                                                                    23
Stuttgart-Vaihingen <> Filderstadt: Zugausfälle und Ersatzverkehr mit Bussen                                         22
Stuttgart Hbf <> Stuttgart-Vaihingen/Zuffenhausen: Zugausfälle und Ersatzverkehr mit Bussen                          15
                                                                                                                     ..
S1, S2 : Weichenstörung S-Rohr behoben                                                                                1
S4, S5, S6, S60, S62: Weichenstörung im Bahnhof Zuffenhausen                                                          1
Defekt am Stellwerk in Wendl