In [2]:
import pandas as pd

df = pd.read_csv('../../data/data_aggr.csv', parse_dates=['date', 'publish_date'])

In [7]:
pd.set_option('display.max_colwidth',999)

In [9]:
test = df.url.head(1)

In [20]:
def aggregate_strings(url_column):
    # Step 1: Split the strings in each row by the delimiter ';' to get individual elements
    url_column = url_column.apply(lambda x: x.split(';'))
    
    # Step 2: Merge all the lists together
    all_elements = sum(url_column, [])
    
    # Step 3: Remove duplicates
    unique_elements = list(set(all_elements))
    
    # Step 4: Concatenate the unique elements into a single string
    result = ';'.join(unique_elements)
    
    return result

In [25]:
df_agg = df.groupby(['page_id'], as_index=False)\
        .agg(
        {
                'date':'count',
                'url': aggregate_strings,
                'version_id': 'max',
                'publish_date': 'max',
                'word_count': 'mean',
                'classification_product': 'first',
                'classification_type': 'first',
                'page_name': 'first',
                'title': 'first',
                'authors': 'last', 
                'external_clicks': 'sum', 
                'external_impressions': 'sum',
                'daily_likes': 'sum',
                'daily_dislikes': 'sum',
                'video_play': 'sum',
                'page_impressions': 'sum',
                'clickouts': 'sum'
        }
        )

df_agg.insert(3, 'n_urls', df_agg.url.apply(lambda urllist: len(urllist.split(';'))))

In [26]:
df_agg

Unnamed: 0,page_id,date,url,n_urls,version_id,publish_date,word_count,classification_product,classification_type,page_name,title,authors,external_clicks,external_impressions,daily_likes,daily_dislikes,video_play,page_impressions,clickouts
0,1037,6,https://efahrer.chip.de/e-wissen/aufladen_1037;https://efahrer.chip.de/e-wissen/elektrofahrzeug-ladestation_1037,2,0,2024-03-10,827.0,E-Auto,Ratgeber,efa-1037 | Ladestationen für Elektroautos,Ladestationen für Elektroautos,Eva Goldschald,256.0,5444.0,2.0,5.0,0.0,399.0,5.0
1,1039,1,https://efahrer.chip.de/e-wissen/elektroauto-foerderung-2022-wo-sie-noch-satt-absahnen-koennen-und-wo-nicht_1039;https://efahrer.chip.de/e-wissen/elektroauto-foerderung-2024-wo-sie-noch-satt-absahnen-koennen-und-wo-nicht_1039,2,0,2022-05-05,1066.0,E-Auto,News,efa-1039 | Elektroauto-Förderung 2022: Hier können Sie noch abstauben,Elektroauto-Förderung 2022: Hier können Sie noch abstauben,Moritz Diethelm,124.0,1728.0,0.0,0.0,3.0,151.0,0.0
2,1040,10,https://efahrer.chip.de/news/haetten-sie-es-gewusst-so-lange-gibt-es-schon-e-autos_1040,1,0,2024-02-21,466.0,E-Auto,News,efa-1040 | Geschichte der Elektroautos: Erste Stromer der Welt kommt aus Deutschland,Geschichte der Elektroautos: Erste Stromer der Welt kommt aus Deutschland,Marius Eichfelder,83.0,2575.0,4.0,0.0,95.0,239.0,0.0
3,10245,3,https://efahrer.chip.de/news/kleinste-auto-der-welt-kommt-zurueck-fans-koennen-es-jetzt-selber-bauen_10245,1,0,2018-01-01,0.0,Auto,Kaufberatung,efa-10245 | Das kleinste Auto der Welt – jetzt auch als Elektroauto,Das kleinste Auto der Welt – jetzt auch als Elektroauto,Sven Schulz,80.0,845.0,0.0,0.0,91.0,147.0,0.0
4,10273,24,https://efahrer.chip.de/news/mehr-reichweite-im-winter-diese-tricks-muessen-e-autofahrer-kennen_10273;https://efahrer.chip.de/news/e-auto-reichweite-im-winter-erhoehen-6-tricks-die-jeder-kennen-sollte_10273;https://efahrer.chip.de/news/mehr-reichweite-im-winter-so-holen-sie-alles-aus-ihrem-e-auto-akku-raus_10273;https://efahrer.chip.de/news/winter-tipps-fuer-e-autofahrer-diese-tricks-erhoehen-die-reichweite_10273,4,4,2024-02-28,530.5,E-Auto,Ratgeber,efa-10273 | So fahren E-Autos im Winter weiter: Diese 6 Tricks müssen die Fahrer kennen,So fahren E-Autos im Winter weiter: Diese 6 Tricks müssen die Fahrer kennen,Sepp Reitberger,3384.0,94132.0,20.0,7.0,7834.0,7139.0,16.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
6810,1018768,2,https://efahrer.chip.de/news/deutschland-bekommt-wasserstoff-fabrik-sie-steht-genau-am-richtigen-ort_1018768,1,0,2018-01-01,0.0,Energie,News,efa-1018768 | Deutschland bekommt Wasserstoff-Fabrik: Sie steht genau am richtigen Ort,Deutschland bekommt Wasserstoff-Fabrik: Sie steht genau am richtigen Ort,Gero Gröschel,189254.0,2254612.0,0.0,0.0,47212.0,128072.0,0.0
6811,1018770,1,https://efahrer.chip.de/news/batterie-geheimnisse-maenner-sollen-tesla-bestohlen-und-firma-gegruendet-haben_1018770,1,0,2018-01-01,0.0,E-Auto,News,efa-1018770 | Batterie-Geheimnisse: Männer sollen Tesla bestohlen und Firma gegründet haben,Batterie-Geheimnisse: Männer sollen Tesla bestohlen und Firma gegründet haben,Karl Lüdecke,3822.0,48838.0,0.0,0.0,1103.0,2725.0,0.0
6812,1018771,1,https://efahrer.chip.de/news/wallboxen-guenstig-kaufen-das-sind-die-guenstigsten-ladestationen-fuer-e-autos_1018771,1,0,2018-01-01,0.0,Wallbox/Laden,Kaufberatung,efa-1018771 | Wallboxen günstig kaufen: Das sind die günstigsten Ladestationen für E-Autos,Wallboxen günstig kaufen: Das sind die günstigsten Ladestationen für E-Autos,Katrin Lehmann,1492.0,32728.0,0.0,0.0,841.0,1254.0,0.0
6813,1018776,1,https://efahrer.chip.de/news/e-auto-fahrer-sind-fein-raus-deutsches-gericht-erzwingt-schaerfere-fahrverbote_1018776,1,0,2018-01-01,0.0,Verkehr,News,efa-1018776 | E-Auto-Fahrer sind fein raus: Deutsches Gericht erzwingt schärfere Fahrverbote,E-Auto-Fahrer sind fein raus: Deutsches Gericht erzwingt schärfere Fahrverbote,Karl Lüdecke,347.0,6890.0,0.0,0.0,539.0,907.0,0.0
