In [1]:
# This script contains a function that chunks the text into sentences for unannotated manifestos from 1963 to 1995
import nltk
nltk.download('punkt')
from nltk.tokenize import sent_tokenize

import numpy as np
import pandas as pd


[nltk_data] Downloading package punkt to C:\Users\Laura
[nltk_data]     Mauricio\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!


In [3]:
df_orig = pd.read_csv("./data/manifesto_texts.csv")[["party", "date", "text"]]
df = df_orig[df_orig["date"] < 199910]
df

Unnamed: 0,party,date,text
0,43320,196310,ARBEITSPROGRAMM 1963 Vor 75 Jahren erfolgte d...
1,43420,196310,Extrait du Programme d'action 1963 du PRDS Do...
2,43520,196310,Mit uns die Zeit gestalten. Die Berichte des ...
3,43810,196310,Anhang: Aktionsprogramm der Schweizerischen B...
4,43320,196710,Parti socialiste suisse Programme d’action 19...
5,43420,196710,Einleitung Die Schweiz steht mitten in einer ...
6,43520,196710,Voran mit klarem Kurs. Aktionsprogramm der Ko...
7,43810,196710,L. AKTIONSPROGRAMM DER BGB 1967 — 1971 In ein...
8,43320,197110,"Manifest 1971 So wie Jetzt, geht es nicht Ei..."
9,43420,197110,Objectifs 71 Le programme que nous vous prése...


In [79]:
all_manifestos = df["text"].to_list()

# Chunk all manifestos into sentences keeping date and party
all_dfs = []
for i, manifesto in enumerate(all_manifestos):
    sentences = sent_tokenize(manifesto)

    # Postprocessing (e.g., remove enumerations)
    sentences = [sentence for sentence in sentences if len(sentence) > 7]

    chunked_manifesto_df = pd.DataFrame({"party": np.nan, "date": np.nan, "text": sentences})
    chunked_manifesto_df["party"] = df.iloc[i, 0]
    chunked_manifesto_df["date"] = df.iloc[i, 1]
    all_dfs.append(chunked_manifesto_df)

dft = pd.concat(all_dfs)
dft

Unnamed: 0,party,date,text
0,43320,196310,ARBEITSPROGRAMM 1963 Vor 75 Jahren erfolgte d...
1,43320,196310,In Würdigung dieses historischen und für die w...
2,43320,196310,Recht auf Bildung — Chancen für die Jugend De...
3,43320,196310,Jedermann soll Anteil an den kulturellen Werte...
4,43320,196310,Was dem ganzen Volke und vornehmlich der Jugen...
...,...,...,...
412,43810,199510,• dass der körperliche Drogenentzug weiterhin ...
413,43810,199510,• dass sowohl der Entzug mit medikamentöser Be...
414,43810,199510,Der Entzug muss auch gegen den Willen der Betr...
415,43810,199510,Es sind die geeigneten Massnahmen dafür bereit...


In [80]:
dft["len"] = dft["text"].str.len()
dft.sort_values("len")

Unnamed: 0,party,date,text,len
162,43320,198710,5191 Fr.,8
500,43320,198710,steigen.,8
504,43420,197510,* 15.3.,8
1331,43320,198710,2.1 Mio.,8
60,43520,197510,- santé.,8
...,...,...,...,...
93,43420,197110,Nos propositions: a) avantages fiscaux pour l...,1681
925,43320,198710,Kindergarten - 2 Jahre - obligatorisch - un...,1757
61,43420,197110,Pour rétablir rapidement l'équilibre sur le ma...,1888
33,43320,197110,"wir sehen, was sie, die heutigen Inhaber der S...",2044


In [None]:
dft[dft["len"] == 8]
# => Could do some more postprocessing


In [86]:
dft = dft.drop("len", axis=1)


In [88]:
dft.to_csv("./data/manifesto_texts_pre_99.csv", index=False)