### Clean data and create jsonl files of them instead

In [46]:
import os
import json

def process_json_files(input_folder, output_folder):
    # Ensure output folder exists
    os.makedirs(output_folder, exist_ok=True)
    
    # Loop through each folder (e.g., "anforande199394", ..., "anforande202223")
    for folder_name in os.listdir(input_folder):
        folder_path = os.path.join(input_folder, folder_name)
        print(f"Processing folder: {folder_path}")
        
        # Only process directories
        if os.path.isdir(folder_path):
            year = folder_name  # Use the folder name for the output file
            
            # Prepare the JSONL file for writing
            output_file = os.path.join(output_folder, f"{year}.jsonl")
            
            with open(output_file, 'w', encoding='utf-8') as jsonl_file:
                # Loop through all JSON files in the folder
                for file_name in os.listdir(folder_path):
                    if file_name.endswith('.json'):
                        file_path = os.path.join(folder_path, file_name)                        
                        # Read and process the JSON file
                        with open(file_path, 'r', encoding='utf-8-sig') as json_file:
                            #data = json.load(json_file)
                            try:
                                data = json.load(json_file)
                                #print("data: ", data)
                                # Extract fields
                                anforande = data.get("anforande", {})
                                anforandetext = anforande.get("anforandetext")
                                parti = anforande.get("parti")
                                if parti:
                                    parti = parti.upper()
                                    if parti == "FP":
                                        parti = "L"
                                dok_datum = anforande.get("dok_datum")
                                if dok_datum:
                                    dok_datum = dok_datum.split(" ")[0]
                                
                                # If all fields are present, write to the JSONL file
                                if anforandetext and parti and dok_datum:
                                    jsonl_file.write(json.dumps({
                                        "anforandetext": anforandetext,
                                        "parti": parti,
                                        "dok_datum": dok_datum
                                    }) + '\n')
                            except json.JSONDecodeError:
                                print(f"Error decoding JSON in file: {file_path}")
                                #continue


In [47]:
# Define input and output directories
input_folder = 'data'  # Folder containing year folders
output_folder = 'data_jsonl'  # Output folder for JSONL files

# Run the processing function
process_json_files(input_folder, output_folder)

Processing folder: data/anforande-200910
Processing folder: data/anforande-200607
Processing folder: data/anforande-201112
Processing folder: data/anforande-201920
Processing folder: data/anforande-200405
Processing folder: data/anforande-201718
Processing folder: data/anforande-200809
Processing folder: data/anforande-202324
Processing folder: data/anforande-201011
Processing folder: data/anforande-200304
Processing folder: data/anforande-201213
Processing folder: data/anforande-199798
Processing folder: data/anforande-200506
Processing folder: data/anforande-202223
Processing folder: data/anforande-202021
Processing folder: data/anforande-19992000
Processing folder: data/anforande-200001
Processing folder: data/anforande-199697
Processing folder: data/anforande-201314
Processing folder: data/anforande-200203
Processing folder: data/anforande-199899
Processing folder: data/anforande-199495
Processing folder: data/anforande-201516
Processing folder: data/anforande-202122
Processing fol

### Testing extracting from jsonl files

In [45]:
import json

def extract_text_from_jsonl(jsonl_file_path):
    texts = []

    # Open and read the JSONL file
    with open(jsonl_file_path, 'r', encoding='utf-8') as jsonl_file:
        for line in jsonl_file:
            # Parse the JSON object in each line
            record = json.loads(line)
            # Extract the "anforandetext" field
            anforandetext = record.get("anforandetext")
            if anforandetext:
                texts.append(anforandetext)
    return texts

# Example usage
jsonl_file = 'data_jsonl/anforande-199394.jsonl'

texts = extract_text_from_jsonl(jsonl_file)

# Print first few extracted texts
for i, text in enumerate(texts[:3], start=1):
    print(f"Speech {i}:\n{text}\n")


Speech 1:
Herr talman! Debatten om välfärd och trygghet,
inte minst i framtiden, har varit livlig de senaste
åren. Att intresset för dessa frågor är stort, det
vittnar antalet debattdeltagare i denna debatt om.

Alla politiska partier är eniga om att sociala
välfärdssystem är viktiga för människors trygghet.
Många av de vackra ord som har sagts här, utan
övertoner, tror jag att de flesta av oss kan skriva
under. Men nu är vi olika partier, och vi ser litet
olika på utformningen av de sociala
trygghetssystemen.

Jag kommer huvudsakligen att uppehålla mig vid
socialförsäkringarna, som är mitt huvudområde,
medan andra moderata talare kommer att behandla
frågor om äldrevård och vård av sjuka.

Från moderat sida har vi i många år pekat på
behovet av förändringar i
socialförsäkringssystemen, inte minst med hänsyn
till samhällsekonomin, men också på grund av att
vi anser att människor utöver ett grundläggande
skydd bör ta ett ökat eget ansvar för sina
trygghetsförsäkringar. Välfärdsstatens om

### Clean data and create jsonl files of them instead, this version is for "avsnittsrubrik"

In [3]:
import os
import json

def process_json_files_subjects(input_folder, output_folder):
    # Ensure output folder exists
    os.makedirs(output_folder, exist_ok=True)
    
    # Loop through each folder (e.g., "anforande199394", ..., "anforande202223")
    for folder_name in os.listdir(input_folder):
        folder_path = os.path.join(input_folder, folder_name)
        print(f"Processing folder: {folder_path}")
        
        # Only process directories
        if os.path.isdir(folder_path):
            year = folder_name  # Use the folder name for the output file
            
            # Prepare the JSONL file for writing
            output_file = os.path.join(output_folder, f"{year}.jsonl")
            
            with open(output_file, 'w', encoding='utf-8') as jsonl_file:
                # Loop through all JSON files in the folder
                for file_name in os.listdir(folder_path):
                    if file_name.endswith('.json'):
                        file_path = os.path.join(folder_path, file_name)                        
                        # Read and process the JSON file
                        with open(file_path, 'r', encoding='utf-8-sig') as json_file:
                            #data = json.load(json_file)
                            try:
                                data = json.load(json_file)
                                #print("data: ", data)
                                # Extract fields
                                anforande = data.get("anforande", {})
                                #anforandetext = anforande.get("anforandetext")
                                avsnittsrubrik = anforande.get("underrubrik")
                                if not avsnittsrubrik:
                                    avsnittsrubrik = anforande.get("avsnittsrubrik")
                                parti = anforande.get("parti")
                                if parti:
                                    parti = parti.upper()
                                    if parti == "FP":
                                        parti = "L"
                                dok_datum = anforande.get("dok_datum")
                                # if dok_datum:
                                #     dok_datum = dok_datum.split(" ")[0][:4]
                                if dok_datum:
                                    dok_datum = dok_datum.split(" ")[0]
                                
                                # If all fields are present, write to the JSONL file
                                if avsnittsrubrik and dok_datum and parti in ["V", "MP", "S", "C", "L", "M", "KD" "SD"]:
                                    jsonl_file.write(json.dumps({
                                        "avsnittsrubrik": avsnittsrubrik,
                                        #"anforandetext": anforandetext,
                                        #"parti": parti,
                                        "dok_datum": dok_datum
                                    }) + '\n')
                            except json.JSONDecodeError:
                                print(f"Error decoding JSON in file: {file_path}")
                                #continue


In [4]:
# Define input and output directories
input_folder = 'data'  # Folder containing year folders
output_folder = 'data_jsonl'  # Output folder for JSONL files

# Run the processing function
process_json_files_subjects(input_folder, output_folder)

Processing folder: data/anforande-200910
Processing folder: data/anforande-200607
Processing folder: data/anforande-201112
Processing folder: data/anforande-201920
Processing folder: data/anforande-200405
Processing folder: data/anforande-201718
Processing folder: data/anforande-200809
Processing folder: data/anforande-202324
Processing folder: data/anforande-201011
Processing folder: data/anforande-200304
Processing folder: data/anforande-201213
Processing folder: data/anforande-199798
Processing folder: data/anforande-200506
Processing folder: data/anforande-202223
Processing folder: data/anforande-202021
Processing folder: data/anforande-19992000
Processing folder: data/anforande-200001
Processing folder: data/anforande-199697
Processing folder: data/anforande-201314
Processing folder: data/anforande-200203
Processing folder: data/anforande-199899
Processing folder: data/anforande-199495
Processing folder: data/anforande-201516
Processing folder: data/anforande-202122
Processing fol