In [1]:
import pandas as pd
import numpy as np

In [2]:
def get_chunks(tokens, chunk_length, max_num_chunks, chunk_overlap_ratio):
    """Split a document into sequential chunks
    Parameters
    ----------
    tokens: List of str
        Input document tokens.
    chunk_length: int
        Length of each document chunk.
    max_num_chunks: int (Optional, default None)
        Limit the number of document chunks
    chunk_overlap_ratio: float
        Fraction of overlapping tokens between sequential chunks.
    Returns
    -------
    chunked_document: List of str
        List of document chunks.
    """
    num_tokens = len(tokens)
    if num_tokens == 0:
        return [""]

    num_chunks = int(np.ceil(num_tokens / chunk_length))

    if max_num_chunks is not None:
        num_chunks = min(num_chunks, max_num_chunks)

    return [" ".join(tokens[i:i + chunk_length])
            for i in list(range(0, num_tokens, int(chunk_length * (1 - chunk_overlap_ratio))))[0:num_chunks]]


In [6]:
tt="""Försöksverksamhet utan författningsändring i den kommunala sektorn

Delbetänkande av

Försöksverksamhetskommittén

Stockholm 2022

SOU 2022:59

SOU och Ds finns på regeringen.se under Rättsliga dokument.

Svara på remiss – hur och varför

Statsrådsberedningen, SB PM 2021:1.

Information för dem som ska svara på remiss finns tillgänglig på regeringen.se/remisser.

Layout: Kommittéservice, Regeringskansliet

Omslag: Elanders Sverige AB

Tryck och remisshantering: Elanders Sverige AB, Stockholm 2022

ISBN 
978-91-525-0494-9
 (tryck)

ISBN 
978-91-525-0495-6
 (pdf)

ISSN 
0375-250X

Till statsrådet Erik Slottner

Regeringen beslutade den 3 november 2021 att tillsätta en särskild utredare med uppdrag att främja försöksverksamhet i kommuner och regioner. Syftet med försöksverksamheterna ska vara att öka kommunernas och regionernas kapacitet att hantera de samhällsutmaningar som de står inför.

Utredningen gavs i uppdrag att inledningsvis redovisa försöksverksamheter som inte kräver författningsändring men som utredningen avser att följa och stödja. Denna del av uppdraget skulle redovisas senast den 30 september 2022. Enligt tilläggsdirektiv den 1 september 2022 förlängdes utredningstiden för redovisningen till senast den 11 november 2022.

Den 1 november 2021 förordnades Anders Teljebäck, kommunfullmäktiges ordförande i Västerås kommun, som särskild utredare för detta uppdrag.

Som sakkunniga i utredningen förordnades fr.o.m. den 4 februari 2022 ämnessakkunnige Peter Håkansson, Arbetsmarknadsdepartementet, kanslirådet Andreas Hermansson, Finansdepartementet, departementssekreteraren Christian Magnusson, Utbildningsdepartementet, departementssekreteraren Carl Nilsson, Socialdepartementet, departementssekreteraren Erika Nilsson, Näringsdepartementet, kanslirådet Jenny Wada, Socialdepartementet och departementssekreteraren Ylva Wide, Infrastrukturdepartementet. Samma dag förordnades handläggaren Björn Kullander, SKR, som expert i utredningen.

Den 24 februari 2022 entledigades Christian Magnusson och som ny sakkunnig förordnades departementssekreteraren Christina Hassel, Utbildningsdepartementet.

Den 8 april 2022 entledigades Carl Nilsson och som ny sakkunnig förordnades kanslirådet Anna Weinholt, Socialdepartementet.

Den 22 maj 2022 förordnades departementssekreteraren Li Björk Dronjak, Finansdepartementet, som sakkunnig i utredningen.

Den 2 juni 2022 förordnades kanslirådet Karl Westberg, Näringsdepartementet, som sakkunnig i utredningen."""

In [68]:
def get_chunks(text_input,step=256+128,overlap=128):


    if overlap>=step:
        print("Error! overlap should be smaller than step! Otherwise you'll get into an infinite loop. default values are used")
        overlap=128
        step=256+128

    tokens=text_input.split()
    out_list=[]
    start=0
    end=start+step
    if len(tokens)>(end):
            
        while end<len(tokens):
            end=min(start + step,len(tokens))
            out_list.append(" ".join(tokens[start:end]))
            start=start+step-overlap
    else:
        out_list.append(" ".join(tokens))
    
    return out_list 

In [71]:
chunked=get_chunks(text_input=tt,step=40,overlap=30)
print(len(chunked))

26


In [72]:
print(len(chunked[0].split()))
print('-'*20)
print(len(chunked[1].split()))
print('-'*20)
print(len(chunked[-1].split()))

40
--------------------
40
--------------------
36


In [74]:
from pathlib import Path
PATH_TO_OUTDATA=Path('data')

df=pd.read_pickle(PATH_TO_OUTDATA / 'data.pkl')
df=df.iloc[:10,:]
df

Unnamed: 0_level_0,Titel,rm,doktyp,Departement,Utskott,text
filename,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
h60310,Riksrevisionens rapport om deltagarantal i nya...,2018/19,prop,Arbetsmarknadsdepartementet,AU,Regeringens skrivelse 2018/19:10\n\nRiksrevisi...
h603101,Årsredovisning för staten 2018,2018/19,prop,Finansdepartementet,FiU,Årsredovisning för staten 2018\n\nRegeringens ...
h603102,Omedelbart omhändertagande av barn i vissa int...,2018/19,prop,Socialdepartementet,SoU,Regeringens proposition 2018/19:102\n\nOmedelb...
h603103,Kommittéberättelse - kommittéernas verksamhet ...,2018/19,prop,Statsrådsberedningen,KU,Kommittéberättelse - kommittéernas verksamhet ...
h603104,Sveriges medlemskap i FN:s säkerhetsråd 2017-2018,2018/19,prop,Utrikesdepartementet,UU,Regeringens skrivelse 2018/19:104\n\nSveriges ...
h603105,Utökad fredsplikt på arbetsplatser där det fin...,2018/19,prop,Arbetsmarknadsdepartementet,AU,Regeringens proposition 2018/19:105\n\nUtökad ...
h603106,Anpassningar av svensk lag med anledning av EU...,2018/19,prop,Socialdepartementet,SoU,Anpassningar av svensk lag med anledning av EU...
h603107,Åtgärder mot handel med hyreskontrakt,2018/19,prop,Justitiedepartementet,CU,Regeringens proposition 2018/19:107\n\nÅtgärde...
h603108,Fler tillval för hyresgäster,2018/19,prop,Justitiedepartementet,CU,Regeringens proposition 2018/19:108\n\nFler ti...
h603109,Riksrevisionens rapport om myndighetsreformen ...,2018/19,prop,Utbildningsdepartementet,UbU,Regeringens skrivelse 2018/19:109\n\nRiksrevis...


In [75]:
df['dokdelar']=df['text'].apply(get_chunks)

In [80]:
df.dokdelar.str.len()

filename
h60310     101
h603101    605
h603102    118
h603103    304
h603104    242
h603105    115
h603106    252
h603107    208
h603108    165
h603109    104
Name: dokdelar, dtype: int64

In [88]:
df2=df[['Titel','rm','doktyp','Departement','Utskott','dokdelar']].explode('dokdelar')

In [83]:
df2['dokdelar'].apply(lambda x: len(x.split())).describe()

count    2214.000000
mean      383.448961
std        10.008124
min       132.000000
25%       384.000000
50%       384.000000
75%       384.000000
max       384.000000
Name: dokdelar, dtype: float64

In [84]:
df2['_d']=df2.groupby(df2.index).cumcount()

In [92]:
# Skapar unikt index med hjälp av dok_id och numret på varje deldokument
df2.set_index(df2.index + '_' +df2.groupby(df2.index).cumcount().astype(str))

Unnamed: 0,Titel,rm,doktyp,Departement,Utskott,dokdelar
h60310_0,Riksrevisionens rapport om deltagarantal i nya...,2018/19,prop,Arbetsmarknadsdepartementet,AU,Regeringens skrivelse 2018/19:10 Riksrevisione...
h60310_1,Riksrevisionens rapport om deltagarantal i nya...,2018/19,prop,Arbetsmarknadsdepartementet,AU,överlämnade Riksrevisionens rapport till den f...
h60310_2,Riksrevisionens rapport om deltagarantal i nya...,2018/19,prop,Arbetsmarknadsdepartementet,AU,Riksrevisionens bedömning att hänsyn bör tas t...
h60310_3,Riksrevisionens rapport om deltagarantal i nya...,2018/19,prop,Arbetsmarknadsdepartementet,AU,A N S K N I N G S R A P P O R T F R Å N R I K ...
h60310_4,Riksrevisionens rapport om deltagarantal i nya...,2018/19,prop,Arbetsmarknadsdepartementet,AU,N Skr. 2018/19:10 Bilaga E N G R A N S K N I N...
...,...,...,...,...,...,...
h603109_99,Riksrevisionens rapport om myndighetsreformen ...,2018/19,prop,Utbildningsdepartementet,UbU,"systemförvaltning och systemdrift, UHR Åmossa,..."
h603109_100,Riksrevisionens rapport om myndighetsreformen ...,2018/19,prop,Utbildningsdepartementet,UbU,1999 leddes myndigheten av en styrelse med ext...
h603109_101,Riksrevisionens rapport om myndighetsreformen ...,2018/19,prop,Utbildningsdepartementet,UbU,insynsråd.172 I samband med förändringarna 199...
h603109_102,Riksrevisionens rapport om myndighetsreformen ...,2018/19,prop,Utbildningsdepartementet,UbU,från enrådighet till styrelse för flera stora ...
