# Wordcloud

This notebook goes through the process of making a wordcloud out of the whisper transcriptions. This is done using a python library called `wordcloud`.
<br>
There are a lot words that are of no interest (stopwords) and are therefore removed.

In [None]:
import os
from wordcloud import WordCloud
import matplotlib.pyplot as plt
import nltk
from nltk.corpus import stopwords


nltk.download("stopwords")

folder_path = os.path.join("", "")
file_name = r"whisper_transkribering_large-v2.txt"
#file_name = "text_no_timestamps_no_names.txt" 
language = "swedish"

: 

In [2]:
# Read the text file that is to be analyzed
with open(os.path.join(folder_path, file_name), "r", encoding="utf-8") as f:
    text = f.read()

# Get stopwords from NLTK
stopwords_nltk = stopwords.words(language)
print(f"Num stopwords from nltk: {len(stopwords_nltk)}")

# Get stopwords from file
with open(f"stopwords_{language}.txt", "r", encoding="utf-8") as f:
    stopwords_from_file = [line.rstrip() for line in f]
print(f"Num stopwords from file: {len(stopwords_from_file)}")

# Put together the stopwords
stopword_list = stopwords_nltk + stopwords_from_file
print(f"New num stopwords: {len(stopword_list)}")

Antal stopwords från nltk: 114
Antal stopwords från fil: 592
Nytt antal stopwords: 706


In [None]:
# Make a wordcloud with the words in the transcript
#  - there are a ton of options to play around with

wordcloud = WordCloud(width=400, height=400,
                      max_font_size=40, 
                      stopwords=stopword_list,
                      collocations=False,
                      background_color="white",
                      min_font_size=10).generate(text)

# Plot the wordcloud
fig, ax = plt.subplots(figsize=(8,8))
ax.imshow(wordcloud)
ax.axis("off")
plt.show()

# Save the wordcloud
fig.savefig(os.path.join(folder_path, "wordcloud.png"))

In [52]:
# Here are some extra swedish words that can be added to the stopwords

stopwords_extra = ["enligt", "kap", "bör", "från", "vid", "artikel", "får", "finns", "andra", "inom", \
            "lagen", "även", "vara", "regeringen", "gäller", "detta", "stycket", "uppgifter", "under",\
            "mot", "när", "genom", "förslag", "också", "och", "men", "då", "eller", "sig", \
            "beslut", "utredningen", "skulle", "denna", "år", "kunna", "första", "olika", \
            "samt", "bestämmelser", "the", "dessa", "än", "hur", "mellan", "verksamhet", "dessa", \
            "prop", "mellan", "verksamhet", "vissa", "lag", "innebär", "fall", "stöd", "så", "sou", \
            "rätt", "se", "åtgärder", "ha", "där", "sätt", "dock", "in", "någon", "kommer", "vad", "avses", \
            "få", "information", "annan", "nya", "procent", "över", "vi", "krav", "avsnitt", "personer", \
            "annat", "efter", "sådan", "sådana", "var", "utan", "därför", "ut", "del", "sin", "bilaga", \
            "mer", "företag", "fråga", "barn", "anges", "myndigheten", "vilka", "ex", "förordning", \
            "behov", "särskilt", "myndigheter", "svenska", "bedömning", "alla", "kronor", "bl", \
            "samma", "of", "vilket", "förslaget", "regeringens", "lydelse", "omfattas", "ta", "endast", \
            "utredningens", "vidare", "flera", "behöver", "direktiv", "kommuner", "anser", "bestämmelserna",\
            "paragrafen", "arbete", "sverige", "eu", "personuppgifter", "brott", "myndighet", "tid", "ändring",\
            "föreskrifter", "behandling", "uppdrag", "hälso", "särskilda", "nationella", "något", "upp", "hos", \
            "skäl", "enlighet", "bestämmelsen", "grund", "följande", "avser", "framgår", "tillstånd", "dag", \
            "måste", "tidigare", "utbildning", "fram", "europeiska", "möjlighet", "sina", "mål", "man", \
            "eftersom", "tillämpas", "person", "verksamheten", "lämna", "ansvar", "anses", "avseende", \
            "enskilda", "vård", "ny", "sådant", "viss", "allmänna", "lämnas", "bland", "tillsyn", "and", \
            "förutsättningar", "tas", "vilken", "exempel", "göra", "kostnader", "möjligt", "förordningen",\
            "två", "tjänster", "många", "eg", "nr", "ekonomiska", "frågor", "hade", "gälla", "nuvarande", \
            "blir", "rådets", "varje", "större", "några", "dels", "ge", "särskild", "punkt", "krävs", "både",\
            "kommun", "ou", "följer", "regler", "sveriges", "svensk", "insatser", "betydelse", "motsvarande", \
            "hänsyn", "ytterligare", "sitt", "ges", "därmed", "ansökan", "behandlas", "arbetet", "frågan",\
            "syfte", "villkor", "exempelvis", "innehåller", "stor", "to", "samband", "bli", "varit",\
            "uppgift", "staten", "delar", "ger", "behövs", "föreslår", "per", "antal", "stället", "aktörer", \
            "kraft", "dess", "redan", "tredje", "göras", "form", "övriga", "kapitel", "används", "behöriga", \
            "respektive", "gör", "ske", "avtal", "mindre", "säkerställa", "utifrån", "antalet", "miljoner", \
            "statens", "mycket", "nationell", "tillgång", "samverkan", "användas", "sedan", "längre", \
            "utsträckning", "myndigheterna", "högre", "samtidigt", "utgör", "anledning", "alltså", "före", \
            "finnas", "här", "bedömningen", "dem", "komma", "statliga", "nivå", "rör", "deras", "sker",\
            "kontroll", "ramen", "områden", "förhållande", "möjligheter", "system", "minst", "stora", \
            "förslagen", "beslutet", "tre", "skr", "gällande", "han", "internationella", "föreslås", \
            "ingår", "bestämmelse", "grundläggande", "berörda", "allt", "bedömer", "bara", "går", "utanför",\
            "kan", "nu"]