# Analys av tweets fr√•n bokm√§ssan

## Attribution David Johnsson, Uppsala University


Starta med att ladda in f√∂ljande moduler och s√§tt upp visualiseringsmilj√∂n f√∂r matplotlib

1. `pandas` 
2. `textmining` 
Funktioner f√∂r statistisk textmining, fokuserad p√• bag-of-words model (som ni inte beh√∂ver s√§tta er in f√∂r denna kurs.f F√∂r den nyfikne eller vetgirige finns enkla f√∂rklaringar exempelvis [h√§r](https://www.analyticsvidhya.com/blog/2020/02/quick-introduction-bag-of-words-bow-tf-idf/) eller [h√§r](https://www.geeksforgeeks.org/bag-of-words-bow-model-in-nlp/), en enkel tutorial finns ocks√• [h√§r](https://machinelearningmastery.com/gentle-introduction-bag-words-model/)) 
3. `wordcloud` - En visualiseringsmodul f√∂r att skapa ordmoln, vilket vi g√∂r i denna laboration.
4. `matplotlib` 
5. `sklearn` -  Scikit-learn,ett pythonbibliotek f√∂r maskininl√§rningsalgoritmer, den kommer vi anv√§nda mycket i b√•de laboration 3 och 4.

In [None]:
# K√∂r denna cell f√∂r att ladda in biblioteken och s√§tta upp v√•r milj√∂
import itertools

import matplotlib
import nltk
import pandas as pd
import textmining as tm
import wordcloud
from sklearn.feature_extraction.text import CountVectorizer

# S√§tt upp visualiseringen
%matplotlib inline
matplotlib.pyplot.rcParams["figure.figsize"] = [10, 6]

## Analys av Twitterdata fr√•n bokm√§ssan

Ni har blivit inhyrda som konsulter f√∂r en bokpublicist som vill att du ska ta reda p√• vilka teman och b√∂cker som har f√•tt mest uppm√§rksamhet p√• bokm√§ssan i G√∂teborg 2016. 

Er uppgift √§r att via Twitterdata unders√∂ka vilka √§mnen som f√•tt speciellt mycket uppm√§rksamhet f√∂r och under bokm√§ssan och presentera ett f√∂rslag till f√∂retaget du arbetar med vad som √§r l√§mpliga debatt√§mnen. 

Fokus h√§r √§r allts√• p√• att f√∂rst√• data, vilket √§r en viktigt del av pre-processering inf√∂r mer avacerad dataanalys. 


## Data processing

Som alltid beh√∂ver v√•rt data st√§das, i detta fall √§r fokus att sortera bort data som antingen inte g√•r att analysera eller inte √§r intressant fr√•n den r√•textdata vi f√•tt fr√•n Twitter. Den data som givits samlades in fr√•n Twitter fr√•n maj till september 2016.

Er datafil finns i repositoriet p√• github  och heter `twitter_book_fair_data.tsv`.

### Ladda data

En `.tsv` fil betyder att det √§r en tab-separerad fil med tabelldata (j√§mf√∂rt med ; separerad som vi anv√§nt tidigare)

**F2** Starta arbetet med att l√§sa in filen med read_csv() med f√∂ljande parametrar:  encoding="utf-8", sep="\t" och spara i en dataframe

In [None]:
twitter_data_book_df = pd.read_csv(
    "Data/twitter_book_fair_data.tsv", encoding="utf-8", sep="\t"
)

In [None]:
twitter_data_book_df.head()

In [None]:
twitter_data_book_df.shape

In [None]:
twitter_data_book_df.dtypes

In [None]:
twitter_data_book_df.isnull()

In [None]:
twitter_data_book_df.info()

En kolumn √§r speciellt intressant f√∂r v√•r **textanalys**, extrahera den fr√•n den dataframe vi lagrat all data i och skapa en variabel d√§r du placerar denna data, d√∂p variablen till `tweets_corpus`.

In [None]:
tweets_corpus = twitter_data_book_df.text

In [None]:
tweets_corpus.head()

### Emojis

P√• Twitter √§r det v√§ldigt vanligt med emojis üëç ‚ú® üê´ üéâ üöÄ ü§ò.

Dessa kan inneh√•lla mycket information som kan vara relevant f√∂r v√•r analys. Dock √§r det ofta sv√•rt att analysera emojis med hj√§lp av vanliga verktug f√∂r NLP(Natural Language Processig). 

Vi beh√∂ver d√§rf√∂r ta bort dessa ur v√•rt utvalda dataset som skapades i uppgiften ovan.


In [None]:
encode2ascii = lambda x: x.encode("ascii", errors="ignore").decode("utf-8")
clean_tweets = tweets_corpus.apply(encode2ascii)
clean_tweets

### Ta bort URLs
Det √§r ocks√• vanligt att man p√• Twitter l√§nkar till olika webbplatser med hj√§lp av URL:er, n√§r man g√∂r textanalys p√• twitterdata √§r det vanligt att delar av dessa URL:er dyker upp som "mest frekventa ord" vilket p√•verkar v√•r analys negativs. Dessa beh√∂ver d√§rf√∂r ocks√• tas bort.

In [None]:
clean_tweets = clean_tweets.str.replace(r"http\S+", "")
clean_tweets

### Funktion f√∂r att hitta mest frekventa ord 

Ett s√§tt att f√∂rst√• hur olika metoder f√∂r pre-processing p√•verkar ett dataset kan man r√§kna de mest f√∂rekommande orden efter varje operation som utf√∂rs. Eftersom vi kommer vilja utf√∂ra denna r√§kning m√•nga g√•nger under arbetet √§r de l√§mpligt att skapa en funktion f√∂r det som vi kan anropa flera g√•nger.

#### Vad √§r en Term Document Matrix (TDM)?

En TDM √§r en tabell d√§r antalet unika ord r√§knas f√∂r varje dokument. F√∂r att g√∂ra detta p√• v√•rt Twitterdata √§r det l√§mpligt att skapa en TDM d√§r varje tweet √§r en egen vektor d√§r varje element best√•r av de ord som finns i den tweeten. En tweet med tre unika ord blir allts√• en vektor med tre element. 

Nedanst√•ende kod skapar denna TDM i form av en funktion med namn `create_term_document_matrix()`:

In [None]:
"""
Skapar en funktion som tar in argumenten corpus och min_df, om inget v√§rde 
ges till min_df s√• blir det 1
"""


def create_term_document_matrix(corpus, min_df=1):
    cvec = CountVectorizer(min_df=min_df, stop_words=tm.stopwords)
    """
    CountVectorizer skapar en matris med varje unikt ord i en datasamling
    och visar hur ofta de f√∂rekommer. Argumentet stop_words ger anv√§ndaren
    m√∂jligheten att v√§lja vilka ord som ska vara stopwords. I detta fall
    anv√§nds textminings f√∂rdefinierade stop words. min_df definierar den undre
    gr√§nsen f√∂r hur ofta ett ord beh√∂ver f√∂rekomma f√∂r att vara med i matrisen
    """

    tfmatrix = cvec.fit_transform(corpus)
    # Transformerar en datasamling tll valfri struktur genom sitt agrument
    return pd.DataFrame(data=tfmatrix.toarray(), columns=cvec.get_feature_names())
    """
    Funktionen returnerar en dataframe d√§r datam√§ngden kommer fr√•n tfmatrix och 
    kolumn namnen fr√•n cvec. I det h√§r fallet √§r kolumnnamnen de unika orden. 
    Funktionen √§r allts√• en implementation av bag-of-words, d√§r varje f√∂rekomst av varje unikt ord (undantaget stopwords) r√§knas.
    """

Testa v√•r nya funktion genom att skapa en TDM endast f√∂r de tre f√∂rsta raderna i `clean_tweets` som kan sorteras ut med `.head(3)` funktionen. 

In [None]:
create_term_document_matrix(clean_tweets.head(3))

**F11.** Hur m√•nga kolumner skapades i TDM:n?

Svaret beror lite p√• vilka parametrar man l√§gger in i funktionen ovan, men man b√∂r kunna plocka fram antalet med exempelvis shape och ocks√• f√∂rhoppningsvis f√∂rst√• att antalet kolumner representerar antalet unika ord vars f√∂rekomst r√§knas. 

F√∂r att hitta de mest frekvent f√∂rekommander orden i v√•r TDM beh√∂ver vi r√§kna ord. Det √§r ocks√• l√§mpligt med en visualisering √∂ver dessa vanligast f√∂rekommande ord. √Ñven detta kommer vi beh√∂va g√∂ra flera g√•nger och d√§rf√∂r √§r det √•terigen l√§mpligt att definiera en funktion `plot_top_words()` som b√•de r√§knar och plottar orden i ett stapeldiagram. 


In [None]:
"""
En funktion som tar in en datasamling, antalet ord
som ska finnas i den lista √∂ver top words som returnerar samt antalet ord som ska visas i stapeldiagramet. 
Fr√•n b√∂rjan ska listan inneh√•lla 50 ord och diagrammet 30. Det finns dock de som √§ndrat detta n√§r de svarar. 
"""


def plot_top_words(tweets, num_word_instances, top_words):
    tdm_df = create_term_document_matrix(tweets, min_df=2)
    # Anv√§nder den tidigare sakpta funktionen f√∂r att ta fram en matris med ord
    # som f√∂rekommer minst 2 ggr
    word_frequencies = tdm_df[[x for x in tdm_df.columns if len(x) > 1]].sum()
    # Anv√§nder en loop f√∂r att se om ordet i kolumnen inneh√•ller fler √§n en
    # bokstav och sumerar sedan kolumnen
    sorted_words = word_frequencies.sort_values(ascending=False)
    # Vi sorterar sedan orden i fallande ordning d.v.s.
    # den mest f√∂rekommande f√∂rst
    top_sorted_words = sorted_words[:num_word_instances]
    # top_sorted_words √§r sedan de num_word_instances mest f√∂rekommande
    # orden fr√•n sorted_words
    top_sorted_words[:top_words].plot.bar()
    # Sedan f√∂rkortas listan ytterligare med top_words
    # som d√§refter ritas upp i ett stapeldiagram
    return top_sorted_words
    # top_sorted_words med num_word_instances antalet ord returneras som en lista

Nu kan vi anv√§nda `plot_top_words()` funktionen f√∂r att r√§kna ut de mest f√∂rekommande orden i hela v√•rt corpus, viktigt att ha t√•lamod dock f√∂r det kan ta ett tag. Nedanst√•ende kod utf√∂r ber√§kningen.

In [None]:
top_words = plot_top_words(clean_tweets, 50, 30)
top_words

### Sm√• bokst√§ver

N√§sta steg i pre-processingen av v√•rt dataset (v√•rt corpus) √§r att g√∂ra om alla bokst√§ver till sm√•. 


In [1]:
tweets_lowered = clean_tweets.str.lower()

NameError: name 'clean_tweets' is not defined

In [None]:

top_words_lowered = plot_top_words(tweets_lowered, 50, 30)
top_words_lowered

F√∂r att underl√§tta att j√§mf√∂ra vad v√•ra anstr√§ngningar f√•r f√∂r resultat kan det vara bra att enkelt kunna j√§mf√∂ra olika listor med top_words.

Skapa en ny dataframe som har tv√• kolumner, en med de 20 mest frekventa orden fr√•n`top_words` och en med de 20 mest frekventa orden fr√•n `top_word_lowered`. D√∂p kolumnerna till `Top tweeted clean`och  `Top tweeted lowered`. 

In [None]:
pd.DataFrame(
    {
        "Top tweeted clean": top_words[0:20].index,
        "Top tweeted lowered": top_words_lowered[0:20].index,
    }
)

In [None]:
set(top_words[0:20].index) - set(top_words_lowered[0:20].index)

### Korta ord

Korta ord har ofta inte n√•gon egentlig betydelse, allts√• beh√∂ver vi inte dessa ord. Typiska s√•dana ord kan vara ja, jo eller nej. Vi best√§mmer oss f√∂r att alla ord som √§r kortare √§n 3 bokst√§ver inte innehar n√•gon betydelse i v√•r analys och tar d√§rmed bort dem. 


In [None]:
tweets_lowered

In [None]:
tweets_low_no_small = tweets_lowered.str.replace(r"\b\w{1,2}\b", "")#Jag brukar ge godk√§nt om man fyllt i 2 eller 3 h√§r, kommer inte riktigt ih√•g vilket som √§r r√§tt.
tweets_low_no_small

In [None]:
# Skapar ny topplista utan korta ord
top_words_low_no_small = plot_top_words(tweets_low_no_small, 50, 30)
top_words_low_no_small

**F21.** Efter att korta ord tagits bort, hur m√•nga g√•nger m√•ste ett ord f√∂rekomma i v√•rt corpus f√∂r att hamna i den nya listan enligt ovan? 

### Betydelsel√∂sa ord

Stop words √§r andra ord som inte √§r korta men som √§nd√• inte har betydelse, dessa kan vara lite besv√§rligare att identifiera och ta bort. En m√∂jlighet √§r att helt enkelt skapa en lista med s√•dana ord och sedan anv√§nda den listan f√∂r att filtrera ut orden ur ett corpus. Vi har ju redan tagit bort alla ord med f√§rre bokst√§ver √§n 3, s√• s√•dana beh√∂ver vi inte l√§gga in i listan. 

Nedan √§r ett exempel p√• en lista med stoppord som √§r betydelsel√∂sa. 


In [None]:
my_stop_words = [
    "och",
    "det",
    "att",
    "i",
    "en",
    "jag",
    "hon",
    "som",
    "han",
    "paa",
    "den",
    "med",
    "var",
    "sig",
    "foer",
    "saa",
    "till",
    "aer",
    "men",
    "ett",
    "om",
    "hade",
    "de",
    "av",
    "icke",
    "mig",
    "du",
    "henne",
    "daa",
    "sin",
    "nu",
    "har",
    "inte",
    "hans",
    "honom",
    "skulle",
    "hennes",
    "daer",
    "min",
    "man",
    "ej",
    "vid",
    "kunde",
    "naagot",
    "fraan",
    "ut",
    "naer",
    "efter",
    "upp",
    "vi",
    "dem",
    "vara",
    "vad",
    "oever",
    "aen",
    "dig",
    "kan",
    "sina",
    "haer",
    "ha",
    "mot",
    "alla",
    "under",
    "naagon",
    "eller",
    "allt",
    "mycket",
    "sedan",
    "ju",
    "denna",
    "sjaelv",
    "detta",
    "aat",
    "utan",
    "varit",
    "hur",
    "ingen",
    "mitt",
    "ni",
    "bli",
    "blev",
    "oss",
    "din",
    "dessa",
    "naagra",
    "deras",
    "blir",
    "mina",
    "samma",
    "vilken",
    "er",
    "saadan",
    "vaar",
    "blivit",
    "dess",
    "inom",
    "mellan",
    "saadant",
    "varfoer",
    "varje",
    "vilka",
    "ditt",
    "vem",
    "vilket",
    "sitta",
    "saadana",
    "vart",
    "dina",
    "vars",
    "vaart",
    "vaara",
    "ert",
    "era",
    "vilka",
]

N√§r vi skapat v√•r lista √§r det dags att skapa en funktion som tar bort dessa fr√•n ett dokument. Denna funktion √§r kodad i cellen nedan. (Igen strunta i lambda f√∂r tillf√§llet.)

In [None]:
remove_stopwords = lambda x: " ".join(y for y in x.split() if y not in my_stop_words)

Funktionen ovan tar allts√• bort stoppord fr√•n ett dokument (allts√• en tweet), f√∂r att ta bort stoppord fr√•n hela v√•rt corpus kan funktionen `.apply()`anv√§ndas. 


In [None]:
tweets_low_no_small_stopwords = tweets_low_no_small.apply(remove_stopwords)

In [None]:
top_words_low_no_small_stopwords = plot_top_words(tweets_low_no_small_stopwords, 50, 30)
top_words_low_no_small_stopwords

Vad √§r skillnaderna mellan de frekvent f√∂rekommande orden i j√§mf√∂relse med v√•ra tidigare listor? Skriv den kod som j√§mf√∂r dessa tre listor `top_words_lowered`, `top_words_low_no_small` and `top_words_low_no_small_stopwords`, titta p√• de f√∂rsta 20 orden i listorna.

En variant √§r att anv√§nda koden nedan som j√§mf√∂r listorna och returnerar skillanderna. En annan √§r att √•teranv√§nda koden som skapar en dataframe med de tre listorna. B√•da varianterna finns med nedan. Man kan s√§kert g√∂ra p√• andra s√§tt ocks√•. 


In [None]:
set(top_words_lowered[0:20].index) - set(top_words_low_no_small_stopwords[0:20].index) - set(top_words_low_no_small[0:20].index)

In [None]:
pd.DataFrame(
    {
        "Top tweeted clean": top_words[0:20].index,
        "Top tweeted lowered": top_words_lowered[0:20].index,
        "Top tweeted no small": top_words_low_no_small[0:20].index,
    }
)

### Visualisering och rekommendation

Dags att visualisera v√•rt resultat och √∂vertyga v√•r klient om att vi hittat de b√§sta debatt√§mnena f√∂r dem! H√§r g√∂r vi det genom att skapa ett word cloud d√§r de mest frekventa orden syns b√§st. 

Nedanst√•ende kod skapar ett ordmoln f√∂r `top_words_low_no_small_stopwords`

In [None]:
import matplotlib.pyplot as plt
from wordcloud import WordCloud

wordcloud = WordCloud(max_font_size=40)
wordcloud.fit_words(top_words_low_no_small_stopwords.to_dict())
plt.figure()
plt.imshow(wordcloud, interpolation="bilinear")
plt.axis("off")
plt.show()

N√§r du tittar p√• ordmolnet, √§r det fler ord som borde vara stoppord? Ange n√•gra stycken och f√∂rklara varf√∂r de b√∂r tas bort.

Vilket tema rekommenderar ni att publicisten ska ha som debatt√§mne? 