# Stemningsanalyse i Facebookgrupper

Denne notesbog kan hjælpe med at holde styr på stemmingen i Facebookgrupper. [AFINN](https://github.com/fnielsen/afinn) bruges til sentimentanalyse af beskeder, kommentarer og vedhæftninger i en gruppe. Herved er det muligt at veje stemningen i gruppen over tid og fordelt på forskellige kategorier som f.eks. gadelygter og affald. Klassifikationen af kategorier sker ved at søge efter beskeder som indeholder udvalgte ord som har relation til kategorien.

## Indhold
1. [Input](#Input)
2. [Tilretning](#Tilretning)
3. [Berigelse](#Berigelse)
4. [Analyse](#Analyse)
5. [Output](#Output)

In [None]:
import numpy as np
import pandas as pd
import requests
from afinn import Afinn
from IPython.display import HTML
import psycopg2
from sqlalchemy import create_engine

pd.set_option('display.max_colwidth', -1)
pd.set_option('display.max_rows', 100)
#pd.reset_option('display.max_colwidth')

# Input 
## Hent data og lav dataframe

In [None]:
# Angiv de grupper der skal hentes feeds fra ( Slå gruppe id op http://lookup-id.com/ )
groups = {
    "Mit Ballerup": '241841222854414', # Denne gruppe er nu lukket
    "Vores by Skovlunde": '725746707539505',
    "Mit Måløv": '272828512895426'
}
access_token = 'xxx|yyy'
limit = 500 # facebook har max limit på 500 
feeds = []

for group, group_id in groups.items(): 
    url = "https://graph.facebook.com/v2.10/{}/feed?fields=reactions,comments,message, created_time,attachments&limit={}&access_token={}".format(group_id, limit, access_token)
    try:
        r = requests.get(url)
        data = r.json()
        df_data = data['data']
        df = pd.DataFrame(df_data)
        df['kilde'] = group
        feeds.append(df)
        
    except Exception as e:
        print('Exception:',e)

In [None]:
# Samler feeds fra grupperne i en DF
df = pd.concat(feeds, ignore_index=True)

# Tilretning
Tilretter DF med udfra de eksisterende oplysninger

In [None]:
#dato laves til datatype datetime
df['created_time'] = pd.to_datetime(df['created_time'])

In [None]:
df['link'] = df['id'].apply(lambda x: 'https://www.facebook.com/' + x)
#df['link'] = df['id'].apply(lambda x: '<a href="https://www.facebook.com/{0}" target="_blank">link</a>'.format(x))

In [None]:
# Tittel og beskrivelse fra vedhæftelser som f.eks. billeder tilføjes
def att_text(series):
    try:
        return series['data'][0]['title'] + ' - ' + series['data'][0]['description']
    except:
        pass
     
df['attachments'] = df['attachments'].apply(att_text)

In [None]:
def comment_list(col):
    if pd.notnull(col):
        return [ x['message'] for x in col['data']]
    else:
        None

df['kommentarer'] = df['comments'].apply(comment_list)

#### Reaktioner på FB

In [None]:
def reaction(col, mood):
    if pd.notnull(col):
        return [ x['type'] for x in col['data']].count(mood)
    else:
        None

df['likes'] = df['reactions'].apply(lambda x: reaction(x, 'LIKE'))
df['angry'] = df['reactions'].apply(lambda x: reaction(x, 'ANGRY'))
df['love'] = df['reactions'].apply(lambda x: reaction(x, 'LOVE'))
df['total_reactions'] =  df['reactions'].apply(lambda x: len(x['data']) if pd.notnull(x) else None)

# Berigelse
Beriger DF med stemning og klassifikation

## Stemning
AFINN bruges til at bestemme stemningen i besked og kommentar

In [None]:
afinn = Afinn(language='da', emoticons=True)

In [None]:
# Beskedstemning
df['beskedstemning'] = df['message'].apply(lambda x: afinn.score(str(x)))

In [None]:
# Kommentarstemning
def comment_rating(series):
    if pd.notnull(series):
        return sum([ afinn.score(x['message']) for x in series['data'] ])
    else:
        None

df['kommentarstemning'] = df['comments'].apply(comment_rating)

In [None]:
# Attachment stemning
df['attachmentstemning'] = df['attachments'].apply(lambda x: afinn.score(str(x)))

## Klassifikation
Beskeder klassificeres afhængigt af kategori

In [None]:
keywords = {
    'belysning': 'lys lyset lyser belysning belysningen lampe lamper lamperne gadelampe gadelamper gadelamperne lygte lygter lygterne gadelygte gadelygter gadelygterne gadebelysning mørkt mørke lyskryds lyskrydset lyssignal'.split(' '),
    'skrald': 'skrald affald skraldespand renovation affaldscontainer container affaldsspand affaldsbeholder beholder skraldebeholder affaldskube skraldesortering'.split(' '),
    'valg': 'kommunevalg, kommunevalget, stemmeseddel, stemmesedlen, stemmesedler, kv17'.split(' '),
}

In [None]:
def classify(msg, keywords):
    '''
    Klassificerer tekst udfra kategorier med tilhørende nøgleord. 
    Er afhængig af AFINN split til at konvertere besked til liste med ord
    
    Parameters
    ----------
    msg:
        besked som ønskes klassificeres
    keywords:
        dictionaty med kategori som key liste med nøgleord som value 
    '''
    
    categories = []
    
    if pd.notnull(msg):
        for cat, words in keywords.items():
            if any(word.lower() in afinn.split(msg.lower()) for word in words):
                categories.append( cat )
            else:
                None
    else:
        None
        
    return categories

In [None]:
df['kategori'] = df['message'].apply(lambda x: ', '.join(classify(x, keywords)))

## Endelig dataframe

In [None]:
bal = df[['created_time','kilde','message','attachments','beskedstemning','kommentarstemning', 'attachmentstemning', 'total_reactions', 'likes','angry','love', 'kategori', 'link']]
#HTML(bal.to_html (escape=False))

In [None]:
bal.info()

In [None]:
bal[bal['kategori'] == 'belysning'].shape

# Analyse

In [None]:
bal = df[['created_time','kilde','message','attachments','beskedstemning','kommentarstemning', 'attachmentstemning', 'total_reactions', 'likes','angry','love', 'kategori', 'link']]
HTML(bal.to_html (escape=False))

## Samlet stemning i de sidste 500 beskeder om belysning på Facebook
Man kunne evt kigge på at lave et stemningsindex:<br>
```stemningsindex = (stemning + kommentarstemning) * (likes + angry)```

In [None]:
bal['kommentarstemning'].sum() + bal['beskedstemning'].sum()

In [None]:
bal.groupby('kilde')['beskedstemning'].describe()

## Visualisering

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns
%matplotlib inline

In [None]:
belysning

In [None]:
#sns.tsplot(belysning, time='created_time', value='beskedstemning', condition='kilde')

test = belysning.set_index('created_time')['beskedstemning']
sns.tsplot(test)

In [None]:
sns.distplot(test)


In [None]:
plt.figure(figsize=(10, 7))
sns.barplot(x='kilde', y='beskedstemning', data=belysning.groupby('kilde').sum().reset_index())

# Output
Data sendes til PostgreSQL

In [None]:
user = 'xx'
pw = 'xx'
port = 5432
host = 'xx'
db = 'xx'
schema = 'xx'
table = 'xx''

In [None]:
con = create_engine('postgresql://{0}:{1}@{2}:{3}/{4}'.format(user, pw, host, port, db))

In [None]:
bal.to_sql(table, con, schema=schema, if_exists='replace', index_label='gid')

In [None]:
import sqlalchemy

In [None]:
dtype = {
    'attachments': sqlalchemy.JSON(), 
    'comments': sqlalchemy.JSON(), 
    'created_time': sqlalchemy.TIMESTAMP(), 
    'id': sqlalchemy.TEXT(), 
    'message': sqlalchemy.TEXT(), 
    'reactions': sqlalchemy.JSON(),
    'kilde': sqlalchemy.VARCHAR()
}

In [None]:
df.to_sql('ballerup_raw', con, schema=schema, if_exists='replace', index_label='gid', dtype=dtype)

# Sandkasse

In [None]:
afinn.split('Hej med Dig!!!'.lower())

In [None]:
import string
import nltk

## Stopwords

In [None]:
nltk.download('stopwords')

In [None]:
from nltk.corpus import stopwords

In [None]:
#stopwords.words('danish')

## Stemming

In [None]:
from nltk.stem.snowball import DanishStemmer

In [None]:
stemmer = DanishStemmer()

In [None]:
test = 'Bilerne kørte mod højre i går morges og i morges'
[stemmer.stem(word) for word in afinn.split(test.lower())]

## Frequency Distribution

In [None]:
from nltk import FreqDist

In [None]:
freqdist = FreqDist()

In [None]:
freqdist.freq(test)

## Maskinelæring

In [None]:
from sklearn.feature_extraction.text import CountVectorizer
import nltk
#nltk.download('stopwords')

In [None]:
from nltk.corpus import stopwords

def text_process(message):
    '''
    Beskederne bliver renset fra stopord og tegn og fyldt i liste. Afhængig af NLTK Stopwords og AFINN split.
    '''
    if pd.notnull(message):
        splt_msg = afinn.split(message)
        return [word for word in splt_msg if word.lower() not in stopwords.words('danish')]
    else:
        pass

In [None]:
tags = '''lys lyset lyser belysning belysningen lampe lamper lamperne gadelampe gadelamper gadelamperne 
lygte lygter lygterne gadelygte gadelygter gadelygterne gadebelysning mørkt mørke'''.split(' ')

In [None]:
bow_transformer = CountVectorizer(analyzer=text_process).fit(df['message'].fillna(''))
vectorizer = CountVectorizer(analyzer=text_process, vocabulary=tags)
words_matrix = vectorizer.fit_transform(df['message'].fillna(''))

test = pd.DataFrame(data=words_matrix.todense(), columns=vectorizer.get_feature_names())

In [None]:
test

In [None]:
# Print total number of vocab words
print(len(bow_transformer.vocabulary_))

https://stackoverflow.com/a/40686775/3914186