##### Social Media Analytics
### Introduction to Text Mining
## Sentiment Analysis
(c) Nuno Antonio 2019-2022 v1.02

### Initial setup

In [90]:
# Import packages
import csv
import re

import nltk
import numpy as np
import pandas as pd
from bs4 import BeautifulSoup
from feel_it import SentimentClassifier
from nltk.corpus import stopwords
from nltk.tokenize import sent_tokenize, word_tokenize
from tqdm import tqdm

In [120]:
ds = pd.read_parquet("fatto.parquet.snappy", engine="fastparquet")

In [121]:
ds["title"] = ds["title"].astype("string")
ds["author"] = ds["author"].astype("string")
ds["text"] = ds["text"].astype("string")

In [93]:
ds.head()

Unnamed: 0_level_0,link,title,author,date,text,comments
index,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
0,https://www.ilfattoquotidiano.it/2023/05/17/da...,“Da esponente del ‘partito unico bellicista’ v...,Thomas Mackinson,2023-05-17,La controffensiva di Kiev? “Deve ancora cominc...,"[Articolo di una supericialita'imbarazzante,ch..."
1,https://www.ilfattoquotidiano.it/2023/05/16/ar...,‘Armi offensive? Sarebbe una guerra mondiale’....,Gianni Rosini,2023-05-16,"Da mesi, ormai, la guerra mostra un sostanzial...","[Come auspicato dal comico di Kiev, un bel gio..."
2,https://www.ilfattoquotidiano.it/2023/05/14/oc...,"“Occupare città russe, bombardare oleodotti e ...",F. Q.,2023-05-14,Occupare città russe per guadagnare vantaggio ...,"[Incredibile scoop del Washington Post: ""Zelen..."
3,https://www.ilfattoquotidiano.it/2023/05/14/ir...,Irritazione della Santa Sede dopo il no di Zel...,Francesco Antonio Grana,2023-05-14,“Con le armi non si otterrà mai la sicurezza e...,[Ma che cosa ci si poteva attendere dal pres U...
4,https://www.ilfattoquotidiano.it/2023/05/14/ze...,Zelensky dice no alla mediazione di Papa Franc...,F. Q.,2023-05-14,Una chiusura che certifica lo stallo. Le spera...,"[“A pensar male si commette peccato, ma spesso..."


In [94]:
ds.info()

<class 'pandas.core.frame.DataFrame'>
Index: 2986 entries, 0 to 2985
Data columns (total 6 columns):
 #   Column    Non-Null Count  Dtype         
---  ------    --------------  -----         
 0   link      2986 non-null   category      
 1   title     2986 non-null   string        
 2   author    2986 non-null   string        
 3   date      2986 non-null   datetime64[ns]
 4   text      2959 non-null   string        
 5   comments  2986 non-null   object        
dtypes: category(1), datetime64[ns](1), object(1), string(3)
memory usage: 169.1+ KB


In [95]:
ds = ds.dropna(subset=["text"])

### Functions

In [96]:
# Text preprocessing
def textPreProcess(
    rawText,
    removeHTML=True,
    charsToRemove=r"\?|\.|\!|\;|\.|\"|\,|\(|\)|\&|\:|\-",
    removeNumbers=True,
    removeLineBreaks=False,
    specialCharsToRemove=r"[^\x00-\xfd]",
    convertToLower=True,
    removeConsecutiveSpaces=True,
):
    if type(rawText) != str:
        return rawText
    procText = rawText

    # Remove HTML
    if removeHTML:
        procText = BeautifulSoup(procText, "html.parser").get_text()

    # Remove punctuation and other special characters
    if len(charsToRemove) > 0:
        procText = re.sub(charsToRemove, " ", procText)

    # Remove numbers
    if removeNumbers:
        procText = re.sub(r"\d+", " ", procText)

    # Remove line breaks
    if removeLineBreaks:
        procText = procText.replace("\n", " ").replace("\r", "")

    # Remove special characters
    if len(specialCharsToRemove) > 0:
        procText = re.sub(specialCharsToRemove, " ", procText)

    # Normalize to lower case
    if convertToLower:
        procText = procText.lower()

    # Replace multiple consecutive spaces with just one space
    if removeConsecutiveSpaces:
        procText = re.sub(" +", " ", procText)

    return procText

In [97]:
# Function to break texts into sentences
def tokenize_sentences(texts):
    s_token = sent_tokenize(texts)
    return s_token

### Analysis

In [98]:
sentiment = pd.DataFrame(columns=["link", "text", "sentiment"])

In [99]:
sentiment.link = ds.link
sentiment.text = ds.text

In [100]:
sentiment.text = sentiment.text.apply(
    textPreProcess, charsToRemove="", removeLineBreaks=False, removeNumbers=False
)



In [102]:
stop_words = set(stopwords.words("italian"))

In [103]:
def removeStop(article):
    words = article.split()
    new_string = ""
    for word in words:
        isAStopWord = True  # if we have a stop word the boolean value change and we will not add it to the string
        for stop in stop_words:
            if word == stop:
                isAStopWord = False
        if isAStopWord:
            new_string = new_string + " " + word

    return new_string

In [104]:
# Remove stopwords
tqdm.pandas()

stop_words = set(stopwords.words("italian"))

sentiment.text = sentiment.text.progress_apply(removeStop)

100%|██████████| 2959/2959 [00:10<00:00, 275.30it/s]


In [105]:
# Create sentiment analysis object
sentiment_classifier = SentimentClassifier()

In [106]:
# Process sentiment for all sentences
tqdm.pandas()

sentiment.sentiment = sentiment.text.progress_apply(
    lambda x: sentiment_classifier.predict([x])
)

100%|██████████| 2959/2959 [16:26<00:00,  3.00it/s]


In [122]:
ds.insert(6, "sentiment", sentiment.sentiment.values)

ValueError: Length of values (2959) does not match length of index (2986)

In [111]:
ds.head()

Unnamed: 0_level_0,link,title,author,date,text,comments,sentiment
index,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
0,https://www.ilfattoquotidiano.it/2023/05/17/da...,“Da esponente del ‘partito unico bellicista’ v...,Thomas Mackinson,2023-05-17,La controffensiva di Kiev? “Deve ancora cominc...,"[Articolo di una supericialita'imbarazzante,ch...",[negative]
1,https://www.ilfattoquotidiano.it/2023/05/16/ar...,‘Armi offensive? Sarebbe una guerra mondiale’....,Gianni Rosini,2023-05-16,"Da mesi, ormai, la guerra mostra un sostanzial...","[Come auspicato dal comico di Kiev, un bel gio...",[negative]
2,https://www.ilfattoquotidiano.it/2023/05/14/oc...,"“Occupare città russe, bombardare oleodotti e ...",F. Q.,2023-05-14,Occupare città russe per guadagnare vantaggio ...,"[Incredibile scoop del Washington Post: ""Zelen...",[negative]
3,https://www.ilfattoquotidiano.it/2023/05/14/ir...,Irritazione della Santa Sede dopo il no di Zel...,Francesco Antonio Grana,2023-05-14,“Con le armi non si otterrà mai la sicurezza e...,[Ma che cosa ci si poteva attendere dal pres U...,[negative]
4,https://www.ilfattoquotidiano.it/2023/05/14/ze...,Zelensky dice no alla mediazione di Papa Franc...,F. Q.,2023-05-14,Una chiusura che certifica lo stallo. Le spera...,"[“A pensar male si commette peccato, ma spesso...",[negative]


In [112]:
ds.to_parquet("FalsoSentimentArticles.parquet.snappy", engine="fastparquet")