##### Social Media Analytics
### Introduction to Text Mining
## Keywords extraction (using RAKE method)
(c) Nuno Antonio 2019-2022 v1.02

### Initial setup

In [1]:
# Import packages
import csv
import re

import nltk
import numpy as np
import pandas as pd
from bs4 import BeautifulSoup
from nltk.tokenize import word_tokenize
from rake_nltk import Rake

In [2]:
ds = pd.read_parquet("fatto.parquet.snappy", engine="fastparquet")

### Functions

In [3]:
# Text preprocessing
def textPreProcess(
    rawText,
    removeHTML=True,
    charsToRemove=r"\?|\.|\!|\;|\.|\"|\,|\(|\)|\&|\:|\-",
    removeNumbers=True,
    removeLineBreaks=False,
    specialCharsToRemove=r"[^\x00-\xfd]",
    convertToLower=True,
    removeConsecutiveSpaces=True,
):
    if type(rawText) != str:
        return rawText
    procText = rawText

    # Remove HTML
    if removeHTML:
        procText = BeautifulSoup(procText, "html.parser").get_text()

    # Remove punctuation and other special characters
    if len(charsToRemove) > 0:
        procText = re.sub(charsToRemove, " ", procText)

    # Remove numbers
    if removeNumbers:
        procText = re.sub(r"\d+", " ", procText)

    # Remove line breaks
    if removeLineBreaks:
        procText = procText.replace("\n", " ").replace("\r", "")

    # Remove special characters
    if len(specialCharsToRemove) > 0:
        procText = re.sub(specialCharsToRemove, " ", procText)

    # Normalize to lower case
    if convertToLower:
        procText = procText.lower()

    # Replace multiple consecutive spaces with just one space
    if removeConsecutiveSpaces:
        procText = re.sub(" +", " ", procText)

    return procText

In [4]:
# Tokenize words
def tokenize_words(words):
    if (type(words) != str) or (word_tokenize(words) == ""):
        return np.nan
    else:
        return word_tokenize(words)

In [5]:
# Function to create text from words
def recreateText(words):
    if type(words) == list:
        temp_str = (" ").join(words)
        return temp_str
    else:
        return np.nan

### Analysis

In [6]:
# Create a dataframe with only the description
processedReviews = pd.DataFrame(
    data=ds.text.apply(textPreProcess, charsToRemove="", removeNumbers=False).values,
    index=ds.index,
    columns=["PreProcessedText"],
)



In [7]:
# Remove rows with empty text
processedReviews.PreProcessedText = processedReviews.PreProcessedText.str.strip()
processedReviews = processedReviews[processedReviews.PreProcessedText != ""]

We have an error generate after the transformation of the text, so we need to iterate over ppText in order to clean it.

In [18]:
# Find specific terms
termsToSearch = ["stati uniti"]
searchList = re.compile("|".join(termsToSearch))

# Get words from sentences
listOfWords = processedReviews.PreProcessedText.apply(tokenize_words)

# Reconstruct sentences with spaces in the beginning and in the end
ppText = listOfWords.apply(recreateText)

for index, text in ppText.items():
    if isinstance(text, float):
        ppText = ppText.drop(index=index)
    else:
        pass

# Look for search terms in sentences and present them
ppText_searched = []
for review in ppText:
    if searchList.search(" " + review + " "):
        ppText_searched.append(review)

In [17]:
# The first 3 reviews
# termsToSearch = ['hygiene', 'clean', 'safe']
ppText_searched[0:3]

['la controffensiva di kiev ? deve ancora cominciare e colpirà i russi in profondità , con attacchi massicci e ravvicinati sul fronte ma dove non se lo aspettano , sfruttando al massimo quel che non hanno : una moderna concezione di come si conducono le operazioni . passa per essere il più noto esponente del partito unico bellicista e non delude vittorio emanuele parsi , ordinario di relazioni internazionali cui abbiamo chiesto un giudizio a 360 gradi sulla guerra in ucraina , dalla situazione sul campo ai tavoli apparecchiati per la pace ma sostanzialmente vuoti ; dalla visita a roma di zelensky ( dall italia ha ricevuto solo pacche sulle spalle ) alle contraddizioni del governo meloni , stretto tra il consenso interno e quello internazionale . e poi sugli italiani contrari alla guerra , quelli che vogliono essere lasciati in pace , e fanno quasi una colpa a zelenski e agli ucraini di essere ancora lì a combattere e la dicotomia tra pace e guerra che sarebbe un falso : perché il contr