Let's have a look at our dataset:

In [69]:
import pandas as pd

df = pd.read_json('data/forum.json')

df.sample(10, random_state=314)



Unnamed: 0,titulo,data,hora,nome,conteudo
4274,Pesquisa para alunos que já pagaram VGA (ajude...,20/09/2021,16:33:27,RAFAELA HORACINA SILVA ROCHA SOARES,"Olá, pessoal.\n\nUma das alunas egressas do BT..."
8692,Provas de proficiencia de inglês e matematica,27/01/2016,15:56:25,JOSÉ HERICK MELO DA SILVA,"Não é obrigatório, contudo se for aprovado ser..."
9478,Treinamento para o UCC 2015,25/03/2015,18:09:34,MARIA CLARA SOUZA DE FONTES PEREIRA,"Professora, eu gostaria de participar do trein..."
10032,Novo Modelo Camisa BTI,03/09/2014,15:51:25,JOSE VICTOR GAMA BEZERRA,"Roberto, como posso entrar em contato com você..."
5524,Sugestões de minicursos para o DAAL promover,29/10/2019,20:10:39,ANDRECIO COSTA BEZERRA,Docker\n
5522,Sugestões de minicursos para o DAAL promover,29/10/2019,10:41:48,VICTOR HUGO FREIRE RAMALHO,docker\n
1171,Cadê o professor?,18/08/2023,21:08:15,RANNA BEATRIZ DE LIMA LISBOA,A turma do sábado também está sem professor. (...
9028,VOTAÇÃO - ambientes de estudos,11/08/2015,18:29:46,WILSON SILVA DE FARIAS,"Ótima iniciativa, Cephas! Parabéns!\n\nRespond..."
7329,"[URGENTE] Demanda de Grafos, Cálculo numérico,...",17/05/2017,15:06:54,CARLOS ANTÔNIO DE OLIVEIRA NETO,"Grafos é uma das últimas que faltam para mim, ..."
2724,Disciplinas Eletivas,28/08/2022,19:20:52,VICTOR EDUARDO NASCIMENTO,Mandei essa mesma pergunta no início da matríc...


An initial glance at the dataset shows us two areas of interest, the titles and the contents. The texts so far also seem surprisingly clean, but let's check further.

We can start by isolating the collumns of interest. 

We could leave titles attached to their respective content, but notice how titles repeat themselves in that format. Any analysis or model built on that would be heavily biased towards the words in the titles, which would not be necessarily representative of the forum as a whole.

In [70]:
df_titles = df['titulo']
df_content = df['conteudo']

print(df_titles.shape, df_content.shape)

(11922,) (11922,)


We can then easily get rid of repeated values in the titles with the pandas df.drop_duplicates method

In [105]:
df_titles.drop_duplicates(inplace = True)

df_titles.shape

(2711,)

Analysing content and titles separately may be worthwhile, but it may also be interesting to see what we can get using both at once.

In [11]:
df_text = pd.concat([df_titles, df_content], axis=0)

df_text.shape

(14633,)

Now that we have our datasets, let's check them again:

In [74]:
for txt in df_content.sample(10, random_state=200):
    print(txt, '\n\n\n')

Tem alguma previsão para o início das aulas?
 



Me interesso em DIM0346 - GERENCIAMENTO E SEGURANCA EM REDES DE COMPUTADORES.
Turnos: vespertino ou noturno.
 



up
 



kkkkkkkkkkkkkkkkkkkkkkkkkk desculpe Anrafell
 



IMD0902 é "INGLES TECNICO I" ou "Introdução à Internet das Coisas"?
 



Boa noite galera de TI!

NOSSOS CANECOS FINALMENTE PRONTINHOS PARA DISTRIBUIÇÃO

E sabe qual a melhor parte?

Você que comprou o Projeto ReX (festa de integração) vai ter em primeira mão!!

A primeira distribuição dos canecos será durante o PROJETO REX

Para aqueles que não compraram o caneco, temos uma boa notícia, ESTAREMOS VENDENDO NO PROJETO REX!!

CANECO + TIRANTE APENAS R$ 40,00

OBS: Aqueles que não pegarem durante o integra, ainda divulgaremos próxima semana como será o esquema para todo mundo pegar o caneco

Confere o vídeo no insta no link abaixo para ver o resultado iradooooo dos nossos canecos

https://www.instagram.com/reel/Cq9GBVjrg4Y/?igshid=YmMyMTA2M2Y=
 



Tenho interesse em par

In [75]:
for txt in df_titles.sample(10, random_state=200):
    print(txt, '\n\n\n')

Turmas sem professores 



Turmas de Segurança próximo semestre 



Alunos INDEFERIDOS nas matérias 



Mouse perdido 



Proficiência em IMD0902 - Introdução à Internet das Coisas 



CANECOS - TIRANA 



Possíveis voluntários para contribuir com a rede mundial de clubes de programação para crianças 



Oferta de disciplinas 2016.2 - Engenharia de Software 



Contato da Coordenaçao ou PROGRAD 



OPORTUNIDADE DE BOLSA - DIVULGAÇÃO - PROF.ª Monica 





In [77]:
for txt in df_text.sample(10, random_state=300):
    print(txt, '\n\n\n')

Nova Disciplina 



Fui assaltado também na minha primeira semana no IMD, isso em 2020, enquanto aguardava na parada próximo às residencias universitarias. Muito perigoso.
 



Existe algum meio no SiGAA para conferir se o vínculo foi confirmado?
 



Jefferson,

pode ser que para alguns alunos aconteça algum problema. Peço que tente novamente em outro PC e veja se a unidade está montada.

Caso tenha algum problema, procure o pessoal da TI na sala B115.
 



Obrigado.
 



Obrigado Rubem.
 



Pessoal, eu fiz prova na sala A306 e esqueci minha garrafa d'água na sala. É uma garrafa de alumínio prateada... Se alguém encontrar por favor deixem na secretaria. Agradeço desde ja
 



Cade as disciplinas na sexta 6N1234 ??? Quem quer pagar no mínimo 5 matérias não consegue....
 



@jessielylvr
 



Cine Empreender com a SoftUrbano 





As far as texts with no standard format (like the ones in an online forum) go, these are surprisingly clean so far. Most of what could be considered thrash for our purposes are links, emails and citations. Removing special characters later on would result in a lot of gibberish from these cases, but they are also not particularly easy to isolate. Selecting the most frequent words for our vocabulary might be enough to get rid of these extra data. But let's do some tests. 

In [127]:
import re

def remove_emails_com(text):
    return re.sub(r'[^\s]+.com', '', text).strip()

def remove_emails_br(text):
    return re.sub(r'[^\s]+.br', '', text).strip()

def remove_links(text):
    return re.sub(r'http[^\s]+', '', text).strip()

def remove_citations(text):
    return re.sub(r'@[^\s]+', '', text).strip()

test_str = "mande para o email sample_email@ufrn.edu.br ou sample_email@gmail.com, ou se   inscreva no site https://url.com.br/inscricao - @user"

result = remove_links(test_str)
result = remove_emails_br(result)
result = remove_emails_com(result)
result = remove_citations(result)

print(result)

mande para o email  ou , ou se   inscreva no site  -


These seems to work well enough. Other than that, we could check for spelling errors. However, the texts seem clean enough and spelling erros can be eliminated by frequency, so for now let's skip that step. Let's just add a function to get rid of random formatting like lines and tabs. We can also get rid of repeated symbols and possible punctuation errors.

In [128]:
def remove_repeated_symbols(text):
    return re.sub(r'(\W)\1+', r'\1', text).strip()

def remove_excessive_spaces(text):
    return re.sub(r'\s+', ' ', text).strip()

def fix_isolated_commas(text):
    # Replace punctuation with a blank character before
    text = re.sub(r' ([.,:;!?])', r'\1', text)
    return text.strip()

Now we just need to build our pipeline.

In [129]:
from sklearn.pipeline import Pipeline # Pipeline applies a list of transforms. You can also add an estimator at the end, so it will be completely encapsulated.
from sklearn.preprocessing import FunctionTransformer # FunctionTransformer allows to apply an arbitrary function to the data, so we can use it in the pipeline


pipeline_clean_text = Pipeline([
    ('remove_links', FunctionTransformer(remove_links)),
    ('remove_emails_br', FunctionTransformer(remove_emails_br)),
    ('remove_emails_com', FunctionTransformer(remove_emails_com)),
    ('remove_citations', FunctionTransformer(remove_citations)),
    ('remove_excessive_spaces', FunctionTransformer(remove_excessive_spaces)),
    ('remove_repeated_symbols', FunctionTransformer(remove_repeated_symbols)),
    ('fix_isolated_commas', FunctionTransformer(fix_isolated_commas)),
])

# We can apply the pipeline to the data
pipeline_clean_text.transform(test_str)

'mande para o email ou, ou se inscreva no site -'

Now we can clean our datasets:

In [130]:
text_clean = df_text.apply(pipeline_clean_text.transform)
titles_clean = df_titles.apply(pipeline_clean_text.transform)
content_clean = df_content.apply(pipeline_clean_text.transform)

In [131]:
for txt in content_clean.sample(10, random_state=200):
    print(txt, '\n\n\n')

Tem alguma previsão para o início das aulas? 



Me interesso em DIM0346 - GERENCIAMENTO E SEGURANCA EM REDES DE COMPUTADORES. Turnos: vespertino ou noturno. 



up 



kkkkkkkkkkkkkkkkkkkkkkkkkk desculpe Anrafell 



IMD0902 é "INGLES TECNICO I" ou "Introdução à Internet das Coisas"? 



Boa noite galera de TI! NOSSOS CANECOS FINALMENTE PRONTINHOS PARA DISTRIBUIÇÃO E sabe qual a melhor parte? Você prou o Projeto ReX (festa de integração) vai ter em primeira mão! A primeira distribuição dos canecos será durante o PROJETO REX Para aqueles que praram o caneco, temos uma boa notícia, ESTAREMOS VENDENDO NO PROJETO REX! CANECO + TIRANTE APENAS R$ 40,00 OBS: Aqueles que não pegarem durante o integra, ainda divulgaremos próxima o será o esquema para todo mundo pegar o caneco Confere o vídeo no insta no link abaixo para ver o resultado iradooooo dos nossos canecos 



Tenho interesse em participar, quais os pré requisitos? 



Seria possível disponibilizar Desenvolvimento WEB 1? 



Olá Any, a

In [132]:
for txt in titles_clean.sample(10, random_state=200):
    print(txt, '\n\n\n')

[Sugestão] Salas de estudos divididas 



VTEX no IMD - UFRN | 29/08 



Novas turmas criadas HOJE 



Processos de aproveitamento de estudos 



GRUPO PARA OS FORMANDOS 



Solicitação de Componente Curricular 



PROJETO DE EXTENSÃO - Oficina de Expressão Oral em Língua Inglesa 



Oportunidade de Bolsa 



Ferramentas para a disciplina IMD1001 - MATEMÁTICA ELEMENTAR 



Novo Coordenador e Sala da Coordenação 





In [133]:
for txt in text_clean.sample(10, random_state=300):
    print(txt, '\n\n\n')

Nova Disciplina 



Fui assaltado também na minha primeira semana no IMD, isso em 2020, enquanto aguardava na parada próximo às residencias universitarias. Muito perigoso. 



Existe algum meio no SiGAA para conferir se o vínculo foi confirmado? 



Jefferson, pode ser que para alguns alunos aconteça algum problema. Peço que tente novamente em outro PC e veja se a unidade está montada. Caso tenha algum problema, procure o pessoal da TI na sala B115. 



Obrigado. 



Obrigado Rubem. 



Pessoal, eu fiz prova na sala A306 e esqueci minha garrafa d'água na sala. É uma garrafa de alumínio prateada. Se alguém encontrar por favor deixem na secretaria. Agradeço desde ja 



Cade as disciplinas na sexta 6N1234? Quem quer pagar no mínimo 5 matérias não consegue. 



 



Cine a SoftUrbano 





Let's do some a analysis of our clean datasets.

In [134]:
word_counts_text = text_clean.str.split().apply(len)
word_counts_titles = titles_clean.str.split().apply(len)
word_counts_content = content_clean.str.split().apply(len)

word_counts_text.describe()

count    14633.000000
mean        35.666029
std         65.591024
min          0.000000
25%          5.000000
50%         13.000000
75%         37.000000
max       1143.000000
dtype: float64

In [135]:
word_counts_titles.describe()

count    2711.000000
mean        6.901143
std         3.428527
min         1.000000
25%         4.000000
50%         6.000000
75%         9.000000
max        20.000000
Name: titulo, dtype: float64

In [136]:
word_counts_content.describe()

count    11922.000000
mean        42.207012
std         71.041758
min          0.000000
25%          6.000000
50%         18.000000
75%         47.000000
max       1143.000000
Name: conteudo, dtype: float64

It seems we have some empty content. Let's get rid of it.

In [137]:
indexDrop = []

for i in range(len(content_clean)):
    if len(content_clean[i]) == 0:
        indexDrop.append(i)

content_clean.drop(indexDrop, axis=0, inplace=True)
text_clean.drop(indexDrop, axis=0, inplace=True)

word_counts_content = content_clean.str.split().apply(len)
word_counts_text = text_clean.str.split().apply(len)

word_counts_content.describe()

count    11877.000000
mean        42.366928
std         71.128611
min          1.000000
25%          6.000000
50%         19.000000
75%         47.000000
max       1143.000000
Name: conteudo, dtype: float64

In [138]:
word_counts_text.describe()

count    14582.000000
mean        35.787889
std         65.673049
min          1.000000
25%          5.000000
50%         13.000000
75%         37.000000
max       1143.000000
dtype: float64

Luckily there wasn't much to get rid of. Now let's continue:

In [139]:
import plotly.graph_objects as go

def word_count_distr_graph(word_counts):
    # Plot
    fig = go.Figure(data=[go.Histogram(x=word_counts)])
    # add a title to center above the chart
    fig.update_layout(title_text='Word Count Distribution', title_x=0.5)
    fig.show()

word_count_distr_graph(word_counts_text)

In [140]:
word_count_distr_graph(word_counts_titles)

In [141]:
word_count_distr_graph(word_counts_content)

It seems there are some words that appear very frequently in this dataset. Let's get an idea of what they are with Counter.

In [153]:
from collections import Counter
import plotly.graph_objects as go

def plot_histogram_word(text_list, n_most_common=30, title="text"):
    # create a list of words
    words = []
    for txt in text_list:
        words += txt.split()

    # count the number of times each word appears in the text
    word_counts = Counter(words)

    # select the top 30 most frequent words
    word_counts = dict(word_counts.most_common(n_most_common))

    # create a bar chart
    fig = go.Figure([go.Bar(x=list(word_counts.keys()), y=list(word_counts.values()))])
    fig.update_layout(title_text=f'Top {n_most_common} most frequent words in the {title}', title_x=0.5)
    fig.show()

plot_histogram_word(text_clean, 30, 'forum')
plot_histogram_word(titles_clean, 30, 'titles')
plot_histogram_word(content_clean, 30, 'messages')

There sure are a lot stop words we need to get rid of.  We'll use both spacy's and nltk's list for this:

In [118]:
import spacy
nlp = spacy.load('pt_core_news_sm')
stopwords_spacy = nlp.Defaults.stop_words
list(stopwords_spacy)[:10]

['aqui',
 'cinco',
 'exemplo',
 'nos',
 'três',
 'sempre',
 'próxima',
 'é',
 'tens',
 'novo']

In [29]:
import nltk

from nltk.corpus import stopwords
nltk.download('stopwords')
stopwords_nltk = stopwords.words('portuguese')

list(stopwords_nltk)[:10]

[nltk_data] Downloading package stopwords to
[nltk_data]     /home/happyholand/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


['a',
 'à',
 'ao',
 'aos',
 'aquela',
 'aquelas',
 'aquele',
 'aqueles',
 'aquilo',
 'as']

In [30]:
both_stopwords = set(stopwords_nltk) | set(stopwords_spacy)

500

In [176]:
def remove_stop_word(text):
    text = re.sub(r'[^\w\s]', '', text)

    tokens = text.split()

    tokens = filter(lambda token: token not in both_stopwords, tokens)

    return ' '.join(tokens)

We took advantage of this process to also remove non-alphanumeric characters from or token that are not going to be relevant. Let's see if we improved somewhat.

In [177]:
text_clean_no_stopwords = text_clean.apply(remove_stop_word)
titles_clean_no_stopwords = titles_clean.apply(remove_stop_word)
content_clean_no_stopwords = content_clean.apply(remove_stop_word)

In [178]:
plot_histogram_word(text_clean_no_stopwords, 30, 'forum')
plot_histogram_word(titles_clean_no_stopwords, 30, 'titles')
plot_histogram_word(content_clean_no_stopwords, 30, 'messages')

Some interesting things are showing up, but maybe it would have been more useful to have all text in lowercase before we remove stopwords (given the presence of such obvious stop words like 'A' and 'O').

In [179]:
text_clean_no_stopwords_lower = text_clean.str.lower().apply(remove_stop_word)
titles_clean_no_stopwords_lower = titles_clean.str.lower().apply(remove_stop_word)
content_clean_no_stopwords_lower = content_clean.str.lower().apply(remove_stop_word)


plot_histogram_word(text_clean_no_stopwords_lower, 30, 'forum')
plot_histogram_word(titles_clean_no_stopwords_lower, 30, 'titles')
plot_histogram_word(content_clean_no_stopwords_lower, 30, 'messsages')

That's better, but now we can see we're getting some extra information that might not be all that useful for now. Is the difference between 'disciplina' and 'disciplinas' particularly important for what we want right now? What about 'interesse' or 'interessado'?

It seems in this case lemmatizing might be a good idea. But let's save our current datasets first.

In [180]:
text_clean_no_stopwords_lower.to_csv('text_clean_no_stopwords_lower.csv')
titles_clean_no_stopwords_lower.to_csv('titles_clean_no_stopwords_lower.csv')
content_clean_no_stopwords_lower.to_csv('content_clean_no_stopwords_lower.csv')

We can now do some lemmatizing:

In [181]:
def spacy_lemmatizer(text):
    doc = nlp(text)

    txt = [token.lemma_ for token in doc]

    txt = [word for word in txt if len(word) > 2]

    return ' '.join(txt)


(This might take some minutes)

In [182]:
text_clean_lemmatized = text_clean_no_stopwords_lower.apply(spacy_lemmatizer)

In [185]:
titles_clean_lemmatized = titles_clean_no_stopwords_lower.apply(spacy_lemmatizer)

In [186]:
content_clean_lemmatized = content_clean_no_stopwords_lower.apply(spacy_lemmatizer)

With our lemmatizing done, let's check our histograms again

In [187]:
plot_histogram_word(text_clean_lemmatized, 30, 'forum')
plot_histogram_word(titles_clean_lemmatized, 30, 'titles')
plot_histogram_word(content_clean_lemmatized, 30, 'messages')

Let's also check the bigrams and see if we get anything of interest.

In [196]:
import nltk
nltk.download('punkt')
from collections import Counter
from nltk.util import ngrams
from nltk import word_tokenize
import plotly.graph_objs as go

# Defining the function to generate n-grams
def generate_ngrams(text, n, lowercase=False):
    if lowercase:
        text = text.lower()

    n_grams = ngrams(nltk.word_tokenize(text), n)
    return [ ' '.join(grams) for grams in n_grams]


def plot_n_grams(dataset, n_most_common=30, n=2, title='text'):
    n_grams_counter = Counter()

    # Loop through each text in the training set
    for text in dataset.values:
        # Call the function to generate bigrams
        n_grams_counter.update(generate_ngrams(text, n, lowercase=True))
    
    # select the top 30 most frequent words
    n_grams_counter = dict(n_grams_counter.most_common(n_most_commom))

    # create a bar chart
    fig = go.Figure([go.Bar(x=list(n_grams_counter.keys()), y=list(n_grams_counter.values()))])
    fig.update_layout(title_text=f'Top {n_most_commom} most frequent bigrams in the {title}')
    fig.show()

[nltk_data] Downloading package punkt to
[nltk_data]     /home/happyholand/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


In [189]:
plot_n_grams(text_clean_lemmatized, title='forum')
plot_n_grams(titles_clean_lemmatized, title='titles')
plot_n_grams(content_clean_lemmatized, title='messages')

It appears that while lemmatizing does get rid of some unecessary data, it also interferes with some relevant information (such as transforming 'dado', which means data, into 'dar', which means to give). 

Let's filter out words with less than 3 characters of our non-lemmatized datasets and compare the results

In [184]:
def remove_less_than_three(text):
    tokens = [token for token in text.split() if len(token)>2]

    return ' '.join(tokens)

In [192]:
text_clean_reduce = text_clean_no_stopwords_lower.apply(remove_less_than_three)
titles_clean_reduce = titles_clean_no_stopwords_lower.apply(remove_less_than_three)
content_clean_reduce = content_clean_no_stopwords_lower.apply(remove_less_than_three)

In [193]:
plot_histogram_word(text_clean_reduce, 30, 'forum')
plot_histogram_word(titles_clean_reduce, 30, 'titles')
plot_histogram_word(content_clean_reduce, 30, 'messages')

In [194]:
plot_n_grams(text_clean_reduce, title='forum')
plot_n_grams(titles_clean_reduce, title='titles')
plot_n_grams(content_clean_reduce, title='messages')

Well, that's certainly bettter. It seems a certain subject might be frequently mentioned in our forum. let's check our trigrams to confirm it:

In [197]:
plot_n_grams(text_clean_reduce, title='forum', n=3)
plot_n_grams(titles_clean_reduce, title='titles', n=3)
plot_n_grams(content_clean_reduce, title='messages', n=3)

Yes, it is indeed cited ver frequently (even if most topics don't seen to be titled after it). Another thing of note in this dataset is the name 'helena velcic maziviero' which is showing up as a frequent trigram. Sure enough, this person seems to have had at some point an habit of signing of their messages with their name, and they have posted a lot on this forum.

All in all, the forum seems to have mostly been used as expected. Discussions of subjects, hours, the course itself, and internship and work opportunities seem to be the most frequent topics in it. 