In [24]:
import pandas as pd
import re
import nltk

from wordcloud import WordCloud
import matplotlib.pyplot as plt
import plotly.express as px

### Functions

In [25]:
def get_all_string(sentences): 
    sentence = ''
    for words in sentences:
        sentence += words
    #sentence = re.sub('[^A-Za-z0-9 ]+', '', sentence) #remove tudo o que não eh alfabeto
    sentence = re.sub(r'http\S+', '', sentence) #remove os links
    #print(f"Sentences -> {sentence}")
    return sentence 

def preprocess(series):
    all_string = get_all_string(series)
    #print(f"preprocess all_str {all_string}")
    all_string = nltk.RegexpTokenizer(r'\w+').tokenize(all_string)
    print(f"preprocess all_str tokens {all_string}")
    return all_string

def create_freq_df(cleaned_tokens): 
    fdist = nltk.FreqDist(cleaned_tokens)
    freq_df = pd.DataFrame.from_dict(fdist, orient='index')
    freq_df.columns = ['Frequency']
    freq_df.index.name = 'Term'
    freq_df = freq_df.sort_values(by=['Frequency'], ascending=False)
    freq_df = freq_df.reset_index()
    return freq_df

def plot_text_distribution(x_df, y_df, color, title, xaxis_text, yaxis_text):
    
    fig = px.bar(x=x_df, 
                y=y_df,
                color=y_df,
                text=y_df,
                color_continuous_scale=color)

    fig.update_layout(
        title_text=title,
        template='plotly_white',
        xaxis=dict(
            title=xaxis_text,
        ),
        yaxis=dict(
            title=yaxis_text,
        )
    )

    fig.update_traces(marker_line_color='black', 
                    marker_line_width=1.5, 
                    opacity=0.8)
    
    fig.show()

def create_wordcloud(freq_df, title, color):
    
    data = freq_df.set_index('Term').to_dict()['Frequency']
    
    plt.figure(figsize = (20,15))
    wc = WordCloud(width=800, 
               height=400, 
               max_words=100,
               colormap= color,
               max_font_size=200,
               min_font_size = 1 ,
               random_state=8888, 
               background_color='white').generate_from_frequencies(data)
    
    plt.imshow(wc, interpolation='bilinear')
    plt.title(title, fontsize=20)
    plt.axis('off')
    plt.show()


### Corpus Analysis 

In [26]:
df = pd.read_csv('../data/esic2023_cleaned.csv')
df.head()

Unnamed: 0.1,Unnamed: 0,resp_text,clarity,Class,tokens,lemma,ngram2,ngram3
0,0,Prezado Sr Jose Taunai Em atenção ao seu pe...,c5,2,"['prezado', 'sr', 'jose', 'taunai', 'em', 'ate...",prezar sr jose taunai em atenção a o seu pedir...,"[('prezar', 'sr'), ('sr', 'jose'), ('jose', 't...","[('prezar', 'sr', 'jose'), ('sr', 'jose', 'tau..."
1,1,"""A pedido do Pró-Reitor de Graduação, informa...",c5,2,"['a', 'pedido', 'do', 'próreitor', 'de', 'grad...",o pedir de o próreitor de graduação informamo ...,"[('o', 'pedir'), ('pedir', 'de'), ('de', 'o'),...","[('o', 'pedir', 'de'), ('pedir', 'de', 'o'), (..."
2,2,"""Prezado (a) Sr. (a), Agradecemos o contato e...",c234,1,"['prezado', 'a', 'sr', 'a', 'agradecemos', 'o'...",prezar o sr o agradecer o contato e informamo ...,"[('prezar', 'o'), ('o', 'sr'), ('sr', 'o'), ('...","[('prezar', 'o', 'sr'), ('o', 'sr', 'o'), ('sr..."
3,3,"""Prezado (a) Sr. (a), Agradecemos o contato e...",c234,1,"['prezado', 'a', 'sr', 'a', 'agradecemos', 'o'...",prezar o sr o agradecer o contato e informamo ...,"[('prezar', 'o'), ('o', 'sr'), ('sr', 'o'), ('...","[('prezar', 'o', 'sr'), ('o', 'sr', 'o'), ('sr..."
4,4,"""Prezado Prof. Gilberto Tadeu Reis da Silva ...",c234,1,"['prezado', 'prof', 'gilberto', 'tadeu', 'reis...",prezar prof gilberto tader rei de o Silva em a...,"[('prezar', 'prof'), ('prof', 'gilberto'), ('g...","[('prezar', 'prof', 'gilberto'), ('prof', 'gil..."


In [27]:
unique = sorted(df['clarity'].unique())
unique

['c1', 'c234', 'c5']

In [32]:
for cl in unique:
    CltGroup = preprocess(df.loc[df['clarity'] == cl]['lemma'])
    aux = create_freq_df(CltGroup)
    TopWords = aux[7:17]

    plot_text_distribution(TopWords['Term'], TopWords['Frequency'],
                    'reds', 'Top 10 Palavras recorrentes ' + cl, 'Text', 'Number of Texts')

preprocess all_str tokens ['prezar', 'sr', 'luis', 'cesar', 'lopes', 'zeredo', 'em', 'atenção', 'a', 'o', 'seu', 'solicitação', 'apresentar', 'junto', 'a', 'o', 'sicbb', 'sob', 'o', 'protocolo', 'nº', '9901000383201948', 'esclarecemo', 'que', 'o', 'informação', 'ora', 'solicitar', 'ser', 'responder', 'por', 'meio', 'de', 'o', 'protocolo', 'nº', '99901000266201984', 'marlo', 'valeriano', 'Borges', 'gerente', 'executivoprezadoa', 'sra', 'agradecer', 'o', 'contato', 'e', 'informamo', 'que', 'o', 'agência', 'nacional', 'de', 'vigilância', 'sanitária', 'x96', 'anvisa', 'possuir', 'o', 'endereço', 'eletrônico', 'wwwanvisagovbr', 'onde', 'o', 'sra', 'poder', 'buscar', 'mais', 'informação', 'em', 'relação', 'a', 'o', 'registro', 'de', 'produto', 'de', 'origem', 'animal', 'importar', 'informamo', 'que', 'o', 'registro', 'de', 'produto', 'de', 'estabelecimento', 'estrangeiro', 'previamente', 'habilitar', 'a', 'o', 'exportar', 'a', 'o', 'Brasil', 'dever', 'ser', 'realizar', 'diretamente', 'atravé

preprocess all_str tokens ['prezar', 'o', 'sr', 'o', 'agradecer', 'o', 'contato', 'e', 'informamo', 'que', 'o', 'endereço', 'eletrônico', 'de', 'granja', 'localizar', 'em', 'o', 'Brasil', 'poder', 'ser', 'adquirir', 'junto', 'a', 'o', 'iniciativa', 'privado', 'o', 'exemplo', 'de', 'o', 'associação', 'brasileira', 'de', 'proteína', 'animal', 'x96', 'abpa', 'ateciosamenteprezar', 'o', 'sr', 'o', 'agradecer', 'o', 'contato', 'e', 'informamo', 'que', 'para', 'que', 'o', 'estabelecimento', 'registrar', 'em', 'outro', 'órgão', 'fiscalizador', 'competente', 'como', 'em', 'o', 'anvisa', 'poder', 'garantir', 'o', 'origemrastreabilidade', 'de', 'o', 'matériasprima', 'o', 'ser', 'empregar', 'em', 'o', 'produto', 'destinar', 'a', 'o', 'exportação', 'para', 'mercado', 'com', 'requisito', 'específico', 'em', 'o', 'caso', 'em', 'comento', 'o', 'estados', 'Unidos', 'fazse', 'necessário', 'o', 'emissão', 'de', 'certificar', 'sanitário', 'nacional', 'o', 'qual', 'dever', 'seguir', 'o', 'procedimento', '

preprocess all_str tokens ['prezar', 'sr', 'jose', 'taunai', 'em', 'atenção', 'a', 'o', 'seu', 'pedir', 'de', 'acesso', 'a', 'o', 'informação', 'registrar', 'em', '26012016', 'encaminhamos', 'arquivo', 'anexo', 'com', 'o', 'resposta', 'elaborar', 'por', 'o', 'unidade', 'competente', 'de', 'este', 'Ministério', 'registreser', 'que', 'em', 'o', 'caso', 'de', 'negativo', 'de', 'acesso', 'a', 'o', 'informação', 'ou', 'de', 'não', 'fornecimento', 'de', 'o', 'razão', 'de', 'o', 'negativo', 'de', 'o', 'acesso', 'poder', 'o', 'requerente', 'apresentar', 'recurso', 'em', 'o', 'prazo', 'de', 'dez', 'dia', 'contar', 'de', 'o', 'ciência', 'de', 'o', 'decisão', 'a', 'o', 'autoridade', 'hierarquicamente', 'superior', 'a', 'o', 'que', 'adotar', 'o', 'decisão', 'que', 'dever', 'apreciálo', 'em', 'o', 'prazo', 'de', 'cinco', 'dia', 'contar', 'de', 'o', 'seu', 'apresentação', 'atenciosamente', 'serviço', 'de', 'informação', 'a', 'o', 'cidadão', 'mj', '61', '20253949', '3358o', 'pedir', 'de', 'o', 'próre