In [1]:
import pandas as pd
import numpy as np
import nltk
from collections import Counter #uso para n-gramas
import re # talvez regex vai ajudar na normalizaçao
import plotly.express as px
import plotly.graph_objects as go
import streamlit as st



Notebook relativo a entrega de 17/12/24:
Esse notebook foi criado para realização das tarefas referentes a análise da extensão do corpus. Aqui tem o cálculo de types, tokens e TTR. Verifiquei, devido ao exemplo dado:
“nos encontramos cara a cara” contém 4 types e 5 tokens. Assim, não posso remover stopwords visto que "a" é um token.
TTR mais alto implica em maior diversidade lexical.

In [3]:
csv_file_path = 'C:/Users/Administrator/Documents/repos/mestrado/visual_analytics/corpus_completo.csv'

# Lendo o csv como um df
df = pd.read_csv(csv_file_path)

#Criando uma cópia
df_va = df.copy()

In [4]:
df_va.groupby('nota').count()

Unnamed: 0_level_0,file_name,content
nota,Unnamed: 1_level_1,Unnamed: 2_level_1
0,25,25
1,211,211
2,628,628
3,715,715
4,477,477
5,237,237


In [5]:
df_chart = pd.DataFrame()

In [6]:
# Número de textos exposto como variável visto que usarei para cálculos de média

df_chart['qtde_textos'] = df_va['nota'].value_counts()

In [7]:
nltk.download('stopwords')
nltk.download('punkt') # é um tokenizador, importante para nltk.word_tokenize
# nltk.download('rslp') é um stemmer. acho q nao vou usar
nltk.download('punkt_tab') # Precisei que devia fazer download desse pacote pq o punkt nao tava funcionando

[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\Administrator\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\Administrator\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package punkt_tab to
[nltk_data]     C:\Users\Administrator\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt_tab is already up-to-date!


True

In [8]:
# Pré-processamento

# Devo tirar acentos?? Ex: Belém
# Retirar números? Na duvida, retirei.
# Não fiz stemming visto que poderia perder erros ortográficos

#Retirada de sinais gráficos, pontuações e espaços
def clean_cp(text):
    cleaned = text.lower() #Deixando tudo minúsculo
    cleaned = re.sub('[^\w\s]', '', cleaned) # Removendo pontuacao
    #cleaned = re.sub('[0-9]+', '', cleaned) # Removendo números 
    cleaned = re.sub('\d+', '', cleaned) # Removendo números NÃO TAVA FUNCIONANDO. Começou a funcionar qdo pus o lower como primeiro comando da funçao
    cleaned = re.sub('\s+', ' ', cleaned) # Removendo espaços extras
    cleaned = re.sub('\s+', ' ', cleaned)
    return cleaned.strip() # Removendo tabs

df_va['content'] = df_va['content'].apply(clean_cp)
#df_va['content'] = df_va['content'].apply(stopwords_cp)

In [9]:
# Tokenizando SEM retirar stopwords: lembrando q token conta duplicados

def tokenized_cp(text):
   #stopwords = nltk.corpus.stopwords.words('portuguese') # Carregando as stopwords do português
   tokenized = nltk.word_tokenize(text, language='portuguese') #Transforma o texto em tokens
   #text_sem_stopwords = [token for token in tokenized if token not in stopwords] # Deixei stopwords pq imaginei que consideravam mas talvez a divergencia de numero q achei em relaçao a
   # dissertacao seja devido às stopwords
   #return text_sem_stopwords
   return tokenized

df_va['tokenized_content'] = df_va['content'].apply(tokenized_cp)

In [10]:
# Verificando a qtde de tokens para cada nota (uso o total pra cada nota pro cálculo de TTR)

# Primeiro conto a qtde de tokens para cada texto e crio uma coluna com a contagem
df_va['token_count'] = df_va['tokenized_content'].apply(len)

# Agora, conto de acordo com cada nota        
df_chart['qtde_total_tokens_nota'] = df_va.groupby('nota')['token_count'].sum()
df_chart

Unnamed: 0_level_0,qtde_textos,qtde_total_tokens_nota
nota,Unnamed: 1_level_1,Unnamed: 2_level_1
3,715,123013
2,628,99444
4,477,88216
5,237,47602
1,211,30289
0,25,2284


In [11]:
# Verificando a qtde de tokens MÉDIA para cada nota ACHO Q NAO VOU USAR
df_chart['qtde_media_tokens'] = round((df_chart['qtde_total_tokens_nota'] / df_chart['qtde_textos']),2)

In [12]:
# Separando em types (pego tokens e retiro duplicados)
df_va['types_content'] = df_va['tokenized_content'].apply(lambda tokens: list(set(tokens)))

In [13]:
# Verificando a qtde de types para cada nota

# Primeiro a qtde de types para cada texto e crio uma coluna com a contagem
df_va['types_count'] = df_va['types_content'].apply(len)

# Agora, conto de acordo com cada nota
df_chart['qtde_total_types_nota'] = df_va.groupby('nota')['types_count'].sum()

In [14]:
# Verificando a qtde de types MÉDIA para cada nota ACHO Q NAO VOU USAR
df_chart['qtde_media_types'] = round((df_chart['qtde_total_types_nota'] / df_chart['qtde_textos']),2)

In [15]:
# Cálculo de TTR: TTR = qtde de types / qtde de tokens * 100 (em percentual mesmo)
# Aviso: fiz o cálculo de ttr_medio = (qtde_media_types / qtde_media_tokens) * 100 e obtive os mesmos valores
df_chart['TTR'] = round(((df_chart['qtde_total_types_nota'] / df_chart['qtde_total_tokens_nota']) * 100),2)

In [16]:
# Número mínimo de tokens por nota

# Primeiro conto a qtde de tokens para cada texto e crio uma coluna com a contagem    >> Essas 2 linhas eu repeti mtas vzs no código. É só cortar fora. A variável já foi calculada!
df_va['token_count'] = df_va['tokenized_content'].apply(len)

# Agora, conto o número minimo de tokens para cada nota        
df_chart['qtde_tokens_min'] = df_va.groupby('nota')['token_count'].min()

In [17]:
# Número máximo de tokens por nota

# Primeiro conto a qtde de tokens para cada texto e crio uma coluna com a contagem
df_va['token_count'] = df_va['tokenized_content'].apply(len)

# Agora, conto o número máximo de tokens para cada nota        
df_chart['qtde_tokens_max'] = df_va.groupby('nota')['token_count'].max()

In [18]:
# Desvio padrão do número de tokens por nota

# Primeiro conto a qtde de tokens para cada texto e crio uma coluna com a contagem
df_va['token_count'] = df_va['tokenized_content'].apply(len)

# Agora, conto o número máximo de tokens para cada nota
df_chart['desvpad_qtde_tokens'] = round((df_va.groupby('nota')['token_count'].std()),2)

In [19]:
df_chart['nota_real'] = [3, 2, 4, 5, 1, 0]
df_chart.sort_values('nota_real')

Unnamed: 0_level_0,qtde_textos,qtde_total_tokens_nota,qtde_media_tokens,qtde_total_types_nota,qtde_media_types,TTR,qtde_tokens_min,qtde_tokens_max,desvpad_qtde_tokens,nota_real
nota,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
0,25,2284,91.36,1659,66.36,72.64,17,200,53.34,0
1,211,30289,143.55,20524,97.27,67.76,44,321,46.68,1
2,628,99444,158.35,66313,105.59,66.68,48,338,44.61,2
3,715,123013,172.05,80734,112.91,65.63,74,410,40.96,3
4,477,88216,184.94,57277,120.08,64.93,92,351,41.78,4
5,237,47602,200.85,30632,129.25,64.35,107,346,45.77,5


Aqui é a minha primeira aba. Fazer um slider ou filtro mesmo que por default marca todas as notas mas pode exibir somente as notas pretendidas

Abaixo, o primeiro gráfico da visualização. Um bar chart simples para preparar o usuário para o fato de que não temos um número homogêneo de textos para cada nota

In [21]:
# Create the bar chart
fig = px.bar(
    df_chart,  # Pass the entire DataFrame
    x='nota_real',  # X-axis
    y='qtde_textos',  # Y-axis
    labels={'qtde_textos': 'Quantidade', 'nota_real': 'Nota'},  # Custom axis labels
    color_discrete_sequence=['#FF4B4B']  # Streamlit red color
)

# Update the tooltip
fig.update_traces(
    hovertemplate="%{y} textos<extra></extra>"  # Custom tooltip  
)

# Update layout for transparent background and tooltip styles
fig.update_layout(
    title="Quantidade de Textos por Nota",
    xaxis_title="Nota",
    yaxis_title="Quantidade",
    template="plotly_white",
    plot_bgcolor="rgba(0, 0, 0, 0)",  # Transparent plot background
    paper_bgcolor="rgba(0, 0, 0, 0)",  # Transparent outer background
    font=dict(color="white"),  # White font for titles, labels, and text
    xaxis=dict(
        showgrid=False,  # Remove vertical gridlines
        color="white"    # White font for x-axis labels
    ),
    yaxis=dict(
        #showgrid=False,  # Remove horizontal gridlines
        color="white"    # White font for y-axis labels
    ),
    hoverlabel=dict(
        bgcolor="#FFE6E6",  # Light red background
        font_size=14,       # Tooltip font size
        font_color="black"  # Tooltip text color
    )
)

# Show the figure
fig.show()

Número mínimo e número máximo de tokens

Tb grouped bar, mas aí um é o número minimo de tokens e o outro é o número máximo de tokens
x é a nota
no tooltip vai o valor médio e desvio padrão

In [33]:
customdata = df_chart[['qtde_media_tokens', 'desvpad_qtde_tokens']].values

# Create the figure
fig = go.Figure()

# Add the bars for max tokens
fig.add_trace(go.Bar(
    x=df_chart['nota_real'], 
    y=df_chart['qtde_tokens_max'], 
    name='Máximo de tokens', 
    marker_color='#FF4B4B',  # Streamlit-like red
    hovertemplate=(
        "Máximo de tokens: %{y}<br>" +
        "Número médio: %{customdata[0]:.2f}<br>" +
        "Desvio padrão: %{customdata[1]:.2f}<extra></extra>"     
    ),
    customdata=customdata
))

# Add the bars for min tokens
fig.add_trace(go.Bar(
    x=df_chart['nota_real'], 
    y=df_chart['qtde_tokens_min'], 
    name='Mínimo de tokens', 
    marker_color='#FF904B',  # Laranja!
    hovertemplate=(
        "Mínimo de tokens: %{y}<br>" +
        "Número médio: %{customdata[0]:.2f}<br>" +
        "Desvio padrão: %{customdata[1]:.2f}<extra></extra>"       
    ),
    customdata=customdata
))

# Update layout for better visualization
fig.update_layout(
    title="Números Máximo e Mínimo de Tokens",
    xaxis_title="Nota",
    yaxis_title="Quantidade",
    barmode='group',  # Grouped bars
    legend_title="Legenda",
    template='plotly_white',
    plot_bgcolor="rgba(0, 0, 0, 0)",  # Transparent plot background
    paper_bgcolor="rgba(0, 0, 0, 0)",  # Transparent outer background
    font=dict(color="white"),  # White font for titles, labels, and text
    xaxis=dict(
        showgrid=False,  # Remove vertical gridlines
        color="white"    # White font for x-axis labels
    ),
    yaxis=dict(
        #showgrid=False,  # Remove horizontal gridlines
        color="white"    # White font for y-axis labels
    ),
    hoverlabel=dict(
        bgcolor="#FFFFFF",  # Light red background for tooltip
        font_size=12,       # Tooltip font size
        font_color="black"  # Tooltip text color
    )
)

# Show the figure
fig.show()


Aqui vamos exibir número de tokens e types via grouped bar chart.

Número MÉDIO de tokens e numero MÉDIO de types para facilitar a visualização.

O "certo" seria ver o número total pra types e tokens mas, se fizer assim, fica difícil de visualizar para a nota zero. Pegando o número médio, o TTR se mantém mas fica melhor de visualizar.

In [32]:
# Create the figure
fig = go.Figure()

# Add the bars for avg tokens
fig.add_trace(go.Bar(
    x=df_chart['nota_real'], 
    y=df_chart['qtde_media_tokens'], 
    name='Média de tokens', 
    marker_color='#FF4B4B',  # Streamlit-like red
    hovertemplate=(
        "Média de tokens: %{y}<br>" +
        "TTR: %{customdata:.2f}<extra></extra>%"       
    ),
    customdata=df_chart['TTR']
))

# Add the bars for avg types
fig.add_trace(go.Bar(
    x=df_chart['nota_real'], 
    y=df_chart['qtde_media_types'], 
    name='Média de types', 
    marker_color='#FF904B',  # Nova cor, para maior contraste: laranja
    hovertemplate=(
        "Média de types: %{y}<br>" +
        "TTR: %{customdata:.2f}<extra></extra>%"       
    ),
    customdata=df_chart['TTR']

))

# Update layout for better visualization
fig.update_layout(
    title="Número Médio de Tokens e Types e TTR",
    xaxis_title="Nota",
    yaxis_title="Quantidade",
    barmode='group',  # Grouped bars
    legend_title="Legenda",
    template='plotly_white',
    plot_bgcolor="rgba(0, 0, 0, 0)",  # Transparent plot background
    paper_bgcolor="rgba(0, 0, 0, 0)",  # Transparent outer background
    font=dict(color="white"),  # White font for titles, labels, and text
    xaxis=dict(
        showgrid=False,  # Remove vertical gridlines
        color="white"    # White font for x-axis labels
    ),
    yaxis=dict(
        #showgrid=False,  # Remove horizontal gridlines
        color="white"    # White font for y-axis labels
    ),
    hoverlabel=dict(
        bgcolor="#FFFFFF",  # Light red background for tooltip
        font_size=12,       # Tooltip font size
        font_color="black"  # Tooltip text color
    )

)

# Show the figure
fig.show()

Nova visualização. Scatterplot com número de tokens e types para cada texto.

In [23]:
df_va

Unnamed: 0,file_name,content,nota,tokenized_content,token_count,types_content,types_count,num_tokens
0,20152t4p1166n0r.docx,é inaceitável e constrangedor a violência que ...,0,"[é, inaceitável, e, constrangedor, a, violênci...",106,"[muitos, outras, causa, cheia, haver, ter, pod...",73,106
1,20152t4p1305n0r.docx,a capital paraense já foi considerada uma das ...,0,"[a, capital, paraense, já, foi, considerada, u...",99,"[aumentam, poucos, dele, capital, parte, seu, ...",79,99
2,20152t4p1477n0r.docx,a prefeitura municipal respeitosa sou a public...,0,"[a, prefeitura, municipal, respeitosa, sou, a,...",65,"[jornais, muitos, importante, coagir, deixar, ...",48,65
3,20152t4p1506n0r.docx,data de bibiana c terra para prefeitura munici...,0,"[data, de, bibiana, c, terra, para, prefeitura...",95,"[socorro, portanto, causa, data, disposição, p...",73,95
4,20152t4p1512n0r.docx,desculpe eu não conhecome a matéria azulejos v...,0,"[desculpe, eu, não, conhecome, a, matéria, azu...",18,"[concluídas, esta, valiosos, eu, não, forem, d...",17,18
...,...,...,...,...,...,...,...,...
2288,20152t4p936n5r.docx,belem de outubro de senhores prefeitura munici...,5,"[belem, de, outubro, de, senhores, prefeitura,...",175,"[alguém, poucos, quer, claros, perder, estão, ...",108,175
2289,20152t4p93r.docx,pará de outubro de ao senhor prefeito municipa...,5,"[pará, de, outubro, de, ao, senhor, prefeito, ...",187,"[encomenda, restaurados, protetivas, cacos, re...",129,187
2290,20152t4p953n5r.docx,pilas de outubro de prefeitura municipal de be...,5,"[pilas, de, outubro, de, prefeitura, municipal...",178,"[destruam, alguém, sua, outras, podemos, parte...",97,178
2291,20152t4p96r.docx,para a prefeitura municipal de um morador de b...,5,"[para, a, prefeitura, municipal, de, um, morad...",196,"[muitos, principalmente, perderemos, estão, sé...",126,196


In [36]:
# Create the scatterplot
fig = px.scatter(
    df_va,
    x='token_count',                # x-axis: total tokens
    y='types_count',                # y-axis: unique tokens
    color='nota',                   # Color the dots based on the 'nota' column
    hover_data=['token_count', 'types_count', 'nota'],  # Tooltip includes 'nota'
    title="Quantidade de Tokens e Types segundo Nota",
    labels={
        'token_count': 'Tokens',
        'types_count': 'Types',
        'nota': 'Nota'
    },
    color_continuous_scale='Agsunset' 
)

# Customize layout
fig.update_layout(
    paper_bgcolor='rgba(0,0,0,0)',  # Transparent background
    plot_bgcolor='rgba(0,0,0,0)',   # Transparent plot area
    font=dict(color='white'),       # White font for titles, labels, and text
    title_font=dict(size=18),       # Title font size
    xaxis_title_font=dict(size=14), # X-axis label font size
    yaxis_title_font=dict(size=14), # Y-axis label font size
)

# Customize tooltip
fig.update_traces(
    hoverlabel=dict(
        bgcolor='white',            # White background for tooltip
        font_size=12,               # Font size for tooltip text
        font_color='black'          # Black font color
    )
)

# Show the figure
fig.show()
