In [1]:
import nltk
from nltk.tokenize import word_tokenize

In [2]:
nltk.download('all')

[nltk_data] Downloading collection 'all'
[nltk_data]    | 
[nltk_data]    | Downloading package abc to
[nltk_data]    |     C:\Users\Felipe\AppData\Roaming\nltk_data...
[nltk_data]    |   Package abc is already up-to-date!
[nltk_data]    | Downloading package alpino to
[nltk_data]    |     C:\Users\Felipe\AppData\Roaming\nltk_data...
[nltk_data]    |   Package alpino is already up-to-date!
[nltk_data]    | Downloading package averaged_perceptron_tagger to
[nltk_data]    |     C:\Users\Felipe\AppData\Roaming\nltk_data...
[nltk_data]    |   Package averaged_perceptron_tagger is already up-
[nltk_data]    |       to-date!
[nltk_data]    | Downloading package averaged_perceptron_tagger_eng to
[nltk_data]    |     C:\Users\Felipe\AppData\Roaming\nltk_data...
[nltk_data]    |   Package averaged_perceptron_tagger_eng is already
[nltk_data]    |       up-to-date!
[nltk_data]    | Downloading package averaged_perceptron_tagger_ru to
[nltk_data]    |     C:\Users\Felipe\AppData\Roaming\nltk_data

True

In [21]:
texto = "O Processamento de Linguagem Natural é fascinante!"
palavras = word_tokenize(texto)
print(palavras)

['O', 'Processamento', 'de', 'Linguagem', 'Natural', 'é', 'fascinante', '!']


In [38]:
t1 = """
O gato subiu no telhado, depois desceu rapidamente. O cachorro latiu quando viu o gato, mas o gato não se importou.
Mesmo com a confusão, o gato parecia calmo e tranquilo, andando lentamente pelo jardim.
"""

t2 = """
Durante o verão, as crianças gostam de brincar no parque, correr pelo gramado e se divertir nos brinquedos.
O sol forte faz com que todos procurem sombra e bebam muita água.
Mesmo assim, a alegria permanece e as risadas ecoam pelo ambiente.
"""

t3 = "Ei, você já ouviu a nova música da banda X?"

### Por que calcular a diversidade lexical?

A **diversidade lexical** é uma métrica importante na análise de textos, pois indica a variedade de palavras utilizadas.
Textos com alta diversidade sugerem vocabulário rico e escrita sofisticada, enquanto baixa diversidade pode apontar repetição ou simplicidade.
Essa análise é útil em linguística, avaliação de escrita, estudos de discurso e processamento de linguagem natural, ajudando a entender a qualidade e o estilo do texto.


In [33]:
def lexical_diversity(texto):
    return len(set(texto)) / len(texto)

In [39]:
tokens_t1 = word_tokenize(t1.lower())
diversidade = lexical_diversity(tokens_t1)
print(f'Diversidade lexical t1: {diversidade:.2f}')

tokens_t2 = word_tokenize(t2.lower())
diversidade = lexical_diversity(tokens_t2)
print(f'Diversidade lexical t2: {diversidade:.2f}')

Diversidade lexical t1: 0.71
Diversidade lexical t2: 0.81


### Por que usar a função `percentage`?

A função `percentage` é utilizada para medir a **relação de vocabulário entre dois textos**, verificando **quantas palavras únicas de um texto também aparecem no outro**.
Esse cálculo é útil para:

* Analisar **sobreposição de vocabulário** entre textos diferentes.
* Avaliar **níveis de similaridade lexical**, especialmente em tarefas de comparação de textos, como resumo, plágio ou análise de estilo.
* Entender se dois textos abordam **temáticas parecidas ou diferentes**, com base nas palavras usadas.

### Como funciona?

A função compara as palavras únicas dos textos (`set(texto1)` e `set(texto2)`) e calcula a porcentagem de palavras de `texto1` que aparecem em `texto2`.
Essa relação é assimétrica, ou seja, a porcentagem pode ser diferente dependendo da ordem dos textos.

### Fórmula:

$$
\text{Porcentagem} = \frac{\text{Número de palavras em comum}}{\text{Total de palavras únicas em texto1}} \times 100
$$

### Exemplo de uso:

Se `t1` tiver 10 palavras únicas e 4 delas aparecerem em `t2`, a porcentagem será **40%**.

In [42]:
def percentage(texto1, texto2):
    # Converter em conjuntos de palavras únicas
    set1 = set(texto1)
    set2 = set(texto2)
    
    # Palavras em comum
    intersecao = set1.intersection(set2)
    
    # Calculando a porcentagem de t1 em relação a t2
    if len(set1) == 0:
        return 0
    return len(intersecao) / len(set1) * 100

print(f'Porcentagem de palavras em comum entre t1 e t2: {percentage(tokens_t1, tokens_t2):.2f}%')

Porcentagem de palavras em comum entre t1 e t2: 33.33%
