<a href="https://colab.research.google.com/github/matheus-haruki/Processamento-de-Linguagem-Natural/blob/main/Projeto_1_An%C3%A1lise_Quantitativa_de_Corpus.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Projeto #1 de PLN

Análise Quantitativa de Corpus

Objetivo do notebook:

O objetivo deste notebook é realizar uma análise quantitativa de um corpus textual utilizando ferramentas de Processamento de Linguagem Natural (PLN). A proposta é extrair informações estatísticas básicas dos textos, como número de palavras, diversidade lexical, palavras mais frequentes e outras métricas, com o intuito de explorar características gerais do conteúdo de forma prática e introdutória.

Técnicas de PLN implementadas:

-  Leitura e carregamento de corpus: Utilização do corpus machado da biblioteca NLTK, contendo textos de Machado de Assis.

- Tokenização: Separação do texto em unidades linguísticas (tokens), como palavras.

- Cálculo de frequência de palavras: Identificação das palavras mais utilizadas no corpus.

- Cálculo de métricas básicas:

  - Total de palavras (tokens)

  - Total de palavras únicas (vocabulário)

  - Diversidade lexical (proporção entre vocabulário e total de tokens)

- Visualização de dados: Geração de gráficos de frequência para facilitar a análise.

## Início do processamento do corpus

In [7]:
# criar uma função para fazer a abertura e leitura do arquivo
def ler(nome_arquivo):
  arquivo = open(nome_arquivo,'r', encoding='utf-8')
  conteudo_arq = arquivo.read()
  arquivo.close()
  return conteudo_arq

In [8]:
texto = ler('/content/drive/MyDrive/Colab Notebooks/P1-PLN/Cópia de 2025.05 Ubirajara.txt')
print(len(texto))

219835


## Primeira etapa - Buscador de palavras

In [9]:
def buscador(alvo, texto):
  texto = texto.replace('\n', ' ')
  texto = texto.replace('\t', ' ')

  ocorrencias = []

  encontrado_aqui = texto.find(alvo, 0)
    #Se encontra a palavra, informa a posição
    #SE não encontrar, informa -1

  while encontrado_aqui > 0:
    pos_inicial = encontrado_aqui - (40 - len(alvo))
    trecho = texto[pos_inicial: pos_inicial + 80]

    ocorrencias.append(trecho)

    encontrado_aqui = texto.find(alvo, encontrado_aqui + 1)

    # inicia a busca a partir da posição anterior + 1
    #Se encontra a palavra, informa a posição
    #SE não encontrar, informa -1

  return ocorrencias

In [10]:
resultados = buscador('peito', texto)

for trecho in resultados:
  print(trecho)

i o chefe tocantim quem recebeu no peito a ponta farpada.  Quando o corpo robust
 se tua arma traiçoeira me feriu o peito, o suplicio não vencerá a constancia do
java falar; todos escutaram com respeito o heróe, ainda maior na desgraça.  --Gu
ança, escrava de Jaguarê, cravou o peito do inimigo.  «Elle caiu, o guerreiro ch
O labio de Jandira emudeceu; mas o peito soluçou.  A virjem conheceu que o amor 
 todos dignos de teu valor. Nestes peitos, que te pertencem, ella os nutrirá com
ndos que os botões do cardo por um peito feroz, e as mãos lijeiras que tecem os 
 o acolher, todos o escutam com respeito.  «Em suas palavras prudentes, os anciã
não quando elle não chupa mais seu peito. Ella é como a mangabeira; nutre o frut
ente do Xingú.  As arvores que seu peito encontrava caíam lascadas.  Jurandir es
e. Os noivos cuidavam que era a do peito do tucano; mas ella sabia que era do pe
 tucano; mas ella sabia que era do peito da arára e que tinha as côres de seu gu
os arredores. Nada encontrou

## Segunda Etapa - Limpeza dos corpus

In [11]:
palavras = texto.split()

In [12]:
def limpar(lista):
  lixo = '.,:;?!"´`^~()[]{}/\|@#$%¨&*-'
  quase_limpo = [x.strip(lixo).lower() for x in lista]
  return [x for x in quase_limpo if x.isalpha() or '-' not in x]

In [13]:
teste = "Corre-se atrás do carro, corre se o carro for embora."
word = teste.split()
print(word)

['Corre-se', 'atrás', 'do', 'carro,', 'corre', 'se', 'o', 'carro', 'for', 'embora.']


In [14]:
print(limpar(word))

['atrás', 'do', 'carro', 'corre', 'se', 'o', 'carro', 'for', 'embora']


In [15]:
print(len(palavras))
palavras = limpar(palavras)
print(len(palavras))

37139
36585


Descrevendo os métodos utilizados na limpeza:
* split() - transformar um texto, em uma lista de palavras
* strip() - eliminar sinais ou caracteres no começo ou no fim de uma palavras
* isalpha - realizar um filtro eliminando números ou simbolos de uma lista de referência

## Terceira Etapa - Quantidade de palavras
1. Quantifica as palavras
2. Classificação de ocorrências

In [16]:
# Conhecer a quantidade de palavras e vocabulário
vocabulario = set(palavras)
len(vocabulario)

6902

In [17]:
# calculando a riqueza textual do corpus
riqueza = len(vocabulario) / len(palavras) # 6902 / 36585
riqueza

0.188656553232199

In [18]:
# Criar um dicionário deste texto
from collections import defaultdict

def ocorrencias(lista_palavras):
  dicionario = defaultdict(int)
  for p in lista_palavras:
    dicionario[p] += 1

  return dicionario

In [19]:
dic = ocorrencias(palavras)
mf = sorted(dic.items(), key=lambda tupla:tupla[1],reverse=True)[:50]
for palavra, n in mf:
  print(palavra,'\t',n)

a 	 1491
o 	 1398
de 	 1199
que 	 1119
e 	 918
do 	 685
da 	 624
os 	 496
para 	 347
não 	 340
dos 	 327
se 	 295
as 	 266
como 	 243
guerreiro 	 238
um 	 229
seu 	 215
em 	 213
na 	 205
mais 	 205
é 	 200
sua 	 197
no 	 195
com 	 195
ao 	 190
 	 189
the 	 187
á 	 186
chefe 	 175
ubirajara 	 174
guerreiros 	 171
uma 	 165
por 	 158
grande 	 155
elle 	 152
mas 	 140
nação 	 129
quando 	 125
of 	 122
das 	 115
era 	 113
itaquê 	 113
seus 	 98
pela 	 93
virjem 	 91
espoza 	 87
arací 	 87
paj 	 86
project 	 83
to 	 82


In [21]:
import nltk
nltk.download('stopwords')
vazias = nltk.corpus.stopwords.words('portuguese')

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.


In [24]:
frequentes_plenas = [x for x in mf if x[0].lower() not in vazias]
frequentes_plenas

[('guerreiro', 238),
 ('', 189),
 ('the', 187),
 ('á', 186),
 ('chefe', 175),
 ('ubirajara', 174),
 ('guerreiros', 171),
 ('grande', 155),
 ('elle', 152),
 ('nação', 129),
 ('of', 122),
 ('itaquê', 113),
 ('virjem', 91),
 ('espoza', 87),
 ('arací', 87),
 ('paj', 86),
 ('project', 83),
 ('to', 82)]