<a href="https://colab.research.google.com/github/davidfeitoza/Processamento_de_Linguagem_Natural/blob/main/Processamento_de_Linguagem_Natural.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

### **Etapa 1**

In [46]:
def ler(nome_arquivo):
    try:
        # Abrindo o arquivo para leitura no formato UTF-8
        with open(nome_arquivo, 'r', encoding='utf-8') as arquivo:
            conteudo_arq = arquivo.read()
        return conteudo_arq
    except FileNotFoundError:
        print(f"O arquivo {nome_arquivo} não foi encontrado.")
    except IOError:
        print(f"Ocorreu um erro ao ler o arquivo {nome_arquivo}.")
    return None  # Retorna None caso haja erro

In [47]:
# Caminho absoluto (precisa ser válido no seu sistema)
texto_absoluto = ler('/content/drive/MyDrive/Colab Notebooks/Ubirajara.txt')
if texto_absoluto:  # Verifica se o conteúdo foi lido corretamente
    print("Comprimento do texto com caminho absoluto:", len(texto_absoluto))

# Caminho relativo (caso o arquivo esteja na mesma pasta que o script)
texto_relativo = ler('Ubirajara.txt')
if texto_relativo:  # Verifica se o conteúdo foi lido corretamente
    print("Comprimento do texto com caminho relativo:", len(texto_relativo))

Comprimento do texto com caminho absoluto: 219835
O arquivo Ubirajara.txt não foi encontrado.


### **Etapa 2**

In [48]:
def buscador(alvo, texto):
  # Case-insensitive (transformando o texto e a palavra-alvo para minúsculas)

  texto = texto.replace('\n', ' ')
  texto = texto.replace('\t', ' ')

  ocorrencias = []
  contagem = 0

  encontrado_aqui = texto.find(alvo, 0)

  while encontrado_aqui != -1:  # Enquanto houver mais ocorrências no texto
        pos_inicial = max(0, encontrado_aqui - (40 - len(alvo)))  # Ajusta a posição inicial para garantir um bom trecho de contexto
        trecho = texto[pos_inicial: pos_inicial + 80]  # Extrai um trecho de 80 caracteres ao redor da ocorrência

        # Adiciona o trecho encontrado na lista de ocorrências
        ocorrencias.append(trecho)

        # Incrementa a contagem de ocorrências
        contagem += 1

        # Continua a busca a partir da posição da próxima ocorrência
        encontrado_aqui = texto.find(alvo, encontrado_aqui + 1)

        # Retorna tanto a lista de ocorrências quanto a contagem total de vezes que a palavra-alvo foi encontrada
        return ocorrencias, contagem

In [49]:
resultados, contagem = buscador('peito', texto)

for trecho in resultados:
  print(trecho)

print(f'Palavra encontrada {contagem} vezes.')

i o chefe tocantim quem recebeu no peito a ponta farpada.  Quando o corpo robust
Palavra encontrada 1 vezes.


### **Etapa 3**

In [50]:
palavras = texto.split()

In [51]:
import re

def limpar(lista):
  lixo = '.,:;?!"´`^~()[]{}/\|@#$%¨&*-'
  # Refinamento: usando expressões regulares para remover qualquer pontuação dentro da palavra
    # A expressão [^\w\s] substitui qualquer coisa que não seja uma letra, número ou espaço
  quase_limpo = [re.sub(r'[^\w\s-]', '', x).lower() for x in lista]
  # Agora, vamos remover as palavras que são apenas números
    # A função x.isdigit() vai garantir que apenas palavras com letras e/ou hífen sejam mantidas
  return [x for x in quase_limpo if (x.isalpha() or '-' in x) and not x.isdigit()]

In [52]:
teste = "Corre-se atrás do carro, corre se o carro for embora."
word = teste.split()
print("Antes da limpeza:", word)

Antes da limpeza: ['Corre-se', 'atrás', 'do', 'carro,', 'corre', 'se', 'o', 'carro', 'for', 'embora.']


In [53]:
print("Após a limpeza:", limpar(word))

Após a limpeza: ['corre-se', 'atrás', 'do', 'carro', 'corre', 'se', 'o', 'carro', 'for', 'embora']


In [54]:
print(len(palavras))
palavras = limpar(palavras)
print(len(palavras))

37139
36422


### **Etapa 4**

In [55]:
vocabulario = set(palavras)
len(vocabulario)

7000

In [56]:
riqueza = len(vocabulario) / len(palavras)
riqueza

0.19219153259019275

In [57]:
from collections import defaultdict

def ocorrencias(lista_palavras):
  dicionario = defaultdict(int)
  for p in lista_palavras:
    dicionario[p] += 1

  return dicionario

In [58]:
dic = ocorrencias(palavras)
mf = sorted(dic.items(), key=lambda tupla:tupla[1], reverse=True)[:50]
for palavra, n in mf:
  print(palavra, '\t', n)

a 	 1487
o 	 1400
de 	 1199
que 	 1118
e 	 922
do 	 685
da 	 624
os 	 495
para 	 346
não 	 337
dos 	 327
se 	 293
as 	 270
como 	 243
guerreiro 	 235
um 	 229
seu 	 217
em 	 213
mais 	 206
na 	 205
é 	 201
sua 	 198
no 	 195
com 	 195
ao 	 190
the 	 189
á 	 187
guerreiros 	 173
chefe 	 173
uma 	 165
por 	 163
elle 	 159
ubirajara 	 154
grande 	 154
mas 	 149
quando 	 129
nação 	 129
of 	 122
das 	 115
era 	 113
itaquê 	 111
seus 	 98
pela 	 93
virjem 	 89
espoza 	 89
arací 	 89
project 	 88
gutenberg 	 87
paj 	 86
to 	 82


In [59]:
dic
# tupla([0], [1])

defaultdict(int,
            {'the': 189,
             'project': 88,
             'gutenberg': 87,
             'ebook': 13,
             'of': 122,
             'ubirajara': 154,
             'lenda': 11,
             'tupi': 6,
             'this': 45,
             'is': 22,
             'for': 26,
             'use': 12,
             'anyone': 5,
             'anywhere': 2,
             'in': 63,
             'united': 15,
             'states': 20,
             'and': 68,
             'most': 6,
             'other': 17,
             'parts': 3,
             'world': 2,
             'at': 15,
             'no': 195,
             'cost': 3,
             'with': 47,
             'almost': 2,
             'restrictions': 2,
             'whatsoever': 2,
             'you': 74,
             'may': 15,
             'copy': 12,
             'it': 15,
             'give': 4,
             'away': 2,
             'or': 77,
             're-use': 2,
             'under': 6,
             'te

In [60]:
import nltk
nltk.download('stopwords')
vazias = nltk.corpus.stopwords.words('portuguese')

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


In [61]:
frequentes_plenas = [x for x in mf if x[0].lower() not in vazias]
frequentes_plenas

[('guerreiro', 235),
 ('the', 189),
 ('á', 187),
 ('guerreiros', 173),
 ('chefe', 173),
 ('elle', 159),
 ('ubirajara', 154),
 ('grande', 154),
 ('nação', 129),
 ('of', 122),
 ('itaquê', 111),
 ('virjem', 89),
 ('espoza', 89),
 ('arací', 89),
 ('project', 88),
 ('gutenberg', 87),
 ('paj', 86),
 ('to', 82)]