<a href="https://colab.research.google.com/github/Clah13/Processamento_Linguagem_Natural/blob/main/PLN.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## Etapa 01 - Início do Processamento do Corpus

Leitura do arquivo

In [10]:
# Criar uma função para fazer a abertura e a leitura do arquivo

def ler(nome_arquivo):
  arquivo = open(nome_arquivo, 'r', encoding = 'utf-8')
  conteudo_arq = arquivo.read()
  arquivo.close()
  return conteudo_arq

texto = ler ('/content/drive/MyDrive/Ubirajara.txt')
print(len(texto))

219835


### Desafio Etapa 1

1. Explicar a diferença entre **caminho absoluto** e **caminho relativo**;
2. Estabeleça um **tratamento de erros** para a função **ler** com Try-Except.

Obs: Código configurado com o objetivo de gerar uma exceção proposital.

In [4]:
# Criar uma função para fazer a abertura e a leitura do arquivo

"""Erros comuns mapeados:
  1. FileNotFoundError
    Quando há um caminho válido, mas o arquivo não foi encontrado;
  2. PermissionError
    Quando há problemas no acesso de arquivos devido a restrição de permissões;
  3. IsADirectoryError
    Quando o caminho aponta para uma pasta ao invés de um arquivo;
  4. Erros genéricos
    Para capturar demais exceções não mapeadas."""

def ler(nome_arquivo):

  try:

    with open(nome_arquivo, 'r', encoding = 'utf-8') as arquivo: # With open fecha o arquivo mesmo com erro
      conteudo_arq = arquivo.read()
      return True, conteudo_arq # Usados na validação para execução dos comandos no final do arquivo

  except FileNotFoundError:

    # Sempre vai retornar um par com true ou false e o que seria equivalente ao texto ou texto do erro.

    erro = "Erro: Arquivo não encontrado. Verifique o caminho e tente novamente."
    return False, erro

  except PermissionError:

    erro = "Erro: Não foi possível abrir o arquivo. Verifique as configurações de permissão e tente novamente."
    return False, erro

  except IsADirectoryError:

    erro = "Erro: O diretório indicado aponta para uma pasta. Por favor, verifique o caminho e tente novamente."
    return False, erro

  except Exception as e:

    erro = "Erro: Um erro inesperado ocorreu:" + {e}
    return False, erro

"""O caminho destacado abaixo representa um caminho absoluto, pois indica o
a jornada completa do conjunto de pastas até a fonte de armazenamento (root).

O caminho relativo executa uma função similar do caminho absoluto, no sentido de
ser um caminho baseado na localização do arquivo. No entanto, é utilizado  quando
a referência está no mesmo diretório/subdiretório do código ou no script.

Deste modo, não é necessário que todo o local seja explicitamente descrito para
que a referência seja identificada com sucesso. Caso o caminho relativo fosse
utilizado logo abaixo, a referência seria encurtada para apenas 'Ubirajara.txt',
por exemplo."""

sucesso, texto = ler ('/content/drive/MyDrive')

# Validação criada para que o comando len não retorne o len do texto do erro
# Ou cause um erro adicional por retornar none por default devido ao erro.

if sucesso:
  print(len(texto))

else:
  print(texto)

Erro: O diretório indicado aponta para uma pasta. Por favor, verifique o caminho e tente novamente.


## Etapa 02 - Buscador de Palavras



In [8]:
def buscador(alvo, texto):
  texto = texto.replace('\n', ' ')
  texto = texto.replace('\t', ' ')

  ocorrencias = []

  encontrado_aqui = texto.find(alvo, 0)

  # Se encontra a palavra, informa a posição
  # Se não encontrar, informa -1

  while encontrado_aqui > 0:

    pos_inicial = encontrado_aqui - (40 - len(alvo))
    trecho = texto [pos_inicial: pos_inicial + 80]

    ocorrencias.append(trecho)

    encontrado_aqui = texto.find(alvo, encontrado_aqui + 1)

    # Inicia a busca a partir da posição anterior + 1
    # Se encontra a palavra, informa a posição
    # se não encontrar, informa -1

  return ocorrencias

resultados = buscador ('peito', texto)

for trecho in resultados:
  print(trecho)

i o chefe tocantim quem recebeu no peito a ponta farpada.  Quando o corpo robust
 se tua arma traiçoeira me feriu o peito, o suplicio não vencerá a constancia do
java falar; todos escutaram com respeito o heróe, ainda maior na desgraça.  --Gu
ança, escrava de Jaguarê, cravou o peito do inimigo.  «Elle caiu, o guerreiro ch
O labio de Jandira emudeceu; mas o peito soluçou.  A virjem conheceu que o amor 
 todos dignos de teu valor. Nestes peitos, que te pertencem, ella os nutrirá com
ndos que os botões do cardo por um peito feroz, e as mãos lijeiras que tecem os 
 o acolher, todos o escutam com respeito.  «Em suas palavras prudentes, os anciã
não quando elle não chupa mais seu peito. Ella é como a mangabeira; nutre o frut
ente do Xingú.  As arvores que seu peito encontrava caíam lascadas.  Jurandir es
e. Os noivos cuidavam que era a do peito do tucano; mas ella sabia que era do pe
 tucano; mas ella sabia que era do peito da arára e que tinha as côres de seu gu
os arredores. Nada encontrou

### Desafio Etapa 2:

1. **Busca Case-Insensitive:**
O código já implementa a busca case-insensitive. Explicar por que isso é importante em PLN e o que aconteceria se não fosse feito.

2. **Contagem de Ocorrências:**
Adicione ao buscador uma contagem total de quantas vezes a palavra-alvo foi encontrada e retorne essa contagem junto com a lista de trechos.

In [22]:
'''

1. Busca case insensitive permite que um trecho seja identificado, não importa a
forma escrita da palavra.

Os elementos de normalização de texto em python são métodos como lower(),
upper(), casefold(), dentre outros. Além disso, existem métodos para remoção de
caracteres especiais.

A utilização de cada método depende da necessidade do usuário. Caso não ocorra a
normalização do texto, em um código destinado a buscar e contar instâncias de
palavras, resulta-se em uma função performática abaixo do esperado, perda de
dados e resultados que não representam a realidade. Isso se deve, pois uma linguagem
e suas formas mudam a cada cenário e as palavras podem ser escritas de diferentes
maneiras por seus interlocutores:

- Com inicial Maiúscula;
- com letra minúsucula;
- CoM DiFeReNtEs FoRmAs De EsCrItA;
- com erros de digitaCaO e acentuacão;

Por outro lado, é importante diferenciar a forma da palavra com o seu
significado implícito se o objetivo resultar em mais do que uma simples contagem
de palavras, como a análise de sentimento. Algumas palavras não refletem mudanças
de significado quando possuem letras maiúsculas (bola, Bola), mas existem exceções
(brigadeiro -> Brigadeiro) de nomes próprios e/ou acentuações (roma/Roma/romã)
que, ao serem normalizadas, dependerão de um contexto adicional ou poderão gerar
falsos positivos / negativos, dependendo do objetivo final daquele código.

O código apresentado acima na etapa 02 não contém elementos de normalização
do texto, sendo estes implementados apenas na etapa 03. Se eu busco, por exemplo,
'cão' e 'ção', o buscador me retorna palavras em trechos diferentes.
O mesmo ocorre se eu buscar por 'Veja' ou 'veja'.

Por fim, o buscador não diferencia palavras compostas de palavras singulares
durante a busca. Então se procurarmos por 'peito', ele retornará a palavra peito,
mas também encontrará um match na palavra 'respeito'.

Isso é relevante caso haja uma necessidade de filtragem por substantivos específicos,
como mente e outros advérbios, como comumente, tranquilamente, etc.

'''

def buscador(alvo, texto, normalizar=False):
  # Limpeza básica do texto
  texto = texto.replace('\n', ' ')
  texto = texto.replace('\t', ' ')

  texto_original = texto

  # Normalização
  if normalizar:
    texto = texto.lower()
    alvo = alvo.lower()

  ocorrencias = []
  encontrado_aqui = texto.find(alvo, 0)

  while encontrado_aqui > 0:
    pos_inicial = max(0, encontrado_aqui - (40 - len(alvo)))
    trecho = texto_original[pos_inicial: pos_inicial + 80]
    ocorrencias.append(trecho)
    encontrado_aqui = texto.find(alvo, encontrado_aqui + 1)

  return ocorrencias

# Texto de exemplo
texto = """O paciente apresentava dores no Peito. PEITO muito dolorido.
Outro relato com dor no peito e nas costas. Mas também mencionou a região torácica."""

# Busca sem normalização (case sensitive)
resultados_sem_normalizacao = buscador('peito', texto, normalizar=False)

# Busca com normalização (case insensitive)
resultados_com_normalizacao = buscador('peito', texto, normalizar=True)

# Exibição dos resultados
print("\nDefault:")
for trecho in resultados_sem_normalizacao:
  print(f"- {trecho}")
print(f"\nTotal encontrado (sem normalização): {len(resultados_sem_normalizacao)}\n")

print("Normalizado:")
for trecho in resultados_com_normalizacao:
  print(f"- {trecho}")
print(f"\nTotal encontrado (com normalização): {len(resultados_com_normalizacao)}\n")

print("-" * 50)

'''----------------------------------------------------------------------'''

# Adaptando o mesmo código com o texto original

def buscador(alvo, texto):
  texto = texto.replace('\n', ' ')
  texto = texto.replace('\t', ' ')

  ocorrencias = []

  encontrado_aqui = texto.find(alvo, 0)

  while encontrado_aqui > 0:

    pos_inicial = encontrado_aqui - (40 - len(alvo))
    trecho = texto[pos_inicial: pos_inicial + 80]

    ocorrencias.append(trecho)

    encontrado_aqui = texto.find(alvo, encontrado_aqui + 1)

  # Exibe os trechos encontrados
  for trecho in ocorrencias:
    print(trecho)

  # Mostra a quantidade total de ocorrências
  print(f"\nTotal encontrado: {len(ocorrencias)}")

  return ocorrencias

# Exemplo de uso
resultados = buscador('peito', texto = ler ('/content/drive/MyDrive/Ubirajara.txt'))


Default:
-  dolorido. Outro relato com dor no peito e nas costas. Mas também mencionou a re

Total encontrado (sem normalização): 1

Normalizado:
- O paciente apresentava dores no Peito. PEITO muito dolorido. Outro relato com do
- ciente apresentava dores no Peito. PEITO muito dolorido. Outro relato com dor no
-  dolorido. Outro relato com dor no peito e nas costas. Mas também mencionou a re

Total encontrado (com normalização): 3

--------------------------------------------------
i o chefe tocantim quem recebeu no peito a ponta farpada.  Quando o corpo robust
 se tua arma traiçoeira me feriu o peito, o suplicio não vencerá a constancia do
java falar; todos escutaram com respeito o heróe, ainda maior na desgraça.  --Gu
ança, escrava de Jaguarê, cravou o peito do inimigo.  «Elle caiu, o guerreiro ch
O labio de Jandira emudeceu; mas o peito soluçou.  A virjem conheceu que o amor 
 todos dignos de teu valor. Nestes peitos, que te pertencem, ella os nutrirá com
ndos que os botões do card

## Etapa 03 - Limpeza do Corpus

In [None]:
palavras = texto.split()

def limpar(lista):
  lixo = '.,:;?!"`´^~()[]{}/\|@#$%¨&*-'
  quase_limpo = [x.strip(lixo).lower() for x in lista]
  return [x for x in quase_limpo if x.isalpha() or '-' not in x]

teste = "Corre-se atrás do carro, corre se o carro for embora."
word = teste.split()
print(word)
print(limpar(word))

print(len(palavras))
palavras = limpar(palavras)
print(len(palavras))

['Corre-se', 'atrás', 'do', 'carro,', 'corre', 'se', 'o', 'carro', 'for', 'embora.']
['atrás', 'do', 'carro', 'corre', 'se', 'o', 'carro', 'for', 'embora']
37139
36585


### Desafio Etapa 3

1. Refinar a limpeza de pontuação: O código strip remove apenas a pontuação nas bordas. Use o módulo re para remover qualquer pontuação dentro da palavra.

2. Remoção de números: Ajuste a função limpar_tokens para remover palavras que são apenas números. (x.isalpha())

In [31]:
import re

def limpar(lista):
  palavras_limpas = []

  for palavra in lista:
    # Substitui hífens por espaço (para separar palavras compostas)
    palavra = palavra.replace('-', ' ')

    # Remove outros caracteres especiais (pontuação, etc)
    palavra = re.sub(r"[^\w\s]", "", palavra)

    # Divide palavras que foram separadas pelo hífen
    sub_palavras = palavra.split()

    for sub in sub_palavras:
      sub = sub.lower()
      if sub.isalpha():  # garante que só letras passem
        palavras_limpas.append(sub)

  return palavras_limpas

# Teste da função

texto = "Corre-se atrás do carro, corre se o carro for embora. 123 2025"
palavras = texto.split()

print("Original:", palavras)
print("Limpo:", limpar(palavras))
print("Tamanho original:", len(palavras))
print("Tamanho limpo:", len(limpar(palavras)))

# Neste caso, ele retorna 11 palavras limpas pois apesar de termos limpado
# 2 números, o corre-se foi quebrado em 2 palavras distintas.
# 12 - 2 + 1 = 11

print("-" * 50)

texto = ler ('/content/drive/MyDrive/Ubirajara.txt')
palavras = texto.split()

# Tirei a exibição do texto pra evitar um output gigante

print("Tamanho original:", len(palavras))
print("Tamanho limpo:", len(limpar(palavras)))


Original: ['Corre-se', 'atrás', 'do', 'carro,', 'corre', 'se', 'o', 'carro', 'for', 'embora.', '123', '2025']
Limpo: ['corre', 'se', 'atrás', 'do', 'carro', 'corre', 'se', 'o', 'carro', 'for', 'embora']
Tamanho original: 12
Tamanho limpo: 11
--------------------------------------------------
Tamanho original: 37139
Tamanho limpo: 36846


# Etapa 04 - Análise de quantidade de palavras e frequência

In [32]:
# Conhecer a quantidade de palavras e vocabulário

vocabulario = set(palavras)
len(vocabulario)

# Calculando a riqueza textual do corpus

riqueza = len(vocabulario) / len(palavras) # 6902 / 36585
riqueza

# Criar um dicionário deste texto

from collections import defaultdict

def ocorrencias (lista_palavras):
  dicionario = defaultdict(int)
  for p in lista_palavras:
    dicionario[p] += 1

  return dicionario

dic = ocorrencias(palavras)
mf = sorted(dic.items(), key = lambda tupla:tupla[1], reverse = True)[:50]
for palavra, n in mf:
  print(palavra,'\t', n)
dic

import nltk
nltk.download('stopwords')
vazias = nltk.corpus.stopwords.words('portuguese')

frequentes_plenas = [x for x in mf if x[0].lower() not in vazias]
frequentes_plenas

a 	 1370
o 	 1239
de 	 1181
que 	 1111
e 	 911
do 	 677
da 	 624
os 	 414
para 	 340
dos 	 326
não 	 311
se 	 273
as 	 244
como 	 238
um 	 216
seu 	 207
em 	 202
na 	 197
mais 	 196
com 	 193
sua 	 187
no 	 182
ao 	 182
guerreiro 	 175
* 	 175
á 	 174
the 	 170
é 	 169
uma 	 158
grande 	 153
por 	 147
O 	 139
chefe 	 137
elle 	 115
das 	 113
of 	 111
guerreiros 	 107
A 	 102
mas 	 95
era 	 91
pela 	 90
nação 	 90
Ubirajara 	 90
seus 	 86
Project 	 79
Os 	 76
to 	 72
quando 	 70
or 	 68
ou 	 67


[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.


[('guerreiro', 175),
 ('*', 175),
 ('á', 174),
 ('the', 170),
 ('grande', 153),
 ('chefe', 137),
 ('elle', 115),
 ('of', 111),
 ('guerreiros', 107),
 ('nação', 90),
 ('Ubirajara', 90),
 ('Project', 79),
 ('to', 72),
 ('or', 68)]