# Desafio 1

## Análise de uma Bula de Medicamento

**Aluna:** Bianca da Silva Rodrigues

**Professor:** Cristiano da Silveira Colombo

**Disciplina:** Tópicos Avançados em Bancos de Dados - Mineração de Textos


### Instruções 

1) Faça o download de uma bula de medicamento em PDF (versão paciente) no site Bulário Eletrônico.

2) Converta a bula em PDF para o formato TXT (texto puro).

3) Efetue o pré-processamento do arquivo no formato TXT de modo a garantir a preparação e limpeza do mesmo, como por exemplo, a retirada de caracteres especiais, espaços em branco e quebras de linha excedentes.

4) Identifique e apresente as 20 palavras mais frequentes no texto da bula selecionada por você (não esqueça de retirar as stopwords).

5) Gere um arquivo onde sejam apresentadas as 20 palavras mais frequentes e suas respectivas classes gramaticais. Por exemplo: médico (substantivo), ingerir (verbo), etc...

6) [Desafio extra "super power"] Gere um arquivo onde sejam apresentadas 20 palavras e seus respectivos "conceitos". Por exemplo: médico (pessoa), enxaqueca (sintoma), câncer (doença), dipirona (medicamento).

In [None]:
!pip install PyPDF2 nltk spacy
import PyPDF2
import nltk
import spacy
import re
!python -m spacy download pt_core_news_sm
nltk.download('stopwords')
nltk.download('punkt')
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize
from collections import Counter

In [None]:


caminho_pdf = 'dipirona.pdf'

def extrair_texto_de_pdf(caminho_pdf):
    texto = ''
    with open(caminho_pdf, 'rb') as arquivo_pdf:
        pdf = PyPDF2.PdfReader(arquivo_pdf)
        num_paginas = len(pdf.pages)
        for pagina in range(num_paginas):
            texto += pdf.pages[pagina].extract_text()
    return texto

texto_bula = extrair_texto_de_pdf(caminho_pdf)

# Verifica o conteúdo do texto
print(texto_bula)


In [None]:
# Defina uma função para pré-processamento
def preprocessamento(texto):
    # Converte o texto para minúsculas
    texto = texto.lower()
    
    # Mantém palavras com acentos e remove apenas números e sinais
    texto = re.sub(r'[^a-zA-ZáÁéÉíÍóÓúÚâÂêÊôÔãÃõÕçÇ]', ' ', texto)

    
    # Tokenização em palavras
    palavras = word_tokenize(texto)
    
    # Remove stopwords
    stop_words = set(stopwords.words('portuguese'))
    palavras_filtradas = [palavra for palavra in palavras if palavra not in stop_words]
    
    # Junte as palavras em um único texto
    texto_limpo = ' '.join(palavras_filtradas)
    
    return texto_limpo

texto_preprocessado = preprocessamento(texto_bula)

# Verifica o texto após o pré-processamento
print(texto_preprocessado)


In [None]:
# Tokenização do texto pré-processado novamente
palavras = word_tokenize(texto_preprocessado)

# Contagem das palavras
contagem_palavras = Counter(palavras)

# 20 palavras mais frequentes
palavras_mais_frequentes = contagem_palavras.most_common(20)

# Imprima as 20 palavras mais frequentes
for palavra, frequencia in palavras_mais_frequentes:
    print(f'{palavra}: {frequencia}')


In [15]:


# Carregue o modelo de língua em português
nlp = spacy.load('pt_core_news_sm')

# Processamento do texto com spaCy
doc = nlp(texto_preprocessado)

# Dicionário para mapear classes gramaticais para rótulos mais legíveis
rotulos_classes_gramaticais = {
    'NOUN': 'substantivo',
    'VERB': 'verbo',
    'ADJ': 'adjetivo',
    'ADV': 'advérbio',
    'ADP': 'preposição',
    'PRON': 'pronome',
    'DET': 'determinante',
    'CONJ': 'conjunção',
    'NUM': 'número',
    'PUNCT': 'pontuação'
}

# Encontre e imprima as 20 palavras mais frequentes com suas classes gramaticais
palavras_com_classes = []
for palavra, frequencia in palavras_mais_frequentes:
    token = nlp(palavra)[0]
    classe_gramatical = token.pos_
    classe_gramatical_legivel = rotulos_classes_gramaticais.get(classe_gramatical, 'desconhecida')
    palavras_com_classes.append((palavra, classe_gramatical_legivel))

# Salve as palavras mais frequentes e suas classes em um arquivo
with open('palavras_frequentes_com_classes.txt', 'w') as arquivo_saida:
    for palavra, classe in palavras_com_classes:
        arquivo_saida.write(f'{palavra} ({classe})\n')

print("Arquivo 'palavras_frequentes_com_classes.txt' gerado com sucesso.")


Arquivo 'palavras_frequentes_com_classes.txt' gerado com sucesso.


In [16]:
# Dicionário manual de exemplo que associa palavras a conceitos
dicionario_conceitos = {
    'médico': 'pessoa',
    'enxaqueca': 'sintoma',
    'dipirona': 'medicamento'
    # Adicione mais palavras e conceitos conforme necessário
}

# Encontre as 20 palavras mais frequentes (já fizemos isso no Passo 4)
palavras_mais_frequentes = [palavra for palavra, _ in palavras_mais_frequentes]

# Vincule palavras a conceitos com base no dicionário
conceitos_associados = []
for palavra in palavras_mais_frequentes:
    conceito = dicionario_conceitos.get(palavra, 'desconhecido')
    conceitos_associados.append((palavra, conceito))

# Salve as palavras e seus conceitos em um arquivo
with open('palavras_conceitos.txt', 'w') as arquivo_saida:
    for palavra, conceito in conceitos_associados:
        arquivo_saida.write(f'{palavra}: {conceito}\n')

print("Arquivo 'palavras_conceitos.txt' gerado com sucesso.")


Arquivo 'palavras_conceitos.txt' gerado com sucesso.
