# Abordagens Simbólicas na Sumarização de Textos

A sumarização simbólica baseia-se na análise lógica ou heurística do texto para determinar quais partes são essenciais para o entendimento geral do conteúdo. Esta abordagem geralmente não requer treinamento de modelo e pode ser altamente eficaz quando regras específicas de domínio estão disponíveis. Por exemplo, regras podem ser estabelecidas para enfatizar sentenças que contêm certas palavras-chave, estruturas sintáticas específicas, ou que atendam a certos critérios de relevância definidos manualmente.

Neste notebook, dividimos as técnicas de sumarização simbólica em três abordagens que são descritas a seguir:

### 1. Baseada em Princípios

**Objetivo**: Desenvolver um sistema que opera com um conjunto limitado de princípios definidos a priori, que guiam a geração de sumários.

**Componentes**:
- **Módulo de Análise de Texto**: Decompõe o texto em unidades de informação (frases, cláusulas) e identifica as relações semânticas.
- **Banco de Princípios**: Conjunto de regras ou princípios que definem como os elementos do texto devem ser combinados ou destacados no sumário.
- **Mecanismo de Inferência**: Usa os princípios para deduzir quais partes do texto são mais relevantes, garantindo que o sumário mantenha os aspectos essenciais do texto original.
- **Gerador de Sumário**: Constrói o sumário final baseado nas inferências e relevância dos elementos do texto.

**Exemplo de Princípio**: Priorizar frases que contêm entidades nomeadas ou termos técnicos específicos do domínio.

### 2. Baseada em Casos

**Objetivo**: Utilizar casos passados de sumarização como modelo para novas sumarizações.

**Componentes**:
- **Módulo de Análise de Texto**: Similar ao descrito acima, com ênfase na identificação de padrões recorrentes e características marcantes do texto.
- **Banco de Casos**: Armazena exemplos anteriores de textos e seus sumários correspondentes.
- **Mecanismo de Correspondência de Casos**: Analisa o novo texto e encontra casos similares no banco, usando analogias para determinar a melhor forma de sumarizar.
- **Gerador de Sumário**: Adapta o sumário do caso mais similar para criar um novo sumário que reflete o conteúdo atual.

**Exemplo de Caso**: Sumários de artigos científicos em um campo específico que frequentemente enfatizam hipóteses e resultados.

### 3. Baseada em Regras

**Objetivo**: Estruturar o sistema de sumarização com base em um conjunto explícito de regras que definem como extrair e reorganizar informações do texto.

**Componentes**:
- **Módulo de Análise de Texto**: Identifica elementos-chave do texto, como sujeitos, verbos e objetos, além de estruturas argumentativas.
- **Banco de Regras**: Conjunto detalhado de regras que orientam a seleção e estruturação do conteúdo no sumário.
- **Mecanismo de Aplicação de Regras**: Aplica as regras ao texto para identificar as informações mais relevantes e a forma de apresentá-las.
- **Gerador de Sumário**: Compila as informações selecionadas em um formato coeso e conciso.

**Exemplo de Regra**: Se uma frase contém uma conclusão ou um resultado de pesquisa, incluí-la no sumário com alta prioridade.

Cada uma dessas arquiteturas tem vantagens e desafios específicos. A escolha depende do contexto de aplicação específico, como a disponibilidade de dados históricos, a necessidade de adaptação a diferentes tipos de texto, e o nível de controle desejado sobre o processo de sumarização.

## 1. Abordagem Baseada em Príncipios

A seguir apresentamos uma implementação simplificada da sumarização baseada em príncipios:

In [1]:
class PrincipleBasedSummarizer:
    def __init__(self, principles):
        self.principles = principles

    def analyze_text(self, text):
        # Decompor texto em frases
        sentences = text.split('.')
        return sentences

    def infer_relevance(self, sentences):
        # Aplicar princípios para determinar relevância
        relevant_sentences = [s for s in sentences if any(p(s) for p in self.principles)]
        return relevant_sentences

    def generate_summary(self, relevant_sentences):
        # Construir o sumário
        summary = '. '.join(relevant_sentences).strip() + '.'
        return summary

    def summarize(self, text):
        sentences = self.analyze_text(text)
        relevant_sentences = self.infer_relevance(sentences)
        return self.generate_summary(relevant_sentences)

# Exemplo de princípio
def contains_named_entities(sentence):
    # Simulação simples de verificação de entidades nomeadas
    return "Intel" in sentence or "IBM" in sentence

# Uso da classe
summarizer = PrincipleBasedSummarizer(principles=[contains_named_entities])
example_text = (
    "A Intel lançou um novo processador. Este processador é mais rápido que o anterior. "
    "A IBM anunciou parcerias estratégicas. Outras empresas estão mantendo o ritmo."
)
print("Resumo Baseado em Princípios:", summarizer.summarize(example_text))


Resumo Baseado em Princípios: A Intel lançou um novo processador.  A IBM anunciou parcerias estratégicas.


## 2. Abordagem Baseada em Casos

A seguir apresentamos uma implementação simplificada da sumarização baseada em casos:

In [2]:
class CaseBasedSummarizer:
    def __init__(self, case_database):
        self.case_database = case_database

    def analyze_text(self, text):
        # Decompor texto em frases
        sentences = text.split('.')
        return sentences

    def match_cases(self, sentences):
        # Encontrar correspondências com casos antigos
        relevant_sentences = []
        for sentence in sentences:
            if any(case in sentence for case in self.case_database):
                relevant_sentences.append(sentence.strip())
        return relevant_sentences

    def generate_summary(self, relevant_sentences):
        # Construir o sumário
        summary = '. '.join(relevant_sentences).strip() + '.'
        return summary

    def summarize(self, text):
        sentences = self.analyze_text(text)
        relevant_sentences = self.match_cases(sentences)
        return self.generate_summary(relevant_sentences)

# Banco de casos
case_database = ["avanços tecnológicos", "descobertas científicas"]

# Uso da classe
summarizer = CaseBasedSummarizer(case_database=case_database)
example_text = (
    "Os avanços tecnológicos em IA estão moldando o futuro. Descobertas científicas foram feitas em genética. "
    "As empresas estão se adaptando rapidamente. Muitas startups estão surgindo."
)
print("Resumo Baseado em Casos:", summarizer.summarize(example_text))


Resumo Baseado em Casos: Os avanços tecnológicos em IA estão moldando o futuro.


## 3. Abordagem Baseada em Regras

A seguir apresentamos uma implementação simplificada da sumarização baseada em regras:

In [3]:
class RuleBasedSummarizer:
    def __init__(self, rules):
        self.rules = rules

    def analyze_text(self, text):
        # Decompor texto em frases
        sentences = text.split('.')
        return sentences

    def apply_rules(self, sentences):
        # Aplicar regras para selecionar frases relevantes
        relevant_sentences = [s for s in sentences if any(rule(s) for rule in self.rules)]
        return relevant_sentences

    def generate_summary(self, relevant_sentences):
        # Construir o sumário
        summary = '. '.join(relevant_sentences).strip() + '.'
        return summary

    def summarize(self, text):
        sentences = self.analyze_text(text)
        relevant_sentences = self.apply_rules(sentences)
        return self.generate_summary(relevant_sentences)

# Exemplo de regra
def contains_research_outcome(sentence):
    return "pesquisa" in sentence or "estudo" in sentence

# Uso da classe
summarizer = RuleBasedSummarizer(rules=[contains_research_outcome])
example_text = (
    "Este estudo mostra resultados promissores. Outras análises são inconclusivas. "
    "A pesquisa avançou em várias áreas. Alguns resultados ainda são preliminares."
)
print("Resumo Baseado em Regras:", summarizer.summarize(example_text))


Resumo Baseado em Regras: Este estudo mostra resultados promissores.  A pesquisa avançou em várias áreas.


## 4. Análise Comparativa

In [4]:
example_text = (
    "As descobertas científicas no campo da biologia molecular estão acelerando o desenvolvimento de novos tratamentos médicos. "
    "Estes avanços são particularmente notáveis no tratamento de doenças genéticas. A tecnologia de edição genética, como CRISPR, "
    "revolucionou a medicina moderna. Além disso, a Intel lançou um novo processador que promete avanços significativos em termos "
    "de capacidade de computação e eficiência energética. A IBM anunciou uma nova parceria estratégica com a Microsoft para explorar "
    "aplicações de inteligência artificial em larga escala. Essas parcerias estão moldando o futuro das tecnologias de informação. "
    "Enquanto isso, em um estudo recente, pesquisadores descobriram um novo vírus que parece ter origem desconhecida, o que levanta "
    "preocupações sobre possíveis ameaças à saúde global. Outras pesquisas, no entanto, sugerem que o impacto desse vírus pode ser "
    "limitado a áreas específicas. As empresas de tecnologia continuam a impulsionar inovações, com muitas startups focadas no "
    "desenvolvimento de soluções sustentáveis para problemas ambientais."
)

print("Resumo Baseado em Princípios:")

# Princípio para identificar termos tecnológicos e científicos
def contains_technology_or_science_terms(sentence):
    keywords = ["tecnologia", "científica", "processador", "genética", "inteligência artificial"]
    return any(keyword in sentence for keyword in keywords)

# Instância e uso Baseado em Príncipios
tech_science_summarizer = PrincipleBasedSummarizer(principles=[contains_technology_or_science_terms])
principle_result = tech_science_summarizer.summarize(example_text)
print(principle_result)


print("\nResumo Baseado em Casos:")

# Casos importantes focados em avanços tecnológicos e descobertas médicas
important_cases = ["avanços", "tratamento", "tecnologia", "medicina", "inteligência artificial"]

# Instância e uso Baseado em Casos
case_summarizer = CaseBasedSummarizer(case_database=important_cases)
case_result = case_summarizer.summarize(example_text)
print(case_result)


print ("\nResumo Baseado em Regras:")
# Regras para incluir frases com descobertas ou inovações
def includes_innovations(sentence):
    keywords = ["descobertas", "inovações", "desenvolvimento", "novo"]
    return any(keyword in sentence for keyword in keywords)

# Instância e uso Baseado em Regras
innovation_summarizer = RuleBasedSummarizer(rules=[includes_innovations])
rule_result = innovation_summarizer.summarize(example_text)
print(rule_result)

print("\nComparativo de tamanho dos textos")
print(f"\tTexto original:               {len(example_text)}")
print(f"\tResumo baseado em príncipios: {len(principle_result)}")
print(f"\tResumo baseado em casos:      {len(case_result)}")
print(f"\tResumo baseado em regras:     {len(rule_result)}")

Resumo Baseado em Princípios:
As descobertas científicas no campo da biologia molecular estão acelerando o desenvolvimento de novos tratamentos médicos.  Estes avanços são particularmente notáveis no tratamento de doenças genéticas.  A tecnologia de edição genética, como CRISPR, revolucionou a medicina moderna.  Além disso, a Intel lançou um novo processador que promete avanços significativos em termos de capacidade de computação e eficiência energética.  A IBM anunciou uma nova parceria estratégica com a Microsoft para explorar aplicações de inteligência artificial em larga escala.  Essas parcerias estão moldando o futuro das tecnologias de informação.  As empresas de tecnologia continuam a impulsionar inovações, com muitas startups focadas no desenvolvimento de soluções sustentáveis para problemas ambientais.

Resumo Baseado em Casos:
As descobertas científicas no campo da biologia molecular estão acelerando o desenvolvimento de novos tratamentos médicos. Estes avanços são particular

## 5. Melhorias com Biblioteca de PLN spaCy

A seguir implementamos novamente as três classes de sumarização utilizando a biblioteca de PLN spaCy. Utilizamos modelos da spaCy para análise sintática e semântica, melhorando significativamente a qualidade dos sumários gerados.

### Pré-requisitos

Antes de começar, é necessário instalar a biblioteca spaCy e o modelo de língua portuguesa. Você pode fazer isso executando os seguintes comandos:

```bash
pip install spacy
python -m spacy download pt_core_news_sm
```

Estes comandos instalam o spaCy e baixam o modelo pt_core_news_sm, que é um modelo compacto para o português.

In [5]:
# Exemplo de como usar spacy com modelo de língua portuguesa
import spacy

# Carregando o modelo de língua portuguesa
nlp = spacy.load('pt_core_news_sm')

# Função para análise sintática e semântica
def analyze_text(text):
    doc = nlp(text)
    return doc


In [6]:
import spacy

# Carregando o modelo de língua portuguesa
nlp = spacy.load('pt_core_news_sm')

def adjust_connectives(sentence, is_first_sentence):
    if is_first_sentence:
        # Removendo ou substituindo expressões inadequadas para o início de um texto
        inappropriate_starts = ["Além disso, ", "Por outro lado, ", "Entretanto, "]
        for expr in inappropriate_starts:
            if sentence.startswith(expr):
                # Pode-se substituir por algo neutro ou remover completamente
                sentence = sentence[len(expr):]
                # Capitalizar a primeira letra após a remoção
                sentence = sentence[0].upper() + sentence[1:]
    return sentence

def clean_summary(summary):
    sentences = summary.split('. ')
    cleaned_sentences = []
    for i, sentence in enumerate(sentences):
        if sentence:  # Evitar strings vazias
            sentence = adjust_connectives(sentence, i == 0)
            cleaned_sentences.append(sentence)
    return '. '.join(cleaned_sentences).strip().replace(' .', '.').replace('..', '.')

class PrincipleBasedSummarizer:
    def __init__(self, principles):
        self.principles = principles

    def analyze_text(self, text): # Função para análise sintática e semântica
        doc = nlp(text)
        return [sent.text for sent in doc.sents]

    def infer_relevance(self, sentences):
        relevant_sentences = [s for s in sentences if any(p(s) for p in self.principles)]
        return relevant_sentences

    def generate_summary(self, relevant_sentences):
        summary = '. '.join(relevant_sentences).strip()
        return clean_summary(summary)

    def summarize(self, text):
        sentences = self.analyze_text(text)
        relevant_sentences = self.infer_relevance(sentences)
        return self.generate_summary(relevant_sentences)

def contains_technology_or_science_terms(sentence):
    doc = nlp(sentence)
    return any(ent.label_ in ["ORG", "GPE"] for ent in doc.ents)  # Usando etiquetas mais genéricas

class CaseBasedSummarizer:
    def __init__(self, case_functions):
        self.case_functions = case_functions

    def analyze_text(self, text): # Função para análise sintática e semântica
        doc = nlp(text)
        return [sent.text for sent in doc.sents]

    def match_cases(self, sentences):
        relevant_sentences = []
        for sentence in sentences:
            if any(case(nlp(sentence)) for case in self.case_functions):  # Assegurando que o nlp seja chamado aqui
                relevant_sentences.append(sentence.strip())
        return relevant_sentences

    def generate_summary(self, relevant_sentences):
        summary = '. '.join(relevant_sentences).strip()
        return clean_summary(summary)

    def summarize(self, text):
        sentences = self.analyze_text(text)
        relevant_sentences = self.match_cases(sentences)
        return self.generate_summary(relevant_sentences)

def match_technological_advancements(doc):
    return any(token.lemma_ in ["avanço", "desenvolver", "tratar"] for token in doc)  # Corrigido para usar lemas corretos

class RuleBasedSummarizer:
    def __init__(self, rules):
        self.rules = rules

    def analyze_text(self, text): # Função para análise sintática e semântica
        doc = nlp(text)
        return [sent.text for sent in doc.sents]

    def apply_rules(self, sentences):
        relevant_sentences = [s for s in sentences if any(rule(s) for rule in self.rules)]
        return relevant_sentences

    def generate_summary(self, relevant_sentences):
        summary = '. '.join(relevant_sentences).strip()
        return clean_summary(summary)

    def summarize(self, text):
        sentences = self.analyze_text(text)
        relevant_sentences = self.apply_rules(sentences)
        return self.generate_summary(relevant_sentences)

def includes_innovations(sentence):
    doc = nlp(sentence)
    return any(token.lemma_ in ["descoberta", "inovação", "desenvolvimento", "novo"] for token in doc)  # Uso correto do lemma


# Instância e uso das classes
tech_science_summarizer = PrincipleBasedSummarizer(principles=[contains_technology_or_science_terms])
case_summarizer = CaseBasedSummarizer(case_functions=[match_technological_advancements])
innovation_summarizer = RuleBasedSummarizer(rules=[includes_innovations])

principle_result = tech_science_summarizer.summarize(example_text)
case_result = case_summarizer.summarize(example_text)
rule_result = innovation_summarizer.summarize(example_text)

# Exibindo os resultados
print("Resumo Baseado em Princípios:\n", principle_result)
print("\nResumo Baseado em Casos:\n", case_result)
print("\nResumo Baseado em Regras:\n", rule_result)

print("\nComparativo de tamanho dos textos")
print(f"\tTexto original:               {len(example_text)}")
print(f"\tResumo baseado em príncipios: {len(principle_result)}")
print(f"\tResumo baseado em casos:      {len(case_result)}")
print(f"\tResumo baseado em regras:     {len(rule_result)}")


Resumo Baseado em Princípios:
 A Intel lançou um novo processador que promete avanços significativos em termos de capacidade de computação e eficiência energética. A IBM anunciou uma nova parceria estratégica com a Microsoft para explorar aplicações de inteligência artificial em larga escala.

Resumo Baseado em Casos:
 Estes avanços são particularmente notáveis no tratamento de doenças genéticas. Além disso, a Intel lançou um novo processador que promete avanços significativos em termos de capacidade de computação e eficiência energética.

Resumo Baseado em Regras:
 As descobertas científicas no campo da biologia molecular estão acelerando o desenvolvimento de novos tratamentos médicos. Além disso, a Intel lançou um novo processador que promete avanços significativos em termos de capacidade de computação e eficiência energética. A IBM anunciou uma nova parceria estratégica com a Microsoft para explorar aplicações de inteligência artificial em larga escala. Enquanto isso, em um estudo r