<a href="https://colab.research.google.com/github/Xketh/Fatec_PLN/blob/main/Aula_07_Descoberta_de_Conhecimento_em_Textos_(KDT).ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Objetivos**
---

Aprender a extrair informações importantes de textos usando técnicas simples, como reconhecimento de nomes, contagem de palavras e análise de sentimentos, para transformar textos comuns em dados úteis.

# **1. Conceitos fundamentais de Descoberta de Conhecimento em Textos (KDT)**
---
É o processo de analisar muitos textos para encontrar informações importantes, padrões ou respostas úteis automaticamente, sem precisar ler tudo manualmente.

* **Exemplo:**

 Por exemplo, imagine analisar várias críticas e notícias sobre o filme Homem-Aranha para saber rapidamente o que as pessoas estão falando.


In [6]:
#Imprime algumas críticas fictícias para ver o que as pessoas falam

criticas = [
    "Adorei o filme do Homem-Aranha com Tom Holland, ele é muito carismático!",
    "Andrew Garfield trouxe uma versão mais séria e emocional do Homem-Aranha.",
    "Tobey Maguire foi o primeiro e marcou muita gente com seu estilo clássico.",
    "Os efeitos especiais no filme do Tom Holland são incríveis!",
    "Achei a atuação do Andrew Garfield um pouco fraca em algumas cenas."
]

print("O que as pessoas estão falando sobre os filmes do Homem-Aranha:\n")
for critica in criticas:
    print("-", critica)


O que as pessoas estão falando sobre os filmes do Homem-Aranha:

- Adorei o filme do Homem-Aranha com Tom Holland, ele é muito carismático!
- Andrew Garfield trouxe uma versão mais séria e emocional do Homem-Aranha.
- Tobey Maguire foi o primeiro e marcou muita gente com seu estilo clássico.
- Os efeitos especiais no filme do Tom Holland são incríveis!
- Achei a atuação do Andrew Garfield um pouco fraca em algumas cenas.


# **2. Técnicas de identificação de Entidades Nomeadas (NER)**
---
É uma técnica que identifica e classifica palavras ou frases específicas em um texto, como nomes de pessoas, lugares, organizações, datas, valores monetários, etc. Permitindo extrair dados importantes diretamente do texto.

* **Exemplo:**

 No universo do 🕷️Homem-Aranha🕷️ , o NER pode identificar:

- 'Peter Parker' como pessoa ❤️
- 'Nova York' como lugar
- 'Oscorp' como organização
- e '2019' como data

In [36]:
import spacy

# Carregar o modelo de linguagem do spaCy (em inglês)
nlp = spacy.load("en_core_web_sm")

# Texto do universo do Homem-Aranha
texto = """
No universo do Homem-Aranha, Peter Parker mora em Nova York. Oscorp é uma organização importante na história,
e os eventos de Homem-Aranha: Longe de Casa aconteceram em 2019.
"""

# Processar o texto usando o modelo carregado
doc = nlp(texto)

# Mostrar as entidades nomeadas encontradas no texto
print("Entidades nomeadas identificadas:")
for ent in doc.ents:
    print(f"- {ent.text} ({ent.label_})")


Entidades nomeadas identificadas:
- Homem-Aranha (ORG)
- Peter Parker (PERSON)
- Nova York (GPE)
- Oscorp (ORG)
- na história (GPE)
- de Homem-Aranha (PERSON)
- Longe de Casa (PERSON)
- 2019 (DATE)


### **2.1 Técnicas de identificação de Entidades Nomeadas (NER) com spaCy**

Esse código usa o spaCy para identificar e mostrar nomes de pessoas, organizações, datas e outros elementos importantes dentro de um texto sobre os filmes do Homem-Aranha.


In [27]:
import spacy

# Carregar modelo em inglês para reconhecer nomes próprios em inglês
nlp = spacy.load("en_core_web_sm")

texto = """
Os filmes do Homem-Aranha tiveram Tobey Maguire, Andrew Garfield e Tom Holland como protagonistas.
Tobey Maguire interpretou o personagem no início dos anos 2000.
Andrew Garfield atuou na série Amazing Spider-Man.
Tom Holland é o mais recente ator a interpretar o Homem-Aranha no Universo Cinematográfico Marvel.
"""

doc = nlp(texto)

print("Entidades encontradas com spaCy:")
for ent in doc.ents:
    print(f"- {ent.text} ({ent.label_})")


Entidades encontradas com spaCy:
- Homem-Aranha (ORG)
- Tobey Maguire (PERSON)
- Andrew Garfield (PERSON)
- Tom Holland (PERSON)
- Tobey Maguire (ORG)
- 2000 (DATE)
- Andrew Garfield (PERSON)
- Amazing Spider-Man (ORG)
- Tom Holland (PERSON)
- Homem-Aranha (ORG)


### **2.2 Técnicas de identificação de Entidades Nomeadas (NER) com NLTK**

O código identifica e lista no texto os nomes de pessoas, lugares e organizações mencionados sobre o filme.

In [26]:
import nltk

# Baixa o recurso "punkt", que é responsável por dividir o texto em sentenças e palavras (tokenização).
nltk.download('punkt')

# Baixa o recurso para "POS tagging" (Part-Of-Speech tagging), que identifica a função gramatical das palavras no texto, como substantivo, verbo, etc.
nltk.download('averaged_perceptron_tagger_eng')

# Baixa o recurso para "Named Entity Recognition" (NER), que identifica entidades nomeadas no texto, como pessoas, locais e organizações.
nltk.download('maxent_ne_chunker')

# Baixa uma lista de palavras do vocabulário que ajuda o modelo a validar palavras durante o processamento.
nltk.download('words')

# Baixa o recurso necessário para o ne_chunker
nltk.download('maxent_ne_chunker_tab')

from nltk import word_tokenize, pos_tag, ne_chunk

texto = """
The Spider-Man movies starred Tobey Maguire, Andrew Garfield, and Tom Holland.
"""

tokens = word_tokenize(texto)          # Divide o texto em palavras
pos_tags = pos_tag(tokens)             # Faz a marcação gramatical
entidades = ne_chunk(pos_tags)         # Extrai entidades nomeadas

print("Entidades nomeadas encontradas:")
for entidade in entidades:
    if hasattr(entidade, 'label'):
        nome_entidade = ' '.join(c[0] for c in entidade)
        tipo_entidade = entidade.label()
        print(f"- {nome_entidade} ({tipo_entidade})")

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package averaged_perceptron_tagger_eng to
[nltk_data]     /root/nltk_data...
[nltk_data]   Package averaged_perceptron_tagger_eng is already up-to-
[nltk_data]       date!
[nltk_data] Downloading package maxent_ne_chunker to
[nltk_data]     /root/nltk_data...
[nltk_data]   Package maxent_ne_chunker is already up-to-date!
[nltk_data] Downloading package words to /root/nltk_data...
[nltk_data]   Package words is already up-to-date!
[nltk_data] Downloading package maxent_ne_chunker_tab to
[nltk_data]     /root/nltk_data...
[nltk_data]   Unzipping chunkers/maxent_ne_chunker_tab.zip.


Entidades nomeadas encontradas:
- Tobey Maguire (PERSON)
- Andrew Garfield (PERSON)
- Tom Holland (PERSON)


# **3. Técnicas para Extrair e Analisar Informações em Textos com Python**
---
Essas técnicas ajudam a identificar informações importantes dentro de muitos textos, como nomes, datas, opiniões e padrões de palavras, facilitando transformar textos simples em dados organizados e fáceis de entender.

* **Exemplo:**

 Com a mineração de textos, podemos extrair informações como:

- Quais personagens aparecem mais.
- Quais cenas ou eventos são mais comentados.
- E até sentimentos, como se os fãs gostaram ou não do filme.

Assim, a partir de várias críticas do Homem-Aranha, conseguimos saber o que agradou o público e o que poderia melhorar.

Assim, conseguimos entender melhor o que agrada ou precisa ser melhorado nos filmes.

obs: Ressaltando que todos os filmes foram bons, não tem nada pra melhorar e só minha opinião importa, rs. 🕷️❤️

* **O código a baixo:**

 Conta as palavras que mais aparecem, encontra os anos, e ainda diz se o filme do Homem-Aranha deixou a galera feliz, triste ou no meio termo! 😊

In [31]:
import re
from collections import Counter
from textblob import TextBlob
from textblob.sentiments import NaiveBayesAnalyzer

# Texto de exemplo em português sobre o filme do Homem-Aranha
texto = """
O filme do Homem-Aranha lançado em 2019 foi muito esperado pelos fãs. Peter Parker, interpretado por Tom Holland,
enfrenta desafios em Nova York enquanto lida com a Oscorp e vilões perigosos. Muitos fãs comentaram que o filme é incrível,
mas alguns acharam o roteiro um pouco previsível. No geral, o filme agradou e conquistou muitos corações ❤️.
"""

# 1. Expressões Regulares: Encontrar anos (quatro dígitos seguidos)
anos = re.findall(r'\b\d{4}\b', texto)
print("Anos encontrados no texto:", anos)

# 2. Frequência de palavras simples (ignorando palavras comuns)
palavras = re.findall(r'\b\w+\b', texto.lower())
palavras_comuns = {'o', 'a', 'de', 'em', 'e', 'por', 'que', 'os', 'no', 'com', 'um', 'uma', 'foi', 'mas', 'se'}
palavras_filtradas = [p for p in palavras if p not in palavras_comuns]

frequencia = Counter(palavras_filtradas)
print("\nPalavras mais frequentes:")
for palavra, freq in frequencia.most_common(5):
    print(f"{palavra}: {freq} vezes")

# 3. Análise simples de sentimento usando TextBlob (em português)
# Para usar em português, instalamos textblob-aptagger e indicamos o idioma
blob = TextBlob(texto)
sentimento = blob.sentiment.polarity  # Vai de -1 (negativo) a 1 (positivo)

print("\nAnálise simples de sentimento do texto:")
if sentimento > 0:
    print("Sentimento geral: Positivo 😊")
elif sentimento < 0:
    print("Sentimento geral: Negativo 😞")
else:
    print("Sentimento geral: Neutro 😐")


Anos encontrados no texto: ['2019']

Palavras mais frequentes:
filme: 3 vezes
fãs: 2 vezes
muitos: 2 vezes
do: 1 vezes
homem: 1 vezes

Análise simples de sentimento do texto:
Sentimento geral: Neutro 😐


###**3.1 Métodos de extração de informação com expressões regulares**

Usa padrões escritos como “máscaras” para encontrar informações específicas em textos, como datas, nomes ou números.

* **Exemplo:**
 Usa expressões regulares para encontrar nomes de atores do Homem-Aranha e os anos em que eles participaram dos filmes

In [32]:
import re

texto = """
Filmes do Homem-Aranha com Tobey Maguire (2002-2007), Andrew Garfield (2012-2014) e Tom Holland (2016-presente).
"""

# Extrair nomes e anos entre parênteses
padrao = r"([A-Z][a-z]+ [A-Z][a-z]+) \(([\d\-]+)\)"
resultados = re.findall(padrao, texto)

print("Atores e seus anos nos filmes (extraídos com regex):")
for nome, anos in resultados:
    print(f"- {nome}: {anos}")


Atores e seus anos nos filmes (extraídos com regex):
- Tobey Maguire: 2002-2007
- Andrew Garfield: 2012-2014


###**3.2 Métodos de extração de informação com Regras heurísticas e dicionários**

Usa um conjunto de regras e listas pré-definidas (dicionários) para identificar palavras importantes ou categorias em textos.

* **Exemplo:**

 Usando uma lista de atores e anos, vasculha o texto para confirmar se cada ator realmente atuou nos anos indicados e te conta certinho quando foi!

In [33]:
texto = """
Tobey Maguire atuou nos filmes de 2002 a 2007.
Andrew Garfield estrelou entre 2012 e 2014.
Tom Holland está no papel desde 2016.
"""

# Dicionário simples com atores e palavras-chave para buscar anos
atores = {
    "Tobey Maguire": ["2002", "2007"],
    "Andrew Garfield": ["2012", "2014"],
    "Tom Holland": ["2016"]
}

for ator, anos in atores.items():
    encontrado = all(ano in texto for ano in anos)
    if encontrado:
        print(f"O ator {ator} participou dos filmes nos anos {', '.join(anos)}.")
    else:
        print(f"A informação dos anos para {ator} não foi encontrada claramente.")


O ator Tobey Maguire participou dos filmes nos anos 2002, 2007.
O ator Andrew Garfield participou dos filmes nos anos 2012, 2014.
O ator Tom Holland participou dos filmes nos anos 2016.


###**3.3 Mineração de Textos com Frequência de palavras e N-gramas (usando NLTK)**

Usa a contagem das palavras e grupos de palavras (como pares ou trios) para identificar os termos e expressões que mais aparecem em um texto.

* **Exemplo:**

 Lê o texto do Homem-Aranha e conta quais palavras e duplas de palavras aparecem mais vezes, para descobrir os segredos que o público mais fala!

In [34]:
import nltk
from nltk.util import ngrams
from collections import Counter

texto = """
Homem-Aranha é um personagem popular.
Os filmes do Homem-Aranha com Tobey Maguire, Andrew Garfield e Tom Holland têm diferentes estilos.
O público gosta bastante das cenas de ação e da história do Peter Parker.
"""

tokens = nltk.word_tokenize(texto.lower())

# Frequência de palavras
freq_palavras = Counter(tokens)

print("Palavras mais comuns:")
for palavra, freq in freq_palavras.most_common(5):
    print(f"- {palavra}: {freq}")

# Frequência de bigramas (pares de palavras)
bigramas = list(ngrams(tokens, 2))
freq_bigramas = Counter(bigramas)

print("\nBigramas mais comuns:")
for bigrama, freq in freq_bigramas.most_common(5):
    print(f"- {' '.join(bigrama)}: {freq}")


Palavras mais comuns:
- .: 3
- homem-aranha: 2
- do: 2
- e: 2
- é: 1

Bigramas mais comuns:
- homem-aranha é: 1
- é um: 1
- um personagem: 1
- personagem popular: 1
- popular .: 1


###**3.4 Mineração de Texto — análise simples de sentimento (usando TextBlob)**

Avalia se os textos expressam sentimentos positivos, negativos ou neutros para entender a opinião geral sobre um assunto.

* **Exemplo:**

 Analisar comentários sobre o filme do Homem-Aranha para saber se os fãs gostaram (“Amei o filme!”) ou ficaram insatisfeitos (“O roteiro foi confuso”). Ele lê as opiniões sobre os filmes do Homem-Aranha e diz se o sentimento da crítica é positivo, negativo ou neutro.

In [35]:
from textblob import TextBlob

criticas = [
    "Adorei o filme do Homem-Aranha com Tom Holland, ele é muito carismático!",
    "Andrew Garfield trouxe uma versão mais séria e emocional do Homem-Aranha.",
    "Tobey Maguire foi o primeiro e marcou muita gente com seu estilo clássico.",
    "Os efeitos especiais no filme do Tom Holland são incríveis!",
    "Achei a atuação do Andrew Garfield um pouco fraca em algumas cenas."
]

print("Análise simples de sentimento das críticas:")

for critica in criticas:
    tb = TextBlob(critica)
    sentimento = tb.sentiment.polarity
    print(f"- \"{critica}\" -> Sentimento: {sentimento:.2f}  ", end="")
    if sentimento > 0:
        print("(positivo)")
    elif sentimento < 0:
        print("(negativo)")
    else:
        print("(neutro)")


Análise simples de sentimento das críticas:
- "Adorei o filme do Homem-Aranha com Tom Holland, ele é muito carismático!" -> Sentimento: 0.00  (neutro)
- "Andrew Garfield trouxe uma versão mais séria e emocional do Homem-Aranha." -> Sentimento: 0.00  (neutro)
- "Tobey Maguire foi o primeiro e marcou muita gente com seu estilo clássico." -> Sentimento: 0.00  (neutro)
- "Os efeitos especiais no filme do Tom Holland são incríveis!" -> Sentimento: 0.00  (neutro)
- "Achei a atuação do Andrew Garfield um pouco fraca em algumas cenas." -> Sentimento: 0.00  (neutro)
