<a href="https://colab.research.google.com/github/CarolineAndradeR/Data-Science/blob/main/Minera%C3%A7%C3%A3o_Textos.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

#INTRODUÇÃO#

Os dados, de forma geral, são armazenados em formato de texto, muitas vezes não estruturados, como respostas de formulários e dados coletados da internet por meio de web scraping. É nesses casos em que utilizamos técnicas de processamento de texto (Text Mining ou mineração de texto) que podemos compreender como uma extensão da mineração de dados, pois envolve o desenvolvimento de modelos, técnicas e ferramentas computacionais para gerar informação útil de texto com base na estrutura morfológica, sintática, semântica e lexical da linguagem, seja ela em formato de texto corrido ou áudio.


**TOKENIZAÇÃO**

É possível determinar a morfologia do texto, processando as letras maiúsculas e minúsculas, palavras compostas e abreviadas, como também a quebra de caracteres. Ao perceber onde uma sentença começa e termina, podemos separar o texto por tokens.


Em vários casos, caracteres como vírgulas, ponto e vírgulas e pontos finais podem ser usados para definir tokens. Por exemplo, no português, as abreviações são sinalizadas com pontos, como Av. (avenida), Sr. ou Sra. (senhor ou senhora) e Dr. ou Dra. (doutor ou doutora).

Uma forma simples de criar tokens é por meio do split (fatiamento) de uma lista de palavras.

In [6]:
# importa biblioteca
import pandas as pd
#abre texto .txt
text = pd.read_csv("sample.txt",header=None)
#converte um data frame em uma lista de palavras
corpus=[]
for row in text.values:
    tokens = row[0].split(" ")
    for token in tokens:
        corpus.append(token)

print(corpus)

['certa', 'manhã', 'O', 'que', 'aconteceu', 'comigo?']


NLTK - Uma biblioteca com recursos desenvolvidos para resolver problemas de processamento de linguagem natural.

In [1]:
!pip3 install --user nltk



In [8]:
!pip3 install --user feedparser
import nltk
nltk.download("all")
quit()



[nltk_data] Downloading collection 'all'
[nltk_data]    | 
[nltk_data]    | Downloading package abc to /root/nltk_data...
[nltk_data]    |   Unzipping corpora/abc.zip.
[nltk_data]    | Downloading package alpino to /root/nltk_data...
[nltk_data]    |   Unzipping corpora/alpino.zip.
[nltk_data]    | Downloading package averaged_perceptron_tagger to
[nltk_data]    |     /root/nltk_data...
[nltk_data]    |   Unzipping taggers/averaged_perceptron_tagger.zip.
[nltk_data]    | Downloading package averaged_perceptron_tagger_eng to
[nltk_data]    |     /root/nltk_data...
[nltk_data]    |   Unzipping
[nltk_data]    |       taggers/averaged_perceptron_tagger_eng.zip.
[nltk_data]    | Downloading package averaged_perceptron_tagger_ru to
[nltk_data]    |     /root/nltk_data...
[nltk_data]    |   Unzipping
[nltk_data]    |       taggers/averaged_perceptron_tagger_ru.zip.
[nltk_data]    | Downloading package averaged_perceptron_tagger_rus to
[nltk_data]    |     /root/nltk_data...
[nltk_data]    |  

Com a biblioteca NLTK é possivél usar a técnica de tokenização para dividir strings em listas de substrings, é possivel separar palavras e pontuação de uma sentença. Também pérar mo nível de sentenças, usamdo o tokenizer para separar cada frase do tezto com base em stopwords.

In [2]:
#importando o corpus
import nltk
from nltk.corpus import machado
#exibindo as stopword do portugues
stopwords = nltk.corpus.stopwords.words('portuguese')
print("StopWord: ",stopwords[:30])
#tokenização do corpus
sent_tokenizer=nltk.data.load('tokenizers/punkt/portuguese.pickle')
raw_text = machado.raw('romance/marm05.txt')
sentences = sent_tokenizer.tokenize(raw_text)
#exibindo as frases separadas do Machado de Assis
for sent in sentences[1000:1005]:
   print("<<", sent, ">>")

StopWord:  ['a', 'à', 'ao', 'aos', 'aquela', 'aquelas', 'aquele', 'aqueles', 'aquilo', 'as', 'às', 'até', 'com', 'como', 'da', 'das', 'de', 'dela', 'delas', 'dele', 'deles', 'depois', 'do', 'dos', 'e', 'é', 'ela', 'elas', 'ele', 'eles']
<< Era tarde; a infeliz expirou dentro de alguns
segundos. >>
<< Fiquei um pouco aborrecido, incomodado. >>
<<  Também por que diabo não era ela
azul? >>
<< disse comigo. >>
<< E esta reflexão,  uma das mais
profundas que se tem feito, desde a invenção das borboletas,  me consolou do
malefício, e me reconciliou comigo mesmo. >>


**ANÁLISE LÉXICA**

A tarefa básica da análise léxica é relacionar variantes morfológicas (variação na grafia da palavra ou na sua forma) aos seus lemmas (que são as formas canônicas das palavras).


É nessa etapa que são realizadas a verificações ortográficas e a identificação das partes do texto.


Basicamente, uma palavra pode ser pensada como uma sequência de caracteres no texto, a análise léxica relacionará essas sequências de caracteres (palavras) com regras gramaticais e formas canônicas (lemma).

Por exemplo: O verbo pegar o lemma será seu radical peg para o conjunto variante morfológicas (pegada, pegando, pega, pegou).

Utilizamos a técnica stemming, que se baseia na operação de pré-processamento de textos em que palavras mais complexas morfologicamente são identificadas e decompostas em seu stem invariante, ou melhor, na forma canônica do lemma e seus afixos, e no final os afixos são deletados. O stem, portanto, é o chamado radical da palavra. Utilizando ainda o verbo entregar, para exemplificar, o lemma é entregar e o stem é entreg, pois a partir do stem podem ser criadas outras palavras.

Como pegar o radical de palavras em diferentes idiomas.

In [4]:
import nltk
from nltk.stem import *
from nltk.stem.porter import *
from nltk.stem.snowball import SnowballStemmer
#Criando um novo "Porter Stemmer"
stemmer = PorterStemmer()
#Criando a lista de palavras no plural para testar o stemmer
plurals = ['caresses', 'flies', 'dies', 'mules', 'denied','died', 'agreed', 'owned', 'humbled', 'sized','meeting', 'stating', 'siezing', 'itemization','sensational', 'traditional', 'reference', 'colonizer','plotted']
# Chamando a função que encontra os radicais
singles = [stemmer.stem(plural) for plural in plurals]
print("Radicais das palavras em ingles:")
print(' '.join(singles))
# verificando os idiomas disponíveis para utilizar a ferramenta stemmer
print(''"Idiomas disponiveis:")
print(" ".join(SnowballStemmer.languages))
# trocando o idioma para português
stemmer2 = SnowballStemmer("portuguese", ignore_stopwords=True)
print("Radicais das palavras em portugues:")
print(stemmer2.stem("entregar"))
print(stemmer2.stem("livre"))
print(stemmer2.stem("feliz"))
print(stemmer2.stem("infeliz"))

Radicais das palavras em ingles:
caress fli die mule deni die agre own humbl size meet state siez item sensat tradit refer colon plot
Idiomas disponiveis:
arabic danish dutch english finnish french german hungarian italian norwegian porter portuguese romanian russian spanish swedish
Radicais das palavras em portugues:
entreg
livr
feliz
infeliz


**ANÁLISE SINTÁTICA**

Também conhecida como **parsing**, tem a função de extrair informações de uma sentença por meio da gramática e das estruturas de árvores sintáticas. O objetivo principal do parsing é analisar e gerar sentenças corretas de acordo com a estrutura de cada palavra.

In [5]:
#CRIANDO UMA ÁRVORE SINTATÁTICA COM NLTK
#importando as libs utilizadas
import nltk
from nltk.tree import *
from nltk.corpus import wordnet as wn
#criando as árvores para teste
dp1 = Tree('dp', [Tree('d', ['o']), Tree('np', ['cachorro'])])
dp2 = Tree('dp', [Tree('d', ['o']), Tree('np', ['gato'])])
vp = Tree('vp', [Tree('v', ['perseguiu']), dp2])
tree = Tree('s', [dp1, vp])
print(tree)
#acessando a label do nó usando o método label()
dp1.label(), dp2.label(), vp.label(), tree.label()
#O método treepositions retorna uma lista das posições da árvore de sub árvores e folhas em uma árvore. Por padrão, ele fornece a posição de cada árvore, subárvore e folha, ordenando pelo prefixo
print(tree.treepositions())

(s (dp (d o) (np cachorro)) (vp (v perseguiu) (dp (d o) (np gato))))
[(), (0,), (0, 0), (0, 0, 0), (0, 1), (0, 1, 0), (1,), (1, 0), (1, 0, 0), (1, 1), (1, 1, 0), (1, 1, 0, 0), (1, 1, 1), (1, 1, 1, 0)]


In [6]:
#EXIBINDO A ÁRVORE SINTÁTICA EM DIFERENTES FORMATOS
#Além de str e repr, existem vários métodos para converter um objeto de árvore em uma das várias codificações de árvores possíveis:
print("Árvore em Formato latex")
print(tree.pformat_latex_qtree())
print("Árvore em formato ASCII")
print(tree.pretty_print())
print("Árvore no formato de chaves")
print(tree.pretty_print(unicodelines=True, nodedist=4))
#O método de classe Tree.fromlist() pode ser usado para analisar árvores expressas como listas aninhadas, como aquelas produzidas pela função tree() do módulo wordnet.
t=Tree.fromlist(wn.synset('dog.n.01').tree(lambda s:s.hypernyms()))
print("Método Tree.formlis()")
print(t.pretty_print())

Árvore em Formato latex
\Tree [.s
        [.dp [.d o ] [.np cachorro ] ]
        [.vp [.v perseguiu ] [.dp [.d o ] [.np gato ] ] ] ]
Árvore em formato ASCII
                     s                 
      _______________|______            
     |                      vp         
     |                ______|___        
     dp              |          dp     
  ___|_____          |       ___|___    
 d         np        v      d       np 
 |         |         |      |       |   
 o      cachorro perseguiu  o      gato

None
Árvore no formato de chaves
                              s                          
        ┌─────────────────────┴─────────┐                    
        │                               vp               
        │                     ┌─────────┴──────┐             
        dp                    │                dp        
 ┌──────┴────────┐            │         ┌──────┴──────┐      
 d               np           v         d             np 
 │               │         

**ANÁLISE SEMÂNTICA**

É a área de pesquisa dentro de data mining que se dedica a estudar o reconhecimento de palavras considerando o contexto. O contexto é uma peça-chave para decodificar a linguagem, considerando a complexidade da comunicação humana. Uma frase pode mudar completamente a sua conotação dependendo do contexto em que ela está inserida. Para determinar com precisão a informação numa frase, é preciso considerar o contexto.


A semântica pode ser dividida em léxica e gramatical, em que a primeira busca uma representação conceitual para descrever o sentido. Para construir essa representação, podemos decompor as palavras em unidades léxicas, onde pegamos o menor conjunto de caracteres possível para representar aquela informação, e partimos daí. Podemos também utilizar as redes semânticas e procura identificar o sentido por meio de uma fórmula lógico-semântica. Porém, pode ocorrer ambiguidade.

In [7]:
# Como mapear a semântica de um fragmento de texto

#importando o corpus
import nltk
from nltk.corpus import floresta
#exibindo o dataset retirado de https://www.linguateca.pt/Floresta/
print("Corpus sem tratamento",floresta.words())
#Exibindo o corpus com informações sintáticas
print("Corpus com sinalização Sintática",floresta.tagged_words())

#simplificando as informações sintáticas
def simplify_tag(t):
    if "+" in t:
        return t[t.index("+")+1:]
    else:
        return t
twords = floresta.tagged_words()
twords = [(w.lower(), simplify_tag(t)) for (w,t) in twords]
print("Corpus com as sinalizações simplificadas",twords[:100])

Corpus sem tratamento ['Um', 'revivalismo', 'refrescante', 'O', '7_e_Meio', ...]
Corpus com sinalização Sintática [('Um', '>N+art'), ('revivalismo', 'H+n'), ...]
Corpus com as sinalizações simplificadas [('um', 'art'), ('revivalismo', 'n'), ('refrescante', 'adj'), ('o', 'art'), ('7_e_meio', 'prop'), ('é', 'v-fin'), ('um', 'art'), ('ex-libris', 'n'), ('de', 'prp'), ('a', 'art'), ('noite', 'n'), ('algarvia', 'adj'), ('.', '.'), ('é', 'v-fin'), ('uma', 'num'), ('de', 'prp'), ('as', 'art'), ('mais', 'adv'), ('antigas', 'adj'), ('discotecas', 'n'), ('de', 'prp'), ('o', 'art'), ('algarve', 'prop'), (',', ','), ('situada', 'v-pcp'), ('em', 'prp'), ('albufeira', 'prop'), (',', ','), ('que', 'pron-indp'), ('continua', 'v-fin'), ('a', 'prp'), ('manter', 'v-inf'), ('os', 'art'), ('traços', 'n'), ('decorativos', 'adj'), ('e', 'conj-c'), ('as', 'art'), ('clientelas', 'n'), ('de', 'prp'), ('sempre', 'adv'), ('.', '.'), ('é', 'v-fin'), ('um_pouco', 'adv'), ('a', 'art'), ('versão', 'n'), ('de', 'prp')

**ANÁLISE PRAGMÁTICA**

Busca num conjunto de frases a compreensão de um discurso por meio da análise e da coerência textual. As estruturas mais utilizadas na análise pragmática são as gramáticas baseadas em casos, que são gramáticas semânticas não-terminais que formam padrões e podem ser reconhecidas dentro de um contexto.

Um algoritmo utilizado para análise pragmática atribui pesos aos pronomes encontrados em frase, esses pesos são chamados de “valores de saliência”. Quanto mais próximo o pronome estiver do sujeito, maior será o valor a ele atribuído como referência aos pronomes. Depois, é aplicado um filtro de acordo com o gênero e número, também são levadas em conta outras características como o tipo do pronome e se a frase tem objeto indireto ou advérbio.

**CONSTRUINDO UM CLASSIFICADOR DE NOME POR GÊNERO COM NLTK**

Nomes masculinos e femininos possuem características distintas, nomes que terminam com a vogal a, e, e a vogal i, provavelmente são do gênero feminino, enquanto os nomes que terminam em k, o, r, s e t provavelmente são do sexo masculino.


In [10]:
# importando os módulos
import nltk
import random

#Vamos criar uma função para filtrar os significantes de gênero
def gender_features(name):
   name = name.lower()
   return {
       'ultimo_caractere': name[-1],
       'ultimos_dois': name[-2:],
       'ultimos_tres': name[-3:],
       'primeiro_caractere': name[0],
       'segundo_caractere': name[:1]
   }

#Vamos preparar os a lista de nomes para serem classificados
f_names = nltk.corpus.names.words('female.txt')
m_names = nltk.corpus.names.words('male.txt')

#Em seguida, usamos o extrator de recursos para processar os nomes e dividir a lista resultante em um conjunto de treinamento e um conjunto de testes.
all_names = [(i, 'masculino') for i in m_names] + [(i, 'feminino') for i in f_names]
random.shuffle(all_names)
test_set = all_names[500:]
train_set= all_names[:500]

test_set_feat = [(gender_features(n), g) for n, g in test_set]
train_set_feat= [(gender_features(n), g) for n, g in train_set]

# O conjunto de treinamento é usado para treinar um novo classificador do tipo "naive Bayes".
classifier = nltk.NaiveBayesClassifier.train(train_set_feat)

print("Maria é do genero: ",classifier.classify(gender_features('Maria')))

print("João é do gênero: ",classifier.classify(gender_features('João')))

# Observe que esses nomes estão classificados corretamente.
#Por fim, podemos examinar o classificador para determinar quais recursos ele achou mais eficazes para distinguir os gêneros dos nomes
# print (classifier.show_most_informative_features(10))

Maria é do genero:  feminino
João é do gênero:  masculino


**PROCESSAMENTO DE TEXTO**

Ao processar texto, é essencial identificar relações implícitas e explícitas nos dados para obter conhecimento que apoie decisões. O resultado deve ser compreensível, útil e relevante para os usuários finais.

O que é necessário descobrir:
- Como podemos escrever programas para acessar texto de arquivos locais e da web?

- Como podemos dividir documentos em palavras individuais e símbolos de pontuação, para que possamos realizar os mesmos tipos de análise que fizemos com corpus de texto nos tópicos anteriores?

- Como podemos escrever programas para produzir saída formatada e salvá-la em um arquivo?

In [2]:
# importando as libs utilizadas
import nltk
from urllib import request
from nltk.tokenize import word_tokenize

# Baixando os dados necessários para a tokenização
nltk.download('punkt_tab')

#definindo a URL que contém o livro "A Relíquia" de Eça de Queirós
url = "https://www.gutenberg.org/cache/epub/17515/pg17515.txt"
#Fazendo a requisição do livro definindo disponível no acervo online
response = request.urlopen(url)
#Decodificando o corpus para o formato UTF8
raw = response.read().decode('utf8')
#criando a lista de tokens
tokens = word_tokenize(raw)
#Exibindo as informações do arquivo
print("Tipo de dado dos tokens",type(tokens))
print("Tamanho do corpus do token", len(tokens))
print("Uma fatia do conteúdo do token", tokens[:12])

[nltk_data] Downloading package punkt_tab to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt_tab.zip.


Tipo de dado dos tokens <class 'list'>
Tamanho do corpus do token 103361
Uma fatia do conteúdo do token ['\ufeffThe', 'Project', 'Gutenberg', 'eBook', 'of', 'A', 'Relíquia', 'This', 'ebook', 'is', 'for', 'the']


In [3]:
#importando as libs utilizadas
import nltk
from urllib import request
from nltk.tokenize import word_tokenize
#definindo a URL que contém o livro "A Relíquia" de Eça de Queirós
url = "https://www.gutenberg.org/cache/epub/17515/pg17515.txt"
#Fazendo a requisição do livro definindo disponível no acervo online
response = request.urlopen(url)
#Decodificando o corpus para o formato UTF8
raw = response.read().decode('utf8')
#criando a lista de tokens
tokens = word_tokenize(raw)
#Criando um corpus NLTK
text = nltk.Text(tokens)
#Exibindo as informações do arquivo
print("Tipo de dado dos tokens",type(tokens))
print("Tipo de dado dos text",type(text))
print("Uma fatia do conteúdo do token", tokens[150:200])
print("Exibindo o corpus criado", text[150:200])

Tipo de dado dos tokens <class 'list'>
Tipo de dado dos text <class 'nltk.text.Text'>
Uma fatia do conteúdo do token ['Biblioteca', 'Nacional', 'de', 'Portugal', ')', '.', ')', '*', '*', '*', 'START', 'OF', 'THE', 'PROJECT', 'GUTENBERG', 'EBOOK', 'A', 'RELÍQUIA', '*', '*', '*', 'Produced', 'by', 'Rita', 'Farinha', 'and', 'the', 'Online', 'Distributed', 'Proofreading', 'Team', 'at', 'http', ':', '//www.pgdp.net', '(', 'This', 'file', 'was', 'produced', 'from', 'images', 'generously', 'made', 'available', 'by', 'National', 'Library', 'of', 'Portugal']
Exibindo o corpus criado ['Biblioteca', 'Nacional', 'de', 'Portugal', ')', '.', ')', '*', '*', '*', 'START', 'OF', 'THE', 'PROJECT', 'GUTENBERG', 'EBOOK', 'A', 'RELÍQUIA', '*', '*', '*', 'Produced', 'by', 'Rita', 'Farinha', 'and', 'the', 'Online', 'Distributed', 'Proofreading', 'Team', 'at', 'http', ':', '//www.pgdp.net', '(', 'This', 'file', 'was', 'produced', 'from', 'images', 'generously', 'made', 'available', 'by', 'National', 'Library'

**PROCESSANDO FEED RSS**

Os blogs são uma valiosa fonte de textos formais e informais. Com a biblioteca Python Universal Feed Parser, é possível acessar o conteúdo de um blog facilmente.

In [5]:
!pip install feedparser

Collecting feedparser
  Downloading feedparser-6.0.11-py3-none-any.whl.metadata (2.4 kB)
Collecting sgmllib3k (from feedparser)
  Downloading sgmllib3k-1.0.0.tar.gz (5.8 kB)
  Preparing metadata (setup.py) ... [?25l[?25hdone
Downloading feedparser-6.0.11-py3-none-any.whl (81 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m81.3/81.3 kB[0m [31m2.4 MB/s[0m eta [36m0:00:00[0m
[?25hBuilding wheels for collected packages: sgmllib3k
  Building wheel for sgmllib3k (setup.py) ... [?25l[?25hdone
  Created wheel for sgmllib3k: filename=sgmllib3k-1.0.0-py3-none-any.whl size=6047 sha256=5c50006e3c21cf36bd7f3a45eae0322cd68be05909862ac77f17344103cdb639
  Stored in directory: /root/.cache/pip/wheels/f0/69/93/a47e9d621be168e9e33c7ce60524393c0b92ae83cf6c6e89c5
Successfully built sgmllib3k
Installing collected packages: sgmllib3k, feedparser
Successfully installed feedparser-6.0.11 sgmllib3k-1.0.0


In [None]:
#importando as libs utilizadas
import nltk
from urllib import request
from nltk.tokenize import word_tokenize
import feedparser
from bs4 import BeautifulSoup

#definindo a URL do blog que queremos capturar"
feed_url ="http://noticias.gov.br/noticias/rss"
#determinando o conteúdo que é interessante para nosso código
blog_feed = feedparser.parse(feed_url)
blog_feed.feed.title
blog_feed.feed.link
len(blog_feed.entries)
print(blog_feed.entries[0].title)
print(blog_feed.entries[0].link)
print(blog_feed.entries[0].published)
content = blog_feed.entries[7].description
print("Exibindo o conteúdo capturado",content[:70])
raw = BeautifulSoup(content, 'html.parser').get_text()
#aplicando tokenização ao conteúdo do capturado do blog
print("Tokenização do conteudo",word_tokenize(raw))