# Mineração de Textos

* Mineração de textos usando Python

In [1]:
import nltk # Biblioteca de Python para processamento de linguagem natural
import re # Biblioteca muito utilizada para expressões regulares
from nltk.corpus import wordnet

### Operações com Strings e Listas

In [2]:
frase = 'Python eh uma linguagem fenomenal'; frase

'Python eh uma linguagem fenomenal'

In [3]:
frase2 = ' para qualquer cientista de dados'

In [4]:
frase + frase2 # Concatenando variaveis do tipo string

'Python eh uma linguagem fenomenal para qualquer cientista de dados'

In [5]:
['Segunda', 'Terça', 'Quarta'] + ['Quinta', 'Sexta', 'Sabado'] # Concatenando duas listas de strings

['Segunda', 'Terça', 'Quarta', 'Quinta', 'Sexta', 'Sabado']

In [6]:
lista = ['Segunda','Terça', 'Quarta']
lista.append('Quinta-feira')
lista

['Segunda', 'Terça', 'Quarta', 'Quinta-feira']

In [7]:
frase2[0:15]

' para qualquer '

In [8]:
lista[3:8]

['Quinta-feira']

### Objeto String

In [9]:
len(lista)

4

In [10]:
frase2 = 'Do Re Mi Fa Fa Fa Do Re Do RE RE RE'; frase2

'Do Re Mi Fa Fa Fa Do Re Do RE RE RE'

In [11]:
frase2 = frase2.lower(); frase2

'do re mi fa fa fa do re do re re re'

In [12]:
frase2.count('re')

5

In [13]:
frase2 = frase2.upper();frase2

'DO RE MI FA FA FA DO RE DO RE RE RE'

In [17]:
frase2.count('re')

0

In [15]:
len(frase2)

35

### Warrer Strings

In [19]:
frase2.index('MI')

6

In [20]:
frase2[14:35]

' FA DO RE DO RE RE RE'

### Join

In [21]:
lista = ['hot','dog']
' '.join(lista)

'hot dog'

### Expressões Regulares

In [22]:
texto = 'O numero da nossa casa 56, apt 306'

re.sub('-|[0-9]','?', texto)

'O numero da nossa casa ??, apt ???'

In [23]:
texto = "i'm back baby!!!, Data Science ??;;;()"
re.sub('[-./?!,":;()\']','',texto)

'im back baby Data Science '

### Trabalhando com NLTK 
* nltk.org

In [25]:
!pip install nltk



### Download da base de dados do NLTK

* Abra o Terminal
* Abra o console Pyhton
* Importe a biblioteca NLTK
* execute o comando nltk.download()

In [24]:
frase = 'Python eh uma linguagem fenomenal'
palavras = nltk.word_tokenize(frase)
palavras

['Python', 'eh', 'uma', 'linguagem', 'fenomenal']

In [26]:
from nltk import FreqDist
frequencia = FreqDist(['six','six','six','Iron Maiden','the','Best','Iron Maiden','forever'])
frequencia

FreqDist({'six': 3, 'Iron Maiden': 2, 'the': 1, 'Best': 1, 'forever': 1})

In [27]:
print(frequencia.values())

dict_values([3, 2, 1, 1, 1])


In [28]:
frequencia.max()

'six'

In [46]:
frequencia.keys()

dict_keys(['six', 'Iron Maiden', 'the', 'Best', 'forever'])

In [47]:
y_pos

array([0, 1, 2, 3, 4])

### Plota a frequencia das palavras na frase

In [53]:
%matplotlib notebook
import numpy as np
import matplotlib.pyplot as plt

palavras = frequencia.keys()
y_pos = np.arange(len(palavras))
contagem = frequencia.values()

plt.bar(y_pos, contagem, align='center', alpha=0.5)
plt.xticks(y_pos, palavras)
plt.ylabel('Frequencia')
plt.title('Frequencia das palavras na frase')

plt.show()

<IPython.core.display.Javascript object>

# Stemming

* Reduz uma palavra na forma da sua radical
* Usado para fazer pré-processamento de dados

In [55]:
# Steaming em protugues RSLPStemmer()
stemmer = nltk.stem.RSLPStemmer()

In [56]:
stemmer.stem('Trabalhou')

'trabalh'

In [57]:
stemmer.stem('Trabalhava')

'trabalh'

In [58]:
stemmer.stem('Carro')

'carr'

In [59]:
stemmer.stem('Carros')

'carr'

In [60]:
stemmer.stem('Correu')

'corr'

In [61]:
stemmer.stem('Corrida')

'corr'

In [62]:
# Stemming em Ingles
stemmer = nltk.stem.SnowballStemmer('english')

In [63]:
stemmer.stem('running')

'run'

In [64]:
stemmer.stem('run')

'run'

In [65]:
stemmer.stem('have')

'have'

In [66]:
stemmer.stem('having')

'have'

### Função para aplicar Stemming

In [69]:
def Stemming(instancia):
    stemmer = nltk.stem.RSLPStemmer()
    palavras = []
    for w in instancia.split():
        palavras.append(stemmer.stem(w))
    return(" ".join(palavras))    

In [70]:
Stemming('Ele trabalhava frequentemente no projeto de criacao de novos produtos')

'ele trabalh frequ no projet de criaca de nov produt'

## Lemmatization

* Dssflexiona uma palavra para determinar o seu 'Lema'
* Técnica usada para fazer pré-processamento de dados

In [73]:
from nltk.stem import WordNetLemmatizer

In [74]:
lemmatizer = WordNetLemmatizer()

In [75]:
print(lemmatizer.lemmatize("cats"))

cat


In [76]:
lemmatizer.lemmatize('is', pos='n')

'is'

In [77]:
# Busca um lemma para 'is' do tipo verbo
lemmatizer.lemmatize('is', pos='v')

'be'

In [78]:
lemmatizer.lemmatize('are', pos='v')

'be'

In [79]:
# busca um adjetivo para 'better'
print(lemmatizer.lemmatize('better', pos='a'))

good


In [81]:
print(lemmatizer.lemmatize('best', pos='a'))

best


In [82]:
print(lemmatizer.lemmatize('better', pos='a'))

good


In [83]:
print(lemmatizer.lemmatize('running', pos='n'))

running


In [84]:
print(lemmatizer.lemmatize('running', pos='v'))

run


In [85]:
print(lemmatizer.lemmatize('running', pos='a'))

running


## Stopworlds

* Palavras ou termos que são muito usadas mas normalmente não tem nenhum significado como: artgios: 'é','o','a'...
* Técnica usada para pré-processamento de textos.

In [87]:
stopworlds = nltk.corpus.stopwords.words('portuguese')

In [88]:
stopworlds

['de',
 'a',
 'o',
 'que',
 'e',
 'é',
 'do',
 'da',
 'em',
 'um',
 'para',
 'com',
 'não',
 'uma',
 'os',
 'no',
 'se',
 'na',
 'por',
 'mais',
 'as',
 'dos',
 'como',
 'mas',
 'ao',
 'ele',
 'das',
 'à',
 'seu',
 'sua',
 'ou',
 'quando',
 'muito',
 'nos',
 'já',
 'eu',
 'também',
 'só',
 'pelo',
 'pela',
 'até',
 'isso',
 'ela',
 'entre',
 'depois',
 'sem',
 'mesmo',
 'aos',
 'seus',
 'quem',
 'nas',
 'me',
 'esse',
 'eles',
 'você',
 'essa',
 'num',
 'nem',
 'suas',
 'meu',
 'às',
 'minha',
 'numa',
 'pelos',
 'elas',
 'qual',
 'nós',
 'lhe',
 'deles',
 'essas',
 'esses',
 'pelas',
 'este',
 'dele',
 'tu',
 'te',
 'vocês',
 'vos',
 'lhes',
 'meus',
 'minhas',
 'teu',
 'tua',
 'teus',
 'tuas',
 'nosso',
 'nossa',
 'nossos',
 'nossas',
 'dela',
 'delas',
 'esta',
 'estes',
 'estas',
 'aquele',
 'aquela',
 'aqueles',
 'aquelas',
 'isto',
 'aquilo',
 'estou',
 'está',
 'estamos',
 'estão',
 'estive',
 'esteve',
 'estivemos',
 'estiveram',
 'estava',
 'estávamos',
 'estavam',
 'estivera'

In [92]:
def RemoviStopWords(instancia):
    instancia = instancia.lower()
    stopworlds = set(nltk.corpus.stopwords.words('portuguese'))
    palavras = [i for i in instancia.split() if not i in stopworlds]
    return (" ".join(palavras))

In [94]:
sentenca1 = "Olá mundo, estou trabalhando com textos no curso de Mineração de Textos do MineirandoDados.com.br"

In [96]:
RemoviStopWords(sentenca1)

'olá mundo, trabalhando textos curso mineração textos mineirandodados.com.br'

In [97]:
sentenca2 = "Seu trabalho de NLP será super interessante com as aulas de Mineração de textos"

In [98]:
RemoviStopWords(sentenca2)

'trabalho nlp super interessante aulas mineração textos'

## Part of Speech

* Part of Speech: Na tradução lietral seria Partes da Fala.
* Consiste em identificar a função gramatical das palavras em um texto.
* A função gramatical muda conforme é empregada a palavra no texto.

In [99]:
text = nltk.wordpunct_tokenize("O blog MinerandoDados é muito bom")

nltk.pos_tag(text)

[('O', 'NNP'),
 ('blog', 'NN'),
 ('MinerandoDados', 'NNP'),
 ('é', 'NNP'),
 ('muito', 'NN'),
 ('bom', 'NN')]

In [100]:
text = nltk.wordpunct_tokenize("João comprou um presente muito legal")

nltk.pos_tag(text)

[('João', 'NNP'),
 ('comprou', 'NN'),
 ('um', 'JJ'),
 ('presente', 'NN'),
 ('muito', 'FW'),
 ('legal', 'JJ')]

In [101]:
nltk.help.upenn_tagset('NNP')

NNP: noun, proper, singular
    Motown Venneboerger Czestochwa Ranzer Conchita Trumplane Christos
    Oceanside Escobar Kreisler Sawyer Cougar Yvette Ervin ODI Darryl CTCA
    Shannon A.K.C. Meltex Liverpool ...


In [102]:
nltk.help.upenn_tagset('JJ')

JJ: adjective or numeral, ordinal
    third ill-mannered pre-war regrettable oiled calamitous first separable
    ectoplasmic battery-powered participatory fourth still-to-be-named
    multilingual multi-disciplinary ...


In [103]:
nltk.help.upenn_tagset('NN')

NN: noun, common, singular or mass
    common-carrier cabbage knuckle-duster Casino afghan shed thermostat
    investment slide humour falloff slick wind hyena override subhumanity
    machinist ...


In [104]:
nltk.help.upenn_tagset('FW')

FW: foreign word
    gemeinschaft hund ich jeux habeas Haementeria Herr K'ang-si vous
    lutihaw alai je jour objets salutaris fille quibusdam pas trop Monte
    terram fiche oui corporis ...


In [105]:
text = nltk.wordpunct_tokenize("My print is very good")

nltk.pos_tag(text)

[('My', 'PRP$'),
 ('print', 'NN'),
 ('is', 'VBZ'),
 ('very', 'RB'),
 ('good', 'JJ')]

In [106]:
nltk.help.upenn_tagset('PRP$')

PRP$: pronoun, possessive
    her his mine my our ours their thy your


In [107]:
nltk.help.upenn_tagset('VBZ')

VBZ: verb, present tense, 3rd person singular
    bases reconstructs marks mixes displeases seals carps weaves snatches
    slumps stretches authorizes smolders pictures emerges stockpiles
    seduces fizzes uses bolsters slaps speaks pleads ...


In [108]:
nltk.help.upenn_tagset('RB')

RB: adverb
    occasionally unabatingly maddeningly adventurously professedly
    stirringly prominently technologically magisterially predominately
    swiftly fiscally pitilessly ...


In [109]:
text = nltk.wordpunct_tokenize("Hi, my name is Vitor, I want to print the outstanding invoice")

nltk.pos_tag(text)

[('Hi', 'NNP'),
 (',', ','),
 ('my', 'PRP$'),
 ('name', 'NN'),
 ('is', 'VBZ'),
 ('Vitor', 'NNP'),
 (',', ','),
 ('I', 'PRP'),
 ('want', 'VBP'),
 ('to', 'TO'),
 ('print', 'VB'),
 ('the', 'DT'),
 ('outstanding', 'JJ'),
 ('invoice', 'NN')]

## Trabalhando com Wordnet

* O wordnet é um grande banco de dados léxico de substantivo, verbos, adjetivos e advérbios.
* Essas palavras são agrupadas em conjuntos de sinônimos, cada um expressando um conceito distinto.
* Os sinonimos são interligados pelo seu significado semantico conceitual a suas relações léxicas.
* O wordnet é uma grande rede de conceitos interligados e é amplamente utilziada em pesquisas no mundo todo.
* O NLYK contem uma interface de acesso ao Wordnet.

OBS:

* Existem diversas variações do Wordnet para outros idiomas.
* Para portugues ainda existem poucas iniciativas.

### Consulta um sinonimo para a palavra BIKE

In [110]:
from nltk.corpus import wordnet
wordnet.synsets('bike')

[Synset('motorcycle.n.01'), Synset('bicycle.n.01'), Synset('bicycle.v.01')]

### Definições da palavra BIKE

In [111]:
wordnet.synset('bicycle.n.01').definition()

'a wheeled vehicle that has two wheels and is moved by foot pedals'

In [112]:
# veículo de rodas que tem duas rodas e é movido por pedais.

In [113]:
wordnet.synset('motorcycle.n.01').definition()

'a motor vehicle with two wheels and a strong frame'

In [114]:
# Veículo a motor com duas rodas e um quadro forte.

### Consulta hierarquia de termos

In [115]:
# Hiponimos da palavra bicycle.
# Conceitos mais especificos
wordnet.synset('bicycle.n.01').hyponyms()

[Synset('bicycle-built-for-two.n.01'),
 Synset('mountain_bike.n.01'),
 Synset('ordinary.n.04'),
 Synset('push-bike.n.01'),
 Synset('safety_bicycle.n.01'),
 Synset('velocipede.n.01')]

In [118]:
# Hiperonimos da palavra bicycle.
# Conceitos mais especificos
wordnet.synset('bicycle.n.01').hypernyms()

[Synset('wheeled_vehicle.n.01')]

In [119]:
# Meronyms da palavra bicycle.
# Conceitos mais especificos
wordnet.synset('bicycle.n.01').part_meronyms()

[Synset('bicycle_seat.n.01'),
 Synset('bicycle_wheel.n.01'),
 Synset('chain.n.03'),
 Synset('coaster_brake.n.01'),
 Synset('handlebar.n.01'),
 Synset('kickstand.n.01'),
 Synset('mudguard.n.01'),
 Synset('pedal.n.02'),
 Synset('sprocket.n.02')]