# Consulta Postgres

In [1]:
#!pip install pandas
#!pip install nltk
#!pip install psycopg2
#!pip install sqlalchemy

In [2]:
# imports iniciais
import os
import nltk
import pandas as pd
import pandas.io.sql as psql
import psycopg2
import pandas as pd
from sqlalchemy import create_engine

In [3]:
#nltk.download()

# Assunto

In [4]:
df = pd.read_csv('dados_teste.csv',delimiter='|')

In [5]:
df.describe()

Unnamed: 0,numero
count,400.0
mean,4721.89
std,2818.420545
min,24.0
25%,2219.5
50%,4693.5
75%,7108.75
max,9995.0


In [6]:
df.count()

nome        400
empresa     400
endereco    400
data1       400
data2       400
numero      400
dtype: int64

In [14]:
import string
from nltk.corpus import stopwords
portuguese_stops = set(stopwords.words('portuguese'))
ignore = ['@', '.', '!','?',',','$','-','\'s','g','(',')','[',']','``',':','http','html','//members']
#from nltk.stem import PorterStemmer
#from nltk.stem import LancasterStemmer
#from nltk.stem import RegexpStemmer
from nltk.stem import SnowballStemmer
# Cria o Stemmer
stemmer = SnowballStemmer('portuguese')
def preprocess_text(content):
    content.translate(str.maketrans('', '', string.punctuation))
    word_tokens = nltk.word_tokenize(content)
    #print(len(word_tokens),word_tokens)
    word_tokens2 = [w.lower() for w in word_tokens if w not in portuguese_stops]
    #print(len(word_tokens2),word_tokens2)
    word_tokens3 = [w for w in word_tokens2 if w not in ignore]
    #print(len(word_tokens3),word_tokens3)
    word_tokens4 = [stemmer.stem(w) for w in word_tokens3]
    #print(len(word_tokens4),word_tokens4)
    return ' '.join(word_tokens4)

In [15]:
teste = 'Teste de sentença para tokenizar'

In [16]:
preprocess_text(teste)

'test sentenc tokeniz'

In [17]:
df['nome'].apply(preprocess_text)

0      anjoli q. campbell
1        deann f. burnett
2             col z. trav
3        sony y. mckinney
4           logan v. holm
              ...        
395      olga i. thornton
396           xen k. stok
397      cassidy k. potts
398          kyle p. robl
399        jarrod n. robl
Name: nome, Length: 400, dtype: object

## Calculando a frequência

Calcula quantas vezes uma palavra aparece em um texto ou corpus

In [None]:
# Vamos primeiro 
fdist = nltk.FreqDist(word_tokens)
print('\nContagem do número máximo de ocorrências do token "',fdist.max(),'" : ', fdist[fdist.max()])
print('\nNúmero total de tokens distintos : ', fdist.N())
print('\nA seguir estão os 10 tokens mais comuns')
print(fdist.most_common(40))
print("\n")

## Stop Words

Stopwords são palavras comuns que normalmente não contribuem para o significado de uma frase e que por isso podem ser ignoradas em processamento PLN. São palavras como "The" e "a" ((em inglês) ou "O/A" e "Um/Uma" ((em português). 

Muitos mecanismos de busca filtram estas palavras (stopwords), como forma de economizar espaço em seus índices de pesquisa.

Veja que aqui temos menos palavras, pois as stopwords foram removidas 

In [None]:
# Podemos também criar uma lista de caracteres palavras que devem ser ignoradas


Veja que conseguimor limpar ainda mais as palavras a serem trabalhadas

# Part-of-Speech Tagging

O POS Tagging é o processo de rotulação de elementos textuais - tipicamente palavras e pontuação - com o fim de evidenciar 
a estrutura gramatical de um determinado trecho de texto. 

In [None]:
from nltk.tag import pos_tag
tags = pos_tag(word_tokens3)
print(tags)

In [None]:
# Para saber o que é cada código, utilize o exemplo abaixo (no caso para VB)
nltk.help.upenn_tagset('VB')

# Stemming

Stemming é a técnica de remover sufixos e prefixos de uma palavra, chamada stem. 

Por exemplo, o stem da palavra cooking é cook. Um bom algoritmo sabe que "ing" é um sufixo e pode ser removido. 

Stemming é muito usado em mecanismos de buscas para indexação de palavras. 

In [None]:
from nltk.stem import PorterStemmer
from nltk.stem import LancasterStemmer
from nltk.stem import RegexpStemmer
from nltk.stem import SnowballStemmer
# Cria o Stemmer
stemmer = SnowballStemmer('english')
# Para português: SnowballStemmer('portuguese')
for word in word_tokens3:
    print(stemmer.stem(word))

Veja que algumas palavras aparece apenas o stem

# Lemmatization

Lemmatização na linguística, é o processo de agrupar as diferentes formas flexionadas de uma palavra para que possam ser analisadas como um único item.
Na linguística computacional, a Lemmatização é o processo algorítmico de determinação do lema para uma determinada palavra. 

A Lemmatização está intimamente relacionada com o Stemming. 

A diferença é que um stemmer opera em uma única palavra sem conhecimento do contexto e, portanto, não pode discriminar entre palavras que têm diferentes significados, dependendo da parte da fala. No entanto, os stemmers são geralmente mais fáceis de implementar e executar mais rapidamente, e a precisão reduzida pode não ser importante para algumas aplicações.

O Stemmning pode gerar palavras geralmente inexistentes, enquanto as lemas são palavras reais.

In [None]:
from nltk.stem import WordNetLemmatizer
# Vamos aplicar às palavras
wordnet_lemmatizer = WordNetLemmatizer()
for word in word_tokens3:
    print(wordnet_lemmatizer.lemmatize(word))

Veja a diferença do Lemmatization para o Stemming

# Exercício 1

## Crie um código Python que faça o seguinte:
    
 1) Reuna em duas variáveis de texto (textoPos, textoNeg) todas as palavras de todos os documentos da categoria 'pos' e 'neg' respectivamente

 2) Execute os itens abaixo para textoPos e textoNeg
 
 2.1) Aplique o método de tokenização para separar as palavras
 
 2.2) Remova as stopwords e demais palavras que você julgar necessário para a limpeza do texto
 
 2.3) Aplique a lematização
 
 2.4) Calcule e imprima a frequência das 1000 palavras mais frequentes após todo o processamento 
 
Salve o Jupyter Notebook com os resultados e entregue pelo iLang