#**Processamento de Linguagem Natural**

---


## Stemmer (Stemização)

---

In [None]:
from nltk.stem import PorterStemmer

ps = PorterStemmer()
exemplos = ["connection","connections","connective","connecting","connected"]
print(exemplos)

for word in exemplos:
  print(ps.stem(word))

In [None]:
# Outro exemplo
ps = PorterStemmer()
exemplos = ["go","going","goes","gone","went"]
print(exemplos)

for word in exemplos:
  print(ps.stem(word))

In [None]:
# Stemização
from nltk.stem import PorterStemmer
from nltk.stem.rslp import RSLPStemmer
import nltk 
nltk.download('rslp')

doc = ["pedra","pedreira"]
print(doc)

ps = PorterStemmer()
rslp = RSLPStemmer()

for word in doc:
    print(ps.stem(word), ' - ', rslp.stem(word))

## Aplicar Stemmer em uma frase

In [None]:
import pandas as pd

df = pd.DataFrame({
    'text': [
      'Sobre MBA? Eu gostei muito do MBA da FIAP',
      'O MBA da FIAP pode melhorar, não gostei muito'
    ],
    'class': [
        'positivo',
        'negativo'
    ]})

df.head()

In [None]:
from nltk.tokenize import word_tokenize
import nltk
nltk.download('punkt')

df['tokens'] = df.text.apply(word_tokenize)
df['tokens']

In [None]:
from nltk.stem import PorterStemmer
from nltk.stem.rslp import RSLPStemmer
import nltk
nltk.download('rslp')

tokens = df.tokens[0]
tokens = tokens + df.tokens[1]

ps = PorterStemmer()
rslp = RSLPStemmer()

for tok in tokens:
  print('Original: %s \t\t  PorterStemmer: %s \t\t RSLPStemmer: %s' % (tok, ps.stem(tok), rslp.stem(tok)))

In [None]:
# O Porter foi criado para o inglês e o RSLP para o português

NLTK = Natural Language Tool Kit

RSLP = Removedor de Sulfixos da Língua Portuguesa


## Quantos unigramas existem após aplicar Stemmer?

In [None]:
','.join(['Anderson', 'Dourado'])

In [None]:
from nltk.stem.rslp import RSLPStemmer
from sklearn.feature_extraction.text import CountVectorizer

rslp = RSLPStemmer()

def stem_pandas(line):
  return ' '.join([rslp.stem(token) for token in line])

df['stemmer'] = df.tokens.apply(stem_pandas)

df.stemmer.head()

In [None]:
import nltk
nltk.download('stopwords')

stopwords = nltk.corpus.stopwords.words('portuguese')
#vect = CountVectorizer(ngram_range=(1,1), stop_words=stopwords)
vect = CountVectorizer(ngram_range=(1,1))
vect.fit(df.stemmer)

text_vect = vect.transform(df.stemmer)

print('UNIGRAMAS sem STOPWORDS', text_vect.shape[1])

Unigramas sem aplicar o steamm

In [None]:
#stopwords = nltk.corpus.stopwords.words('portuguese')
#vect = CountVectorizer(ngram_range=(1,1), stop_words=stopwords)
vect = CountVectorizer(ngram_range=(1,1))
vect.fit(df.text)

text_vect = vect.transform(df.text)

print('UNIGRAMAS sem STOPWORDS', text_vect.shape[1])

In [None]:
# Não diferença pois o texto não tem muitas variações de palavras que possam ser reduzidas

Outra função de stematização do NLTK

In [None]:
from nltk.stem import SnowballStemmer

print(" ".join(SnowballStemmer.languages)) # See which languages are supported

In [None]:
stemmer = SnowballStemmer("portuguese") # Escolha a linguagem

palavras = ['pedra','pedreira','criar']

for p in palavras:
  print(stemmer.stem(p)) # Stem a palavra

## Lemmatizer (Lematização)

---

In [None]:
from nltk.stem import WordNetLemmatizer
import nltk
nltk.download('wordnet')

exemplos = ["connection","connections","connective","connecting","connected"]
wnl = WordNetLemmatizer()

for word in exemplos:
    print(wnl.lemmatize(word,"v"))

In [None]:
exemplos = ["go","going","goes","gone","went"]
wnl = WordNetLemmatizer()

for word in exemplos:
  print(wnl.lemmatize(word,"v"))

Vamos ver lematização em palavras do português mais para frente, pois o NLTK não possui lematização em português.


## Contagem de Termos - UNIGRAMA

---

In [None]:
import pandas as pd
df = pd.DataFrame({
    'text': [
      'Sobre MBA ? Eu gostei muito do MBA da FIAP',
      'O MBA da FIAP pode melhorar, não gostei muito'
    ],
    'class': [
        'positivo',
        'negativo'
    ]})

In [None]:
from sklearn.feature_extraction.text import CountVectorizer

vect = CountVectorizer(ngram_range=(1,1))
#vect = CountVectorizer(ngram_range=(2,2))
vect.fit(df.text)
count_vect = vect.transform(df.text)

print(pd.DataFrame(count_vect.A, columns=vect.get_feature_names()).T.to_string())
#print(pd.DataFrame(count_vect.A, columns=vect.get_feature_names()).to_string())

## TF

In [None]:
from sklearn.feature_extraction.text import TfidfVectorizer

# ao usar o TfidfVectorizer() o default ngram_range=unigrama, use_idf=True, norm='l2', lowercase=True, max_df e min_df=1, smooth_idf=True, sublinear_tf=False
vect = TfidfVectorizer(ngram_range=(1,1), use_idf=False, norm='l1')
vect.fit(df.text)
tf_vect = vect.transform(df.text)

print(pd.DataFrame(tf_vect.A, columns=vect.get_feature_names()).T.to_string())

In [None]:
#vect.get_stop_words()
#vect.get_params(deep=True)

## TF-IDF


In [None]:
from sklearn.feature_extraction.text import TfidfVectorizer

# ao usar o TfidfVectorizer() o default ngram_range=unigrama, use_idf=True, norm='l2', lowercase=True, max_df e min_df=1, smooth_idf=True, sublinear_tf=False
vect = TfidfVectorizer() 
vect.fit(df.text)
tfidf_vect = vect.transform(df.text)

print(pd.DataFrame(tfidf_vect.A, columns=vect.get_feature_names()).T.to_string())

Existe uma diferenca no cálculo original do TF-IDF apresentados pelos livros em relação ao padrão urilizado pelo Scikit Learn. A ideia dessa diferença é evitar divisões por zero.

Formúla original:

    TF-IDFw1 = TFw1 * IDFw1
    IDFw1 = loge(D/Dw1)
    D = total de documentos | Dw1 = Quantidade de documentos em que o termo aparece

----
Formúla do sklearn:
Muda o cálculo do IDFw1

    IDFw! = loge(1+D/1+Dw1)+1

Com o paâmetro smooth_idf=False

    IDFw! = loge(D/Dw1)+1



In [None]:
from sklearn.feature_extraction.text import TfidfVectorizer

# ao usar o TfidfVectorizer() o default ngram_range=unigrama, use_idf=True, norm='l2', lowercase=True, max_df e min_df=1, smooth_idf=True, sublinear_tf=False
vect = TfidfVectorizer(smooth_idf=False)
#vect = TfidfVectorizer(smooth_idf=False, max_df=1, min_df=1)
vect.fit(df.text)
tfidf_vect = vect.transform(df.text)

print(pd.DataFrame(tfidf_vect.A, columns=vect.get_feature_names()).T.to_string())

In [None]:
'''
tfidf_vect.data
tfidf_vect.A
vect.get_feature_names()
'''

https://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.TfidfVectorizer.html#sklearn.feature_extraction.text.TfidfVectorizer


https://scikit-learn.org/stable/modules/feature_extraction.html

O cáculo do TF-IDF das classes TfidfTransformer e TfidfVectorizer do scikit-learn diferem ligeiramente da notação padrão de livros didáticos que define o IDF.


## Modelo com n-grama

In [None]:
df

In [None]:
df['class']

In [None]:
# treinando um modelo de árevore de decisão
from sklearn.tree import DecisionTreeClassifier

tree = DecisionTreeClassifier()
tree.fit(tfidf_vect, df['class'])

print('D Tree: ', tree.score(tfidf_vect, df['class'])) # retorna a acurracy - precisão do modelo

In [None]:
tree.score(tfidf_vect, df['class'])

In [None]:
vetor = vect.transform(['a vovo juju adora abacate'])

print('D Tree: ', tree.predict(vetor))

Salvando o modelo treinado e o vetor de tranformação.

In [None]:
import pickle

pickle.dump(tree, open('minhaarvore.pkl', 'wb'))

In [None]:
!ls -la

In [None]:
blaaaaa = pickle.load(open('minhaarvore.pkl', 'rb'))

In [None]:
print('D Tree: ', blaaaaa.predict(texto)) # texto = vetor

In [None]:
from google.colab import drive
drive.mount('/content/gdrive', force_remount=True)

# mostrar a estrutura de pastas do google drive montado

In [None]:
import pickle

pickle.dump(tree, open('/content/gdrive/My Drive/FIAP/NLP/minhaarvore.pkl', 'wb'))

pickle.dump(vect, open('/content/gdrive/My Drive/FIAP/NLP/vetorizador.pkl', 'wb'))