# Processamento de Linguagem Natural

---


## Stemmer

In [0]:
from nltk.stem import PorterStemmer

examples = [
    "connection","connections",
    "connective","connecting","connected"
]

ps = PorterStemmer()

for word in examples:
  print(ps.stem(word))

In [0]:
import pandas as pd

df = pd.DataFrame({
    'text': [
      'Sobre MBA ? Eu gostei muito do MBA da FIAP',
      'O MBA da FIAP pode melhorar, não gostei muito'
    ],
    'class': [
        'positivo',
        'negativo'
    ]})

df.head()

Unnamed: 0,class,text
0,positivo,Sobre MBA ? Eu gostei muito do MBA da FIAP
1,negativo,"O MBA da FIAP pode melhorar, não gostei muito"


## Contagem de Termos - UNIGRAMA

---

In [0]:
from sklearn.feature_extraction.text import CountVectorizer

vect = CountVectorizer(ngram_range=(2,2))
vect.fit(df.text)
count_vect = vect.transform(df.text)

print(pd.DataFrame(count_vect.A, columns=vect.get_feature_names()).T.to_string())

               0  1
da fiap        1  1
do mba         1  0
eu gostei      1  0
fiap pode      0  1
gostei muito   1  1
mba da         1  1
mba eu         1  0
melhorar não   0  1
muito do       1  0
não gostei     0  1
pode melhorar  0  1
sobre mba      1  0


## TF

In [0]:
from sklearn.feature_extraction.text import TfidfVectorizer

vect = TfidfVectorizer(
    ngram_range=(1,1), use_idf=False, norm='l1'
)
vect.fit(df.text)
tf_vect = vect.transform(df.text)

print(pd.DataFrame(tf_vect.A, columns=vect.get_feature_names()).T.to_string())

                 0      1
da        0.111111  0.125
do        0.111111  0.000
eu        0.111111  0.000
fiap      0.111111  0.125
gostei    0.111111  0.125
mba       0.222222  0.125
melhorar  0.000000  0.125
muito     0.111111  0.125
não       0.000000  0.125
pode      0.000000  0.125
sobre     0.111111  0.000


## TF-IDF

In [0]:
from sklearn.feature_extraction.text import TfidfVectorizer

vect = TfidfVectorizer(
    ngram_range=(1,1), use_idf=True, norm='l1'
)
vect.fit(df.text)
tfidf_vect = vect.transform(df.text)

print(pd.DataFrame(tfidf_vect.A, columns=vect.get_feature_names()).T.to_string())

                 0         1
da        0.097882  0.108502
do        0.137570  0.000000
eu        0.137570  0.000000
fiap      0.097882  0.108502
gostei    0.097882  0.108502
mba       0.195764  0.108502
melhorar  0.000000  0.152496
muito     0.097882  0.108502
não       0.000000  0.152496
pode      0.000000  0.152496
sobre     0.137570  0.000000


## Modelo com n-grama

In [0]:
df['class']

0    positivo
1    negativo
Name: class, dtype: object

In [0]:
from sklearn.tree import DecisionTreeClassifier


tree = DecisionTreeClassifier()
tree.fit(count_vect, df['class'])

print('D Tree: ', tree.score(count_vect, df['class']))

D Tree:  1.0


In [0]:
texto = vect.transform(['gostei do mba'])

print('D Tree: ', tree.predict(texto))

D Tree:  ['negativo']
