# Processamento de Linguagem Natural

---


In [0]:
import pandas as pd

df = pd.DataFrame({
    'text': [
      'Sobre MBA ? Eu gostei muito do MBA da FIAP',
      'O MBA da FIAP pode melhorar, não gostei muito'
    ],
    'class': [
        'positivo',
        'negativo'
    ]})

df.head()

Unnamed: 0,class,text
0,positivo,Sobre MBA ? Eu gostei muito do MBA da FIAP
1,negativo,"O MBA da FIAP pode melhorar, não gostei muito"


## Contagem de Termos - UNIGRAMA

---

In [0]:
from sklearn.feature_extraction.text import CountVectorizer

vect = CountVectorizer(ngram_range=(1,1))
vect.fit(df.text)
text_vect = vect.transform(df.text)

print(pd.DataFrame(text_vect.A, columns=vect.get_feature_names()).T.to_string())

          0  1
da        1  1
do        1  0
eu        1  0
fiap      1  1
gostei    1  1
mba       2  1
melhorar  0  1
muito     1  1
não       0  1
pode      0  1
sobre     1  0


## TF

In [0]:
from sklearn.feature_extraction.text import TfidfVectorizer

vect = TfidfVectorizer(ngram_range=(1,1), use_idf=False)
vect.fit(df.text)
text_vect = vect.transform(df.text)

print(pd.DataFrame(text_vect.A, columns=vect.get_feature_names()).T.to_string())

                 0         1
da        0.301511  0.353553
do        0.301511  0.000000
eu        0.301511  0.000000
fiap      0.301511  0.353553
gostei    0.301511  0.353553
mba       0.603023  0.353553
melhorar  0.000000  0.353553
muito     0.301511  0.353553
não       0.000000  0.353553
pode      0.000000  0.353553
sobre     0.301511  0.000000


## TF-IDF

In [0]:
from sklearn.feature_extraction.text import TfidfVectorizer

vect = TfidfVectorizer(ngram_range=(1,1), use_idf=True)
vect.fit(df.text)
text_vect = vect.transform(df.text)

print(pd.DataFrame(text_vect.A, columns=vect.get_feature_names()).T.to_string())

                 0         1
da        0.267970  0.302531
do        0.376623  0.000000
eu        0.376623  0.000000
fiap      0.267970  0.302531
gostei    0.267970  0.302531
mba       0.535941  0.302531
melhorar  0.000000  0.425196
muito     0.267970  0.302531
não       0.000000  0.425196
pode      0.000000  0.425196
sobre     0.376623  0.000000


## Modelo com n-grama

In [0]:
from sklearn.tree import DecisionTreeClassifier


tree = DecisionTreeClassifier()
tree.fit(text_vect, df['class'])

print('D Tree: ', tree.score(text_vect, df['class']))

D Tree:  1.0


In [0]:
texto = vect.transform(['a curso pode melhorar'])

print('D Tree: ', tree.predict(texto))

D Tree:  ['negativo']
