# Processamento da linguagem natural

usada para **sumarização** (identificar assuntos mais importantes em um texto/livro), **tradução** e **chatbots** <p>



**CORPUS**: <p>
conjunto de textos, que foram anotados manualmente e sao utilizados para validação das analises <p>
**TOKENIZAÇÃO**: <p>
divisao de um texto em partes menores, os tokens. separados por espaços, virgulas ou pontuações <p>
**STOP WORDS**:
palavras removidas no inicio do processamento para ser acelarado, sem alterar a compreensão



In [1]:
import nltk

**baixando as stop words**

In [2]:
nltk.download('stopwords')

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.


True

stop words em portugues

In [5]:
sw = nltk.corpus.stopwords.words('portuguese')
print(sw)

['a', 'à', 'ao', 'aos', 'aquela', 'aquelas', 'aquele', 'aqueles', 'aquilo', 'as', 'às', 'até', 'com', 'como', 'da', 'das', 'de', 'dela', 'delas', 'dele', 'deles', 'depois', 'do', 'dos', 'e', 'é', 'ela', 'elas', 'ele', 'eles', 'em', 'entre', 'era', 'eram', 'éramos', 'essa', 'essas', 'esse', 'esses', 'esta', 'está', 'estamos', 'estão', 'estar', 'estas', 'estava', 'estavam', 'estávamos', 'este', 'esteja', 'estejam', 'estejamos', 'estes', 'esteve', 'estive', 'estivemos', 'estiver', 'estivera', 'estiveram', 'estivéramos', 'estiverem', 'estivermos', 'estivesse', 'estivessem', 'estivéssemos', 'estou', 'eu', 'foi', 'fomos', 'for', 'fora', 'foram', 'fôramos', 'forem', 'formos', 'fosse', 'fossem', 'fôssemos', 'fui', 'há', 'haja', 'hajam', 'hajamos', 'hão', 'havemos', 'haver', 'hei', 'houve', 'houvemos', 'houver', 'houvera', 'houverá', 'houveram', 'houvéramos', 'houverão', 'houverei', 'houverem', 'houveremos', 'houveria', 'houveriam', 'houveríamos', 'houvermos', 'houvesse', 'houvessem', 'houvésse

**tokenização**

In [6]:
from nltk.tokenize import word_tokenize
nltk.download('punkt')

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.


True

In [9]:
frase = 'Eu dirijo devagar porque nós queremos ver os animais deles.'

#tokenização da variavel 
tokens = word_tokenize(frase)
print(tokens)

['Eu', 'dirijo', 'devagar', 'porque', 'nós', 'queremos', 'ver', 'os', 'animais', 'deles', '.']


In [10]:
# nao imprimir a stopword
for t in tokens:
    if t not in sw:
        print(t)

Eu
dirijo
devagar
porque
queremos
ver
animais
.


**TF - IDF** <p>
frequencia do termo - frequencia inversa do documento <p>
**indica quais termos sao mais relevantes**

In [12]:
from sklearn.feature_extraction.text import TfidfVectorizer
import pandas as pd

In [13]:
texto1 = 'A matemática é muito importante para compreendermos como a natureza funciona'

# instanciando
tf_idf = TfidfVectorizer()

# retorna uma matriz com os textos e os scores do texto 1
vetor = tf_idf.fit_transform([texto1])
print(vetor)

  (0, 2)	0.35355339059327373
  (0, 6)	0.35355339059327373
  (0, 0)	0.35355339059327373
  (0, 1)	0.35355339059327373
  (0, 7)	0.35355339059327373
  (0, 3)	0.35355339059327373
  (0, 5)	0.35355339059327373
  (0, 4)	0.35355339059327373


In [14]:
# exibindo em vetor
vetor = vetor.todense()
print(vetor)

[[0.35355339 0.35355339 0.35355339 0.35355339 0.35355339 0.35355339
  0.35355339 0.35355339]]


In [15]:
# associar os scores aos nomes das palavras
nomes = tf_idf.get_feature_names()

df = pd.DataFrame(vetor, columns=nomes)
print(df)

       como  compreendermos  funciona  importante  matemática     muito  \
0  0.353553        0.353553  0.353553    0.353553    0.353553  0.353553   

   natureza      para  
0  0.353553  0.353553  




In [16]:
texto2 = 'A matemática é incrível, quanto mais estudo matemática, mais eu consigo aprender matemática'

tf_idf = TfidfVectorizer()
vetor2 = tf_idf.fit_transform([texto2])

vetor2 = vetor2.todense()

nomes = tf_idf.get_feature_names()

df = pd.DataFrame(vetor2, columns=nomes)
print(df)

   aprender   consigo    estudo        eu  incrível      mais  matemática  \
0  0.229416  0.229416  0.229416  0.229416  0.229416  0.458831    0.688247   

     quanto  
0  0.229416  




matematica recebe o maior score (pois aparece mais vezes) e assim sucetivamente. a qtd de repetições é proporcional ao score