# NLP - Natural language processing / Processamento de Linguagem Natural

A NLP é uma subárea da ciência da computação, inteligência artificial e da linguística que lida com a manipulação de linguagem natural (texto e voz) feita por máquinas. E isso vai desde contar a frequência de diferentes palavras num texto, até compreender enunciados inteiros.

A disponibilidade de dados em linguagem natural nunca foi tão grande, por isso, tratar e desenvolver algoritmos que possibilitem o desenvolvimento de aplicações úteis em nosso dia a dia com toda essa informação é parte fundamental do processamento de linguagem natural.

Aplicações de NLP:
- Chatbots;
- Aplicativos de reconhecimento de voz;
- Buscadores na internet (google, etc);
- Tradutores.

As bibliotecas de NLP para python mais usadas são:

- Natural Language Toolkit (NLTK)
-  Gensim
-  CoreNLP
-  spaCy
-  TextBlob
-  Pattern
-  PyNLPl

Para esta demonstração simples de NLP e alguns conceitos, usarei a biblioteca NLTK.

In [1]:
# importando bibliotecas

import pandas as pd
import numpy as np
import re
import json

import nltk
nltk.download("stopwords")
nltk.download('rslp')

from nltk import sent_tokenize, word_tokenize
from nltk.stem.snowball import SnowballStemmer
from nltk.stem.wordnet import WordNetLemmatizer
from nltk.corpus import stopwords

[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\ricardo.neves\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package rslp to
[nltk_data]     C:\Users\ricardo.neves\AppData\Roaming\nltk_data...
[nltk_data]   Package rslp is already up-to-date!


Aqui será usado o dataset quotes, que consiste em monte de frases, seus autores, as tags, a popularidade e a categoria.

In [2]:
# importar dados
quotes_data = pd.read_json('dados/quotes.json', encoding='utf-8')

In [8]:
quotes_data.shape

(48391, 5)

Queremos alguns de exemplo, então vamos extrair apenas 50 linhas aleatórias

In [6]:
quotes_sample = quotes_data.sample(50)

In [9]:
quotes_sample.head()

Unnamed: 0,Quote,Author,Tags,Popularity,Category
2749,Honesty and integrity are absolutely essential...,Zig Ziglar,"[Life, Good, Integrity]",0.007504,life
31614,"When he says we’re forgiven, let’s unload the ...","Max Lucado, Grace for the Moment: Inspiration...","[christian, faith, guilt, inspirational ]",5.1e-05,faith
436,Gratitude unlocks the fullness of life. It tur...,Melody Beattie,"[Thankful, Home, Gratitude]",0.015617,life
37232,"In order to be really good as a librarian, eve...",Allen Smith,"[knowledge, librarianship ]",1.9e-05,knowledge
19166,I held her gaze as I held her in my arms. With...,"Jarod Kintz, This Book is Not FOR SALE","[arms, comfort, comforting, cuddle, cuddling, ...",0.000239,relationship


In [10]:
quotes_sample['Quote'].iloc[15]

'I always watch you. You consume my every thought.'

---

### Referências

- [Medium - Inteligência Artificial: Análise de sentimentos com Python](https://medium.com/@wesleywatanabe/inteligencia-artificial-python-nltk-pandas-pln-3dbfda430382)
- [Towards DataScience - Gentle Start to Natural Language Processing using Python](https://towardsdatascience.com/gentle-start-to-natural-language-processing-using-python-6e46c07addf3)
- [Python | Stemming words with NLTK](https://www.geeksforgeeks.org/python-stemming-words-with-nltk/)
- [Medium - Beginner’s Guide to Text Preprocessing in Python](https://medium.com/biaslyai/beginners-guide-to-text-preprocessing-in-python-2cbeafbf5f44)
- [TDS - Stop Words in NLP](https://towardsdatascience.com/stop-words-in-nlp-5b248dadad47)