<h1 align=center>Organização e Análise de Texto</h1>
<p align=center><img src=https://miro.medium.com/max/724/0*j9FKv2WnvVFNxU5Q.jpeg width=500></p>

<h3>Utilizando a Biblioteca NLTK</h3>


In [1]:
import nltk
nltk.download()

showing info https://raw.githubusercontent.com/nltk/nltk_data/gh-pages/index.xml


True

<h3>Executando a divisão de frases</h3>

In [9]:
# Importando separador de sentenças do NLTK
from nltk.tokenize import sent_tokenize

# Carregando o Arquivo
with open('sentence1.txt','r') as myfile:
	data = myfile.read().replace('\n', '')
print('****Arquivo não Separado****')
print(data)
print('**************************')

# Separando a sentença
sentences = sent_tokenize(data) # Por padrão é English, porém pode ser alterado (language="German")
print('\n****Arquivo SEPARADO em sentenças****')
for s in sentences:
	print(s)


****Arquivo não Separado****
We are seeking developers with demonstrable experience in: ASP.NET, C#, SQL Server, and AngularJS. We are a fast-paced, highly iterative team that has to adapt quickly as our factory grows. We need people who are comfortable tackling new problems, innovating solutions, and interacting with every facet of the company on a daily basis. Creative, motivated, able to take responsibility and support the applications you create. Help us get rockets out the door faster!
**************************

****Arquivo SEPARADO em sentenças****
We are seeking developers with demonstrable experience in: ASP.NET, C#, SQL Server, and AngularJS.
We are a fast-paced, highly iterative team that has to adapt quickly as our factory grows.
We need people who are comfortable tackling new problems, innovating solutions, and interacting with every facet of the company on a daily basis.
Creative, motivated, able to take responsibility and support the applications you create.
Help us get 

<h3>Execução da Tokenização</h3>
Tokenização é o processo de conversão de texto em tokens. Esses tokens podem ser parágrafos, frases e palavras individuais comuns e geralmente são baseados no nível da palavra.

In [17]:
# 1. Usando o split() do Python
first_sentence = [s for s in sentences][0]

print(first_sentence.split())
# Percebe que ":" e "," são inclusos.

['We', 'are', 'seeking', 'developers', 'with', 'demonstrable', 'experience', 'in:', 'ASP.NET,', 'C#,', 'SQL', 'Server,', 'and', 'AngularJS.']


In [19]:
# Usando a tokenize do NLTK
from nltk.tokenize import word_tokenize, regexp_tokenize,wordpunct_tokenize,blankline_tokenize

print(wordpunct_tokenize(first_sentence)) # Também separou a pontuação ":" e a ","

['We', 'are', 'seeking', 'developers', 'with', 'demonstrable', 'experience', 'in', ':', 'ASP', '.', 'NET', ',', 'C', '#,', 'SQL', 'Server', ',', 'and', 'AngularJS', '.']


In [20]:
# Aplicando a Regex Tokenizer com uma expressão "\w+"

print(regexp_tokenize(first_sentence, pattern='\w+')) # Separou melhor as palavras

['We', 'are', 'seeking', 'developers', 'with', 'demonstrable', 'experience', 'in', 'ASP', 'NET', 'C', 'SQL', 'Server', 'and', 'AngularJS']


In [21]:
# Aplicando a wordpunckt_tokenizer

print(word_tokenize(first_sentence)) # Separa a pontuação também.

['We', 'are', 'seeking', 'developers', 'with', 'demonstrable', 'experience', 'in', ':', 'ASP.NET', ',', 'C', '#', ',', 'SQL', 'Server', ',', 'and', 'AngularJS', '.']


In [24]:
# Aplicando a blackline_tokenize.
print(first_sentence)
print(blankline_tokenize(first_sentence)) # Percebe a diferença.

We are seeking developers with demonstrable experience in: ASP.NET, C#, SQL Server, and AngularJS.
['We are seeking developers with demonstrable experience in: ASP.NET, C#, SQL Server, and AngularJS.']


<h3>Executando o steamming</h3>
Stemming é o processo de cortar um token em sua haste. Tecnicamente, é o processo ou redução de palavras flexionadas (e às vezes derivadas) ao seu radical da palavra - a forma raiz básica da palavra. Como exemplo, as palavras pescando, pescado e pescador derivam da raiz da palavra pesca. Isso ajuda a reduzir o conjunto de palavras processadas em um conjunto de base menor que é mais facilmente processado.

In [27]:
from nltk.stem import PorterStemmer, LancasterStemmer
pst = PorterStemmer()
pst.stem('fishing')

'fish'

In [32]:
pst = PorterStemmer()
lst = LancasterStemmer() # Mais agressivo

print('Resultados dos Stemmers:')
for token in regexp_tokenize(sentences[0], pattern='\w+'):
	print(f"{token} ----- {pst.stem(token)} ----- {lst.stem(token)} ")

Resultados dos Stemmers:
We ----- we ----- we 
are ----- are ----- ar 
seeking ----- seek ----- seek 
developers ----- develop ----- develop 
with ----- with ----- with 
demonstrable ----- demonstr ----- demonst 
experience ----- experi ----- expery 
in ----- in ----- in 
ASP ----- asp ----- asp 
NET ----- net ----- net 
C ----- c ----- c 
SQL ----- sql ----- sql 
Server ----- server ----- serv 
and ----- and ----- and 
AngularJS ----- angularj ----- angulars 


<h3>Executando a Lemmatização</h3>
Lematização é um processo mais metódico de converter palavras em sua base. Enquanto stemming geralmente apenas corta as extremidades das palavras, a lematização leva em consideração a análise morfológica das palavras, avaliando o contexto e a parte do discurso para determinar a forma flexionada e toma uma decisão entre diferentes regras para determinar a raiz.

In [33]:
from nltk.stem import PorterStemmer
from nltk.stem.lancaster import LancasterStemmer
from nltk.stem import WordNetLemmatizer
pst = PorterStemmer()
lst = LancasterStemmer()
wnl = WordNetLemmatizer()

print("Stemming / lemmatization results")
for token in regexp_tokenize(sentences[0], pattern='\w+'):
    print(token, pst.stem(token), lst.stem(token), wnl.lemmatize(token))

Stemming / lemmatization results
We we we We
are are ar are
seeking seek seek seeking
developers develop develop developer
with with with with
demonstrable demonstr demonst demonstrable
experience experi expery experience
in in in in
ASP asp asp ASP
NET net net NET
C c c C
SQL sql sql SQL
Server server serv Server
and and and and
AngularJS angularj angulars AngularJS


<h3>Determinando e removendo StopWords</h3>
Palavras de parada são palavras comuns que, em uma situação de processamento de linguagem natural, não fornecem muito significado contextual. Essas palavras são geralmente as palavras mais comuns em um idioma. Estes tendem a, pelo menos em inglês, ser artigos e pronomes, como I, me, the, is, which, who, at, entre outros.

In [37]:
from nltk.corpus import stopwords
stoplist = stopwords.words('english')

len(stoplist) # Tamanho da StopList (179)

179

In [41]:
print(stoplist[:20])

['i', 'me', 'my', 'myself', 'we', 'our', 'ours', 'ourselves', 'you', "you're", "you've", "you'll", "you'd", 'your', 'yours', 'yourself', 'yourselves', 'he', 'him', 'his']


In [44]:
# Removendo as Stopwords da primeira sentença

from nltk.tokenize import sent_tokenize
from nltk.tokenize import regexp_tokenize
from nltk.corpus import stopwords

with open('sentence1.txt', 'r') as myfile:
	data = myfile.read().replace('\n', '')

sentences = sent_tokenize(data)
first_sentence = sentences[0]
print("Original Sentence:")
print(first_sentence)

Original Sentence:
We are seeking developers with demonstrable experience in: ASP.NET, C#, SQL Server, and AngularJS.


In [45]:
tokenized = regexp_tokenize(first_sentence,'\w+')
print(f"Tokenized: {tokenized}")

Tokenized: ['We', 'are', 'seeking', 'developers', 'with', 'demonstrable', 'experience', 'in', 'ASP', 'NET', 'C', 'SQL', 'Server', 'and', 'AngularJS']


In [48]:
# Removendo as StopWords
stoplist = stopwords.words("english")
cleaned = [word for word in tokenized if word not in stoplist]
print(f"Cleaned: {cleaned}")

Cleaned: ['We', 'seeking', 'developers', 'demonstrable', 'experience', 'ASP', 'NET', 'C', 'SQL', 'Server', 'AngularJS']


<h3>Calculando a distribuição de frequência das palavras</h3>

Uma distribuição de frequência conta o número de ocorrências de valores de dados distintos. Eles são valiosos, pois podemos usá-los para determinar quais palavras ou frases dentro de um documento são mais comuns e, a partir disso, inferir aquelas que têm maior ou menor valor.
 As distribuições de frequência podem ser calculadas usando várias técnicas diferentes. Vamos examiná-los usando as facilidades incorporadas ao NLTK.