<h1 align=center>Organização e Análise de Texto</h1>
<p align=center><img src=https://miro.medium.com/max/724/0*j9FKv2WnvVFNxU5Q.jpeg width=500></p>

<h3>Utilizando a Biblioteca NLTK</h3>


In [1]:
import nltk
nltk.download()

showing info https://raw.githubusercontent.com/nltk/nltk_data/gh-pages/index.xml


True

<h3>Executando a divisão de frases</h3>

In [19]:
# Importando separador de sentenças do NLTK
from nltk.tokenize import sent_tokenize

# Carregando o Arquivo
with open('sentence1.txt','r') as myfile:
	data = myfile.read().replace('\n', '')
print('****Arquivo não Separado****')
print(data)
print('**************************')

# Separando a sentença
sentences = sent_tokenize(data) # Por padrão é English, porém pode ser alterado (language="German")
print('\n****Arquivo SEPARADO em sentenças****')
for s in sentences:
	print(s)


****Arquivo não Separado****
We are seeking developers with demonstrable experience in: ASP.NET, C#, SQL Server, and AngularJS. We are a fast-paced, highly iterative team that has to adapt quickly as our factory grows. We need people who are comfortable tackling new problems, innovating solutions, and interacting with every facet of the company on a daily basis. Creative, motivated, able to take responsibility and support the applications you create. Help us get rockets out the door faster!
**************************

****Arquivo SEPARADO em sentenças****
We are seeking developers with demonstrable experience in: ASP.NET, C#, SQL Server, and AngularJS.
We are a fast-paced, highly iterative team that has to adapt quickly as our factory grows.
We need people who are comfortable tackling new problems, innovating solutions, and interacting with every facet of the company on a daily basis.
Creative, motivated, able to take responsibility and support the applications you create.
Help us get 

<h3>Execução da Tokenização</h3>
Tokenização é o processo de conversão de texto em tokens. Esses tokens podem ser parágrafos, frases e palavras individuais comuns e geralmente são baseados no nível da palavra.

In [20]:
# 1. Usando o split() do Python
first_sentence = [s for s in sentences][0]

print(first_sentence.split())
# Percebe que ":" e "," são inclusos.

['We', 'are', 'seeking', 'developers', 'with', 'demonstrable', 'experience', 'in:', 'ASP.NET,', 'C#,', 'SQL', 'Server,', 'and', 'AngularJS.']


In [21]:
# Usando a tokenize do NLTK
from nltk.tokenize import word_tokenize, regexp_tokenize,wordpunct_tokenize,blankline_tokenize

print(wordpunct_tokenize(first_sentence)) # Também separou a pontuação ":" e a ","

['We', 'are', 'seeking', 'developers', 'with', 'demonstrable', 'experience', 'in', ':', 'ASP', '.', 'NET', ',', 'C', '#,', 'SQL', 'Server', ',', 'and', 'AngularJS', '.']


In [22]:
# Aplicando a Regex Tokenizer com uma expressão "\w+"

print(regexp_tokenize(first_sentence, pattern='\w+')) # Separou melhor as palavras

['We', 'are', 'seeking', 'developers', 'with', 'demonstrable', 'experience', 'in', 'ASP', 'NET', 'C', 'SQL', 'Server', 'and', 'AngularJS']


In [23]:
# Aplicando a wordpunckt_tokenizer

print(word_tokenize(first_sentence)) # Separa a pontuação também.

['We', 'are', 'seeking', 'developers', 'with', 'demonstrable', 'experience', 'in', ':', 'ASP.NET', ',', 'C', '#', ',', 'SQL', 'Server', ',', 'and', 'AngularJS', '.']


In [24]:
# Aplicando a blackline_tokenize.
print(first_sentence)
print(blankline_tokenize(first_sentence)) # Percebe a diferença.

We are seeking developers with demonstrable experience in: ASP.NET, C#, SQL Server, and AngularJS.
['We are seeking developers with demonstrable experience in: ASP.NET, C#, SQL Server, and AngularJS.']


<h3>Executando o steamming</h3>
Stemming é o processo de cortar um token em sua haste. Tecnicamente, é o processo ou redução de palavras flexionadas (e às vezes derivadas) ao seu radical da palavra - a forma raiz básica da palavra. Como exemplo, as palavras pescando, pescado e pescador derivam da raiz da palavra pesca. Isso ajuda a reduzir o conjunto de palavras processadas em um conjunto de base menor que é mais facilmente processado.

In [25]:
from nltk.stem import PorterStemmer, LancasterStemmer
pst = PorterStemmer()
pst.stem('fishing')

'fish'

In [26]:
pst = PorterStemmer()
lst = LancasterStemmer() # Mais agressivo

print('Resultados dos Stemmers:')
for token in regexp_tokenize(sentences[0], pattern='\w+'):
	print(f"{token} ----- {pst.stem(token)} ----- {lst.stem(token)} ")

Resultados dos Stemmers:
We ----- we ----- we 
are ----- are ----- ar 
seeking ----- seek ----- seek 
developers ----- develop ----- develop 
with ----- with ----- with 
demonstrable ----- demonstr ----- demonst 
experience ----- experi ----- expery 
in ----- in ----- in 
ASP ----- asp ----- asp 
NET ----- net ----- net 
C ----- c ----- c 
SQL ----- sql ----- sql 
Server ----- server ----- serv 
and ----- and ----- and 
AngularJS ----- angularj ----- angulars 


<h3>Executando a Lemmatização</h3>
Lematização é um processo mais metódico de converter palavras em sua base. Enquanto stemming geralmente apenas corta as extremidades das palavras, a lematização leva em consideração a análise morfológica das palavras, avaliando o contexto e a parte do discurso para determinar a forma flexionada e toma uma decisão entre diferentes regras para determinar a raiz.

In [27]:
from nltk.stem import PorterStemmer
from nltk.stem.lancaster import LancasterStemmer
from nltk.stem import WordNetLemmatizer
pst = PorterStemmer()
lst = LancasterStemmer()
wnl = WordNetLemmatizer()

print("Stemming / lemmatization results")
for token in regexp_tokenize(sentences[0], pattern='\w+'):
    print(token, pst.stem(token), lst.stem(token), wnl.lemmatize(token))

Stemming / lemmatization results
We we we We
are are ar are
seeking seek seek seeking
developers develop develop developer
with with with with
demonstrable demonstr demonst demonstrable
experience experi expery experience
in in in in
ASP asp asp ASP
NET net net NET
C c c C
SQL sql sql SQL
Server server serv Server
and and and and
AngularJS angularj angulars AngularJS


<h3>Determinando e removendo StopWords</h3>

Palavras de parada são palavras comuns que, em uma situação de processamento de linguagem natural, não fornecem muito significado contextual. Essas palavras são geralmente as palavras mais comuns em um idioma. Estes tendem a, pelo menos em inglês, ser artigos e pronomes, como I, me, the, is, which, who, at, entre outros.

In [28]:
from nltk.corpus import stopwords
stoplist = stopwords.words('english')

len(stoplist) # Tamanho da StopList (179)

179

In [29]:
print(stoplist[:20])

['i', 'me', 'my', 'myself', 'we', 'our', 'ours', 'ourselves', 'you', "you're", "you've", "you'll", "you'd", 'your', 'yours', 'yourself', 'yourselves', 'he', 'him', 'his']


In [30]:
# Removendo as Stopwords da primeira sentença

from nltk.tokenize import sent_tokenize
from nltk.tokenize import regexp_tokenize
from nltk.corpus import stopwords

with open('sentence1.txt', 'r') as myfile:
	data = myfile.read().replace('\n', '')

sentences = sent_tokenize(data)
first_sentence = sentences[0]
print("Original Sentence:")
print(first_sentence)

Original Sentence:
We are seeking developers with demonstrable experience in: ASP.NET, C#, SQL Server, and AngularJS.


In [31]:
tokenized = regexp_tokenize(first_sentence,'\w+')
print(f"Tokenized: {tokenized}")

Tokenized: ['We', 'are', 'seeking', 'developers', 'with', 'demonstrable', 'experience', 'in', 'ASP', 'NET', 'C', 'SQL', 'Server', 'and', 'AngularJS']


In [32]:
# Removendo as StopWords
stoplist = stopwords.words("english")
cleaned = [word for word in tokenized if word not in stoplist]
print(f"Cleaned: {cleaned}")

Cleaned: ['We', 'seeking', 'developers', 'demonstrable', 'experience', 'ASP', 'NET', 'C', 'SQL', 'Server', 'AngularJS']


<h3>Calculando a distribuição de frequência das palavras</h3>

Uma distribuição de frequência conta o número de ocorrências de valores de dados distintos. Eles são valiosos, pois podemos usá-los para determinar quais palavras ou frases dentro de um documento são mais comuns e, a partir disso, inferir aquelas que têm maior ou menor valor.
 As distribuições de frequência podem ser calculadas usando várias técnicas diferentes. Vamos examiná-los usando as facilidades incorporadas ao NLTK.

In [33]:
from nltk.probability import FreqDist
from nltk.tokenize import regexp_tokenize
from nltk.corpus import stopwords

# Usando o FreqDist para criar a distribuição dada uma lista

with open('wotw.txt', 'r') as file:
	data = file.read()
tokens = [word.lower() for word in regexp_tokenize(data,'\w+')]
stoplist = stopwords.words('english')
without_stops = [word for word in tokens if word not in stoplist]

# Calculando a Frequência de Distribuição com FreqDist

freq_dist = FreqDist(without_stops) # Criando um dicionário

print(f"Número de Palavras: {len(freq_dist)}")
for key in freq_dist.keys():
	print(key, freq_dist[key])

Número de Palavras: 6613
shall 8
dwell 1
worlds 2
inhabited 1
lords 1
world 26
things 64
made 73
man 126
kepler 1
quoted 1
anatomy 2
melancholy 2
book 4
one 201
coming 38
martians 164
chapter 29
eve 1
war 13
would 102
believed 8
last 69
years 11
nineteenth 4
century 6
watched 16
keenly 2
closely 6
intelligences 2
greater 10
yet 37
mortal 1
men 110
busied 5
various 2
concerns 2
scrutinised 1
studied 1
perhaps 34
almost 42
narrowly 5
microscope 2
might 53
scrutinise 1
transient 2
creatures 20
swarm 5
multiply 1
drop 4
water 81
infinite 5
complacency 1
went 99
fro 22
globe 1
little 112
affairs 4
serene 2
assurance 4
empire 2
matter 17
possible 20
infusoria 1
gave 24
thought 47
older 3
space 19
sources 1
human 34
danger 17
dismiss 2
idea 23
life 32
upon 172
impossible 8
improbable 2
curious 15
recall 7
mental 5
habits 5
departed 1
days 36
terrestrial 12
fancied 6
mars 43
inferior 4
ready 11
welcome 1
missionary 1
enterprise 3
across 96
gulf 4
minds 9
beasts 4
perish 1
intellects 2
vast 16


In [34]:
# Imprimindo as mais comuns
print(freq_dist.most_common(10))

[('one', 201), ('upon', 172), ('said', 166), ('martians', 164), ('people', 159), ('came', 151), ('towards', 129), ('saw', 129), ('man', 126), ('time', 122)]


In [35]:
# Identificando as menos comuns
print(freq_dist.most_common()[-10:])

[('bitten', 1), ('gibber', 1), ('fiercer', 1), ('paler', 1), ('uglier', 1), ('distortions', 1), ('haunting', 1), ('mockery', 1), ('beds', 1), ('seers', 1)]


In [36]:
# Existem algumas palavras com apenas uma ocorrência, portanto, isso obtém apenas um subconjunto desses valores. O número de palavras com apenas uma ocorrência pode ser determinado pelo seguinte (truncado devido a haver 3.224 palavras)

dist_1 = [item[0] for item in freq_dist.items() if item[1]==1]
print(len(dist_1), dist_1)

3224 ['dwell', 'inhabited', 'lords', 'kepler', 'quoted', 'eve', 'mortal', 'scrutinised', 'studied', 'scrutinise', 'multiply', 'complacency', 'globe', 'infusoria', 'sources', 'departed', 'welcome', 'missionary', 'perish', 'unsympathetic', 'envious', 'twentieth', 'disillusionment', 'remind', 'revolves', '140', 'receives', 'nebular', 'hypothesis', 'truth', 'molten', 'accelerated', 'vanity', 'expressed', 'generally', 'superficial', 'follows', 'secular', 'someday', 'largely', 'equatorial', 'approaches', 'coldest', 'winter', 'oceans', 'shrunk', 'seasons', 'snowcaps', 'melt', 'inundate', 'temperate', 'zones', 'stage', 'exhaustion', 'brightened', 'hearts', '35', 'warmer', 'fertility', 'glimpses', 'populous', 'navy', 'seas', 'inhabit', 'alien', 'lowly', 'monkeys', 'lemurs', 'admits', 'belief', 'creeps', 'harshly', 'bison', 'races', 'tasmanians', 'waged', 'european', 'immigrants', 'apostles', 'complain', 'warred', 'calculated', 'mathematical', 'schiaparelli', 'bye', 'centuries', 'mapped', '1894'

<h3>Identificando e removendo palavras raras</h3>

Podemos remover palavras com baixas ocorrências aproveitando a capacidade de encontrar palavras com baixa contagem de frequência, que estão fora de um certo desvio da norma, ou apenas de uma lista de palavras consideradas raras dentro de um determinado domínio. Mas a técnica que usaremos funciona da mesma forma para ambos.

Palavras raras podem ser removidas criando uma lista dessas palavras raras e, em seguida, removendo-as do conjunto de tokens que estão sendo processados. A lista de palavras raras pode ser determinada usando a distribuição de frequência fornecida pelo NTLK. Então você decide qual limite deve ser usado como um limite de palavra rara

In [37]:
with open('wotw.txt', 'r') as file:
    data = file.read()
tokens = [word.lower() for word in regexp_tokenize(data,'\w+')]
stoplist = stopwords.words('english')
without_stops = [word for word in tokens if word not in stoplist]

freq_dist = FreqDist(without_stops)
print(f"Número de palavras: {len(freq_dist)}")
# Todas as palavras com uma ocorrência
distr = [item[0] for item in freq_dist.items() if item[1] <=2]
print(len(distr))

not_rare = [word for word in without_stops if word not in distr]

freq_dist2 = FreqDist(not_rare)
print(len(freq_dist2))

Número de palavras: 6613
4361
2252


<h3>Identificando e removendo palavras raras</h3>

A remoção de palavras curtas também pode ser útil para remover palavras de ruído do conteúdo. O seguinte examina a remoção de palavras de um determinado comprimento ou menor. Também demonstra o contrário selecionando as palavras não consideradas curtas (com um comprimento maior do que o comprimento de palavra curto especificado).

Podemos aproveitar a distribuição de frequência do NLTK para calcular com eficiência as palavras curtas. Poderíamos apenas escanear todas as palavras na fonte, mas é simplesmente mais eficiente escanear os comprimentos de todas as chaves na distribuição resultante, pois será um conjunto de dados significativamente menor:

In [38]:
short_word_len = 3
short_words = [word for word in freq_dist.keys() if len(word) <= short_word_len]
print(f"Distinct # of words of len <= {short_word_len}: {len(short_words)}")

Distinct # of words of len <= 3: 184


In [39]:
# A lógica pode ser alterada só mudando o operador

unshort_words = [word for word in freq_dist.keys() if len(word) > short_word_len]
print(f"Distinct # of words of len > {short_word_len}: {len(unshort_words)}")

Distinct # of words of len > 3: 6429


<h3>Removendo sinais de pontuação</h3>

Dependendo do tokenizer usado e da entrada para esses tokenizers, pode ser desejado remover a pontuação da lista de tokens resultante. A função `regexp_tokenize` com '`\w+`' como a expressão remove bem a pontuação, mas `word_tokenize` não o faz muito bem e retornará muitos sinais de pontuação como seus próprios tokens.

A remoção de sinais de pontuação de nossos tokens é feita de maneira semelhante à remoção de outras palavras em nossos tokens usando uma compreensão de lista e selecionando apenas os itens que não são sinais de pontuação.

In [40]:
content = "Strong programming experience in C#, ASP.NET/MVC, JavaScript/jQuery and SQL Server"
tokenized = word_tokenize(content)
stoplist = stopwords.words('english')
cleaned = [word for word in tokenized if word not in stoplist]
print(cleaned)

['Strong', 'programming', 'experience', 'C', '#', ',', 'ASP.NET/MVC', ',', 'JavaScript/jQuery', 'SQL', 'Server']


In [41]:
# Removendo a pontuação
punctuation_marks = [':', ',', '.', "``", "''", '(', ')', '-','!', '#']
tokens_cleaned = [word for word in cleaned if word not in punctuation_marks]
print(tokens_cleaned)

['Strong', 'programming', 'experience', 'C', 'ASP.NET/MVC', 'JavaScript/jQuery', 'SQL', 'Server']


<h3>Juntando n-gramas</h3>

Muito tem sido escrito sobre o uso do NLTK para identificar n-gramas no texto. Um n-gram é um conjunto de palavras, n palavras de comprimento, que são comuns dentro de um documento/corpus (ocorrendo 2 ou mais vezes). Um grama de 2 gramas são quaisquer duas palavras comumente repetidas, um grama de 3 gramas é uma frase de três palavras e assim por diante.

In [42]:
from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords

with open('job-snippet.txt', 'r') as file:
	data = file.read()

tokens = [word.lower() for word in word_tokenize(data)]
stoplist = stopwords.words('english')
without_stops = [word for word in tokens if word not in stoplist]
print(without_stops)

['seeking', 'developers', 'demonstrable', 'experience', ':', 'asp.net', ',', 'c', '#', ',', 'sql', 'server', ',', 'angularjs', '.', 'fast-paced', ',', 'highly', 'iterative', 'team', 'adapt', 'quickly', 'factory', 'grows', '.']


In [43]:
grams = {
    "c": [{"#": ""}],
    "sql": [{"server": " "}],
    "fast": [{"paced": "-"}],
    "highly": [{"iterative": " "}],
    "adapt": [{"quickly": " "}],
    "demonstrable": [{"experience", " "}]
}

def build_2grams(tokens, patterns):
    results = []
    left_token = None
    for i, t in enumerate(tokens):
        right_token = t
        if right_token.lower() == "web":
            pass
        if left_token is None:
            left_token = t
            continue



        if left_token.lower() in patterns:
            right = patterns[left_token.lower()]
            if right_token.lower() in right:
                results.append(left_token + right[right_token.lower()] + right_token)
                left_token = None
            else:
                results.append(left_token)
                left_token = right_token
        else:
            results.append(left_token)
            left_token = right_token

    if left_token is not None:
        results.append(left_token)
    return results

In [44]:
grams = {
    'c': {'#': ''}
}
print(build_2grams(['C'], grams))
print(build_2grams(['#'], grams))
print(build_2grams(['C', '#'], grams))
print(build_2grams(['c', '#'], grams))

['C']
['#']
['C#']
['c#']


In [45]:
grams = {
    "c": {"#": ""},
    "sql": {"server": " "},
    "fast": {"paced": "-"},
    "highly": {"iterative": " "},
    "adapt": {"quickly": " "},
    "demonstrable": {"experience": " "},
    "full": {"stack": " "},
    "enterprise": {"software": " "},
    "bachelor": {"s": "'"},
    "computer": {"science": " "},
    "data": {"science": " "},
    "current": {"trends": " "},
    "real": {"world": " "},
    "paid": {"relocation": " "},
    "web": {"server": " "},
    "relational": {"database": " "},
    "no": {"sql": " "}
}
def remove_punctuation(tokens):
    punctuation = [':', ',', '.', "``", "''", '(', ')', '-', '!', '#', '&', '/', '\\', ';', '?']
    return [token for token in tokens if token not in punctuation]


with open('job-snippet.txt', 'r') as file:
    data = file.read()
tokens = word_tokenize(data)
stoplist = stopwords.words('english')
without_stops = [word for word in tokens if word not in stoplist]
result = remove_punctuation(build_2grams(without_stops, grams))
print(result)

['We', 'seeking', 'developers', 'demonstrable experience', 'ASP.NET', 'C#', 'SQL Server', 'AngularJS', 'We', 'fast-paced', 'highly iterative', 'team', 'adapt quickly', 'factory', 'grows']


<h3>Scraping uma lista de emprego da StackOverflow</h3>

In [46]:
from bs4 import BeautifulSoup
import json

# Carregando a página
with open('spacex-job-listing.html', 'r', encoding='utf-8') as file:
	content = file.read()

bs = BeautifulSoup(content,'lxml')
script_tag = bs.find('script', {"type": "application/ld+json"})

job_listing_contents = json.loads(script_tag.contents[0])
print(job_listing_contents)

{'@context': 'http://schema.org', '@type': 'JobPosting', 'title': 'SpaceX Enterprise Software Engineer, Full Stack', 'skills': ['c#', 'sql', 'javascript', 'asp.net', 'angularjs'], 'description': '<h2>About this job</h2>\r\n<p><span>Location options: <strong>Paid relocation</strong></span><br/><span>Job type: <strong>Permanent</strong></span><br/><span>Experience level: <strong>Mid-Level, Senior</strong></span><br/><span>Role: <strong>Full Stack Developer</strong></span><br/><span>Industry: <strong>Aerospace, Information Technology, Web Development</strong></span><br/><span>Company size: <strong>1k-5k people</strong></span><br/><span>Company type: <strong>Private</strong></span><br/></p><br/><br/><h2>Technologies</h2> <p>c#, sql, javascript, asp.net, angularjs</p> <br/><br/><h2>Job description</h2> <p><strong>Full Stack Enterprise&nbsp;Software Engineer</strong></p>\r\n<p>The EIS (Enterprise Information Systems) team writes the software that builds rockets and powers SpaceX. We are resp

In [47]:
# print the skills
for skill in job_listing_contents["skills"]:
    print(skill)

c#
sql
javascript
asp.net
angularjs


<h3>Lendo e limpando a descrição na lista de empregos</h3>

A descrição da lista de empregos ainda está em HTML. Queremos extrair o conteúdo valioso desses dados, portanto, precisaremos analisar esse HTML e executar tokenização, interromper a remoção de palavras, remoção de palavras comuns, fazer algum processamento técnico de 2-gram e, em geral, todos esses processos diferentes.

In [48]:
desc_bs = BeautifulSoup(job_listing_contents["description"],
                        "lxml")
print(desc_bs.prettify())

<html>
 <body>
  <h2>
   About this job
  </h2>
  <p>
   <span>
    Location options:
    <strong>
     Paid relocation
    </strong>
   </span>
   <br/>
   <span>
    Job type:
    <strong>
     Permanent
    </strong>
   </span>
   <br/>
   <span>
    Experience level:
    <strong>
     Mid-Level, Senior
    </strong>
   </span>
   <br/>
   <span>
    Role:
    <strong>
     Full Stack Developer
    </strong>
   </span>
   <br/>
   <span>
    Industry:
    <strong>
     Aerospace, Information Technology, Web Development
    </strong>
   </span>
   <br/>
   <span>
    Company size:
    <strong>
     1k-5k people
    </strong>
   </span>
   <br/>
   <span>
    Company type:
    <strong>
     Private
    </strong>
   </span>
   <br/>
  </p>
  <br/>
  <br/>
  <h2>
   Technologies
  </h2>
  <p>
   c#, sql, javascript, asp.net, angularjs
  </p>
  <br/>
  <br/>
  <h2>
   Job description
  </h2>
  <p>
   <strong>
    Full Stack Enterprise Software Engineer
   </strong>
  </p>
  <p>
   The EI

In [49]:
# Removendo as Tags e deixando somente o texto

just_text = desc_bs.findAll(text=True)
print(just_text)

['About this job', '\n', 'Location options: ', 'Paid relocation', 'Job type: ', 'Permanent', 'Experience level: ', 'Mid-Level, Senior', 'Role: ', 'Full Stack Developer', 'Industry: ', 'Aerospace, Information Technology, Web Development', 'Company size: ', '1k-5k people', 'Company type: ', 'Private', 'Technologies', ' ', 'c#, sql, javascript, asp.net, angularjs', ' ', 'Job description', ' ', 'Full Stack Enterprise\xa0Software Engineer', '\n', 'The EIS (Enterprise Information Systems) team writes the software that builds rockets and powers SpaceX. We are responsible for all of the software on the factory floor, the warehouses, the financial systems, the restaurant, and even the public home page. Elon has called us the "nervous system" of SpaceX because we connect all of the other teams at SpaceX to ensure that the entire rocket building process runs smoothly.', '\n', 'Responsibilities:', '\n', '\n', 'We are seeking developers with demonstrable experience in: ASP.NET, C#, SQL Server, and 

In [50]:
def tech_2grams(tokens):
    grams = {
        "c": {"#": ""},
        "sql": {"server": " "},
        "fast": {"paced": "-"},
        "highly": {"iterative": " "},
        "adapt": {"quickly": " "},
        "demonstrable": {"experience": " "},
        "full": {"stack": "-"},
        "enterprise": {"software": " "},
        "bachelor": {"s": "'"},
        "computer": {"science": " "},
        "data": {"science":  " "},
        "current": {"trends": " "},
        "real": {"world": "-"},
        "paid": {"relocation": " "},
        "web": {"server": " ", "development": " ", "technologies": " "},
        "relational": {"database": " "},
        "no": {"sql": " "},
        "client": {"side": "-"},
        "continuous": {
            "monitoring": " ",
            "integration": " ",
            "delivery": " "
        },
        "low": {"level": "-"},
        "information": {"technology": " "}
    }

    return build_2grams(tokens, grams)

In [51]:
# Agora que estamos só com o texto. Iremos juntá-los para deixar uma sentença única.
joined = ' '.join(just_text)
tokens = word_tokenize(joined)

stoplist = stopwords.words('english')
with_no_stops = [word for word in tokens if word not in stoplist]
two_grammed = tech_2grams(with_no_stops)
cleaned = remove_punctuation(two_grammed)
print(cleaned)


['About', 'job', 'Location', 'options', 'Paid relocation', 'Job', 'type', 'Permanent', 'Experience', 'level', 'Mid-Level', 'Senior', 'Role', 'Full-Stack', 'Developer', 'Industry', 'Aerospace', 'Information Technology', 'Web Development', 'Company', 'size', '1k-5k', 'people', 'Company', 'type', 'Private', 'Technologies', 'c#', 'sql', 'javascript', 'asp.net', 'angularjs', 'Job', 'description', 'Full-Stack', 'Enterprise Software', 'Engineer', 'The', 'EIS', 'Enterprise', 'Information', 'Systems', 'team', 'writes', 'software', 'builds', 'rockets', 'powers', 'SpaceX', 'We', 'responsible', 'software', 'factory', 'floor', 'warehouses', 'financial', 'systems', 'restaurant', 'even', 'public', 'home', 'page', 'Elon', 'called', 'us', 'nervous', 'system', 'SpaceX', 'connect', 'teams', 'SpaceX', 'ensure', 'entire', 'rocket', 'building', 'process', 'runs', 'smoothly', 'Responsibilities', 'We', 'seeking', 'developers', 'demonstrable experience', 'ASP.NET', 'C#', 'SQL Server', 'AngularJS', 'We', 'fast-