In [1]:
import re

In [2]:
import nltk

In [3]:
import string

In [4]:
texto_original = """A inteligência artificial é a inteligência similar à humana.
Definem como o estudo de agente artificial com inteligência.
Ciência e engenharia de produzir máquinas com inteligência.
Resolver problemas e possuir inteligência.
Relacionada ao comportamento inteligente.
Construção de máquinas para raciocinar.
Aprender com os erros e acertos.
Inteligência artificial é raciocinar nas situações do cotidiano."""

In [5]:
texto_original

'A inteligência artificial é a inteligência similar à humana.\nDefinem como o estudo de agente artificial com inteligência.\nCiência e engenharia de produzir máquinas com inteligência.\nResolver problemas e possuir inteligência.\nRelacionada ao comportamento inteligente.\nConstrução de máquinas para raciocinar.\nAprender com os erros e acertos.\nInteligência artificial é raciocinar nas situações do cotidiano.'

In [6]:
texto_original = re.sub(r'\s+', ' ', texto_original)

* re: Este é o módulo Python para operações com expressões regulares.
* .sub(): Esta é a função que realiza a substituição.
* r'\s+': Este é o padrão de expressão regular a ser substituído. No contexto das expressões regulares, \s corresponde a qualquer caractere de espaço em branco (espaço, tabulação, quebra de linha, etc.), e o + indica que o padrão \s deve aparecer uma ou mais vezes consecutivas.
* ' ': Este é o padrão de substituição. Neste caso, é um único espaço em branco.
* texto_original: Esta é a string original na qual a substituição será feita.
Então, resumindo, o trecho re.sub(r'\s+', ' ', texto_original) está substituindo qualquer sequência contínua de espaços em branco na string texto_original por um único espaço em branco. Isso é útil para normalizar a formatação do texto, removendo espaços extras e garantindo que haja apenas um espaço entre as palavras.

In [7]:
texto_original

'A inteligência artificial é a inteligência similar à humana. Definem como o estudo de agente artificial com inteligência. Ciência e engenharia de produzir máquinas com inteligência. Resolver problemas e possuir inteligência. Relacionada ao comportamento inteligente. Construção de máquinas para raciocinar. Aprender com os erros e acertos. Inteligência artificial é raciocinar nas situações do cotidiano.'

In [8]:
nltk.download('punkt')

[nltk_data] Downloading package punkt to /home/d/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.


True

In [9]:
nltk.download('stopwords')

[nltk_data] Downloading package stopwords to /home/d/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.


True

In [10]:
stopwords = nltk.corpus.stopwords.words('portuguese')

In [11]:
print(stopwords)

['a', 'à', 'ao', 'aos', 'aquela', 'aquelas', 'aquele', 'aqueles', 'aquilo', 'as', 'às', 'até', 'com', 'como', 'da', 'das', 'de', 'dela', 'delas', 'dele', 'deles', 'depois', 'do', 'dos', 'e', 'é', 'ela', 'elas', 'ele', 'eles', 'em', 'entre', 'era', 'eram', 'éramos', 'essa', 'essas', 'esse', 'esses', 'esta', 'está', 'estamos', 'estão', 'estar', 'estas', 'estava', 'estavam', 'estávamos', 'este', 'esteja', 'estejam', 'estejamos', 'estes', 'esteve', 'estive', 'estivemos', 'estiver', 'estivera', 'estiveram', 'estivéramos', 'estiverem', 'estivermos', 'estivesse', 'estivessem', 'estivéssemos', 'estou', 'eu', 'foi', 'fomos', 'for', 'fora', 'foram', 'fôramos', 'forem', 'formos', 'fosse', 'fossem', 'fôssemos', 'fui', 'há', 'haja', 'hajam', 'hajamos', 'hão', 'havemos', 'haver', 'hei', 'houve', 'houvemos', 'houver', 'houvera', 'houverá', 'houveram', 'houvéramos', 'houverão', 'houverei', 'houverem', 'houveremos', 'houveria', 'houveriam', 'houveríamos', 'houvermos', 'houvesse', 'houvessem', 'houvésse

In [12]:
len(stopwords)

207

In [13]:
string.punctuation

'!"#$%&\'()*+,-./:;<=>?@[\\]^_`{|}~'

In [14]:
def preprocessamento(texto):
    texto_formatado = texto.lower()
    tokens = []
    for token in nltk.word_tokenize(texto_formatado):
        tokens.append(token)

    tokens = [palavra for palavra in tokens if palavra not in stopwords and palavra not in string.punctuation ]
    texto_formatado = ' '.join([str(elemento) for elemento in tokens])

    return texto_formatado

In [15]:
texto_formatado = preprocessamento(texto_original)

In [16]:
texto_formatado

'inteligência artificial inteligência similar humana definem estudo agente artificial inteligência ciência engenharia produzir máquinas inteligência resolver problemas possuir inteligência relacionada comportamento inteligente construção máquinas raciocinar aprender erros acertos inteligência artificial raciocinar situações cotidiano'

In [18]:
frequencia_palavras = nltk.FreqDist(texto_formatado)

## Frequência das palavras

In [19]:
frequencia_palavras

FreqDist({'i': 47, 'a': 34, ' ': 32, 'n': 29, 'e': 26, 'r': 23, 'c': 20, 't': 19, 'o': 17, 'l': 14, ...})

In [20]:
frequencia_palavras = nltk.FreqDist(nltk.word_tokenize(texto_formatado))

In [21]:
frequencia_palavras

FreqDist({'inteligência': 6, 'artificial': 3, 'máquinas': 2, 'raciocinar': 2, 'similar': 1, 'humana': 1, 'definem': 1, 'estudo': 1, 'agente': 1, 'ciência': 1, ...})

In [22]:
frequencia_palavras['máquinas']

2

In [23]:
frequencia_palavras.keys()

dict_keys(['inteligência', 'artificial', 'similar', 'humana', 'definem', 'estudo', 'agente', 'ciência', 'engenharia', 'produzir', 'máquinas', 'resolver', 'problemas', 'possuir', 'relacionada', 'comportamento', 'inteligente', 'construção', 'raciocinar', 'aprender', 'erros', 'acertos', 'situações', 'cotidiano'])

## Frequência proporcional das palavras

In [24]:
frequencia_maxima = max(frequencia_palavras.values())

In [25]:
frequencia_maxima

6

In [28]:
for palavra in frequencia_palavras.keys():
    frequencia_palavras[palavra] = (frequencia_palavras[palavra] / frequencia_maxima)

In [29]:
frequencia_palavras

FreqDist({'inteligência': 1.0, 'artificial': 0.5, 'máquinas': 0.3333333333333333, 'raciocinar': 0.3333333333333333, 'similar': 0.16666666666666666, 'humana': 0.16666666666666666, 'definem': 0.16666666666666666, 'estudo': 0.16666666666666666, 'agente': 0.16666666666666666, 'ciência': 0.16666666666666666, ...})