# **Processamento de Linguagem Natural Com Python**

### Bibliotecas

In [1]:
# Libs
import bs4 as bs
import urllib.request
import nltk
import spacy

### Marcação POS
POS (part-of-speech) atribui para as palavras partes da fala, como substantivos, adjetivos, verbos
Importante para a detecção de entidades no texto, pois primeiro é necessário saber o que o texto contém
Lista de tokens: https://spacy.io/api/annotation#pos-tagging
Português: https://www.sketchengine.eu/portuguese-freeling-part-of-speech-tagset/

In [2]:
# Carregando o spacy
spacy.prefer_gpu()
pln = spacy.load("pt_core_news_sm")
pln

<spacy.lang.pt.Portuguese at 0x1dc29658210>

In [3]:
# Verificando o funcionamento
doc = pln(
        'Estou aprendendo processamento de linguagem natural, no curso Inteligência Artificial e Machine Learning: O Guia Completo'
)
type(doc)

spacy.tokens.doc.Doc

In [4]:
# Iterando os tipos 
for token in doc:
    print(token.text, token.pos_)

Estou AUX
aprendendo VERB
processamento NOUN
de ADP
linguagem NOUN
natural ADJ
, PUNCT
no ADP
curso NOUN
Inteligência PROPN
Artificial PROPN
e CCONJ
Machine PROPN
Learning PROPN
: PUNCT
O DET
Guia PROPN
Completo PROPN


### Lematização e stemização

In [5]:
# texto e lema
for token in doc:
    print(token.text, token.lemma_)

Estou estar
aprendendo aprender
processamento processamento
de de
linguagem linguagem
natural natural
, ,
no em o
curso curso
Inteligência Inteligência
Artificial Artificial
e e
Machine Machine
Learning Learning
: :
O o
Guia Guia
Completo Completo


In [6]:
# Baixando o arquivo necessário para a stemização
nltk.download('rslp')

[nltk_data] Downloading package rslp to
[nltk_data]     C:\Users\joaoi\AppData\Roaming\nltk_data...
[nltk_data]   Package rslp is already up-to-date!


True

In [7]:
# Extraído o radical de uma palavra
stemmer = nltk.stem.RSLPStemmer()
stemmer.stem('aprendendo')

'aprend'

In [8]:
# Verificando a diferença 
for token in doc:
    print(token.text, token.lemma_, stemmer.stem(token.text))

Estou estar est
aprendendo aprender aprend
processamento processamento process
de de de
linguagem linguagem lingu
natural natural natur
, , ,
no em o no
curso curso curs
Inteligência Inteligência intelig
Artificial Artificial artific
e e e
Machine Machine machin
Learning Learning learning
: : :
O o o
Guia Guia gui
Completo Completo complet


### Carregamento dos textos

In [9]:
# base de dados
dados = urllib.request.urlopen('https://pt.wikipedia.org/wiki/Intelig%C3%AAncia_artificial')
dados = dados.read()
dados



In [10]:
# Restruturado os dados
dados_html = bs.BeautifulSoup(dados, 'html.parser')
dados_html

<!DOCTYPE html>

<html class="client-nojs vector-feature-language-in-header-enabled vector-feature-language-in-main-page-header-disabled vector-feature-sticky-header-disabled vector-feature-page-tools-pinned-disabled vector-feature-toc-pinned-enabled vector-feature-main-menu-pinned-disabled vector-feature-limited-width-enabled vector-feature-limited-width-content-enabled vector-feature-zebra-design-disabled" dir="ltr" lang="pt">
<head>
<meta charset="utf-8"/>
<title>Inteligência artificial – Wikipédia, a enciclopédia livre</title>
<script>document.documentElement.className="client-js vector-feature-language-in-header-enabled vector-feature-language-in-main-page-header-disabled vector-feature-sticky-header-disabled vector-feature-page-tools-pinned-disabled vector-feature-toc-pinned-enabled vector-feature-main-menu-pinned-disabled vector-feature-limited-width-enabled vector-feature-limited-width-content-enabled vector-feature-zebra-design-disabled";(function(){var cookie=document.cookie.

In [11]:
# Extraindo as tag p
paragrafos = dados_html.find_all('p')
len(paragrafos)

109

In [12]:
# visualizando o texto
paragrafos[1].text

'É um conceito amplo e que recebe tantas definições quanto significados diferentes à palavra inteligência.[3] É possível considerar algumas características básicas desses sistemas, como a capacidade de raciocínio (aplicar regras lógicas a um conjunto de dados disponíveis para chegar a uma conclusão), aprendizagem (aprender com os erros e acertos para que no futuro possa agir de maneira mais eficaz), reconhecer padrões (tanto padrões visuais e sensoriais, como também padrões de comportamento) e inferência (capacidade de conseguir aplicar o raciocínio nas situações do nosso cotidiano).[3]\n'

In [13]:
# extraindo os texto 
conteudo = ''
for p in paragrafos:
    conteudo += p.text

In [14]:
# visualizando o texto completo
conteudo

'Na tecnologia, a Inteligência Artificial (de sigla: IA; do inglês: Artificial Intelligence, de sigla: AI) é a inteligência demonstrada por máquinas ao executar tarefas complexas associadas a seres inteligentes,[1] além de também ser um campo de estudo acadêmico,[2] no qual o principal objetivo é de executar funções de modo autônomo. \nÉ um conceito amplo e que recebe tantas definições quanto significados diferentes à palavra inteligência.[3] É possível considerar algumas características básicas desses sistemas, como a capacidade de raciocínio (aplicar regras lógicas a um conjunto de dados disponíveis para chegar a uma conclusão), aprendizagem (aprender com os erros e acertos para que no futuro possa agir de maneira mais eficaz), reconhecer padrões (tanto padrões visuais e sensoriais, como também padrões de comportamento) e inferência (capacidade de conseguir aplicar o raciocínio nas situações do nosso cotidiano).[3]\nO desenvolvimento da área de estudo começou logo após a Segunda Guer

In [15]:
# Transformando as letras em minusculas 
conteudo = conteudo.lower()
conteudo

'na tecnologia, a inteligência artificial (de sigla: ia; do inglês: artificial intelligence, de sigla: ai) é a inteligência demonstrada por máquinas ao executar tarefas complexas associadas a seres inteligentes,[1] além de também ser um campo de estudo acadêmico,[2] no qual o principal objetivo é de executar funções de modo autônomo. \né um conceito amplo e que recebe tantas definições quanto significados diferentes à palavra inteligência.[3] é possível considerar algumas características básicas desses sistemas, como a capacidade de raciocínio (aplicar regras lógicas a um conjunto de dados disponíveis para chegar a uma conclusão), aprendizagem (aprender com os erros e acertos para que no futuro possa agir de maneira mais eficaz), reconhecer padrões (tanto padrões visuais e sensoriais, como também padrões de comportamento) e inferência (capacidade de conseguir aplicar o raciocínio nas situações do nosso cotidiano).[3]\no desenvolvimento da área de estudo começou logo após a segunda guer