# **Dados:**

 **Aluno(a):** `Adicione seu nome aqui`

 **Matrícula:** `Adicione sua matrícula aqui`

# Objetivo:

Nesse laboratório, você extrairá um romance de um arquivo HTML retirado do site Projeto Gutenberg (que contém um grande corpus de livros) usando o pacote de requisições do Python. Em seguida, você normalizará e tokenizará o texto. Você também irá analisar a distribuição de palavras. Ao final você deverá simular a execução do algoritmo BPE (Byte-Pair Encoding) e calcular a distância de edição entre duas palavras.

# **Bibliotecas**

In [5]:
import requests
from bs4 import BeautifulSoup
import nltk
from nltk.corpus import stopwords
from nltk.stem import PorterStemmer, WordNetLemmatizer
from nltk.tokenize import RegexpTokenizer

nltk.download('stopwords')
nltk.download('wordnet')

[nltk_data] Downloading package stopwords to
[nltk_data]     /home/orlandojunior/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package wordnet to
[nltk_data]     /home/orlandojunior/nltk_data...
[nltk_data]   Package wordnet is already up-to-date!


True

# **Obtenção dos dados**

Para a atividade desse laborátorio, iremos utilizar dados textuais oriundos do **[Project Gutenberg](https://www.gutenberg.org/)**. O texto escolhido é a obra Moby Dick.

In [2]:
#Endereço do texto
r = requests.get("https://www.gutenberg.org/files/2701/2701-h/2701-h.htm")

r.encoding = 'utf-8'

html = r.text

print(html[0:2000])

<!DOCTYPE html>
<html lang="en">
<head>
  <meta charset="utf-8">
<title>Moby Dick; or The Whale</title>

<style>

    body {margin-left:10%; margin-right:10%; text-align:justify }
    p { text-indent: 1em; margin-top: .25em; margin-bottom: .25em; }
    H1,H2,H3,H4,H5,H6 { text-align: center; margin-left: 15%; margin-right: 15%; }
    hr  { width: 50%; text-align: center;}
    blockquote {font-size: 100%; margin-left: 0%; margin-right: 0%;}
    .mynote    {background-color: #DDE; color: #000; padding: .5em; margin-left: 10%; margin-right: 10%; font-family: sans-serif; font-size: 95%;}
    .toc       { margin-left: 10%; margin-bottom: .75em;}
    pre        { font-family: times new roman; font-size: 100%; margin-left: 10%;}

    table      {margin-left: 10%;}

a:link {color:blue;
		text-decoration:none}
link {color:blue;
		text-decoration:none}
a:visited {color:blue;
		text-decoration:none}
a:hover {color:red}

</style>
  </head>
  <body>
<div>*** START OF THE PROJECT GUTENBERG EBOOK 270

In [3]:
# Exibir o livro
soup = BeautifulSoup(html, 'html.parser')

text = soup.get_text()

print(text[32000:34000])

h her surf.
      Right and left, the streets take you waterward. Its extreme downtown is
      the battery, where that noble mole is washed by waves, and cooled by
      breezes, which a few hours previous were out of sight of land. Look at the
      crowds of water-gazers there.
    

      Circumambulate the city of a dreamy Sabbath afternoon. Go from Corlears
      Hook to Coenties Slip, and from thence, by Whitehall, northward. What do
      you see?—Posted like silent sentinels all around the town, stand
      thousands upon thousands of mortal men fixed in ocean reveries. Some
      leaning against the spiles; some seated upon the pier-heads; some looking
      over the bulwarks of ships from China; some high aloft in the rigging, as
      if striving to get a still better seaward peep. But these are all
      landsmen; of week days pent up in lath and plaster—tied to counters,
      nailed to benches, clinched to desks. How then is this? Are the green
      fields gone? What do

# **Pré-Processamento**
O resultado de cada uma das etapas a seguir **deve ser utilizada como entrada para as etapas posteriores!!!**

In [4]:
#Inicialmente normalize o texto, tornando-o completamente minúsculo. Você pode fazer isso usando a função lower() da classe string.
def normalizar(texto):
    return texto.lower()

texto_normalizado = normalizar(text)
print(texto_normalizado[0:50])





moby dick; or the whale



*** start of the pr


In [6]:
# Tokenize o texto considerando apenas palavras que possuem caracteres alpha-numéricos. Você pode fazer isso com expressões regulares e a biblioteca nltk.tokenize.RegexpTokenizer() passando seu padrão ou re.find()
def tokenizar(texto):
   return RegexpTokenizer(r'(\w+)').tokenize(texto)

tokens = tokenizar(texto_normalizado)

print(f"Número de tokens: {len(tokens)}")
print("Primeiros 20 tokens:", tokens[:20])

Número de tokens: 219426
Primeiros 20 tokens: ['moby', 'dick', 'or', 'the', 'whale', 'start', 'of', 'the', 'project', 'gutenberg', 'ebook', '2701', 'moby', 'dick', 'or', 'the', 'whale', 'by', 'herman', 'melville']


In [8]:
# Implemente o código para remover tokens que possuem tamanho maior que 15 e menor que 2. Você pode fazer isso usando a função len() para verificar o tamanho das palavras
def remove_palavras_pequenas_grandes(tokens):
    return [token for token in tokens if len(token) > 1 and len(token) < 15]


process_1 = remove_palavras_pequenas_grandes(tokens)
print(f"Número de tokens: {len(process_1)}")
print("Primeiros 20 tokens:", process_1[:20])

Número de tokens: 210103
Primeiros 20 tokens: ['moby', 'dick', 'or', 'the', 'whale', 'start', 'of', 'the', 'project', 'gutenberg', 'ebook', '2701', 'moby', 'dick', 'or', 'the', 'whale', 'by', 'herman', 'melville']


In [9]:
# Implemente esta função para ela retornar uma lista de tokens sem stopwords. Você pode fazer isso usando a função stopwords.words('english') para encontrar todas as stopwords
def remove_stopwords(tokens):
  return [token for token in tokens if token not in stopwords.words('english')]


process_2 = remove_stopwords(process_1)
print(f"Número de tokens: {len(process_2)}")
print("Primeiros 20 tokens:", process_2[:20])

Número de tokens: 111121
Primeiros 20 tokens: ['moby', 'dick', 'whale', 'start', 'project', 'gutenberg', 'ebook', '2701', 'moby', 'dick', 'whale', 'herman', 'melville', 'contents', 'etymology', 'extracts', 'supplied', 'sub', 'sub', 'librarian']


In [10]:
# Implemente esta função para ela retornar uma lista com os tokens stemmizados. Você pode fazer isso usando a função stem() da classe PorterStemmer e passando para ela a palavra desejada
def stemming(tokens):
  return [PorterStemmer().stem(token) for token in tokens]


process_3 = stemming(process_2)
print(f"Número de tokens: {len(process_3)}")
print("Primeiros 20 tokens:", process_3[:20])

Número de tokens: 111121
Primeiros 20 tokens: ['mobi', 'dick', 'whale', 'start', 'project', 'gutenberg', 'ebook', '2701', 'mobi', 'dick', 'whale', 'herman', 'melvil', 'content', 'etymolog', 'extract', 'suppli', 'sub', 'sub', 'librarian']


In [11]:
# Implemente esta função para ela retornar uma lista com os tokens lematizados. Você pode fazer isso usando a função lemmatize() da classe WordNetLemmatizer e passando para ela a palavra desejada
def lemmatize(texto):
  return [WordNetLemmatizer().lemmatize(token) for token in texto]


process_4 = lemmatize(process_3)
print(f"Número de tokens: {len(process_4)}")
print("Primeiros 20 tokens:", process_4[:20])

Número de tokens: 111121
Primeiros 20 tokens: ['mobi', 'dick', 'whale', 'start', 'project', 'gutenberg', 'ebook', '2701', 'mobi', 'dick', 'whale', 'herman', 'melvil', 'content', 'etymolog', 'extract', 'suppli', 'sub', 'sub', 'librarian']


## **Frequência dos tokens**
Mostre a distribuição das palavras para cada uma das etapas de pré-processamento realizadas. Você pode fazer isso utilizando a função nltk.FreqDist() passando sua lista de palavras

In [12]:
#Frequência das palavras depois de normalizadas e das pequenas serem removidas
nltk.FreqDist(process_1)

FreqDist({'the': 14538, 'of': 6626, 'and': 6447, 'to': 4627, 'in': 4184, 'that': 3085, 'his': 2532, 'it': 2522, 'he': 1897, 'but': 1818, ...})

In [13]:
#Frequência das palavras tokenizadas
nltk.FreqDist(tokens)

FreqDist({'the': 14538, 'of': 6626, 'and': 6447, 'a': 4747, 'to': 4627, 'in': 4184, 'that': 3085, 'his': 2532, 'it': 2522, 'i': 2127, ...})

In [14]:
#Frequência das palavras tokenizadas e com stemming
nltk.FreqDist(process_3)

FreqDist({'whale': 1646, 'one': 943, 'like': 661, 'ship': 625, 'upon': 566, 'ye': 548, 'sea': 542, 'man': 541, 'ahab': 518, 'boat': 484, ...})

In [15]:
#Frequência das palavras tokenizadas, com stemming e lemming
nltk.FreqDist(process_4)

FreqDist({'whale': 1646, 'one': 943, 'like': 661, 'ship': 625, 'upon': 566, 'ye': 548, 'sea': 542, 'man': 541, 'ahab': 518, 'boat': 484, ...})

# Perguntas

1. **Compare o texto original com o texto após a normalização. Quais diferenças você percebe nas palavras e na estrutura geral?**
- Resposta: `aqui`

2. **O que muda na quantidade de tokens ao aplicar a função remove_palavras_pequenas_grandes()? Informe abaixo o total de tokens antes e depois da aplicação da função.**
- Resposta: `aqui`

3. **Existe diferença entre o pré-processamento antes e depois de aplicar lematização e stemming?**
- Resposta: `aqui`

# **Algoritmo Byte-Pair Encoding:**

Considerando as três palavras mais frequentes resultantes da lemmatização (process_4), execute, à mão, o algoritmo BPE para k = 3 e insira abaixo o vocabulário e regras obtidas:



*   vocabulário obtido: `vocabulário aqui`
*   regras obtidas: `regras aqui`













# **Distância de Edição**
Calcule à mão a distância de edição entre as palavras 'while' e 'like' supondo que inserções ou deleções tem custo 1 e uma substituição tem custo 2 quando os caracteres são diferentes e custo 0 quando são iguais.


Insira o valor obtido aqui: `5`
