# 1.COLECCION GUTENBERG

Busque en la colección Gutenberg (https://www.gutenberg.org/) los 3 tomos en español de
“Las mil y una noches” (autor anónimo)

In [93]:
'''Almacenamos las URL de los tomos de
   "Las mil y una noches" en el espacio
   de nombres de Python'''

tomo1 = 'https://www.gutenberg.org/cache/epub/47287/pg47287-images.html'
tomo2 = 'https://www.gutenberg.org/cache/epub/47631/pg47631-images.html'
tomo3 = 'https://www.gutenberg.org/cache/epub/48903/pg48903-images.html'

# 2.WEB SCRAPING

Recupere la información desde las páginas web

Una vez que tenemos las URL de los tres tomos. Debemos obtener el texto, del HTML, del sitio web. 

In [97]:
'''Obtenemos el texto del sitio web de los tres tomos
   Reaizamos una solicitud de los datos usando requests
   y verificamos el tipo de objeto'''

# Importar `requests`
import requests
# Importar Beautiful Soup
from bs4 import BeautifulSoup


def extraerText(URL):
  # Hacer el requests (Solicitud para acceder a los datos)
  r = requests.get(URL)
  # Verificar que el tipo de objeto sea Response
  if type(r) is requests.models.Response:
    # Extraemos HTML del objeto 
    html = r.text
  # Crear un objeto de BeautifulSoup object desde el HTML
  soup = BeautifulSoup(html, "html5lib")
  # imprimir el titulo
  print(soup.title.string)
  # obtener el texto de soup y retornarlo
  text = soup.get_text()
  return (text)

# Extraemos el texto de los tres tomos de "Las mil y una noches"
text1 = extraerText(tomo1)
text2 = extraerText(tomo2)
text3 = extraerText(tomo3)


  The Project Gutenberg eBook of Las mil noches y una noche; t. 1.


  The Project Gutenberg eBook of El libro de las mil noches y una noche; t. 2, by
Anonymous


  The Project Gutenberg eBook of El libro de las mil noches y una noche; t. 3



In [98]:
# Verificamos su dimension
print(f"text1: {len(text1)}")
print(f"text2: {len(text3)}")
print(f"text3: {len(text3)}")

text1: 384458
text2: 321929
text3: 321929


# 3.LIMPIANDO EL TEXTO

Elimine de los textos todo el contenido que no pertenezca a la obra (links, información
sobre el proyecto Gutenberg, índices, caracteres de adorno, líneas en blanco, etc.)

#### **gutenberg-cleaner**: 
Es una libreria para limpiar libros y un conjunto de datos del proyecto Gutenberg
* Consta de dos metodos:
  1. simple_claner: Elimina la parte del encabezado y el pie de la pagina. No profundiza en el texto para eliminar otras cosas como títulos o notas al pie
  `simple_cleaner(libro: str) -> str `
  2. super_cleaner: Puede eliminar algunas buenas líneas también, dependiendo de los tokens minimos de un parrafo que noe sdialogo o cita.
  `super_cleaner(libro: str, min_token: int = 5, max_token: int = 600) -> str `

#### **re**:
Es una libreria para expresiones regulares de python utilizado para especificar las reglas de las cadenas de caracteres posibles que se desea hacer coincidir.

In [48]:
# instalando la libreria gutenberg-cleaner
!pip install gutenberg-cleaner

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/


In [86]:
from gutenberg_cleaner import simple_cleaner, super_cleaner
import re
def limpiarGutemberg(text):
  # --  Eliminando informacion Gutenberg: cabeceras, indices, notas
  text = simple_cleaner(text)
  # -- Eliminando espacios en blanco
  text = text.strip()
  # -- Eliminando lineas en blanco
  text = text.replace('\r', '').replace('\n', '')
  # -- Eliminando enlaces
  text = re.sub(r'''(?i)\b((?:https?://|www\d{0,3}[.]|[a-z0-9.\-]+[.][a-z]{2,4}/)(?:[^\s()<>]+|\(([^\s()<>]+|(\([^\s()<>]+\)))*\))+(?:\(([^\s()<>]+|(\([^\s()<>]+\)))*\)|[^\s`!()\[\]{};:'".,<>?«»“”‘’]))''', " ", text)
  # -- Eliminando simbolos especiales
  text = re.sub(r'[^\w\s]', ' ', text)
  # -- retornando texto limpio
  return text


In [99]:
# Limpiar el texto de los tres tomos de "Las mil y una noches"
text1 = limpiarGutemberg(text1)
text2 = limpiarGutemberg(text2)
text3 = limpiarGutemberg(text3)

In [100]:
# Verificamos su dimension
print(f"text1: {len(text1)}")
print(f"text2: {len(text3)}")
print(f"text3: {len(text3)}")

text1: 372386
text2: 312116
text3: 312116


# 4.TEXT RAW

Junte los tres tomos en un solo texto

In [102]:
# Concatenamos los textos 
text = text1 + text2 + text3
len(text)

1004231

# 5.TOKENIZACION

## MODULOS

Crear los módulos necesarios para:

    a. Recuperar una historia por su título.

    b. Dividir (tokenizar) el texto por historias.

    c. Dividir (tokenizar) el texto por párrafos.

    d. Dividir (tokenizar) el texto por oraciones.

    e. Tokenizar el texto en palabras.

### a. Recuperar una historia por su título.

In [None]:
def RecuperarHistoria(titulo):
  
  return historia

In [109]:
import requests
from bs4 import BeautifulSoup

data = []

# Make a request
tomo1 = 'https://www.gutenberg.org/cache/epub/47287/pg47287-images.html'
page = requests.get(tomo1)
soup = BeautifulSoup(page.content, 'html.parser')

data.append({
    'title': soup.title,
    'chapter': soup.h2.get_text(),
    'text': ' '.join([p.get_text(strip=True) for p in soup.select('body p')[2:]])
    }
)

print(data

FeatureNotFound: ignored

### b. Dividir (tokenizar) el texto por historias.

### c. Dividir (tokenizar) el texto por párrafos.

### d. Dividir (tokenizar) el texto por oraciones.

### e. Tokenizar el texto en palabras.

## PRUEBAS
Realice las pruebas pertinentes de cada módulo

# 6.NORMALIZACION 

## MODULOS

Crear lo siguientes módulos independientes para normalizar un texto:

a. Quitar signos de puntuación

b. Convertir a minúsculas

c. Quitar stop-words

d. Quitar palabras con extensión mínima (valor por defecto del parámetro: 2)

e. Lematizar

f. Eliminar duplicados

### a. Quitar signos de puntuación

### b. Convertir a minúsculas

### c. Quitar stop-words

### d. Quitar palabras con extensión mínima

### e. Lematizar

### f. Eliminar duplicados

## SECUENCIA DE MODULOS

### Secuencia 1
a. Quitar signos de puntuación

b. Convertir a minúsculas

c. Quitar stop-words

d. Quitar palabras con extensión mínima

e. Lematizar

f. Eliminar duplicados

### Secuencia 2
a. Quitar signos de puntuación

b. Convertir a minúsculas

c. Quitar palabras con extensión mínima

d. Quitar stop-words

e. Lematizar

f. Eliminar duplicados

### Secuencia 3
a. Lematizar

b. Quitar signos de puntuación

c. Convertir a minúsculas

d. Quitar stop-words

e. Quitar palabras con extensión mínima

f. Eliminar duplicados

### Secuencia 4
a. Lematizar

b. Quitar signos de puntuación

c. Convertir a minúsculas

d. Quitar stop-words

e. Quitar palabras con extensión mínima

f. Eliminar duplicados

### Secuencia 5
a. Lematizar

b. Quitar signos de puntuación

c. Convertir a minúsculas

d. Quitar stop-words

e. Quitar palabras con extensión mínima

f. Eliminar duplicados

## ANALISIS DE RESULTADOS

## CONCLUSIONES

# 7. CORPUS

Convertir los textos planos (textoRAW) a un corpus propiamente dicho, mediante el uso de
librerías como PlaintextCorpusReader. Comparar los resultados obtenidos con lo

implementado en los puntos 5 y 6 (realizar las pruebas necesarias para la comparación,
explicando adecuadamente la secuencia).