<a href="https://colab.research.google.com/github/RAFS20/Mongo_DB/blob/main/Moby_Dick_en_Mongo_DB.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

Cuaderno de: Ricardo Alonzo Fernández Salguero

# Moby Dick de Gutenberg

## Paso 1: Importar la biblioteca `requests`

Antes de poder realizar una solicitud HTTP para descargar el archivo de texto, debemos importar la biblioteca `requests`. Esta biblioteca nos proporciona funciones y métodos para trabajar con solicitudes y respuestas HTTP en Python.

```python
import requests
```

- **Explicación:**
  - La primera línea del código es una declaración de importación que importa la biblioteca `requests` en nuestro programa Python.
  - Importar esta biblioteca nos permite utilizar sus funciones y métodos para realizar solicitudes HTTP.

## Paso 2: Definir la URL del archivo de texto

A continuación, definimos la URL del archivo de texto de "Moby Dick" en la variable `url`. Esta URL es la ubicación en línea del archivo que queremos descargar.

```python
url = "https://www.gutenberg.org/files/2701/2701-0.txt"
```

- **Explicación:**
  - Aquí, estamos asignando la URL del archivo de texto de "Moby Dick" a la variable `url`.
  - La URL es una cadena de caracteres que contiene la dirección web precisa del archivo que queremos descargar.

## Paso 3: Realizar la solicitud HTTP y almacenar el contenido

El último paso implica utilizar la biblioteca `requests` para realizar una solicitud HTTP GET a la URL que definimos anteriormente, obtener el contenido del archivo y almacenarlo en una variable.

```python
response = requests.get(url)
text = response.text
```

- **Explicación:**
  - `requests.get(url)` es una llamada a la función `get()` de la biblioteca `requests`. Esta función realiza una solicitud HTTP GET a la URL especificada (`url`) y devuelve una respuesta HTTP.
  - La respuesta HTTP contiene toda la información relacionada con la solicitud, incluyendo el contenido del archivo.
  - Almacenamos la respuesta en la variable `response`.

Una vez que tenemos la respuesta HTTP en la variable `response`, podemos acceder al contenido del archivo descargado utilizando `response.text`. Este contenido se almacena en la variable `text`.


# Base de datos de Mongo DB

## Paso 1: Importar la biblioteca `pymongo`

Antes de poder usar `pymongo` para interactuar con MongoDB, primero debemos importar esta biblioteca en nuestro programa Python. La importación se realiza de la siguiente manera:

```python
from pymongo import MongoClient
```

- **Explicación:**
  - La primera línea del código es una declaración de importación que importa la clase `MongoClient` de la biblioteca `pymongo` en nuestro programa Python.
  - Importar esta clase nos permite crear una instancia de cliente de MongoDB que se utilizará para conectarse a la base de datos.

## Paso 2: Establecer una conexión con la base de datos MongoDB

En este paso, se crea una instancia de cliente de MongoDB y se utiliza para establecer una conexión con la base de datos. Esto implica especificar la ubicación del servidor de MongoDB y el puerto al que deseamos conectarnos.

```python
client = MongoClient("mongodb://localhost:27017/")
```

- **Explicación:**
  - En esta línea de código, creamos una instancia de cliente de MongoDB llamada `client`.
  - La URL `"mongodb://localhost:27017/"` se pasa como argumento a `MongoClient()`. Esta URL especifica la ubicación del servidor de MongoDB que deseamos conectar y el puerto en el que MongoDB está escuchando. En este caso, estamos conectándonos a un servidor en la máquina local (`localhost`) en el puerto estándar MongoDB, que es `27017`.

## Paso 3: Seleccionar una base de datos y una colección

Una vez que hemos establecido una conexión con MongoDB, podemos seleccionar una base de datos específica y una colección dentro de esa base de datos para trabajar.

```python
db = client["moby_dick_db"]
collection = db["moby_dick"]
```

- **Explicación:**
  - En esta sección, creamos una variable llamada `db` que representa la base de datos que deseamos utilizar. Le asignamos el nombre `"moby_dick_db"`.
  - Luego, creamos una variable llamada `collection` que representa una colección dentro de la base de datos. Le asignamos el nombre `"moby_dick"`.

Con esto, hemos completado la conexión a la base de datos MongoDB y hemos seleccionado la base de datos `"moby_dick_db"` y la colección `"moby_dick"` en la que podemos almacenar y recuperar datos. Ahora estamos listos para realizar operaciones en esta base de datos, como insertar documentos, consultar datos, actualizar registros, entre otras, utilizando la conexión que hemos establecido.

# Inserta el texto de "Moby Dick" en la base de datos

## Paso 1: Crear un documento JSON

En el primer paso, se crea un documento en formato JSON que contiene información relevante sobre el libro "Moby Dick". Este documento se almacena en la variable `document`.

```python
document = {
    "title": "Moby Dick",
    "author": "Herman Melville",
    "text": text
}
```

- **Explicación:**
  - En esta sección, se crea un diccionario de Python (`{}`) que representa un documento en formato JSON. Los documentos JSON son una forma común de estructurar datos en MongoDB.
  - El documento tiene tres campos clave:
    - `"title"`: Este campo contiene el título del libro, que es "Moby Dick".
    - `"author"`: Este campo contiene el nombre del autor del libro, que es "Herman Melville".
    - `"text"`: Este campo contiene el texto del libro descargado, que se almacena en la variable `text`.

## Paso 2: Insertar el documento en la colección

Una vez que hemos creado el documento JSON, el siguiente paso es insertarlo en una colección específica de la base de datos MongoDB. En este caso, se utiliza el método `insert_one()` para realizar la inserción.

```python
collection.insert_one(document)
```

- **Explicación:**
  - `collection` es la variable que representa una colección dentro de la base de datos MongoDB. En este caso, la colección se llama `"moby_dick"`, y se ha seleccionado previamente como parte de la conexión a la base de datos.
  - El método `insert_one(document)` se utiliza para insertar un único documento en la colección. Se pasa como argumento el documento que hemos creado previamente en el paso 1.
  - Después de ejecutar esta línea de código, el documento se inserta en la colección `"moby_dick"` de la base de datos actual.


#  Realizar análisis de texto

El siguiente código realiza un análisis de texto básico en el contenido de "Moby Dick" almacenado en una base de datos MongoDB. Primero, se tokeniza el texto para dividirlo en palabras, luego se utiliza la clase `Counter` para contar la frecuencia de cada palabra y, finalmente, se imprimen las 10 palabras más frecuentes. Este análisis proporciona información valiosa sobre las palabras clave y la estructura del texto, lo que puede ser útil para una variedad de aplicaciones, como la generación de resúmenes, el análisis de sentimientos y la extracción de información.

## Paso 1: Importar bibliotecas necesarias

En el primer paso, importamos las bibliotecas necesarias para llevar a cabo el análisis de texto. Estas bibliotecas son `collections` y `re`.

```python
from collections import Counter
import re
```

- **Explicación:**
  - `from collections import Counter` importa la clase `Counter` de la biblioteca `collections`. La clase `Counter` se utiliza para contar la frecuencia de elementos en una secuencia.
  - `import re` importa la biblioteca `re`, que proporciona soporte para expresiones regulares. Las expresiones regulares se utilizan para realizar operaciones avanzadas de búsqueda y manipulación de texto.

## Paso 2: Obtener el texto de la base de datos

En este paso, se recupera el texto de "Moby Dick" desde la base de datos MongoDB.

```python
text = collection.find_one({"title": "Moby Dick"})["text"]
```

- **Explicación:**
  - `collection` es la variable que representa la colección de la base de datos MongoDB en la que se almacenó el texto de "Moby Dick".
  - `collection.find_one({"title": "Moby Dick"})` realiza una consulta en la colección para encontrar un documento cuyo campo `"title"` sea igual a `"Moby Dick"`.
  - `[...]` se utiliza para acceder al contenido del campo `"text"` en el documento encontrado y almacenarlo en la variable `text`. Esto extrae el texto de "Moby Dick" de la base de datos.

## Paso 3: Tokenizar el texto en palabras

La tokenización es el proceso de dividir un texto en palabras o tokens individuales. Aquí, utilizamos expresiones regulares para dividir el texto en palabras.

```python
words = re.findall(r'\b\w+\b', text.lower())
```

- **Explicación:**
  - `re.findall(...)` es una función de la biblioteca `re` que busca todas las coincidencias de una expresión regular en una cadena de texto (`text` en este caso).
  - La expresión regular `r'\b\w+\b'` se utiliza para buscar palabras completas en el texto. Explicación detallada de la expresión regular:
    - `\b` indica el inicio o el final de una palabra (un límite de palabra).
    - `\w+` busca una o más letras o dígitos. Esto representa una palabra.
    - Por lo tanto, la expresión regular busca todas las palabras completas en el texto.
  - `text.lower()` convierte todo el texto a minúsculas para asegurarse de que no haya distinción entre mayúsculas y minúsculas al contar las palabras.

## Paso 4: Calcular la frecuencia de palabras

En este paso, utilizamos la clase `Counter` para calcular la frecuencia de cada palabra en el texto tokenizado.

```python
word_freq = Counter(words)
```

- **Explicación:**
  - `Counter(words)` crea un objeto `Counter` llamado `word_freq` que cuenta la frecuencia de cada palabra en la lista `words`. Esto significa que `word_freq` es un diccionario donde las palabras son las claves y las frecuencias son los valores.

## Paso 5: Imprimir las 10 palabras más frecuentes

Finalmente, en este paso, imprimimos las 10 palabras más frecuentes en el texto junto con su frecuencia.

```python
print("Palabras más frecuentes:")
for word, freq in word_freq.most_common(10):
    print(f"{word}: {freq}")
```

- **Explicación:**
  - `word_freq.most_common(10)` es un método de la clase `Counter` que devuelve una lista de las 10 palabras más frecuentes junto con sus frecuencias, en orden descendente.
  - Luego, iteramos a través de esta lista de palabras y frecuencias y las imprimimos en un formato legible.