# MongoDB

PyMongo proporciona una interfaz de programación de aplicaciones (API) que permite a los desarrolladores de Python conectarse a una base de datos MongoDB y realizar una amplia variedad de operaciones, como la inserción, actualización, consulta y eliminación de datos. 

In [2]:
!pip install pymongo

Collecting pymongo
  Obtaining dependency information for pymongo from https://files.pythonhosted.org/packages/4e/50/7e0e838892507d99a6b981824c73617cba567a56a802a518d49e12da77b6/pymongo-4.5.0-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata
  Downloading pymongo-4.5.0-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (22 kB)
Collecting dnspython<3.0.0,>=1.16.0 (from pymongo)
  Obtaining dependency information for dnspython<3.0.0,>=1.16.0 from https://files.pythonhosted.org/packages/f6/b4/0a9bee52c50f226a3cbfb54263d02bb421c7f2adc136520729c2c689c1e5/dnspython-2.4.2-py3-none-any.whl.metadata
  Using cached dnspython-2.4.2-py3-none-any.whl.metadata (4.9 kB)
Using cached pymongo-4.5.0-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (671 kB)
Using cached dnspython-2.4.2-py3-none-any.whl (300 kB)
Installing collected packages: dnspython, pymongo
Successfully installed dnspython-2.4.2 pymongo-4.5.0

[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;

In [1]:
import pymongo

# Conecta a MongoDB (asegúrate de que MongoDB esté en ejecución)
client = pymongo.MongoClient("mongodb://localhost:27017/")
print(client)

# Crea una base de datos llamada "mydatabase"
db = client["mydatabase"]
print(db)

MongoClient(host=['localhost:27017'], document_class=dict, tz_aware=False, connect=True)
Database(MongoClient(host=['localhost:27017'], document_class=dict, tz_aware=False, connect=True), 'mydatabase')


In [2]:
# Crea una colección llamada "mycollection"
collection = db["mycollection"]
print(collection)

Collection(Database(MongoClient(host=['localhost:27017'], document_class=dict, tz_aware=False, connect=True), 'mydatabase'), 'mycollection')


### Crear (Create)

In [5]:
# Insertar un documento en la colección
# insert_one()
data = {"name": "Jorge", "age": 30}
result = collection.insert_one(data)
print(f"Documento insertado con ID: {result.inserted_id}")

Documento insertado con ID: 653fb5257b6f6aa49aae6a29


### Leer (Read)

In [18]:
# Leer todos los documentos en la colección
documents = collection.find()
for docs in documents:
    print(docs)

{'_id': ObjectId('653fb5257b6f6aa49aae6a29'), 'name': 'Jorge', 'age': 30}


In [16]:
from bson.objectid import ObjectId  # Importar ObjectId para trabajar con _id

# Definir el ID del documento que deseas encontrar
document_id = ObjectId("653fb42a7b6f6aa49aae6a28")

# Utilizar find_one para buscar el documento por su ID
doc = collection.find_one({"_id": document_id})
print(doc)

{'_id': ObjectId('653fb42a7b6f6aa49aae6a28'), 'name': 'Ejemplo', 'age': 35}


### Actualizar (Update)

In [14]:
# Actualizar un documento existente
query = {"name": "Ejemplo"}
new_values = {"$set": {"age": 35}}
collection.update_one(query, new_values)

<pymongo.results.UpdateResult at 0x7f16c2f76ad0>

### Eliminar (Delete)

In [17]:
# Eliminar un documento
query = {"name": "Ejemplo"}
collection.delete_one(query)

<pymongo.results.DeleteResult at 0x7f16c2c63d00>

### Crear varios documentos (Create - Many)

In [19]:
# Datos a insertar
data_list = [
    {"name": "Persona1", "age": 25},
    {"name": "Persona2", "age": 30},
    {"name": "Persona3", "age": 35}
]

# Insertar varios documentos en la colección
result = collection.insert_many(data_list)
print(f"Documentos insertados con IDs: {result.inserted_ids}")

Documentos insertados con IDs: [ObjectId('653fb8637b6f6aa49aae6a2a'), ObjectId('653fb8637b6f6aa49aae6a2b'), ObjectId('653fb8637b6f6aa49aae6a2c')]


### Leer varios documentos (Read - Many)

In [25]:
# Leer documentos que cumplen un cierto criterio (por ejemplo, mayores de 30 años)
query = {"age": {"$gt": 20}}
documents = collection.find(query)

for doc in documents:
    print(doc)

{'_id': ObjectId('653fb5257b6f6aa49aae6a29'), 'name': 'Jorge', 'age': 30}
{'_id': ObjectId('653fb8637b6f6aa49aae6a2a'), 'name': 'Persona1', 'age': 25}
{'_id': ObjectId('653fb8637b6f6aa49aae6a2b'), 'name': 'Persona2', 'age': 30}
{'_id': ObjectId('653fb8637b6f6aa49aae6a2c'), 'name': 'Persona3', 'age': 35, 'status': 'Mayor'}


### Actualizar varios documentos (Update - Many)

In [26]:
# Actualizar varios documentos que cumplen un cierto criterio
query = {"age": {"$gt": 30}}
new_values = {"$set": {"status": "Mayor"}}
result = collection.update_many(query, new_values)
print(f"{result.modified_count} documentos actualizados")

0 documentos actualizados


### Eliminar varios documentos (Delete - Many)

In [28]:
# Eliminar varios documentos que cumplen un cierto criterio
query = {"status": "Mayor"}
result = collection.delete_many(query)
print(f"{result.deleted_count} documentos eliminados")

0 documentos eliminados


### REGEX EXPRESIONES LIKE

In [31]:
# Expresión regular para buscar nombres que comiencen con "P" y terminen en un número
result = collection.find({"name": {"$regex": r'^P.*\d$'}})

# Recorre los resultados
for doc in result:
    print(doc)

{'_id': ObjectId('653fb8637b6f6aa49aae6a2a'), 'name': 'Persona1', 'age': 25}
{'_id': ObjectId('653fb8637b6f6aa49aae6a2b'), 'name': 'Persona2', 'age': 30}


## Mongo Engine

In [33]:
!pip install mongoengine

Collecting mongoengine
  Downloading mongoengine-0.27.0-py3-none-any.whl (110 kB)
[2K     [38;2;114;156;31m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m110.6/110.6 kB[0m [31m229.8 kB/s[0m eta [36m0:00:00[0m kB/s[0m eta [36m0:00:01[0m:01[0m
Installing collected packages: mongoengine
Successfully installed mongoengine-0.27.0

[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m A new release of pip is available: [0m[31;49m23.2.1[0m[39;49m -> [0m[32;49m23.3.1[0m
[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m To update, run: [0m[32;49mpip install --upgrade pip[0m


In [35]:
# Paso 1: Importamos las bibliotecas necesarias
from mongoengine import Document, StringField, IntField, ReferenceField, connect

# Paso 2: Nos conectamos a la base de datos MongoDB
connect('mydatabase', host='mongodb://localhost:27017')

# Paso 3: Definimos los modelos de documentos

# Creamos un modelo para Usuarios (User)
class User(Document):
    username = StringField(required=True, max_length=100)

# Creamos un modelo para Publicaciones (Post)
class Post(Document):
    title = StringField(required=True, max_length=100)
    content = StringField(required=True)
    author = ReferenceField(User)

# Creamos un modelo para Comentarios (Comment)
class Comment(Document):
    text = StringField(required=True)
    author = ReferenceField(User)
    post = ReferenceField(Post)

In [36]:
# Paso 4: Creamos instancias de los modelos

# Creamos usuarios
user1 = User(username="user1").save()
user2 = User(username="user2").save()

# Creamos publicaciones
post1 = Post(title="Post 1", content="Contenido del Post 1", author=user1).save()
post2 = Post(title="Post 2", content="Contenido del Post 2", author=user2).save()

# Creamos comentarios
comment1 = Comment(text="Comentario en Post 1", author=user1, post=post1).save()
comment2 = Comment(text="Comentario en Post 2", author=user2, post=post2).save()
comment3 = Comment(text="Comentario en Post 2", author=user2, post=post2).save()
comment3 = Comment(text="Comentario en Post 2", author=user2, post=post2).save()

In [37]:
# Paso 5: Actualizamos y eliminamos documentos

# Actualizamos un usuario
user_to_update = User.objects(username="user1").first()
user_to_update.username = "new_user1"
user_to_update.save()

# Eliminamos un comentario
comment_to_delete = Comment.objects(text="Comentario en Post 2").first()
comment_to_delete.delete()

In [39]:
# Paso 6: Realizamos consultas

# Consultamos el usuario actualizado
updated_user = User.objects(username="user2").first()
# Consultamos las publicaciones del usuario
posts = Post.objects(author=updated_user)
# Consultamos los comentarios del usuario
comments = Comment.objects(author=updated_user)

# Paso 7: Mostramos resultados

print(f"Usuario actualizado: {updated_user.username}")
print("Publicaciones:")
for post in posts:
    print(f"- {post.title}: {post.content}")

print("Comentarios:")
for comment in comments:
    print(f"- {comment.text} en el post '{comment.post.title}'")

Usuario actualizado: user2
Publicaciones:
- Post 2: Contenido del Post 2
Comentarios:
- Comentario en Post 2 en el post 'Post 2'
- Comentario en Post 2 en el post 'Post 2'


### Mongo Shell

- `docker exec -it mongo bash`
- `mongosh`
- `show dbs`
- `use mydatabase`
- `show collections`
- `db.mycollection.find({})`

## Restaurantes ejemplo

In [42]:
import json
import pymongo

# Establece la conexión con el servidor de MongoDB (asegúrate de tener un servidor MongoDB en ejecución)
client = pymongo.MongoClient("mongodb://localhost:27017/")

# Selecciona la base de datos (o créala si no existe)
db = client["mydatabase"]

# Selecciona la colección en la que deseas insertar los datos
collection = db["restaurants"]

# Abre el archivo JSON y procesa cada línea como un objeto JSON
with open("restaurants.json", "r") as file:
    for line in file:
        try:
            data = json.loads(line)
            collection.insert_one(data)
        except json.JSONDecodeError as e:
            print(f"Error al cargar una línea: {e}")

In [58]:
count = collection.count_documents({})
print(f"Total de documentos en la colección: {count}")

Total de documentos en la colección: 3772


In [59]:
# Utiliza el método `find` con un filtro para obtener documentos con 'borough' igual a 'Brooklyn'
documents = collection.find({"borough": "Brooklyn", 'cuisine': 'Hamburgers'})

# Itera a través de los documentos que cumplen con el filtro e imprímelos con formato JSON indentado
for document in documents:
    # Utiliza json.dumps para imprimir el documento indentado
    print(document)

{'_id': ObjectId('653ff44b7b6f6aa49aae6a39'), 'address': {'building': '469', 'coord': [-73.961704, 40.662942], 'street': 'Flatbush Avenue', 'zipcode': '11225'}, 'borough': 'Brooklyn', 'cuisine': 'Hamburgers', 'grades': [{'date': {'$date': 1419897600000}, 'grade': 'A', 'score': 8}, {'date': {'$date': 1404172800000}, 'grade': 'B', 'score': 23}, {'date': {'$date': 1367280000000}, 'grade': 'A', 'score': 12}, {'date': {'$date': 1336435200000}, 'grade': 'A', 'score': 12}], 'name': "Wendy'S", 'restaurant_id': '30112340'}
{'_id': ObjectId('653ff44b7b6f6aa49aae6a52'), 'address': {'building': '531', 'coord': [-73.9634876, 40.6940001], 'street': 'Myrtle Avenue', 'zipcode': '11205'}, 'borough': 'Brooklyn', 'cuisine': 'Hamburgers', 'grades': [{'date': {'$date': 1395100800000}, 'grade': 'A', 'score': 8}, {'date': {'$date': 1363564800000}, 'grade': 'A', 'score': 8}, {'date': {'$date': 1349827200000}, 'grade': 'A', 'score': 7}, {'date': {'$date': 1316649600000}, 'grade': 'A', 'score': 2}], 'name': 'Wh

In [60]:
# Ahora con un nuevo diccionario para mostrar solo los campos con 1
documents = collection.find(
    {"borough": "Brooklyn", "cuisine": "Hamburgers"},
    {"name": 1, "address.street": 1, "address.coord": 1, 'borough': 1, 'cuisine': 1}
)

# Itera a través de los documentos que cumplen con el filtro y proyección e imprímelos
for document in documents:
    print(document)

{'_id': ObjectId('653ff44b7b6f6aa49aae6a39'), 'address': {'coord': [-73.961704, 40.662942], 'street': 'Flatbush Avenue'}, 'borough': 'Brooklyn', 'cuisine': 'Hamburgers', 'name': "Wendy'S"}
{'_id': ObjectId('653ff44b7b6f6aa49aae6a52'), 'address': {'coord': [-73.9634876, 40.6940001], 'street': 'Myrtle Avenue'}, 'borough': 'Brooklyn', 'cuisine': 'Hamburgers', 'name': 'White Castle'}
{'_id': ObjectId('653ff44c7b6f6aa49aae6b07'), 'address': {'coord': [-73.95802549999999, 40.6487475], 'street': 'Flatbush Avenue'}, 'borough': 'Brooklyn', 'cuisine': 'Hamburgers', 'name': "Mcdonald'S"}
{'_id': ObjectId('653ff44c7b6f6aa49aae6b42'), 'address': {'coord': [-73.9808063, 40.6895078], 'street': 'Flatbush Avenue Extension'}, 'borough': 'Brooklyn', 'cuisine': 'Hamburgers', 'name': "Mcdonald'S"}
{'_id': ObjectId('653ff44c7b6f6aa49aae6b49'), 'address': {'coord': [-73.9321666, 40.6632351], 'street': 'Empire Boulevard'}, 'borough': 'Brooklyn', 'cuisine': 'Hamburgers', 'name': 'White Castle'}
{'_id': ObjectI

In [62]:
# Tambien podemos excluir con 0
documents = collection.find(
    {"borough": "Brooklyn", "cuisine": "Hamburgers"},
    {"_id": 0,"name": 1, "address.street": 1, "address.coord": 1, 'borough': 1, 'cuisine': 1}
)

# Itera a través de los documentos que cumplen con el filtro y proyección e imprímelos
for document in documents:
    print(document)

{'address': {'coord': [-73.961704, 40.662942], 'street': 'Flatbush Avenue'}, 'borough': 'Brooklyn', 'cuisine': 'Hamburgers', 'name': "Wendy'S"}
{'address': {'coord': [-73.9634876, 40.6940001], 'street': 'Myrtle Avenue'}, 'borough': 'Brooklyn', 'cuisine': 'Hamburgers', 'name': 'White Castle'}
{'address': {'coord': [-73.95802549999999, 40.6487475], 'street': 'Flatbush Avenue'}, 'borough': 'Brooklyn', 'cuisine': 'Hamburgers', 'name': "Mcdonald'S"}
{'address': {'coord': [-73.9808063, 40.6895078], 'street': 'Flatbush Avenue Extension'}, 'borough': 'Brooklyn', 'cuisine': 'Hamburgers', 'name': "Mcdonald'S"}
{'address': {'coord': [-73.9321666, 40.6632351], 'street': 'Empire Boulevard'}, 'borough': 'Brooklyn', 'cuisine': 'Hamburgers', 'name': 'White Castle'}
{'address': {'coord': [-73.993031, 40.6417669], 'street': 'Ft Hamilton Parkway'}, 'borough': 'Brooklyn', 'cuisine': 'Hamburgers', 'name': 'White Castle'}
{'address': {'coord': [-73.9308722, 40.656262], 'street': 'Utica Avenue'}, 'borough': 

In [63]:
# También podemos limitar los resutados
# Tambien podemos excluir con 0
documents = collection.find(
    {"borough": "Brooklyn", "cuisine": "Hamburgers"},
    {"_id": 0,"name": 1, "address.street": 1, "address.coord": 1, 'borough': 1, 'cuisine': 1}
).limit(5)

# Itera a través de los documentos que cumplen con el filtro y proyección e imprímelos
for document in documents:
    print(document)

{'address': {'coord': [-73.961704, 40.662942], 'street': 'Flatbush Avenue'}, 'borough': 'Brooklyn', 'cuisine': 'Hamburgers', 'name': "Wendy'S"}
{'address': {'coord': [-73.9634876, 40.6940001], 'street': 'Myrtle Avenue'}, 'borough': 'Brooklyn', 'cuisine': 'Hamburgers', 'name': 'White Castle'}
{'address': {'coord': [-73.95802549999999, 40.6487475], 'street': 'Flatbush Avenue'}, 'borough': 'Brooklyn', 'cuisine': 'Hamburgers', 'name': "Mcdonald'S"}
{'address': {'coord': [-73.9808063, 40.6895078], 'street': 'Flatbush Avenue Extension'}, 'borough': 'Brooklyn', 'cuisine': 'Hamburgers', 'name': "Mcdonald'S"}
{'address': {'coord': [-73.9321666, 40.6632351], 'street': 'Empire Boulevard'}, 'borough': 'Brooklyn', 'cuisine': 'Hamburgers', 'name': 'White Castle'}


In [65]:
# Utiliza el método `find` con un filtro para obtener documentos con 'score' mayor a 90
documents = collection.find(
    {"grades.score": {"$gt": 90}}, 
    {"_id": 0,"name": 1, "address.street": 1, "address.coord": 1, 'borough': 1, 'cuisine': 1}
)

# Itera a través de los documentos que cumplen con el filtro e imprímelos
for document in documents:
    print(document)

{'address': {'coord': [-73.9782725, 40.7624022], 'street': 'West   54 Street'}, 'borough': 'Manhattan', 'cuisine': 'American ', 'name': "Murals On 54/Randolphs'S"}
{'address': {'coord': [-73.9864626, 40.7266739], 'street': 'East 6 Street'}, 'borough': 'Manhattan', 'cuisine': 'Indian', 'name': 'Gandhi'}
{'address': {'coord': [-73.984758, 40.7457939], 'street': 'Madison Avenue'}, 'borough': 'Manhattan', 'cuisine': 'Pizza/Italian', 'name': 'Bella Napoli'}


### Practica

Recupera y muestra los nombres, direcciones y coordenadas de restaurantes en el Bronx que sirvan comida italiana ('cuisine') y tengan un puntaje ('score') mayor a 20 en sus calificaciones, utilizando el método find de MongoDB con un filtro específico.

In [74]:
# Utiliza el método `find` con un filtro para obtener documentos con 'cuisine' igual a 'Italian' y 'borough' igual a 'Brooklyn'
documents = collection.find(
    {"grades.score": {"$gt": 20}, "cuisine": "Italian", "borough": "Bronx"},
    {"_id": 0, "name": 1, "address.street": 1, "address.coord": 1}
)

# Itera a través de los documentos que cumplen con el filtro e imprímelos
for document in documents:
    print(document)

{'address': {'coord': [-73.8177658, 40.8204314], 'street': 'East Tremont Avenue'}, 'name': "Spoto'S Restaurant"}
{'address': {'coord': [-73.8189257, 40.82115659999999], 'street': 'East Tremont Avenue'}, 'name': "Rino'S"}
{'address': {'coord': [-73.8889027, 40.8543105], 'street': 'Arthur Avenue'}, 'name': "Dominick'S Bar & Restaurant"}
{'address': {'coord': [-73.8887814, 40.85436720000001], 'street': 'Arthur Avenue'}, 'name': 'Enzo Cafe'}
{'address': {'coord': [-73.78706799999999, 40.8496359], 'street': 'City Island Avenue'}, 'name': "Artie'S"}
{'address': {'coord': [-73.8892497, 40.8537883], 'street': 'Arthur Avenue'}, 'name': 'Pasquale Rigoletto Restaurant'}


## Scraping API

In [19]:
!pip install requests


[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m A new release of pip is available: [0m[31;49m23.2.1[0m[39;49m -> [0m[32;49m23.3.1[0m
[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m To update, run: [0m[32;49mpip install --upgrade pip[0m


la biblioteca requests es una herramienta esencial en Python para la comunicación con recursos web y servicios en línea. Facilita la realización de solicitudes HTTP y maneja muchos aspectos técnicos de la comunicación web, permitiéndote concentrarte en el procesamiento de datos y respuestas. Es ampliamente utilizada en aplicaciones web, desarrollo de APIs, automatización y raspado de datos web, entre otros casos de uso.

### 1. Conectar a fuente de scraping.

In [12]:
import requests
import json

# URL de la API para la solicitud exitosa
url_success = 'http://api.open-notify.org/astros.json'

# Realizar una solicitud HTTP a la API exitosa
response_success = requests.get(url_success)
status_code_success = response_success.status_code
status_code_success

200

In [10]:
import requests

# URL de una API inexistente para la solicitud que fallará
url_failure = 'http://api.open-notify.org/nonexistent-api'

# Realizar una solicitud HTTP a la API que fallará
response_failure = requests.get(url_failure)
status_code_failure = response_failure.status_code

# Mostrar el resultado de la solicitud que falla
status_code_failure

404

## 2. Recuperar datos en diferentes formatos

In [17]:
# Mostrar la respuesta en formato de texto
print('Respuesta en formato de texto:')
print(response_success.text)

Respuesta en formato de texto:
{"message": "success", "people": [{"name": "Jasmin Moghbeli", "craft": "ISS"}, {"name": "Andreas Mogensen", "craft": "ISS"}, {"name": "Satoshi Furukawa", "craft": "ISS"}, {"name": "Konstantin Borisov", "craft": "ISS"}, {"name": "Oleg Kononenko", "craft": "ISS"}, {"name": "Nikolai Chub", "craft": "ISS"}, {"name": "Loral O'Hara", "craft": "ISS"}], "number": 7}


In [18]:
# Convertir la respuesta de texto a JSON
response_json = response_success.json()

# Mostrar las diferencias si las hay
print('Respuesta en formato JSON:')
print(json.dumps(response_json, indent=4))

Respuesta en formato JSON:
{
    "message": "success",
    "people": [
        {
            "name": "Jasmin Moghbeli",
            "craft": "ISS"
        },
        {
            "name": "Andreas Mogensen",
            "craft": "ISS"
        },
        {
            "name": "Satoshi Furukawa",
            "craft": "ISS"
        },
        {
            "name": "Konstantin Borisov",
            "craft": "ISS"
        },
        {
            "name": "Oleg Kononenko",
            "craft": "ISS"
        },
        {
            "name": "Nikolai Chub",
            "craft": "ISS"
        },
        {
            "name": "Loral O'Hara",
            "craft": "ISS"
        }
    ],
    "number": 7
}


## 3. Obtener el número de personas en el espacio.

In [13]:
# Mostrar los resultados de la solicitud exitosa
print(f'Solicitud exitosa (código de estado {status_code_success}):')
if status_code_success == 200:
    data = response_success.json()
    # Mostrar la respuesta JSON con sangría de 4 espacios
    formatted_data = json.dumps(data, indent=4)
    print(formatted_data)
    print(f'Número de astronautas en órbita: {data["number"]}')
    print('Astronautas en órbita:')
    for astronaut in data["people"]:
        print(f'- {astronaut["name"]}')

Solicitud exitosa (código de estado 200):
{
    "message": "success",
    "people": [
        {
            "name": "Jasmin Moghbeli",
            "craft": "ISS"
        },
        {
            "name": "Andreas Mogensen",
            "craft": "ISS"
        },
        {
            "name": "Satoshi Furukawa",
            "craft": "ISS"
        },
        {
            "name": "Konstantin Borisov",
            "craft": "ISS"
        },
        {
            "name": "Oleg Kononenko",
            "craft": "ISS"
        },
        {
            "name": "Nikolai Chub",
            "craft": "ISS"
        },
        {
            "name": "Loral O'Hara",
            "craft": "ISS"
        }
    ],
    "number": 7
}
Número de astronautas en órbita: 7
Astronautas en órbita:
- Jasmin Moghbeli
- Andreas Mogensen
- Satoshi Furukawa
- Konstantin Borisov
- Oleg Kononenko
- Nikolai Chub
- Loral O'Hara


## Scraping Beautiful Soup 

## 1. Ejemplo con una string html

In [21]:
!pip install beautifulsoup4


[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m A new release of pip is available: [0m[31;49m23.2.1[0m[39;49m -> [0m[32;49m23.3.1[0m
[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m To update, run: [0m[32;49mpip install --upgrade pip[0m


In [None]:
from bs4 import BeautifulSoup

# HTML de ejemplo
html = """
<!DOCTYPE html>
<html>
<head>
    <title>Ejemplo de Web Scraping</title>
</head>
<body>
    <h1>Web Scraping con BeautifulSoup</h1>
    <section class="seccion-1">
        <h2>Sección 1</h2>
        <p>Contenido de la sección 1.</p>
    </section>
    <section class="seccion-2">
        <h2>Sección 2</h2>
        <p>Contenido de la sección 2.</p>
    </section>
    <section class="seccion-3">
        <h2>Sección 3</h2>
        <p>Contenido de la sección 3.</p>
    </section>
</body>
</html>
"""

# Paso 1: Crear un objeto BeautifulSoup
soup = BeautifulSoup(html, 'html.parser')

# Paso 2: Acceder a elementos con soup.find
titulo = soup.find('h1')
print("Título:", titulo.text)

# Paso 3: Encontrar todos los elementos section con un atributo class específico
secciones = soup.find_all('section', class_='seccion-2')

# Paso 4 y 5: Extraer el texto dentro del tag y dar una mejor presentación
for seccion in secciones:
    titulo_seccion = seccion.find('h2').text
    contenido_seccion = seccion.find('p').text
    print("\nTítulo de la sección:", titulo_seccion)
    print("Contenido de la sección:", contenido_seccion)

# Paso 6: Find_all con una función lambda
secciones_lambda = soup.find_all(lambda tag: tag.name == 'section' and 'seccion-' in tag.get('class', []))

# Mostrar el resultado de find_all con lambda
print("\nSecciones encontradas con lambda:")
for seccion in secciones_lambda:
    print(seccion)

## 2. Ejemplo con un html http://quotes.toscrape.com

In [33]:
import requests
from bs4 import BeautifulSoup

# Realizar una solicitud HTTP a la página de citas
url = 'http://quotes.toscrape.com'
response = requests.get(url)

# Crear un objeto BeautifulSoup
soup = BeautifulSoup(response.text, 'html.parser')

# Encontrar todas las citas en la página
citas = soup.find_all('span', class_='text')

# Encontrar los autores de las citas
autores = soup.find_all('small', class_='author')

# Encontrar las etiquetas asociadas a las citas
etiquetas = soup.find_all('div', class_='tags')

# Mostrar las citas y sus autores
for i in range(len(citas)):
    print(f'Cita {i + 1}:')
    print('Texto:', citas[i].text)
    print('Autor:', autores[i].text)

    # Mostrar las etiquetas asociadas a la cita
    etiquetas_cita = etiquetas[i].find_all('a', class_='tag')
    print('Etiquetas:', [tag.text for tag in etiquetas_cita])

    print('---')

Cita 1:
Texto: “The world as we have created it is a process of our thinking. It cannot be changed without changing our thinking.”
Autor: Albert Einstein
Etiquetas: ['change', 'deep-thoughts', 'thinking', 'world']
---
Cita 2:
Texto: “It is our choices, Harry, that show what we truly are, far more than our abilities.”
Autor: J.K. Rowling
Etiquetas: ['abilities', 'choices']
---
Cita 3:
Texto: “There are only two ways to live your life. One is as though nothing is a miracle. The other is as though everything is a miracle.”
Autor: Albert Einstein
Etiquetas: ['inspirational', 'life', 'live', 'miracle', 'miracles']
---
Cita 4:
Texto: “The person, be it gentleman or lady, who has not pleasure in a good novel, must be intolerably stupid.”
Autor: Jane Austen
Etiquetas: ['aliteracy', 'books', 'classic', 'humor']
---
Cita 5:
Texto: “Imperfection is beauty, madness is genius and it's better to be absolutely ridiculous than absolutely boring.”
Autor: Marilyn Monroe
Etiquetas: ['be-yourself', 'inspi

### Tranformando a una lista de diccionarios

In [25]:
# Inicializar una lista para almacenar las citas como diccionarios
citas_dict_list = []

# Iterar a través de las citas y crear un diccionario para cada una
for i in range(len(citas)):
    cita_dict = {
        'Texto': citas[i].text,
        'Autor': autores[i].text,
        'Etiquetas': [tag.text for tag in etiquetas[i].find_all('a', class_='tag')]
    }
    citas_dict_list.append(cita_dict)

# Mostrar la lista de diccionarios
citas_dict_list

[{'Texto': '“The world as we have created it is a process of our thinking. It cannot be changed without changing our thinking.”',
  'Autor': 'Albert Einstein',
  'Etiquetas': ['change', 'deep-thoughts', 'thinking', 'world']},
 {'Texto': '“It is our choices, Harry, that show what we truly are, far more than our abilities.”',
  'Autor': 'J.K. Rowling',
  'Etiquetas': ['abilities', 'choices']},
 {'Texto': '“There are only two ways to live your life. One is as though nothing is a miracle. The other is as though everything is a miracle.”',
  'Autor': 'Albert Einstein',
  'Etiquetas': ['inspirational', 'life', 'live', 'miracle', 'miracles']},
 {'Texto': '“The person, be it gentleman or lady, who has not pleasure in a good novel, must be intolerably stupid.”',
  'Autor': 'Jane Austen',
  'Etiquetas': ['aliteracy', 'books', 'classic', 'humor']},
 {'Texto': "“Imperfection is beauty, madness is genius and it's better to be absolutely ridiculous than absolutely boring.”",
  'Autor': 'Marilyn Monr

### Extrayendo solo la Cita

In [26]:
# Inicializar una lista para almacenar las citas
citas_list = []

# Iterar a través de las citas y agregarlas a la lista
for cita in citas:
    citas_list.append(cita.text)

# Mostrar la lista de citas
for i, cita in enumerate(citas_list):
    print(f'Cita {i + 1}: {cita}')

Cita 1: “The world as we have created it is a process of our thinking. It cannot be changed without changing our thinking.”
Cita 2: “It is our choices, Harry, that show what we truly are, far more than our abilities.”
Cita 3: “There are only two ways to live your life. One is as though nothing is a miracle. The other is as though everything is a miracle.”
Cita 4: “The person, be it gentleman or lady, who has not pleasure in a good novel, must be intolerably stupid.”
Cita 5: “Imperfection is beauty, madness is genius and it's better to be absolutely ridiculous than absolutely boring.”
Cita 6: “Try not to become a man of success. Rather become a man of value.”
Cita 7: “It is better to be hated for what you are than to be loved for what you are not.”
Cita 8: “I have not failed. I've just found 10,000 ways that won't work.”
Cita 9: “A woman is like a tea bag; you never know how strong it is until it's in hot water.”
Cita 10: “A day without sunshine is like, you know, night.”


## Ejemplo de ETL

In [31]:
import requests
from bs4 import BeautifulSoup
import pandas as pd

## EXTRACCION
# URL de la lista de películas en IMDb
url = 'https://www.imdb.com/list/ls024149810/'

# Realizar una solicitud HTTP a la página
response = requests.get(url)

# Crear un objeto BeautifulSoup
soup = BeautifulSoup(response.text, 'html.parser')

## TRANSFORMACION
# Encontrar todos los elementos de información de la película
info_peliculas = soup.find_all('div', class_='lister-item-content')

# Inicializar listas para almacenar la información
titulos = []
ratings = []
generos = []
duracion = []

# Extraer información de las películas y agregarla a las listas
for info in info_peliculas:
    # Extraer el título de la película
    titulo = info.h3.a.text.strip()
    titulos.append(titulo)

    # Extraer la clasificación (rating)
    rating = info.find('span', class_='ipl-rating-star__rating').text.strip()
    ratings.append(rating)

    # Extraer el género
    genero = info.find('span', class_='genre').text.strip()
    generos.append(genero)

    # Extraer la duración (runtime)
    duracion_pelicula = info.find('span', class_='runtime').text.strip()
    duracion.append(duracion_pelicula)

# Crear un DataFrame con la información recopilada
data = {
    'Título': titulos,
    'Rating': ratings,
    'Género': generos,
    'Duración': duracion
}

df = pd.DataFrame(data)

# Mostrar el DataFrame
df

Unnamed: 0,Título,Rating,Género,Duración
0,Sueños de fuga,9.3,Drama,142 min
1,El padrino,9.2,"Crime, Drama",175 min
2,El ciudadano,8.3,"Drama, Mystery",119 min
3,12 hombres en pugna,9.0,"Crime, Drama",96 min
4,La lista de Schindler,9.0,"Biography, Drama, History",195 min
5,"Lo bueno, lo malo y lo feo",8.8,"Adventure, Western",161 min
6,El imperio contraataca,8.7,"Action, Adventure, Fantasy",124 min
7,El señor de los anillos: El retorno del rey,9.0,"Action, Adventure, Drama",201 min
8,Batman: El caballero de la noche,9.0,"Action, Crime, Drama",152 min
9,El padrino II,9.0,"Crime, Drama",202 min


In [34]:
## CARGA
# Guardar el DataFrame en un archivo CSV
df.to_csv('peliculas_imdb.csv')

1. ¿Cuáles son características importantes de MongoDB?

Respuesta. MongoDB usa objetos JSON, lo cual implica una estructura flexible de los
documentos. Entonces, se deduce que es un almacenamiento adecuado para datos no
estructurados, en donde no se puede determinar la estructura de antemano.

2. ¿Cómo se diferencia el scraping de los APIs?

Respuesta. Un API brinda un esquema con funciones para acceder a ciertos datos, pero
te puede limitar en la información disponible. En el scraping se puede descargar en
teoría todo lo que se puede visualizar en una página HTML.