<div style="text-align: center;">
  <img src="https://github.com/Hack-io-Data/Imagenes/blob/main/01-LogosHackio/logo_naranja@4x.png?raw=true" alt="esquema" />
</div>

## Contexto

**Descripción:**

SetMagic Productions es una empresa especializada en la provisión de servicios integrales para la realización de rodajes cinematográficos y audiovisuales. Nos dedicamos a facilitar tanto el atrezzo necesario para las producciones como los lugares idóneos para llevar a cabo los rodajes, ya sea en entornos al aire libre o en interiores.

**Servicios Ofrecidos:**

- **Atrezzo Creativo:** Contamos con un extenso catálogo de atrezzo que abarca desde accesorios hasta muebles y objetos temáticos para ambientar cualquier tipo de  escena.

- **Locaciones Únicas:** Nuestra empresa ofrece una amplia selección de locaciones, que incluyen desde escenarios naturales como playas, bosques y montañas, hasta espacios interiores como estudios, casas históricas y edificios emblemáticos.
- **Servicios de Producción:** Además de proporcionar atrezzo y locaciones, también ofrecemos servicios de producción audiovisual, incluyendo equipos de filmación, personal técnico y servicios de postproducción.

**Herramientas y Tecnologías:**

Para recopilar información sobre nuevas locaciones y tendencias en atrezzo, utilizamos herramientas de web scraping como Beautiful Soup y Selenium para extraer datos de sitios web relevantes y redes sociales especializadas en cine y producción audiovisual. También integramos APIs de plataformas de alquiler de locaciones y bases de datos de atrezzo para acceder a información actualizada y detallada.

**Almacenamiento de Datos:** (A trabajar la próxima semana)

La información recopilada mediante web scraping y APIs se almacenará tanto en una base de datos relacional SQL como en una base de datos no relacional MongoDB . Estas base de datos nos permite organizar eficientemente la información sobre locaciones, atrezzo, clientes y proyectos en curso, facilitando su acceso y gestión.

**Objetivo:**

Nuestro objetivo principal es proporcionar a nuestros clientes una experiencia fluida y personalizada en la búsqueda y selección de locaciones y atrezzo para sus proyectos audiovisuales. Utilizando tecnologías avanzadas y una amplia red de contactos en la industria, nos esforzamos por ofrecer soluciones creativas y de alta calidad que satisfagan las necesidades específicas de cada producción.


## Lab: Extracción de Información con Beautiful Soup

En este laboratorio seguirás enriqueciendo la base de datos para ofrecer a tus clientes un servicio más completo y personalizado. Para lograr esto, extraerás información valiosa sobre objetos de atrezzo de una web especializada. Utilizarás técnicas de web scraping con la biblioteca **Beautiful Soup** para obtener y organizar los datos de manera eficiente.

Trabajarás con la siguiente URL: [Atrezzo Vázquez](https://atrezzovazquez.es/shop.php?search_type=-1&search_terms=&limit=48&page=1). Esta página contiene una gran cantidad de objetos de atrezzo que pueden ser de interés para un proyecto de rodaje. Tu tarea será extraer información relevante de los productos listados en las primeras 100 páginas.

1. **Navegación y Extracción de Múltiples Páginas**:

   - La página web contiene varios elementos distribuidos en distintas páginas. Tu objetivo será iterar a través de las 100 primeras páginas y extraer la información deseada.

   - Debes asegurarte de que tu código sea capaz de navegar automáticamente por estas páginas y extraer datos de manera continua.

2. **Verificación del Código de Estado de la res_atrezzo**:

   - Antes de extraer cualquier información, es fundamental verificar que la solicitud a la página web ha sido exitosa. Un código de estado 200 indica que la página se ha cargado correctamente.

   - Si el código no es 200, debes imprimir un mensaje de error y detener la ejecución de la extracción para evitar problemas posteriores.

3. **Extracción de Información Específica**:

   De cada página, deberás extraer los siguientes detalles de los objetos de atrezzo:

   - **Nombre del Objeto**: El nombre o identificador del objeto.

   - **Categoría**: La categoría en la que se clasifica el objeto (ej.: mobiliario, decorado, utilería, etc.).

   - **Sección**: La sección específica dentro de la categoría.

   - **Descripción**: Una breve descripción del objeto que puede incluir detalles sobre su estilo, material o uso.

   - **Dimensiones**: El tamaño del objeto en formato (largo x ancho x alto).

   - **Enlace a la Imagen**: El link a la imagen del objeto, útil para tener una vista previa visual.

4. **Organización de los Datos en un Diccionario**:

   Una vez extraída la información, deberás organizarla en un diccionario con las siguientes claves:

   - `"nombre"`: Nombres del objeto.

   - `"categoria"`: Categoría a la que pertenece el objeto.

   - `"seccion"`: Sección específica dentro de la categoría.

   - `"descripcion"`: Breve descripción del objeto.

   - `"dimensiones"`: Dimensiones del objeto en el formato adecuado.

   - `"imagen"`: URL de la imagen del objeto.

5. **Almacenamiento de la Información en un DataFrame**:

   Una vez que tengas toda la información organizada en diccionarios, el siguiente paso es convertirla en un DataFrame de Pandas. Este DataFrame te permitirá manipular y analizar los datos con facilidad. Tu DataFrame debería verse similar al ejemplo proporcionado, donde cada fila representa un objeto diferente y cada columna contiene la información extraída:

![Dataframe](https://github.com/Hack-io-Data/Imagenes/blob/main/02-Imagenes/BS/df_atrezzo.png?raw=true)


6.  Consideraciones Adicionales:

- Asegúrate de manejar posibles errores o excepciones durante el scraping, como tiempos de espera agotados, páginas inaccesibles o datos faltantes.

- Recuerda que el scraping debe hacerse de manera respetuosa, evitando sobrecargar el servidor de la página web (puedes usar pausas entre solicitudes).

- Finalmente, asegúrate de almacenar el DataFrame en un archivo CSV para que puedas reutilizar esta información en análisis futuros.


In [14]:
# Importamos las librerías que necesitamos

# Librerías de extracción de datos
# -----------------------------------------------------------------------
from bs4 import BeautifulSoup
import requests

# Tratamiento de datos
# -----------------------------------------------------------------------
import pandas as pd
import numpy as np

In [15]:
from tqdm import tqdm
from time import sleep

In [16]:
lista_datos = []
diccionario = dict()

# Bucle que recorre las páginas de 1 a 100
for pagina in tqdm(range(1, 101)):
    # URL para la página actual
    url = f"https://atrezzovazquez.es/shop.php?search_type=-1&search_terms=&limit=48&page={pagina}"
    
    # Realizar la solicitud HTTP GET
    res_atrezzo = requests.get(url)

    # Comprobamos el estado de la petición
    print(f"La respuesta de la petición es: {res_atrezzo.status_code}")
    
    if res_atrezzo.status_code == 200:
                
        # Creamos el objeto BeautifulSoup para poder acceder al contenido solicitado
        sopa = BeautifulSoup(res_atrezzo.content, 'html.parser')
         
        # Encontramos todos los contenedores de productos
        productos = sopa.find_all("div", {"class": "col-md-3 col-sm-4 shop-grid-item"})
        
        # Iteramos sobre cada producto de la página
        for producto in productos:
            # Extraemos los datos de nombre,categoría, seccion,descripcion dimensiones e imagen
            try:
                diccionario["nombre"] = producto.find("a", {"class": "title"}).getText(strip=True)
            except:
                diccionario["nombre"] = np.nan
            try:
                diccionario["categoria"] = producto.find("a", {"class": "tag"}).getText(strip=True)
            except:
                diccionario["categoria"] = np.nan
            try:
                diccionario["seccion"] = producto.find("div", {"class": "cat-sec"}).getText(strip=True)
            except:
                diccionario["seccion"] = np.nan
            try:
                diccionario["descripcion"] = producto.find("div", {"class": "article-container style-1"}).getText(strip=True)
            except:
                diccionario["descripcion"] = np.nan
            try:
                diccionario["dimensiones"] = producto.find("div", {"class": "price"}).getText(strip=True)
            except:
                diccionario["descripcion"] = np.nan
            try:
                diccionario["imagen"] = r"https://atrezzovazquez.es/" + producto.find('img').get('src')
            except:
                diccionario["imagen"] = np.nan
                        
                  
            # Añadimos a lista_datos los datos del produto
            lista_datos.append(diccionario)
        
        # Introducimos un retraso para no sobrecargarel sevidor el servidor
        sleep(1)
    else:
        print(f"No se ha podido recuperar la página {pagina}. Código de estado: {res_atrezzo.status_code}")
        break  # Se detiene la ejecución si no se puede recuperar la página

# Creamos un DataFrame con la lista de diccionarios que hemos obtenido
df_atrezzo = pd.DataFrame(lista_datos)



  0%|          | 0/100 [00:00<?, ?it/s]

La respuesta de la petición es: 200


  1%|          | 1/100 [00:01<02:39,  1.61s/it]

La respuesta de la petición es: 200


  2%|▏         | 2/100 [00:03<02:29,  1.52s/it]

La respuesta de la petición es: 200


  3%|▎         | 3/100 [00:04<02:35,  1.60s/it]

La respuesta de la petición es: 200


  4%|▍         | 4/100 [00:06<02:30,  1.57s/it]

La respuesta de la petición es: 200


  5%|▌         | 5/100 [00:07<02:27,  1.55s/it]

La respuesta de la petición es: 200


  6%|▌         | 6/100 [00:09<02:24,  1.54s/it]

La respuesta de la petición es: 200


  7%|▋         | 7/100 [00:10<02:25,  1.57s/it]

La respuesta de la petición es: 200


  8%|▊         | 8/100 [00:12<02:24,  1.57s/it]

La respuesta de la petición es: 200


  9%|▉         | 9/100 [00:14<02:21,  1.56s/it]

La respuesta de la petición es: 200


 10%|█         | 10/100 [00:15<02:18,  1.54s/it]

La respuesta de la petición es: 200


 11%|█         | 11/100 [00:17<02:16,  1.54s/it]

La respuesta de la petición es: 200


 12%|█▏        | 12/100 [00:18<02:12,  1.51s/it]

La respuesta de la petición es: 200


 13%|█▎        | 13/100 [00:20<02:12,  1.53s/it]

La respuesta de la petición es: 200


 14%|█▍        | 14/100 [00:21<02:11,  1.53s/it]

La respuesta de la petición es: 200


 15%|█▌        | 15/100 [00:23<02:10,  1.53s/it]

La respuesta de la petición es: 200


 16%|█▌        | 16/100 [00:24<02:07,  1.52s/it]

La respuesta de la petición es: 200


 17%|█▋        | 17/100 [00:26<02:05,  1.51s/it]

La respuesta de la petición es: 200


 18%|█▊        | 18/100 [00:27<02:02,  1.50s/it]

La respuesta de la petición es: 200


 19%|█▉        | 19/100 [00:29<02:01,  1.50s/it]

La respuesta de la petición es: 200


 20%|██        | 20/100 [00:30<02:02,  1.53s/it]

La respuesta de la petición es: 200


 21%|██        | 21/100 [00:32<02:00,  1.53s/it]

La respuesta de la petición es: 200


 22%|██▏       | 22/100 [00:33<01:58,  1.52s/it]

La respuesta de la petición es: 200


 23%|██▎       | 23/100 [00:35<01:57,  1.53s/it]

La respuesta de la petición es: 200


 24%|██▍       | 24/100 [00:36<01:53,  1.50s/it]

La respuesta de la petición es: 200


 25%|██▌       | 25/100 [00:38<01:52,  1.50s/it]

La respuesta de la petición es: 200


 26%|██▌       | 26/100 [00:39<01:51,  1.50s/it]

La respuesta de la petición es: 200


 27%|██▋       | 27/100 [00:41<01:53,  1.55s/it]

La respuesta de la petición es: 200


 28%|██▊       | 28/100 [00:42<01:50,  1.53s/it]

La respuesta de la petición es: 200


 29%|██▉       | 29/100 [00:44<01:46,  1.50s/it]

La respuesta de la petición es: 200


 30%|███       | 30/100 [00:45<01:44,  1.50s/it]

La respuesta de la petición es: 200


 31%|███       | 31/100 [00:47<01:44,  1.52s/it]

La respuesta de la petición es: 200


 32%|███▏      | 32/100 [00:48<01:42,  1.50s/it]

La respuesta de la petición es: 200


 33%|███▎      | 33/100 [00:50<01:41,  1.51s/it]

La respuesta de la petición es: 200


 34%|███▍      | 34/100 [00:51<01:39,  1.50s/it]

La respuesta de la petición es: 200


 35%|███▌      | 35/100 [00:53<01:38,  1.52s/it]

La respuesta de la petición es: 200


 36%|███▌      | 36/100 [00:54<01:35,  1.49s/it]

La respuesta de la petición es: 200


 37%|███▋      | 37/100 [00:56<01:34,  1.50s/it]

La respuesta de la petición es: 200


 38%|███▊      | 38/100 [00:57<01:32,  1.50s/it]

La respuesta de la petición es: 200


 39%|███▉      | 39/100 [00:59<01:33,  1.54s/it]

La respuesta de la petición es: 200


 40%|████      | 40/100 [01:00<01:30,  1.51s/it]

La respuesta de la petición es: 200


 41%|████      | 41/100 [01:02<01:30,  1.54s/it]

La respuesta de la petición es: 200


 42%|████▏     | 42/100 [01:04<01:29,  1.54s/it]

La respuesta de la petición es: 200


 43%|████▎     | 43/100 [01:05<01:30,  1.59s/it]

La respuesta de la petición es: 200


 44%|████▍     | 44/100 [01:07<01:26,  1.54s/it]

La respuesta de la petición es: 200


 45%|████▌     | 45/100 [01:08<01:23,  1.52s/it]

La respuesta de la petición es: 200


 46%|████▌     | 46/100 [01:10<01:21,  1.51s/it]

La respuesta de la petición es: 200


 47%|████▋     | 47/100 [01:11<01:20,  1.51s/it]

La respuesta de la petición es: 200


 48%|████▊     | 48/100 [01:13<01:17,  1.49s/it]

La respuesta de la petición es: 200


 49%|████▉     | 49/100 [01:14<01:15,  1.48s/it]

La respuesta de la petición es: 200


 50%|█████     | 50/100 [01:16<01:14,  1.49s/it]

La respuesta de la petición es: 200


 51%|█████     | 51/100 [01:17<01:14,  1.52s/it]

La respuesta de la petición es: 200


 52%|█████▏    | 52/100 [01:19<01:12,  1.51s/it]

La respuesta de la petición es: 200


 53%|█████▎    | 53/100 [01:20<01:09,  1.49s/it]

La respuesta de la petición es: 200


 54%|█████▍    | 54/100 [01:22<01:07,  1.47s/it]

La respuesta de la petición es: 200


 55%|█████▌    | 55/100 [01:23<01:07,  1.50s/it]

La respuesta de la petición es: 200


 56%|█████▌    | 56/100 [01:25<01:05,  1.50s/it]

La respuesta de la petición es: 200


 57%|█████▋    | 57/100 [01:26<01:05,  1.52s/it]

La respuesta de la petición es: 200


 58%|█████▊    | 58/100 [01:28<01:04,  1.54s/it]

La respuesta de la petición es: 200


 59%|█████▉    | 59/100 [01:29<01:03,  1.55s/it]

La respuesta de la petición es: 200


 60%|██████    | 60/100 [01:31<01:01,  1.53s/it]

La respuesta de la petición es: 200


 61%|██████    | 61/100 [01:32<00:59,  1.52s/it]

La respuesta de la petición es: 200


 62%|██████▏   | 62/100 [01:34<00:57,  1.52s/it]

La respuesta de la petición es: 200


 63%|██████▎   | 63/100 [01:35<00:56,  1.52s/it]

La respuesta de la petición es: 200


 64%|██████▍   | 64/100 [01:37<00:54,  1.50s/it]

La respuesta de la petición es: 200


 65%|██████▌   | 65/100 [01:38<00:51,  1.48s/it]

La respuesta de la petición es: 200


 66%|██████▌   | 66/100 [01:40<00:50,  1.48s/it]

La respuesta de la petición es: 200


 67%|██████▋   | 67/100 [01:41<00:49,  1.51s/it]

La respuesta de la petición es: 200


 68%|██████▊   | 68/100 [01:43<00:48,  1.52s/it]

La respuesta de la petición es: 200


 69%|██████▉   | 69/100 [01:44<00:46,  1.51s/it]

La respuesta de la petición es: 200


 70%|███████   | 70/100 [01:46<00:45,  1.50s/it]

La respuesta de la petición es: 200


 71%|███████   | 71/100 [01:47<00:43,  1.51s/it]

La respuesta de la petición es: 200


 72%|███████▏  | 72/100 [01:49<00:42,  1.50s/it]

La respuesta de la petición es: 200


 73%|███████▎  | 73/100 [01:50<00:40,  1.50s/it]

La respuesta de la petición es: 200


 74%|███████▍  | 74/100 [01:52<00:39,  1.50s/it]

La respuesta de la petición es: 200


 75%|███████▌  | 75/100 [01:53<00:38,  1.53s/it]

La respuesta de la petición es: 200


 76%|███████▌  | 76/100 [01:55<00:36,  1.52s/it]

La respuesta de la petición es: 200


 77%|███████▋  | 77/100 [01:56<00:34,  1.50s/it]

La respuesta de la petición es: 200


 78%|███████▊  | 78/100 [01:58<00:32,  1.49s/it]

La respuesta de la petición es: 200


 79%|███████▉  | 79/100 [01:59<00:31,  1.51s/it]

La respuesta de la petición es: 200


 80%|████████  | 80/100 [02:01<00:30,  1.52s/it]

La respuesta de la petición es: 200


 81%|████████  | 81/100 [02:02<00:28,  1.52s/it]

La respuesta de la petición es: 200


 82%|████████▏ | 82/100 [02:04<00:28,  1.56s/it]

La respuesta de la petición es: 200


 83%|████████▎ | 83/100 [02:06<00:26,  1.57s/it]

La respuesta de la petición es: 200


 84%|████████▍ | 84/100 [02:07<00:24,  1.56s/it]

La respuesta de la petición es: 200


 85%|████████▌ | 85/100 [02:09<00:23,  1.53s/it]

La respuesta de la petición es: 200


 86%|████████▌ | 86/100 [02:10<00:21,  1.52s/it]

La respuesta de la petición es: 200


 87%|████████▋ | 87/100 [02:12<00:20,  1.54s/it]

La respuesta de la petición es: 200


 88%|████████▊ | 88/100 [02:13<00:18,  1.52s/it]

La respuesta de la petición es: 200


 89%|████████▉ | 89/100 [02:15<00:16,  1.50s/it]

La respuesta de la petición es: 200


 90%|█████████ | 90/100 [02:16<00:15,  1.51s/it]

La respuesta de la petición es: 200


 91%|█████████ | 91/100 [02:18<00:13,  1.54s/it]

La respuesta de la petición es: 200


 92%|█████████▏| 92/100 [02:19<00:12,  1.53s/it]

La respuesta de la petición es: 200


 93%|█████████▎| 93/100 [02:21<00:10,  1.52s/it]

La respuesta de la petición es: 200


 94%|█████████▍| 94/100 [02:22<00:09,  1.51s/it]

La respuesta de la petición es: 200


 95%|█████████▌| 95/100 [02:24<00:07,  1.53s/it]

La respuesta de la petición es: 200


 96%|█████████▌| 96/100 [02:25<00:06,  1.51s/it]

La respuesta de la petición es: 200


 97%|█████████▋| 97/100 [02:27<00:04,  1.51s/it]

La respuesta de la petición es: 200


 98%|█████████▊| 98/100 [02:28<00:03,  1.51s/it]

La respuesta de la petición es: 200


 99%|█████████▉| 99/100 [02:30<00:01,  1.58s/it]

La respuesta de la petición es: 200


100%|██████████| 100/100 [02:32<00:00,  1.52s/it]


Unnamed: 0,nombre,categoria,seccion,descripcion,dimensiones,imagen
0,AFC65,Alfombra de cama,Dormitorio,Alfombrín de cama verde y flores,120x60x1 (cm),https://atrezzovazquez.es/admin/img_prod/AFC65...
1,AFC65,Alfombra de cama,Dormitorio,Alfombrín de cama verde y flores,120x60x1 (cm),https://atrezzovazquez.es/admin/img_prod/AFC65...
2,AFC65,Alfombra de cama,Dormitorio,Alfombrín de cama verde y flores,120x60x1 (cm),https://atrezzovazquez.es/admin/img_prod/AFC65...
3,AFC65,Alfombra de cama,Dormitorio,Alfombrín de cama verde y flores,120x60x1 (cm),https://atrezzovazquez.es/admin/img_prod/AFC65...
4,AFC65,Alfombra de cama,Dormitorio,Alfombrín de cama verde y flores,120x60x1 (cm),https://atrezzovazquez.es/admin/img_prod/AFC65...


In [20]:
# Quitamos el imite al ancho de las columnas paa que la url de las imagenes aparezca entera
pd.set_option('display.max_colwidth', None)

In [None]:
df_atrezzo.head()

In [17]:
# Guardamos el DataFrame en un archivo csv
df_atrezzo.to_csv('datos_atrezzo.csv', index=False)

In [19]:
df_atrezzo["imagen"]

0       https://atrezzovazquez.es/admin/img_prod/AFC65...
1       https://atrezzovazquez.es/admin/img_prod/AFC65...
2       https://atrezzovazquez.es/admin/img_prod/AFC65...
3       https://atrezzovazquez.es/admin/img_prod/AFC65...
4       https://atrezzovazquez.es/admin/img_prod/AFC65...
                              ...                        
4795    https://atrezzovazquez.es/admin/img_prod/AFC65...
4796    https://atrezzovazquez.es/admin/img_prod/AFC65...
4797    https://atrezzovazquez.es/admin/img_prod/AFC65...
4798    https://atrezzovazquez.es/admin/img_prod/AFC65...
4799    https://atrezzovazquez.es/admin/img_prod/AFC65...
Name: imagen, Length: 4800, dtype: object