<div style="text-align: center;">
  <img src="https://github.com/Hack-io-Data/Imagenes/blob/main/01-LogosHackio/logo_naranja@4x.png?raw=true" alt="esquema" />
</div>

## Contexto

**Descripción:**

SetMagic Productions es una empresa especializada en la provisión de servicios integrales para la realización de rodajes cinematográficos y audiovisuales. Nos dedicamos a facilitar tanto el atrezzo necesario para las producciones como los lugares idóneos para llevar a cabo los rodajes, ya sea en entornos al aire libre o en interiores.

**Servicios Ofrecidos:**

- **Atrezzo Creativo:** Contamos con un extenso catálogo de atrezzo que abarca desde accesorios hasta muebles y objetos temáticos para ambientar cualquier tipo de  escena.

- **Locaciones Únicas:** Nuestra empresa ofrece una amplia selección de locaciones, que incluyen desde escenarios naturales como playas, bosques y montañas, hasta espacios interiores como estudios, casas históricas y edificios emblemáticos.
- **Servicios de Producción:** Además de proporcionar atrezzo y locaciones, también ofrecemos servicios de producción audiovisual, incluyendo equipos de filmación, personal técnico y servicios de postproducción.

**Herramientas y Tecnologías:**

Para recopilar información sobre nuevas locaciones y tendencias en atrezzo, utilizamos herramientas de web scraping como Beautiful Soup y Selenium para extraer datos de sitios web relevantes y redes sociales especializadas en cine y producción audiovisual. También integramos APIs de plataformas de alquiler de locaciones y bases de datos de atrezzo para acceder a información actualizada y detallada.

**Almacenamiento de Datos:** (A trabajar la próxima semana)

La información recopilada mediante web scraping y APIs se almacenará tanto en una base de datos relacional SQL como en una base de datos no relacional MongoDB . Estas base de datos nos permite organizar eficientemente la información sobre locaciones, atrezzo, clientes y proyectos en curso, facilitando su acceso y gestión.

**Objetivo:**

Nuestro objetivo principal es proporcionar a nuestros clientes una experiencia fluida y personalizada en la búsqueda y selección de locaciones y atrezzo para sus proyectos audiovisuales. Utilizando tecnologías avanzadas y una amplia red de contactos en la industria, nos esforzamos por ofrecer soluciones creativas y de alta calidad que satisfagan las necesidades específicas de cada producción.


## Lab: Extracción de Información con Beautiful Soup

En este laboratorio seguirás enriqueciendo la base de datos para ofrecer a tus clientes un servicio más completo y personalizado. Para lograr esto, extraerás información valiosa sobre objetos de atrezzo de una web especializada. Utilizarás técnicas de web scraping con la biblioteca **Beautiful Soup** para obtener y organizar los datos de manera eficiente.

Trabajarás con la siguiente URL: [Atrezzo Vázquez](https://atrezzovazquez.es/shop.php?search_type=-1&search_terms=&limit=48&page=1). Esta página contiene una gran cantidad de objetos de atrezzo que pueden ser de interés para un proyecto de rodaje. Tu tarea será extraer información relevante de los productos listados en las primeras 100 páginas.

1. **Navegación y Extracción de Múltiples Páginas**:

   - La página web contiene varios elementos distribuidos en distintas páginas. Tu objetivo será iterar a través de las 100 primeras páginas y extraer la información deseada.

   - Debes asegurarte de que tu código sea capaz de navegar automáticamente por estas páginas y extraer datos de manera continua.

2. **Verificación del Código de Estado de la Respuesta**:

   - Antes de extraer cualquier información, es fundamental verificar que la solicitud a la página web ha sido exitosa. Un código de estado 200 indica que la página se ha cargado correctamente.

   - Si el código no es 200, debes imprimir un mensaje de error y detener la ejecución de la extracción para evitar problemas posteriores.

3. **Extracción de Información Específica**:

   De cada página, deberás extraer los siguientes detalles de los objetos de atrezzo:

   - **Nombre del Objeto**: El nombre o identificador del objeto.

   - **Categoría**: La categoría en la que se clasifica el objeto (ej.: mobiliario, decorado, utilería, etc.).

   - **Sección**: La sección específica dentro de la categoría.

   - **Descripción**: Una breve descripción del objeto que puede incluir detalles sobre su estilo, material o uso.

   - **Dimensiones**: El tamaño del objeto en formato (largo x ancho x alto).

   - **Enlace a la Imagen**: El link a la imagen del objeto, útil para tener una vista previa visual.

4. **Organización de los Datos en un Diccionario**:

   Una vez extraída la información, deberás organizarla en un diccionario con las siguientes claves:

   - `"nombre"`: Nombres del objeto.

   - `"categoria"`: Categoría a la que pertenece el objeto.

   - `"seccion"`: Sección específica dentro de la categoría.

   - `"descripcion"`: Breve descripción del objeto.

   - `"dimensiones"`: Dimensiones del objeto en el formato adecuado.

   - `"imagen"`: URL de la imagen del objeto.

5. **Almacenamiento de la Información en un DataFrame**:

   Una vez que tengas toda la información organizada en diccionarios, el siguiente paso es convertirla en un DataFrame de Pandas. Este DataFrame te permitirá manipular y analizar los datos con facilidad. Tu DataFrame debería verse similar al ejemplo proporcionado, donde cada fila representa un objeto diferente y cada columna contiene la información extraída:

![Dataframe](https://github.com/Hack-io-Data/Imagenes/blob/main/02-Imagenes/BS/df_atrezzo.png?raw=true)


6.  Consideraciones Adicionales:

- Asegúrate de manejar posibles errores o excepciones durante el scraping, como tiempos de espera agotados, páginas inaccesibles o datos faltantes.

- Recuerda que el scraping debe hacerse de manera respetuosa, evitando sobrecargar el servidor de la página web (puedes usar pausas entre solicitudes).

- Finalmente, asegúrate de almacenar el DataFrame en un archivo CSV para que puedas reutilizar esta información en análisis futuros.


In [1]:
# antes de empezar importamos las librerías que vamos a usar. 
# Importar librerías para web scraping y manipulación de datos
# -----------------------------------------------------------------------
from bs4 import BeautifulSoup
import requests

# Importar librerías para manipulación y análisis de datos
# -----------------------------------------------------------------------
import pandas as pd
import numpy as np

# Importar librerías para procesamiento de texto
# -----------------------------------------------------------------------
import re

import time



def obtener_objetos_atrezzo(url):
    
    """
    Extrae información de objetos de atrezzo para rodajes de una página web.

    Parameters:
        url (str): La URL de la página web que contiene la información de los objetos.

    Returns:
        dict: Un diccionario con la información de los objetos, que incluye nombres, categoría, sección, descripción,
              dimensiones e imágenes.
    """
    
    #Primero realizamos la conexión
    res = requests.get(url)

    #Comprobamos si la conexión ha sido o no exitosa
    if res.status_code != 200:
        print(f'La conexión no se ha realizado correctamente. Error {res.status_code}')
        return None
    
    #Creamos el objeto Beautiful Soup
    sopa = BeautifulSoup(res.content, 'html.parser')
    
    # Sacamos los nombres de los objetos
    lista_nombre_producto = sopa.find_all("a", {"class": "title"})

    # Sacamos las categorías de los objetos
    lista_categoria = sopa.find_all("a", {"class": "tag"})
    
    # Sacamos las secciones de los objetos
    lista_seccion = sopa.find_all("div", {"class": "cat-sec-box"})
    
    # Sacamos las descripciones de los objetos
    lista_descripcion = sopa.find_all("div", {"class": "article-container style-1"})
    #En este casi sólo queremos los 48 primeros valores de la lista.
    lista_descripcion = lista_descripcion[:48]

    #Sacamos las dimensiones de los objetos
    lista_dimensiones = sopa.find_all("div", {"class": "price"})

    # Sacamos las imágenes de los objetos
    lista_imagen = sopa.find_all("img")
    lista_imagen_def = []
    #Obtenemos el nombre de los productos de lista_nombre_producto
    nombre_prod_limpio = [i.getText() for i in  lista_nombre_producto]
    #Iteramos en la lista de nombres
    for nombre in nombre_prod_limpio:
        #Hacemos lo propio con la lista de imágenes
        for imagen in lista_imagen:
            #intentamos esta parte del código
            try:
                #Creamos una variable que busque el código del nombre en el link de la imagen. Si lo encuentra la lista link tendrá una longotud de 1.
                link = re.findall("/"+nombre+"/", imagen['src'])
                if len(link) > 0:
                    #Si ha encontrado alguna imagen añade el link en la lista_imagen_def definida previamente
                    lista_imagen_def.append('https://atrezzovazquez.es/'+str(imagen['src']))
                    #Ahora nombre es una lista vacía para que asegurar que sólo tenemos uan imagen por objeto.
                    nombre = []
            except:
                pass
    
    #Generamos una lista con todas las listas creadas previamente, exceptuando la de imagen
    lista_elementos = [lista_nombre_producto, lista_categoria, lista_seccion,lista_descripcion,lista_dimensiones]

    # Creamos un diccionario cuyas claves son las especificadas en el enunciado y los valores son listas vacías.
    diccionario = {"nombre": [], "categoría": [], "seccion": [], "descripcion":[], "dimensiones":[], "imagen" : []}
    
    #Iteramos por las claves del diccionario y la lista_elementos
    for key, lista in zip(diccionario.keys(), lista_elementos):
        #Obtenemos el texto de los elementos de cada lista
        textos = [i.getText() for i in lista]
        
        #Generamos un condicional por si hay algún dato faltante que se rellene con nulos
        if len(textos) < len(lista_nombre_producto):
            textos.append(np.nan)
        
        #En el caso de descripcion y dimensiones elminamos los '\n'
        if key == 'descripcion' or key == 'dimensiones':
            textos = [texto.replace("\n", "") for texto in textos]

        #Añadimos la info de textos a la clave
        diccionario[key] = textos

    #Generamos un condicional por si hay algún dato faltante que se rellene con nulos
    if len(lista_imagen_def) < len(diccionario['nombre']):
        lista_imagen_def.append(np.nan)
    #Añadimos las imágenes al diccionario
    diccionario['imagen'] = lista_imagen_def
    
    #Devuelve el diccionario generado
    return diccionario


start_time = time.time()
# Creamos un diccionario final donde añadiremos la info de todas las páginas
dicc_final = {"nombre": [], "categoría": [], "seccion": [], "descripcion":[], "dimensiones":[], "imagen":[]}
#Iteramos entre el número 1 y el 100
for i in range (1,101):
    pag_start_time = time.time()
    #Añadimos el número de página a la url
    url = f"https://atrezzovazquez.es/shop.php?search_type=-1&search_terms=&limit=48&page={i}"
    # Generamos una variable para llamar a la función.
    dicc_pag = obtener_objetos_atrezzo(url)
    #Vamos añadiendo la info al diccionario final
    for key in dicc_final.keys():
        dicc_final[key].extend(dicc_pag[key])
    pag_end_time = time.time()
    # print(f"\n El scrapeo de la PAGINA{i} duro {pag_end_time - pag_start_time:.2f} segundos.")
    
#Creamos el DataFrame.
df = pd.DataFrame(dicc_final)
# guardamos el df en un archivo csv
# df.to_csv('datos/objetos_atrezzo.csv', index=False)

end_time = time.time()
print(f"\n El scrapeo TOTAL duro {end_time - start_time:.2f} segundos.")


 El scrapeo TOTAL duro 68.13 segundos.


In [60]:
df

Unnamed: 0,nombre,categoría,seccion,descripcion,dimensiones,imagen
0,BAU12,Baul,Almacenaje Viaje,Baúl chapa cinchas madera,81x44x50 (cm),https://atrezzovazquez.es/admin/img_prod/BAU12...
1,BEB12,Bebé,Descatalogado,,0x0x0 (cm),https://atrezzovazquez.es/admin/img_prod/BEB12...
2,ESC12,Escaleras,Almacenaje,Escalera de tubo cuadrado hierro,42x4x207 (cm),https://atrezzovazquez.es/admin/img_prod/ESC12...
3,BIO12,Biombo,Dormitorio,Biombo 4 hojas madera nogal,220x5x185 (cm),https://atrezzovazquez.es/admin/img_prod/BIO12...
4,CAB12,Caballete,Pintor,Caballete de estudio plegable,48x48x150 (cm),https://atrezzovazquez.es/admin/img_prod/CAB12...
...,...,...,...,...,...,...
3499,TYV65,Televisores y vídeos,Televisor,"Televisión caja gris Toshiba 18""",62x46x43 (cm),https://atrezzovazquez.es/admin/img_prod/TYV65...
3500,PV65,Pie de vela,Candelabro,Candelabro de hierro en línea 3 luces,0x0x0 (cm),https://atrezzovazquez.es/admin/img_prod/PV65/...
3501,TP65,Tapices y estandartes,Salón,Tapiz bordado en terciopelo de una ciudad con ...,180x5x122 (cm),https://atrezzovazquez.es/admin/img_prod/TP65/...
3502,PER65,Perchero,Recibidor Italiano Dormitorio,Perchero de colgar italiano formica crema y bo...,1x1x1 (cm),https://atrezzovazquez.es/admin/img_prod/PER65...


In [2]:
# Importamos las librerías que necesitamos
import numpy as np
# Librerías de extracción de datos
# -----------------------------------------------------------------------
from bs4 import BeautifulSoup
import requests
import re
# Tratamiento de datos
# -----------------------------------------------------------------------
import pandas as pd


In [3]:
import random
import time
import itertools

In [4]:
# def funcion(sopa,df):
#     # descripciones
#     lista_info = sopa.findAll('div', {'class': "col-md-3 col-sm-4 shop-grid-item"})
#     descripciones= [element.find('p').getText() for element in lista_info]
#     # nombres
#     lista_nombres = sopa.findAll('a', {'class': 'title'})
#     nombres_objetos = [nombre.getText() for nombre in lista_nombres]
#     # Sacar categorías
#     lista_categorias = sopa.findAll('div', {'class': 'cat-sec'})
#     nombre_categorias = [ncat.getText().replace('\xa0\xa0','') for ncat in lista_categorias]
#     # Sección
#     lista_secciones = sopa.findAll('a', {'class': 'tag'})
#     nombre_secciones = [nsec.getText() for nsec in lista_secciones]
#     # Enlace a imagen
#     lista_imagen = sopa.findAll('img')
#     lista_imagen = [link.get('src') for link in lista_imagen]
#     # dimensiones
#     lista_dimensiones= sopa.findAll('div', {'class': 'price'})
#     nombre_dimensiones = [dimensiones.getText().strip() for dimensiones in lista_dimensiones]

#     datos_iguales = itertools.zip_longest(
#         nombres_objetos,nombre_categorias,nombre_secciones,descripciones,nombre_dimensiones,lista_imagen,fillvalue=None
#     )

#     diccionario = {'nombre': nombres_objetos, 'categoria': nombre_categorias, 'seccion': nombre_secciones, 'descripcion': descripciones, 'dimensiones': nombre_dimensiones, 'imagen': lista_imagen}
#     for item in datos_iguales:
#     df_articulos = pd.DataFrame(diccionario)
#     df = pd.concat([df, df_articulos])
#     return df

In [56]:
# la buena
def web(sopa,df):
    lista_info = sopa.findAll('div', {'class': "col-md-3 col-sm-4 shop-grid-item"})

    descripciones= [element.find('p').getText() for element in lista_info]

    # Sacar nombres
    lista_nombres = sopa.findAll('a', {'class': 'title'})
    nombres_objetos = [nombre.getText() for nombre in lista_nombres]
    # Sacar categorías
    lista_categorias = sopa.findAll('div', {'class': 'cat-sec'})
    nombre_categorias = [ncat.getText().replace('\xa0\xa0','') for ncat in lista_categorias]
    # Sección
    lista_secciones = sopa.findAll('a', {'class': 'tag'})
    nombre_secciones = [nsec.getText() for nsec in lista_secciones]

    # Descripción

    lista_img = []
    for elemento in lista_info:
        lista_img.append(elemento.find('img')['src'])
    # Enlace a imagen
    # lista_imagen = sopa_atrezzo.findAll('img')
    # lista_imagen = [link.get('src') for link in lista_imagen]

    lista_dimensiones= sopa.findAll('div', {'class': 'price'})
    nombre_dimensiones = [dimensiones.getText().strip() for dimensiones in lista_dimensiones]
    # for i in nombre_dimensiones:
    #     i.getText().strip()

    diccionario = {'nombre': nombres_objetos, 'categoria': nombre_categorias, 'seccion': nombre_secciones, 'descripcion': descripciones, 'dimensiones': nombre_dimensiones, 'imagen': lista_img}
    df_articulos = pd.DataFrame(diccionario)
    df = pd.concat([df, df_articulos])
    return df

In [6]:
# #funcion final prueba
# for i in range(1,101):
#     url_atrezzo = f'https://atrezzovazquez.es/shop.php?search_type=-1&search_terms=&limit=48&page={i}'
#     # Paso 2
#     response = requests.get(url_atrezzo)
#     # Paso 3
#     if str(response) == '<Response [200]>':
#         print(response.status_code)
#         # Paso 4
#         sopa_atrezzo = (BeautifulSoup(response.content, 'html.parser'))
#         df_final = pd.DataFrame()
#         df_final = web(sopa_atrezzo, df_final)
#         time.sleep(random.uniform(1,3))
#     else: 
#         print('Hay un error')
#         break


200


TypeError: web() takes 1 positional argument but 2 were given

In [3]:

# def datosweb(sopa,df):
#     # descripciones
#     lista_elementos = sopa.findAll('div', {'class': "col-md-3 col-sm-4 shop-grid-item"})
#     descripciones= [element.find('p').getText() for element in lista_elementos]
#     # nombres
#     nombres_objetos = [element.find('').getText() for element in lista_elementos]
#     # Sacar categorías
#     nombre_categorias = [ncat.getText().replace('\xa0\xa0','') for ncat in lista_elementos]
#     # Sección
#     nombre_secciones = [nsec.getText() for nsec in lista_elementos]
#     # Enlace a imagen
#     lista_imagen = sopa.findAll('img')
#     lista_imagen = [link.get('src') for link in lista_elementos]
#     lista_imagen = [elemento.findAll('img')[0].get('src') for elemento in lista_elementos]
#     # dimensiones
#     lista_dimensiones= sopa.findAll('div', {'class': 'price'})
#     nombre_dimensiones = [dimensiones.getText().strip() for dimensiones in lista_elementos]

#     datos_iguales = itertools.zip_longest(
#         nombres_objetos,nombre_categorias,nombre_secciones,descripciones,nombre_dimensiones,lista_imagen,fillvalue=None
#     )

#     diccionario = {'nombre': nombres_objetos, 'categoria': nombre_categorias, 'seccion': nombre_secciones, 'descripcion': descripciones, 'dimensiones': nombre_dimensiones, 'imagen': lista_imagen}
#     for item in datos_iguales:
#         diccionario['nombre'].append(item[0])
#         diccionario['categoria'].append(item[1])
#         diccionario['seccion'].append(item[2])
#         diccionario['descripcion'].append(item[3])
#         diccionario['dimensiones'].append(item[4])
#         diccionario['imagen'].append(item[5])
        
#     print(datos_iguales)
#     df_articulos = pd.DataFrame(diccionario)
#     df = pd.concat([df, df_articulos])
#     return df

In [7]:
# def scrape_page(url, df):
#     try:
#         response = requests.get(url)
#         response.raise_for_status() 


#         print(f"Código de respuesta: {response.status_code}")

#         sopa_atrezzo = BeautifulSoup(response.content, 'html.parser')

#         df = funcion(sopa_atrezzo, df)

#         time.sleep(random.uniform(1, 3))

#     except requests.RequestException as e:
#         print(f'Error al acceder a la página: {e}')
    
#     return df


In [35]:

# # Ejemplo de uso
# url_atrezzo = 'https://atrezzovazquez.es/shop.php?search_type=-1&search_terms=&limit=48&page=1'
# df_final = pd.DataFrame()  # Crear un DataFrame vacío

# # Llamar a la función para realizar el scraping
# df_final = datosweb(url_atrezzo, df_final)

# # Mostrar el DataFrame resultante
# print(df_final)


NameError: name 'datosweb' is not defined

In [7]:
# prueba
url_atrezzo = f'https://atrezzovazquez.es/shop.php?search_type=-1&search_terms=&limit=48&page=1'
# Paso 2
response = requests.get(url_atrezzo)
# Paso 3
if str(response) == '<Response [200]>':
    print(response.status_code)
    # Paso 4
    sopa_atrezzo = (BeautifulSoup(response.content, 'html.parser'))
    time.sleep(random.uniform(1,3))
else: 
    print('Hay un error')
    


200


In [57]:
# Paso 1
# sopa_atrezzo = []
for i in range(1,101):
    url_atrezzo = f'https://atrezzovazquez.es/shop.php?search_type=-1&search_terms=&limit=48&page={i}'
    # Paso 2
    response = requests.get(url_atrezzo)
    # Paso 3
    if str(response) == '<Response [200]>':
        print(response.status_code)
        # Paso 4
        sopa_atrezzo = (BeautifulSoup(response.content, 'html.parser'))
        df_final = pd.DataFrame()
        df_final = web(sopa_atrezzo, df_final)
        time.sleep(random.uniform(1,3))
    else: 
        print('Hay un error')
        break

    

200


ValueError: All arrays must be of the same length

In [None]:
df_final = pd.DataFrame()
for i in año:
    df_final = funcion(sopa_atrezzo, df_final)

In [30]:

# <div class="col-md-3 col-sm-4 shop-grid-item" bis_skin_checked="1">
#                                                         <div class="product-slide-entry shift-image" bis_skin_checked="1">
#                                                             <div class="product-image" bis_skin_checked="1"><img src="admin/img_prod/ALF1/ALF1-720x540.png" alt=""><img src="admin/img_prod/ALF1/ALF1-720x540.png" alt=""><div class="bottom-line left-attached" bis_skin_checked="1">
#                                                                     <a class="bottom-line-a square" onclick="add_to_chart('ALF1')"><i class="fa fa-shopping-cart"></i></a>
#                                                                     <a class="bottom-line-a square open-image" onclick="expand('ALF1')"><i class="fa fa-expand"></i></a>
#                                                                 </div>
#                                                             </div><a class="tag" href="#">Alfombra</a><a class="title" href="product.php?prod=ALF1">ALF1</a>
#                                                             <div class="cat-sec-box" bis_skin_checked="1"><div class="cat-sec" bis_skin_checked="1">Arabe&nbsp;&nbsp;</div></div>
#                                                             <div class="article-container style-1" bis_skin_checked="1">
#                                                                 <p>Alfombra persa marrón (tiene unas manchas que no se quitan).</p>
#                                                             </div>
#                                                             <div class="price" bis_skin_checked="1">
#                                                                 <div bis_skin_checked="1">460x340x1 (cm)</div>
#                                                             </div>
#                                                             <div class="list-buttons" bis_skin_checked="1">
#                                                                 <a class="button style-10" onclick="add_to_chart('ALF1')">Añadir al presupuesto</a>
#                                                             </div>
#                                                         </div>
#                                                         <div class="clear" bis_skin_checked="1"></div>
#                                                     </div>

In [34]:
lista_info = sopa_atrezzo.findAll('div', {'class': "col-md-3 col-sm-4 shop-grid-item"})

descripciones= [element.find('p').getText() for element in lista_info]

# Sacar nombres
lista_nombres = sopa_atrezzo.findAll('a', {'class': 'title'})
nombres_objetos = [nombre.getText() for nombre in lista_nombres]
# Sacar categorías
lista_categorias = sopa_atrezzo.findAll('div', {'class': 'cat-sec'})
nombre_categorias = [ncat.getText().replace('\xa0\xa0','') for ncat in lista_categorias]
# Sección
lista_secciones = sopa_atrezzo.findAll('a', {'class': 'tag'})
nombre_secciones = [nsec.getText() for nsec in lista_secciones]

# Descripción

lista_img = []
for elemento in lista_info:
    lista_img.append(elemento.find('img')['src'])
# Enlace a imagen
# lista_imagen = sopa_atrezzo.findAll('img')
# lista_imagen = [link.get('src') for link in lista_imagen]

lista_dimensiones= sopa_atrezzo.findAll('div', {'class': 'price'})
nombre_dimensiones = [dimensiones.getText().strip() for dimensiones in lista_dimensiones]
# for i in nombre_dimensiones:
#     i.getText().strip()


<div class="col-md-3 col-sm-4 shop-grid-item">
<div class="product-slide-entry shift-image">
<div class="product-image"><img alt="" src="admin/img_prod/AFC1/AFC1-720x540.png"/><img alt="" src="admin/img_prod/AFC1/AFC1-720x540.png"/><div class="bottom-line left-attached">
<a class="bottom-line-a square" onclick="add_to_chart('AFC1')"><i class="fa fa-shopping-cart"></i></a>
<a class="bottom-line-a square open-image" onclick="expand('AFC1')"><i class="fa fa-expand"></i></a>
</div>
</div><a class="tag" href="#">Alfombra de cama</a><a class="title" href="product.php?prod=AFC1">AFC1</a>
<div class="cat-sec-box"><div class="cat-sec">Dormitorio  </div></div>
<div class="article-container style-1">
<p>Alfombrín de cama círculos azules</p>
</div>
<div class="price">
<div>150x72x1 (cm)</div>
</div>
<div class="list-buttons">
<a class="button style-10" onclick="add_to_chart('AFC1')">Añadir al presupuesto</a>
</div>
</div>
<div class="clear"></div>
</div>

['Arabe',
 'Dormitorio',
 'Alemán',
 'Comedor',
 'Astronomía',
 'Carcel',
 'Dormitorio',
 'Dormitorio',
 'Militar',
 'Religioso',
 'Columpio',
 'Jardín',
 'Portugues',
 'Bambú',
 'Jardín',
 'Jardín',
 'Bañera',
 'Gótico',
 'Bar y cafetería',
 'Rústico',
 'Farmacia',
 'Hospital',
 'Americano',
 'Viaje',
 'Columpio',
 'Español',
 'Recibidor',
 'Tienda',
 'Dormitorio',
 'Salón',
 'Calefaccion',
 'Medieval',
 'Cine',
 'Teatro',
 'Frances',
 'Pintor',
 'Tienda',
 'Cajas',
 'Militar',
 'Cabecero',
 'Dormitorio',
 'Iglesia',
 'Religioso',
 'Rústico',
 'Jardín',
 'Mimbre',
 'Salón',
 'Cocina',
 'Electrodomestico',
 'Dormitorio',
 'Isabelino',
 'Frances',
 'Recibidor',
 'Costurero',
 'Palacio',
 'Pintor',
 'Retratos',
 'Tienda',
 'Dormitorio',
 'Frances',
 'Descatalogado',
 'Calefaccion',
 'Religioso',
 'Electrodomestico']

In [43]:
nombre_secciones[0]

'Alfombra'

In [10]:
lista_imagen2 = sopa_atrezzo.findAll('img')

lista_imagen2 = [link.get('src') for link in lista_imagen2]
len(lista_imagen2)

117

In [31]:
lista_info[0]
imagenes = lista_info[0].findAll('div', {'class': 'product-image'})
imagenes

[<div class="product-image"><img alt="" src="admin/img_prod/ALF1/ALF1-720x540.png"/><img alt="" src="admin/img_prod/ALF1/ALF1-720x540.png"/><div class="bottom-line left-attached">
 <a class="bottom-line-a square" onclick="add_to_chart('ALF1')"><i class="fa fa-shopping-cart"></i></a>
 <a class="bottom-line-a square open-image" onclick="expand('ALF1')"><i class="fa fa-expand"></i></a>
 </div>
 </div>]

In [20]:
len(lista_imagen)

0

In [80]:
# Dimensiones


['460x340x1 (cm)',
 '100x10x60 (cm)',
 '150x72x1 (cm)',
 '207x64x300 (cm)',
 '78x78x130 (cm)',
 '65x60x120 (cm)',
 '136x54x80 (cm)',
 '150x57x225 (cm)',
 '70x22x130 (cm)',
 '43x100x30 (cm)',
 '70x70x170 (cm)',
 '140x135x175 (cm)',
 '154x53x185 (cm)',
 '36x36x54 (cm)',
 '70x70x47 (cm)',
 '181x80x70 (cm)',
 '95x35x150 (cm)',
 '60x60x93 (cm)',
 '47x45x132 (cm)',
 '58x58x103 (cm)',
 '1x1x1 (cm)',
 '110x10x190 (cm)',
 '50x90x140 (cm)',
 '240x5x170 (cm)',
 '1x120x105 (cm)',
 '30x30x40 (cm)',
 '254x60x80 (cm)',
 '75x75x215 (cm)',
 '1x1x1 (cm)',
 '70x40x128 (cm)',
 '42x40x34 (cm)',
 '173x6x156 (cm)',
 '68x95x186 (cm)',
 '150x50x53 (cm)',
 '0x0x0 (cm)',
 '24x24x110 (cm)',
 '180x70x70 (cm)',
 '55x57x84 (cm)',
 '135x63x100 (cm)',
 '115x50x85 (cm)',
 '54x30x65 (cm)',
 '137x10x240 (cm)',
 '10x1x15 (cm)',
 '95x60x190 (cm)',
 '0x0x0 (cm)',
 '57x47x67 (cm)',
 '62x34x110 (cm)',
 '1x1x1 (cm)']