<div style="text-align: center;">
  <img src="https://github.com/Hack-io-Data/Imagenes/blob/main/01-LogosHackio/logo_naranja@4x.png?raw=true" alt="esquema" />
</div>

## Contexto

**Descripción:**

SetMagic Productions es una empresa especializada en la provisión de servicios integrales para la realización de rodajes cinematográficos y audiovisuales. Nos dedicamos a facilitar tanto el atrezzo necesario para las producciones como los lugares idóneos para llevar a cabo los rodajes, ya sea en entornos al aire libre o en interiores.

**Servicios Ofrecidos:**

- **Atrezzo Creativo:** Contamos con un extenso catálogo de atrezzo que abarca desde accesorios hasta muebles y objetos temáticos para ambientar cualquier tipo de  escena.

- **Locaciones Únicas:** Nuestra empresa ofrece una amplia selección de locaciones, que incluyen desde escenarios naturales como playas, bosques y montañas, hasta espacios interiores como estudios, casas históricas y edificios emblemáticos.
- **Servicios de Producción:** Además de proporcionar atrezzo y locaciones, también ofrecemos servicios de producción audiovisual, incluyendo equipos de filmación, personal técnico y servicios de postproducción.

**Herramientas y Tecnologías:**

Para recopilar información sobre nuevas locaciones y tendencias en atrezzo, utilizamos herramientas de web scraping como Beautiful Soup y Selenium para extraer datos de sitios web relevantes y redes sociales especializadas en cine y producción audiovisual. También integramos APIs de plataformas de alquiler de locaciones y bases de datos de atrezzo para acceder a información actualizada y detallada.

**Almacenamiento de Datos:** (A trabajar la próxima semana)

La información recopilada mediante web scraping y APIs se almacenará tanto en una base de datos relacional SQL como en una base de datos no relacional MongoDB . Estas base de datos nos permite organizar eficientemente la información sobre locaciones, atrezzo, clientes y proyectos en curso, facilitando su acceso y gestión.

**Objetivo:**

Nuestro objetivo principal es proporcionar a nuestros clientes una experiencia fluida y personalizada en la búsqueda y selección de locaciones y atrezzo para sus proyectos audiovisuales. Utilizando tecnologías avanzadas y una amplia red de contactos en la industria, nos esforzamos por ofrecer soluciones creativas y de alta calidad que satisfagan las necesidades específicas de cada producción.


## Lab: Extracción de Información con Beautiful Soup

En este laboratorio seguirás enriqueciendo la base de datos para ofrecer a tus clientes un servicio más completo y personalizado. Para lograr esto, extraerás información valiosa sobre objetos de atrezzo de una web especializada. Utilizarás técnicas de web scraping con la biblioteca **Beautiful Soup** para obtener y organizar los datos de manera eficiente.

Trabajarás con la siguiente URL: [Atrezzo Vázquez](https://atrezzovazquez.es/shop.php?search_type=-1&search_terms=&limit=48&page=1). Esta página contiene una gran cantidad de objetos de atrezzo que pueden ser de interés para un proyecto de rodaje. Tu tarea será extraer información relevante de los productos listados en las primeras 100 páginas.

1. **Navegación y Extracción de Múltiples Páginas**:

   - La página web contiene varios elementos distribuidos en distintas páginas. Tu objetivo será iterar a través de las 100 primeras páginas y extraer la información deseada.

   - Debes asegurarte de que tu código sea capaz de navegar automáticamente por estas páginas y extraer datos de manera continua.

2. **Verificación del Código de Estado de la Respuesta**:

   - Antes de extraer cualquier información, es fundamental verificar que la solicitud a la página web ha sido exitosa. Un código de estado 200 indica que la página se ha cargado correctamente.

   - Si el código no es 200, debes imprimir un mensaje de error y detener la ejecución de la extracción para evitar problemas posteriores.

3. **Extracción de Información Específica**:

   De cada página, deberás extraer los siguientes detalles de los objetos de atrezzo:

   - **Nombre del Objeto**: El nombre o identificador del objeto.

   - **Categoría**: La categoría en la que se clasifica el objeto (ej.: mobiliario, decorado, utilería, etc.).

   - **Sección**: La sección específica dentro de la categoría.

   - **Descripción**: Una breve descripción del objeto que puede incluir detalles sobre su estilo, material o uso.

   - **Dimensiones**: El tamaño del objeto en formato (largo x ancho x alto).

   - **Enlace a la Imagen**: El link a la imagen del objeto, útil para tener una vista previa visual.

4. **Organización de los Datos en un Diccionario**:

   Una vez extraída la información, deberás organizarla en un diccionario con las siguientes claves:

   - `"nombre"`: Nombres del objeto.

   - `"categoria"`: Categoría a la que pertenece el objeto.

   - `"seccion"`: Sección específica dentro de la categoría.

   - `"descripcion"`: Breve descripción del objeto.

   - `"dimensiones"`: Dimensiones del objeto en el formato adecuado.

   - `"imagen"`: URL de la imagen del objeto.

5. **Almacenamiento de la Información en un DataFrame**:

   Una vez que tengas toda la información organizada en diccionarios, el siguiente paso es convertirla en un DataFrame de Pandas. Este DataFrame te permitirá manipular y analizar los datos con facilidad. Tu DataFrame debería verse similar al ejemplo proporcionado, donde cada fila representa un objeto diferente y cada columna contiene la información extraída:

![Dataframe](https://github.com/Hack-io-Data/Imagenes/blob/main/02-Imagenes/BS/df_atrezzo.png?raw=true)


6.  Consideraciones Adicionales:

- Asegúrate de manejar posibles errores o excepciones durante el scraping, como tiempos de espera agotados, páginas inaccesibles o datos faltantes.

- Recuerda que el scraping debe hacerse de manera respetuosa, evitando sobrecargar el servidor de la página web (puedes usar pausas entre solicitudes).

- Finalmente, asegúrate de almacenar el DataFrame en un archivo CSV para que puedas reutilizar esta información en análisis futuros.


In [1]:
import numpy as np
import pandas as pd
from bs4 import BeautifulSoup
import requests
from datetime import datetime

#import sys 
#sys.path.append("../")   aquí no es necesario porque tengo el src a la misma altura que el jupyter

from scr.scr_funciones_beauty import crear_df_pag, creardf_final

In [2]:
url_atrezzo1= "https://atrezzovazquez.es/shop.php?search_type=-1&search_terms=&limit=48&page=1"
res_atrezzo1= requests.get(url_atrezzo1)
res_atrezzo1.status_code
sopa_atrezzo1= BeautifulSoup(res_atrezzo1.content, "html.parser")

Intentos de imagen

In [3]:
# lista_imagen= sopa_atrezzo1.find_all("img")
# lista_imagen

In [4]:

# lista_imagen= sopa_atrezzo1.find_all("img")
# lista_imagen=lista_imagen[2:-5]
# lista_nueva= []
# for i in range(0, len(lista_imagen), 2):
#     lista_nueva.append(lista_imagen[i])
# lista_nueva

In [5]:
# lista_box= sopa_atrezzo1.find_all("div", class_ = "product-image" )
# for box in lista_box:
#     lista_nueva= box.find("img")
#     imagen_at = []
#     for imagen in lista_nueva:
#         imagen_at.append(imagen.get("src")) 


# imagen_at


# df_img_atrezzo.drop( [0,1] ,axis= 0, inplace= True)    
# df_img_atrezzo.drop( "index" ,axis= 1, inplace= True)
# df_img_atrezzo.head().reset_index()


In [6]:
# lista_box= sopa_atrezzo1.find_all("div", class_ = "product-image" )
# for imegen in lista_box:
#     print(imegen.find("img").get("src"))

In [7]:
# lista_imagen= sopa_atrezzo1.find_all("div", {"class": "product-image"}) 
# imagen_at=[imagen.get("src") for imagen in lista_imagen]
# df_img_at= pd.DataFrame(imagen_at)
# df_img_at.drop(columns= 0, inplace= True)
# df_img_atrezzo= df_img_at.copy()
# df_img_atrezzo["imagen_atrezzo"]= imagen_at
# # df_img_atrezzo = df_img_atrezzo.applymap(lambda x: x.replace("\n","").replace("(cm)",""))
# df_img_atrezzo.head()



Esta es la que hice yo pero que al final adapté a la de Gon

In [8]:
lista_box= sopa_atrezzo1.find_all("div", class_ = "product-image" )
list_imagenes = [imegen.find("img").get("src") for imegen in lista_box]
df_de_cosas = pd.DataFrame(list_imagenes,columns = ["imagen"])
df_de_cosas["nombre"] = df_de_cosas["imagen"].apply(lambda x: x.split("/")[2])
df_de_cosas

Unnamed: 0,imagen,nombre
0,admin/img_prod/ALF1/ALF1-720x540.png,ALF1
1,admin/img_prod/ADO1/ADO1-720x540.png,ADO1
2,admin/img_prod/AFC1/AFC1-720x540.png,AFC1
3,admin/img_prod/AP1/AP1-720x540.png,AP1
4,admin/img_prod/AST1/AST1-pie-720x540.png,AST1
5,admin/img_prod/TOR1/TOR1-1-720x540.png,TOR1
6,admin/img_prod/ARC1/ARC1-1-720x540.png,ARC1
7,admin/img_prod/AR1/AR1-720x540.png,AR1
8,admin/img_prod/ARM1/ARM1-1-720x540.png,ARM1
9,admin/img_prod/ATD1/ATD1-1-720x540.png,ATD1


Al final utilicé el de gon porque el mío en algun punto intentanba hacer un .get sobre None lo que daba error y me daba 4700 filas aprox en lugar de 4800

In [9]:
#GON
lista_box= sopa_atrezzo1.find_all("div", class_ = "product-image" )
imagenes_atrezo = [f"https://atrezzovazquez.es/{imagen.contents[0].get('src')}" for imagen in lista_box]
df_de_imagen = pd.DataFrame(imagenes_atrezo,columns=["imagen"])

Nombre todo junto

In [10]:
lista_nombre_at= sopa_atrezzo1.find_all("a", {"class": "title"})

nombre_at=[nombre.getText() for nombre in lista_nombre_at]

df_nombre_at= pd.DataFrame(nombre_at)

df_nombre_at.drop(columns= 0, inplace=True)

df_nombre_atrezzo= df_nombre_at.copy()

df_nombre_atrezzo["nombre_atrezzo"]= nombre_at
df_nombre_atrezzo.shape

(48, 1)

categoria todo junto

In [11]:
lista_categoria= sopa_atrezzo1.find_all("a", {"class": "tag"})
categoria_at=[categoria.getText() for categoria in lista_categoria]
df_cat_at= pd.DataFrame(categoria_at)
df_cat_at.drop(columns= 0, inplace= True)
df_cat_atrezzo= df_cat_at.copy()
df_cat_atrezzo["categoria_atrezzo"]= categoria_at
df_cat_atrezzo = df_cat_atrezzo.applymap(lambda x: x.replace("\n",""))
df_cat_atrezzo.shape

  df_cat_atrezzo = df_cat_atrezzo.applymap(lambda x: x.replace("\n",""))


(47, 1)

Sección todo junto

In [12]:
lista_seccion= sopa_atrezzo1.find_all("div", {"class": "cat-sec-box"})  #Hemos cogido la box para que los indices coincidan (aunque haya algunos que vayan a tenerlo vacío por no tener seccion)
seccion_at=[seccion.getText() for seccion in lista_seccion]
df_sec_at= pd.DataFrame(seccion_at)
df_sec_at.drop(columns= 0, inplace= True)
df_sec_atrezzo= df_sec_at.copy()
df_sec_atrezzo["seccion_atrezzo"]= seccion_at
df_sec_atrezzo = df_sec_atrezzo.applymap(lambda x: x.replace("\n",""))
df_sec_atrezzo.shape

  df_sec_atrezzo = df_sec_atrezzo.applymap(lambda x: x.replace("\n",""))


(48, 1)

Descripcion todo junto

In [13]:
lista_descripcion= sopa_atrezzo1.find_all("div", {"class": "product-slide-entry shift-image"}) 
descripcion_at=[descripcion.contents[7].getText() for descripcion in lista_descripcion]
df_des_at= pd.DataFrame(descripcion_at)
df_des_at.drop(columns= 0, inplace= True)
df_des_atrezzo= df_des_at.copy()
df_des_atrezzo["descripcion_atrezzo"]= descripcion_at
df_des_atrezzo = df_des_atrezzo.applymap(lambda x: x.replace("\n",""))
df_des_atrezzo.shape

  df_des_atrezzo = df_des_atrezzo.applymap(lambda x: x.replace("\n",""))


(48, 1)

Medidas todo junto

In [14]:
lista_dimension= sopa_atrezzo1.find_all("div", {"class": "price"}) 
dimension_at=[dimension.getText() for dimension in lista_dimension]
df_dim_at= pd.DataFrame(dimension_at)
df_dim_atrezzo= df_dim_at.copy()
df_dim_atrezzo["descripcion_atrezzo"]= dimension_at
df_dim_atrezzo = df_dim_atrezzo["descripcion_atrezzo"].str.split("x",expand=True)
df_dim_atrezzo.columns = ["largo","ancho","alto"] 
df_dim_atrezzo = df_dim_atrezzo.applymap(lambda x: x.replace("\n","").replace("(cm)","")).astype(int)
df_dim_atrezzo.shape
df_dim_atrezzo.dtypes

  df_dim_atrezzo = df_dim_atrezzo.applymap(lambda x: x.replace("\n","").replace("(cm)","")).astype(int)


largo    int64
ancho    int64
alto     int64
dtype: object

In [15]:

crear_df_pag("https://atrezzovazquez.es/shop.php?search_type=-1&search_terms=&limit=48&page=1").head()

  df_cat_atrezzo = df_cat_atrezzo.applymap(lambda x: x.replace("\n",""))
  df_sec_atrezzo = df_sec_atrezzo.applymap(lambda x: x.replace("\n",""))
  df_des_atrezzo = df_des_atrezzo.applymap(lambda x: x.replace("\n",""))
  df_dim_atrezzo = df_dim_atrezzo.applymap(lambda x: x.replace("\n","").replace("(cm)","")).astype(int)


Unnamed: 0,nombre_atrezzo,imagen_atrezzo,categoria_atrezzo,seccion_atrezzo,descripcion_atrezzo,largo,ancho,alto
0,ALF1,https://atrezzovazquez.es/admin/img_prod/ALF1/...,Alfombra,Arabe,Alfombra persa marrón (tiene unas manchas que ...,460,340,1
1,ADO1,https://atrezzovazquez.es/admin/img_prod/ADO1/...,Adornos,,Vitrina con abanico,100,10,60
2,AFC1,https://atrezzovazquez.es/admin/img_prod/AFC1/...,Alfombra de cama,Dormitorio,Alfombrín de cama círculos azules,150,72,1
3,AP1,https://atrezzovazquez.es/admin/img_prod/AP1/A...,Aparador,Alemán Comedor,Aparador alemán 2 cuerpos,207,64,300
4,AST1,https://atrezzovazquez.es/admin/img_prod/AST1/...,Atrezzo astronomia,Astronomía,Pie de madera para astrolabio,78,78,130


In [16]:
atrezzo_datos=creardf_final()

  df_cat_atrezzo = df_cat_atrezzo.applymap(lambda x: x.replace("\n",""))
  df_sec_atrezzo = df_sec_atrezzo.applymap(lambda x: x.replace("\n",""))
  df_des_atrezzo = df_des_atrezzo.applymap(lambda x: x.replace("\n",""))
  df_dim_atrezzo = df_dim_atrezzo.applymap(lambda x: x.replace("\n","").replace("(cm)","")).astype(int)
  df_cat_atrezzo = df_cat_atrezzo.applymap(lambda x: x.replace("\n",""))
  df_sec_atrezzo = df_sec_atrezzo.applymap(lambda x: x.replace("\n",""))
  df_des_atrezzo = df_des_atrezzo.applymap(lambda x: x.replace("\n",""))
  df_dim_atrezzo = df_dim_atrezzo.applymap(lambda x: x.replace("\n","").replace("(cm)","")).astype(int)
  df_cat_atrezzo = df_cat_atrezzo.applymap(lambda x: x.replace("\n",""))
  df_sec_atrezzo = df_sec_atrezzo.applymap(lambda x: x.replace("\n",""))
  df_des_atrezzo = df_des_atrezzo.applymap(lambda x: x.replace("\n",""))
  df_dim_atrezzo = df_dim_atrezzo.applymap(lambda x: x.replace("\n","").replace("(cm)","")).astype(int)
  df_cat_atrezzo = df_cat_atrez

In [17]:
atrezzo_datos.isna().sum()


nombre_atrezzo         0
imagen_atrezzo         0
categoria_atrezzo      9
seccion_atrezzo        0
descripcion_atrezzo    0
largo                  0
ancho                  0
alto                   0
dtype: int64

He creado una categoría que se llame Otros

In [18]:
atrezzo_datos["categoria_atrezzo"].fillna(value="otros", inplace=True)
atrezzo_datos.isna().sum()

The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  atrezzo_datos["categoria_atrezzo"].fillna(value="otros", inplace=True)


nombre_atrezzo         0
imagen_atrezzo         0
categoria_atrezzo      0
seccion_atrezzo        0
descripcion_atrezzo    0
largo                  0
ancho                  0
alto                   0
dtype: int64

In [19]:
atrezzo_datos.duplicated().sum()

np.int64(0)

In [20]:
atrezzo_datos= atrezzo_datos.reindex(columns=["nombre_atrezzo", "categoria_atrezzo", "seccion_atrezzo", "descripcion_atrezzo","largo","ancho", "alto","imagen_atrezzo"])

In [21]:
atrezzo_datos.shape

(4800, 8)

In [22]:
atrezzo_datos.head()

Unnamed: 0,nombre_atrezzo,categoria_atrezzo,seccion_atrezzo,descripcion_atrezzo,largo,ancho,alto,imagen_atrezzo
0,ALF1,Alfombra,Arabe,Alfombra persa marrón (tiene unas manchas que ...,460,340,1,https://atrezzovazquez.es/admin/img_prod/ALF1/...
1,ADO1,Adornos,,Vitrina con abanico,100,10,60,https://atrezzovazquez.es/admin/img_prod/ADO1/...
2,AFC1,Alfombra de cama,Dormitorio,Alfombrín de cama círculos azules,150,72,1,https://atrezzovazquez.es/admin/img_prod/AFC1/...
3,AP1,Aparador,Alemán Comedor,Aparador alemán 2 cuerpos,207,64,300,https://atrezzovazquez.es/admin/img_prod/AP1/A...
4,AST1,Atrezzo astronomia,Astronomía,Pie de madera para astrolabio,78,78,130,https://atrezzovazquez.es/admin/img_prod/AST1/...


In [23]:
atrezzo_datos.to_csv("datos/atrezzo_datos.csv")