# **Scraping - Trabajo Final Open Data**

In [1]:
from bs4 import BeautifulSoup
import requests
import os
import pandas as pd

### NISSEI

###### FUNCION PARA OBTENER LA CANTIDAD DE PAGINACIONES NECESARIA

In [2]:
def get_cant_paginas_nissei(url):
  r = requests.get(url)
  content = r.content
  soup = BeautifulSoup(content)

  numeros = soup.find_all('span', attrs={'class':'toolbar-number'})

  print("Cantidad de numeros hallados: " + str(len(numeros)))

  if   len(numeros) == 6:
    posicion_total = 2
  elif len(numeros) == 3:
    posicion_total = 2
  elif len(numeros) == 2:
    posicion_total = 1
  elif len(numeros) == 1:
    posicion_total = 0
  else:
    posicion_total = 0

  if len(numeros) != 0:
    cant_productos = numeros[posicion_total].get_text(strip=True)
    print("Cantidad de productos segun pagina: " + str(cant_productos))
    cant_paginas = (int(cant_productos) // 60)
    if (int(cant_productos) % 60) > 0:
      cant_paginas += 1
  else:
    cant_paginas = 1
  
  return (cant_paginas)

###### FUNCION PARA SCRAPEADO DE PRODUCTOS

In [3]:
def scrapeado_producto_nissei(url_base, categoria):
  
  cant_paginas = get_cant_paginas_nissei(url_base)
  print("Paginas a scrapear: " + str(cant_paginas))

  urls = []
  for pagina in range(1, cant_paginas + 1):
    urls.append(str(url_base + f"?p={pagina}&product_list_limit=60"))

  productos = []

  for url in urls:
    r = requests.get(url)
    content = r.content
    soup = BeautifulSoup(content)

    print("URL siendo scrapeada: " + url)

    for producto in soup.find_all('div', attrs='product-item-info'):
      #print("Producto encontrado")
      categoria_producto = categoria

      nombre_producto = producto.find('a', attrs='product-item-link')
      nombre_producto = nombre_producto.get_text(strip=True)

      precio_producto = str(producto.find('span', attrs='price'))
      precio_producto = precio_producto
      precio_real = []
      for letra in precio_producto:
        try:
          digito = int(letra)
          precio_real.append(str(digito))
        except:
          continue
      precio_producto = "".join(precio_real)

      tienda_producto = "NISSEI"

      productos.append([categoria_producto, nombre_producto, precio_producto, tienda_producto])
    
  productos = pd.DataFrame(productos, columns=["Categoria Producto", "Nombre Producto", "Precio Producto", "Tienda"])
  productos["Precio Producto"] = pd.to_numeric(productos["Precio Producto"])
  productos = productos.dropna()

  print("Cantidad de productos finalmente: " + str(len(productos)))

  return(productos)




###### PROCESADORES

In [4]:
df_procesadores_nissei = scrapeado_producto_nissei("https://nissei.com/py/informatica/accesorios-y-componentes/procesadores-cpu", "Procesador")

Cantidad de numeros hallados: 6
Cantidad de productos segun pagina: 46
Paginas a scrapear: 1
URL siendo scrapeada: https://nissei.com/py/informatica/accesorios-y-componentes/procesadores-cpu?p=1&product_list_limit=60
Cantidad de productos finalmente: 46


In [5]:
df_procesadores_nissei.head()

Unnamed: 0,Categoria Producto,Nombre Producto,Precio Producto,Tienda
0,Procesador,Procesador CPU AMD Ryzen 5 4600G 3.7 GHz 11 MB...,1378856.0,NISSEI
1,Procesador,Procesador CPU Intel Core i9-11900 2.5 GHz LGA...,3844082.0,NISSEI
2,Procesador,Procesador CPU Intel Core i9-11900KF 3.5 GHz L...,3292540.0,NISSEI
3,Procesador,Procesador CPU AMD Ryzen 3 4100 3.8 GHz 6 MB,835670.0,NISSEI
4,Procesador,Procesador CPU Intel Core i9-12900KF 3.2 GHz L...,4947166.0,NISSEI


###### TARJETAS GRAFICAS

In [6]:
df_tarjetas_graficas_nissei = scrapeado_producto_nissei("https://nissei.com/py/informatica/accesorios-y-componentes/tarjetas-graficas", "Tarjeta Grafica")

Cantidad de numeros hallados: 6
Cantidad de productos segun pagina: 67
Paginas a scrapear: 2
URL siendo scrapeada: https://nissei.com/py/informatica/accesorios-y-componentes/tarjetas-graficas?p=1&product_list_limit=60
URL siendo scrapeada: https://nissei.com/py/informatica/accesorios-y-componentes/tarjetas-graficas?p=2&product_list_limit=60
Cantidad de productos finalmente: 67


In [7]:
df_tarjetas_graficas_nissei.head()

Unnamed: 0,Categoria Producto,Nombre Producto,Precio Producto,Tienda
0,Tarjeta Grafica,Placa de Video PowerColor Red Devil RX 6700 XT...,5841333.0,NISSEI
1,Tarjeta Grafica,Placa de Video PowerColor Hellhound AMD Radeon...,3593381.0,NISSEI
2,Tarjeta Grafica,Placa de Video PowerColor Fighter AMD Radeon R...,3259113.0,NISSEI
3,Tarjeta Grafica,Placa de Video MSI RTX 3080 Ti Gaming X Trio 1...,11782947.0,NISSEI
4,Tarjeta Grafica,Placa de Video Gigabyte GeForce RTX 3080 Ti Ga...,11782947.0,NISSEI


###### MEMORIA RAM

In [8]:
df_ram_nissei = scrapeado_producto_nissei("https://nissei.com/py/informatica/accesorios-y-componentes/memorias-ram", "Memoria RAM")

Cantidad de numeros hallados: 6
Cantidad de productos segun pagina: 165
Paginas a scrapear: 3
URL siendo scrapeada: https://nissei.com/py/informatica/accesorios-y-componentes/memorias-ram?p=1&product_list_limit=60
URL siendo scrapeada: https://nissei.com/py/informatica/accesorios-y-componentes/memorias-ram?p=2&product_list_limit=60
URL siendo scrapeada: https://nissei.com/py/informatica/accesorios-y-componentes/memorias-ram?p=3&product_list_limit=60
Cantidad de productos finalmente: 165


In [9]:
df_ram_nissei.head()

Unnamed: 0,Categoria Producto,Nombre Producto,Precio Producto,Tienda
0,Memoria RAM,Memoria RAM DDR4 Lexar 3600 MHz 32 GB Hades RG...,1228435.0,NISSEI
1,Memoria RAM,Memoria RAM DDR4 Lexar 3600 MHz 16 GB Hades RG...,660179.0,NISSEI
2,Memoria RAM,Memoria RAM DDR4 Lexar 3600 MHz 32 GB Hades LD...,1132333.0,NISSEI
3,Memoria RAM,Memoria RAM DDR4 Lexar Hades RGB (2 x GB),660179.0,NISSEI
4,Memoria RAM,Memoria RAM DDR4 Lexar Hades (2 x GB),1132333.0,NISSEI


###### PLACAS MADRE

In [10]:
df_placas_madre_nissei = scrapeado_producto_nissei("https://nissei.com/py/informatica/accesorios-y-componentes/placas-madres", "Placa Madre")

Cantidad de numeros hallados: 6
Cantidad de productos segun pagina: 118
Paginas a scrapear: 2
URL siendo scrapeada: https://nissei.com/py/informatica/accesorios-y-componentes/placas-madres?p=1&product_list_limit=60
URL siendo scrapeada: https://nissei.com/py/informatica/accesorios-y-componentes/placas-madres?p=2&product_list_limit=60
Cantidad de productos finalmente: 117


In [11]:
df_placas_madre_nissei.head()

Unnamed: 0,Categoria Producto,Nombre Producto,Precio Producto,Tienda
0,Placa Madre,Placa Madre Asus ProArt B660-CREATOR D4 LGA 17...,2047392.0,NISSEI
1,Placa Madre,Placa Madre Asus ROG Strix Z690-F Gaming Wifi ...,3158833.0,NISSEI
2,Placa Madre,Placa Madre Asus Prime H410M-F LGA 1200 DDR4,672714.0,NISSEI
3,Placa Madre,Placa Madre MSI H410M-B PRO LGA 1200 DDR4,559899.0,NISSEI
4,Placa Madre,Placa Madre Asus TUF Gaming B550M-PLUS AM4 DDR4,1282753.0,NISSEI


###### TECLADOS

In [12]:
df_teclados_nissei = scrapeado_producto_nissei("https://nissei.com/py/informatica/accesorios-y-componentes/teclados", "Teclado")

Cantidad de numeros hallados: 6
Cantidad de productos segun pagina: 181
Paginas a scrapear: 4
URL siendo scrapeada: https://nissei.com/py/informatica/accesorios-y-componentes/teclados?p=1&product_list_limit=60
URL siendo scrapeada: https://nissei.com/py/informatica/accesorios-y-componentes/teclados?p=2&product_list_limit=60
URL siendo scrapeada: https://nissei.com/py/informatica/accesorios-y-componentes/teclados?p=3&product_list_limit=60
URL siendo scrapeada: https://nissei.com/py/informatica/accesorios-y-componentes/teclados?p=4&product_list_limit=60
Cantidad de productos finalmente: 179


In [13]:
df_teclados_nissei.head()

Unnamed: 0,Categoria Producto,Nombre Producto,Precio Producto,Tienda
0,Teclado,Teclado Mecánico SteelSeries Apex 7 TKL RGB - ...,1061301.0,NISSEI
1,Teclado,Teclado Mecánico SteelSeries Apex 7 TKL RGB - ...,1061301.0,NISSEI
2,Teclado,Teclado Numérico Inalámbrico Satechi ST-SALKPM...,317555.0,NISSEI
3,Teclado,Teclado Philips K294 SPK6294/00 - Negro (Inglés),87745.0,NISSEI
4,Teclado,Teclado Mecánico Philips G413 SPK8413/00 - Neg...,259058.0,NISSEI


###### MOUSE

In [14]:
df_mouse_nissei = scrapeado_producto_nissei("https://nissei.com/py/informatica/accesorios-y-componentes/componentes/mouses-pads", "Mouse")

Cantidad de numeros hallados: 6
Cantidad de productos segun pagina: 377
Paginas a scrapear: 7
URL siendo scrapeada: https://nissei.com/py/informatica/accesorios-y-componentes/componentes/mouses-pads?p=1&product_list_limit=60
URL siendo scrapeada: https://nissei.com/py/informatica/accesorios-y-componentes/componentes/mouses-pads?p=2&product_list_limit=60
URL siendo scrapeada: https://nissei.com/py/informatica/accesorios-y-componentes/componentes/mouses-pads?p=3&product_list_limit=60
URL siendo scrapeada: https://nissei.com/py/informatica/accesorios-y-componentes/componentes/mouses-pads?p=4&product_list_limit=60
URL siendo scrapeada: https://nissei.com/py/informatica/accesorios-y-componentes/componentes/mouses-pads?p=5&product_list_limit=60
URL siendo scrapeada: https://nissei.com/py/informatica/accesorios-y-componentes/componentes/mouses-pads?p=6&product_list_limit=60
URL siendo scrapeada: https://nissei.com/py/informatica/accesorios-y-componentes/componentes/mouses-pads?p=7&product_lis

In [15]:
df_mouse_nissei.head()

Unnamed: 0,Categoria Producto,Nombre Producto,Precio Producto,Tienda
0,Mouse,Mouse Pad HyperX Fury Pro M - Negro (HX-MPFP-M),90252.0,NISSEI
1,Mouse,Mouse 2 Magic Apple MLA02LL/A - Plata,894167.0,NISSEI
2,Mouse,Mouse 2 Magic Apple MK2E3BE/A - Plata,835670.0,NISSEI
3,Mouse,Mouse Pad Steelseries QCK 3XL - Negro,417835.0,NISSEI
4,Mouse,Kit Gamer Mouse Magnavox MGA5209-MO + Mousepad...,108637.0,NISSEI


###### AUDIFONOS

In [16]:
df_audifonos_nissei = scrapeado_producto_nissei("https://nissei.com/py/electronica/audio-y-video/auriculares", "Audifono")

Cantidad de numeros hallados: 6
Cantidad de productos segun pagina: 671
Paginas a scrapear: 12
URL siendo scrapeada: https://nissei.com/py/electronica/audio-y-video/auriculares?p=1&product_list_limit=60
URL siendo scrapeada: https://nissei.com/py/electronica/audio-y-video/auriculares?p=2&product_list_limit=60
URL siendo scrapeada: https://nissei.com/py/electronica/audio-y-video/auriculares?p=3&product_list_limit=60
URL siendo scrapeada: https://nissei.com/py/electronica/audio-y-video/auriculares?p=4&product_list_limit=60
URL siendo scrapeada: https://nissei.com/py/electronica/audio-y-video/auriculares?p=5&product_list_limit=60
URL siendo scrapeada: https://nissei.com/py/electronica/audio-y-video/auriculares?p=6&product_list_limit=60
URL siendo scrapeada: https://nissei.com/py/electronica/audio-y-video/auriculares?p=7&product_list_limit=60
URL siendo scrapeada: https://nissei.com/py/electronica/audio-y-video/auriculares?p=8&product_list_limit=60
URL siendo scrapeada: https://nissei.com/

In [17]:
df_audifonos_nissei.head()

Unnamed: 0,Categoria Producto,Nombre Producto,Precio Producto,Tienda
0,Audifono,Auricular Gamer Razer Kaira Inalámbrico para P...,793887.0,NISSEI
1,Audifono,Auricular JBL Live Pro 2 TWS Bluetooth - Negro,935950.0,NISSEI
2,Audifono,Auricular JBL Wave 300TWS Bluetooth - Blanco,459619.0,NISSEI
3,Audifono,Auricular JBL Tune 710BT Bluetooth,493045.0,NISSEI
4,Audifono,Auricular JBL Tune 710BT Bluetooth - Blanco,497224.0,NISSEI


### COMPULANDIA

###### FUNCION PARA SCRAPEADO DE PRODUCTOS

In [18]:
def scrapeado_producto_compulandia(url, categoria):
  
  r = requests.get(url)
  content = r.content
  soup = BeautifulSoup(content)


  productos = []

  for producto in soup.find_all('div', attrs={'class': "product-inner"}):

    categoria_producto = categoria

    nombre_producto = producto.find("h2", attrs={"class": "woocommerce-loop-product__title"}).get_text(strip=True)

    precio_text = producto.find("span", attrs={"class": "woocommerce-Price-amount amount"}).get_text(strip=True).split(sep=".")
    porciones_precio = []
    for porcion in precio_text:
      if porcion != "Gs":
        porciones_precio.append(porcion) 
    precio_producto = int("".join(porciones_precio))

    tienda_producto = "COMPULANDIA"

    productos.append([categoria_producto, nombre_producto, precio_producto, tienda_producto])

  productos = pd.DataFrame(productos, columns=["Categoria Producto", "Nombre Producto", "Precio Producto", "Tienda"])
  productos["Precio Producto"] = pd.to_numeric(productos["Precio Producto"])
  productos = productos.dropna()
  
  return productos

###### PROCESADORES

In [19]:
df_procesadores_compulandia = scrapeado_producto_compulandia("https://www.compulandia.com.py/categoria-producto/componentes-pc/procesadores/", "Procesador")

In [20]:
df_procesadores_compulandia.head()

Unnamed: 0,Categoria Producto,Nombre Producto,Precio Producto,Tienda
0,Procesador,PROCESADOR AMD RYZEN 3 4100,869000,COMPULANDIA
1,Procesador,PROCESADOR AMD RYZEN 5 5500,1499000,COMPULANDIA
2,Procesador,PROCESADOR INTEL CORE i5-12400F,1599000,COMPULANDIA
3,Procesador,PROCESADOR INTEL CORE i3-10105,1099000,COMPULANDIA
4,Procesador,PROCESADOR INTEL CORE i3-12100F,1069000,COMPULANDIA


###### TARJETAS GRAFICAS


In [21]:
df_tarjetas_graficas_compulandia = scrapeado_producto_compulandia("https://www.compulandia.com.py/categoria-producto/componentes-pc/tarjeta-de-video/", "Tarjeta Grafica")

In [22]:
df_tarjetas_graficas_compulandia.head()

Unnamed: 0,Categoria Producto,Nombre Producto,Precio Producto,Tienda
0,Tarjeta Grafica,VGA RX 6500 XT 4GB SAPHIRE PULSE,2299000,COMPULANDIA
1,Tarjeta Grafica,VGA RTX 3080 12GB ZOTAC TRINITY OC LHR,9999000,COMPULANDIA
2,Tarjeta Grafica,VGA RTX 3060 12GB ASUS TUF GAMING,5799000,COMPULANDIA
3,Tarjeta Grafica,VGA RTX 3050 8GB EVGA XC,3399000,COMPULANDIA
4,Tarjeta Grafica,VGA RTX 3060 12GB GIGABYTE GAMING OC,5599000,COMPULANDIA


###### MEMORIA RAM

In [23]:
df_ram_compulandia = scrapeado_producto_compulandia("https://www.compulandia.com.py/categoria-producto/componentes-pc/ram-pc/", "Memoria RAM")

In [24]:
df_ram_compulandia.head()

Unnamed: 0,Categoria Producto,Nombre Producto,Precio Producto,Tienda
0,Memoria RAM,MEM RAM 16GB DDR4 2666 PC PNY,499000,COMPULANDIA
1,Memoria RAM,MEM RAM 16GB DDR4 3200 PC (2X8GB) ACER PREDATO...,649000,COMPULANDIA
2,Memoria RAM,MEM RAM 8GB DDR4 3200 PC XPG SPECTRIX D60G RGB,449000,COMPULANDIA
3,Memoria RAM,MEM RAM 8GB DDR4 2666 PC PNY,299000,COMPULANDIA
4,Memoria RAM,MEM RAM 16GB DDR4 3600 PC XPG SPECTRIX D50 RGB,729000,COMPULANDIA


###### PLACAS MADRE

In [25]:
df_placas_madre_compulandia = scrapeado_producto_compulandia("https://www.compulandia.com.py/categoria-producto/componentes-pc/placa-madre/", "Placa Madre")

In [26]:
df_placas_madre_compulandia.head()

Unnamed: 0,Categoria Producto,Nombre Producto,Precio Producto,Tienda
0,Placa Madre,PLACA MADRE AM4 B550M PRO MSI,949000,COMPULANDIA
1,Placa Madre,PLACA MADRE 1700 Z690-A PRO MSI,1767000,COMPULANDIA
2,Placa Madre,PLACA MADRE 1700 B660M DS3H DDR4 GIGABYTE,1449000,COMPULANDIA
3,Placa Madre,PLACA MADRE 1700 H610MH BIOSTAR,859000,COMPULANDIA
4,Placa Madre,PLACA MADRE Z590-A ASUS ROG STRIX WIFI,2519000,COMPULANDIA


###### TECLADOS

In [27]:
df_teclados_compulandia = scrapeado_producto_compulandia("https://www.compulandia.com.py/categoria-producto/teclados/page/1/", "Teclado")
df_teclados_compulandia = df_teclados_compulandia.append(scrapeado_producto_compulandia("https://www.compulandia.com.py/categoria-producto/teclados/page/2/", "Teclado"))

In [28]:
df_teclados_compulandia.head()

Unnamed: 0,Categoria Producto,Nombre Producto,Precio Producto,Tienda
0,Teclado,TECLADO NUMERICO USB SATE AK-183,69000,COMPULANDIA
1,Teclado,KEYCAPS REDRAGON SCARAB BLANCO A130,137000,COMPULANDIA
2,Teclado,KEYCAPS REDRAGON SCARAB NEGRO A130,137000,COMPULANDIA
3,Teclado,TECLADO MOUSE 3×1 HAVIT KB858L/MS956/H2019U,527000,COMPULANDIA
4,Teclado,TECLADO MOUSE 3×1 REDRAGON S129W 3 EN 1,599000,COMPULANDIA


###### MOUSE

In [29]:
df_mouse_compulandia = scrapeado_producto_compulandia("https://www.compulandia.com.py/categoria-producto/mouse/page/1/", "Mouse")
df_mouse_compulandia = df_mouse_compulandia.append(scrapeado_producto_compulandia("https://www.compulandia.com.py/categoria-producto/mouse/page/2/", "Mouse"))
df_mouse_compulandia = df_mouse_compulandia.append(scrapeado_producto_compulandia("https://www.compulandia.com.py/categoria-producto/mouse/page/3/", "Mouse"))

In [30]:
df_mouse_compulandia.head()

Unnamed: 0,Categoria Producto,Nombre Producto,Precio Producto,Tienda
0,Mouse,MOUSE PAD HAVIT MP843 GAMER,25000,COMPULANDIA
1,Mouse,MOUSE INALAMBRICO BT LOGITECH M650 L NEGRO,299000,COMPULANDIA
2,Mouse,MOUSE PAD SATE A-PAD08 RGB,159000,COMPULANDIA
3,Mouse,MOUSE PAD REDRAGON PLUTO,129000,COMPULANDIA
4,Mouse,MOUSE REDRAGON STORM ELITE BLANCO RGB M988W,239000,COMPULANDIA


###### AUDIFONOS

In [31]:
df_audifonos_compulandia = scrapeado_producto_compulandia("https://www.compulandia.com.py/categoria-producto/auriculares/page/1/", "Audifono")
df_audifonos_compulandia = df_audifonos_compulandia.append(scrapeado_producto_compulandia("https://www.compulandia.com.py/categoria-producto/auriculares/page/2/", "Audifono"))

In [32]:
df_audifonos_compulandia.head()

Unnamed: 0,Categoria Producto,Nombre Producto,Precio Producto,Tienda
0,Audifono,AURICULAR USB INALAMBRICO REDRAGON PELOPS H818,427000,COMPULANDIA
1,Audifono,AURICULAR 3.5 HUAWEI,20000,COMPULANDIA
2,Audifono,AURICULAR 3.5 NOKIA,20000,COMPULANDIA
3,Audifono,AURICULAR BT LENOVO LP40 BLANCO,149000,COMPULANDIA
4,Audifono,AURICULAR BT LENOVO LP40 PRO BLANCO,189000,COMPULANDIA


### **UNIÓN DE LOS DATAFRAMES**

In [33]:
lista_dataframes_productos = [df_procesadores_nissei,
                        df_placas_madre_nissei,
                        df_tarjetas_graficas_nissei,
                        df_ram_nissei,
                        df_teclados_nissei,
                        df_mouse_nissei,
                        df_audifonos_nissei,
                        df_procesadores_compulandia,
                        df_placas_madre_compulandia,
                        df_tarjetas_graficas_compulandia,
                        df_ram_compulandia,
                        df_teclados_compulandia,
                        df_mouse_compulandia,
                        df_audifonos_compulandia]

df_productos_totales = pd.concat(lista_dataframes_productos)

In [35]:
nombre_archivo_salida = "productos_scrapeados.csv"
df_productos_totales.to_csv(nombre_archivo_salida)