Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Scrapping de productos y categorías de Walmart #6

Closed
mgaitan opened this issue Jun 12, 2013 · 2 comments
Closed

Scrapping de productos y categorías de Walmart #6

mgaitan opened this issue Jun 12, 2013 · 2 comments
Milestone

Comments

@mgaitan
Copy link
Owner

mgaitan commented Jun 12, 2013

El sitio web https://www.walmartonline.com.ar/ (plataforma de compra online de la cadena Walmart) tiene una gran cantidad de productos clasificados en un árbol de categorías de hasta 3 niveles, con detalles de producto, precio, código UPC y foto.

Realizar un script (posiblemente en formato de management command) que incorpore toda esta información a la base.

  • Realizar un filtro que obtenga la Marca a partir de la descripción del producto
  • Opcionalmente, permitir actualizar el precio de un producto que ya se encuentra en la base.

Nota: En el repositorio de datos el archivo walmart.zip es un aporte de Pablo Peralta que contiene la información cruda de los productos en formato json. Se puede usar como referencia, pero no tiene discriminación de Marca ni categoría de los productos.

@mgaitan
Copy link
Owner Author

mgaitan commented Jun 13, 2013

Quizas sea más fácil intentar obtener la marca a partir del codigo upc (las primeras cifras corresponden a la marca)

@mgaitan
Copy link
Owner Author

mgaitan commented Feb 7, 2014

El commit d02979c agrega el scrapping de categorias de walmart.

El sitio de walmart utiliza el framework spry que compone las paginas mediante llamadas ajax

por ejemplo, una pagina para una categoria de nivel 3 es por ejemplo Bebidas sin alcohol > Gaseosas > Tónica

https://www.walmartonline.com.ar/Busqueda.aspx?Departamento=D_bebidas%20sin%20alcohol&Familia=&Linea=l_TONICA&Text=

En la carga de la página hace una llamada via ajax (via el framework spry) a
"https://www.walmartonline.com.ar/WebControls/hlSearchResults.ashx?busqueda=&departamento=D_bebidas%20sin%20alcohol&familia=&linea=l_TONICA&orderby=undefined&orderbyid=undefined&range=undefined&sid=0.2594193538885615"

que a su vez, invoca a otras sendas url que devuelven Productos, subcategorias, etc. Por ejemplo
https://www.walmartonline.com.ar/WebControls/hlSearchProducts.ashx

el parametro sid es aleatorio.

Los problema que tengo son

  1. del árbol de categorias sólo guardé los nombres y no los parámetros asociados que conforma la url (departamento, familia, linea respectivamente para cada nivel de categoria). Por lo tanto no hay una forma unívoca de construir la url

  2. No logro hacer el request GET a la direccion que devuelve el listado de items

In [15]: requests.get('https://www.walmartonline.com.ar/WebControls/hlSearchProducts.ashx?busqueda=undefined&departamento=D_almacen&familia=undefined&linea=undefined&orderby=undefined&orderbyid=undefined&range=undefined&sid=0.90923454555', headers={'HTTP_X_REQUESTED_WITH': 'XMLHttpRequest'}).content
Out[15]: ''

@mgaitan mgaitan closed this as completed in b6174b7 Feb 7, 2014
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Projects
None yet
Development

No branches or pull requests

1 participant