Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Realizar un scrapper de cotodigital #18

Closed
mgaitan opened this issue Feb 7, 2014 · 8 comments
Closed

Realizar un scrapper de cotodigital #18

mgaitan opened this issue Feb 7, 2014 · 8 comments

Comments

@mgaitan
Copy link
Owner

mgaitan commented Feb 7, 2014

debera generar un json con los productos de Coto

http://www.cotodigital.com.ar/l.asp?cat=775&id=775

debe incluir descripcion, plu (id unico de producto dentro de coto), Precio y precio por unidad de medida, 'categoriasyurl` al producto y por supuesto, la fecha de relevamiento

@mgaitan
Copy link
Owner Author

mgaitan commented Feb 17, 2014

Lo ideal seria un management command que cree directamente instancias de nuestros modelos.
pero el tema es: no conocemos el UPC (codigo unico) entonces no podemos saber sin dudas si es un nuevo precio para un producto que ya conocemos.

que se les ocurre? pensaba un modelo que mapee plu (o directamente la url del producto en coto -> a un UPC conocido.

Pero pueden ser mas de 10mil productos y es demasiado para hacer por "voluntarios" (demasiado error). ¿quizas tratar de inferir lo más posible y si no hay conclusion unica entonces pedirle a los voluntarios?

@mgaitan
Copy link
Owner Author

mgaitan commented Feb 17, 2014

me:  tengo muchos productos en coto
muchos sé que son los mismos productos que yo ya conozco (de los que tengo el UPC)
pero no sé distinguirlos facilmente. Cómo se cual de coto es cual que yo conozco?
Para un humano es mas o menos facil saber que "salsa tomate arcor 500ml"  es lo mismo que "Salsa de Tomate Arcor x 500 ml"
para un algoritmo no es taaan facil
pero en cualquier caso siempre hay error
que hacemos?
lo de la tabla de mapa, seria el resultado final: cuando necesites saber el precio de coto del UPC tal, andá a esta URL de cotodigital
se entiende?
Juan:  distancia de hamming
en realidad
distancia de demerau hamming

@jairot
Copy link
Contributor

jairot commented Feb 17, 2014

Yo hago en Managment command para esto e implemento el scraper. Una vez que tengamos los datos, puedo colaborar en el tema del merging.

  1. Tenemos alguna estructura para los scraper?
  2. Tenemos alguna estructura para los comandos?

python manage.py ¿scrap? ¿coto?

o

python manage.py ¿coto?

@jairot
Copy link
Contributor

jairot commented Feb 17, 2014

Me autoasigno esta tarea, si ya hay estructura en el tema de scrapping, avísenme, sino yo la defino y trato de integrar los otros scrappers.(Hay otros scrappers'?)

Saludos, Jairo

@mgaitan
Copy link
Owner Author

mgaitan commented Feb 17, 2014

2014-02-17 1:05 GMT-03:00 Jairo Trad notifications@github.com:

  1. Tenemos alguna estructura para los scraper?

los scrappers que hay ahora, muy disimiles en técnicas y calidad, están
todos en /tools . Pero la idea es ir migrando lo que vamos a usar
recurrentemente (en particular scrapping de productos y precios) como
management commands

  1. Tenemos alguna estructura para los comandos?

python manage.py ¿scrap? ¿coto?

python manage.py ¿coto?

quizas el segundo, dentro de la app precios

mgaitan.github.io
textosyprextextos.com.ar

@jairot
Copy link
Contributor

jairot commented Feb 22, 2014

Como se "Muestra" el precio por unidad de medida? osea... que formato estan usando. La web me devuelve esto:
"'(Precio por cada 1 Kilo : $69.3)'"

@mgaitan
Copy link
Owner Author

mgaitan commented Feb 22, 2014

Jairo, el modelo Producto tiene esto ahora

contenido = models.DecimalField(max_digits=5, decimal_places=1,
                                    null=True, blank=True)
unidad_medida = models.CharField(max_length=10,
                                     choices=UNIDADES_CHOICES, null=True, blank=True)

donde unidad_medidad puede ser algunas constantes

Pero no nos hace falta saber el precio "normalizado" (cada 1kg, litro, etc), eso lo vamos a calcular nosotros a nuestra conveniencia.
Por ahora, sólo si podés, llena los dos field. Ejemplo, el paquete trae 580 gramos, será:

pondrás en contenido = 580 y en unidad_medida = Producto.UM_GRAMO

Voy a crear un ticket para agregar un precio normalizado de un producto.

@cmheta
Copy link

cmheta commented Apr 20, 2015

Hola que tal... existe una API para consultar los datos de los productos de coto o algun supermercado??
Gracias!

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Projects
None yet
Development

No branches or pull requests

3 participants