El objeto de este proyecto es el de obtener de 5 webs detalle de todos los productos que venden. Al final del proyecto obtendremos 5 ficheros csv donde se muestran los productos que cada retail tiene en ese momento.
Basicamente los 5 datasets obtenidos tienen como estructura comun los siguientes campos:
- Url
- Nombre producto
- Preferencia
- Descipción
- Precio
La forma de recopiar los datasets son muy parecidas y en el siguiente orden:
- Obtendo la url raiz de la tienda (contendida en un archivo plano)
- Subtituyo la url por la palabra tienda
- Recorro la raiz inicial en busca de url "hijos"
- Recopilo los diferentes URL en una lista que la limpio de datos innecesarios y elementos duplicados
- Recorro la lista de hijos en busca de nuevas url
- Recopilo las nuevas url y hago nuevamente una limpieza de la nueva lista.
- De esta última lista de url donde se detallan cada uno de los productos, realizo el scraping
- Genero un diccionario seleccionando los campos que más me interesan.
- Por último convierto el diccionario en un dataframe y este en un csv.
En todas las transformaciones y con el fin de preservar la url y el nombre comercial de la empresa retail, aplico el pundo 2
Para su correcta ejecución recomiendo:
-
Generar una carpeta
$ mkdir -directorio
-
Generar un entorno virtual
en linux$ python3 -m venv /path/to/new/virtual/environment
en windows
c:\>c:\Python35\python -m venv c:\path\to\myenv
-
Instalar los módulos necesarios detallados en el fichero requirements.txt
$ pip install requirements.txt
-
Ejecutar cada un de los ejecutables según la tienda
$ python tienda_#.py
donde # es el número de tienda, desde 0 hasta 1.