Skip to content

Vosinepi/webScrapping_ETL_canasta_basica

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

42 Commits
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Iber Ismael Piovani

ETL de Web Scraping utilizando Airflow para automatizar el proceso

Data Studio Looker

Pequeño dash para poder visualizar la data con la capacidad de filtrar por producto y periodo de tiempo.

Data Studio Looker

Objetivo

Mediante el listado de Canasta Basica del INDEC obtenemos los precios de la pagina de una cadena de supermercados para ir almacenando los precios en una base de datos y poder analizarlos.

Enlaces

Requerimientos

Uso

  • Clonar el repositorio
git clone
  • Crear un entorno virtual para manipular los scripts de ser necesario
python -m venv venv
  • Activar el entorno virtual
source venv/bin/activate
  • Instalar las dependencias
pip install -r requirements.txt
  • Crear contenedor de postgres para almacenar los datos, correr el docker-compose-postgres.yaml
docker-compose -f docker-compose-postgres.yaml up -d
  • test ddbb
docker exec -it canasta_basica_variacion psql -h host.docker.internal -U postgres -W variacion

  • Crear contenedor de airflow para automatizar el proceso, correr el docker-compose-airflow.yaml
docker-compose -f docker-compose-airflow.yaml up -d
  • test airflow
http://localhost:8080/
  • cargar las credenciales propias de las bases de datos locales y cloud.
certificados_ddbb.py
  • correr todas las celdas de codigo del archivo Canasta_Basica.ipynb para obtener los datos de la pagina de Coto Digital y guardarlos en un archivo CSV, en un archivo .xls y en la base de datos creada previamente.

## ETL

Una vez configurado el Dag con las credenciales de las bases de datos, se puede correr el dag para que se ejecute el proceso de extraccion, transformacion y carga de datos.
Luego se ejecutara de manera periodica.

## Resultados

- Los datos descargados se guardan en la carpeta `Data`
- Los datos normalizados son almacenados en la base de datos.
- Los datos normalizados son almacenados en un archivo .xls
- Los datos normalizados son almacenados en un archivo .csv
- Los datos normalizados son transformados en una lista larga para poder ser visualizados en Data Studio Looker
- La lista larga es subida a una DDBB en azure para ser utilizada en Data Studio Looker.

## Bot de Twitter
Publica los precios de los productos en Twitter.

- Cargar las credenciales de la API de Twitter



## A futuro
- Agregar mas supermercados
- Agregar mas productos
- Poder geolocalizar los precios

## Contacto

- [Linkedin](https://www.linkedin.com/in/iber-ismael-piovani-8b35bbba/)
- [Github](https://github.com/Vosinepi)

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published