Descripción
Esta práctica pertenece a la asignatura Tipología y ciclo de vida de los datos, perteneciente al Máster de Ciencia de Datos de la Universitat Oberta de Catalunya. Se aplica la técnica del Web Scraping para conseguir relatos sobre experiencias relacionadas con el fenómeno UFO (http://www.nuforc.org/). El objetivo final de esta práctica será obtener un dataset.
Miembros del equipo
La práctica se ha realizado de manera individual por Paula de Jaime.
Archivos del código fuente
- src/main.py: Fichero que se encarga de inicializar el proceso de scraping y de guardar los datos resultantes a un fichero llamado ufo_dataset.csv. Si el usuario introduce por consola la instrucción
python main.py -h
puede consultar los diferentes argumentos opcionales que puede introducir:
usage: main.py [-h] [-y YEAR] [-o OUTPUT]
UFO Scraper
optional arguments:
-h, --help show this help message and exit
-y YEAR, --year YEAR The limit year to scrape (default: 1800)
-o OUTPUT, --output OUTPUT The output csv file (default: ufo_dataset.csv)
- src/ufo_scraper.py: Se encarga de scrapear la página web correspondiente, es decir, recopila los relatos de las experiencias UFO y guarda estos en una estructura llamada dataframe.
- src/dataframer.py: Contiene todos los métodos relacionados con la estructura que se encarga de almacenar los datos llamada dataframe.
- src/exceptions.py: Fichero que contiene una excepción creada para lanzar errores personalizados.