Skip to content

Scraping UFO sightings website to create a dataset

Notifications You must be signed in to change notification settings

pauladj/UFO-dataset-scraper

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

17 Commits
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

UFO dataset scraper

Descripción

Esta práctica pertenece a la asignatura Tipología y ciclo de vida de los datos, perteneciente al Máster de Ciencia de Datos de la Universitat Oberta de Catalunya. Se aplica la técnica del Web Scraping para conseguir relatos sobre experiencias relacionadas con el fenómeno UFO (http://www.nuforc.org/). El objetivo final de esta práctica será obtener un dataset.

Miembros del equipo

La práctica se ha realizado de manera individual por Paula de Jaime.

Archivos del código fuente

  • src/main.py: Fichero que se encarga de inicializar el proceso de scraping y de guardar los datos resultantes a un fichero llamado ufo_dataset.csv. Si el usuario introduce por consola la instrucción python main.py -h puede consultar los diferentes argumentos opcionales que puede introducir:
usage: main.py [-h] [-y YEAR] [-o OUTPUT]

UFO Scraper

optional arguments:
  -h, --help            show this help message and exit
  -y YEAR, --year YEAR    The limit year to scrape (default: 1800)
  -o OUTPUT, --output OUTPUT   The output csv file (default: ufo_dataset.csv)
  • src/ufo_scraper.py: Se encarga de scrapear la página web correspondiente, es decir, recopila los relatos de las experiencias UFO y guarda estos en una estructura llamada dataframe.
  • src/dataframer.py: Contiene todos los métodos relacionados con la estructura que se encarga de almacenar los datos llamada dataframe.
  • src/exceptions.py: Fichero que contiene una excepción creada para lanzar errores personalizados.

About

Scraping UFO sightings website to create a dataset

Topics

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages