Permalink
Switch branches/tags
Nothing to show
Find file Copy path
Fetching contributors…
Cannot retrieve contributors at this time
78 lines (54 sloc) 4.44 KB

Introducción

Contexto

CARTO [1] es una plataforma de :ref:`location-intelligence` que permite transformar datos geoespaciales en resultados de negocio.

Actualmente, las organizaciones que utilizan CARTO como herramienta de análisis geoespacial tienen multitud de fuentes de información y aplicaciones ya instaladas que generan continuamente nuevos datos.

El principal valor de CARTO para estas organizaciones es el de conectarse con esas fuentes de información (datos de :ref:`crm`, :ref:`erp`, hojas de cálculo, archivos con contenido geoespacial, bases de datos relacionales, etc.) a través de una interfaz sencilla e intuitiva, para generar nueva información de valor añadido para su negocio mediante análisis geoespaciales y visualizaciones.

En determinadas organizaciones, especialmente de tamaño medio o grande, ocurre que diversos equipos gestionan sus datos con sistemas de información heterogéneos que utilizan repositorios de datos tales como:

  • Hojas de cálculo y archivos CSV (valores separados por comas)
  • Documentos de Google Drive [2]
  • CRMs tales como Salesforce [3]
  • Herramientas de marketing digital como Mailchimp [4]
  • Servidores de datos geoespaciales como ArcGIS [5]
  • Bases de datos operacionales (relacionales o :ref:`nosql`)
  • Sistemas de ficheros distribuidos :ref:`hdfs`
  • Otros sistemas (Twitter [6], Dropbox [7], etc.)

Definición del problema

Estas organizaciones utilizan CARTO para importar sus datos y analizar la información que generan los distintos departamentos de manera conjunta, respondiendo a sus preguntas de negocio y encontrando además respuesta a otras preguntas que no se habían planteado en un principio.

CARTO cuenta con la posibilidad de importar datos desde diversas fuentes de datos, pero carece de soporte nativo para conectar a muchos de estos sistemas de almacenamiento Big Data usados generalmente para almacenar datos operacionales o secuencias de datos temporales.

Objetivo

El objetivo de este trabajo final de máster consiste en el desarrollo de conectores para CARTO que permitan incluir en los cuadros de mandos (:ref:`dashboard`), información proveniente de los siguientes sistemas de almacenamiento y/o procesamiento Big Data.

El objetivo es encontrar un mecanismo fácilmente reproducible que permita en el futuro integrar otros sistemas de almacenamiento. Para el actual trabajo, el objetivo consiste en integrar al menos:

  • Apache Hive
  • Impala
  • MongoDB
  • Google BigQuery

Y describir un proceso que permitiera la integración de otros sistemas tales como:

  • Amazon Redshift
  • Cassandra
  • SparkSQL
  • Amazon Aurora
  • Oracle

Los "conectores Big Data para CARTO" permitirán a las organizaciones mantener sus actuales flujos de ingestión y procesamiento de información, además de aprovechar lo mejor de dos mundos: el almacenamiento y procesamiento distribuido que ofrecen algunas de estas herramientas orientadas a Big Data y la visualiación y análisis geoespacial de CARTO.

Cabe destacar que los resultados de este trabajo no son de carácter teórico, sino que consiste en código fuente y herramientas que se incluirán en la distribución :ref:`on-premise` de CARTO

Organización de este trabajo final de máster

Este trabajo final de máster está organizado en capítulos, siguiendo la siguiente estructura:

  1. :ref:`estado-del-arte`: Se repasan las herramientas de almacenamiento y procesamiento Big Data con las que se va a trabajar y se definen algunos de los conceptos teóricos que sirven de fundamentación para el trabajo.
  2. :ref:`metodologia`: Definición de una metodología de trabajo sistemática y desglose en tareas del trabajo a realizar.
  3. :ref:`desarrollo`: Descripción de la implementación de cada uno de los conectores, demostración de uso, etc.
  4. :ref:`conclusiones`
  5. :ref:`bibliografia`
  6. :ref:`anexos`
  7. :ref:`glosario`

Palabras clave: BASH, Docker, Vagrant, Location Intelligence, AWS, HDFS, Hadoop, BigQuery, Hive, Impala, Spark, NoSQL, Cassandra, MongoDB, CARTO, dashboards, análisis geoespacial

[1]https://www.carto.com - septiembre 2017
[2]https://drive.google.com - septiembre 2017
[3]https://www.salesforce.com - septiembre 2017
[4]https://mailchimp.com - septiembre 2017
[5]https://www.arcgis.com - septiembre 2017
[6]https://www.twitter.com - septiembre 2017
[7]https://www.dropbox.com - septiembre 2017