A intenção deste documento é compartilhar conhecimento e algumas soluções que podem ser complementares às funcionalidades do SPLINE.
Desenvolvido por:
Bruno Nogueira Renzo https://www.linkedin.com/in/bruno-renzo-6a2595168/
Eduardo Viana https://www.linkedin.com/in/duviana/
SPLINE (de Spark Lineage) é um projeto que ajuda pessoas a terem insights sobre dados processados pelo Apache Spark.
O projeto consiste em duas partes:
Uma biblioteca principal que trabalha com a parte dos drivers, capturando e registrando a linhagem de dados dos jobs que estao sendo executados.
- O projeto do SPLINE foi desenvolvido somente para o Spark Scala. Segue documentação de como integrar o SPLINE com o PySpark.
- A Web User Interface do próprio SPLINE utiliza como base o MongoDB e pode ser verificada no site oficial para saber como subi-la.
- Já a utilização do Atlas deixa um pouco a desejar no site oficial, devido a falta de alguns exemplos e passos importantes para a implementação. Segue uma descrição de como trabalhar com as diferentes alternativas de persistência e utilização do Atlas como persistência de linhagem.
Para esse projeto foi utilizado a Hortonworks Sandbox HDP 2.6.5 na Oracle VM VirtualBox com: CentOS Linux 7 (Core) - Python 2.7.5 - Spark 2.3.0.2.6.5.0 - Apache Atlas 0.8.0.2.6.5.0 - Spline 0.3.1 - Kafka 1.0.0.2.6.5.0 - Scala 2.11.8 - SBT 1.2.7 - SBT Assembly 0.14.2