SPLINE

A intenção deste documento é compartilhar conhecimento e algumas soluções que podem ser complementares às funcionalidades do SPLINE.

Desenvolvido por:
Bruno Nogueira Renzo https://www.linkedin.com/in/bruno-renzo-6a2595168/
Eduardo Viana https://www.linkedin.com/in/duviana/

SPLINE (de Spark Lineage) é um projeto que ajuda pessoas a terem insights sobre dados processados pelo Apache Spark.

O projeto consiste em duas partes:

Uma biblioteca principal que trabalha com a parte dos drivers, capturando e registrando a linhagem de dados dos jobs que estao sendo executados.

O projeto do SPLINE foi desenvolvido somente para o Spark Scala. Segue documentação de como integrar o SPLINE com o PySpark.

E uma Web User Interface para a visualização dos dados registrados.

A Web User Interface do próprio SPLINE utiliza como base o MongoDB e pode ser verificada no site oficial para saber como subi-la.

Spline UI com Alta Granularidade

Spline UI com Média Granularidade

Spline UI com Baixa Granularidade Detalhada

Já a utilização do Atlas deixa um pouco a desejar no site oficial, devido a falta de alguns exemplos e passos importantes para a implementação. Segue uma descrição de como trabalhar com as diferentes alternativas de persistência e utilização do Atlas como persistência de linhagem.

Para esse projeto foi utilizado a Hortonworks Sandbox HDP 2.6.5 na Oracle VM VirtualBox com: CentOS Linux 7 (Core) - Python 2.7.5 - Spark 2.3.0.2.6.5.0 - Apache Atlas 0.8.0.2.6.5.0 - Spline 0.3.1 - Kafka 1.0.0.2.6.5.0 - Scala 2.11.8 - SBT 1.2.7 - SBT Assembly 0.14.2

Referências

Spline Oficial

Downloads

Name		Name	Last commit message	Last commit date
Latest commit History 25 Commits
Downloads		Downloads
Repositorio de Imagens Spline_Atlas		Repositorio de Imagens Spline_Atlas
Repositório de Imagens Spline		Repositório de Imagens Spline
Dependências no Core do Spark.md		Dependências no Core do Spark.md
FatJAR.md		FatJAR.md
Integração.md		Integração.md
Persistência.md		Persistência.md
README.md		README.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

SPLINE

Uma biblioteca principal que trabalha com a parte dos drivers, capturando e registrando a linhagem de dados dos jobs que estao sendo executados.

E uma Web User Interface para a visualização dos dados registrados.

Spline UI com Alta Granularidade

Spline UI com Média Granularidade

Spline UI com Baixa Granularidade Detalhada

Referências

Downloads

About

Releases

Packages

brunoRenzo6/Spark-DataLineage-Spline

Folders and files

Latest commit

History

Repository files navigation

SPLINE

Uma biblioteca principal que trabalha com a parte dos drivers, capturando e registrando a linhagem de dados dos jobs que estao sendo executados.

E uma Web User Interface para a visualização dos dados registrados.

Spline UI com Alta Granularidade

Spline UI com Média Granularidade

Spline UI com Baixa Granularidade Detalhada

Referências

Downloads

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Packages