Orquestrando ambientes de big data distruibuidos com Zookeeper, Yarn e Sqoop

Zookeepr

O Zookeeper é um serviço de coordenação distribuído.

Fornece as rotas necessárias para as peças do cluster.
Identifica nós por nomes (DSN-like).
Ajuda as peças do ecossitemas Hadoop se achar na bagunça toda.
Pode ajudar a evitar concorrência (write on read).
Ajuda na recuperação de falhas.

Para o desenvolvedor, o Zookeeper é completamente transparente. Essa tecnologia é mais aparente para aqueles que trabalham com a parte da infraestrutura.

Benefícios do Zookeeper. Créditos: data-flair

Sqoop

O Sqoop é uma ferramenta que permite mover dados de maneira facilitada entre banco de dados relacionais e o HDFS.

Realiza a leitura linha a linha de tabelas para arquivos (pode pecar na performance).
Permite importar dados e metadados de bancos de dado relacionais direto para o Hive.
Utiliza MapReduce por debaixo dos panos: processamento paralelo e tolerante a falha.
- Contudo MapReduce já não é mais o motor mais rápido disponível (alternativas:

Spark, Flink).

Exemplo

sqoop import \
    --connect jdbc: \
    --username abc \
    --password xyz \
    --table some_table \
    --where "column='something'"

Caso de uso

Sqoop Usecase. Créditos: Amazon

Desafio

Consultas SQL a serem feitas sobre o conjunto de dados de Pokémon (vide Dataset).

SQL

Todos os Pokémon lendários

SELECT *
FROM trainning.pokemon
WHERE legendary=TRUE;

Todos os Pokémon de apenas um tipo

SELECT *
FROM trainning.pokemon
WHERE type2='';

Os top 10 Pokémon mais rápidos

SELECT *
FROM trainning.pokemon
ORDER BY speed DESC
LIMIT 10;

Os top 50 Pokémon com menos HP

SELECT *
FROM trainning.pokemon
ORDER BY hp ASC
LIMIT 50;

Os top 100 Pokémon com maiores atributos

Total (soma)

SELECT *
FROM trainning.pokemon
ORDER BY
SUM(hp, attack, defense, spatk, spdef, speed)
DESC
LIMIT 100;

Individuais

SELECT *
FROM trainning.pokemon
ORDER BY
GREATEST(hp, attack, defense, spatk, spdef, speed)
DESC
LIMIT 100;

Recursos

Slides da aula

Datasets

Comandos SQL e Sqoop (dontpad)

Zookeeper Tutorial

Sqoop Usecase

Voltar

Sumário

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

ecossistema_hadoop.org

ecossistema_hadoop.org

Orquestrando ambientes de big data distruibuidos com Zookeeper, Yarn e Sqoop

Zookeepr

Sqoop

Exemplo

Caso de uso

Desafio

SQL

Recursos

Voltar

Files

ecossistema_hadoop.org

Latest commit

History

ecossistema_hadoop.org

File metadata and controls

Orquestrando ambientes de big data distruibuidos com Zookeeper, Yarn e Sqoop

Zookeepr

Sqoop

Exemplo

Caso de uso

Desafio

SQL

Recursos

Voltar