Skip to content

Latest commit

 

History

History
113 lines (91 loc) · 3.46 KB

ecossistema_hadoop.org

File metadata and controls

113 lines (91 loc) · 3.46 KB

Orquestrando ambientes de big data distruibuidos com Zookeeper, Yarn e Sqoop

Zookeepr

O Zookeeper é um serviço de coordenação distribuído.

  • Fornece as rotas necessárias para as peças do cluster.
  • Identifica nós por nomes (DSN-like).
  • Ajuda as peças do ecossitemas Hadoop se achar na bagunça toda.
  • Pode ajudar a evitar concorrência (write on read).
  • Ajuda na recuperação de falhas.

Para o desenvolvedor, o Zookeeper é completamente transparente. Essa tecnologia é mais aparente para aqueles que trabalham com a parte da infraestrutura.

Benefícios do Zookeeper. Créditos: data-flair

Sqoop

O Sqoop é uma ferramenta que permite mover dados de maneira facilitada entre banco de dados relacionais e o HDFS.

  • Realiza a leitura linha a linha de tabelas para arquivos (pode pecar na performance).
  • Permite importar dados e metadados de bancos de dado relacionais direto para o Hive.
  • Utiliza MapReduce por debaixo dos panos: processamento paralelo e tolerante a falha.
    • Contudo MapReduce já não é mais o motor mais rápido disponível (alternativas:

Spark, Flink).

Exemplo

sqoop import \
    --connect jdbc: \
    --username abc \
    --password xyz \
    --table some_table \
    --where "column='something'"

Caso de uso

Sqoop Usecase. Créditos: Amazon

Desafio

Consultas SQL a serem feitas sobre o conjunto de dados de Pokémon (vide Dataset).

SQL

  1. Todos os Pokémon lendários
    SELECT *
    FROM trainning.pokemon
    WHERE legendary=TRUE;
        
  2. Todos os Pokémon de apenas um tipo
    SELECT *
    FROM trainning.pokemon
    WHERE type2='';
        
  3. Os top 10 Pokémon mais rápidos
    SELECT *
    FROM trainning.pokemon
    ORDER BY speed DESC
    LIMIT 10;
        
  4. Os top 50 Pokémon com menos HP
    SELECT *
    FROM trainning.pokemon
    ORDER BY hp ASC
    LIMIT 50;
        
  5. Os top 100 Pokémon com maiores atributos
    • Total (soma)
    SELECT *
    FROM trainning.pokemon
    ORDER BY
    SUM(hp, attack, defense, spatk, spdef, speed)
    DESC
    LIMIT 100;
        
    • Individuais
    SELECT *
    FROM trainning.pokemon
    ORDER BY
    GREATEST(hp, attack, defense, spatk, spdef, speed)
    DESC
    LIMIT 100;
        

Recursos

Slides da aula

Datasets

Comandos SQL e Sqoop (dontpad)

Zookeeper Tutorial

Sqoop Usecase

Voltar

Sumário