# <center>Lab Trabalhando com o HDFS</center>

Para trabalharmos com `HDFS` nós temos **duas alternativas**:

- Trabalhar via linha de comando usando o `terminal` onde **não teremos limitações**.
- Trabalhar via navegador web usando o `Web HDFS` onde **temos limitações**.

Por conta disso **trabalharemos com o HDFS via linha de comando usando o terminal**.

<br>

---

# Principais Comandos do Linux

<br>

1. **`pwd`** - Mostra o diretório atual (Print Working Directory).
   - Exemplo:
     ```bash
     pwd
     ```
2. **`ls`** - Lista os arquivos e diretórios do diretório atual.
   - Exemplo:
     ```bash
     ls
     ```
3. **`ls -la`** - Lista arquivos e diretórios, incluindo os ocultos, com permissões detalhadas.
   - Exemplo:
     ```bash
     ls -la
     ```
4. **`cd`** - Navega entre diretórios.
   - Exemplo para mudar para o diretório `/home`:
     ```bash
     cd /home
     ```
5. **`mkdir`** - Cria um novo diretório.
   - Exemplo para criar o diretório `meu_diretorio`:
     ```bash
     mkdir meu_diretorio
     ```
6. **`rm`** - Remove arquivos ou diretórios.
   - Exemplo para remover o arquivo `arquivo.txt`:
     ```bash
     rm arquivo.txt
     ```
7. **`rm -r`** - Remove diretórios e seu conteúdo de forma recursiva.
   - Exemplo para remover o diretório `meu_diretorio` e todos os arquivos dentro dele:
     ```bash
     rm -r meu_diretorio
     ```
8. **`cp`** - Copia arquivos ou diretórios.
   - Exemplo para copiar o arquivo `arquivo.txt` para o diretório `backup`:
     ```bash
     cp arquivo.txt backup/
     ```

9. **`mv`** - Move ou renomeia arquivos ou diretórios.
   - Exemplo para mover o arquivo `arquivo.txt` para o diretório `documentos`:
     ```bash
     mv arquivo.txt documentos/
     ```
10. **`chmod`** - Modifica permissões de arquivos e diretórios.
    - Exemplo para dar permissões de leitura, escrita e execução ao proprietário:
      ```bash
      chmod 755 arquivo.txt
      ```
11. **`chown`** - Muda o proprietário de um arquivo ou diretório.
    - Exemplo para alterar o proprietário do arquivo `arquivo.txt` para o usuário `usuario`:
      ```bash
      chown usuario arquivo.txt
      ```
12. **`cat`** - Exibe o conteúdo de arquivos.
    - Exemplo para exibir o conteúdo de `arquivo.txt`:
      ```bash
      cat arquivo.txt
      ```
13. **`gedit`** - Editar o conteúdo de arquivos.
    - Exemplo para editar o conteúdo de `arquivo.xml`:
      ```bash
      gedit arquivo.xml
      ```
14. **`nano`** - Editor de texto simples no terminal.
    - Exemplo para abrir o arquivo `arquivo.txt` no editor:
      ```bash
      nano arquivo.txt
      ```
15. **`top`** - Exibe os processos em execução e o uso do sistema em tempo real.
    - Exemplo:
      ```bash
      top
      ```

16. **`df -h`** - Mostra o uso de disco em formato legível.
    - Exemplo:
      ```bash
      df -h
      ```

17. **`free -m`** - Mostra o uso de memória em megabytes.
    - Exemplo:
      ```bash
      free -m
      ```
18. **`ps aux`** - Exibe todos os processos em execução no sistema.
    - Exemplo:
      ```bash
      ps aux
      ```
19. **`kill`** - Envia um sinal para finalizar um processo.
    - Exemplo para matar um processo com o PID `1234`:
      ```bash
      kill 1234
      ```
20. **`grep`** - Procura por um padrão dentro de um arquivo ou saída de comando.
    - Exemplo para procurar a palavra "erro" dentro do arquivo `log.txt`:
      ```bash
      grep "erro" log.txt
      ```
21. **`tar -czvf`** - Compacta arquivos e diretórios.
    - Exemplo para compactar o diretório `meus_dados` em um arquivo `dados.tar.gz`:
      ```bash
      tar -czvf dados.tar.gz meus_dados/
      ```

22. **`tar -xzvf`** - Descompacta arquivos `.tar.gz`.
    - Exemplo para descompactar o arquivo `dados.tar.gz`:
      ```bash
      tar -xzvf dados.tar.gz
      ```
23. **`sudo`** - Executa um comando como superusuário.
    - Exemplo para executar `apt update` com permissões de administrador:
      ```bash
      sudo apt update
      ```
24. **`apt-get install`** - Instala pacotes em sistemas baseados em Debian.
    - Exemplo para instalar o pacote `vim`:
      ```bash
      sudo apt-get install vim
      ```
<br>

Esses comandos cobrem uma ampla gama de funcionalidades essenciais para o uso do Linux, desde navegação até gerenciamento de processos e arquivos.

<br><br>

# Principais Comandos do HDFS

<br>

1. **`hdfs dfs -ls /`** - Lista os arquivos e diretórios no HDFS raiz.
   - Exemplo para listar o diretório `/user/hadoop`:
     ```bash
     hdfs dfs -ls /
     ```
     
   **`hdfs dfs -ls /user/bigdata`** - Lista os arquivos e diretórios de um diretório específico.
   - Exemplo para listar o diretório `/user/bigdata`:
     ```bash
     hdfs dfs -ls /user/bigdata
     ```
     
2. **`hdfs dfs -mkdir`** - Cria um novo diretório no HDFS.
   - Exemplo para criar o diretório `/user/hadoop/novo_diretorio`:
     ```bash
     hdfs dfs -mkdir /user/hadoop/novo_diretorio
     ```
3. **`hdfs dfs -put`** - Envia arquivos locais para o HDFS.
   - Exemplo para enviar o arquivo `localfile.txt` para o HDFS no diretório `/user/hadoop`:
     ```bash
     hdfs dfs -put localfile.txt /user/hadoop/
     ```
4. **`hdfs dfs -get`** - Baixa arquivos do HDFS para o sistema de arquivos local.
   - Exemplo para baixar o arquivo `hdfsfile.txt` do HDFS para o diretório local:
     ```bash
     hdfs dfs -get /user/hadoop/hdfsfile.txt .
     ```
5. **`hdfs dfs -rm`** - Remove arquivos ou diretórios no HDFS.
   - Exemplo para remover o arquivo `hdfsfile.txt` do HDFS:
     ```bash
     hdfs dfs -rm /user/hadoop/hdfsfile.txt
     ```
6. **`hdfs dfs -rm -r`** - Remove diretórios no HDFS de forma recursiva.
   - Exemplo para remover o diretório `/user/hadoop/dir` e todo o seu conteúdo:
     ```bash
     hdfs dfs -rm -r /user/hadoop/dir
     ```

7. **`hdfs dfs -copyFromLocal`** - Copia arquivos do sistema local para o HDFS.
   - Exemplo para copiar `localfile.txt` para o HDFS:
     ```bash
     hdfs dfs -copyFromLocal localfile.txt /user/hadoop/
     ```
8. **`hdfs dfs -copyToLocal`** - Copia arquivos do HDFS para o sistema de arquivos local.
   - Exemplo para copiar `hdfsfile.txt` do HDFS para o local:
     ```bash
     hdfs dfs -copyToLocal /user/hadoop/hdfsfile.txt .
     ```
9. **`hdfs dfs -cat`** - Exibe o conteúdo de um arquivo no HDFS.
   - Exemplo para exibir o conteúdo do arquivo `hdfsfile.txt`:
     ```bash
     hdfs dfs -cat /user/hadoop/hdfsfile.txt
     ```
10. **`hdfs dfs -du`** - Exibe o uso de espaço em disco dos diretórios no HDFS.
    - Exemplo para exibir o uso de disco do diretório `/user/hadoop`:
      ```bash
      hdfs dfs -du /user/hadoop
      ```
11. **`hdfs dfs -chmod`** - Altera as permissões de arquivos ou diretórios no HDFS.
    - Exemplo para dar permissões de leitura, escrita e execução ao proprietário para `arquivo.txt`:
      ```bash
      hdfs dfs -chmod 755 /user/hadoop/arquivo.txt
      ```
12. **`hdfs dfs -chown`** - Altera o proprietário de um arquivo ou diretório no HDFS.
    - Exemplo para alterar o proprietário do arquivo `arquivo.txt` para o usuário `hadoop`:
      ```bash
      hdfs dfs -chown hadoop /user/hadoop/arquivo.txt
      ```
13. **`hdfs dfs -mv`** - Move ou renomeia arquivos e diretórios no HDFS.
    - Exemplo para renomear `arquivo.txt` para `novo_arquivo.txt`:
      ```bash
      hdfs dfs -mv /user/hadoop/arquivo.txt /user/hadoop/novo_arquivo.txt
      ```
14. **`hdfs dfs -cp`** - Copia arquivos ou diretórios dentro do HDFS.
    - Exemplo para copiar `arquivo.txt` para `backup.txt` no mesmo diretório:
      ```bash
      hdfs dfs -cp /user/hadoop/arquivo.txt /user/hadoop/backup.txt
      ```
15. **`hdfs dfs -stat`** - Exibe detalhes sobre arquivos ou diretórios no HDFS (como tempo de modificação, tamanho, etc).
    - Exemplo para ver detalhes de `arquivo.txt`:
      ```bash
      hdfs dfs -stat /user/hadoop/arquivo.txt
      ```
16. **`hdfs dfs -tail`** - Exibe as últimas linhas de um arquivo no HDFS.
    - Exemplo para visualizar as últimas linhas de `arquivo.log`:
      ```bash
      hdfs dfs -tail /user/hadoop/arquivo.log
      ```
17. **`hdfs dfsadmin -report`** - Exibe um relatório do status do cluster HDFS.
    - Exemplo:
      ```bash
      hdfs dfsadmin -report
      ```
18. **`hdfs dfsadmin -safemode`** - Gerencia o modo de segurança do HDFS (ativa ou desativa o modo seguro).
    - Exemplo para desativar o modo seguro:
      ```bash
      hdfs dfsadmin -safemode leave
      ```
     - Exemplo para ativar o modo seguro:
      ```bash
      hdfs dfsadmin -safemode enter
      ```
<br>

Esses comandos cobrem as principais operações que você pode realizar com o HDFS, incluindo gerenciamento de arquivos, permissões e monitoramento do status do cluster.

<br><br>

---

<br><br>

# Comandos para Startar e Stopar Serviços no Hadoop

<br>

## Para **startar** e stopar os serviços:

1. **Iniciar o HDFS (NameNode, DataNode, SecondaryNameNode)**:
   ```bash
   start-dfs.sh  |  stop-dfs.sh
   ```
2. **Iniciar o YARN (ResourceManager, NodeManager)**:
    ```bash
    start-yarn.sh  |  stop-yarn.sh
    ```
3. **Iniciar o ZooKeeper (se configurado no cluster)**:
    ```bash
    zkServer.sh start  |zkServer.sh stop  
    ```

4. **Iniciar o HBase**:
    ```bash
    start-hbase.sh  |  stop-hbase.sh
    ```
O HBase depende do ZooKeeper, então certifique-se de que o ZooKeeper está rodando antes de iniciar o HBase.

<br><br>

---

<br><br>


# Dicas Para Resolver Problemas com o HDFS

1. **Acessar o diretório de Logs**:
    ```bash
    cd /opt/hadoop/logs/
    ```

2. **Verificar os Logs**:
    ```bash
    gedit hadoop-hadoop-datanode-dataserver.log
    ```

### Dicas adicionais

3. **Stopar o serviço**.

<br>

4. **Dentro do diretório de logs, `apague todos os arquivos` com**:
    ```bash
    rm -rf *
    ```
5. **Startar os serviços novamente** e assim irá gerar novos logs.


<br><br><br>

---

<br><br><br>

# <u><center>Iniciando os Trabalhos com o HDFS</u></center>

Vamos importar dados para o HDFS de duas formas:

1. Do sistema operacional local
2. Banco de dados mysql

<br>

### Criando Pasta/Diretório para cada Conteúdo (Volume De Dados) que iremos colocar no HDFS e assim iniciar a estrutura

<br>

```bash
    hdfs dfs -mkdir /user
```
```bash
    hdfs dfs -mkdir /user/bigdata
```

<br>

---

<br>

## 1. Importando Dados do Sistema Operacional Local para o HDFS

<br>

### Copiando conteúdo do `Sistema Operacional Local` para dentro do `HDFS`:

Abrir pasta onde está o arquivo a ser copiado, abrir um terminal e digitar (neste caso é o arquivo dados.txt dentro da pasta teste)

```bash
    hdfs dfs -put dados.txt /user/bigdata
```

### Copiando conteúdo do `HDFS` para o `Sistema Operacional Local`:

Abrir pasta onde o arquivo do hdfs será salvo, abrir um terminal e digitar (neste caso é o arquivo dados.txt dentro do HDFS)

```bash
    hdfs dfs -get /user/bigdata/dados.txt
```

<br>

### Visualizando conteúdo que está dentro do `HDFS`:

> Acessar o Navegador e digitar `localhost:9870`

<br>

- Em **NameNode Journal Status** verificar em `State` o caminho do arquivo onde o NameNode grava os metadados.
- Para navegar até o diretório, basta copiar o caminho em `State` e colar no terminal.

`cd /tmp/hadoop-hadoop/dfs/name/current`

`ls -la`

- Clicar no menu superior em `Utilities` e depois em `Browse the file system` e navegar na pasta.

<br>

---

<br>

## 2. Importando Dados do MySQL para o HDFS

<br>

### Verificando <i>Status</i> do MySQL via Terminal

```bash
    sudo systemctl status mysqld
```

Caso o Parâmetro `Active` nao esteja `Running`, escrever `sudo systemctl start mysqld`

<br>

---

### Definindo a <i>Senha</i> para acessar o MySQL

#### Parar o serviço
```bash
    sudo systemctl stop mysqld 
```

#### Inicializa em modo de segurança
```bash
    sudo mysqld --skip-grant-tables --user=mysql &
```

#### Abre o shell
```bash
    mysql
```

#### Reset dos privilégios
```bash
    FLUSH PRIVILEGES;
```

#### Altera a senha do root (ocorrerá um erro)
```bash
    ALTER USER 'root'@'localhost' IDENTIFIED BY 'bonitao';
```


#### Verifica as regras de senha
```bash
    SHOW VARIABLES LIKE 'validate_password%';
```

#### Ajusta a senha com base nas regras
```bash
    ALTER USER 'root'@'localhost' IDENTIFIED BY 'Bonitao10!';
```

#### Finaline o Terminal do MySQL
```bash
    exit;
```

## Reinicie a máquina.

<br>

---

### Acessando o <i>Shell</i> do MySQL via Terminal (verificar Status)

```bash
    mysql -u root -p
```

<br>

---

### Criando e Definindo o Uso de um Banco De Dados no MySQL

```bash
    create database testedb;
```
```bash
    use testedb;
```

### Criando, Inserindo e Verificando um Registro na Tabela no Banco de Dados `testedb`

```bash
    create table empregados (username varchar(30), password varchar(30));
```

```bash
    insert into empregados value ('Alan Turing', 'hadoop123');
```

```bash
    select * from empregados;
```

<br>

---

### Importando Banco de Dados `testedb` para o `HDFS`

> Iremos utilizar a ferramento **Sqoop** que é uma ferrameta do tipo ETL (extração, transformação e carga), ou seja, pega os dados e transforma se necessário e carrega para outro local.

> O **Sqoop** irá se conectar ao **HDFS** via bibliotecas do próprio hadoop, e isso será feito devido as configurações feitas durante a instalação do **Sqoop**.

> Mas e como o **Sqoop** se conecta ao **MySQL** ? Utilizando conexão via JDBC (Java Database Connection) e por conta disso precisaremos realizar o **download de um conector jdbc mysql**.

<br>

#### Realizando Download do Conector para MySQL

- Acessar a página `https://dev.mysql.com/downloads/connector/j/`
- Em `Select Operating System:` selecionar a opção `Platform Independent` e realiza o download do arquivo tipo zip
- Descompactar o arquivo e acessar a pasta criada
- Agora precisamos copiar o arquivo `.jar` para o diretório Lib do Sqoop
- Dentro da nova pasta, acessar o terminal e digitar: `cp nome-do-conetor.jar /opt/sqoop/lib`

<br>

---

### Testando a Conexão com o Sqoop

É esperado que nome do banco de dados apareça.

```bash
    sqoop list-databases --connect jdbc:mysql://localhost:3306/ --username root -P
```

### Corrigindo BUG

- Acessar o GitHub DSA e acessar o Repositório Libs
- Dentro de Libs, clicar em `commons-lang-2.6-bin.zip` e copiar enderenço do link para download
- No terminal utilizar o comando `wget endereço copiado na linha acima` e descompactar em uma pasta.
- Entrar na pasta descompactada e copiar o arquivo `commons-lang-2.6.jar` para o diretório `Lib do Sqoop` com o comando: `cp commons-lang-2.6.jar /opt/sqoop/lib`
 
### Importando o Banco de Dados

```bash
    sqoop import --connect jdbc:mysql://localhost:3306/testedb?serverTimezone=UTC --username root --password SenhadoBancodeDados@1 --table empregados --m 1
```

### Verificando a Importação

É para aparecer uma pasta com o nome da tabela do banco de dados importada.

```bash
    hdfs dfs -ls /user/hadoop
```

<br>

---

### Copiando Arquivo Importando do MySQL para o Sistema Operacional

Abrir pasta onde o arquivo do hdfs será salvo, abrir um terminal e digitar (neste caso é o arquivo dados.txt dentro do HDFS)

```bash
    hdfs dfs -get /user/hadoop/empregados/part-m-00000
```