# Tutorial: Como Usar HDFS no Cluster Hadoop/Spark

Este tutorial explica como usar comandos HDFS para gerenciar arquivos no sistema distribuído do Hadoop.

## O que é HDFS?

HDFS (Hadoop Distributed File System) é um sistema de arquivos distribuído que permite armazenar grandes volumes de dados em múltiplos nós de um cluster.

### Características principais:
- **Distribuído**: Os dados são espalhados por vários nós
- **Tolerante a falhas**: Replica dados automaticamente
- **Escalável**: Pode crescer adicionando mais nós

## Comandos HDFS Básicos

Os comandos HDFS seguem o padrão: `hdfs dfs -<comando> <origem> <destino>`

### Comandos mais utilizados:
- `hdfs dfs -ls` - Lista arquivos e diretórios
- `hdfs dfs -mkdir` - Cria diretórios
- `hdfs dfs -put` - Copia arquivos do sistema local para HDFS
- `hdfs dfs -get` - Copia arquivos do HDFS para sistema local
- `hdfs dfs -cat` - Mostra conteúdo de um arquivo
- `hdfs dfs -rm` - Remove arquivos

## Passo a Passo: Copiando Arquivos para HDFS

### 1. Primeiro, vamos verificar se o HDFS está funcionando

In [None]:
# Execute este comando no terminal do Jupyter
# Para verificar se o HDFS está ativo
!hdfs dfsadmin -report

### 2. Criar o diretório /datasets no HDFS

In [None]:
# Criar o diretório datasets no HDFS
!hdfs dfs -mkdir -p /datasets

### 3. Verificar se os arquivos do Gutenberg existem localmente

In [None]:
# Listar os arquivos disponíveis na pasta gutenberg
!ls -la /user_data/gutenberg/

### 4. Copiar os arquivos .txt para o HDFS

In [None]:
# Este é o comando do seu exercício!
# Copia todos os arquivos .txt da pasta gutenberg para o diretório /datasets no HDFS
!hdfs dfs -put /user_data/gutenberg/*.txt /datasets/

### 5. Verificar se os arquivos foram copiados com sucesso

In [None]:
# Listar os arquivos no diretório /datasets do HDFS
!hdfs dfs -ls /datasets/

### 6. Verificar o tamanho e detalhes dos arquivos

In [None]:
# Mostrar informações detalhadas dos arquivos
!hdfs dfs -ls -h /datasets/

## Explicação do Comando do Exercício

```bash
hdfs dfs -put /user_data/gutenberg/*.txt /datasets/
```

### Quebrando o comando:
- `hdfs dfs`: Interface de linha de comando para HDFS
- `-put`: Comando para copiar arquivos do sistema local para HDFS
- `/user_data/gutenberg/*.txt`: Origem - todos os arquivos .txt na pasta gutenberg
- `/datasets/`: Destino - diretório no HDFS onde os arquivos serão armazenados

### O que acontece:
1. O Hadoop pega todos os arquivos .txt da pasta local `/user_data/gutenberg/`
2. Copia esses arquivos para o sistema distribuído HDFS
3. Os arquivos ficam disponíveis em `/datasets/` no HDFS
4. Agora você pode processar esses dados com Spark de forma distribuída

## Comandos Úteis Adicionais

### Ver conteúdo de um arquivo:

In [None]:
# Mostrar as primeiras linhas de um arquivo
!hdfs dfs -cat /datasets/Romeo_and_Juliet.txt | head -20

### Verificar o espaço usado no HDFS:

In [None]:
# Mostrar estatísticas de uso do HDFS
!hdfs dfs -df -h /

## Próximos Passos

Depois de copiar os arquivos para o HDFS, você pode:
1. Usar Spark para processar esses dados
2. Executar análises de big data
3. Criar DataFrames do Spark a partir desses arquivos
4. Executar operações MapReduce

Os dados agora estão prontos para processamento distribuído!