# Hands-On Pertemuan 2: Instalasi dan Konfigurasi Hadoop serta Struktur HDFS

## Tujuan:
- Memahami langkah-langkah instalasi dan konfigurasi Hadoop.
- Mempraktikkan bagaimana menggunakan Hadoop dan memahami struktur HDFS.
- Mengeksplorasi command line interface (CLI) Hadoop dan melakukan operasi dasar pada HDFS.

### 1. Instalasi Hadoop di Mode Standalone
1. **Unduh Hadoop**: Kunjungi [Apache Hadoop](https://hadoop.apache.org/releases.html) untuk mengunduh versi terbaru.
2. **Ekstrak dan Setup**: Tambahkan Hadoop ke dalam `$PATH` dan konfigurasi environment variable.
   ```bash
   export HADOOP_HOME=/path/to/hadoop
   export PATH=$PATH:$HADOOP_HOME/bin
   export JAVA_HOME=/path/to/java
   ```
3. **Format HDFS**: Format Hadoop file system dengan:
   ```bash
   hdfs namenode -format
   ```
4. **Start Hadoop**: Jalankan Hadoop dengan perintah:
   ```bash
   start-dfs.sh
   ```
- **Tugas 1**: Format HDFS dan jalankan dalam mode standalone. Verifikasi dengan menjalankan perintah `hadoop version`.

### 2. Struktur HDFS dan Operasi Dasar
HDFS merupakan file system terdistribusi yang memungkinkan penyimpanan dan pemrosesan data besar secara paralel.
- **Operasi Dasar HDFS**:
   - Buat direktori baru di HDFS:
   ```bash
   hdfs dfs -mkdir /user/student
   ```
   - Unggah file ke HDFS:
   ```bash
   hdfs dfs -put input.txt /user/student/
   ```
   - Tampilkan file yang telah diunggah:
   ```bash
   hdfs dfs -ls /user/student/
   ```
- **Tugas 2**: Buat direktori di HDFS, upload file teks, tampilkan konten file, dan hapus file tersebut.

### 3. Operasi File di HDFS
Lakukan operasi pada file yang telah diunggah:
1. **Melihat Konten File**:
   ```bash
   hdfs dfs -cat /user/student/input.txt
   ```
2. **Menduplikasi File**:
   ```bash
   hdfs dfs -cp /user/student/input.txt /user/student/input_copy.txt
   ```
3. **Menghapus File dari HDFS**:
   ```bash
   hdfs dfs -rm /user/student/input_copy.txt
   ```
- **Tugas 3**: Lakukan operasi untuk menampilkan konten file, menduplikasi, dan menghapus file di HDFS.

### 4. Menganalisis Struktur Penyimpanan di HDFS
Untuk memahami bagaimana HDFS mengelola penyimpanan, gunakan perintah berikut:
- **Menampilkan informasi penyimpanan HDFS**:
   ```bash
   hdfs dfsadmin -report
   ```
- **Menampilkan status block**:
   ```bash
   hdfs fsck / -files -blocks -locations
   ```
- **Tugas 4**: Lakukan analisis pada struktur penyimpanan di HDFS dan tuliskan laporan berdasarkan hasil dari `hdfs dfsadmin -report`.

### 5. Tugas Tambahan: Integrasi Hadoop dengan Spark
- Coba instal Spark dan konfigurasi dengan Hadoop. Lakukan operasi sederhana untuk memproses data menggunakan Spark yang tersimpan di HDFS.

In [1]:
#mengimpor sparksession dari pyspark
from pyspark.sql import SparkSession

In [2]:
#memulai dan mengelola aplikasi PySpark.
sparkSession = SparkSession.builder.appName("contoh-pyspark").getOrCreate()

In [3]:
# membaca CSV file dari HDFS.
df_load = sparkSession.read.csv('hdfs://localhost:9820/adnan/*.csv')
df_load.show()

+-----+---------------+----------+---------+--------------------+-----------------+--------------------+--------------------+--------------------+--------------------+-----------------+--------------------+
|  _c0|            _c1|       _c2|      _c3|                 _c4|              _c5|                 _c6|                 _c7|                 _c8|                 _c9|             _c10|                _c11|
+-----+---------------+----------+---------+--------------------+-----------------+--------------------+--------------------+--------------------+--------------------+-----------------+--------------------+
|Index|    Customer Id|First Name|Last Name|             Company|             City|             Country|             Phone 1|             Phone 2|               Email|Subscription Date|             Website|
|    1|DD37Cf93aecA6Dc|    Sheryl|   Baxter|     Rasmussen Group|     East Leonard|               Chile|        229.077.5154|    397.884.0519x718|zunigavanessa@smi...|     