Kumpulan script Python untuk operasi Hadoop dan HDFS.
Setup dan konfigurasi Hadoop untuk Windows.
- ✅ Instalasi Hadoop Setup Single Node
- ✅ Setup Cluster
- ✅ Menjalankan perintah dasar Hadoop
Cara Menjalankan:
python hadoop_setup.pyOperasi HDFS (Hadoop Distributed File System).
- ✅ Menjalankan perintah dasar Hadoop
- ✅ Mengambil data dari HDFS (get)
- ✅ Memasukkan data ke HDFS (put)
Cara Menjalankan:
python hdfs_operations.pyContoh Penggunaan:
from hdfs_operations import HDFSOperations
hdfs = HDFSOperations()
# Upload file
hdfs.upload_file('data.txt', '/user/hadoop/input/data.txt')
# Download file
hdfs.download_file('/user/hadoop/output/result.txt', 'result.txt')
# List directory
hdfs.list_directory('/user/hadoop')Memasukkan data dari database ke HDFS.
- ✅ Export dari MySQL ke CSV
- ✅ Export dari PostgreSQL ke CSV
- ✅ Upload ke HDFS
- ✅ Integration dengan Apache Sqoop
Cara Menjalankan:
python database_to_hdfs.pyContoh Penggunaan:
from database_to_hdfs import DatabaseToHDFS
db_to_hdfs = DatabaseToHDFS()
# MySQL ke HDFS
mysql_config = {
'host': 'localhost',
'user': 'root',
'password': 'password',
'database': 'mydb'
}
db_to_hdfs.mysql_to_hdfs(
db_config=mysql_config,
table='customers',
hdfs_path='/user/hadoop/data/customers.csv'
)Panduan lengkap perintah dasar Hadoop.
- ✅ File operations
- ✅ Data transfer
- ✅ Information & monitoring
- ✅ Permissions
- ✅ Admin commands
- ✅ MapReduce commands
Cara Menjalankan:
python hadoop_commands.py-
Java JDK 8 atau lebih tinggi
java -version
-
Hadoop
- Download dari: https://hadoop.apache.org/releases.html
- Extract ke direktori (misal: C:\hadoop)
- Set environment variables:
HADOOP_HOME=C:\hadoopJAVA_HOME=C:\Program Files\Java\jdk-xx- Tambahkan ke PATH:
%HADOOP_HOME%\bin
-
Python Libraries
pip install mysql-connector-python # Untuk MySQL pip install psycopg2-binary # Untuk PostgreSQL
- ✅ Instalasi Hadoop Setup Single Node
- ✅ Setup Cluster
- ✅ Menjalankan perintah dasar Hadoop
- ✅ Melentikkan dan mengambil data dari HDFS
- ✅ Memasukkan data dari database ke HDFS
-
Format NameNode (pertama kali)
hdfs namenode -format
-
Start Hadoop
start-all.sh # Linux/Mac # atau start-dfs.cmd # Windows start-yarn.cmd # Windows
-
Verifikasi
- NameNode: http://localhost:9870
- ResourceManager: http://localhost:8088
- DataNode: http://localhost:9864
-
Test HDFS
hdfs dfs -mkdir -p /user/hadoop/test hdfs dfs -ls /
- Pastikan port yang diperlukan tidak terblokir (9870, 8088, 9864)
- Gunakan absolute path saat bekerja dengan HDFS
- Backup data sebelum format NameNode
- Monitor disk space di DataNode
Problem: Command not found
- Pastikan HADOOP_HOME sudah di-set
- Pastikan %HADOOP_HOME%\bin ada di PATH
Problem: Connection refused
- Cek apakah Hadoop services sudah running
- Verifikasi dengan:
jps(Java Process Status)
Problem: Permission denied
- Cek permission file di HDFS:
hdfs dfs -ls -R / - Change permission:
hdfs dfs -chmod 777 /path
Untuk pertanyaan atau bantuan, silakan hubungi dosen atau asisten mata kuliah.
Teknologi Big Data - Semester 2