# ðŸš€ Praktikum Minggu 1: Pengantar Big Data & Setup Google Colab
**Mata Kuliah**: Big Data Analitik

**Tujuan**:
- Memahami cara kerja Google Colab
- Me-review sintaks Python dasar untuk analitik data
- Melakukan manipulasi data dasar dengan Pandas
- Memvisualisasikan data sederhana


## 1. Mengenal Google Colab
Google Colab adalah notebook Jupyter berbasis cloud. Setiap cell dapat berisi kode atau teks (Markdown).

In [None]:
# Cell pertama: Hello World!
print('Selamat datang di Big Data Analitik!')
print('Google Colab siap digunakan.')

# Cek versi Python
import sys
print(f'Python version: {sys.version}')

In [None]:
# Cek resource yang tersedia
import os

# Cek RAM
with open('/proc/meminfo', 'r') as f:
    mem_info = f.readlines()

mem_total = [x for x in mem_info if 'MemTotal' in x][0]
mem_free  = [x for x in mem_info if 'MemFree' in x][0]
print('=== Informasi Memori ===')
print(mem_total.strip())
print(mem_free.strip())

# Cek CPU
import multiprocessing
print(f'\nJumlah CPU Core: {multiprocessing.cpu_count()}')

## 2. Review Python untuk Data Analitik
### 2.1 Tipe Data dan Struktur Data

In [None]:
# Tipe data dasar
angka_bulat   = 1000000   # int
angka_desimal = 3.14159   # float
teks          = 'Big Data' # str
boolean       = True       # bool

print('Tipe Data:')
for var, nama in [(angka_bulat,'int'), (angka_desimal,'float'),
                  (teks,'str'), (boolean,'bool')]:
    print(f'  {nama}: {var} -> type: {type(var).__name__}')

In [None]:
# Struktur data
# List - urutan, bisa diubah
technologies = ['Hadoop', 'Spark', 'Kafka', 'Flink', 'TensorFlow']
print('List teknologi big data:', technologies)
print('Elemen pertama:', technologies[0])
print('Panjang list:', len(technologies))

# Dictionary - key-value pairs
big_data_5v = {
    'Volume':   'Ukuran data sangat besar (TB, PB)',
    'Velocity': 'Kecepatan data dihasilkan dan diproses',
    'Variety':  'Beragam format: structured, semi, unstructured',
    'Veracity': 'Kualitas dan akurasi data',
    'Value':    'Nilai bisnis yang dapat diekstrak'
}

print('\n=== 5V Big Data ===')
for v, deskripsi in big_data_5v.items():
    print(f'{v:10}: {deskripsi}')

### 2.2 List Comprehension dan Lambda

In [None]:
# List comprehension - cara Pythonic untuk membuat list
angka = list(range(1, 11))
kuadrat = [x**2 for x in angka]
genap   = [x for x in angka if x % 2 == 0]

print('Angka  :', angka)
print('Kuadrat:', kuadrat)
print('Genap  :', genap)

# Lambda function
konversi_gb = lambda mb: mb / 1024
ukuran_mb = [500, 1024, 2048, 5120]
ukuran_gb = list(map(konversi_gb, ukuran_mb))
print('\nKonversi MB ke GB:')
for mb, gb in zip(ukuran_mb, ukuran_gb):
    print(f'  {mb:5} MB = {gb:.2f} GB')

## 3. Pandas untuk Manipulasi Data
### 3.1 Membuat DataFrame

In [None]:
import pandas as pd
import numpy as np

# Dataset simulasi: Pertumbuhan Data Global
data_pertumbuhan = {
    'Tahun': list(range(2015, 2026)),
    'Volume_ZB': [8.5, 12.0, 16.1, 18.0, 26.0, 40.0, 47.0, 64.0, 79.0, 97.0, 120.0],
    'Pengguna_Internet_M': [3200, 3400, 3600, 3900, 4100, 4540, 4660, 4950, 5300, 5400, 5500],
    'Perangkat_IoT_B': [15.0, 17.0, 20.0, 23.0, 26.0, 30.0, 35.0, 42.0, 48.0, 55.0, 62.0]
}

df = pd.DataFrame(data_pertumbuhan)
print('Dataset Pertumbuhan Big Data Global:')
print(df.to_string(index=False))

In [None]:
# Eksplorasi DataFrame
print('=== Informasi Dataset ===')
print(f'Bentuk data: {df.shape[0]} baris x {df.shape[1]} kolom')
print(f'Kolom: {list(df.columns)}')
print()

print('=== Statistik Deskriptif ===')
print(df.describe().round(2))
print()

print('=== Tipe Data ===')
print(df.dtypes)

In [None]:
# Operasi pada DataFrame
# Tambah kolom baru: Pertumbuhan YoY
df['Pertumbuhan_YoY_pct'] = df['Volume_ZB'].pct_change() * 100
df['Pertumbuhan_YoY_pct'] = df['Pertumbuhan_YoY_pct'].round(1)

# Filter data setelah 2019
df_recent = df[df['Tahun'] >= 2020].copy()

print('Data pertumbuhan big data (2020-2025):')
print(df_recent[['Tahun','Volume_ZB','Pertumbuhan_YoY_pct']].to_string(index=False))
print(f'\nRata-rata pertumbuhan tahunan: {df_recent["Pertumbuhan_YoY_pct"].mean():.1f}%')

## 4. Visualisasi Data

In [None]:
import matplotlib.pyplot as plt
import matplotlib.ticker as ticker

fig, axes = plt.subplots(1, 2, figsize=(14, 5))
fig.suptitle('Pertumbuhan Big Data Global', fontsize=14, fontweight='bold')

# Plot 1: Volume Data Global
axes[0].fill_between(df['Tahun'], df['Volume_ZB'], alpha=0.3, color='steelblue')
axes[0].plot(df['Tahun'], df['Volume_ZB'], 'o-', color='steelblue', linewidth=2)
axes[0].set_title('Volume Data Global (Zettabyte)')
axes[0].set_xlabel('Tahun')
axes[0].set_ylabel('Volume (ZB)')
axes[0].grid(True, alpha=0.3)
for x, y in zip(df['Tahun'], df['Volume_ZB']):
    axes[0].annotate(f'{y}', (x, y), textcoords='offset points', xytext=(0,8), ha='center', fontsize=8)

# Plot 2: Perbandingan Pengguna Internet & Perangkat IoT
ax2 = axes[1]
ax2.bar(df['Tahun'] - 0.2, df['Pengguna_Internet_M'], 0.4, label='Pengguna Internet (Juta)', color='coral', alpha=0.8)
ax2_twin = ax2.twinx()
ax2_twin.plot(df['Tahun'], df['Perangkat_IoT_B'], 's--', color='green', linewidth=2, label='Perangkat IoT (Miliar)')
ax2.set_title('Pengguna Internet & Perangkat IoT')
ax2.set_xlabel('Tahun')
ax2.set_ylabel('Pengguna Internet (Juta)', color='coral')
ax2_twin.set_ylabel('Perangkat IoT (Miliar)', color='green')
ax2.legend(loc='upper left')
ax2_twin.legend(loc='lower right')
ax2.grid(True, alpha=0.3)

plt.tight_layout()
plt.show()
print('Visualisasi berhasil dibuat!')

## 5. Simulasi 5V Big Data

In [None]:
import time
import random
import json
from datetime import datetime, timedelta

# Simulasi stream data transaksi (Velocity)
def generate_transaction():
    """Simulasi generator data transaksi real-time"""
    return {
        'id': random.randint(100000, 999999),
        'timestamp': datetime.now().strftime('%Y-%m-%d %H:%M:%S.%f'),
        'user_id': f'USR{random.randint(1000, 9999)}',
        'amount': round(random.uniform(10000, 5000000), 2),
        'category': random.choice(['Belanja', 'Transfer', 'Tagihan', 'TopUp', 'Investasi']),
        'status': random.choice(['SUCCESS', 'SUCCESS', 'SUCCESS', 'FAILED', 'PENDING'])
    }

# Generate 10 transaksi
print('=== Simulasi Stream Data Transaksi (Velocity) ===')
transactions = [generate_transaction() for _ in range(10)]
df_tx = pd.DataFrame(transactions)
print(df_tx.to_string(index=False))

# Analisis cepat
print('\n=== Analisis Cepat ===')
print(f'Total transaksi: {len(df_tx)}')
print(f'Total nilai    : Rp {df_tx["amount"].sum():,.0f}')
print(f'Transaksi sukses: {(df_tx["status"]=="SUCCESS").sum()}')
print(f'Kategori terbanyak: {df_tx["category"].value_counts().index[0]}')

In [None]:
# Simulasi Variety: berbagai jenis data
print('=== Simulasi Variety Data ===')

# Structured data
structured = pd.DataFrame({'id': [1,2,3], 'nama': ['Ali','Budi','Citra'], 'nilai': [85,92,78]})
print('1. Structured Data (DataFrame):')
print(structured)

# Semi-structured data (JSON)
semi_structured = {
    'user': {'id': 'USR001', 'nama': 'Ali'},
    'preferences': ['big_data', 'machine_learning'],
    'activity': {'last_login': '2024-01-15', 'purchases': 42}
}
print('\n2. Semi-structured Data (JSON):')
print(json.dumps(semi_structured, indent=2))

# Unstructured data (teks)
unstructured = """Big data analytics is the process of examining large and varied data sets
to uncover hidden patterns, unknown correlations, market trends, customer preferences
and other useful information."""
print('\n3. Unstructured Data (Teks):')
print(unstructured)
print(f'   Jumlah kata: {len(unstructured.split())}')

## 6. Tugas Praktikum Minggu 1

**Kerjakan soal berikut dalam notebook ini:**

1. Cari dataset publik dari Indonesia (contoh: data kependudukan, cuaca, ekonomi) dengan format CSV.
2. Load dataset tersebut ke dalam Pandas DataFrame.
3. Tampilkan informasi dasar dataset: jumlah baris, kolom, tipe data, dan 5 baris pertama.
4. Hitung statistik deskriptif (mean, median, std) untuk kolom numerik.
5. Buat minimal 2 visualisasi yang informatif dari dataset tersebut.
6. Tuliskan 3 insight yang kamu temukan dari dataset tersebut.

**Dikumpulkan**: Notebook (.ipynb) melalui Google Drive / LMS

**Deadline**: Sebelum perkuliahan minggu depan
