-
Notifications
You must be signed in to change notification settings - Fork 0
Home
sabrinasalva-dev edited this page Oct 2, 2024
·
16 revisions
Exploratory Data Analysis (EDA) adalah pendekatan/filosofi untuk analisis data yang menggunakan berbagai teknik (sebagian besar berupa grafis) untuk memaksimalkan wawasan terhadap sebuah dataset. EDA membantu dalam mengidentifikasi anomali, memvisualisasikan distribusi data, dan mengevaluasi hipotesis. Teknik umum dalam EDA termasuk visualisasi grafik, statistik deskriptif, dan analisis hubungan antar variabel. Ini adalah langkah penting untuk mendapatkan wawasan yang mendalam dan membuat keputusan berbasis data.
- membantu dalam memahami struktur dan karakteristik data.
- termasuk distribusi, pola, dan hubungan antar variabel,Memungkinkan pendeteksian outlier atau data yang tidak biasa yang bisa memengaruhi analisis lebih lanjut.
- Menyediakan informasi awal yang berguna untuk membuat keputusan dan merumuskan hipotesis sebelum melanjutkan ke analisis yang lebih mendalam.
- Membantu dalam membuat visualisasi yang jelas dan informatif, sehingga memudahkan pemahaman data oleh pemangku kepentingan.
- Menunjukkan langkah-langkah pembersihan dan transformasi data yang diperlukan sebelum analisis lebih lanjut.
- Memberikan wawasan yang dapat digunakan untuk membangun model prediktif yang lebih efektif.
dan mash banyak lagi.
Teknik EDA (Exploratory Data Analysis) dalam Python meliputi:
1. Visualisasi Data: Menggunakan Matplotlib dan Seaborn untuk membuat grafik seperti histogram, boxplot, dan scatter plot.
2. Statistik Deskriptif: Menggunakan Pandas untuk menghitung mean, median, mode, dan standar deviasi.
3. Analisis Korelasi: Menggunakan heatmap untuk melihat hubungan antara variabel.
4. Missing Values: Mengidentifikasi dan menangani nilai yang hilang dalam dataset.
1. Pengumpulan Data
Mengumpulkan dataset dari berbagai sumber, seperti database, API, atau file CSV.
2. Pemahaman Data Awal
Membaca deskripsi dataset untuk memahami konteks. Menggunakan fungsi seperti head(), info(), dan describe() untuk mendapatkan gambaran awal.
3. Data Cleaning
Menangani Missing Values: Mengidentifikasi dan mengisi atau menghapus nilai yang hilang. Memperbaiki Typo: Memastikan konsistensi dalam penulisan data (misalnya, nama kategori).Menghapus Duplikasi: Memeriksa dan menghapus data yang duplikat.
4. Analisis Deskriptif
Menghitung statistik dasar (mean, median, modus, varians) untuk memahami distribusi data.
5. Visualisasi Data
Membuat visualisasi untuk memahami distribusi dan hubungan antar variabel, seperti:
* Histogram
* Box plot
*Scatter plot
*Heatmap
6. Analisis Korelasi
Menggunakan matriks korelasi untuk mengeksplorasi hubungan antara variabel.
7. Identifikasi Outlier
Menggunakan visualisasi seperti box plot untuk menemukan nilai ekstrim dalam data.
8. Feature Engineering
Menghasilkan fitur baru yang dapat meningkatkan performa model.
9. Dokumentasi Temuan
Mencatat wawasan penting, pola, dan anomali yang ditemukan selama proses EDA.
10.Persiapan untuk Modeling
Menggunakan hasil dari EDA untuk mempersiapkan dataset sebelum masuk ke tahap modeling atau analisis lanjutan.