Skip to content
sabrinasalva-dev edited this page Oct 2, 2024 · 16 revisions

TUGAS EKPLORASI DATA_2

Exploratory Data Analysis (EDA) adalah pendekatan/filosofi untuk analisis data yang menggunakan berbagai teknik (sebagian besar berupa grafis) untuk memaksimalkan wawasan terhadap sebuah dataset. EDA membantu dalam mengidentifikasi anomali, memvisualisasikan distribusi data, dan mengevaluasi hipotesis. Teknik umum dalam EDA termasuk visualisasi grafik, statistik deskriptif, dan analisis hubungan antar variabel. Ini adalah langkah penting untuk mendapatkan wawasan yang mendalam dan membuat keputusan berbasis data.

EDA(Exploratory Data Analysis) BERTUJUAN UNTUK:

  1. membantu dalam memahami struktur dan karakteristik data.
  2. termasuk distribusi, pola, dan hubungan antar variabel,Memungkinkan pendeteksian outlier atau data yang tidak biasa yang bisa memengaruhi analisis lebih lanjut.
  3. Menyediakan informasi awal yang berguna untuk membuat keputusan dan merumuskan hipotesis sebelum melanjutkan ke analisis yang lebih mendalam.
  4. Membantu dalam membuat visualisasi yang jelas dan informatif, sehingga memudahkan pemahaman data oleh pemangku kepentingan.
  5. Menunjukkan langkah-langkah pembersihan dan transformasi data yang diperlukan sebelum analisis lebih lanjut.
  6. Memberikan wawasan yang dapat digunakan untuk membangun model prediktif yang lebih efektif.

tools yang seeing digunakan di EDA(Exploratory Data Analysis):

pandas Untuk manipulasi dan analisis data.

Screenshot 2024-10-02 at 9 42 34 AM

NumPy Untuk komputasi numerik dan pengolahan array.

Screenshot 2024-10-02 at 9 47 58 AM

Matplotlib: Untuk visualisasi data dasar.

Screenshot 2024-10-02 at 9 50 58 AM

Seaborn: Untuk visualisasi statistik yang lebih menarik dan informatif.

Screenshot 2024-10-02 at 9 52 27 AM

dan mash banyak lagi.

ADA BEBERAPA TEHNIK EDA:

Teknik EDA (Exploratory Data Analysis) dalam Python meliputi:

1. Visualisasi Data: Menggunakan Matplotlib dan Seaborn untuk membuat grafik seperti histogram, boxplot, dan    scatter plot.
2. Statistik Deskriptif: Menggunakan Pandas untuk menghitung mean, median, mode, dan standar deviasi.
3. Analisis Korelasi: Menggunakan heatmap untuk melihat hubungan antara variabel.
4. Missing Values: Mengidentifikasi dan menangani nilai yang hilang dalam dataset.

PROSES PEMBUATAN EDA


1. Pengumpulan Data
   Mengumpulkan dataset dari berbagai sumber, seperti database, API, atau file CSV.
2. Pemahaman Data Awal
   Membaca deskripsi dataset untuk memahami konteks. Menggunakan fungsi seperti head(), info(), dan describe() untuk mendapatkan       gambaran awal.
3. Data Cleaning
   Menangani Missing Values: Mengidentifikasi dan mengisi atau menghapus nilai yang hilang. Memperbaiki Typo: Memastikan konsistensi dalam       penulisan data (misalnya, nama kategori).Menghapus Duplikasi: Memeriksa dan menghapus data yang duplikat.
4. Analisis Deskriptif
   Menghitung statistik dasar (mean, median, modus, varians) untuk memahami distribusi data.
5. Visualisasi Data
   Membuat visualisasi untuk memahami distribusi dan hubungan antar variabel, seperti:
   * Histogram
   * Box plot
   *Scatter plot
   *Heatmap
6. Analisis Korelasi
   Menggunakan matriks korelasi untuk mengeksplorasi hubungan antara variabel.
7. Identifikasi Outlier
   Menggunakan visualisasi seperti box plot untuk menemukan nilai ekstrim dalam data.
8. Feature Engineering
   Menghasilkan fitur baru yang dapat meningkatkan performa model.
9. Dokumentasi Temuan
   Mencatat wawasan penting, pola, dan anomali yang ditemukan selama proses EDA.
10.Persiapan untuk Modeling
   Menggunakan hasil dari EDA untuk mempersiapkan dataset sebelum masuk ke tahap modeling atau analisis lanjutan.

sebagai contoh saya mengambil data ini adalah data dari kaggle yang judulnya MentalHealthSurvey new.csv. alasan saya mengapa amibl data ini karena data ini bersih, dan datannya tinggal dikembangkan. berikut adalah contohnya: (slide 2)