Skip to content

Latest commit

 

History

History
330 lines (238 loc) · 9.69 KB

pretest-id.md

File metadata and controls

330 lines (238 loc) · 9.69 KB

Pretest Questions and Answers from DataScience Class

Q1. .... is an important stage in datascience methodology because it clearly defines the problem and the needs from a business perspective?

  • Data Administration
  • Principal Component Analysis
  • Data Collection
  • Predictive Modeling
  • Business Understanding

Q2. What should be a prime concern for storing data?

  • Data safety and privacy
  • Hiring the right database manager
  • The size of the files
  • Hadoop clusters
  • The physical location of the servers

Q3. Which of the following is not a data scientist role?

  • Manage a team of analysts to create a model
  • Use the data to tell the story about data analysis
  • Develop the strategy to fix the problems in the findings
  • Write email to response customer's problem
  • Use the insight to build the narrative to communicate the findings

Q4. Data visualization is not a part of data science

  • True
  • False

Q5. What is a good starting point for data mining?

  • Non-parametric methods
  • Machine Learning
  • Creating a relational database
  • Writing a data dictionary
  • EDA and Data Visualization

Q6. Manakah dari konsep berikut yang bukan merupakan bagian dari Python?

  • Pointers
  • Exception Handling
  • Dynamic Typing
  • Semua
  • Loop

Q7. Pemrograman yang paling banyak digunakan oleh Data Scientist tahun 2021 berdasarkan data yang disajikan di dalam materi yaitu ...

  • Pearl
  • Python
  • Java
  • R
  • Matlab

Q8. Syntax untuk memanggil library pada python adalah ...

  • open nama_modul
  • import nama_modul
  • include nama_modul
  • input nama_modul
  • require("nama_modul")

Q9. Kita dapat menginstall python dan library yang ada dengan gratis serta menggunakannya sesuai dengan keinginan kita merupakan salah satu keunggulan python yang bersifat ...

  • multi-processing
  • interpreter
  • map reduce
  • open-source
  • automate

Q10. print(2**3 + (5+6)**(1+1)) akan mengeluarkan output ...

  • 30
  • Tidak ada jawaban
  • 129
  • 121
  • 8

Q11. Berikut ini yang bukan merupakan ukuran yang akan muncul pada fungsi describe() di Pandas yaitu ...

  • Min
  • Median
  • Akurasi
  • Mean
  • Max

Q12. Distribusi normal baku memiliki ciri-ciri

  • mean = standar deviasi
  • mean = 2 x (standar deviasi)
  • mean = 1 dan standar deviasi 1
  • mean = 0 dan standar deviasi = 1
  • semua salah

Q13. Pada suatu tabular data, banyaknya data ditentukan oleh jumlah ...

  • Waktu yang dibutuhkan untuk load data
  • Data bertipe teks
  • Jawaban tidak ada dalam opsi
  • Kolom
  • Baris

Q14. Pada suatu tabular data, besarnya dimensi data ditentukan oleh jumlah ...

  • Waktu yang dibutuhkan untuk load data
  • Jawaban tidak ada dalam opsi
  • Kolom
  • Data bertipe teks
  • Baris

Q15. Dalam EDA, proses melakukan analisis deskriptif dengan satu variabel disebut dengan ...

  • Bivariate analysis
  • Dimensional analysis
  • Univariate analysis
  • Factor analysis
  • Multivariate analysis

Q16. Melakukan seleksi pada abundant class secara acak/random sehingga abundant class nilainya berkurang sampai dengan jumlahnya sama dengan rare class disebut juga dengan ...

  • oversampling
  • overfit
  • cross-validation
  • undersampling
  • underfit

Q17. Dalam kasus supervised learning, variabel yang bersifat dependen atau predictor disebut juga dengan ...

  • Features
  • Encoder
  • Label
  • Transformation
  • Hyper-parameter

Q18. Tahap menyiapkan/membersihkan data yang kotor untuk selanjutnya akan diproses menggunakan model machine learning disebut dengan ...

  • Data Tracking
  • Data Preprocessing
  • Data Tracking
  • Data Collecting
  • Dimensionality Reduction

Q19. Data encoding bertujuan untuk merubah data yang bertipe object atau string ke dalam bentuk ...

  • teks
  • gambar
  • audio
  • semua salah
  • numerik

Q20. Teknik resampling data dengan melakukan generate data pada rare class sehingga jumlah dari rare class sama dengan abundant class dikenal juga dengan teknik ...

  • oversampling
  • overfit
  • cross-validation
  • undersampling
  • underfit

Q21. Bahasa pemrograman python tidak menunjang untuk pembuatan visualisasi data.

  • True
  • False

Q22. Berikut yang bukan merupakan jenis grafik dari visualisasi data adalah ...

  • Line Chart
  • Pie Chart
  • Bar Chart
  • Raw Data Table
  • Histogram

Q23. Bar chart dan Line chart sama-sama membutuhkan sumbu x dan y sebagai skala satuan nilainya.

  • True
  • False

Q24. Berikut ini library python yang bukan ditujukan untuk visualisasi data adalah ...

  • Sweetviz
  • Matplotlib
  • Plotly
  • Seaborn
  • Sastrawi

Q25. Salah satu tujuan penting dari data visualisasi adalah ...

  • Menambah anggaran perusahaan untuk membeli tools visualisasi data berbayar (enterprise)
  • Tidak ada tujuannya.
  • Supaya dapat dipahami oleh semua kalangan yang menerima informasi tersebut
  • Supaya terlihat mewah saja.
  • Untuk mempersulit siapapun yang melihatnya.

Q26. Klasifikasi termasuk ke dalam Supervised Learning.

  • True
  • False

Q27. Label/kelas/target pada klasifikasi harus bersifat diskrit (kategorikal)

  • True
  • False

Q28. Klasifikasi dengan kasus data yang memiliki dua jenis kelas/label disebut juga dengan ...

  • Multi-Class Classification
  • Boundary Classification
  • Binary Classification
  • Multi-Label Classification
  • Multinomial Classification

Q29. Library python yang telah menyediakan algoritma machine learning yang siap pakai yaitu ...

  • Seaborn
  • Numpy
  • Matplotlib
  • Scipy
  • Scikit-learn

Q30. Berikut ini yang bukan contoh kasus klasifikasi.

  • Music Genre Classification
  • Stock Value Forecasting
  • Email Spam Detection
  • Sentiment Analysis
  • Hate Speech Filtering

Q31. Regresi dan Klasifikasi sama-sama termasuk Supervised Machine Learning

  • True
  • False

Q32. Pernyataan berikut yang tidak benar adalah ...

  • Target pada regresi bersifat numerical continuous
  • Tujuan dari regresi adalah prediksi nilai dependent variable dari independent variables.
  • Regresi termasuk Unsupervised Learning karena tidak memiliki target.
  • Atribut/prediktor di regresi disebut juga independent variables.
  • Regresi termasuk dalam Machine Learning

Q33. Perbedaan antara regresi dan klasifikasi adalah pada ...

  • Klasifikasi hanya untuk data text
  • Data test-nya
  • Sifat label/targetnya
  • Tidak ada perbedaan
  • Data train-nya

Q34. Clustering termasuk dalam Unsupervised Learning

  • True
  • False

Q35. K Nearest Neighbor merupakan algoritma clustering

  • True
  • False

Q36. Apa perbedaan yang paling mendasar antara Supervised Learning dan Unsupervised Learning?

  • Fitur pada Supervised Learning harus vategorical values sedangkan fitur pada Unsupervised Learning harus numerical values
  • Supervised Learning tidak cocok pada data tabular
  • Supervised Learing memiliki variabel target/label sedangkan Unsupervised Learning tidak.
  • Unsupervised Learning tidak bisa mengatasi outlier atau noise
  • Unsupervised Learning memerlukan data yang banyak sedangkan Supervised Learning tidak

Q37. K Means membutuhkan centroid dalam menentukan anggota klaster

  • True
  • False

Q38. Berikut ini yang bukan merupakan algoritma Clustering adalah

  • K Medoid
  • Hierarchycal Clustering
  • K Nearest Neighbor
  • K Means
  • DBSCAN

Q39. Berikut ini yang merupakan metrik evaluasi yang tepat untuk contoh kasus "Prediksi harga mobil" adalah

  • Kappa Score
  • Accuracy
  • Silhoutte Score
  • F1 Score
  • Mean Squared Error

Q40. Tujuan dari Evaluasi Model Machine Learning adalah untuk mengukur seberapa bagus performa model jika diuji ke data diluar data latih

  • True
  • False

Q41. Berikut ini pernyataan yang kurang tepat adalah

  • Silhouette Score bukan satu-satunya metric evaluasi untuk clustering
  • Recall merupakan salah satu evaluasi yang tepat untuk klasifikasi
  • Akurasi kurang cocok untuk klasifikasi data gambar
  • F1 Score dapat dipakai dalam evaluasi klasifikasi
  • Jangan menggunakan Kappa Score dalam mengevaluasi kasus Regresi

Q42. Dalam kasus "Spam Classification" kita dapat menggunakan metrics evaluation "Accuracy" dan "F1 Score"

  • True
  • False

Q43. Neural Network lebih cocok digunakan pada data unstructured seperti gambar daripada data yang structured seperti data tabel

  • True
  • False

Q44. Berikut pernyataan yang benar tentang Neural Network pada Machine Learning, kecuali

  • Neural Network merupakan jenis penyakit saraf dalam ilmu kedokteran
  • Neural network dapat diterapkan untuk kasus regresi
  • Konsep machine learning dengan perhitungan yang kompleks
  • Konsep machine learning yang terinspirasi dari jaringan saraf biologis
  • Neural network dapat diterapkan untuk kasus klasifikasi

Q45. Berikut ini aspek penting dalam training menggunakan Neural Network, kecuali

  • Arsitektur Neural Network yang dibuat
  • Nama / brand laptop yang digunakan
  • Kemampuan perangkat (spesifikasi resource)
  • Jumlah data yang akan dilatih (data train)
  • Jenis data

Q46. Epoch yang lebih banyak akan memakan waktu dan resource untuk proses yang lebih lama

  • True
  • False