Pretest Questions and Answers from DataScience Class

Q1. .... is an important stage in datascience methodology because it clearly defines the problem and the needs from a business perspective?

Data Administration
Principal Component Analysis
Data Collection
Predictive Modeling
Business Understanding

Q2. What should be a prime concern for storing data?

Data safety and privacy
Hiring the right database manager
The size of the files
Hadoop clusters
The physical location of the servers

Q3. Which of the following is not a data scientist role?

Manage a team of analysts to create a model
Use the data to tell the story about data analysis
Develop the strategy to fix the problems in the findings
Write email to response customer's problem
Use the insight to build the narrative to communicate the findings

Q4. Data visualization is not a part of data science

True
False

Q5. What is a good starting point for data mining?

Non-parametric methods
Machine Learning
Creating a relational database
Writing a data dictionary
EDA and Data Visualization

Q6. Manakah dari konsep berikut yang bukan merupakan bagian dari Python?

Pointers
Exception Handling
Dynamic Typing
Semua
Loop

Q7. Pemrograman yang paling banyak digunakan oleh Data Scientist tahun 2021 berdasarkan data yang disajikan di dalam materi yaitu ...

Pearl
Python
Java
R
Matlab

Q8. Syntax untuk memanggil library pada python adalah ...

open nama_modul
import nama_modul
include nama_modul
input nama_modul
require("nama_modul")

Q9. Kita dapat menginstall python dan library yang ada dengan gratis serta menggunakannya sesuai dengan keinginan kita merupakan salah satu keunggulan python yang bersifat ...

multi-processing
interpreter
map reduce
open-source
automate

Q10. `print(23 + (5+6)(1+1))` akan mengeluarkan output ...

30
Tidak ada jawaban
129
121
8

Q11. Berikut ini yang bukan merupakan ukuran yang akan muncul pada fungsi describe() di Pandas yaitu ...

Min
Median
Akurasi
Mean
Max

Q12. Distribusi normal baku memiliki ciri-ciri

mean = standar deviasi
mean = 2 x (standar deviasi)
mean = 1 dan standar deviasi 1
mean = 0 dan standar deviasi = 1
semua salah

Q13. Pada suatu tabular data, banyaknya data ditentukan oleh jumlah ...

Waktu yang dibutuhkan untuk load data
Data bertipe teks
Jawaban tidak ada dalam opsi
Kolom
Baris

Q14. Pada suatu tabular data, besarnya dimensi data ditentukan oleh jumlah ...

Waktu yang dibutuhkan untuk load data
Jawaban tidak ada dalam opsi
Kolom
Data bertipe teks
Baris

Q15. Dalam EDA, proses melakukan analisis deskriptif dengan satu variabel disebut dengan ...

Bivariate analysis
Dimensional analysis
Univariate analysis
Factor analysis
Multivariate analysis

Q16. Melakukan seleksi pada abundant class secara acak/random sehingga abundant class nilainya berkurang sampai dengan jumlahnya sama dengan rare class disebut juga dengan ...

oversampling
overfit
cross-validation
undersampling
underfit

Q17. Dalam kasus supervised learning, variabel yang bersifat dependen atau predictor disebut juga dengan ...

Features
Encoder
Label
Transformation
Hyper-parameter

Q18. Tahap menyiapkan/membersihkan data yang kotor untuk selanjutnya akan diproses menggunakan model machine learning disebut dengan ...

Data Tracking
Data Preprocessing
Data Tracking
Data Collecting
Dimensionality Reduction

Q19. Data encoding bertujuan untuk merubah data yang bertipe object atau string ke dalam bentuk ...

teks
gambar
audio
semua salah
numerik

Q20. Teknik resampling data dengan melakukan generate data pada rare class sehingga jumlah dari rare class sama dengan abundant class dikenal juga dengan teknik ...

oversampling
overfit
cross-validation
undersampling
underfit

Q21. Bahasa pemrograman python tidak menunjang untuk pembuatan visualisasi data.

True
False

Q22. Berikut yang bukan merupakan jenis grafik dari visualisasi data adalah ...

Line Chart
Pie Chart
Bar Chart
Raw Data Table
Histogram

Q23. Bar chart dan Line chart sama-sama membutuhkan sumbu x dan y sebagai skala satuan nilainya.

True
False

Q24. Berikut ini library python yang bukan ditujukan untuk visualisasi data adalah ...

Sweetviz
Matplotlib
Plotly
Seaborn
Sastrawi

Q25. Salah satu tujuan penting dari data visualisasi adalah ...

Menambah anggaran perusahaan untuk membeli tools visualisasi data berbayar (enterprise)
Tidak ada tujuannya.
Supaya dapat dipahami oleh semua kalangan yang menerima informasi tersebut
Supaya terlihat mewah saja.
Untuk mempersulit siapapun yang melihatnya.

Q26. Klasifikasi termasuk ke dalam Supervised Learning.

True
False

Q27. Label/kelas/target pada klasifikasi harus bersifat diskrit (kategorikal)

True
False

Q28. Klasifikasi dengan kasus data yang memiliki dua jenis kelas/label disebut juga dengan ...

Multi-Class Classification
Boundary Classification
Binary Classification
Multi-Label Classification
Multinomial Classification

Q29. Library python yang telah menyediakan algoritma machine learning yang siap pakai yaitu ...

Seaborn
Numpy
Matplotlib
Scipy
Scikit-learn

Q30. Berikut ini yang bukan contoh kasus klasifikasi.

Music Genre Classification
Stock Value Forecasting
Email Spam Detection
Sentiment Analysis
Hate Speech Filtering

Q31. Regresi dan Klasifikasi sama-sama termasuk Supervised Machine Learning

True
False

Q32. Pernyataan berikut yang tidak benar adalah ...

Target pada regresi bersifat numerical continuous
Tujuan dari regresi adalah prediksi nilai dependent variable dari independent variables.
Regresi termasuk Unsupervised Learning karena tidak memiliki target.
Atribut/prediktor di regresi disebut juga independent variables.
Regresi termasuk dalam Machine Learning

Q33. Perbedaan antara regresi dan klasifikasi adalah pada ...

Klasifikasi hanya untuk data text
Data test-nya
Sifat label/targetnya
Tidak ada perbedaan
Data train-nya

Q34. Clustering termasuk dalam Unsupervised Learning

True
False

Q35. K Nearest Neighbor merupakan algoritma clustering

True
False

Q36. Apa perbedaan yang paling mendasar antara Supervised Learning dan Unsupervised Learning?

Fitur pada Supervised Learning harus vategorical values sedangkan fitur pada Unsupervised Learning harus numerical values
Supervised Learning tidak cocok pada data tabular
Supervised Learing memiliki variabel target/label sedangkan Unsupervised Learning tidak.
Unsupervised Learning tidak bisa mengatasi outlier atau noise
Unsupervised Learning memerlukan data yang banyak sedangkan Supervised Learning tidak

Q37. K Means membutuhkan centroid dalam menentukan anggota klaster

True
False

Q38. Berikut ini yang bukan merupakan algoritma Clustering adalah

K Medoid
Hierarchycal Clustering
K Nearest Neighbor
K Means
DBSCAN

Q39. Berikut ini yang merupakan metrik evaluasi yang tepat untuk contoh kasus "Prediksi harga mobil" adalah

Kappa Score
Accuracy
Silhoutte Score
F1 Score
Mean Squared Error

Q40. Tujuan dari Evaluasi Model Machine Learning adalah untuk mengukur seberapa bagus performa model jika diuji ke data diluar data latih

True
False

Q41. Berikut ini pernyataan yang kurang tepat adalah

Silhouette Score bukan satu-satunya metric evaluasi untuk clustering
Recall merupakan salah satu evaluasi yang tepat untuk klasifikasi
Akurasi kurang cocok untuk klasifikasi data gambar
F1 Score dapat dipakai dalam evaluasi klasifikasi
Jangan menggunakan Kappa Score dalam mengevaluasi kasus Regresi

Q42. Dalam kasus "Spam Classification" kita dapat menggunakan metrics evaluation "Accuracy" dan "F1 Score"

True
False

Q43. Neural Network lebih cocok digunakan pada data unstructured seperti gambar daripada data yang structured seperti data tabel

True
False

Q44. Berikut pernyataan yang benar tentang Neural Network pada Machine Learning, kecuali

Neural Network merupakan jenis penyakit saraf dalam ilmu kedokteran
Neural network dapat diterapkan untuk kasus regresi
Konsep machine learning dengan perhitungan yang kompleks
Konsep machine learning yang terinspirasi dari jaringan saraf biologis
Neural network dapat diterapkan untuk kasus klasifikasi

Q45. Berikut ini aspek penting dalam training menggunakan Neural Network, kecuali

Arsitektur Neural Network yang dibuat
Nama / brand laptop yang digunakan
Kemampuan perangkat (spesifikasi resource)
Jumlah data yang akan dilatih (data train)
Jenis data

Q46. Epoch yang lebih banyak akan memakan waktu dan resource untuk proses yang lebih lama

True
False

Files

pretest-id.md

Latest commit

History

pretest-id.md

File metadata and controls

Pretest Questions and Answers from DataScience Class

Q1. .... is an important stage in datascience methodology because it clearly defines the problem and the needs from a business perspective?

Q2. What should be a prime concern for storing data?

Q3. Which of the following is not a data scientist role?

Q4. Data visualization is not a part of data science

Q5. What is a good starting point for data mining?

Q6. Manakah dari konsep berikut yang bukan merupakan bagian dari Python?

Q7. Pemrograman yang paling banyak digunakan oleh Data Scientist tahun 2021 berdasarkan data yang disajikan di dalam materi yaitu ...

Q8. Syntax untuk memanggil library pada python adalah ...

Q9. Kita dapat menginstall python dan library yang ada dengan gratis serta menggunakannya sesuai dengan keinginan kita merupakan salah satu keunggulan python yang bersifat ...

Q10. print(2**3 + (5+6)**(1+1)) akan mengeluarkan output ...

Q11. Berikut ini yang bukan merupakan ukuran yang akan muncul pada fungsi describe() di Pandas yaitu ...

Q12. Distribusi normal baku memiliki ciri-ciri

Q13. Pada suatu tabular data, banyaknya data ditentukan oleh jumlah ...

Q14. Pada suatu tabular data, besarnya dimensi data ditentukan oleh jumlah ...

Q15. Dalam EDA, proses melakukan analisis deskriptif dengan satu variabel disebut dengan ...

Q16. Melakukan seleksi pada abundant class secara acak/random sehingga abundant class nilainya berkurang sampai dengan jumlahnya sama dengan rare class disebut juga dengan ...

Q17. Dalam kasus supervised learning, variabel yang bersifat dependen atau predictor disebut juga dengan ...

Q18. Tahap menyiapkan/membersihkan data yang kotor untuk selanjutnya akan diproses menggunakan model machine learning disebut dengan ...

Q19. Data encoding bertujuan untuk merubah data yang bertipe object atau string ke dalam bentuk ...

Q20. Teknik resampling data dengan melakukan generate data pada rare class sehingga jumlah dari rare class sama dengan abundant class dikenal juga dengan teknik ...

Q21. Bahasa pemrograman python tidak menunjang untuk pembuatan visualisasi data.

Q22. Berikut yang bukan merupakan jenis grafik dari visualisasi data adalah ...

Q23. Bar chart dan Line chart sama-sama membutuhkan sumbu x dan y sebagai skala satuan nilainya.

Q24. Berikut ini library python yang bukan ditujukan untuk visualisasi data adalah ...

Q25. Salah satu tujuan penting dari data visualisasi adalah ...

Q26. Klasifikasi termasuk ke dalam Supervised Learning.

Q27. Label/kelas/target pada klasifikasi harus bersifat diskrit (kategorikal)

Q28. Klasifikasi dengan kasus data yang memiliki dua jenis kelas/label disebut juga dengan ...

Q29. Library python yang telah menyediakan algoritma machine learning yang siap pakai yaitu ...

Q30. Berikut ini yang bukan contoh kasus klasifikasi.

Q31. Regresi dan Klasifikasi sama-sama termasuk Supervised Machine Learning

Q32. Pernyataan berikut yang tidak benar adalah ...

Q33. Perbedaan antara regresi dan klasifikasi adalah pada ...

Q34. Clustering termasuk dalam Unsupervised Learning

Q35. K Nearest Neighbor merupakan algoritma clustering

Q36. Apa perbedaan yang paling mendasar antara Supervised Learning dan Unsupervised Learning?

Q37. K Means membutuhkan centroid dalam menentukan anggota klaster

Q38. Berikut ini yang bukan merupakan algoritma Clustering adalah

Q39. Berikut ini yang merupakan metrik evaluasi yang tepat untuk contoh kasus "Prediksi harga mobil" adalah

Q40. Tujuan dari Evaluasi Model Machine Learning adalah untuk mengukur seberapa bagus performa model jika diuji ke data diluar data latih

Q41. Berikut ini pernyataan yang kurang tepat adalah

Q42. Dalam kasus "Spam Classification" kita dapat menggunakan metrics evaluation "Accuracy" dan "F1 Score"

Q43. Neural Network lebih cocok digunakan pada data unstructured seperti gambar daripada data yang structured seperti data tabel

Q44. Berikut pernyataan yang benar tentang Neural Network pada Machine Learning, kecuali

Q45. Berikut ini aspek penting dalam training menggunakan Neural Network, kecuali

Q46. Epoch yang lebih banyak akan memakan waktu dan resource untuk proses yang lebih lama

Q10. `print(23 + (5+6)(1+1))` akan mengeluarkan output ...