# Pengenalan Tool Pengolahan Data 

## 1. Pengenalan Library NumPy
NumPy (singkatan dari numerical Python) merupakan salah satu library Python yang sangat powerful untuk membuat dan mengolah multi-dimensional arrays (sering juga disebut sebagai matriks atau tensor). NumPy dibuat dengan tujuan untuk mempercepat proses komputasi numerik dalam bahasa pemrograman Python.

Untuk mendukung tujuan tersebut, NumPy hadir dengan banyak fungsi bawaan yang memungkinkan kita untuk melakukan berbagai macam operasi matematis mulai dari yang sederhana hingga kompleks, seperti basic linear algebra, random simulation, Fourier transforms, dll. Hal inilah yang membuat NumPy menjadi salah satu library populer untuk melakukan scientific computing dalam bahasa pemrograman Python. Selain itu, NumPy juga banyak digunakan sebagai komponen dasar pada banyak library populer lain, seperti pandas, SciPy, dll.

Anda dapat menginstal NumPy menggunakan package manager seperti pip ataupun conda.

- pip install numpy

In [1]:
import numpy as np

array_1 = np.array([1, 3, 5, 7])
array_1

array([1, 3, 5, 7])

## 2. Pengenalan Library Pandas
Selain NumPy, library lain yang sering digunakan adalah pandas. Ia merupakan library Python yang spesifik digunakan untuk memanipulasi dan menganalisis data. Library inilah yang akan kita gunakan sebagai tool utama dalam menganalisis data.

Untuk memenuhi fungsinya, pandas menyediakan data structure bernama DataFrame. Ia merupakan sebuah data structure berbentuk tabel yang terdiri dari header, index, column, & row. Data structure inilah yang akan kita gunakan untuk mengolah dan menganalisis data.

Selain itu, pandas juga menyediakan sekumpulan function serta method untuk memanipulasi dan menganalisis data secara lebih efektif. Hal inilah yang membuat pandas disebut sebagai salah satu library populer untuk mengolah data dan sering digunakan oleh para praktisi data.

Sama halnya dengan NumPy, pandas juga bukan library bawaan Python sehingga perlu diinstal terlebih dahulu. Anda dapat menginstal pandas dengan menjalankan salah satu perintah berikut.

- pip install pandas

In [1]:
import pandas as pd
data = {
    'Name': ['Felix', 'Joko', 'Budi'], 
    'Age': [20, 45, 46]
}
 
df = pd.DataFrame(data)
df

Unnamed: 0,Name,Age
0,Felix,20
1,Joko,45
2,Budi,46


## 3. Pengenalan Library SciPy
Library penting selanjutnya adalah SciPy (singkatan dari Scientific Python). Ia merupakan library Python yang khusus digunakan untuk kebutuhan komputasi saintifik. Library ini memanfaatkan NumPy sebagai komponen dasar dalam setiap perhitungan komputasi yang akan dilakukan.

Sebagai library yang sering digunakan untuk komputasi saintifik, SciPy menyediakan banyak fungsi yang dapat digunakan untuk menyelesaikan operasi matematis kompleks yang dapat digunakan dalam dunia science dan engineering. Selain itu, SciPy juga menyediakan banyak operasi statistik sehingga dapat membantu kita dalam mengidentifikasi parameter statistik dari suatu data.

SciPy juga bukan merupakan library bawaan Python sehingga perlu diinstal terlebih dahulu. Anda dapat menginstal SciPy dengan menjalankan salah satu dari perintah berikut.

- pip install scipy

Anda dapat menjalankan kode berikut untuk melihat versi dari library SciPy yang diinstal dan memastikan proses instalasi berhasil.

In [2]:
import scipy
 
print(scipy.__version__)

1.12.0


# Pengenalan Tool Visualisasi Data
Pada materi sebelumnya, kita berkenalan dengan berbagai tools atau library Python yang sering digunakan oleh para praktisi di industri dalam mengolah data. Namun, tools tersebut masih belum cukup untuk menangani seluruh kebutuhan kita dalam proses analisis data.

Pada proses analisis data, selain mengolah data, kita juga perlu merepresentasikan data tersebut ke dalam bentuk visual yang menarik dan mudah dipahami. Nah, pada materi kali ini, kita akan berkenalan dengan berbagai tools visualisasi data yang ada dalam bahasa pemrograman Python.

Sebagai salah satu bahasa pemrograman paling populer di kalangan praktisi data, Python memiliki banyak libraries dan tools yang bersifat open-source untuk mendukung pembuatan visualisasi data yang baik dan menarik. Berikut merupakan dua library Python yang paling sering digunakan oleh praktisi data di industri.

- Library matplotlib
- Library seaborn

## 1. Pengenalan Library Matplotlib
Matplotlib merupakan sebuah library Python yang reliable dan komprehensif untuk mendukung kebutuhan pembuatan visualisasi data. Matplotlib menyediakan banyak object dan method yang memungkinkan kita membuat visualisasi data statis, animated, dan interaktif. Anda dapat melihat berbagai contoh visualisasi data yang dibuat menggunakan library ini pada tautan berikut: examples gallery. https://matplotlib.org/stable/gallery/index.html

Matplotlib memiliki sebuah submodule bernama matplotlib.pyplot yang sering dipanggil atau disingkat sebagai plt. Submodule ini menyediakan sebuah fungsi untuk membuat sebuah figure yang merupakan sebuah area atau kanvas kosong untuk membuat visualisasi data. Selain itu, plt juga menyediakan banyak fungsi untuk mendefinisikan berbagai jenis visualisasi data beserta dekorasinya, seperti label, title, dll.

Sebagai library visualisasi data yang komprehensif, matplotlib juga memungkinkan kita untuk memodifikasi berbagai tampilan visual sehingga dapat disesuaikan dengan kebutuhan. Tidak hanya itu, ia juga memungkinkan kita untuk menyimpan hasil visualisasi data yang telah dibuat ke dalam berbagai format penyimpanan, seperti png, jpeg, pdf, dll.  

Sama halnya dengan berbagai library yang telah kita bahas sebelumnya, matplotlib bukan merupakan library bawaan Python sehingga perlu diinstal terlebih dahulu. Anda dapat menginstal matplotlib dengan menjalankan salah satu dari perintah berikut.

- pip install matplotlib

Untuk memastikan Anda telah berhasil menginstal library matplotlib, jalankan kode berikut.

In [3]:
import matplotlib
 
print(matplotlib.__version__)

3.8.3


## 2. Pengenalan Seaborn
Selain matplotlib, library lain yang sering digunakan untuk visualisasi data adalah seaborn. Seaborn merupakan library Python yang spesifik digunakan untuk membuat visualisasi data yang atraktif dan informatif. Library ini memanfaatkan matplotlib untuk menampilkan grafik visualisasi data.

Sebagai salah satu library visualisasi data yang andal, seaborn menyediakan berbagai bentuk visual untuk merepresentasikan data secara lebih menarik dan informatif. Anda dapat melihat berbagai contoh visualisasi data yang dibuat menggunakan library ini pada tautan berikut: example gallery. https://seaborn.pydata.org/examples/index.html

Pada proses pembuatan visualisasi data, umumnya kita akan memadukan seaborn dan matplotlib. Hal ini dilakukan untuk menghasilkan bentuk visual yang lebih menarik, informatif, dan interaktif. 

Namun, perlu diingat bahwa untuk menggunakan seaborn, kita perlu menginstalnya terlebih dahulu. Anda dapat melakukannya dengan menjalankan salah satu perintah berikut.

- pip install seaborn

Anda dapat menjalankan kode di bawah ini untuk melihat versi dari library seaborn yang terinstal sekaligus memastikan proses instalasi berjalan dengan lancar.

In [None]:
import seaborn as sns
 
print(sns.__version__)