# Pendahuluan

Pandas merupakan library yang berguna bagi data scientist karena untuk melakukan analisis dan pengolahan data dari menengah sampai besar. Pandas adalah library python open source yang biasanya digunakan untuk kebutuhan data analisis. Pandas membuat Python supaya dapat bekerja dengan data yang berbentuk tabular seperti spreadsheet dengan cara pemuatan data yang cepat, manipulasi data, menggabungkan data, serta ada berbagai fungsi yang lain. Disini kita akan mempelajari Pandas secara komprehensif, mari perhatikan dengan seksama.

Langkah pertama dalam menggunakan library pandas adalah memanggil library tersebut

```python
# Memanggil library
import pandas as pd
import numpy as np
```



In [None]:
# Silahkan dicoba disini



Pandas membagi dirinya dengan 2 kelas struktur:
1. Series: satu kolom bagian dari tabel dataframe yang merupakan 1 dimensional numpy array sebagai basis datanya, terdiri dari 1 tipe data (integer, string, float, dll).
2. DataFrame: gabungan dari Series, berbentuk rectangular data yang merupakan tabel spreadsheet itu sendiri (karena dibentuk dari banyak Series, tiap Series biasanya punya 1 tipe data, yang artinya 1 dataframe bisa memiliki banyak tipe data).

Perhatikan berikut ini:

```python
# Series
number_list = pd.Series([1,2,3,4,5,6])
print("Series:")
print(number_list)

# DataFrame
matrix = [[1,2,3],
          ['a', 'b', 'c'],
          [3,4,5],
          ['d', 4,6]]
matrix_list = pd.DataFrame(matrix)
print("DataFrame:")
print(matrix_list)
```



In [None]:
# Silahkan dicoba disini



Attribute dalam pandas dengan:
1. **.info()** digunakan untuk mengecek kolom apa yang membentuk dataframe itu, data types, berapa yang non null, dan sebagainya. Method ini **tidak series**, **hanya pada dataframe** saja.
2. **.shape** digunakan untuk mengetahui berapa baris dan kolom, hasilnya dalam format tuple (baris, kolom).
3. **.dtypes** digunakan untuk mengetahui tipe data di tiap kolom. Tipe data object: kombinasi untuk berbagai tipe data (number & text, etc).
4. **.astype(type_data)** untuk convert tipe data berdasarkan tipe data seperti: float, int, str, numpy.float, numpy.int ataupun numpy.datetime.

```python
import pandas as pd
# Series
number_list = pd.Series([1,2,3,4,5,6])
# DataFrame
matrix_list = pd.DataFrame([[1,2,3],
				            ['a','b','c'],
				            [3,4,5],
				            ['d',4,6]])
# [1] method .info()
print("[1] method .info()")
print(matrix_list.info())
# [2] attribute .shape
print("\n[2] attribute .shape")
print("    Shape dari number_list:", number_list.shape)
print("    Shape dari matrix_list:", matrix_list.shape)
# [3] attribute .dtypes
print("\n[3] attribute .dtypes")
print("    Tipe data number_list:", number_list.dtypes)
print("    Tipe data matrix_list:", matrix_list.dtypes)
# [4] method .astype()
print("\n[4] method .astype()")
print("    Konversi number_list ke str:", number_list.astype("str"))
print("    Konversi matrix_list ke str:", matrix_list.astype("str"))
```



In [None]:
# Silahkan dicoba disini



Attribute selanjutnya yang kita pelajari sebagai berikut:
5. **.copy()** digunakan melakukan duplikat, untuk disimpan di variable yang berbeda mungkin supaya tidak loading data lagi.
6. **.to_list()** digunakan untuk mengubah series menjadi list dan tidak dapat digunakan untuk dataframe.
7. **.unique()** digunakan menghasilkan nilai unik dari suatu kolom, hasilnya dalam bentuk numpy array. Attribute ini hanya digunakan pada series saja.

```python
# Memanggil library
import pandas as pd
# Series
number_list = pd.Series([1,2,3,4,5,6])
# DataFrame
matrix_list = pd.DataFrame([[1,2,3],
				            ['a','b','c'],
				            [3,4,5],
				            ['d',4,6]])
# [5] attribute .copy()
print("[5] attribute .copy()")
num_list = number_list.copy()
print("    Copy number_list ke num_list:", num_list)
mtr_list = matrix_list.copy()
print("    Copy matrix_list ke mtr_list:", mtr_list)	
# [6] attribute .to_list()
print("[6] attribute .to_list()")
print(number_list.to_list())
# [7] attribute .unique()
print("[7] attribute .unique()")
print(number_list.unique())
```



In [None]:
# Silahkan dicoba disini



Attribute selanjutnya yang kita pelajari sebagai berikut:
8. **.index** digunakan untuk mencari index/key dari Series atau Dataframe.
9. **.columns** digunakan untuk mengetahui apa saja kolom yang tersedia di dataframe tersebut (hanya digunakan untuk dataframe saja). 
10. **.loc** digunakan slice dataframe atau series berdasarkan nama kolom dan/atau nama index.
11. **.iloc** digunakan untuk slice dataframe atau series berdasarkan index kolom dan/atau index.

```python
import pandas as pd
# Series
number_list = pd.Series([1,2,3,4,5,6])
# DataFrame
matrix_list = pd.DataFrame([[1,2,3],
				            ['a','b','c'],
				            [3,4,5],
				            ['d',4,6]])
# [8] attribute .index
print("[8] attribute .index")
print("    Index number_list:", number_list.index)
print("    Index matrix_list:", matrix_list.index)	
# [9] attribute .columns
print("[9] attribute .columns")
print("    Column matrix_list:", matrix_list.columns)
# [10] attribute .loc
print("[10] attribute .loc")
print("    .loc[0:1] pada number_list:", number_list.loc[0:1])
print("    .loc[0:1] pada matrix_list:", matrix_list.loc[0:1])
# [11] attribute .iloc
print("[11] attribute .iloc")
print("    iloc[0:1] pada number_list:", number_list.iloc[0:1])
print("    iloc[0:1] pada matrix_list:", matrix_list.iloc[0:1])	
```



In [None]:
# Silahkan dicoba disini



Study case berikut ini:

```python
matrix = [[1,2,3],
          ['a','b','c'],
          [3,4,5],
          ['d',4,6]]
matrix_list = pd.DataFrame(matrix)
matrix_list.iloc[0:2,2].to_list()
```

Apakah hasil diatas?



In [None]:
# Silahkan dicoba disini



Membuat Series dan DataFrame dapat ditinjau berdasarkan berikut ini:
1. **list** merupakan sebuah kumpulan data berbagai macam tipe data yang mutable (dapat diganti).

```python
import pandas as pd
# Creating series from list
ex_list = ['a',1,3,5,'c','d']
ex_series = pd.Series(ex_list)
print(ex_series)
# Creating dataframe from list of list
ex_list_of_list = [[1, 'a', 'b', 'c'],
                   [2.5, 'd', 'e', 'f'],
                   [5, 'g', 'h', 'i'],
                   [7.5, 'j', 10.5, 'l']]
index = ['dq', 'lab', 'kar', 'lan']
cols = ['float', 'char', 'obj', 'char']
ex_df = pd.DataFrame(ex_list_of_list, index=index, columns=cols)
print(ex_df)
```



In [None]:
# Silahkan dicoba disini



2. **dict** merupakan kumpulan data yang strukturnya terdiri dari key dan value.

```python
import pandas as pd
# Creating series from dictionary
dict_series = {'1':'a',
			   '2':'b',
			   '3':'c'}
ex_series = pd.Series(dict_series)
print(ex_series)
# Creating dataframe from dictionary
df_series = {'1':['a','b','c'],
             '2':['b','c','d'],
             '4':[2,3,'z']}
ex_df = pd.DataFrame(df_series)
print(ex_df)
```



In [None]:
# Silahkan dicoba disini



3. **numpy array** merupakan kumpulan data yang terdiri atas berbagai macam tipe data, mutable, tapi dibungkus dalam array oleh library Numpy.

```python
import pandas as pd
import numpy as np
# Creating series from numpy array (1D)
arr_series = np.array([1,2,3,4,5,6,6,7])
ex_series = pd.Series(arr_series)
print(ex_series)
# Creating dataframe from numpy array (2D)
arr_df = np.array([[1 ,2 ,3 ,5],
                   [5 ,6 ,7 ,8],
                   ['a','b','c',10]])
ex_df = pd.DataFrame(arr_df)
print(ex_df)
```



In [None]:
# Silahkan dicoba disini



Study case berikut ini:

```python
arr_df = np.array([[1,2,3, 5],
                  [5, 6, 7, 8],
                  ['a','b',9,10]])
df = pd.DataFrame(arr_df)
```

Apa yang perlu dilakukan agar string menjadi angka misal 'a' menjadi 11 dan 'b' menjadi 12?

<!--df.iloc[2,0:2] = [11,12]-->


In [None]:
# Silahkan dicoba disini

