**About This Course:**

*Kamu akan mempelajari library Python paling terkenal untuk kebutuhan Data Analyst, Data Engineer atau Data Scientist, yakni Pandas. Pandas adalah salah satu library open source yang dapat diandalkan ketika berurusan dengan data tabular seperti csv atau excel. Dengan data manipulation kamu akan dapat membaca file, menerapkan indexing, melakukan filter, joining data, ataupun menulis file ke bentuk lain. Dipadukan dengan fungsi-fungsi built in yang ada di python membuat library ini makin canggih dan mudah dimanfaatkan.*

**Table of Content :**

1. *Introduction to Pandas*
2. *Dataset I/O*
3. *Indexing, Slicing, dan Transforming*
4. *Handling Missing Values*
5. *Mini Project*

**START**

**Module : Introduction to Pandas**

*Pada bagian ini kamu akan mempelajari apa itu pandas, tipe data pada pandas yaitu berupa series dan data frame, dan bagaimana cara membentuknya dari awal (from scratch).*

**Pendahuluan**

*“Apa kegunaan mempelajari Pandas? Aku tahunya Pandas nama hewan,”*

*“Itu Panda. Kalau Pandas berguna untuk melakukan analisis dan pengolahan data dari menengah sampai besar. Coba dibaca saja dulu modulnya biar lebih jelas. Nanti akan ada praktik yang memperjelas,”*

**Memanggil Library Pandas**

*Pandas adalah library python open source yang biasanya digunakan untuk kebutuhan data analisis. Pandas membuat Python supaya dapat bekerja dengan data yang berbentuk tabular seperti spreadsheet dengan cara **pemuatan data yang cepat, manipulasi data, menggabungkan data, serta ada berbagai fungsi yang lain.***

*Berikut Syntax memanggil Pandas dan Numpy :*

In [1]:
import pandas as pd
import numpy as np

**DataFrame & Series**

*Di Pandas terdapat 2 kelas data baru yang digunakan sebagai struktur dari spreadsheet:*

1. ***Series**: satu kolom bagian dari tabel dataframe yang merupakan 1 dimensional numpy array sebagai basis datanya, terdiri dari 1 tipe data (integer, string, float, dll).*

2. ***DataFrame**: gabungan dari Series, berbentuk rectangular data yang merupakan tabel spreadsheet itu sendiri (karena dibentuk dari banyak Series, tiap Series biasanya punya 1 tipe data, yang artinya 1 dataframe bisa memiliki banyak tipe data).*

In [2]:
import pandas as pd
# Series
number_list = pd.Series([1,2,3,4,5,6])
print("Series:")
print(number_list)

# DataFrame
matrix = [[1,2,3],
          ['a','b','c'],
          [3,4,5],
          ['d',4,6]]
matrix_list = pd.DataFrame(matrix)
print("DataFrame:")
print(matrix_list)

Series:
0    1
1    2
2    3
3    4
4    5
5    6
dtype: int64
DataFrame:
   0  1  2
0  1  2  3
1  a  b  c
2  3  4  5
3  d  4  6


**Atribut/Fungsi DataFrame & Series - Part 1**

*Dataframe dan Series memiliki sangat banyak atribut yang digunakan untuk transformasi data, tetapi ada **beberapa attribute yang sering dipakai.***

1. **Method .info()**

    *Method .info() digunakan untuk mengecek kolom apa yang membentuk dataframe itu, data types, berapa yang non null, dll. **Method ini tidak dapat digunakan pada series, hanya pada dataframe saja.***

2. **Attribute .shape**

    *Attribute .shape digunakan untuk mengetahui berapa baris dan kolom, hasilnya dalam format tuple (baris, kolom)*

3. **Attribute .dtypes**

    *Attribute .dtypes digunakan untuk mengetahui tipe data di tiap kolom. Tipe data object: kombinasi untuk berbagai tipe data (number & text, etc).*

4. **Method .astype(nama_tipe_data)**

    *Method .astype(nama_tipe_data) untuk convert tipe data berdasarkan tipe data seperti: **float, int, str, numpy.float, numpy.int ataupun numpy.datetime.***

In [3]:
import pandas as pd
# Series
number_list = pd.Series([1,2,3,4,5,6])
# DataFrame
matrix_list = pd.DataFrame([[1,2,3],
				            ['a','b','c'],
				            [3,4,5],
				            ['d',4,6]])
# [1] method .info()
print("[1] method .info()")
print(matrix_list.info())
# [2] attribute .shape
print("\n[2] attribute .shape")
print("    Shape dari number_list:", number_list.shape)
print("    Shape dari matrix_list:", matrix_list.shape)
# [3] attribute .dtypes
print("\n[3] attribute .dtypes")
print("    Tipe data number_list:", number_list.dtypes)
print("    Tipe data matrix_list:", matrix_list.dtypes)
# [4] attribute .astype()
print("\n[4] method .astype()")
print("    Konversi number_list ke str:", number_list.astype('str'))
print("    Konversi matrix_list ke str:", matrix_list.astype('str'))

[1] method .info()
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4 entries, 0 to 3
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   0       4 non-null      object
 1   1       4 non-null      object
 2   2       4 non-null      object
dtypes: object(3)
memory usage: 224.0+ bytes
None

[2] attribute .shape
    Shape dari number_list: (6,)
    Shape dari matrix_list: (4, 3)

[3] attribute .dtypes
    Tipe data number_list: int64
    Tipe data matrix_list: 0    object
1    object
2    object
dtype: object

[4] method .astype()
    Konversi number_list ke str: 0    1
1    2
2    3
3    4
4    5
5    6
dtype: object
    Konversi matrix_list ke str:    0  1  2
0  1  2  3
1  a  b  c
2  3  4  5
3  d  4  6


**Atribut DataFrame & Series - Part 2**

5. **Attribute .copy()**

    *Attribute .copy() digunakan melakukan duplikat, untuk disimpan di variable yang berbeda mungkin supaya tidak loading data lagi.*

6. **Attribute .to_list()**

    *Attribute .to_list() digunakan untuk **mengubah series menjadi list dan tidak dapat digunakan untuk dataframe**.*

7. **Attribute .unique()**

    *Attribute .unique() digunakan menghasilkan nilai unik dari suatu kolom, hasilnya dalam bentuk numpy array. **Attribute ini hanya digunakan pada series saja**.*

In [5]:
import pandas as pd
# Series
number_list = pd.Series([1,2,3,4,5,6])
# DataFrame
matrix_list = pd.DataFrame([[1,2,3],
				            ['a','b','c'],
				            [3,4,5],
				            ['d',4,6]])
# [5] attribute .copy()
print("\n [5] attribute .copy()")
num_list = number_list.copy()
print("    Copy number_list ke num_list:", num_list)
mtr_list = matrix_list.copy()
print("    Copy matrix_list ke mtr_list:", mtr_list)	
# [6] attribute .to_list()
print("\n [6] attribute .to_list()")
print(number_list.to_list())
# [7] attribute .unique()
print("\n [7] attribute .unique()")
print(number_list.unique())


 [5] attribute .copy()
    Copy number_list ke num_list: 0    1
1    2
2    3
3    4
4    5
5    6
dtype: int64
    Copy matrix_list ke mtr_list:    0  1  2
0  1  2  3
1  a  b  c
2  3  4  5
3  d  4  6

 [6] attribute .to_list()
[1, 2, 3, 4, 5, 6]

 [7] attribute .unique()
[1 2 3 4 5 6]


**Atribut DataFrame & Series - Part 3**

8. **Attribute .index**

    *Attribute .index digunakan untuk mencari index/key dari Series atau Dataframe.*

9. **Attribute .columns**

    *Attribute .columns digunakan untuk mengetahui apa saja kolom yang tersedia di dataframe tersebut (hanya digunakan untuk dataframe saja).* 

10. **Attribute .loc**

    *Attribute .loc digunakan slice dataframe atau series berdasarkan nama kolom dan/atau nama index.*

11. **Attribute .iloc**

    *Attribute .iloc digunakan untuk slice dataframe atau series berdasarkan index kolom dan/atau index.*

In [13]:
import pandas as pd
# Series
number_list = pd.Series([1,2,3,4,5,6])
# DataFrame
matrix_list = pd.DataFrame([[1,2,3],
				            ['a','b','c'],
				            [3,4,5],
				            ['d',4,6]])
# [8] attribute .index
print("[8] attribute .index")
print("    Index number_list:", number_list.index)
print("    Index matrix_list:", matrix_list.index)
# [9] attribute .columns
print("\n [9] attribute .columns")
print("    Column matrix_list:", matrix_list.columns)
# [10] attribute .loc
print("\n [10] attribute .loc")
print("    .loc[0:1] pada number_list:", number_list.loc[0:1])
print("    .loc[0:1] pada matrix_list:", matrix_list.loc[0:1])
# [11] attribute .iloc
print("\n [11] attribute .iloc")
print("    iloc[0:1] pada number_list:", number_list.iloc[0:1])
print("    iloc[0:1] pada matrix_list:", matrix_list.iloc[0:1])
print('    iloc[0:2,2].to_list() pada matrix_list:', matrix_list.iloc[0:2,2].to_list())	

[8] attribute .index
    Index number_list: RangeIndex(start=0, stop=6, step=1)
    Index matrix_list: RangeIndex(start=0, stop=4, step=1)

 [9] attribute .columns
    Column matrix_list: RangeIndex(start=0, stop=3, step=1)

 [10] attribute .loc
    .loc[0:1] pada number_list: 0    1
1    2
dtype: int64
    .loc[0:1] pada matrix_list:    0  1  2
0  1  2  3
1  a  b  c

 [11] attribute .iloc
    iloc[0:1] pada number_list: 0    1
dtype: int64
    iloc[0:1] pada matrix_list:    0  1  2
0  1  2  3
    iloc[0:2,2].to_list() pada matrix_list: [3, 'c']


**Creating Series & Dataframe from List**

*Untuk membuat Series atau Dataframe bisa dari berbagai macam tipe data container/mapping di python, seperti list dan dictionary, maupun dari numpy array.*

*Pada sub bagian ini, kamu akan **membuat Series dan Dataframe yang bersumber dari list**. Sekadar meninjau bahwa list merupakan sebuah kumpulan data berbagai macam tipe data yang mutable (dapat diganti).*

1. *Creating series from list*
2. *Creating dataframe from list of list*

In [16]:
import pandas as pd
# Creating series from list
ex_list = ['a',1,3,5,'c','d']
ex_series = pd.Series(ex_list)
print(ex_series)

# Creating dataframe from list of list
ex_list_of_list = [[1 ,'a','b','c'],
                   [2.5,'d','e','f'],
		           [5, 'g','h','i'],
		           [7.5,'j',10.5,'l']]
index = ['dq','lab','kar','lan']
cols = ['float','char','obj','char']
ex_df = pd.DataFrame(ex_list_of_list, index=index, columns=cols)
print(ex_df)

0    a
1    1
2    3
3    5
4    c
5    d
dtype: object
     float char   obj char
dq     1.0    a     b    c
lab    2.5    d     e    f
kar    5.0    g     h    i
lan    7.5    j  10.5    l


**Creating Series & Dataframe from Dictionary**

*Pada sub bagian ini, akan **membuat Series dan Dataframe yang bersumber dari dictionary.** Sekadar meninjau bahwa, dictionary merupakan kumpulan data yang strukturnya terdiri dari key dan value.*

1. *Creating series from dictionary*
2. *Creating dataframe from dictionary*

In [17]:
import pandas as pd
# Creating series from dictionary
dict_series = {'1':'a',
			   '2':'b',
			   '3':'c'}
ex_series = pd.Series(dict_series)
print(ex_series)

# Creating dataframe from dictionary
df_series = {'1':['a','b','c'],
             '2':['b','c','d'],
             '4':[2,3,'z']}
ex_df = pd.DataFrame(df_series)
print(ex_df)

1    a
2    b
3    c
dtype: object
   1  2  4
0  a  b  2
1  b  c  3
2  c  d  z


**Creating Series & Dataframe from Numpy Array**

*Pada sub bagian ini, akan **membuat Series dan Dataframe yang bersumber dari numpy array.** Sekadar meninjau bahwa, numpy array kumpulan data yang terdiri atas berbagai macam tipe data, mutable, tapi dibungkus dalam array oleh library Numpy.*

1. *Creating series from numpy array (1D)*
2. *Creating dataframe from numpy array (2D)*

In [18]:
import pandas as pd
import numpy as np
# Creating series from numpy array (1D)
arr_series = np.array([1,2,3,4,5,6,6,7])
ex_series = pd.Series(arr_series)
print(ex_series)

# Creating dataframe from numpy array (2D)
arr_df = np.array([[1,2,3,5],
                   [5,6,7,8],
                   ['a','b','c',10]])
ex_df = pd.DataFrame(arr_df)
print(ex_df)

0    1
1    2
2    3
3    4
4    5
5    6
6    6
7    7
dtype: int32
   0  1  2   3
0  1  2  3   5
1  5  6  7   8
2  a  b  c  10


**Tips:**

*Bagaimana cara mengubah data yang berupa string menjadi angka misal 'a' menjadi 11 dan 'b' menjadi 12?*

In [19]:
arr_df = np.array([[1,2,3,5],
                   [5,6,7,8],
                   ['a','b',9,10]])

df = pd.DataFrame(arr_df)
df.iloc[2,0:2] = [11,12]
print(df)

    0   1  2   3
0   1   2  3   5
1   5   6  7   8
2  11  12  9  10


**End  of Module**