# Pandas - Week 1

***

## Menambahkan Prefix dan Suffix pada seluruh kolom Pandas Data Frame

### 1. Import Modules

Modul yang akan digunakan pada bagian ini adalah modul pandas dan numpy.

In [None]:
import pandas as pd
import numpy as np
print(pd.__version__)
print(np.__version__)

### 2. Persiapan Data Frame:

Bagian ini akan membuat sebuah table dengan lima kolom (direpresentasikan dengan variable n_rows), dan lima kolom (variable n_cols). Penamaan kolom akan dilakukan dengan menggunakan tuple yang berisi string "ABCDE" yang akan dipecah menjadi lima bagian.

Langkah selanjutnya adalah dengan membuat data frame pandas dengan bantuan numpy untuk mengisi setiap cell dengan data numerik yang diacak.

In [None]:
n_rows = 5
n_cols = 5
cols = tuple('ABCDE')

df = pd.DataFrame(np.random.randint(1, 10, size =(n_rows, n_cols)), columns = cols)

df

### 3. Menyertakan Prefix Kolom:

Prefix adalah sebuah kata, huruf, atau angka yang ditambahkan sebelum nama kolom.

In [None]:
df.add_prefix('kolom_')

### 4. Menyertakan Suffix Kolom:

Suffix akan menambahkan kata, huruf, atau angka setelah nama kolom.

In [None]:
df.add_suffix('_field')

***

## Pemilihan baris (rows selection) pada Data Frame

### 1. Import Modules:

In [None]:
import pandas as pd
import numpy as py
print(pd.__version__)
print(np.__version__)

### 2. Persiapan Data Frame:

In [None]:
n_rows = 10
n_cols = 5
cols = tuple("ABCDE")

df = pd.DataFrame(np.random.randint(1, 5, size = (n_rows, n_cols)), columns = cols)

df

### 3. Selection dengan operator logika "|"

Operator "|" berarti kode akan dijalankan apabila kondisi pertama **atau** kondisi kedua terpenuhi.

In [None]:
df[(df['A'] == 1) | (df['A'] == 3)]

### 4. Selection dengan fungsi isin()

Fungsi ini akan menyeleksi apakah value yang diminta ada di kolom tertentu.

In [None]:
df[df['A'].isin([1, 3])]

### 5. Mengenal operator negasi ~

Operator ini akan membuat kode berjalan dengan logika yang berbalik dari sebelumnya, dimana kali ini kode akan diminta untuk menampilkan data dari kolom A yang **tidak** memiliki nilai 1 dan 3.

In [None]:
df[~df['A'].isin([1, 3])]

***

## Konversi tipe data String ke Numerik pada kolom Data Frame

### 1. Import Modules

In [None]:
import pandas as pd

print(pd.__version__)

### 2. Persiapan Data Frame

Pembuatan data frame kali ini dilakukan dengan menggunakan dictionary.

In [None]:
data = {'col1' : ['1', '2', '3', 'teks'], 'col2' : ['1', '2', '3', '4']}

df = pd.DataFrame(data)

df

In [None]:
df.dtypes

### 3. Konversi tipe data dengan astype()

Data type dari data frame yang telah dibuat adalah object. Untuk mengubahnya, bisa digunakan fungsi astype() yang diikuti dengan menspesifikasi kolom apa yang ingin diganti dan menjadi tipe data apa. 

In [None]:
df_x = df.astype({'col2' : 'int'})
df_x

In [None]:
df_x.dtypes

### 4. Konversi tipe data numerik dengan fungsi to_numeric()

In [None]:
df.apply(pd.to_numeric, errors = 'coerce')

Fungsi parameter "coerce" adalah ketika ditemukan sebuah data yang tidak bisa dikonversi menjadi data numerik, maka datanya akan diubah menjadi NaN.

***

## Pemilihan kolom (columns selection) pada Pandas Data Frame berdasarkan tipe data

### 1. Import Modules

In [None]:
import pandas as pd
import numpy as np

### 2. Persiapan Data Frame

In [None]:
n_rows = 5
n_cols = 2
cols = ["bil_pecahan", "bil_bulat"]

df = pd.DataFrame(np.random.randint(1, 20, size = (n_rows, n_cols)), columns = cols)

df['bil_pecahan'] = df['bil_pecahan'].astype('float')

df.index = pd.util.testing.makeDateIndex(n_rows, freq='H') # Mengganti index pada data frame menggunakan interval jam
df = df.reset_index()

df['teks'] = list('ABCDE') #Menambahkan satu kolom baru; teks.

df

In [None]:
df.dtypes

### 3. Memilih kolom bertipe data numerik

In [None]:
df.select_dtypes(include='number') #Menyeleksi kolom dengan tipe data number.

In [None]:
df.select_dtypes(include='float') #Menyeleksi kolom dengan tipe data float.

In [None]:
df.select_dtypes(include='int') #Menyeleksi kolom dengan tipe data int.

### 4. Memilih kolom bertipe data string atau object.

In [None]:
df.select_dtypes(include='object')

### 5. Memilih kolom bertipe data datetime.

In [None]:
df.select_dtypes(include='datetime')

### 6. Menampilkan kolom dengan kombinasi tipe data

In [None]:
df.select_dtypes(include=['datetime', 'object'])