# Package Pandas  

Digunakan untuk pengolahan data yang berkaitan dengan data frame. 

In [5]:
# Lakukan import pandas sebagai pd
import pandas as pd

In [6]:
# Lakukan import numpy sebagai np
import numpy as np

## 1. Membuat dataframe

Untuk membuat data frame, digunakan sintaks berikut: `pandas.DataFrame( data, index, columns, dtype, copy)`  
1. index merupakan label untuk baris   
2. columns merupakan label untuk kolom
3. dtype merupakan tipe data perkolom
4. copy digunakan untuk menyalin data, defaultnya False

In [7]:
# Membuat rentang waktu
tanggal = pd.date_range("20200901", freq="M", periods=9)
print(tanggal)

DatetimeIndex(['2020-09-30', '2020-10-31', '2020-11-30', '2020-12-31',
               '2021-01-31', '2021-02-28', '2021-03-31', '2021-04-30',
               '2021-05-31'],
              dtype='datetime64[ns]', freq='M')


In [8]:
# Membuat data frame dengan data randon ukuran 9x4, serta label baris adalah tanggal dan label kolom A, B, C, D
contoh1 = pd.DataFrame(np.random.randn(9,4), index=tanggal, columns=("A","B","C","D"))
contoh1

Unnamed: 0,A,B,C,D
2020-09-30,1.427918,-0.36685,-0.660146,0.466842
2020-10-31,-0.327835,-0.480494,1.832592,-0.220032
2020-11-30,-1.952447,-0.359836,0.765836,-0.717866
2020-12-31,-1.04994,0.265696,0.733363,0.216097
2021-01-31,-0.420007,1.35598,0.166366,-0.120918
2021-02-28,-0.490761,0.058906,-1.021296,-0.066741
2021-03-31,0.719834,0.135828,0.64139,-0.831297
2021-04-30,-0.291136,0.472626,0.093249,-1.246421
2021-05-31,-0.04793,-0.64335,0.667482,0.119585


In [9]:
# Membuat dataframe dengan daftar anggota
contoh2 = pd.DataFrame({"A": 1.,
                       "B": pd.Timestamp("20180925"),
                       "C": np.array([3]*4, dtype="int32"),
                       "D": pd.Categorical(["test","train"]*2),
                       "E": np.array([1,12,32,14])}, index=["satu","dua","tiga","empat"])
contoh2

Unnamed: 0,A,B,C,D,E
satu,1.0,2018-09-25,3,test,1
dua,1.0,2018-09-25,3,train,12
tiga,1.0,2018-09-25,3,test,32
empat,1.0,2018-09-25,3,train,14


## 2. Menambah, menghapus, dan menyeleksi kolom data frame

Menghapus kolom dengan fungsi:  
1. `del(data_frame["kolom"])` 
2. `.pop("kolom")`
3. `.drop("kolom", axis=1)`; axis=1 berarti menghapus sepanjang kolom yang dimaksud

Menambahkan kolom baru dengan operasi matematis "+"

In [10]:
# Menambahkan kolom baru dengan nama "F", dengan operasi penambahan kolom "C" dan "E"
contoh2["F"]=contoh2["C"]+contoh2["E"]
print(contoh2)

         A          B  C      D   E   F
satu   1.0 2018-09-25  3   test   1   4
dua    1.0 2018-09-25  3  train  12  15
tiga   1.0 2018-09-25  3   test  32  35
empat  1.0 2018-09-25  3  train  14  17


In [11]:
# Menambahkan kolom baru dengan nama "G", pada index satu, tiga, empat 
contoh2["G"]=pd.Series([10,20,30], index=["satu", "tiga", "empat"])
print(contoh2)

         A          B  C      D   E   F     G
satu   1.0 2018-09-25  3   test   1   4  10.0
dua    1.0 2018-09-25  3  train  12  15   NaN
tiga   1.0 2018-09-25  3   test  32  35  20.0
empat  1.0 2018-09-25  3  train  14  17  30.0


In [12]:
# Menghapus kolom "B" dengan fungsi del
del(contoh2["B"])
contoh2

Unnamed: 0,A,C,D,E,F,G
satu,1.0,3,test,1,4,10.0
dua,1.0,3,train,12,15,
tiga,1.0,3,test,32,35,20.0
empat,1.0,3,train,14,17,30.0


In [13]:
# Menghapus kolom "C" dengan pop
contoh2.pop("C")
contoh2

Unnamed: 0,A,D,E,F,G
satu,1.0,test,1,4,10.0
dua,1.0,train,12,15,
tiga,1.0,test,32,35,20.0
empat,1.0,train,14,17,30.0


In [15]:
# Menyeleksi kolom "A"
kolomA = contoh2["A"]
kolomA

satu     1.0
dua      1.0
tiga     1.0
empat    1.0
Name: A, dtype: float64

In [None]:
# Menghapus kolom "A" dengan fungsi drop
contoh2_hapus = contoh2.drop("A", axis = 1)
contoh2_hapus.head()

## 3. Menambah, mengurang, dan menyeleksi baris pada data frame

Menyeleksi/mengiris data frame dengan fungsi:
1. `loc`: untuk seleksi dengan menggunakan indeks/bilangan bulat
2. `iloc`: untuk seleksi dengan menggunakan bilangan bulat

Menambah baris dengan fungsi: `.append()`

Menghapus baris dengan fungsi: `.del("index", axis=0)`, axis=0 berarti menghapus sepanjang baris.

In [16]:
# Menambah baris menggunakan fungsi append
contoh3 = pd.DataFrame([[1,"train",4,5,6.0], [2,"test",7,12,34]], columns=["A","D","E","F","G"])
contoh3

contoh4 = contoh2.append(contoh3)
contoh4

Unnamed: 0,A,D,E,F,G
satu,1.0,test,1,4,10.0
dua,1.0,train,12,15,
tiga,1.0,test,32,35,20.0
empat,1.0,train,14,17,30.0
0,1.0,train,4,5,6.0
1,2.0,test,7,12,34.0


In [17]:
# Menyeleksi indeks "tiga" pada baris
contoh4.loc["tiga"]

A       1
D    test
E      32
F      35
G      20
Name: tiga, dtype: object

In [18]:
# Menyeleksi baris ke 2 dan 3, dengan menyebut urutannya, kemudian mengcopy hasilnya
contoh5=contoh4.iloc[1:3].copy()
contoh5

Unnamed: 0,A,D,E,F,G
dua,1.0,train,12,15,
tiga,1.0,test,32,35,20.0


In [19]:
# Menghapus baris dengan indeks "tiga". Simpan variabel dengan nama "contoh5_hapus"
contoh5_hapus = contoh5.drop("tiga", axis=0)
contoh5_hapus

Unnamed: 0,A,D,E,F,G
dua,1.0,train,12,15,


## 4. Menyeleksi/megiris data frame berdasar baris dan kolom



In [23]:
contoh2

Unnamed: 0,A,D,E,F,G
satu,1.0,test,1,4,10.0
dua,1.0,train,12,15,
tiga,1.0,test,32,35,20.0
empat,1.0,train,14,17,30.0


In [20]:
# mengiris data baris dan kolom
contoh2.iloc[1:3, 2:5]

Unnamed: 0,E,F,G
dua,12,15,
tiga,32,35,20.0


In [None]:
# Menampilkan informasi pada data frame
contoh2.info()

### Fungsi dasar untuk series  


Berikut fungsi dasar untuk series (deret)  

No   | Fungsi   | Deskripsi
:---:|:---      |:---   
1    | axes     | Daftar label baris dan kolom |
2    | dtypes   | Daftar tipe data setiap kolom |
3    | empty    | Akan bernilai True jika deret ada yang kosong |
4    | size     | Ukuran dari data |
5    | values   | Mengubah deret menjadi ndarray (n dimensional array) |
6    | head()   | Menampilkan n data pertama |
7    | tail()   | Menampilkan n data terakhir |

In [None]:
# cobalah fungsi axes, dtypes, empty, size, head, tail untuk contoh2

## 5. Mengimport atau membaca file (csv, xls)

In [21]:
# Membaca file xls. File terletak dalam satu folder dengan notebook jupyter
superstore = pd.read_excel("Superstore.xls")
superstore.head()

Unnamed: 0,Row ID,Order ID,Order Date,Ship Date,Ship Mode,Customer ID,Customer Name,Segment,Kota,State,Country,Region,Product ID,Category,Sub-Category,Product Name,Sales,Quantity,Discount,Profit
0,18,ID-2014-44908,2014-02-26,2014-03-04,Standard Class,AI-10855,Arianne Irving,Consumer,Bandung,Jawa Barat,Indonesia,Southeast Asia,OFF-SU-10004848,Office Supplies,Supplies,"Kleencut Shears, High Speed",123.9405,5,0.47,-84.2595
1,19,ID-2014-44908,2014-02-26,2014-03-04,Standard Class,AI-10855,Arianne Irving,Consumer,Bandung,Jawa Barat,Indonesia,Southeast Asia,OFF-PA-10003332,Office Supplies,Paper,"Xerox Cards & Envelopes, Recycled",47.5728,2,0.47,-15.3072
2,20,ID-2012-73146,2012-10-24,2012-10-30,Standard Class,HM-14980,Henry MacAllister,Consumer,Denpasar,Bali,Indonesia,Southeast Asia,OFF-AP-10000487,Office Supplies,Appliances,"Hoover Stove, Silver",1417.3578,3,0.17,-290.3022
3,21,ID-2012-73146,2012-10-24,2012-10-30,Standard Class,HM-14980,Henry MacAllister,Consumer,Denpasar,Bali,Indonesia,Southeast Asia,OFF-LA-10000095,Office Supplies,Labels,"Avery Round Labels, Laser Printer Compatible",22.7052,6,0.47,-4.2948
4,24,ID-2012-57809,2012-10-09,2012-10-13,Standard Class,AO-10810,Anthony O'Donnell,Corporate,Pekanbaru,Riau,Indonesia,Southeast Asia,FUR-TA-10000665,Furniture,Tables,"Bevis Computer Table, Fully Assembled",786.2868,3,0.47,-563.8032


In [None]:
# Gunakan fungsi dasar untuk series, untuk melihat informasi tabel
superstore.empty

In [None]:
superstore.dtypes

In [None]:
superstore.size

In [None]:
# apakah tipe data superstore? Gunakan fungsi type


In [None]:
# Berapakah dimensi data superstore? Gunakan shape


In [None]:
# Gunakan fungsi .info() untuk mengetahui gambaran data superstore


In [22]:
# Pilih kolom "Product Name", dan simpan dalam variabel produk

produk = superstore['Product Name']
produk.head(10)

0                     Kleencut Shears, High Speed
1               Xerox Cards & Envelopes, Recycled
2                            Hoover Stove, Silver
3    Avery Round Labels, Laser Printer Compatible
4           Bevis Computer Table, Fully Assembled
5                     Sanford Canvas, Fluorescent
6     Binney & Smith Pencil Sharpener, Easy-Erase
7                Novimex Swivel Stool, Adjustable
8                   Panasonic Calculator, Durable
9                         Stockwell Clamps, Metal
Name: Product Name, dtype: object

In [None]:
# Apakah tipe dari variabel produk?


In [None]:
# Menjadikan series ke array dengan .values


In [None]:
# Memilih baris kelipatan 3, dengan semua kolom. Kemudian tampilkan 10 data pertama


In [None]:
# Menyeleksi data dengan Kota adalah "Semarang". Kemudian tampilkan 5 data pertama


## 6. Menambahkan kolom baru pada data frame

In [None]:
# Tambahkan kolom "Garansi", dan isikan semua baris dengan "Tidak Bergaransi"


In [None]:
# Seleksi kolom Customer ID, Kota, Sub-Category, dan Profit. Simpan dalam variabel superstore2


In [None]:
# Seleksi superstore2, yang Kota adalah Semarang, memiliki Profit lebih dari 20. Simpan dalam superstore2_filter. 


In [None]:
# Berapakah data yang sesuai dengan kondisi setelah dilakukan filtering? 
superstore2_filter.count()