# PANDAS
Salah satu Library Python yang digunakan untuk Data Analisis

* Series
* DataFrame
* Missing Data
* Group By
* Operation
* Data Input & Output

### Series

Import Pandas dan Numpy Sebagai Pendukung

In [1]:
import pandas as pd
import numpy as np

Pemberian Nilai dapat diberikan dari data list, numpy array, dictionary

In [2]:
labels = ['a', 'b', 'c']
my_list = [10, 15, 20]
arr = np.array([30, 40, 50])
dic = {'a':1, 'b':2, 'c':3}

Using List

In [3]:
pd.Series(data=my_list)

0    10
1    15
2    20
dtype: int64

In [4]:
pd.Series(data=my_list, index=labels)

a    10
b    15
c    20
dtype: int64

In [5]:
pd.Series(my_list, labels) #pemanggilan harus sesuai urutan | Series(Data, Index)

a    10
b    15
c    20
dtype: int64

Using Numpy Array

In [6]:
pd.Series(data=arr)

0    30
1    40
2    50
dtype: int32

In [7]:
pd.Series(data=arr, index=labels)

a    30
b    40
c    50
dtype: int32

Using Dictionary

In [8]:
pd.Series(data=dic)

a    1
b    2
c    3
dtype: int64

Pandas Series dapat juga diberikan nilai sebuah object

In [9]:
pd.Series(data=labels)

0    a
1    b
2    c
dtype: object

In [10]:
pd.Series([sum,print,len])

0      <built-in function sum>
1    <built-in function print>
2      <built-in function len>
dtype: object

Using a Index

In [11]:
index = pd.Series([1000,3000,2000], index=['Surabaya','Jakarta','Bandung'])
index

Surabaya    1000
Jakarta     3000
Bandung     2000
dtype: int64

In [12]:
#pemanggilan by index

index['Surabaya']

1000

In [13]:
index2 = pd.Series([100,200,50], index=['Surabaya','Jakarta','Semarang'])

Operasi perhitungan dapat dilakukan

In [14]:
index

Surabaya    1000
Jakarta     3000
Bandung     2000
dtype: int64

In [15]:
index2

Surabaya    100
Jakarta     200
Semarang     50
dtype: int64

In [16]:
#Keluaran pada index Bandung dan Semarang bernilai NaN yang berarti
#index tersebut tidak ditemukan pada setiap variable Series

index + index2

Bandung        NaN
Jakarta     3200.0
Semarang       NaN
Surabaya    1100.0
dtype: float64

In [17]:
index * index2

Bandung          NaN
Jakarta     600000.0
Semarang         NaN
Surabaya    100000.0
dtype: float64


# DataFrame



In [18]:
array_value = np.array([[200,300,500],[700,300,1000],[1500,250,250]])
array_value

array([[ 200,  300,  500],
       [ 700,  300, 1000],
       [1500,  250,  250]])

In [19]:
# DataFrame(Nilai, Nama_index, Nama_Kolom)
df = pd.DataFrame(array_value,index=['Timur','Barat','Pusat'],columns=['Surabaya','Jakarta','Bandung'])
df

Unnamed: 0,Surabaya,Jakarta,Bandung
Timur,200,300,500
Barat,700,300,1000
Pusat,1500,250,250


#### Selection & Indexing

In [20]:
#Pemanggilan berdasarkan kolom | DF_Name_Variable[Kolom]

df['Surabaya']

Timur     200
Barat     700
Pusat    1500
Name: Surabaya, dtype: int32

In [21]:
#Pemanggilan Dua atau Lebih kolom | DF_Name_Variable[[Kolom_1, Kolom_2, ... ,Kolom_N]]

df[['Surabaya','Bandung']]

Unnamed: 0,Surabaya,Bandung
Timur,200,500
Barat,700,1000
Pusat,1500,250


In [22]:
#pemanggilan berdasarkan kolom dapat dilakukan dengan pemanggailan function tetapi cara ini kurang di anjurkan
#DF_Name_Variable.Kolom

df.Surabaya

Timur     200
Barat     700
Pusat    1500
Name: Surabaya, dtype: int32

In [23]:
#Pemanggilan berdasarkan Baris dengan menggunakan function loc[Nama baris]

df.loc['Timur']

Surabaya    200
Jakarta     300
Bandung     500
Name: Timur, dtype: int32

In [24]:
#Pemanggilan Dua atau lebih Baris menggunakan function Loc[[Baris1, Baris2, .....,BarisN]]

df.loc[['Timur','Barat']]

Unnamed: 0,Surabaya,Jakarta,Bandung
Timur,200,300,500
Barat,700,300,1000


In [25]:
#pemanggilan berdasarkan Baris dengan menggunakan function iloc[letak_index] yang dimulai dari 0

df.iloc[1]

Surabaya     700
Jakarta      300
Bandung     1000
Name: Barat, dtype: int32

In [26]:
#Pemanggilan Dua atau Lebih Berdasarkan Index
# dengan menggunakan function iloc[letak_index0, letak_index1, ... , letak_index_N]

df.iloc[[0,2]]

Unnamed: 0,Surabaya,Jakarta,Bandung
Timur,200,300,500
Pusat,1500,250,250


#### Conditonal Selection

In [27]:
df

Unnamed: 0,Surabaya,Jakarta,Bandung
Timur,200,300,500
Barat,700,300,1000
Pusat,1500,250,250


In [28]:
df >300

Unnamed: 0,Surabaya,Jakarta,Bandung
Timur,False,False,True
Barat,True,False,True
Pusat,True,False,False


In [29]:
df[df>300]

Unnamed: 0,Surabaya,Jakarta,Bandung
Timur,,,500.0
Barat,700.0,,1000.0
Pusat,1500.0,,


In [30]:
df[df["Surabaya"]>300]

Unnamed: 0,Surabaya,Jakarta,Bandung
Barat,700,300,1000
Pusat,1500,250,250


In [31]:
df[df['Surabaya']>300][['Bandung', 'Jakarta']]

Unnamed: 0,Bandung,Jakarta
Barat,1000,300
Pusat,250,250


In [32]:
df[(df['Surabaya']<500) & (df['Jakarta']>200)]

Unnamed: 0,Surabaya,Jakarta,Bandung
Timur,200,300,500


#### Menambahkan Kolom Baru 

In [33]:
df

Unnamed: 0,Surabaya,Jakarta,Bandung
Timur,200,300,500
Barat,700,300,1000
Pusat,1500,250,250


In [34]:
# DF_Name_Variable[Kolom_baru] = Values

df['baru'] = df['Surabaya'] + df['Bandung']

In [35]:
df

Unnamed: 0,Surabaya,Jakarta,Bandung,baru
Timur,200,300,500,700
Barat,700,300,1000,1700
Pusat,1500,250,250,1750


#### Menghapus Kolom

In [36]:
# Menggunakan function drop(Kolom, axis=0/1)
# axis 0 untuk Baris | axis 1 untuk kolom

df.drop('baru', axis=1)

Unnamed: 0,Surabaya,Jakarta,Bandung
Timur,200,300,500
Barat,700,300,1000
Pusat,1500,250,250


In [37]:
#Data Kolom Baru tidak terhapus secara permanen, hanya menghapus secara tampilan

df

Unnamed: 0,Surabaya,Jakarta,Bandung,baru
Timur,200,300,500,700
Barat,700,300,1000,1700
Pusat,1500,250,250,1750


In [38]:
# Dengan Parameter inplace yang bernilai True akan menghapus data secara permanen

df.drop('baru', axis=1, inplace=True)
df

Unnamed: 0,Surabaya,Jakarta,Bandung
Timur,200,300,500
Barat,700,300,1000
Pusat,1500,250,250


In [39]:
# Menambahkan Baris Baru

d2 = pd.DataFrame([[200, 300, 100]], index=["Selatan"], columns=["Surabaya","Bandung","Jakarta"])
df = df.append(d2)

In [40]:
df

Unnamed: 0,Surabaya,Jakarta,Bandung
Timur,200,300,500
Barat,700,300,1000
Pusat,1500,250,250
Selatan,200,100,300


In [41]:
# Menghapus Baris

df.drop('Selatan', inplace=True)
df

Unnamed: 0,Surabaya,Jakarta,Bandung
Timur,200,300,500
Barat,700,300,1000
Pusat,1500,250,250


In [42]:
df.reset_index()

Unnamed: 0,index,Surabaya,Jakarta,Bandung
0,Timur,200,300,500
1,Barat,700,300,1000
2,Pusat,1500,250,250


In [43]:
Id_baru = "Timur Barat Pusat".split()
Id_baru

['Timur', 'Barat', 'Pusat']

In [44]:
df["Kawasan"] = Id_baru
df

Unnamed: 0,Surabaya,Jakarta,Bandung,Kawasan
Timur,200,300,500,Timur
Barat,700,300,1000,Barat
Pusat,1500,250,250,Pusat


In [45]:
# Merubah index menggunakan function set.index('Kolom_yang_dijadikan_index')

df.set_index('Kawasan', inplace=True)

In [46]:
df

Unnamed: 0_level_0,Surabaya,Jakarta,Bandung
Kawasan,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Timur,200,300,500
Barat,700,300,1000
Pusat,1500,250,250


#### Multi-Index

In [47]:
# Set Value

Surabaya = ["Selatan", "Selatan", "Selatan", "Timur", "Timur", "Timur"] # Index Luar
Kawasan = ["Wiyung", "Gunungsari", "Wonokromo", "Gubeng", "Rungkut", "Sukolilo"] # Index Dalam
multi_index = list(zip(Surabaya, Kawasan)) # Menggabungkan beberapa list menjadi satu
multi_index = pd.MultiIndex.from_tuples(multi_index)
# Mengambalikan Nilai Pandas MultiIndex pada variable index | from_tuples(List)

In [48]:
arr = np.array([[70,30],
          [80,50],
          [69,20],
          [87,20],
          [35,90],
          [60,50]])
multi_index

MultiIndex([('Selatan',     'Wiyung'),
            ('Selatan', 'Gunungsari'),
            ('Selatan',  'Wonokromo'),
            (  'Timur',     'Gubeng'),
            (  'Timur',    'Rungkut'),
            (  'Timur',   'Sukolilo')],
           )

In [49]:
# DataFrame(Data_Arr, index=MultiIndex, columns=[Nama_Kolom,....])

df2 = pd.DataFrame(arr, index=multi_index, columns=["Pria","Wanita"])
df2

Unnamed: 0,Unnamed: 1,Pria,Wanita
Selatan,Wiyung,70,30
Selatan,Gunungsari,80,50
Selatan,Wonokromo,69,20
Timur,Gubeng,87,20
Timur,Rungkut,35,90
Timur,Sukolilo,60,50


In [50]:
# Pemanggilan Index menggunakan function loc[Index]

df2.loc["Timur"]

Unnamed: 0,Pria,Wanita
Gubeng,87,20
Rungkut,35,90
Sukolilo,60,50


In [51]:
# Terdapat 2 cara pemanggilan MultiIndex

df2.loc["Timur", "Gubeng"] 

Pria      87
Wanita    20
Name: (Timur, Gubeng), dtype: int32

In [52]:
df2.loc["Timur"].loc["Rungkut"]

Pria      35
Wanita    90
Name: Rungkut, dtype: int32

In [53]:
# Pemanggilan Index dan Kolom

df2.loc["Selatan"]["Wanita"]

Wiyung        30
Gunungsari    50
Wonokromo     20
Name: Wanita, dtype: int32

In [54]:
# Pemberian Header Index

df2.index.names

FrozenList([None, None])

In [55]:
df2.index.names = ["Surabaya", "Kawasan"]
df2

Unnamed: 0_level_0,Unnamed: 1_level_0,Pria,Wanita
Surabaya,Kawasan,Unnamed: 2_level_1,Unnamed: 3_level_1
Selatan,Wiyung,70,30
Selatan,Gunungsari,80,50
Selatan,Wonokromo,69,20
Timur,Gubeng,87,20
Timur,Rungkut,35,90
Timur,Sukolilo,60,50


In [56]:
# Cara lain untuk pemanggilan index menggunakan function xs(index) | xs hanya untuk pemanggilan berdasarkan index

df2.xs("Selatan")

Unnamed: 0_level_0,Pria,Wanita
Kawasan,Unnamed: 1_level_1,Unnamed: 2_level_1
Wiyung,70,30
Gunungsari,80,50
Wonokromo,69,20


In [57]:
df2.xs(["Selatan", "Wiyung"])

Pria      70
Wanita    30
Name: (Selatan, Wiyung), dtype: int32

In [58]:
df2.xs("Gunungsari", level='Kawasan')

Unnamed: 0_level_0,Pria,Wanita
Surabaya,Unnamed: 1_level_1,Unnamed: 2_level_1
Selatan,80,50
