## Pandas


### Series 
- Merupakan satuan kolom yang terpisah
- Jumlah 1 Dimensi
- Komponennya terdiri dari index dan values

### Data Frame
- 2 Dimensi , sehingga terdiri dari baris dan kolom
- 3 Komponen , data/value, baris/index, kolom

In [4]:
import pandas as pd
import numpy as np

In [8]:
pd.Series([2,3,6])
# output akan mengeluarkan index dan value scr vertikal

0    2
1    3
2    6
dtype: int64


In [9]:
pd.Series(['2','3','6'])
# tipe data String akan menghasilkan output object

0    2
1    3
2    6
dtype: object

In [10]:
pd.Series([4,4.8,'c'])
# tipe data campuran juga akan menghasilkan output object

0      4
1    4.8
2      c
dtype: object

In [11]:
revenues = pd.Series([5555,7000,1980])
print(revenues)

0    5555
1    7000
2    1980
dtype: int64


#### Penggunaan .values dan .index

In [12]:
revenues.values

array([5555, 7000, 1980], dtype=int64)

In [13]:
revenues.index

RangeIndex(start=0, stop=3, step=1)

In [14]:
list(range(0,3,1))

[0, 1, 2]

In [15]:
list(range(5,0,-1))

[5, 4, 3, 2, 1]

### Cara spesifik menulis series lainnya

In [16]:
pd.Series([2,7,5],
        index = ['val_1','val_2','val_3']) #index yang diganti dsebut label index, sedangkan index default disebut index / positional index

val_1    2
val_2    7
val_3    5
dtype: int64

In [19]:
# Contoh lainnya
city_revenues = pd.Series(['Jakarta','Bandung','Surabaya'],index=['DKI','Jawa Barat','Jawa Timur'])
print(city_revenues)

DKI            |Jakarta
Jawa Barat     |Bandung
Jawa Timur    |Surabaya
dtype: object


### Cara lain untuk menulis series -- dengan penulisan dictionary

In [31]:
city_employee_count = pd.Series({'Karawang':2,'Cianjur':3,'Makassar':4})
print(city_employee_count)

Karawang    2
Cianjur     3
Makassar    4
dtype: int64


##### Karena memanfaatkan sifat dictionary untuk menulis series, maka kita bisa mencari keys / .keys() / values

In [32]:
city_employee_count.keys()

Index(['Karawang', 'Cianjur', 'Makassar'], dtype='object')

In [33]:
"Cianjur" in city_employee_count

True

In [34]:
city_employee_count.values

array([2, 3, 4], dtype=int64)

In [43]:
city_employee_count_2 = pd.Series({'Bogor':5})
city_employee_count_3 = city_employee_count.append(city_employee_count_2)

### DataFrame
- Sifatnya mengadopsi dari Dictionary
- Keys sebagai nama kolom
- Value sebagai value 
- Output dari value bisa bertipe data  list / panda.series

In [36]:
pd.DataFrame({'angka':[0,3,5,2,3],
            'skor':['a','b','c','d','e']})

Unnamed: 0,angka,skor
0,0,a
1,3,b
2,5,c
3,2,d
4,3,e


In [39]:
city_revenues = pd.Series([4000,5000,6000,7000],index=['Karawang','Cianjur','Makassar','Bogor'])
print(city_revenues)


Karawang    4000
Cianjur     5000
Makassar    6000
Bogor       7000
dtype: int64


In [44]:
city_Data = pd.DataFrame({
    'Pendapatan':city_revenues,
    'Jumlah Pegawai':city_employee_count_3
})
print(city_Data)

          Pendapatan  Jumlah Pegawai
Karawang        4000               2
Cianjur         5000               3
Makassar        6000               4
Bogor           7000               5


In [46]:
city_Data.index

Index(['Karawang', 'Cianjur', 'Makassar', 'Bogor'], dtype='object')

In [47]:
city_Data.columns

Index(['Pendapatan', 'Jumlah Pegawai'], dtype='object')

In [48]:
city_Data.values

array([[4000,    2],
       [5000,    3],
       [6000,    4],
       [7000,    5]], dtype=int64)

#### Axis pada dataFrame 
- Axis 0 : index mewakili berdasarkan baris
- Axis 1 : index mewakili berdasarkan kolom

In [50]:
city_Data.axes

[Index(['Karawang', 'Cianjur', 'Makassar', 'Bogor'], dtype='object'),
 Index(['Pendapatan', 'Jumlah Pegawai'], dtype='object')]

In [51]:
city_Data.axes[0]

Index(['Karawang', 'Cianjur', 'Makassar', 'Bogor'], dtype='object')

In [52]:
city_Data.axes[1]

Index(['Pendapatan', 'Jumlah Pegawai'], dtype='object')

#### Pengecekan pada data frame lengkap (city_data)

- Data frame hanya bisa memeriksa keys nya saja

In [53]:
city_Data.keys()

Index(['Pendapatan', 'Jumlah Pegawai'], dtype='object')

In [54]:
'Bogor' in city_Data

False

In [55]:
'Pendapatan' in city_Data

True

In [56]:
7000 in city_Data

False

#### Mengecek Location dari sebuah series

In [57]:
city_revenues = pd.Series([4000,5000,6000,7000],index=['Karawang','Cianjur','Makassar','Bogor'])
print(city_revenues)

Karawang    4000
Cianjur     5000
Makassar    6000
Bogor       7000
dtype: int64


###### Hasil di atas tidak menampilkan default index, tp scr backend default index masih ada

In [58]:
city_revenues["Karawang"]

4000

In [59]:
city_revenues[1]

5000

In [60]:
city_revenues[-1]

7000

In [62]:
city_revenues[1:]

Cianjur     5000
Makassar    6000
Bogor       7000
dtype: int64

In [61]:
city_revenues["Karawang":]

Karawang    4000
Cianjur     5000
Makassar    6000
Bogor       7000
dtype: int64

In [63]:
city_revenues[0:3]

Karawang    4000
Cianjur     5000
Makassar    6000
dtype: int64

In [64]:
city_revenues['Karawang':'Bogor']

Karawang    4000
Cianjur     5000
Makassar    6000
Bogor       7000
dtype: int64

##### Pemanfaatan .loc dan .iloc pada series
- ada fungsi .loc untuk label tertampil
- ada fungsi .iloc untuk index default

In [66]:
colors = pd.Series(['red','purple','blue','green','yellow'],
        index =[1,2,3,5,8])
print(colors)

1       red
2    purple
3      blue
5     green
8    yellow
dtype: object


##### Untuk meminimalisir ambigu seperti di atas karena eliminasi data, bisa menggunakan loc dan iloc

In [72]:
colors.loc[1] #berdasarkan label tertampil

'red'

In [69]:
colors.iloc[1] #berdasarkan positional index / default index

'purple'

##### Selama menggunakan range [2:4] pada labeled index, maka angka 4 nya ikut tertampil. kasus yang sama juga muncul pada data frame lainnya

In [73]:
colors.loc[3:8]

3      blue
5     green
8    yellow
dtype: object

##### Mengakses data pada dataFrame

In [74]:
city_Data

Unnamed: 0,Pendapatan,Jumlah Pegawai
Karawang,4000,2
Cianjur,5000,3
Makassar,6000,4
Bogor,7000,5


In [75]:
city_Data['Pendapatan']

Karawang    4000
Cianjur     5000
Makassar    6000
Bogor       7000
Name: Pendapatan, dtype: int64

In [76]:
city_Data.Pendapatan

Karawang    4000
Cianjur     5000
Makassar    6000
Bogor       7000
Name: Pendapatan, dtype: int64

In [78]:
toys = pd.DataFrame({'name':'yoyo','shape':'bundar'},
{'name':'beyblade','shape':'tajam'})
print(toys)

       name   shape
name   yoyo  bundar
shape  yoyo  bundar


##### Menggunakan iloc dan loc pada dataFrame

- Karena 2D , pemanfaatan loc dan iloc harusnya 2 input
- loc [,] sebelum koma :specify baris , setelah koma : specify kolom

In [79]:
city_Data

Unnamed: 0,Pendapatan,Jumlah Pegawai
Karawang,4000,2
Cianjur,5000,3
Makassar,6000,4
Bogor,7000,5


In [86]:
city_Data.loc['Karawang':'Makassar','Jumlah Pegawai']

Karawang    2
Cianjur     3
Makassar    4
Name: Jumlah Pegawai, dtype: int64

In [88]:
# misal hanya mau karawang dan makassar ,, danh hanya kolom pendapatan
city_Data.loc[["Karawang","Cianjur"],["Pendapatan"]]

Unnamed: 0,Pendapatan
Karawang,4000
Cianjur,5000


In [80]:
city_Data.loc['Cianjur']

Pendapatan        5000
Jumlah Pegawai       3
Name: Cianjur, dtype: int64

In [81]:
city_Data.iloc[1]

Pendapatan        5000
Jumlah Pegawai       3
Name: Cianjur, dtype: int64

In [82]:
 city_Data["Karawang":"Bogor"]

Unnamed: 0,Pendapatan,Jumlah Pegawai
Karawang,4000,2
Cianjur,5000,3
Makassar,6000,4
Bogor,7000,5


#### Agregasi data dari series

In [90]:
city_revenues

Karawang    4000
Cianjur     5000
Makassar    6000
Bogor       7000
dtype: int64

In [91]:
city_revenues.sum()

22000

In [92]:
city_revenues.mean()

5500.0

### Combining Multiple Datasets
- Concat
- Merge

In [96]:
further_city_data = pd.DataFrame({'Pendapatan':[3000,5000],'Jumlah Pegawai':[2,2]},index =['New York','Barcelona'])
print(further_city_data)

           Pendapatan  Jumlah Pegawai
New York         3000               2
Barcelona        5000               2


###### disni kita mau gabungin further_city_data dengan city_Data

In [95]:
city_Data

Unnamed: 0,Pendapatan,Jumlah Pegawai
Karawang,4000,2
Cianjur,5000,3
Makassar,6000,4
Bogor,7000,5


In [97]:
all_city_Data = pd.concat([city_Data,further_city_data],sort=False)
print(all_city_Data)

           Pendapatan  Jumlah Pegawai
Karawang         4000               2
Cianjur          5000               3
Makassar         6000               4
Bogor            7000               5
New York         3000               2
Barcelona        5000               2


###### Menggunakan axis untuk menggabungkan 2 data

##### Buat data secara horizontal dlu agar bisa concat dengan axis = 1

In [100]:
city_countries = pd.DataFrame({'provinsi':['Jawa Barat','Jawa Tengah','Sulawesi Selatan','JaBar','NY','Spain'],
'capital':[1,1,1,2,2,2]},index=['Karawang','Cianjur','Makassar','Bogor','New York','Barcelona'])

In [101]:
print(city_countries)

                   provinsi  capital
Karawang         Jawa Barat        1
Cianjur         Jawa Tengah        1
Makassar   Sulawesi Selatan        1
Bogor                 JaBar        2
New York                 NY        2
Barcelona             Spain        2


#### Proses penggabungan kolom (secara horizontal) dengan memanfaatkan axis = 1

- Penggunaan inner outer -- bisa diingat dengan pemanfaatan diagram venn (nanti dijoin dari indexnya -- kan sama" ada karawang cianjur index)

In [106]:
city_and_countries_data= pd.concat([all_city_Data,city_countries],axis=1,join="inner",sort=False)
print(city_and_countries_data)

           Pendapatan  Jumlah Pegawai          provinsi  capital
Karawang         4000               2        Jawa Barat        1
Cianjur          5000               3       Jawa Tengah        1
Makassar         6000               4  Sulawesi Selatan        1
Bogor            7000               5             JaBar        2
New York         3000               2                NY        2
Barcelona        5000               2             Spain        2


##### Penggabungan data pada fungsi .concat , hanya bisa berdasarkan index yang sama , jika tabel A pny index, tapi tabel B indexnya default, tidak bisa.

#### Sehingga perlu .merge untuk menjoin antara kolom di tabel A dengan index di tabel B

In [105]:
countries = pd.DataFrame({'population':[112,113,114,212,234,124],'continent':['SEA','NA','Europe','SEA','NA','Europe']},index=['Jawa Barat','Jawa Tengah','Sulawesi Selatan','JaBar','NY','Spain'])
print(countries)

                  population continent
Jawa Barat               112       SEA
Jawa Tengah              113        NA
Sulawesi Selatan         114    Europe
JaBar                    212       SEA
NY                       234        NA
Spain                    124    Europe


In [109]:
pd.merge(city_and_countries_data,countries,left_on='provinsi',right_index=True,how='outer')

Unnamed: 0,Pendapatan,Jumlah Pegawai,provinsi,capital,population,continent
Karawang,4000,2,Jawa Barat,1,112,SEA
Cianjur,5000,3,Jawa Tengah,1,113,
Makassar,6000,4,Sulawesi Selatan,1,114,Europe
Bogor,7000,5,JaBar,2,212,SEA
New York,3000,2,NY,2,234,
Barcelona,5000,2,Spain,2,124,Europe


#### How='' di atas ada banyak :
- Outer untuk yang terluar aja antara tabel A dan B (outer left dan outer right)
- Inner untuk yang teriris antara tabel A dan B (irisan A dan B)
- Left untuk yang teriris di tabel A dan B , ditambah outer left (yang ada di tabel A aja)
- Right untuk yang teriris di tabel A dan B , ditambah outer right (yang ada di tabel B aja)

###### Kesimpulan
Series :
- Satuan Kolom
- 1D - Biasanya adopsi Tipe Data Array
- Komponen - Value dan Index

Data Frame : 
- Tabular , gabungan series
- 2D - Baris dan Kolom
- Komponen - Baris, Kolom , dan Value

Indexing :
- .loc -- untuk label index
- .iloc -- untuk positional index

df.loc[:]
    (baris,kolom)

Gabungin Data :

Concat :
- Digunakan dengan catatan rujukannya sama - sama di index
- Bisa secara horizontal dan vertical

Merge :
- Digunakan dengan catatan rujukannya hanya :
    Satu di index, satu di kolom 
    Satu di kolom , satu di index
    Dua - duanya di kolom
- Hanya bisa secara horizontal