In [25]:
import pandas as pd
import numpy as np

In [26]:
df=pd.DataFrame({'Nama':['Andi','Budi','Caca','Dedi'],
    'Umur':[24,30,22,27],
    'Gaji':[12,15,10,14],
    'Kota':['Jakarta','Surabaya','Bandung','Salatiga']})

df


Unnamed: 0,Nama,Umur,Gaji,Kota
0,Andi,24,12,Jakarta
1,Budi,30,15,Surabaya
2,Caca,22,10,Bandung
3,Dedi,27,14,Salatiga


## Pandas Introduction

**1. Apa itu series dan dataframe pada Pandas**  

**2. Bagaimana cara melakukan indexing dan slicing pada Pandas**  
  
**3. Bagaimana cara memakai dan apa kegunaan loc dan iloc pada pandas**  

# SERIES

### Series adalah suatu objek satu dimensi yang dapat menyimpan salah satu dari berbagai jenis tipe data seperti integer, string, dan lain sebagainya. 
### Tipe data dari objek series ini harus seragam. 
### Memiliki nama/label pada indexnya

In [27]:
series = pd.Series({'Nama':['Andi','Budi','Caca','Dedi'],
    'Umur':[24,30,22,27],
    'Gaji':[12,15,10,14],
    'Kota':['Jakarta','Surabaya','Bandung','Salatiga']})

series


Nama                  [Andi, Budi, Caca, Dedi]
Umur                          [24, 30, 22, 27]
Gaji                          [12, 15, 10, 14]
Kota    [Jakarta, Surabaya, Bandung, Salatiga]
dtype: object

## Create a Series

In [45]:
myList = [10,20,30]
myArr = np.array(myList)
label = 'a b c'.split()
myDict = {'a':10, 'b':20, 'c':30}

In [46]:
label # sebagai nama dari index row

['a', 'b', 'c']

In [47]:
# membuat Series dari list
pd.Series(myList, index=label, name='Dari List')

a    10
b    20
c    30
Name: Dari List, dtype: int64

In [48]:
# membuat Series dari array
pd.Series(myArr, index=label, name='Dari Array')

a    10
b    20
c    30
Name: Dari Array, dtype: int32

In [49]:
# membuat Series dari dictionary
pd.Series(myDict, index=label, name='Dari Dict')

a    10
b    20
c    30
Name: Dari Dict, dtype: int64

In [51]:
seri1 = pd.Series(myList, index=label, name='Dari List')
seri2 = pd.Series(myArr, index='b c d'.split())
print(seri1)
print(seri2)

a    10
b    20
c    30
Name: Dari List, dtype: int64
b    10
c    20
d    30
dtype: int32


In [52]:
seri1 + seri2
# operasi aritmethic pada series akan terjadi hanya pada index row/label yg sama

a     NaN
b    30.0
c    50.0
d     NaN
dtype: float64

# DATAFRAME

### DataFrame adalah suatu objek 2 dimensi tempat menyimpan data dengan lebih terstruktur. 
### Dataframe memiliki 2 index, yaitu index baris (label) dan index columns (feature). 
### Dalam satu column dataframe harus memiliki tipe data yang sama, tapi antar columnnya dataframe bisa memiliki jenis data yang berbeda. 
### Tiap kolom berisi satu jenis variable, dan tiap baris berisi satu observasi

In [30]:
df = pd.DataFrame({'Nama':['Andi','Budi','Caca','Dedi'],
    'Umur':[24,30,22,27],
    'Gaji':[12,15,10,14],
    'Kota':['Jakarta','Surabaya','Bandung','Salatiga']})

df


Unnamed: 0,Nama,Umur,Gaji,Kota
0,Andi,24,12,Jakarta
1,Budi,30,15,Surabaya
2,Caca,22,10,Bandung
3,Dedi,27,14,Salatiga


In [31]:
pd.Series(df.Nama)

0    Andi
1    Budi
2    Caca
3    Dedi
Name: Nama, dtype: object

## Create a DataFrame

In [55]:
mat = np.random.randint(1,16,9).reshape(3,3)
list1 = [1,2,3]
list2 = [4,5,6]
list3 = [7,8,9]

In [56]:
mat

array([[ 1, 11,  4],
       [ 2, 11,  8],
       [14,  6,  5]])

In [58]:
#  dari matrix
pd.DataFrame(mat, columns='a b c'.split(), index='x y z'.split())

Unnamed: 0,a,b,c
x,1,11,4
y,2,11,8
z,14,6,5


In [59]:
# dari kumpulan list
pd.DataFrame([list1,list2,list3], columns='kolom1 kolom2 kolom3'.split(), index='index1 index2 index3'.split())

Unnamed: 0,kolom1,kolom2,kolom3
index1,1,2,3
index2,4,5,6
index3,7,8,9


# Slicing & Indexing

In [32]:
# indexing dgn dataframe.column atau index atribut
df.Kota

0     Jakarta
1    Surabaya
2     Bandung
3    Salatiga
Name: Kota, dtype: object

In [33]:
# indexing dgn dataframe['Column'] atau index operator
df['Kota']

0     Jakarta
1    Surabaya
2     Bandung
3    Salatiga
Name: Kota, dtype: object

In [34]:
# slicing row
df[0:2]

Unnamed: 0,Nama,Umur,Gaji,Kota
0,Andi,24,12,Jakarta
1,Budi,30,15,Surabaya


In [35]:
# slicing untuk membalik urutan row
df[::-1]

Unnamed: 0,Nama,Umur,Gaji,Kota
3,Dedi,27,14,Salatiga
2,Caca,22,10,Bandung
1,Budi,30,15,Surabaya
0,Andi,24,12,Jakarta


# Slicing & Indexing dgn loc

In [36]:
df.loc[0:3, 'Umur'] 
# slicing dari baris 0 sampai 3
# pada kolom 'Umur'

0    24
1    30
2    22
3    27
Name: Umur, dtype: int64

In [37]:
df.loc[0:3, ['Nama','Gaji']] 
# indexing kolom >1 menggunakan []


Unnamed: 0,Nama,Gaji
0,Andi,12
1,Budi,15
2,Caca,10
3,Dedi,14


# Slicing & Indexing dgn iloc

In [38]:
df.iloc[0:3, 1]
# slicing dari baris 0 sampai sebelum 3
# pada kolom index ke 1 (yaitu 'Umur')

0    24
1    30
2    22
Name: Umur, dtype: int64

In [39]:
df.iloc[0:3, [1,3]]
# 0:3 adalah baris 0 sampai 2
# [1,3] adalah column index 1 dan 3 (yaitu Umur dan Kota)
# indexing kolom >1 menggunakan []

Unnamed: 0,Umur,Kota
0,24,Jakarta
1,30,Surabaya
2,22,Bandung
