# **Installing and Running** Pandas

In [1]:
import pandas as pd

In [23]:
pd.__version__

'1.5.3'

# **Series**

Series di Pandas **sama dengan** 1D Array di NumPy  
kita bisa membuat list lalu disimpan dalam Series Pandas

In [24]:
products = ['A', 'B', 'C', 'D']
products

['A', 'B', 'C', 'D']

In [25]:
type(products)

list

Yang membedakan Pandas dengan NumPy adalah  
saat kita membuat series atau dataframe dengan Pandas, otomatis akan dibuat satu kolom **indexing** yang ada di paling kiri  
Untuk data yang bukan numeric, dtype dari Pandas secara otomatis adalah **object**

In [26]:
product_categories = pd.Series(products)
product_categories

0    A
1    B
2    C
3    D
dtype: object

In [27]:
type(product_categories)

pandas.core.series.Series

**Pandas bisa menyimpan segala tipe data**, sedangkan NumPy hanya bisa menyimpang numeric  
Jika NumPy mendeteksi data selain numeric, akan terdeteksi sebagai NaN

In [28]:
numerics_data = pd.Series([40, 45, 50, 60])
numerics_data

0    40
1    45
2    50
3    60
dtype: int64

## Perbedaan Pandas dengan NumPy

In [29]:
import numpy as np

**NumPy** akan mendistribusikan data 1D secara **horizontal**. Dan saat diprint ada "array" di depan listnya

In [30]:
array_a = np.array([10, 20, 30, 40, 50])
array_a

array([10, 20, 30, 40, 50])

In [31]:
type(array_a)

numpy.ndarray

**Pandas** akan mendistribusikan seriesnya secara **vertikal**. Dan saat diprint ada "indexing" di kolom pertamanya

In [32]:
series_a = pd.Series(array_a)
series_a

0    10
1    20
2    30
3    40
4    50
dtype: int32

In [33]:
type(series_a)

pandas.core.series.Series

## Kesimpulan

1. Pandas lebih powerful dari NumPy, namun lebih lambat  
2. Pandas bisa menyimpan berbagai jenis data, namun dalam **satu kolom harus terdiri dari satu tipe data yang sama**

# **Attributes** in Pandas

In [34]:
series_a = pd.Series([10, 20, 30, 40, 50])
series_a

0    10
1    20
2    30
3    40
4    50
dtype: int64

### .dtype

In [35]:
series_a.dtype

dtype('int64')

### .size

In [36]:
series_a.size

5

### .name

Yang unik di Pandas, kita bisa memberi **nama pada column data** yang berbeda dengan nama objectnya  
Ini akan mempermudah analisa dan membaca data hasil analisis  

In [37]:
series_a.name = "Product Categories"
series_a

0    10
1    20
2    30
3    40
4    50
Name: Product Categories, dtype: int64

In [38]:
print(series_a.name)

Product Categories


# **Index** in Pandas

Untuk menjelaskannya, pertama kita akan **buat Pandas Series dengan Dictionary**

In [39]:
prices_per_category = {'Product A': 22250, 'Product B' : 16600, 'Product C':15600}
prices_per_category

{'Product A': 22250, 'Product B': 16600, 'Product C': 15600}

In [40]:
type(prices_per_category)

dict

Perhatikan bahwa indexing *Prices per Category* bukan menggunakan angka, namun ***key* dari dictionary-nya**

In [41]:
prices_per_category = pd.Series(prices_per_category)
prices_per_category

Product A    22250
Product B    16600
Product C    15600
dtype: int64

In [42]:
prices_per_category.index

Index(['Product A', 'Product B', 'Product C'], dtype='object')

Sehingga, kita bisa menggunakan indexing tersebut untuk mengambil data yang ada di dalamnya

In [43]:
prices_per_category['Product A']

22250

Indexing dengan cara ini disebut sebagai **Label**-Based Indexing atau **Explicit** Indexing

## **Label**-Based vs **Position**-Based Indexing

Jika kita tidak mendefinisikan indexingnya, Pandas akan membuatnya otomatis dengan urutan angka dimulai dari 0  
Indexing ini disebut dengan **Position**-Based Indexing

In [44]:
series_a = pd.Series([10, 20, 30, 40, 50])
series_a

0    10
1    20
2    30
3    40
4    50
dtype: int64

In [45]:
series_a.index

RangeIndex(start=0, stop=5, step=1)

In [46]:
type(series_a.index)

pandas.core.indexes.range.RangeIndex

In [47]:
list(series_a.index)

[0, 1, 2, 3, 4]

Namun, **Label**-Based Indexing **juga bisa diakses dengan Position**-Based Indexing  
kode di bawah ini, hasilnya sama jika di run

In [48]:
# prices_per_category['Product B']
prices_per_category[1]

16600

## **Aturan** Indexing

**Tidak boleh menggunakan Label-Based Indexing dengan integer**, karena akan membingunkan dan menghasilkan error

In [49]:
series_b = pd.Series([10, 20, 30, 40, 50], index = [1, 2, 3, 4, 5])
series_b

1    10
2    20
3    30
4    40
5    50
dtype: int64

In [50]:
series_b[0]
# padahal yang dimaksud adalah value pertama yaitu 10, namun indexingnya sudah dibuat label-based

KeyError: 0

Namun, bisa saja diganti dengan angka yang bertipe integer  
Tetapi hal ini dilarang, karena **Label-Based bertujuan untuk memberikan nama secara konteks** pada suatu baris data dan sangat **berguna untuk keperluan analisis** dan visualisasi

Sedangkan **Position-Based bertujuan untuk mengakses suatu data pada dataset yang sangat besar** seperti "Tunjukkan 100 data pertama" atau "Hapus 10 baris terakhir"

In [None]:
series_c = pd.Series([10, 20, 30, 40, 50], index = ["1", "2", "3", "4", "5"])
series_c

1    10
2    20
3    30
4    40
5    50
dtype: int64

Yang **pertama menggunakan position-based**, sedangkan kode yang **kedua menggunakan label-based**

In [None]:
series_c[1]

20

In [None]:
series_c["1"]

10

# **Methods** in Pandas

Karena Pandas dibuat di atas NumPy, maka **semua methods yang ada di NumPy bisa digunakan di Pandas**  
seperti *min* , *max* , *mean* , *idxmin* , dan *idxmax* 

Sedangkan **Pandas memiliki banyak methods yang bisa digunakan untuk non-numeric data**  
dan methods ini tidak ada di NumPy

In [2]:
start_date_deposits = pd.Series({
    '7/4/2014'   : 2000,
    '1/2/2015'   : 2000,
    '12/8/2012'  : 1000,
    '2/20/2015'  : 2000,
    '10/28/2013' : 2000,
    '4/19/2015'  : 2000,
    '7/4/2016'   : 2000,
    '4/24/2014'  : 2000,
    '9/3/2015'   : 4000,
    '7/25/2016'  : 2000,
    '5/1/2014'   : 2000,
    '3/29/2013'  : 2000,
    '10/3/2014'  : 2000,
    '9/18/2015'  : 2500
})

## **.head** dan **.tail**

Selalu digunakan oleh Data Analis di baris paling atas kodenya  
Gunanya adalah untuk memberikan sekilas informasi isi dari dataset yang kita gunakan

In [3]:
start_date_deposits.head()

7/4/2014      2000
1/2/2015      2000
12/8/2012     1000
2/20/2015     2000
10/28/2013    2000
dtype: int64

**.heads** akan memberikan **5 baris pertama** dari dataset dan **.tails 5 baris terakhir**  
banyaknya baris bisa dimodifikasi dengan memasukkan argumen ke methods tersebut

In [5]:
start_date_deposits.tail(2)

10/3/2014    2000
9/18/2015    2500
dtype: int64

# **Dataframes**