# Pandas Tutorial

In [1]:
import pandas as pd

| Time - Topic | Video Overview |
| :--- | :--- |
| 3:58 - Intro to Dataframes | Creating DataFrames, Index/Columns, Basic Functionality |
| 8:25 - Loading in DataFrames from Files | (CSV, Excel, Parquet, etc.) |
| 13:42 - Accessing Data | .head() .tail() .sample() |
| 15:28 - Accessing Data | .loc() .iloc() |
| 19:20 - Setting DataFrame Values | loc() & iloc() |
| 20:20 - Accessing Single Values | .at() .iat() |
| 21:11 - Accessing Data | Grab Columns, Sort Values, Ascending/Descending |
| 23:01 - Iterating over a DataFrame (df) with a For Loop | df.iterrows() |
| 24:12 - Filtering Data | Syntax Options, Numeric Values, Multiple Conditions |
| 27:58 - Filtering Data | String Operations, Regular Expressions (Regex) |
| 33:09 - Filtering Data | Query Functions |
| 34:20 - Adding / Removing Columns | Basics, Conditional Values, Math Operations, Renaming Columns |
| 41:40 - Adding / Removing Columns | String Operations, Datetime (pd.to_datetime) Operations |
| 46:38 - Saving our Updated DataFrame | (df.to_csv, df.to_excel, df.to_parquet, etc) |
| 47:14 - Adding / Removing Columns | Using Lambda & Custom Functions w/ .apply() |
| 50:42 - Merging & Concatenating Data | pd.merge(), pd.concat(), types of joins |
| 58:33 - Handling Null Values (NaNs) | .fillna() .interpolate() .dropna() .isna() .notna() |
| 1:04:05 - Aggregating Data | value_counts() |
| 1:05:47 - Aggregating Data | Using Groupby - groupby() .sum() .mean() .agg() |
| 1:08:24 - Aggregating Data | Pivot Tables |
| 1:10:28 - Groupby combined with Datetime Operations | *-* |
| 1:14:38 - Advanced Functionality | .shift() .rank() .cumsum() .rolling() |
| 1:22:10 - New Functionality | Pandas 1.0 vs Pandas 2.0 - pyarrow |
| 1:25:29 - New Functionality | GitHub Copilot & OpenAI ChatGPT |
| 1:32:05 - What Next?? | Continuing your Python Pandas Learningâ€¦ |

## Intro to Dataframes

ok, mari belajar mengenai Data Frame terlebih dahulu. Data Frame merupakan struktur utama dalam *library Python Pandas*. Dan kita bisa mengganggap *Data Frame* sebagai `Table` dengan tambahan toping dan fungsi. Jadi membebaskan kita bekerja dengan *spreadsheet* (excel) dan tipe lainya dengan mudah di Python.  

### Creating DataFrame


Ok, jadi seperti apa bentuk Data Frame? Well, kita bisa buat data kita sendiri dengan sangat mudah dengan cara seperti :

```python
df = pd.DataFrame(...data..)
```

In [2]:
# kita beri data bentuk 2D Array

df = pd.DataFrame([[1,2,3], [4,5,6], [7,8,9]])

Ok, yang bisa kita lihat dari DataFrame diatas dan mulai melihat komponen yang membuat DataFrame itu sendiri.

In [3]:
# melihat 5 data teratas
df.head()

Unnamed: 0,0,1,2
0,1,2,3
1,4,5,6
2,7,8,9


karena data sederhana yang kita buat hanya terdiri dari 3 baris, maka hanya akan menampilkan 3 baris

#### , columns = [ ... ]

Kita juga bisa menambahkan nama kolom pada DataFrame yang kita buat dengan menambahkan 

```python
, columns = ["A", "B", "C"]
```

jangan lupa tambahkan koma `,` sebelum menambah syntax `columns`

In [4]:
# menambahkan nama kolom

df = pd.DataFrame([[1,2,3], [4,5,6], [7,8,9]], columns = ['A', 'B', 'C'])

In [5]:
# kita cek lagi 5 data teratas menggunakan .head()
df.head()

Unnamed: 0,A,B,C
0,1,2,3
1,4,5,6
2,7,8,9


### Basic Function

#### .head()

Diatas kita tahu fungsi `.head()` untuk melihat 5 data teratas. Namun, kita juga bisa mengotak-atik `.head()` dengan memasukan angka bebas

In [6]:
# melihat 1 baris teratas
df.head(1) # ganti angka 1 dengan angka bebas

Unnamed: 0,A,B,C
0,1,2,3


In [7]:
# melihat 2 baris teratas
df.head(2)

Unnamed: 0,A,B,C
0,1,2,3
1,4,5,6


In [8]:
# melihat 1 baris teratas
df.head(3)

Unnamed: 0,A,B,C
0,1,2,3
1,4,5,6
2,7,8,9


#### .tail()

Jika `.head()` digunakan untuk melihat 5 data teratas, maka `.tail()` digunakan untuk melihat 5 data terakhir.

In [9]:
df.tail()

Unnamed: 0,A,B,C
0,1,2,3
1,4,5,6
2,7,8,9


In [10]:
# 1 baris paling bawah atau -1
df.tail(1)

Unnamed: 0,A,B,C
2,7,8,9


In [11]:
# 2 baris paling bawah atau -1
df.tail(1)

Unnamed: 0,A,B,C
2,7,8,9


### Usefull Function

#### .columns()

`.columns` untuk melihat *header* atau `nama kolom` yang ada dalam suatu DataFrame. 

In [12]:
df.columns

Index(['A', 'B', 'C'], dtype='object')

#### .info

**`.info`** sangat berguna jika kita ingin melihat informasi lengkap dari `DataFrame` yang kita miliki

In [13]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype
---  ------  --------------  -----
 0   A       3 non-null      int64
 1   B       3 non-null      int64
 2   C       3 non-null      int64
dtypes: int64(3)
memory usage: 204.0 bytes


Kalau kita lihat sekilas **`df.info`** diatas, kita memiliki **`3 baris`** dan **`3 kolom`**. Serta ketiganya memiliki tipe data **integer 64bit** dimana :

int64 = 64 Bits = 8 Byte.

Lalu informasi lainnya adalah ukuran DataFrame kita 96.0 bytes

#### .describe()

In [14]:
df.describe()

Unnamed: 0,A,B,C
count,3.0,3.0,3.0
mean,4.0,5.0,6.0
std,3.0,3.0,3.0
min,1.0,2.0,3.0
25%,2.5,3.5,4.5
50%,4.0,5.0,6.0
75%,5.5,6.5,7.5
max,7.0,8.0,9.0


**`.describe()`** juga memberikan informasi yang berarti mengenai data kita. seperti rata-rata (`mean`), standar deviasi (`std`), nilai terkecil (`min`) dan lainnya. 

#### .nunique()

Digunakan untuk melihat data yang unik dalam satu DataFrame yang kita miliki

In [15]:
df

Unnamed: 0,A,B,C
0,1,2,3
1,4,5,6
2,7,8,9


In [16]:
df.nunique()

A    3
B    3
C    3
dtype: int64

^ maksudnya ada 3 data unik di kolom A, B, dan C

In [17]:
df["A"].nunique

<bound method IndexOpsMixin.nunique of 0    1
1    4
2    7
Name: A, dtype: int64>

^ di kolom `A` ada 1, 4, dan 7 yang sifatnya unik.

#### .shape

Function yang berguna selanjutnya adalah **`.shape`**. Berguna untuk melihat berapa jumlah kolom dan baris yang kita miliki

In [18]:
df.shape

(3, 3)

Maksudnya memiliki 3 baris dan 3 kolom. Kita buat data baru deh biar bisa lihat dengan jelas

In [19]:
# menambah data baru untuk cek .shape
df = pd.DataFrame([[1,2,3], [4,5,6], [7,8,9], [10,11,12] ], columns = ['A', 'B', 'C'])

In [20]:
df

Unnamed: 0,A,B,C
0,1,2,3
1,4,5,6
2,7,8,9
3,10,11,12


In [21]:
df.shape

(4, 3)

yang berarti data diatas memiliki 4 baris dan 3 kolom

---

### Index / Columns

lalu jika kita ingin melihat kembali DataFrame buatan kita tadi, 

In [22]:
df

Unnamed: 0,A,B,C
0,1,2,3
1,4,5,6
2,7,8,9
3,10,11,12


Angka `0`, `1`, dan `2` merupakan **`index`** atau nomor baris dalam suatu *DataFrame*. Kita bia cek dengan cara seperti ini :

#### .index

In [23]:
df.index

RangeIndex(start=0, stop=4, step=1)

#### .index.tolist()

Dan kita juga bisa melihatnya dalam bentuk *list*.

In [24]:
df.index.tolist()

[0, 1, 2, 3]

#### , index = [ ... ]

Secara *default*, `index` mengurutkan data dengan angka dimulai dari 0, 1, 2 dan seterusnya sampai baris terakhir. Namun kita bisa menggantinya dengan selain angka seperti ini :  

In [25]:
# kita modif data df diatas
# mengganti index menjadi huruf

df = pd.DataFrame([[1,2,3], [4,5,6], [7,8,9]] , columns = ['A', 'B', 'C'] , index=["A", "B", "C"])

In [26]:
df

Unnamed: 0,A,B,C
A,1,2,3
B,4,5,6
C,7,8,9


In [27]:
# kita modif data df diatas
# mengganti index menjadi huruf

df = pd.DataFrame([[1,2,3], [4,5,6], [7,8,9]] , columns = ['A', 'B', 'C'] , index=["x", "y", "z"])

In [28]:
df

Unnamed: 0,A,B,C
x,1,2,3
y,4,5,6
z,7,8,9


coba kita cek lagi 

In [29]:
df.index

Index(['x', 'y', 'z'], dtype='object')