Pandas: Series and DataFrame

In [1]:
import numpy as np
import pandas as pd

In [None]:
# Di Pandas ada 2 jenis data: Series atau DataFrame
# Series itu sama seperti array 1 dimensi
# DataFrame itu sama seperti array 2 dimensi

In [None]:
# Cara membuat pandas series
# Di Pandas itu berbentuk kolumnar, jadi hasil printnya itu berbentuk kolom

labels = ['a', 'b', 'c']
my_list = [10,20,30]
arr = np.array([50,60,80])
d = {'a':10, 'b':20, 'c': 30}


pd.Series(data=arr)

In [None]:
# Di Pandas, Indexnya bisa diganti menggunakan labels
# Tapi panjang labels harus sama dengan panjang values yang ada di seriesnya

pd.Series(data=my_list, index=labels) 

In [None]:
# Cara membuat pandas series menggunakan numpy array

pd.Series(data=arr, index=labels)

In [None]:
# Cara membuat pandas series menggunakan dictionary
# Key yang ada di dictionary akan menjadi index

pd.Series(data=d)

In [None]:
# Cara membuat pandas series menggunakan dictionary
# Kalau seperti contoh di bawah, ini valuenya tidak akan terbaca karena keynya tidak sama dengan yang ada di dictionary

pd.Series(data=d, index='0 1 2'.split)

In [None]:
# Cara membuat pandas DataFrame menggunakan list 1 dimensi
# Banyaknya kolom = length dari list
# Banyaknya baris = jumlah data lisnya

a = [i for i in range(1,5)]
b = [i for i in range(5,9)]
c = [i for i in range(9,13)]

pd.DataFrame(
    data=[a,b,c],
    index='a b c'.split(),
    columns='w x y z'.split()
)

In [None]:
# Cara membuat pandas DataFrame menggunakan list 2 dimensi

my_list = [
    [1,2,3,4],
    [5,6,7,8],
    [9,10,11,12]
]

pd.DataFrame(
    data=my_list,
    columns='w x y z'.split(),
    index='a b c'.split()
)

In [None]:
# Cara melakukan transformasi -> dari kolom jadi baris

pd.DataFrame(
    data=my_list,
    columns='w x y z'.split(),
    index='a b c'.split()
).T

In [2]:
# Cara membuat DataFrame menggunakan array

np.random.seed(101)

df = pd.DataFrame(np.random.randn(5,4), index = 'A B C D E'.split(), columns='W X Y Z'.split())

print(df)

          W         X         Y         Z
A  2.706850  0.628133  0.907969  0.503826
B  0.651118 -0.319318 -0.848077  0.605965
C -2.018168  0.740122  0.528813 -0.589001
D  0.188695 -0.758872 -0.933237  0.955057
E  0.190794  1.978757  2.605967  0.683509


In [None]:
# Cara membuat DataFrame menggunakan dictionary
# Keynya menjadi kolom, oleh karena itu harus ditambahkan index
# Indexnya harus sama panjangnya dengan panjang listnya

my_d = {
        'a': [1,2,3,4],
        'b': [5,6,7,8],
        'c': [9,10,11,12]
    }

pd.DataFrame(
    data=my_d,
    index='w x y z'.split()
)

Pandas: Indexing and Selecting Data

In [None]:
# Belajar Pandas (Selecting Data and Indexing)
# Cara mengambil 1 Kolom: W

df['W']

In [None]:
# Cara mengambil 1 kolom dan 1 baris
# Kolom W dan baris pertamanya
# ['W'] -> untuk kolom, [0] -> untuk baris
# Formatnya Kolom dan Baris dulu

df['W'][0]

In [None]:
# Mengambil 1 kolom dan beberapa baris dengan slicing
# Mengambil Kolom W dan dari Baris B sampai E

df['W']['B':'E']
df['W'][0:2]

In [None]:
# Cara menambahkan kolom

df['min'] = [1,2,3,4,5]
print(df)

In [None]:
# Cara mengakses Kolom tapi tidak direkomendasi walaupun bisa
# Karena code kayak gini sama kayak manggil fungsi
# Kalau nama kolom = sama fungsi yang ada di python, nanti pythonnya bingun

df.min

In [None]:
# Cara mengambil multiple kolom, karena bentuknya DataFrame kurung sikunya harus ada 2

df[['W','Z']]

In [None]:
# Cara mengambil multiple kolom dan juga multiple baris dari kolom tersebut

df[['W','Z']][0:2]

In [None]:
# Cara mengambil data lebih dari 1 kolom (alternatively)
# Ini menggunakan fancy index
# Hanya ngambil kolom X dan Z saja

df.loc[:, ['W','Z']]

In [None]:
# Cara mengambil data berdasarkan Index atau Baris

df.loc['A']

In [None]:
# Cara mengambil multiple data berdasarkan Index atau Baris menggunakan loc()
# Semua kolomnya ikutan ke ambil
# Kalau loc() berdasarkan nama indexnya

df.loc['A':'D']

In [None]:
# Cara mengambil multiple data berdasarkan Index atau Baris menggunakan iloc()
# Semua kolomnya ikutan ke ambil
# Kalau iloc() berdasarkan nomor indexnya (index dimulai dari 0)

# df.iloc[0:4:2]

df.loc['A', 'W'] = 5

df

In [None]:
# Cara mengambil data lebih dari 1 kolom menggunakan iloc()
# Ini menggunakan fancy index
# Hanya ngambil kolom X dan Z saja tapi menggunakan index dari kolom tersebut

df.iloc[:, [0,3]]

In [3]:
# Conditional Selection (tanpa mengambil datanya)
# Hasilnya adalah True atau False

df > 5

Unnamed: 0,W,X,Y,Z
A,False,False,False,False
B,False,False,False,False
C,False,False,False,False
D,False,False,False,False
E,False,False,False,False


In [4]:
# Conditional Selection (mengambil datanya)
# Returnnya value yang lebih besar dari 5
# Value yang tidak memenuhi diganti dengan NaN

df[df>0.5]

Unnamed: 0,W,X,Y,Z
A,2.70685,0.628133,0.907969,0.503826
B,0.651118,,,0.605965
C,,0.740122,0.528813,
D,,,,0.955057
E,,1.978757,2.605967,0.683509


In [None]:
# Conditional Selection (mengambil datanya) dengan multiple condition

# AND
df[(df > 0.5) & (df < 2)]

In [None]:
# Conditional Selection (mengambil datanya) dengan multiple condition

# OR
df[(df > 0.5) | (df < 2)]

In [None]:
# Conditional Selection (mengambil datanya) dengan spesifik kolom 

df[(df > 0.5) & (df < 2)]['Z']

In [None]:
# Conditional Selection dengan multiple kolom
# df[df['W']>0.7] -> mengembalikan True or False, karena hasilnya adalah True
# Kolom X ikut ke print walaupun valuenya < 0.7

print(df[df['W']>0.7])

df[df['W']>0.7][['Y','X']]

In [None]:
# Conditional Selection dengan multiple kolom 
# Returnnya baris yang memenuhi kondisi

df[(df['W'] > 0) & (df['Y'] > 1)]

In [None]:
# Cara membaca dari file.csv 

df = pd.read_csv(
    filepath_or_buffer='Transjakarta.csv'
)

print(df)

In [None]:
# Mengetahui jumlah data

jumlah_data = len(df)
print(jumlah_data)

In [None]:
# Hanya mengambil 5 data teratas by default

df.head()

In [None]:
# Hanya mengambil 2 data teratas

df.head(2)

In [None]:
# Hanya mengambil 2 data terakhir (by default)
# Tapi bisa diubah berapa total data yang ingin diambil

df.tail(2)

In [None]:
# print out unique values

df['corridorID'].unique()

In [None]:
# Exercise dengan soal Transjakarta.csv

# 1. Sebutkan jumlah corridorName unique
# 2. Hitung jumlah pengguna flazz
# 3. Hitung proporsi penumpang laki-laki (payCardSex = M) dibandingkan dengan seluruh penumpang
# 4. Berapa jumlah penumpang yang Umurnya diantara 17-23?

In [None]:
# 1. Sebutkan jumlah corridorName unique = 217

print(len(df['corridorName'].unique()))

In [None]:
# 2. Hitung jumlah pengguna flazz = 3234

len(df[df['payCardBank'] == 'flazz'])

In [None]:
# 3. Hitung proporsi penumpang laki-laki (payCardSex = M) dibandingkan dengan seluruh penumpang = 0.47 / 47%

result = len(df[df['payCardSex'] == 'M']) / len(df['payCardSex'])
print(result)

In [None]:
# 4. Berapa jumlah penumpang yang Umurnya diantara 17-23? = 5567

result1 = len(df[(df['payCardBirthDate'] <= 2007) & (df['payCardBirthDate'] >= 2001)])

print(result1)

Pandas: DataFrame Manipulation

In [None]:
# Membuat DataFrame dengan random value

np.random.seed(101)

df = pd.DataFrame(np.random.randn(5,4), index = 'A B C D E'.split(), columns='W X Y Z'.split())

print(df)

In [None]:
# Cara menambahkan kolom baru

df['new'] = [1,2,3,4,5]
print(df)

In [None]:
# Cara menambahkan kolom baru dengan Pandas menggunakan loc()

df.loc[:, 'kolombaru'] = [1,2,3,4,5] # Karena Pandas ini kolumnar makanya tipe datanya integer
print(df)

In [None]:
# Cara menambahkan baris baru

df.loc['new'] = [1,2,3,4,5]
print(df)

In [None]:
# Nambah tipe kolom float dan Integer

df.loc[:,'hasilPenjumlahan'] = df['W'] + df['kolombaru'] # kalau tipe Float + tipe Integer hasilnya Float
print(df)

In [None]:
# Nambah data baru pake method insert()

df.insert(loc=2, column='new', value=[100,200,300,400,500])
print(df)

In [None]:
# Cara menghapus kolom (tidak permanent) karena axis=1
# Menghapusnya harus 1 kolom

df.drop(labels='new', axis=1)

In [None]:
# Cara menghapus kolom (permanent ke delete) axis=1

df.drop(labels='new', axis=1, inplace=True)
print(df)

In [None]:
# Cara menghapus multiple kolom

df.drop(['new','Z'], axis=1)

In [None]:
# Cara menghapus baris dengan axis = 0
df.drop(labels='E', axis=0)

In [None]:
# Cara me-reset index kembali ke angka lagi eg.0,1,2,3 (tidak permanent)
# Returnnya adalah Pandas DataFrame

df.reset_index()

In [None]:
# Cara me-reset index kembali ke angka lagi eg.0,1,2,3 dan menghapus kolom index (permanent)
# Returnnya adalah Pandas DataFrame

df.reset_index(inplace=True, drop=True)
print(df)

In [None]:
# Cara set index menggunakan variable sendiri

df.set_index('new', inplace=True)
print(df)

In [None]:
# Belajar Multi-Index

outside = ['Jakarta', 'Jakarta', 'Jakarta', 'Surabaya', 'Surabaya', 'Surabaya']
inside = [1,2,3,1,2,3]
hier_index = list(zip(outside, inside))
print(hier_index)

In [None]:
hier_index = pd.MultiIndex.from_tuples(hier_index)
hier_index

In [None]:
# Membuat DataFrame dengan Multi-Index

df = pd.DataFrame (
    np.random.randint(1,100,(6,2)),
    index=hier_index,
    columns=['Restaurant A', 'Restaurant B']
)

df

In [None]:
# Cara mengambil 1 lapisan baris di multi-index

df.loc['Jakarta']

In [None]:
# Cara mengambil 2 lapisan baris di multi-index

df.loc['Jakarta'].loc[1]

In [None]:
# Cara mengambil kolom di multi-index

df['Restaurant A']

In [None]:
# Cara mengambil 2 lapisan baris di multi-index yang lebih simple
# ['Jakarta',1] -> 'Jakarta' = lapisan pertama, 1 = lapisan kedua

df.xs(['Jakarta', 1])

In [None]:
# Cara set nama multi-index

df.index.names=['City', 'Location']

df


In [None]:
# Cara mengambil data berdasarkan nama yang diberikan di multi-index

df.xs(1, level='Location')

In [None]:
# Cara mengambil data di Multi-Index

df.xs('Jakarta', level='city')

In [None]:
# Cara sorting dengan columns defaultnya ASC

df.sort_values(by = 'Restaurant A')

In [None]:
# Cara sorting dengan columns by DESC

df.sort_values(by = 'Restaurant B', ascending=False)

In [None]:
# Cara sorting by index

df.sort_index()

In [None]:
# Cara sorting dengan multiple kolom
# Sortingnya berdasarkan Restaurant A terlebih dahulu, baru Restaurant B
df.sort_values(by = ['Restaurant A', 'Restaurant B'])

Pandas Functionality

In [None]:
# Create dataframe belajar Functionality
data = {'Company': ['GOOG', 'GOOG', 'MSFT', 'MSFT', 'FB', 'FB'],
        'Person': ['Sam', 'Charlie', 'Amy', 'Vanessa', 'Carl', 'Sarah'],
        'Sales': [200, 120, 340, 124, 243, 350]}

df = pd.DataFrame(data)

print(df)

In [None]:
# Group by dengan ada kondisi (Simpen aja kodenya)

df.groupby(by=['Company', pd.cut(df['Sales'], bins=2)]).size().unstack()

In [None]:
# Belajar Pandas Functionality

import mysql.connector
import pandas as pd

mydb = mysql.connector.connect(
    host = 'localhost',
    user = 'root',
    passwd = 'Alhamfbn25',
)


In [None]:
df_orderdetails = pd.read_sql(
    sql = 
    '''
        select * 
        from classicmodels.orderdetails;
    ''',
    con = mydb
)

print(df_orderdetails)

In [None]:
# Untuk melihat seluruh kolom, value count yang tidak kosong disetiap kolom dan tipe data dari setiap kolom

df_orderdetails.info()

In [None]:
# Untuk mengetahui jumlah baris dan kolom

df_orderdetails.shape

In [None]:
# Untuk mengetahui semua kolom yang ada

df_orderdetails.columns

In [None]:
# Untuk mengetahui tipe data tiap kolom

df_orderdetails.dtypes

In [None]:
# Untuk mengetahui statistik dari table (untuk kolom yang berisi tipe data numerik)

df_orderdetails.describe()

In [None]:
# Untuk mengetahui statistik dari table (untuk kolom yang isinya string/object)

df_orderdetails.describe(include=object)

In [None]:
# Untuk mengetahui rata-rata perkolom

df_orderdetails['orderNumber'].mean()

# Untuk mengetahui nilai tengah perkolom

df_orderdetails['orderNumber'].median()

# Untuk mengetahui standard deviasi perkolom

df_orderdetails['orderNumber'].std()

# Untuk mengetahui nilai minimum dari sebuah kolom

df_orderdetails['orderNumber'].min()

# Untuk mengetahui nilai maximum dari sebuah kolom

df_orderdetails['orderNumber'].max()

In [None]:
# Untuk mengetahui apa saja unique value di sebuah kolom

df_orderdetails['orderNumber'].unique()

In [None]:
# Untuk menghitung jumlah value unique di sebuah kolom

df_orderdetails['orderNumber'].nunique()

In [None]:
# Untuk mengetahui jumlah frekuensi dari value2 yang ada di sebuah kolom

df_orderdetails['orderNumber'].value_counts()

In [None]:
# Cara mendeteksi missing value menggunakan pandas

df = pd.DataFrame(
    {
        'A':[np.nan,np.nan,np.nan],
        'B':[5, np.nan, np.nan],
        'C':[1,2,3]
    }
)

df

In [None]:
# Cara mengecek apakah ada missing value di sebuah table

df.isna()

In [None]:
# Cara menghapus data yang kosong berdasarkan baris
# Yang dihapus adalah per-baris
# Tidak dianjurkan delete data yang kosong jika: yang kosong terlalu banyak atau ketika dihapus datanya tinggal sedikit
# Seperti di contoh, dari 3 baris menjadi hanya 1 baris

df.dropna()

In [None]:
# Cara menghapus data yang kosong berdasarkan kolom
# Yang dihapus adalah per-kolom

df.dropna(axis=1)

In [None]:
# Cara menghapus data yang kosong berdasarkan baris
# Yang dihapus adalah per-baris kalau ada 2 data yang kosong

df.dropna(thresh=2)

In [None]:
# Cara menghapus data yang kosong berdasarkan kolom
# Yang dihapus adalah per-kolom kalau ada 2 atau lebih data yang kosong

df.dropna(thresh=2, axis=1)

In [None]:
# Cara mengisi data yang kosong

df['A'].fillna(value=df['B'].max(), inplace=True)
df

In [None]:
data = {'Company': ['GOOG', 'GOOG', 'MSFT', 'MSFT', 'FB', 'FB'],
        'Person': ['Sam', 'Charlie', 'Amy', 'Vanessa', 'Carl', 'Sarah'],
        'Sales': [200, 120, 340, 124, 243, 350]}

df = pd.DataFrame(data)

print(df)

In [None]:
# Cara agregasi data atau mengelompokan data dan menghitung rata-ratanya dan standard deviasi

group_by_company = df.groupby('Company')['Sales']

group_by_company.mean()

group_by_company.std()


In [None]:
# Cara agregasi data atau mengelompokan data dan menghitung min, max, count

group_by_company = df.groupby('Company')

group_by_company.min()

group_by_company.max()

# Menghitung data yang tidak NaN saja
group_by_company.count()

In [None]:
# Cara melihat summary statistik dari table

group_by_company.describe()

In [None]:
# Cara melihat summary statistik dari table dan spesifik per kolom

group_by_company.describe().transpose()['GOOG']

Pandas: Merging, Joining and Concatenating

In [None]:
df_products = pd.read_sql(
    sql = 
    '''
        select * 
        from classicmodels.products;
    ''',
    con = mydb
)

print(df_products.head(3))

In [None]:
df_products_orderdetails = pd.read_sql(
    sql=
    '''
        select cp.productName, cp.productVendor, co.quantityOrdered
        from classicmodels.orderdetails as co
        left join classicmodels.products as cp
        on co.productCode = cp.productCode
    ''',
    con = mydb
)

print(df_products_orderdetails)

In [None]:
# Menggunakan merge untuk join 2 table, by default joinnya Inner

df_hasil_merge = pd.merge(
    left= df_orderdetails,
    right= df_products,
    on= 'productCode'
)

print(df_hasil_merge)

In [None]:
# Menggunakan merge untuk join 2 table dengan outer join

df_hasil_merge = pd.merge(
    left= df_orderdetails,
    right= df_products,
    how= 'outer',
    on= 'productCode'
)

print(df_hasil_merge)

In [None]:
# Menggunakan merge untuk join 2 table dengan left join

df_hasil_merge = pd.merge(
    left= df_orderdetails,
    right= df_products,
    how= 'left',
    on= 'productCode'
)

print(df_hasil_merge)

In [None]:
# Menggunakan merge untuk join 2 table dengan right join

df_hasil_merge = pd.merge(
    left= df_orderdetails,
    right= df_products,
    how= 'right',
    on= 'productCode'
)

print(df_hasil_merge)

In [None]:
# Cara CONCATENATING di pandas, by default akan di concate by baris

df_hasil_concate = pd.concat([
    df_orderdetails, df_products
])

print(df_hasil_concate.head(3))

In [None]:
# Cara CONCATENATING berdasarkan kolom di pandas 

df_hasil_concate_by_kolom = pd.concat([
    df_orderdetails, df_products
], axis=1)

print(df_hasil_concate_by_kolom.head(3))

Pandas: Operations

In [None]:
df = pd.DataFrame(
    {
        'col1':[1,2,3,4], 'col2':[444,555,666,444], 'col3':['abc','def','ghi','xyz']
    }
)

df.head()

In [None]:
# Mengapplikasikan Fungsi untuk setiap value di sebuah kolom

def times2(number):
    return number * 2

df['col1'].apply(times2)

In [None]:
# Mengapplikasikan Fungsi untuk setiap value di sebuah baris

def times2(number):
    return number * 2

df.loc[0].apply(times2)

In [None]:
# Mengetahui panjang setiap elemen dengan fungsi

df['col3'].apply(len)

In [None]:
# Membandingkan kecepatan performance python for loop vs apply
# Jauh lebih cepet pandas.apply

df_copy = df.copy()

for i in range(0, len(df_copy)):
    df_copy.loc[i, 'umurUser'] = 2024 - df_copy.loc[i, 'payCardBirthDate']

print(df_copy)

In [None]:
# Pandas Apply + lambda function
# Fungsi Apply kurang disarankan untuk data numerik
# Disarankan untuk data string/object

df_copy['umurUser'] = df_copy['payCardBirthDate'].apply(lambda x: 2024 - x)

print(df_copy)

In [None]:
# Menggunakan Pandas Apply + Lambda function

df['col3'].apply(lambda x: x[1])

In [None]:
# Menggunakan operasi matematika

# operasi +
df['col4'] = df['col1'] + df['col2']

# operasi -
df['col5'] = df['col1'] - df['col2']

# operasi *
df['col6'] = df['col1'] * df['col2']

# operasi /
df['col6'] = df['col1'] / df['col2']

df

In [None]:
# Belajar Pivot Table

df = pd.DataFrame({
    'A':['foo','foo','foo','foo','bar','bar','bar'],
    'B':['one','one','one','two','two','one','one'],
    'C':['x','y','x','x','y','x','y'],
    'D':[1,1,20,2,5,4,1]
})

df

In [None]:
# Cara membuat pivot table

df.pivot_table(
    values='D',
    index=['A', 'B'],
    columns='C'
)

In [None]:
# Cara membuat pivot table dan mengisi data yang kosong

df.pivot_table(
    values='D',
    index=['A', 'B'],
    columns='C',
    fill_value=0
)

In [None]:
df.pivot_table(
    values='D',
    index=['A', 'B'],
    columns='C',
    aggfunc='sum'
)

Pandas: Input and Output

In [None]:
# Belajar Input dan Output di Pandas
# Input dari CSV

df.to_csv(
    path_or_buf='contoh_output_pandas/contoh_output_csv.csv'
)

In [None]:
# Cara baca excel menggunakan pandas

df = pd.read_excel(
    io='contoh excel.xlsx'
)

df.head()

In [None]:
df['PTOTAL'] = df['P1'].astype(int) + df['P2'].astype(int)

In [None]:
# Cara export data excel ke sebuah folder

df.to_excel(
    excel_writer='contoh_output_pandas/contoh_output_excel.xlsx',
    engine='openpyxl'
)

Pandas: Introduction to Regular Expression