# Pandas

Pandas merupakan suatu library Python yang digunakan untuk memanipulasi, menganalisa, dan mengolah data dalam bentuk tabular (seperti pada dalam Microsoft Excel). Struktur data dalam Panda diimplementasikan dalam bentuk *Series* (bentuk indeks *array* 1 dimensi) dan *Dataframe* (bentuk indeks *array* dua dimensi)

Untuk menginstall library Pandas, bisa menggunakan perintah berikut:



In [1]:
import numpy as np
import pandas as pd

## Series

Contoh penggunaan library Pandas untuk membentuk Series:

In [9]:
# Langsung didefinisikan

revenues = pd.Series([5555, 7000, 1980])
print(revenues)

0    5555
1    7000
2    1980
dtype: int64


In [8]:
# Didefinisikan dengan simple array

data = np.array([5555, 7000, 1980])
revenues = pd.Series(data)
print(revenues)

0    5555
1    7000
2    1980
dtype: int32


Perintah .values mengembalikan nilai pada Series, sedangkan .index mengembalikan indeks posisi pada Series

In [7]:
print(revenues.values)
print(revenues.index)

[5555 7000 1980]
RangeIndex(start=0, stop=3, step=1)


Secara pengaturan asalnya, pengindeksan data dilakukan dengan menggunakan bilangan integer yang dimulai dari 0, namun indeks ini juga dapat didefinisikan menjadi hal yang lain sehingga dapat terlihat seperti '*dictionary*'.

In [61]:
city_revenues = pd.Series([4200, 8000, 6500],
                        index = ["Amsterdam", "Toronto", "Tokyo"])
print(city_revenues)

Amsterdam    4200
Toronto      8000
Tokyo        6500
dtype: int64


Series juga dapat dibentuk dengan menggunakan sistem 'dictionary'. Perintah-perintah yang berlaku di dalam 'dictionary' juga dapat dilakukan dalam Series yang dibuat menggunakan sistem 'dictionary'

In [62]:
city_employee_count = pd.Series({"Amsterdam" : 5, "Tokyo" : 8})
print(city_employee_count)
print(city_employee_count.keys())
print("Amsterdam" in city_employee_count)
print("New York" in city_employee_count)

Amsterdam    5
Tokyo        8
dtype: int64
Index(['Amsterdam', 'Tokyo'], dtype='object')
True
False


## DataFrame

Contoh penggunaan library Pandas untuk membentuk DataFrame:

In [63]:
city_data = pd.DataFrame({
    "revenue" : city_revenues,
    "employee_count" : city_employee_count
})

print(city_data)

           revenue  employee_count
Amsterdam     4200             5.0
Tokyo         6500             8.0
Toronto       8000             NaN


Perintah .values mengembalikan nilai pada DataFrame, .index mengembalikan indeks posisi pada DataFrame, dan .axes mengembalikan nilai pada sumbu tertentu, di mana .axes[0] akan mengembalikan nilai pada baris dan .axes[1] akan mengembalikan nilai pada kolom.

In [64]:
print("Indeks DataFrame city_data")
print(city_data.index)
print("")
print("Nilai DataFrame city_data")
print(city_data.values)
print("")
print("Nilai masing-masing sumbu DataFrame city_data")
print(city_data.axes)
print(city_data.axes[0])
print(city_data.axes[1])

Indeks DataFrame city_data
Index(['Amsterdam', 'Tokyo', 'Toronto'], dtype='object')

Nilai DataFrame city_data
[[4.2e+03 5.0e+00]
 [6.5e+03 8.0e+00]
 [8.0e+03     nan]]

Nilai masing-masing sumbu DataFrame city_data
[Index(['Amsterdam', 'Tokyo', 'Toronto'], dtype='object'), Index(['revenue', 'employee_count'], dtype='object')]
Index(['Amsterdam', 'Tokyo', 'Toronto'], dtype='object')
Index(['revenue', 'employee_count'], dtype='object')


Sama seperti pada Series, perintah-perintah yang berlaku dalam '*dictionary*' juga berlaku di dalam DataFrame.

In [65]:
print(city_data.keys())
print("Penggunaan .keys() pada DataFrame akan mengeluarkan nilai kolomnya")
print("")
print("Implementasi algoritma dalam keys dalam Data Frame")
print("Amsterdam" in city_data)
print("revenue" in city_data)

Index(['revenue', 'employee_count'], dtype='object')
Penggunaan .keys() pada DataFrame akan mengeluarkan nilai kolomnya

Implementasi algoritma dalam keys dalam Data Frame
False
True


## Mengakses lokasi di dalam Series

Karena Series dan DataFrame sifatnya mirip dengan array 1 dan 2 dimensi, kita dapat memanggil nilainya secara langsung. Selain itu, kita dapat menggunakan perintah berikut untuk memanggil nilai yang diminta:

1. .loc (mengakses nilai dengan memanggil variabelnya)
2. .iloc (mengakses nilai dengan memanggil posisi variabelnya)

Perintah di atas digunakan apabila indeksnya juga berupa angka yang dapat membuat keluaran menjadi ambigu.

In [66]:
# Metode konvensional

print(city_revenues["Toronto"])
print(city_revenues[1])
print(city_revenues[-1])
print(city_revenues[1 :])
print(city_revenues["Toronto" :])

8000
8000
6500
Toronto    8000
Tokyo      6500
dtype: int64
Toronto    8000
Tokyo      6500
dtype: int64


In [67]:
# Metode .loc dan .iloc

colors = pd.Series(
    ["red", "purple", "blue", "green", "yellow"],
    index = [1, 2, 3, 5, 8]
    )
print("Series Colors")
print(colors)
print("")
print("Penggunaan .loc digunakan agar data yang diambil tidak rancu karena data diambil dari indeks label")
print(f"Output dari .loc[1]: {colors.loc[1]}")
print("")
print("Penggunaan .loc digunakan agar data yang diambil tidak rancu karena data diambil dari indeks posisi")
print(f"Output dari .iloc[1]: {colors.iloc[1]}")

Series Colors
1       red
2    purple
3      blue
5     green
8    yellow
dtype: object

Penggunaan .loc digunakan agar data yang diambil tidak rancu karena data diambil dari indeks label
Output dari .loc[1]: red

Penggunaan .loc digunakan agar data yang diambil tidak rancu karena data diambil dari indeks posisi
Output dari .iloc[1]: purple


Perintah tersebut juga dapat digunakan untuk mengambil data tertentu seperti pada saat melakukan *slicing*.

In [68]:
# Mengeluarkan nilai dari indeks eksplisit

print("Keluaran dari .loc[3:8] :")
print(colors.loc[3:8])

# Mengeluarkan nilai dari indeks implisit

print("Keluaran dari .iloc[1:3] :")
print(colors.iloc[1:3])

Keluaran dari .loc[3:8] :
3      blue
5     green
8    yellow
dtype: object
Keluaran dari .iloc[1:3] :
2    purple
3      blue
dtype: object


## Mengakses lokasi di dalam DataFrame

Akses lokasi pada DataFrame kurang lebih mirip seperti pada Series, hanya saja operator indeksnya akan berlaku pada kolom dan perintah .loc dan .iloc akan berlaku pada baris.

In [69]:
# Metode langsung

print(city_data["revenue"])
print(city_data.revenue) #untuk data string dapat dilakukan dengan menggunakan ."nama variabel"

Amsterdam    4200
Tokyo        6500
Toronto      8000
Name: revenue, dtype: int64
Amsterdam    4200
Tokyo        6500
Toronto      8000
Name: revenue, dtype: int64


In [70]:
print("Output perintah .loc spesifik satu baris")
print(city_data.loc["Amsterdam"])
print("")

print("Output perintah .loc spesifik banyak baris")
print(city_data.loc["California" : "Toronto"])
print("")

print("Output perintah .iloc spesifik satu baris")
print(city_data.iloc[1])
print("")

print("Perintah .loc dan .iloc pada DataFrame dapat menerima variabel kedua untuk memilih kolom yang akan ditampilkan.")
print(city_data.loc["Amsterdam" : "California", "revenue"])
print("")

print("Isi data dapat dijumlahkan, dicari nilai maksimal, nilai minimum, dan nilai rata-ratanya")
print(f"Jumlah : {city_revenues.sum()}")
print(f"Min : {city_revenues.min()}")
print(f"Max : {city_revenues.max()}")
print(f"Mean : {city_revenues.mean()}")
print("")

Output perintah .loc spesifik satu baris
revenue           4200.0
employee_count       5.0
Name: Amsterdam, dtype: float64

Output perintah .loc spesifik banyak baris
         revenue  employee_count
Tokyo       6500             8.0
Toronto     8000             NaN

Output perintah .iloc spesifik satu baris
revenue           6500.0
employee_count       8.0
Name: Tokyo, dtype: float64

Perintah .loc dan .iloc pada DataFrame dapat menerima variabel kedua untuk memilih kolom yang akan ditampilkan.
Amsterdam    4200
Name: revenue, dtype: int64

Isi data dapat dijumlahkan, dicari nilai maksimal, nilai minimum, dan nilai rata-ratanya
Jumlah : 18700
Min : 4200
Max : 8000
Mean : 6233.333333333333



## Menyaring data pada DataFrame menggunakan numpy

In [43]:
dataFrame = pd.DataFrame({"Product": ["SmartTV", "ChromeCast", "Speaker", "Earphone"],
                          "Opening_Stock": [300, 700, 1200, 1500],
                          "Closing_Stock": [200, 500, 1000, 900]})

print("DataFrame...\n",dataFrame)

# using numpy where() to filter DataFrame with 2 Conditions
resValues1 = np.where((dataFrame['Opening_Stock']>=700) & (dataFrame['Closing_Stock']< 1000))

print("\nFiltered DataFrame Value = \n",dataFrame.loc[resValues1])

# using numpy where() to filter DataFrame with 3 conditions
resValues2 = np.where((dataFrame['Opening_Stock']>=500) & (dataFrame['Closing_Stock']< 1000) & (dataFrame['Product'].str.startswith('C')))

print("\nFiltered DataFrame Value = \n",dataFrame.loc[resValues2])

DataFrame...
       Product  Opening_Stock  Closing_Stock
0     SmartTV            300            200
1  ChromeCast            700            500
2     Speaker           1200           1000
3    Earphone           1500            900

Filtered DataFrame Value = 
       Product  Opening_Stock  Closing_Stock
1  ChromeCast            700            500
3    Earphone           1500            900

Filtered DataFrame Value = 
       Product  Opening_Stock  Closing_Stock
1  ChromeCast            700            500


## Menggabungkan DataFrame

Di bagian sebelumnya kita sudah mengetahui bagaimana caranya menggabungkan dua buah Series menjadi sebuah DataFrame. DataFrame pun dapat digabungkan dengan DataFrame baru.

In [71]:
further_city_data = pd.DataFrame(
    {"revenue": [7000, 3400], "employee_count": [2, 2]},
    index = ["New York", "Barcelona"]
)

print("DataFrame tambahan:")
print(further_city_data)
print("")
print("DataFrame lama:")
print(city_data)
print("")

all_city_data = pd.concat([city_data, further_city_data], sort = False)
print("DataFrame gabungan:")
print(all_city_data)

DataFrame tambahan:
           revenue  employee_count
New York      7000               2
Barcelona     3400               2

DataFrame lama:
           revenue  employee_count
Amsterdam     4200             5.0
Tokyo         6500             8.0
Toronto       8000             NaN

DataFrame gabungan:
           revenue  employee_count
Amsterdam     4200             5.0
Tokyo         6500             8.0
Toronto       8000             NaN
New York      7000             2.0
Barcelona     3400             2.0


In [72]:
city_countries = pd.DataFrame({
    "country": ["Holland", "Japan", "Holland", "Canada", "Spain"],
    "capital": [1, 1, 0, 0, 0]},
    index = ["Amsterdam", "Tokyo", "Rotterdam", "Toronto", "Barcelona"]
)

print("Negara dan Ibukota:")
print(city_countries)
print("")

# Gabungan all dan countries:

cities = pd.concat([all_city_data, city_countries], axis = 1, sort = False)
print("Gabungan dari dua tabel:")
print(cities)
print("")
print("Gabungan dari yang datanya muncul di dua tabel:")
print(pd.concat([all_city_data, city_countries], axis = 1, sort = False, join = "inner"))

Negara dan Ibukota:
           country  capital
Amsterdam  Holland        1
Tokyo        Japan        1
Rotterdam  Holland        0
Toronto     Canada        0
Barcelona    Spain        0

Gabungan dari dua tabel:
           revenue  employee_count  country  capital
Amsterdam   4200.0             5.0  Holland      1.0
Tokyo       6500.0             8.0    Japan      1.0
Toronto     8000.0             NaN   Canada      0.0
New York    7000.0             2.0      NaN      NaN
Barcelona   3400.0             2.0    Spain      0.0
Rotterdam      NaN             NaN  Holland      0.0

Gabungan dari yang datanya muncul di dua tabel:
           revenue  employee_count  country  capital
Amsterdam     4200             5.0  Holland        1
Tokyo         6500             8.0    Japan        1
Toronto       8000             NaN   Canada        0
Barcelona     3400             2.0    Spain        0


In [74]:
countries = pd.DataFrame({
    "population_millions" : [17, 127, 37],
    "continent" : ["Europe", "Asia", "NA"]},
    index = ["Holland", "Japan", "Canada"])
print("Tabel 'countries' :")
print(countries)
print("")

# Gabungkan dengan tabel cities di bagian sebelumnya:
# Parameter left_on digunakan sebagai penanda dari kolom mana tabel yang ingin digabungkan
# Bisa diganti dengan .merge() apabila semua komponen tabelnya ingin digabungkan

pd.merge(cities, countries, left_on = "country", right_index = True)
print("Gabungan dari dua tabel di atas :")
print(pd.merge(cities, countries, left_on = "country", right_index = True))
print("")

# Parameter how digunakan untuk menampilkan semua data yang ada

pd.merge(cities, countries, left_on = "country", right_index = True, how = "left")
print("Gabungan dari dua tabel di atas dengan menampilkan semua data :")
print(pd.merge(cities, countries, left_on = "country", right_index = True, how = "left"))

Tabel 'countries' :
         population_millions continent
Holland                   17    Europe
Japan                    127      Asia
Canada                    37        NA

Gabungan dari dua tabel di atas :
           revenue  employee_count  country  capital  population_millions  \
Amsterdam   4200.0             5.0  Holland      1.0                   17   
Rotterdam      NaN             NaN  Holland      0.0                   17   
Tokyo       6500.0             8.0    Japan      1.0                  127   
Toronto     8000.0             NaN   Canada      0.0                   37   

          continent  
Amsterdam    Europe  
Rotterdam    Europe  
Tokyo          Asia  
Toronto          NA  

Gabungan dari dua tabel di atas dengan menampilkan semua data :
           revenue  employee_count  country  capital  population_millions  \
Amsterdam   4200.0             5.0  Holland      1.0                 17.0   
Tokyo       6500.0             8.0    Japan      1.0                127.0 