Pandas adalah library Python untuk memanipulasi dan menganalisis data berbentuk tabel (seperti Excel). Format datanya disebut DataFrame, mirip seperti tabel Excel: baris dan kolom.

In [6]:
import random

In [8]:
import pandas as pd

In [None]:
data = {
    'Nama': ['Ali', 'Budi', 'Citra', 'Ridho','Rasyid','Muhammad'], 
    'Umur': [23, 25, 22, 30, 31, 32],
    'Kota': ['Jakarta', 'Bandung', 'Surabaya',"Malang", 'Padang','Banyuwangi']
}


# Ini adalah dictionary (kamus) Python.
# Key-nya ('Nama', 'Umur', 'Kota') akan jadi nama kolom
# Value-nya (daftar/list) akan jadi isi data di kolom itu

df = pd.DataFrame(data)
print(df)

# df = DataFrame = tabel
# Angka di paling kiri (0, 1, 2) = index baris



       Nama  Umur        Kota
0       Ali    23     Jakarta
1      Budi    25     Bandung
2     Citra    22    Surabaya
3     Ridho    30      Malang
4    Rasyid    31      Padang
5  Muhammad    32  Banyuwangi


In [None]:
df.head()        # Lihat 5 baris pertama

Unnamed: 0,Nama,Umur,Kota
0,Ali,23,Jakarta
1,Budi,25,Bandung
2,Citra,22,Surabaya


In [12]:
df.tail(2)       # Lihat 2 baris terakhir

Unnamed: 0,Nama,Umur,Kota
1,Budi,25,Bandung
2,Citra,22,Surabaya


In [16]:
df.info()        # Ringkasan kolom dan tipe data

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6 entries, 0 to 5
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   Nama    6 non-null      object
 1   Umur    6 non-null      int64 
 2   Kota    6 non-null      object
dtypes: int64(1), object(2)
memory usage: 276.0+ bytes


In [17]:
df.describe()    # Statistik ringkas untuk angka

Unnamed: 0,Umur
count,6.0
mean,27.166667
std,4.355074
min,22.0
25%,23.5
50%,27.5
75%,30.75
max,32.0


In [None]:
# Akses satu kolom, outputnya Name: Nama, dtype: object
# Hasilnya berupa Series, yaitu satu kolom beserta indeksnya
df['Nama']


0         Ali
1        Budi
2       Citra
3       Ridho
4      Rasyid
5    Muhammad
Name: Nama, dtype: object

In [None]:
# Akses beberapa kolom
# Harus pakai dua tanda kurung siku karena kita ambil lebih dari satu kolom → bentuknya list di dalam list: [['col1', 'col2']]

df[['Nama', 'Umur']]

Unnamed: 0,Nama,Umur
0,Ali,23
1,Budi,25
2,Citra,22
3,Ridho,30
4,Rasyid,31
5,Muhammad,32


In [31]:
# Mengakses Baris dengan .iloc[] (berdasarkan posisi)
# df.iloc[0] → Ambil baris pertama
# iloc = "index location" (berbasis angka)
# Hasilnya berupa Series, 1 baris data beserta nama kolom

df.iloc[0]    


Nama        Ali
Umur         23
Kota    Jakarta
Name: 0, dtype: object

In [None]:
# # Akses nilai spesifik
df.iloc[2, 2]  # Baris ke-2, Kolom ke-2
# output surabaya karena surabaya berada pada baris ke 2 dan kolom ke

'Jakarta'

In [None]:
# # Filter (baris dengan umur > 23)
df[df['Umur'] > 23]
df[df['Kota'] == 'Jakarta'] # baris dengan filter kota jakarta

Unnamed: 0,Nama,Umur,Kota
0,Ali,23,Jakarta


In [None]:
#  Membuat Series – struktur data 1 dimensi

# Kenapa pakai Series?
    # Series dipakai kalau kamu cuma punya 1 kolom data (misalnya: umur, harga, berat badan).
    # Mirip kolom di Excel, tapi 1 dimensi aja.

data_umur = pd.Series([23, 25, 22])
print(data_umur)

# pd.Series(...) → membuat struktur data seperti list tapi ada index (nomor baris)
# [23, 25, 22] → daftar data umur

0    23
1    25
2    22
dtype: int64


In [None]:
# Mengambil beberapa baris sekaligus:

print(df.iloc[0:2])

# Penjelasan:
# [0:2] → slicing: mulai dari index ke-0 sampai sebelum index ke-2
# Hasilnya adalah DataFrame dengan 2 baris pertama

   Nama  Umur     Kota
0   Ali    23  Jakarta
1  Budi    25  Bandung


In [None]:
# Akses Baris berdasarkan Label dengan .loc[]

print(df.loc[1])

# Penjelasan:
# .loc[] = location by label (nama index)
# Karena index-nya default (0, 1, 2), maka df.loc[1] hasilnya sama dengan df.iloc[1]
# ambil baris pertama

Nama       Budi
Umur         25
Kota    Bandung
Name: 1, dtype: object


MODUL 3: Transformasi & Pembersihan Data (Data Cleaning)
 Tujuan:
1. Menambahkan, mengubah, dan menghapus kolom
2. Menangani data kosong (NaN)
3. Mengubah tipe data kolom

In [73]:

data_2 = {
    'Nama': ['Ali', 'Budi', 'Citra'],
    'Umur': [23, 25, None],
    'Kota': ['Jakarta', 'Bandung', None]
}

df2 = pd.DataFrame(data_2)
print(df2)


    Nama  Umur     Kota
0    Ali  23.0  Jakarta
1   Budi  25.0  Bandung
2  Citra   NaN     None


In [74]:
# 1. Menambah Kolom Baru
df2['Gaji'] = [5_000_000, 6_000_000, 4_500_000]
df2['Pekerjaan'] = ['Developer','Analis','Dosen']

print(df2)


    Nama  Umur     Kota     Gaji  Pekerjaan
0    Ali  23.0  Jakarta  5000000  Developer
1   Budi  25.0  Bandung  6000000     Analis
2  Citra   NaN     None  4500000      Dosen


In [75]:
# Mengubah Nilai Kolom (Transformasi)
# Contoh: Tambahkan 1 tahun ke umur semua orang

df2['Umur'] = df2['Umur'] + 1
print(df2)
#  Penjelasan:
    #  Operasi ini diterapkan ke seluruh kolom 'Umur'
    # Nilai NaN tetap jadi NaN (karena operasi matematika pada NaN → hasilnya tetap NaN)


    Nama  Umur     Kota     Gaji  Pekerjaan
0    Ali  24.0  Jakarta  5000000  Developer
1   Budi  26.0  Bandung  6000000     Analis
2  Citra   NaN     None  4500000      Dosen


In [63]:
# Menghapus Kolom

df2['Gaji'] = [5_000_000, 6_000_000, 4_500_000]
print(df2)

df2.drop(columns ='Pekerjaan', inplace=True)
print(df2)

# Penjelasan:
# drop() = menghapus kolom atau baris
# columns='Pekerjaan' → hapus kolom "Pekerjaan"
# inplace=True → langsung mengubah df tanpa harus assign ke variabel baru

    Nama  Umur     Kota  Pekerjaan     Gaji
0    Ali  24.0  Jakarta  Developer  5000000
1   Budi  26.0  Bandung     Analis  6000000
2  Citra   NaN     None      Dosen  4500000
    Nama  Umur     Kota     Gaji
0    Ali  24.0  Jakarta  5000000
1   Budi  26.0  Bandung  6000000
2  Citra   NaN     None  4500000


In [65]:
# cek nilai kosong

print(df2.isnull().sum())
print(df.isnull().sum())

Nama    0
Umur    1
Kota    1
Gaji    0
dtype: int64
Nama    0
Umur    0
Kota    0
dtype: int64


In [None]:
# Mengisi nilai kosong (fillna)
df2['Umur'].fillna(0, inplace=True)
df2['Kota'].fillna('Tidak diketahui', inplace=True)
print(df2)

df_replace = df2.replace ({'Umur': {0: 28}})
print(df_replace)

df_replace.replace ({'Kota': {'Tidak diketahui': 'Semarang'}}, inplace=True)
print(df_replace)

# inplace=True → langsung mengubah df tanpa harus assign ke variabel baru

    Nama  Umur             Kota     Gaji  Pekerjaan
0    Ali  24.0          Jakarta  5000000  Developer
1   Budi  26.0          Bandung  6000000     Analis
2  Citra   0.0  Tidak diketahui  4500000      Dosen
    Nama  Umur             Kota     Gaji  Pekerjaan
0    Ali  24.0          Jakarta  5000000  Developer
1   Budi  26.0          Bandung  6000000     Analis
2  Citra  28.0  Tidak diketahui  4500000      Dosen
    Nama  Umur      Kota     Gaji  Pekerjaan
0    Ali  24.0   Jakarta  5000000  Developer
1   Budi  26.0   Bandung  6000000     Analis
2  Citra  28.0  Semarang  4500000      Dosen


The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df2['Umur'].fillna(0, inplace=True)
The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df2['Kota'].fillna('Tidak diketahui', inplace=True)


In [91]:
# Menghapus baris yang memiliki nilai kosong

data = {
    'Nama': ['Ali', 'Budi', 'Citra'],
    'Umur': [23, 25, None],
    'Kota': ['Jakarta', 'Bandung', None]
}
df3 = pd.DataFrame(data)
print(df3)

df3.dropna(inplace=True)
print(df3)

# Penjelasan:
# dropna() → hapus baris yang ada NaN-nya
# Cocok untuk data yang tidak bisa diberi nilai default

    Nama  Umur     Kota
0    Ali  23.0  Jakarta
1   Budi  25.0  Bandung
2  Citra   NaN     None
   Nama  Umur     Kota
0   Ali  23.0  Jakarta
1  Budi  25.0  Bandung


In [None]:
# Mengubah Tipe Data Kolom

df3['Umur'] = df['Umur'].astype(int) # data sebelumnya float diubah ke integer
print(df3)

   Nama  Umur     Kota
0   Ali    24  Jakarta
1  Budi    26  Bandung


MODUL 4: Grouping, Aggregasi, dan Join Data

🎯 Tujuan:
- Mengelompokkan data (groupby)
- Menghitung agregasi seperti sum(), mean(), count()
- Menggabungkan dua DataFrame (merge / join)

In [102]:
data_karyawan = {
    'Nama': ['Ali', 'Budi', 'Citra', 'Dina', 'Eka'],
    'Cabang': ['Jakarta', 'Bandung', 'Jakarta', 'Bandung', 'Surabaya'],
    'Gaji': [5_000_000, 6_000_000, 5_500_000, 6_500_000, 4_500_000]
}

df4 = pd.DataFrame(data_karyawan)
print(df4)


    Nama    Cabang     Gaji
0    Ali   Jakarta  5000000
1   Budi   Bandung  6000000
2  Citra   Jakarta  5500000
3   Dina   Bandung  6500000
4    Eka  Surabaya  4500000


In [118]:
#  1. Grouping (groupby)

rata2_gaji = df4.groupby('Cabang')['Gaji'].mean()
print(rata2_gaji)

max_gaji = df4.groupby('Cabang')['Gaji'].max()
print(max_gaji)

# Penjelasan:
# .groupby('Cabang') → kelompokkan data berdasarkan kolom 'Cabang'
# ['Gaji'] → fokus hanya pada kolom "Gaji"
# .mean() → hitung rata-rata untuk tiap grup


Cabang
Bandung     6250000.0
Jakarta     5250000.0
Surabaya    4500000.0
Name: Gaji, dtype: float64
Cabang
Bandung     6500000
Jakarta     5500000
Surabaya    4500000
Name: Gaji, dtype: int64


In [119]:
# count and sum

# Jumlah karyawan per cabang

print(df4.groupby('Cabang')['Nama'].count())

# Total gaji per cabang
print(df4.groupby('Cabang')['Gaji'].sum().astype(float)) # ubah hasil integer ke float



Cabang
Bandung     2
Jakarta     2
Surabaya    1
Name: Nama, dtype: int64
Cabang
Bandung     12500000.0
Jakarta     10500000.0
Surabaya     4500000.0
Name: Gaji, dtype: float64


In [120]:
# Agregasi multiple

print(df4.groupby('Cabang')['Gaji'].agg(['min', 'max', 'mean','median']))


              min      max       mean     median
Cabang                                          
Bandung   6000000  6500000  6250000.0  6250000.0
Jakarta   5000000  5500000  5250000.0  5250000.0
Surabaya  4500000  4500000  4500000.0  4500000.0


In [121]:
gaji_per_cabang = df4.groupby('Cabang')['Gaji'].mean().reset_index()
print(gaji_per_cabang)


     Cabang       Gaji
0   Bandung  6250000.0
1   Jakarta  5250000.0
2  Surabaya  4500000.0


In [122]:
# Merge / Join antar DataFrame

bonus = pd.DataFrame({
    'Nama': ['Ali', 'Budi', 'Citra', 'Dina', 'Eka'],
    'Bonus': [500_000, 600_000, 550_000, 650_000, 400_000]
})

df_merged = pd.merge(df4, bonus, on='Nama')
print(df_merged)


    Nama    Cabang     Gaji   Bonus
0    Ali   Jakarta  5000000  500000
1   Budi   Bandung  6000000  600000
2  Citra   Jakarta  5500000  550000
3   Dina   Bandung  6500000  650000
4    Eka  Surabaya  4500000  400000


In [None]:
# join left right

# left
df_left = pd.DataFrame({
    'ID': [1, 2, 3],
    'Nama': ['Ali', 'Budi', 'Citra'],
    'State' :['California', 'Madura', 'Jawa']
})

df_right = pd.DataFrame({
    'Nama': ['Ali', 'Citra', 'Dina'],
    'Skor': [80, 90, 70],
    'Tim' : ['A','B','C']
})

hasil = pd.merge(df_left, df_right, on='Nama', how='left')
print(hasil)

# how='left' → ambil semua dari df_left, cocokkan data dari kanan
# Budi tidak ada di df_right, maka Skor = NaN

hasil2 = pd.merge(df_right, df_left, on='Nama', how='right')
print(hasil2)

# Budi tidak ada di df_right, maka Skor = NaN

   ID   Nama       State  Skor  Tim
0   1    Ali  California  80.0    A
1   2   Budi      Madura   NaN  NaN
2   3  Citra        Jawa  90.0    B
    Nama  Skor  Tim  ID       State
0    Ali  80.0    A   1  California
1   Budi   NaN  NaN   2      Madura
2  Citra  90.0    B   3        Jawa


In [None]:
# Perbedaan Series dengan Data Frame
# | Fitur        | Series                | DataFrame                  |
# | ------------ | --------------------- | -------------------------- |
# | Dimensi      | 1D (1 kolom)          | 2D (banyak kolom & baris)  |
# | Representasi | Seperti 1 kolom tabel | Seperti tabel utuh (Excel) |
# | Index        | Ya                    | Ya (untuk baris dan kolom) |
# | Akses kolom  | Tidak berlaku         | Bisa pakai `df['kolom']`   |
# | Komposisi    | Hanya values          | Gabungan beberapa Series   |

# Analogi:
# Bayangkan Excel:
    # Series = 1 kolom Excel (misalnya kolom "Umur")
    # DataFrame = 1 sheet Excel (banyak kolom: "Nama", "Umur", "Alamat", dll)

In [7]:
with open("D:/Dataset/Global Super Store Dataset/Global_Superstore2_order priority.xlsx","r") as file :
    file_stuff = file.read()

print(file_stuff)

UnicodeDecodeError: 'charmap' codec can't decode byte 0x9d in position 16: character maps to <undefined>

In [8]:
from pyodide.http import pyfetch

import pandas as pd

filename = "https://cf-courses-data.s3.us.cloud-object-storage.appdomain.cloud/IBMDeveloperSkillsNetwork-PY0101EN-SkillsNetwork/labs/Module%204/data/example1.txt"

async def download(url, filename):

    response = await pyfetch(url)

    if response.status == 200:

        with open(filename, "wb") as f:

            f.write(await response.bytes())

await download(filename, "example1.txt")

print("done")

ModuleNotFoundError: No module named 'pyodide'

In [3]:
import pandas as pd

In [49]:
df = pd.read_csv(r"D:\Dataset\Global Super Store Dataset\Global_Superstore2_detail.csv", encoding='latin1')
# print(df)
print(df.head()) # menampilkan 5 data teratas untuk setiap kolom
print(df['State'].head) # lima data teratas pada kolom city

# # iloc - index location, kita pilih baris dan kolom berdasarkan posisi (index angka)

x = df.iloc[0,2] # baris index ke 0 dan kolom index ke 0
# print(x)            # ambil baris dengan posisi index 0 sampai 1 (karena 2 tidak termasuk)

z = df.iloc[4:5, 0:3] # index baris ke 4
# 4:5 mulai dari baris posisi 4 sampai sebelum baris posisi 5.
# Karena 5 tidak termasuk, hasilnya cuma 1 baris (baris ke-4 saja).
# 0:3 mulai dari kolom posisi 0 sampai sebelum kolom posisi 3.
print(z) # outputnya Row ID, Order ID, Order Data pada baris ke 4

# loc - pilih berdasarkan label pada index baris atau kolom, berbeda dari iloc, di loc batas akhirnya termasuk

y = df.loc[0:5, 'Customer Name':'State'] # pilih index ke 0 sampai 5, 5 ini termasuk bukan tidak termasuk seperti iloc
# lalu pilih kolom customer name sampai state
print(y)



   Row ID         Order ID  Order Date   Ship Date     Ship Mode Customer ID  \
0   32298   CA-2012-124891  31-07-2012  31-07-2012      Same Day    RH-19495   
1   26341    IN-2013-77878  05-02-2013  07-02-2013  Second Class    JR-16210   
2   25330    IN-2013-71249  17-10-2013  18-10-2013   First Class    CR-12730   
3   13524  ES-2013-1579342  28-01-2013  30-01-2013   First Class    KM-16375   
4   47221     SG-2013-4320  05-11-2013  06-11-2013      Same Day     RH-9495   

      Customer Name      Segment           City            State  ...  \
0       Rick Hansen     Consumer  New York City         New York  ...   
1     Justin Ritter    Corporate     Wollongong  New South Wales  ...   
2      Craig Reiter     Consumer       Brisbane       Queensland  ...   
3  Katherine Murray  Home Office         Berlin           Berlin  ...   
4       Rick Hansen     Consumer          Dakar            Dakar  ...   

         Product ID    Category Sub-Category  \
0   TEC-AC-10003033  Technology 

In [None]:
print(df['City'].unique()) # ambil data unique pada kolom City, outputnya horizontal
print(pd.Series(df['City'].unique())) # outputnya vertikal, ditambahkan fungsi series

# membuat dataframe baru

df1 = df[df['City']=='New York City'] # df baru yg berisikan hanya New York City pada kolom City
print(df1.head())
print(df1.to_csv('new_order.csv')) # menyimpan dengan format csv di disk


['New York City' 'Wollongong' 'Brisbane' ... 'Abilene' 'Felahiye'
 'Victoria Falls']
0         New York City
1            Wollongong
2              Brisbane
3                Berlin
4                 Dakar
             ...       
3631       Ormond Beach
3632    San Luis Obispo
3633            Abilene
3634           Felahiye
3635     Victoria Falls
Length: 3636, dtype: object
     Row ID        Order ID  Order Date   Ship Date       Ship Mode  \
0     32298  CA-2012-124891  31-07-2012  31-07-2012        Same Day   
36    36423  CA-2011-160766  14-09-2011  14-09-2011        Same Day   
50    40046  US-2012-163825  16-06-2012  19-06-2012     First Class   
61    39501  CA-2012-114811  08-11-2012  08-11-2012        Same Day   
121   37923  CA-2011-145541  14-12-2011  21-12-2011  Standard Class   

    Customer ID     Customer Name    Segment           City     State  ...  \
0      RH-19495       Rick Hansen   Consumer  New York City  New York  ...   
36     DM-13015     Darrin Martin   Cons