**Library Pandas: Definisi dan Fungsi Utama**

**Pandas** adalah sebuah library perangkat lunak untuk bahasa pemrograman Python yang menyediakan struktur data dan alat analisis data yang efisien dan mudah digunakan. Library ini didesain secara spesifik untuk memfasilitasi proses manipulasi dan analisis data terstruktur, seperti data berbentuk tabel.

Fungsi utama dari library Pandas dapat diklasifikasikan sebagai berikut:

1. **Akuisisi dan Penyimpanan Data**: Membaca data dari berbagai format file, seperti CSV dan Excel, serta menulis DataFrame kembali ke dalam format tersebut.

2. **Pembersihan Data**: Menyediakan metode untuk menangani data yang tidak lengkap (missing values), data duplikat, serta inkonsistensi lainnya.

3. **Manipulasi dan Transformasi Data**: Melakukan operasi-operasi seperti pemilihan (selection), penyaringan (filtering), pengurutan (sorting), penggabungan (merging/joining), dan perubahan bentuk (reshaping) data.

4. **Analisis dan Agregasi Data**: Melakukan perhitungan statistik deskriptif, mengelompokkan data berdasarkan kategori tertentu (groupby), dan melakukan agregasi untuk menghasilkan ringkasan data yang informatif.

**BAB 1: Membuat dan Memuat Data (DataFrame)**





*1.1. Membuat DataFrame dari Awal*

In [None]:
#Langkah 1, import library pandas yang akan digunakan untuk membuat sebuah tabel dari data
import pandas as pd

#Langkah 2, buat sebuah data buatan terserah kalian, atau bisa kalian import data dari kaggle
#Contohnya disini saya membuat data mahasiswa sederhana yang berisi nama, prodi, nilai, dan review
data = {
    'Nama' : ['Ali', 'Budi', 'Siti', 'Putri'],
    'Prodi' : ['Informatika', 'Matematika', 'Biologi', 'Kimia'],
    'Nilai' : [90, 80, 85, 95],
    'Review' : ['A-', 'B', 'A/B', 'A']
}

#Langkah 3, Mengubah data menjadi tabel (DataFrame) yang terstruktur
#pd.DataFrame() merupakan instruksi yang digunakan untuk membuat sebuah tabel(baris dan kolom) dari library pandas yang sdh diimport diawal
df = pd.DataFrame(data)

#Langkah 4, menampilkan tabel yang sudah dibuat
print('====Tabel Mahasiswa====')
print(df)
print('\n')

====Tabel Mahasiswa====
    Nama        Prodi  Nilai Review
0    Ali  Informatika     90     A-
1   Budi   Matematika     80      B
2   Siti      Biologi     85    A/B
3  Putri        Kimia     95      A




*1.2. Memuat Data dari Berbagai Sumber (Gathering Data)*

In [None]:
#Format Berkas CSV
df = pd.read_csv("data.csv", delimiter=",")

#Format Berkas XLXS atau XLS
df = pd.read_excel("data.xlsx", sheet_name="Sheet1")

#Format Berkas JSON
df = pd.read_json("data.json")

#Format Berkas HTML
url = "https://www.fdic.gov/resources/resolutions/bank-failures/failed-bank-list"
df = pd.read_html(url)[0]

#Format XML
df = pd.read_xml("https://www.w3schools.com/xml/books.xml")

#Akses data dari SQL Database
#.read_sql_table()untuk membaca SQL database table dan mempresentasikannya ke dalam bentuk pandas DataFrame
#untuk mengakses database tersebut kita membutuhkan library pendukung yaitu SQLAlchemy
import sqlalchemy as sqla

db = sqla.create_engine("sqlite:///mydata.sqlite")
pd.read_sql_table("table_name", db)

#.read_sql_query()untuk membaca SQL query dan mempresentasikannya ke dalam bentuk pandas DataFrame
pd.read_sql_query("SELECT * FROM table_name", db)

#.read_sql()untuk membaca SQL query atau table dan mempresentasikannya ke dalam bentuk pandas DataFrame
pd.read_sql("SELECT * FROM table_name", db)

**Bab 2: Menggabungkan DataFrames**

In [None]:
import pandas as pd

# Tabel data mahasiswa
mahasiswa_df = pd.DataFrame({
    'id_mahasiswa': [1, 2, 3, 4],
    'nama': ['Ali', 'Budi', 'Citra', 'Siti']
})

# Tabel data nilai
nilai_df = pd.DataFrame({
    'id_mahasiswa': [1, 2, 3, 5],
    'mata_kuliah': ['Matematika', 'Fisika', 'Biologi', 'Kimia'],
    'nilai': [85, 90, 88, 92]
})

*2.1 Inner Join*

In [None]:
# Inner Join
inner_join_df = pd.merge(left=mahasiswa_df, right=nilai_df, how='inner', on='id_mahasiswa')
print("--- INNER JOIN ---")
print(inner_join_df)

*2.2 Left Join*

In [None]:
# Left Join
left_join_df = pd.merge(left=mahasiswa_df, right=nilai_df, how='left', on='id_mahasiswa')
print("\n--- LEFT JOIN ---")
print(left_join_df)

*2.3 Right Join*

In [None]:
# Right Join
right_join_df = pd.merge(left=mahasiswa_df, right=nilai_df, how='right', on='id_mahasiswa')
print("\n--- RIGHT JOIN ---")
print(right_join_df)

*2.4 Outer Join*

In [None]:
# Outer Join
outer_join_df = pd.merge(left=mahasiswa_df, right=nilai_df, how='outer', on='id_mahasiswa')
print("\n--- OUTER JOIN ---")
print(outer_join_df)

**BAB 3: Inspeksi & Eksplorasi Awal (Assessing Data)**

*3.1. Pratinjau Data*

In [2]:
#Melihat 5 baris pertama menggunakan perintah .head()
print('====5 Baris Pertama====') #karena data kita hanya mempunyai 4 baris, jadi semua data akan tampil
print(df.head())
print('\n')

#Melihat 5 baris terakhir
print('====5 Baris Terakhir====')
print(df.tail())
print('\n')

#random sample
print('====Random Sample====')
print(df.sample(3))
print('\n')

====5 Baris Pertama====
    Nama        Prodi  Nilai
0    Ali  Informatika     85
1   Budi   Matematika     92
2  Citra      Biologi     78
3   Dewi  Informatika     88
4    Eka      Biologi     92


====5 Baris Terakhir====
    Nama        Prodi  Nilai
0    Ali  Informatika     85
1   Budi   Matematika     92
2  Citra      Biologi     78
3   Dewi  Informatika     88
4    Eka      Biologi     92


====Random Sample====
   Nama        Prodi  Nilai
0   Ali  Informatika     85
3  Dewi  Informatika     88
1  Budi   Matematika     92




*3.2. Memahami Struktur & Tipe Data*

In [None]:
#Melihat ukuran tabel (baris dan kolom) menggunakan .shape
print('====Ukuran Tabel====')
print(df.shape)
print('\n')

#Coloumn names
print(df.columns())

#.info() adalah perintah yang digunakan untuk melihat tipe data per kolom
print('====Informasi DataFrame====')
print(df.info())
print('\n')

#Melihat Ringkasan Statistik untuk kolom numerik dengan .describe()
print('====Ringkasan Statistik====')
print(df.describe())
print("\n")


*3.3. Pengecekan Awal Kualitas Data (Assessing Data)*

In [None]:
#Mengecek nilai yang hilang (missing value) di setiap kolom
print('====Missing Value====')
sales_df = pd.read_csv("https://raw.githubusercontent.com/dicodingacademy/dicoding_dataset/main/DicodingCollection/sales.csv")
print(sales_df.isnull().sum()) #/ df.isna().sum()
print(sales_df[sales_df.total_price.isnull()])
print("\n")

# Menghitung jumlah baris duplikat
print('====Jumlah Baris Duplikat====')
products_df = pd.read_csv("https://raw.githubusercontent.com/dicodingacademy/dicoding_dataset/main/DicodingCollection/products.csv")
print(products_df.duplicated().sum())
print(products_df[products_df.duplicated()])

====Missing Value====
sales_id           0
order_id           0
product_id         0
price_per_unit     0
quantity           0
total_price       19
dtype: int64
      sales_id  order_id  product_id  price_per_unit  quantity  total_price
9            9         2        1196             105         1          NaN
121        121        27        1027              90         3          NaN
278        278        63         360              94         2          NaN
421        421        95        1091             115         1          NaN
489        489       108        1193             105         3          NaN
539        539       117         405             119         2          NaN
636        636       134         653              93         3          NaN
687        687       145        1138             102         1          NaN
854        854       177          64             104         1          NaN
1079      1079       222         908              94         3          NaN
119

**Bab 4: Manipulasi Data (Seleksi, Pengurutan, dan Transformasi)**

*4.1. Seleksi Data (Indexing & Slicing)*

In [None]:
# Memilih satu kolom
nama_mahasiswa = df['Nama']
print(data_mahasiswa)

# Memilih beberapa kolom
prodi_dan_nilai = df[['Prodi', 'Nilai']]
print(prodi_dan_nilai)

# Menampilkan data mahasiswa yang nilainya di atas 85
mahasiswa_pintar = df[df['Nilai'] > 85]
print(mahasiswa_pintar)

# Menambah kolom 'Status' berdasarkan nilai
df['Status'] = ['Lulus' if nilai >= 85 else 'Mengulang' for nilai in df['Nilai']]
print(df)

#Memilih baris berdasarkan label/kondisi (.loc)
df.loc[0] # Baris dengan indeks 0
print(df.loc[df['Nilai'] > 85]) # Baris dimana nilai > 85

# Memilih baris/kolom berdasarkan posisi angka (.iloc)
print(df.iloc[0, 1]) # Data pada baris ke-0, kolom ke-1

*4.2. Mengurutkan Data*

In [None]:
# Mengurutkan mahasiswa berdasarkan nilai tertinggi
df_sorted_highest = df.sort_values(by='Nilai', ascending=False)
print(df_sorted_highest)

# Menampilkan tabel yang sudah diurutkan
print('====Tabel Mahasiswa Diurutkan Berdasarkan Nilai Terendah====')
print(df_sorted_highest)

# Mengurutkan mahasiswa berdasarkan nilai terendah
df_sorted_lowest = df.sort_values(by='Nilai', ascending=True)

# Menampilkan tabel yang sudah diurutkan
print('====Tabel Mahasiswa Diurutkan Berdasarkan Nilai Terendah====')
print(df_sorted_lowest)


*4.3. Menambah atau Mengubah Kolom*

In [None]:
# Menambah kolom 'Status' berdasarkan nilai
df['Status'] = ['Lulus' if nilai >= 85 else 'Mengulang' for nilai in df['Nilai']]
print(df)

**Bab 5: Pembersihan Data (Cleaning Data)**

*5.1. Menangani Data Kosong (Missing Values)*

In [None]:
#Teknik untuk mengatasi missing value

#1. Dropping
#menghapus seluruh baris atau kolom yang memiliki missing value
sales_df = pd.read_csv("https://raw.githubusercontent.com/dicodingacademy/dicoding_dataset/main/DicodingCollection/sales.csv")
print(sales_df.dropna(axis=0, inplace=True))


#2.Imputation
#Metode ini bekerja dengan cara mengisi (fill) missing value dengan nilai tertentu
sales_df = pd.read_csv("https://raw.githubusercontent.com/dicodingacademy/dicoding_dataset/main/DicodingCollection/sales.csv")
print(sales_df['total_price'].fillna(sales_df['total_price'].mean()))

#3.Interpolation
data=pd.read_csv('bbca_index.csv')
data.close_price.interpolate(method='linear', limit_direction='forward', inplace=True)


FileNotFoundError: [Errno 2] No such file or directory: 'data.csv'

*5.2. Menangani Data Duplikat*

In [None]:
#Teknik Untuk Mengatasi Duplicated Data

#method drop_duplicates()
df = pd.read_csv("data.csv")
df.drop_duplicates(inplace=True)

*5.3. Menangani Outlier*

In [None]:
#Teknik untuk mengatasi Outlier

#1.Drop
#menghapus seluruh baris yang mengandung outlier
df = pd.read_csv("data.csv")

Q1 = (df['TotalCharges']).quantile(0.25)
Q3 = (df['TotalCharges']).quantile(0.75)
IQR = Q3 - Q1

maximum = Q3 + (1.5*IQR)
minimum = Q1 - (1.5*IQR)

kondisi_lower_than = df['TotalCharges'] < minimum
kondisi_more_than = df['TotalCharges'] > maximum

df.drop(df[kondisi_lower_than].index, inplace=True)
df.drop(df[kondisi_more_than].index, inplace=True)

#2.Imputation
#Nilai yang bisa kita gunakan ialah mean, median, dan mode. Selain itu, tidak jarang juga kita mengganti outlier dengan boundary value.
df = pd.read_csv("data.csv")
Q1 = (df['TotalCharges']).quantile(0.25)
Q3 = (df['TotalCharges']).quantile(0.75)
IQR = Q3 - Q1

maximum = Q3 + (1.5*IQR)
minimum = Q1 - (1.5*IQR)

kondisi_lower_than = df['TotalCharges'] < minimum
kondisi_more_than = df['TotalCharges'] > maximum

df.mask(cond=kondisi_more_than, maximum, axis=1, inplace=True)
df.mask(cond=kondisi_lower_than, minimum, axis=1, inplace=True)


**Bab 6: Analisis & Agregasi Data**

*6.1: Perhitungan Statistik Dasar*

In [1]:
import pandas as pd

# Dataframe yang akan kita gunakan
data = {
    'Nama': ['Ali', 'Budi', 'Citra', 'Dewi', 'Eka'],
    'Prodi': ['Informatika', 'Matematika', 'Biologi', 'Informatika', 'Biologi'],
    'Nilai': [85, 92, 78, 88, 92]
}
df = pd.DataFrame(data)

# Menjumlahkan semua nilai
total_nilai = df['Nilai'].sum()
print(f"Total semua nilai: {total_nilai}")

# Mencari nilai tertinggi
nilai_tertinggi = df['Nilai'].max()
print(f"Nilai tertinggi: {nilai_tertinggi}")

# Mencari nilai terendah
nilai_terendah = df['Nilai'].min()
print(f"Nilai terendah: {nilai_terendah}")

# Mencari nilai tengah (median)
nilai_tengah = df['Nilai'].median()
print(f"Nilai tengah (median): {nilai_tengah}")

# Menghitung jumlah data
jumlah_data = df['Nilai'].count()
print(f"Jumlah data nilai: {jumlah_data}")

# Menghitung rata-rata untuk kolom 'Population'
rata_rata_nilai = df['Nilai'].mean()
print(f"Rata-rata Nilai: {rata_rata_nilai:,.2f}")

Total semua nilai: 435
Nilai tertinggi: 92
Nilai terendah: 78
Nilai tengah (median): 88.0
Jumlah data nilai: 5
Rata-rata Nilai: 87.00


*6.2. Agregasi dengan groupby()*

In [None]:
#groupby() yang dapat membantu kita dalam membuat pivot table secara lebih efisien dan scalable
#groupby() adalah suatu method yang memungkinkan kita untuk melakukan operasi pada data frame berdasarkan kategori tertentu

body_measurement_df = pd.DataFrame.from_records((
  (2, 83.82, 8.4),
  (4, 99.31, 16.97),
  (3, 96.52, 14.41),
  (6, 114.3, 20.14),
  (4, 101.6, 16.91),
  (2, 86.36, 12.64),
  (3, 92.71, 14.23),
  (2, 85.09, 11.11),
  (2, 85.85, 14.18),
  (5, 106.68, 20.01),
  (4, 99.06, 13.17),
  (5, 109.22, 15.36),
  (4, 100.84, 14.78),
  (6, 115.06, 20.06),
  (2, 84.07, 10.02),
  (7, 121.67, 28.4),
  (3, 94.49, 14.05),
  (6, 116.59, 17.55),
  (7, 121.92, 22.96),
), columns=("age", "height_cm", "weight_kg"))

print(body_measurement_df.groupby(by="age").mean())
print(body_measurement_df.groupby(by='age').agg({
    'height_cm': 'mean',
    'weight_kg': ['mean','max', 'min'],
}))

*6.3: Menghitung Frekuensi Kategori (.value_counts())*

In [None]:
# Menghitung jumlah mahasiswa di setiap prodi
frekuensi_prodi = df['Prodi'].value_counts()

print("--- Frekuensi Mahasiswa per Prodi ---")
print(frekuensi_prodi)

*6.4. Analisis Korelasi (.corr())*

In [None]:
#Correlation
sample_data = {
    'name': ['John', 'Alia', 'Ananya', 'Steve', 'Ben'],
    'age': [24, 22, 23, 25, 28],
    'communication_skill_score': [85, 70, 75, 90, 90],
    'quantitative_skill_score': [80, 90, 80, 75, 70]
    }
db = pd.DataFrame(sample_data)
db.corr(numeric_only=True)

In [None]:
#Covariance
sample_data = {
    'name': ['John', 'Alia', 'Ananya', 'Steve', 'Ben'],
    'age': [24, 22, 23, 25, 28],
    'communication_skill_score': [85, 70, 75, 90, 90],
    'quantitative_skill_score': [80, 90, 80, 75, 70]
    }

dc = pd.DataFrame(sample_data)
dc.cov(numeric_only=True)

Unnamed: 0,age,communication_skill_score,quantitative_skill_score
age,1.0,0.848855,-0.922489
communication_skill_score,0.848855,1.0,-0.890724
quantitative_skill_score,-0.922489,-0.890724,1.0


**Contoh Latihan Data Wrangling**

•	Tahap gathering data.

•	Tahap assessing data.

•	Tahap cleaning data.

In [None]:
import pandas as pd
#Gathering Data
customers_df = pd.read_csv("https://raw.githubusercontent.com/dicodingacademy/dicoding_dataset/main/DicodingCollection/customers.csv")
customers_df.head()

#Assessing Data
print("====PENGECEKAN TIPE DATA TIAP KOLOM====")
customers_df.info() #Mengecek tipe data setiap kolom
print("\n====PENGECEKAN MISSING VALUE====")
print(customers_df.isna().sum()) #Mengecek missing value
print("\n====PENGECEKAN DUPLICATE DATA====")
print("Jumlah duplikasi: ", customers_df.duplicated().sum()) #mengecek data yang duplikat
print("\n====RINGKASAN PARAMETER STATISTIK====")
print(customers_df.describe()) #menampilkan ringkasan parameter statistik

#Cleaning Data
#Menghilangkan duplicated data
print("\n====PENANGANAN DUPLICATED DATA====")
customers_df.drop_duplicates(inplace=True)
print("Jumlah duplikasi: ", customers_df.duplicated().sum())

#Menangani Missing value
print("\n====PENANGANAN MISSING VALUE====")
print(customers_df[customers_df.gender.isna()]) #untuk melihat baris yang memiliki missing value pada kolom gender
print(customers_df.gender.value_counts()) #untuk mengidentifikasi nilai yang dominan sebagai pengganti missing value
customers_df.fillna(value="Prefer not to say", inplace=True)
print("\nJumlah Missing Value Tiap Kolom (Sesudah):")
print(customers_df.isna().sum())

====PENGECEKAN TIPE DATA TIAP KOLOM====
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1007 entries, 0 to 1006
Data columns (total 9 columns):
 #   Column         Non-Null Count  Dtype 
---  ------         --------------  ----- 
 0   customer_id    1007 non-null   int64 
 1   customer_name  1007 non-null   object
 2   gender         989 non-null    object
 3   age            1007 non-null   int64 
 4   home_address   1007 non-null   object
 5   zip_code       1007 non-null   int64 
 6   city           1007 non-null   object
 7   state          1007 non-null   object
 8   country        1007 non-null   object
dtypes: int64(3), object(6)
memory usage: 70.9+ KB

====PENGECEKAN MISSING VALUE====
customer_id       0
customer_name     0
gender           18
age               0
home_address      0
zip_code          0
city              0
state             0
country           0
dtype: int64

====PENGECEKAN DUPLICATE DATA====
Jumlah duplikasi:  6

====RINGKASAN PARAMETER STATISTIK====
       c

**Soal Latihan Data Wrangling**

Kerjakan tahapan gathering, assessing, dan cleaning data seperti contoh diatas menggunakan kedua dataset dibawah ini,

orders_df = pd.read_csv("https://raw.githubusercontent.com/dicodingacademy/dicoding_dataset/main/DicodingCollection/orders.csv")

sales_df = pd.read_csv("https://raw.githubusercontent.com/dicodingacademy/dicoding_dataset/main/DicodingCollection/sales.csv")