# Studi Kasus Data Iris : Manipulasi dan Ekspor Data

**Author:** Ferdian Bangkit Wijaya  
**Date:** October 5, 2025

Notebook ini merupakan implementasi Python dari analisis data Iris yang mencakup manipulasi data dan ekspor dalam berbagai format.

## Langkah 0: Persiapan - Memuat Library

Pertama, kita muat library yang diperlukan seperti pandas, numpy, dan library lainnya untuk manipulasi data.

In [1]:
# Import library yang diperlukan
import pandas as pd
import numpy as np
from sklearn.datasets import load_iris
import warnings

# Suppress warnings untuk output yang lebih bersih
warnings.filterwarnings('ignore')

print("Library berhasil dimuat!")
print(f"Pandas version: {pd.__version__}")
print(f"NumPy version: {np.__version__}")

Library berhasil dimuat!
Pandas version: 2.3.1
NumPy version: 2.3.1


## Langkah 1: Memuat & Inspeksi Data Awal

Kita akan menggunakan dataset iris dari scikit-learn yang sama dengan dataset iris di R.

In [2]:
# Load dataset iris
iris_data = load_iris()

# Buat DataFrame dengan nama kolom yang sesuai
iris_df = pd.DataFrame(iris_data.data, columns=iris_data.feature_names)
iris_df['Species'] = iris_data.target_names[iris_data.target]

# Rename kolom untuk konsistensi dengan versi R
iris_df.columns = ['Sepal.Length', 'Sepal.Width', 'Petal.Length', 'Petal.Width', 'Species']

# Tampilkan head dan info dari DataFrame
print("Head dari dataset:")
display(iris_df.head())

print("\nInformasi dataset:")
print(iris_df.info())

print("\nDeskripsi statistik:")
display(iris_df.describe())

Head dari dataset:


Unnamed: 0,Sepal.Length,Sepal.Width,Petal.Length,Petal.Width,Species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa



Informasi dataset:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 150 entries, 0 to 149
Data columns (total 5 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   Sepal.Length  150 non-null    float64
 1   Sepal.Width   150 non-null    float64
 2   Petal.Length  150 non-null    float64
 3   Petal.Width   150 non-null    float64
 4   Species       150 non-null    object 
dtypes: float64(4), object(1)
memory usage: 6.0+ KB
None

Deskripsi statistik:


Unnamed: 0,Sepal.Length,Sepal.Width,Petal.Length,Petal.Width
count,150.0,150.0,150.0,150.0
mean,5.843333,3.057333,3.758,1.199333
std,0.828066,0.435866,1.765298,0.762238
min,4.3,2.0,1.0,0.1
25%,5.1,2.8,1.6,0.3
50%,5.8,3.0,4.35,1.3
75%,6.4,3.3,5.1,1.8
max,7.9,4.4,6.9,2.5


## 1. Membuat Variabel Turunan (Derived Variables)

**Tugas:** Membuat kolom Petal.Area dari perkalian Petal.Length dan Petal.Width.

In [3]:
# Membuat kolom Petal.Area
iris_df['Petal.Area'] = iris_df['Petal.Length'] * iris_df['Petal.Width']

# Verifikasi dengan menampilkan kolom-kolom terkait
print("Kolom-kolom terkait Petal Area:")
display(iris_df[['Petal.Length', 'Petal.Width', 'Petal.Area']].head())

Kolom-kolom terkait Petal Area:


Unnamed: 0,Petal.Length,Petal.Width,Petal.Area
0,1.4,0.2,0.28
1,1.4,0.2,0.28
2,1.3,0.2,0.26
3,1.5,0.2,0.3
4,1.4,0.2,0.28


## 2. Mengubah Nama Variabel (Rename)

**Tugas:** Mengubah nama kolom agar lebih konsisten (misal: Petal.Length menjadi Panjang_Petal).

In [4]:
# Rename kolom-kolom
iris_df = iris_df.rename(columns={
    'Sepal.Length': 'Panjang_Sepal',
    'Sepal.Width': 'Lebar_Sepal',
    'Petal.Length': 'Panjang_Petal',
    'Petal.Width': 'Lebar_Petal'
})

# Tampilkan nama kolom yang baru
print("Nama kolom setelah rename:")
print(list(iris_df.columns))

print("\nHead dari DataFrame dengan nama kolom baru:")
display(iris_df.head())

Nama kolom setelah rename:
['Panjang_Sepal', 'Lebar_Sepal', 'Panjang_Petal', 'Lebar_Petal', 'Species', 'Petal.Area']

Head dari DataFrame dengan nama kolom baru:


Unnamed: 0,Panjang_Sepal,Lebar_Sepal,Panjang_Petal,Lebar_Petal,Species,Petal.Area
0,5.1,3.5,1.4,0.2,setosa,0.28
1,4.9,3.0,1.4,0.2,setosa,0.28
2,4.7,3.2,1.3,0.2,setosa,0.26
3,4.6,3.1,1.5,0.2,setosa,0.3
4,5.0,3.6,1.4,0.2,setosa,0.28


## 3. Mengonversi Tipe Variabel

**Tugas:** Mengubah tipe data kolom Panjang_Petal dari numerik menjadi string (object).

In [5]:
# Konversi tipe data kolom Panjang_Petal menjadi string
iris_df['Panjang_Petal_Str'] = iris_df['Panjang_Petal'].astype(str)

# Cek kembali tipe data untuk melihat perubahan
print("Tipe data setelah konversi:")
print(iris_df.dtypes)

print("\nContoh nilai dalam kolom Panjang_Petal_Str:")
print(iris_df[['Panjang_Petal', 'Panjang_Petal_Str']].head())

Tipe data setelah konversi:
Panjang_Sepal        float64
Lebar_Sepal          float64
Panjang_Petal        float64
Lebar_Petal          float64
Species               object
Petal.Area           float64
Panjang_Petal_Str     object
dtype: object

Contoh nilai dalam kolom Panjang_Petal_Str:
   Panjang_Petal Panjang_Petal_Str
0            1.4               1.4
1            1.4               1.4
2            1.3               1.3
3            1.5               1.5
4            1.4               1.4


## 4. Recode Kategori

**Tugas:** Menyingkat nama Species menjadi "S", "VE", dan "VI".

In [6]:
# Recode kategori Species
species_mapping = {
    'setosa': 'S',
    'versicolor': 'VE', 
    'virginica': 'VI'
}

iris_df['Species_Code'] = iris_df['Species'].map(species_mapping)

# Tampilkan hasil recode
print("Hasil recode Species:")
display(iris_df[['Species', 'Species_Code']].head())

# Verifikasi semua kategori sudah ter-recode
print("\nValue counts untuk Species_Code:")
print(iris_df['Species_Code'].value_counts())

Hasil recode Species:


Unnamed: 0,Species,Species_Code
0,setosa,S
1,setosa,S
2,setosa,S
3,setosa,S
4,setosa,S



Value counts untuk Species_Code:
Species_Code
S     50
VE    50
VI    50
Name: count, dtype: int64


## 5. Membuat Variabel Logika

**Tugas:** Membuat kolom Is_Panjang (True/False) jika Panjang_Petal > 5.

In [7]:
# Membuat variabel logika
iris_df['Is_Panjang'] = iris_df['Panjang_Petal'] > 5

# Tampilkan contoh hasil (mengambil beberapa baris spesifik untuk perbandingan)
print("Contoh hasil variabel logika:")
sample_rows = [49, 100, 105]  # Equivalen dengan slice(c(50, 101, 106)) di R
display(iris_df.loc[sample_rows, ['Panjang_Petal', 'Is_Panjang']])

print("\nDistribusi variabel Is_Panjang:")
print(iris_df['Is_Panjang'].value_counts())

Contoh hasil variabel logika:


Unnamed: 0,Panjang_Petal,Is_Panjang
49,1.4,False
100,6.0,True
105,6.6,True



Distribusi variabel Is_Panjang:
Is_Panjang
False    108
True      42
Name: count, dtype: int64


## 6. Operasi String

**Tugas:** Mengubah nama Species menjadi huruf kapital semua.

In [8]:
# Operasi string - mengubah ke huruf kapital
iris_df['Species_Upper'] = iris_df['Species'].str.upper()

# Tampilkan hasil operasi string
print("Hasil operasi string:")
display(iris_df[['Species', 'Species_Upper']].head())

print("\nUnique values dalam Species_Upper:")
print(iris_df['Species_Upper'].unique())

Hasil operasi string:


Unnamed: 0,Species,Species_Upper
0,setosa,SETOSA
1,setosa,SETOSA
2,setosa,SETOSA
3,setosa,SETOSA
4,setosa,SETOSA



Unique values dalam Species_Upper:
['SETOSA' 'VERSICOLOR' 'VIRGINICA']


## 7. Identifikasi Duplikat

**Tugas:** Menemukan dan menghitung baris yang identik dalam dataset.

In [9]:
# Identifikasi duplikat
jumlah_duplikat = iris_df.duplicated().sum()

print(f"Jumlah baris duplikat yang ditemukan: {jumlah_duplikat}")

# Filter baris yang terduplikasi (baik duplikat pertama maupun yang lain)
semua_baris_terlibat = iris_df[iris_df.duplicated(keep=False)]

if len(semua_baris_terlibat) > 0:
    # Urutkan agar mudah dibandingkan
    semua_baris_terlibat = semua_baris_terlibat.sort_values(['Panjang_Petal', 'Lebar_Petal'])
    
    print("\nBaris-baris yang terduplikasi:")
    display(semua_baris_terlibat)
else:
    print("\nTidak ada baris yang terduplikasi dalam dataset.")

Jumlah baris duplikat yang ditemukan: 1

Baris-baris yang terduplikasi:


Unnamed: 0,Panjang_Sepal,Lebar_Sepal,Panjang_Petal,Lebar_Petal,Species,Petal.Area,Panjang_Petal_Str,Species_Code,Is_Panjang,Species_Upper
101,5.8,2.7,5.1,1.9,virginica,9.69,5.1,VI,True,VIRGINICA
142,5.8,2.7,5.1,1.9,virginica,9.69,5.1,VI,True,VIRGINICA


## 8. Subsetting & Sorting

**Tugas:** Memilih (filter) bunga versicolor, memilih (select) kolom Species dan Panjang_Petal, lalu mengurutkan (arrange) dari yang terpanjang.

In [10]:
# Subsetting dan sorting
subset_sorted_df = (iris_df
                   .query("Species == 'versicolor'")  # Filter
                   [['Species', 'Panjang_Petal']]     # Select kolom
                   .sort_values('Panjang_Petal', ascending=False)  # Sort descending
                   .reset_index(drop=True))  # Reset index

# Tampilkan hasil subsetting dan sorting
print("Hasil subsetting dan sorting (versicolor, diurutkan berdasarkan Panjang_Petal):")
display(subset_sorted_df.head())

print(f"\nTotal baris versicolor: {len(subset_sorted_df)}")

Hasil subsetting dan sorting (versicolor, diurutkan berdasarkan Panjang_Petal):


Unnamed: 0,Species,Panjang_Petal
0,versicolor,5.1
1,versicolor,5.0
2,versicolor,4.9
3,versicolor,4.9
4,versicolor,4.8



Total baris versicolor: 50


## 9. Menggabungkan Data (Merge/Join)

**Tugas:** Membuat tabel baru berisi informasi habitat, lalu menggabungkannya ke data utama.

In [11]:
# Membuat DataFrame baru untuk digabungkan
habitat_info = pd.DataFrame({
    'Species': ['setosa', 'versicolor', 'virginica'],
    'Habitat': ['Sunny Meadow', 'Wetland', 'Forest Edge']
})

print("DataFrame habitat_info:")
display(habitat_info)

# Menggabungkan dengan left join
iris_final_df = iris_df.merge(habitat_info, on='Species', how='left')

# Tampilkan contoh hasil akhir dengan kolom Habitat yang baru
print("\nContoh hasil setelah join:")
display(iris_final_df[['Species', 'Habitat', 'Panjang_Petal']].head())

print(f"\nShape data final: {iris_final_df.shape}")
print(f"Kolom-kolom dalam data final: {list(iris_final_df.columns)}")

DataFrame habitat_info:



Unnamed: 0,Species,Habitat
0,setosa,Sunny Meadow
1,versicolor,Wetland
2,virginica,Forest Edge



Contoh hasil setelah join:


Unnamed: 0,Species,Habitat,Panjang_Petal
0,setosa,Sunny Meadow,1.4
1,setosa,Sunny Meadow,1.4
2,setosa,Sunny Meadow,1.3
3,setosa,Sunny Meadow,1.5
4,setosa,Sunny Meadow,1.4



Shape data final: (150, 11)
Kolom-kolom dalam data final: ['Panjang_Sepal', 'Lebar_Sepal', 'Panjang_Petal', 'Lebar_Petal', 'Species', 'Petal.Area', 'Panjang_Petal_Str', 'Species_Code', 'Is_Panjang', 'Species_Upper', 'Habitat']


## 10. Ekspor Data ke CSV

**Tugas:** Menyimpan dataframe final (iris_final_df) ke dalam sebuah file CSV yang universal. CSV (Comma-Separated Values) adalah format teks sederhana yang bisa dibuka oleh hampir semua software analisis data.

In [12]:
# Ekspor ke CSV
iris_final_df.to_csv('iris_data_final.csv', index=False)

print("File iris_data_final.csv berhasil dibuat.")
print(f"File disimpan di direktori kerja: {iris_final_df.shape[0]} baris, {iris_final_df.shape[1]} kolom")

# Verifikasi dengan membaca kembali beberapa baris
print("\nVerifikasi - 3 baris pertama dari file CSV:")
verification_df = pd.read_csv('iris_data_final.csv')
display(verification_df.head(3))

File iris_data_final.csv berhasil dibuat.
File disimpan di direktori kerja: 150 baris, 11 kolom

Verifikasi - 3 baris pertama dari file CSV:

File disimpan di direktori kerja: 150 baris, 11 kolom

Verifikasi - 3 baris pertama dari file CSV:


Unnamed: 0,Panjang_Sepal,Lebar_Sepal,Panjang_Petal,Lebar_Petal,Species,Petal.Area,Panjang_Petal_Str,Species_Code,Is_Panjang,Species_Upper,Habitat
0,5.1,3.5,1.4,0.2,setosa,0.28,1.4,S,False,SETOSA,Sunny Meadow
1,4.9,3.0,1.4,0.2,setosa,0.28,1.4,S,False,SETOSA,Sunny Meadow
2,4.7,3.2,1.3,0.2,setosa,0.26,1.3,S,False,SETOSA,Sunny Meadow


## 11. Ekspor Data ke Excel

**Tugas:** Menyimpan dataframe final ke dalam format file Excel (.xlsx), yang sangat umum digunakan di lingkungan bisnis. Untuk melakukan ini, kita memerlukan library openpyxl atau xlsxwriter.

In [13]:
# Install openpyxl jika belum terinstall
try:
    import openpyxl
    print("openpyxl sudah terinstall")
except ImportError:
    import subprocess
    import sys
    print("Installing openpyxl...")
    subprocess.check_call([sys.executable, "-m", "pip", "install", "openpyxl"])
    print("openpyxl berhasil diinstall")

# Ekspor ke Excel
iris_final_df.to_excel('iris_data_final.xlsx', index=False, sheet_name='Iris_Data')

print("File iris_data_final.xlsx berhasil dibuat.")
print(f"File Excel disimpan dengan sheet 'Iris_Data': {iris_final_df.shape[0]} baris, {iris_final_df.shape[1]} kolom")

# Verifikasi dengan membaca kembali beberapa baris
print("\nVerifikasi - 3 baris pertama dari file Excel:")
verification_xlsx = pd.read_excel('iris_data_final.xlsx')
display(verification_xlsx.head(3))

openpyxl sudah terinstall
File iris_data_final.xlsx berhasil dibuat.
File Excel disimpan dengan sheet 'Iris_Data': 150 baris, 11 kolom

Verifikasi - 3 baris pertama dari file Excel:
File iris_data_final.xlsx berhasil dibuat.
File Excel disimpan dengan sheet 'Iris_Data': 150 baris, 11 kolom

Verifikasi - 3 baris pertama dari file Excel:


Unnamed: 0,Panjang_Sepal,Lebar_Sepal,Panjang_Petal,Lebar_Petal,Species,Petal.Area,Panjang_Petal_Str,Species_Code,Is_Panjang,Species_Upper,Habitat
0,5.1,3.5,1.4,0.2,setosa,0.28,1.4,S,False,SETOSA,Sunny Meadow
1,4.9,3.0,1.4,0.2,setosa,0.28,1.4,S,False,SETOSA,Sunny Meadow
2,4.7,3.2,1.3,0.2,setosa,0.26,1.3,S,False,SETOSA,Sunny Meadow
