## Data Frame Pada Python

DataFrame berbentuk dua dimensi sebagaimana matriks. DataFrame adalah struktur data yang memungkinkan untuk menyimpan beberapa variabel dengan lebih dari satu tipe data. Data dalam satu variabel yang sama disimpan dalam satu kolom yang dapat diberi nama. DataFrame adalah representasi khusus untuk mengolah data dalam bentuk spreadsheet. Hal ini memungkinkan kita untuk mengimpor file dari ekstensi CSV, XLS, atau lainnya ke dalam Python.

### Mengimpor Library

In [None]:
import pandas as pd
import numpy as np

### Membuat Data Frame Pada Python

**Membuat Data Frame dari List**

In [None]:
# Membuat List isian dataframe
List1 =  ['Senin', 'Selasa', 'Rabu', 'Kamis', 'Jumat', 'Sabtu', 'Minggu']
  
# Membuat DataFrame
df = pd.DataFrame(List1)

# Memanggil DataFrame
df

Unnamed: 0,0
0,Senin
1,Selasa
2,Rabu
3,Kamis
4,Jumat
5,Sabtu
6,Minggu


In [None]:
# Membuat List isian DataFrame
List1 =  ['Senin', 'Selasa', 'Rabu', 'Kamis', 'Jumat', 'Sabtu', 'Minggu']

# Membuat DataFrame dengan Indeks dan Nama Kolom Tertentu
df = pd.DataFrame(List1,
                  index=["Satu", "Dua", "Tiga", "Empat", "Lima", "Enam", "Tujuh"], # Menamai baris
                  columns=["Nama Hari"])                                         # Menamai kolom

# Memanggil DataFrame
df

Unnamed: 0,Nama Hari
Satu,Senin
Dua,Selasa
Tiga,Rabu
Empat,Kamis
Lima,Jumat
Enam,Sabtu
Tujuh,Minggu


In [None]:
# Membuat List isian DataFrame
List1 = ['Senin', 'Selasa', 'Rabu', 'Kamis', 'Jumat', 'Sabtu', 'Minggu']
List2 = [10000,10000,10000,10000,10000,25000,25000]

# Membuat DataFrame dengan Indeks dan Nama Kolom Tertentu
df = pd.DataFrame(list(zip(List1, List2)),
                  columns=["Nama Hari", "Harga Tiket Zoo"])  # Menamai Kolom
                  
#Memanggil DataFrame
df

Unnamed: 0,Nama Hari,Harga Tiket Zoo
0,Senin,10000
1,Selasa,10000
2,Rabu,10000
3,Kamis,10000
4,Jumat,10000
5,Sabtu,25000
6,Minggu,25000


In [None]:
# Membuat List MultiDimensi     
List1 = [['Kia', 21], ['Nuri', 20],
       ['Iza', 22], ['Nada', 21]]

# Membuat Data Frame
df = pd.DataFrame(List1, columns =['Nama', 'Umur'])

#Memanggil Data Frame
df

Unnamed: 0,Nama,Umur
0,Kia,21
1,Nuri,20
2,Iza,22
3,Nada,21


**Membuat Data Frame dari Dictionary**


In [None]:
# Membuat List untuk Dictionary
List_Nama    = ["Iyem", "Indah", "Ira", "Inem"]
List_Jurusan = ["Hukum", "Biologi", "Kimia", "Aktuaria"]
List_Nilai   = [90, 40, 80, 98]
  
# Membuat Dictionary
dict1 = {'Nama': List_Nama, 'Juruan': List_Jurusan, 'Nilai': List_Nilai} 

# Membuat Data Frame
df = pd.DataFrame(dict1)

# Memanggil Data Frame
df

Unnamed: 0,Nama,Juruan,Nilai
0,Iyem,Hukum,90
1,Indah,Biologi,40
2,Ira,Kimia,80
3,Inem,Aktuaria,98


### Mengimpor DataFrame Pada Python

**Mengimpor Data Frame dari Format CSV**

In [None]:
# Mengimpor Data Frame
df = pd.read_csv("https://raw.githubusercontent.com/Erykka/Basic-Python-Programming-for-Data-Science/main/SuperStoreDataset.csv")

# Memanggil Data Frame
df

Unnamed: 0,order_id,order_date,customer_id,segment,category,sub_category,sales,quantity,profit
0,CA-2016-152156,11/8/2016,CG-12520,Consumer,Furniture,Bookcases,26196,2,419136
1,CA-2016-152156,11/8/2016,CG-12520,Consumer,Furniture,Chairs,73194,3,219582
2,CA-2016-138688,6/12/2016,DV-13045,Corporate,Office Supplies,Labels,1462,2,68714
3,US-2015-108966,10/11/2015,SO-20335,Consumer,Furniture,Tables,9575775,5,-383031
4,US-2015-108966,10/11/2015,SO-20335,Consumer,Office Supplies,Storage,22368,2,25164
...,...,...,...,...,...,...,...,...,...
9983,CA-2014-110422,1/21/2014,TB-21400,Consumer,Furniture,Furnishings,25248,3,41028
9984,CA-2017-121258,2/26/2017,DB-13060,Consumer,Furniture,Furnishings,9196,2,156332
9985,CA-2017-121258,2/26/2017,DB-13060,Consumer,Technology,Phones,258576,2,193932
9986,CA-2017-121258,2/26/2017,DB-13060,Consumer,Office Supplies,Paper,296,4,1332


**Mengimpor Data Frame dari Format XLS/XLSX**

In [None]:
# Mengimpor Data Frame
df = pd.read_excel("/content/SuperStoreDataset.xlsx") #Pastikan sudah diupload di folder

# Memanggil Data Frame
df

FileNotFoundError: ignored

### Eksplorasi Data Frame

**Head**

In [None]:
#Melihat data teratas pada dataframe(default 5)
df.head()

**Tails**

In [None]:
#Melihat data terbawah pada dataframe(default 5)
df.tail()

**Shape**

In [None]:
#Melihat ukuran data frame(Baris X Kolom)
df.shape

**Column Names**

In [None]:
#Melihat nama-nama Kolom
df.columns.values 

**Tipe Data Masing-masing Kolom**

In [None]:
#Melihat Tipe Data Masing-masing Kolom
df.dtypes

In [None]:
#Melihat Tipe Data Masing-masing Kolom dengan lebih lengkap
df.info()

**Describe**

In [None]:
#Melihat statistik masing-masing kolom bertipe numerik
df.describe()

### Akses Data Frame(Slicing)

**Mengakses DataFrame Berdasarkan Baris**

In [None]:
df[0:10] #Mengakses data Frame dari baris pertama sampai baris ke 10(indeks 0 sampai indeks sebelum 10)

**Mengakses DataFrame Berdasarkan Nama Kolom**

In [None]:
#Mengakses 1 kolom pada Data Frame, Hasilnya berupa Series
df['profit'] 

In [None]:
#[Alternatif lain] Mengakses 1 kolom pada Data Frame, Hasilnya berupa Series
df.profit 

In [None]:
#Mengakses Data Frame lebih dari 1 kolom
df[['profit', 'customer_id']] 

In [None]:
#Menerapkan fungsi head pada slicing data frame
df[['profit', 'customer_id']].head(6)

In [None]:
#Mengakses data frame pada baris dan kolom tertentu
df.iloc[0,2]

In [None]:
#Mengakses data frame pada baris dan kolom tertentu [Bentuk Interval]
df.iloc[0:10,2:5]

In [None]:
#Mengakses data pada kolom tertentu dengan kriteria tertentu
print(df[df['profit']>=68714])

print(df['profit'].max())

In [None]:
#Memperoleh indeks hasil pencarian data dengan kriteria tertentu
max_profit=df['profit'].max()
df.index[df['profit'] == max_profit].tolist()

In [None]:
#Memperoleh indeks hasil pencarian data dengan kriteria tertentu (Menggunakan And)
df[(df['profit']>=68714) & (df['quantity']>=2)]

In [None]:
#Memperoleh indeks hasil pencarian data dengan kriteria tertentu (Menggunakan Or)
df[(df['profit']>=68714) | (df['quantity']>=2)]

### Modifikasi Data Frame 1(Sort & Cleaning)

**Mengurutkan Data Berdasarkan Kolom tertentu**

In [None]:
#Mengurutkan data frame berdasarkan 1 kolom
df.sort_values(['profit'], ascending=True)

In [None]:
#Mengurutkan data frame dengan lebih dari 1 kolom
df.sort_values(['profit', 'quantity'], ascending=[True, False])

**Menghapus Missing Data(NA)**

In [None]:
df.dropna()

### Fungsi-fungsi pada Data Frame

**Count**

In [None]:
#Menghitung jumlah baris data dalam suatu kolom
df.count()

**Value Counts**

In [None]:
#Menghitung jumlah data per kelas dalam data kategori
df.segment.value_counts()

**Sum**

In [None]:
#Menjumlahkan data dalam satu kolom numerik
df.profit.sum()

**Max**

In [None]:
#Nilai maximum data dalam satu kolom numerik
df.profit.max()

**Min**

In [None]:
#Nilai minimum data dalam satu kolom numerik
df.profit.min()

**Mean**

In [None]:
#Nilai rata-rata data dalam satu kolom numerik
df.profit.mean()

**Isnull()**

In [None]:
#Menghitung jumlah data yang mengandung NA dalam sebuah dataset
df.isnull().sum()

## Eksploratory Data Anlysis[EDA] Dasar

Exploratory Data Analysis (EDA) adalah bagian dari proses data science. EDA menjadi sangat penting sebelum melakukan feature engineering dan modeling karena dalam tahap ini kita harus memahami datanya terlebih dahulu.

Exploratory Data Analysis mengacu pada proses kritis dalam melakukan investigasi awal pada data untuk menemukan pola, untuk menemukan anomali, untuk menguji hipotesis dan untuk memeriksa asumsi dengan bantuan statistik ringkasan dan representasi grafis. Dengan melakukan EDA, kita dapat lebih memahami kondisi dataset yang kita miliki. 

### Mengakses dataset

In [18]:
df = pd.read_csv("https://raw.githubusercontent.com/Erykka/Basic-Python-Programming-for-Data-Science/main/SuperStoreDataset.csv")
df.head() 

Unnamed: 0,order_id,order_date,customer_id,segment,category,sub_category,sales,quantity,profit
0,CA-2016-152156,11/8/2016,CG-12520,Consumer,Furniture,Bookcases,26196,2,419136
1,CA-2016-152156,11/8/2016,CG-12520,Consumer,Furniture,Chairs,73194,3,219582
2,CA-2016-138688,6/12/2016,DV-13045,Corporate,Office Supplies,Labels,1462,2,68714
3,US-2015-108966,10/11/2015,SO-20335,Consumer,Furniture,Tables,9575775,5,-383031
4,US-2015-108966,10/11/2015,SO-20335,Consumer,Office Supplies,Storage,22368,2,25164


### Memahami dataset

Variabel-variabel yang terdapat pada dataset ini adalah sebagai berikut:
1. **order_id** = Nomor ID pembelian(nota)
2. **order_data** = Tanggal pembelian
3. **customer_id** = Nomor ID pembeli
4. **segment** = Segmen produk 
5. **category** = Kategori produk
6. **sub_category** = Sub kategori produk
7. **sales** = Total harga pembelian
8. **quantity** = Jumlah produk dibeli
9. **profit** = Keuntungan


### Dimensi Data

In [None]:
df.shape

Artinya kita memiliki data dengan 9 kolom dan 9988 baris

### Variabel Pada Dataset

In [None]:
df.columns.values 

In [None]:
df.dtypes

In [None]:
df.info() 

Kita dapat mengetahui tipe-tipe data masing-masing variabel dan nama-nama variabel dalam dataset

### Mengecek Missing Data

In [None]:
df.isnull().sum()

Kolom-kolom dengan data kosong adalah: Age, Cabin, Embarked

### Melihat Statistik Data

In [None]:
df.describe()

## Eksploratory Data Analysis[EDA] Lanjut

Setelah EDA dasar, eksplorasi selanjutnya adalah berupa pencarian insight sesuai kebutuhan kita. Misal kita ingin menjawab sebuah pertanyaan seperti berikut:

***Segment Produk Apakah Yang memiliki Keuntungan Tertinggi?***

In [None]:
#Melihat Segment Apa Saja Yang Ada
df.segment.value_counts()

In [None]:
#Memilih masing-masing segmen
df_Consumer=df[df['segment']=='Consumer']
df_Corporate=df[df['segment']=='Corporate']
df_Home_Office=df[df['segment']=='Home Office']

In [None]:
df_Consumer.profit.sum()

In [None]:
df_Corporate.profit.sum()

In [None]:
df_Home_Office.profit.sum()

Jadi, segmen dengan keuntungan total tertinggi adalah **Consumer**