# Module 3 Section 1 Lab 1 - Data Manipulation with Pandas

# Learning Objective

1. Pandas Introduction: Series & DataFrame
2. Basic Properties
3. Selection & Filtering
4. Data Aggregation
5. Descriptive Statistical Analysis
6. Transformasi Data - Menggunakan Map()
7. Transformasi Data - Replacing Values
8. Transformasi Data - Discretization & Binning
9. Joining DataFrame
3. Importing Files - Excel Sheets, CSV

# Pandas Series And DataFrame

Pandas adalah paket Python yang menyediakan struktur data yang cepat, fleksibel, dan ekspresif yang dirancang untuk bekerja dengan data "relasional" atau "berlabel" menjadi mudah dan intuitif.

Pandas adalah tools yang sangat cocok untuk analisis dan pemodelan data.

Dua struktur Pandas adalah **Series** dan **DataFrame**.

## Pandas Series

Pandas Series adalah array berlabel satu dimensi yang mampu menampung data jenis apa pun (int, string, float, objek, dll). Axis labels disebut indeks.

Pada kode di bawah ini, kita akan membuat array sederhana menggunakan numpy lalu dikonversi ke pandas Series.

In [1]:
# import library
import numpy as np   
import pandas as pd

x = np.array(['a','b','c'])

df = pd.Series(x)

In [2]:
type(x)

numpy.ndarray

In [3]:
type(df)

pandas.core.series.Series

In [5]:
df

0    a
1    b
2    c
dtype: object

Kita dapat mengubah indeks menggunakan atribut `index`

In [9]:
ser = pd.Series([1,2,3], index=['a','b','c'])

ser

a    1
b    2
c    3
dtype: int64

Mengambil / mengakses elemen menggunakan indeks

In [10]:
print(ser['c'])    

3


## Pandas DataFrame

DataFrame adalah struktur data dua dimensi, yaitu data disejajarkan dalam mode tabular dalam baris dan kolom.

In [11]:
# buat dictionary
data = {
    'name': ['Molly','Nur','Indar','Adit'],
    'year': [2012, 2014, 2015, 2012],
    'score': [8, 12, 25, 7]
       }

type(data) 

dict

In [12]:
# ubah dict menjadi dataframe
df = pd.DataFrame(data)

print(df)

    name  year  score
0  Molly  2012      8
1    Nur  2014     12
2  Indar  2015     25
3   Adit  2012      7


In [13]:
df_2 = pd.DataFrame(data, index=['a','b','c','d'])

print(df_2)

    name  year  score
a  Molly  2012      8
b    Nur  2014     12
c  Indar  2015     25
d   Adit  2012      7


In [15]:
type(df_2)

pandas.core.frame.DataFrame

Pandas menggunakan metode `loc()` dan `iloc()` untuk manipulasi data.

`loc()` adalah metode pemilihan data berbasis label yang artinya kita harus memberikan nama baris atau kolom yang ingin kita pilih. Sedangkan, `iloc()` adalah metode pemilihan data berbasis indeks yang berarti bahwa kita harus memberikan indeks bilangan untuk memilih baris atau kolom tertentu.

In [17]:
print(df_2.loc['a'])

name     Molly
year      2012
score        8
Name: a, dtype: object


In [19]:
print(df_2.iloc[0])

name     Molly
year      2012
score        8
Name: a, dtype: object


# Pandas: DataFrame Basic Properties

Kita akan mengonversi list sederhana menjadi pandas DataFrame.

In [20]:
import pandas as pd

# buat list sederhana
lst = ['Tokyo', 'Denver', 'Rio', 'Berlin']

# convert list ke dataframe
df = pd.DataFrame(lst)

print(df)

        0
0   Tokyo
1  Denver
2     Rio
3  Berlin


Di sini, kita akan mengonversi dict ke pandas Dataframe.

In [21]:
import pandas as pd
 
data = {
    'Name':['Tokyo', 'Denver', 'Rio', 'Berlin'],
    'Age':[20, 22, 21, 25]
        }
 
df = pd.DataFrame(data)
 
print(df)

     Name  Age
0   Tokyo   20
1  Denver   22
2     Rio   21
3  Berlin   25


# Pandas: Selection & Filtering

In [26]:
import pandas as pd

data = {
    'Name':['Kuncahyo Setyo Nugroho', 'Agusta Chandra', 'Anas Amirul', 'Edwin Gama Pradana', 'Eko Triatmojo', 'Ismail Akbar', 'Irfan Rosyidi'],
    'Age':[27, 22, 22, 30, 26, 24, 40],
    'Address':['Jakarta', 'Bandung', 'Medan', 'Surabaya', 'Surabaya', 'Malang', 'Jakarta'],
    'Qualification':['Msc', 'BSc', 'Mcs', 'Phd', 'Msc', 'Phd', 'Mcs'],
    'Score':[80, 45, 73, 92, 26, 80, 35],
    'Team':['Team A', 'Team B', 'Team A', 'Team C', 'Team A', 'Team A', 'Team C']
        }
 
df = pd.DataFrame(data)
print(df, '\n\n')

                     Name  Age   Address Qualification  Score    Team
0  Kuncahyo Setyo Nugroho   27   Jakarta           Msc     80  Team A
1          Agusta Chandra   22   Bandung           BSc     45  Team B
2             Anas Amirul   22     Medan           Mcs     73  Team A
3      Edwin Gama Pradana   30  Surabaya           Phd     92  Team C
4           Eko Triatmojo   26  Surabaya           Msc     26  Team A
5            Ismail Akbar   24    Malang           Phd     80  Team A
6           Irfan Rosyidi   40   Jakarta           Mcs     35  Team C 




In [27]:
df

Unnamed: 0,Name,Age,Address,Qualification,Score,Team
0,Kuncahyo Setyo Nugroho,27,Jakarta,Msc,80,Team A
1,Agusta Chandra,22,Bandung,BSc,45,Team B
2,Anas Amirul,22,Medan,Mcs,73,Team A
3,Edwin Gama Pradana,30,Surabaya,Phd,92,Team C
4,Eko Triatmojo,26,Surabaya,Msc,26,Team A
5,Ismail Akbar,24,Malang,Phd,80,Team A
6,Irfan Rosyidi,40,Jakarta,Mcs,35,Team C


In [28]:
df.T

Unnamed: 0,0,1,2,3,4,5,6
Name,Kuncahyo Setyo Nugroho,Agusta Chandra,Anas Amirul,Edwin Gama Pradana,Eko Triatmojo,Ismail Akbar,Irfan Rosyidi
Age,27,22,22,30,26,24,40
Address,Jakarta,Bandung,Medan,Surabaya,Surabaya,Malang,Jakarta
Qualification,Msc,BSc,Mcs,Phd,Msc,Phd,Mcs
Score,80,45,73,92,26,80,35
Team,Team A,Team B,Team A,Team C,Team A,Team A,Team C


Menampilkan data dari yang teratas. Nilai default adalah 5

In [32]:
df.head(3)

Unnamed: 0,Name,Age,Address,Qualification,Score,Team
0,Kuncahyo Setyo Nugroho,27,Jakarta,Msc,80,Team A
1,Agusta Chandra,22,Bandung,BSc,45,Team B
2,Anas Amirul,22,Medan,Mcs,73,Team A


Menampilkan data dari yang terbawah. Nilai default adalah 5

In [34]:
df.tail(3)

Unnamed: 0,Name,Age,Address,Qualification,Score,Team
4,Eko Triatmojo,26,Surabaya,Msc,26,Team A
5,Ismail Akbar,24,Malang,Phd,80,Team A
6,Irfan Rosyidi,40,Jakarta,Mcs,35,Team C


Menampilkan data sample. Nilai default adalah 1

In [36]:
df.sample(2)

Unnamed: 0,Name,Age,Address,Qualification,Score,Team
2,Anas Amirul,22,Medan,Mcs,73,Team A
6,Irfan Rosyidi,40,Jakarta,Mcs,35,Team C


Memilih spesifik kolom

In [37]:
df[['Name']]

Unnamed: 0,Name
0,Kuncahyo Setyo Nugroho
1,Agusta Chandra
2,Anas Amirul
3,Edwin Gama Pradana
4,Eko Triatmojo
5,Ismail Akbar
6,Irfan Rosyidi


In [38]:
df[['Name', 'Team']]

Unnamed: 0,Name,Team
0,Kuncahyo Setyo Nugroho,Team A
1,Agusta Chandra,Team B
2,Anas Amirul,Team A
3,Edwin Gama Pradana,Team C
4,Eko Triatmojo,Team A
5,Ismail Akbar,Team A
6,Irfan Rosyidi,Team C


Mmenampilkan dua baris pertama dengan *index slicing*

In [39]:
# tanda : menandakan dari indeks ke 0, jika di depan.
df[:2]

Unnamed: 0,Name,Age,Address,Qualification,Score,Team
0,Kuncahyo Setyo Nugroho,27,Jakarta,Msc,80,Team A
1,Agusta Chandra,22,Bandung,BSc,45,Team B


Menampilkan baris terakhir dengan *index slicing*

In [41]:
# dari indeks ke-2 sampai data terakhir
df[2:]

Unnamed: 0,Name,Age,Address,Qualification,Score,Team
2,Anas Amirul,22,Medan,Mcs,73,Team A
3,Edwin Gama Pradana,30,Surabaya,Phd,92,Team C
4,Eko Triatmojo,26,Surabaya,Msc,26,Team A
5,Ismail Akbar,24,Malang,Phd,80,Team A
6,Irfan Rosyidi,40,Jakarta,Mcs,35,Team C


Menampilkan semua baris dari indeks ke-1 hingga sebelum indeks ke-4 dengan *index slicing*

In [43]:
df[1:4]

Unnamed: 0,Name,Age,Address,Qualification,Score,Team
1,Agusta Chandra,22,Bandung,BSc,45,Team B
2,Anas Amirul,22,Medan,Mcs,73,Team A
3,Edwin Gama Pradana,30,Surabaya,Phd,92,Team C


Ingat metode `loc()` ?

Di sini kita akan menggunakan `loc` untuk memilih data orang yang tinggal di 'Surabaya' dan yang berusia > 20 tahun.

In [46]:
df.loc[(df.Address=='Surabaya') & (df.Age > 20)]

Unnamed: 0,Name,Age,Address,Qualification,Score,Team
3,Edwin Gama Pradana,30,Surabaya,Phd,92,Team C
4,Eko Triatmojo,26,Surabaya,Msc,26,Team A


Ingat ya, sedangkan `iloc()` adalah metode pemilihan berbasis indeks yang berarti bahwa kita menentukan indeks untuk memilih baris/kolom tertentu.

Kita lihat contohnya, ini akan mengembalikan baris dengan indeks 0, 2 dan 3.

In [63]:
df.iloc[[0, 2, 3]]

Unnamed: 0,Name,Age,Address,Qualification,Score,Team
0,Kuncahyo Setyo Nugroho,27,Jakarta,Msc,80,Team A
2,Anas Amirul,22,Medan,Mcs,73,Team A
3,Edwin Gama Pradana,30,Surabaya,Phd,92,Team C


Ini akan mengembalikan data **baris** dari indeks ke-1 hingga sebelum indeks ke-3, dan **kolom** indeks ke-1 hingga sebelum indeks ke-4.

In [50]:
df

Unnamed: 0,Name,Age,Address,Qualification,Score,Team
0,Kuncahyo Setyo Nugroho,27,Jakarta,Msc,80,Team A
1,Agusta Chandra,22,Bandung,BSc,45,Team B
2,Anas Amirul,22,Medan,Mcs,73,Team A
3,Edwin Gama Pradana,30,Surabaya,Phd,92,Team C
4,Eko Triatmojo,26,Surabaya,Msc,26,Team A
5,Ismail Akbar,24,Malang,Phd,80,Team A
6,Irfan Rosyidi,40,Jakarta,Mcs,35,Team C


In [64]:
df.iloc[1:3, 1:4]

Unnamed: 0,Age,Address,Qualification
1,22,Bandung,BSc
2,22,Medan,Mcs


# Pandas: Data Aggregation

In [65]:
df

Unnamed: 0,Name,Age,Address,Qualification,Score,Team
0,Kuncahyo Setyo Nugroho,27,Jakarta,Msc,80,Team A
1,Agusta Chandra,22,Bandung,BSc,45,Team B
2,Anas Amirul,22,Medan,Mcs,73,Team A
3,Edwin Gama Pradana,30,Surabaya,Phd,92,Team C
4,Eko Triatmojo,26,Surabaya,Msc,26,Team A
5,Ismail Akbar,24,Malang,Phd,80,Team A
6,Irfan Rosyidi,40,Jakarta,Mcs,35,Team C


In [66]:
df_team = df.groupby(['Team'])

In [68]:
# menampilkan data pertama hasil groupby
df_team.first()

Unnamed: 0_level_0,Name,Age,Address,Qualification,Score
Team,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Team A,Kuncahyo Setyo Nugroho,27,Jakarta,Msc,80
Team B,Agusta Chandra,22,Bandung,BSc,45
Team C,Edwin Gama Pradana,30,Surabaya,Phd,92


Menemukan data dalam group tertentu

In [74]:
df_team.get_group('Team A')

Unnamed: 0,Name,Age,Address,Qualification,Score,Team
0,Kuncahyo Setyo Nugroho,27,Jakarta,Msc,80,Team A
2,Anas Amirul,22,Medan,Mcs,73,Team A
4,Eko Triatmojo,26,Surabaya,Msc,26,Team A
5,Ismail Akbar,24,Malang,Phd,80,Team A


# Pandas: Descriptive Statistical Analysis

In [81]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7 entries, 0 to 6
Data columns (total 6 columns):
 #   Column         Non-Null Count  Dtype 
---  ------         --------------  ----- 
 0   Name           7 non-null      object
 1   Age            7 non-null      int64 
 2   Address        7 non-null      object
 3   Qualification  7 non-null      object
 4   Score          7 non-null      int64 
 5   Team           7 non-null      object
dtypes: int64(2), object(4)
memory usage: 464.0+ bytes


In [83]:
df.describe().T

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
Age,7.0,27.285714,6.290583,22.0,23.0,26.0,28.5,40.0
Score,7.0,61.571429,25.760804,26.0,40.0,73.0,80.0,92.0


In [80]:
print('Mean of Age', df['Age'].mean())
print('Median of Age', df['Age'].median())
print('Min of Age', df['Age'].min())
print('Max of Age', df['Age'].max())

Mean of Age 27.285714285714285
Median of Age 26.0
Min of Age 22
Max of Age 40


# Pandas: Transformasi Data Menggunakan Map()

In [84]:
# buat fungsi sederhana untuk mengembalikan inisial dari nama 
def get_code(name):
    return ''.join([x[0].upper() for x in name.split(' ')])

# map() akan memetakan fungsi get_code pada setiap baris
df['Code'] = df['Name'].map(get_code)

In [85]:
df

Unnamed: 0,Name,Age,Address,Qualification,Score,Team,Code
0,Kuncahyo Setyo Nugroho,27,Jakarta,Msc,80,Team A,KSN
1,Agusta Chandra,22,Bandung,BSc,45,Team B,AC
2,Anas Amirul,22,Medan,Mcs,73,Team A,AA
3,Edwin Gama Pradana,30,Surabaya,Phd,92,Team C,EGP
4,Eko Triatmojo,26,Surabaya,Msc,26,Team A,ET
5,Ismail Akbar,24,Malang,Phd,80,Team A,IA
6,Irfan Rosyidi,40,Jakarta,Mcs,35,Team C,IR


# Pandas: Transformasi Data - Replacing Values

In [89]:
# kita bisa menentukan kolom mana yang akan kita ubah valuenya
# atau semua kolom

df['Address'].replace('Papua','Jakarta', inplace=True)

df

Unnamed: 0,Name,Age,Address,Qualification,Score,Team,Code
0,Kuncahyo Setyo Nugroho,27,Jakarta,Msc,80,Team Alpha,KSN
1,Agusta Chandra,22,Bandung,BSc,45,Team B,AC
2,Anas Amirul,22,Medan,Mcs,73,Team Alpha,AA
3,Edwin Gama Pradana,30,Surabaya,Phd,92,Team C,EGP
4,Eko Triatmojo,26,Surabaya,Msc,26,Team Alpha,ET
5,Ismail Akbar,24,Malang,Phd,80,Team Alpha,IA
6,Irfan Rosyidi,40,Jakarta,Mcs,35,Team C,IR


# Pandas: Transformasi Data - Discretization & Binning

In [91]:
df

Unnamed: 0,Name,Age,Address,Qualification,Score,Team,Code
0,Kuncahyo Setyo Nugroho,27,Jakarta,Msc,80,Team Alpha,KSN
1,Agusta Chandra,22,Bandung,BSc,45,Team B,AC
2,Anas Amirul,22,Medan,Mcs,73,Team Alpha,AA
3,Edwin Gama Pradana,30,Surabaya,Phd,92,Team C,EGP
4,Eko Triatmojo,26,Surabaya,Msc,26,Team Alpha,ET
5,Ismail Akbar,24,Malang,Phd,80,Team Alpha,IA
6,Irfan Rosyidi,40,Jakarta,Mcs,35,Team C,IR


In [93]:
df['score_cat'] = pd.cut(df['Score'], bins=[0,60,80,100], labels=['Low','Medium','High'])

df

Unnamed: 0,Name,Age,Address,Qualification,Score,Team,Code,score_cat
0,Kuncahyo Setyo Nugroho,27,Jakarta,Msc,80,Team Alpha,KSN,Medium
1,Agusta Chandra,22,Bandung,BSc,45,Team B,AC,Low
2,Anas Amirul,22,Medan,Mcs,73,Team Alpha,AA,Medium
3,Edwin Gama Pradana,30,Surabaya,Phd,92,Team C,EGP,High
4,Eko Triatmojo,26,Surabaya,Msc,26,Team Alpha,ET,Low
5,Ismail Akbar,24,Malang,Phd,80,Team Alpha,IA,Medium
6,Irfan Rosyidi,40,Jakarta,Mcs,35,Team C,IR,Low


# Pandas: Joining DataFrame

In [99]:
# data untuk dataframe A
data_a = {
    'subject_id': ['1','2','3','4'],
    'first_name': ['Alex','Allan', 'Adit','Frezco'],
    'last_name':['Anderson', 'Ackerman', 'Aoni','Ali']
}

# ubah dict menjadi dataframe
df_a = pd.DataFrame(data_a)

df_a

Unnamed: 0,subject_id,first_name,last_name
0,1,Alex,Anderson
1,2,Allan,Ackerman
2,3,Adit,Aoni
3,4,Frezco,Ali


In [104]:
# data untuk dataframe B
data_b = {
    'id': ['4','5','6'],
    'nama_depan': ['Alexa','Amy', 'Aadira'],
    'nama_belakang':['Lopez', 'Horan', 'Styles']
}

# ubah dict menjadi dataframe
df_b = pd.DataFrame(data_b)

df_b

Unnamed: 0,id,nama_depan,nama_belakang
0,4,Alexa,Lopez
1,5,Amy,Horan
2,6,Aadira,Styles


In [105]:
full_df = pd.concat([df_a, df_b])

full_df

Unnamed: 0,subject_id,first_name,last_name,id,nama_depan,nama_belakang
0,1.0,Alex,Anderson,,,
1,2.0,Allan,Ackerman,,,
2,3.0,Adit,Aoni,,,
3,4.0,Frezco,Ali,,,
0,,,,4.0,Alexa,Lopez
1,,,,5.0,Amy,Horan
2,,,,6.0,Aadira,Styles


Menggabungkan dua DataFrame pada kolom

In [106]:
full_df = pd.concat([df_a,df_b], axis=1)

full_df

# NaN adalah nilai kosong 

Unnamed: 0,subject_id,first_name,last_name,id,nama_depan,nama_belakang
0,1,Alex,Anderson,4.0,Alexa,Lopez
1,2,Allan,Ackerman,5.0,Amy,Horan
2,3,Adit,Aoni,6.0,Aadira,Styles
3,4,Frezco,Ali,,,


# Pandas: Importing Files - Excel Sheets &  CSV

In [107]:
!pip -q install wget

# jika di google colab
# !wget url

In [108]:
import wget

url = 'https://raw.githubusercontent.com/venky14/Machine-Learning-with-Iris-Dataset/master/Iris.csv'

wget.download(url,'iris.csv')

'iris (1).csv'

In [123]:
import pandas as pd 

df_iris = pd.read_csv('iris.csv')

# df_iris.columns = ['id','SL','SW','PL','PW','class']

df_iris

Unnamed: 0,Id,SepalLengthCm,SepalWidthCm,PetalLengthCm,PetalWidthCm,Species
0,1,5.1,3.5,1.4,0.2,Iris-setosa
1,2,4.9,3.0,1.4,0.2,Iris-setosa
2,3,4.7,3.2,1.3,0.2,Iris-setosa
3,4,4.6,3.1,1.5,0.2,Iris-setosa
4,5,5.0,3.6,1.4,0.2,Iris-setosa
...,...,...,...,...,...,...
145,146,6.7,3.0,5.2,2.3,Iris-virginica
146,147,6.3,2.5,5.0,1.9,Iris-virginica
147,148,6.5,3.0,5.2,2.0,Iris-virginica
148,149,6.2,3.4,5.4,2.3,Iris-virginica


In [126]:
df_iris.rename(columns=str.title)

Unnamed: 0,Id,Sepallengthcm,Sepalwidthcm,Petallengthcm,Petalwidthcm,Species
0,1,5.1,3.5,1.4,0.2,Iris-setosa
1,2,4.9,3.0,1.4,0.2,Iris-setosa
2,3,4.7,3.2,1.3,0.2,Iris-setosa
3,4,4.6,3.1,1.5,0.2,Iris-setosa
4,5,5.0,3.6,1.4,0.2,Iris-setosa
...,...,...,...,...,...,...
145,146,6.7,3.0,5.2,2.3,Iris-virginica
146,147,6.3,2.5,5.0,1.9,Iris-virginica
147,148,6.5,3.0,5.2,2.0,Iris-virginica
148,149,6.2,3.4,5.4,2.3,Iris-virginica


In [110]:
url = 'https://github.com/bharathirajatut/sample-excel-dataset/raw/master/cobb.xls'

wget.download(url,'cobb.xls')

'cobb (1).xls'

In [121]:
df_cobb = pd.read_excel('cobb.xls')

# mengubah nama kolom
df_cobb.columns = ['A','B','C']

df_cobb

Unnamed: 0,A,B,C
0,10.1,12.2,11.0
1,28.200001,30.200001,34.599998
2,24.0,23.0,21.9
3,21.299999,22.299999,28.200001
4,14.3,15.7,14.7
5,18.4,20.799999,20.200001
6,10.0,11.5,9.7
7,24.0,25.9,22.200001
8,20.299999,21.5,17.299999
9,20.5,22.4,19.5


Ketika kita tidak ingin nama kolom (header) dibaca, kita menggunakan `header=None`.

In [115]:
df_cobb = pd.read_excel('cobb.xls', header=None)

df_cobb

Unnamed: 0,0,1,2
0,K,L,Q
1,10.1,12.2,11
2,28.200001,30.200001,34.599998
3,24,23,21.9
4,21.299999,22.299999,28.200001
5,14.3,15.7,14.7
6,18.4,20.799999,20.200001
7,10,11.5,9.7
8,24,25.9,22.200001
9,20.299999,21.5,17.299999


# Thank You !!!
