# Praktek DataFrame

In [3]:
import pandas as pd
import numpy as np

### Membuat DataFrame

In [4]:
df = pd.DataFrame(data={"nama": ["ahmad", "joko", "adi"],
                        "umur": [12, 13, 15],
                        "kelas": [6, 7, 8]})

df

Unnamed: 0,nama,umur,kelas
0,ahmad,12,6
1,joko,13,7
2,adi,15,8


In [5]:
df.columns

Index(['nama', 'umur', 'kelas'], dtype='object')

### Cara mengubah nama column

In [6]:
df.columns.values[0] = "Nama Panggilan"
df

Unnamed: 0,Nama Panggilan,umur,kelas
0,ahmad,12,6
1,joko,13,7
2,adi,15,8


### Membuat data menjadi DataFrame

In [7]:
data = {
    "calories": [420, 380, 390],
    "duration": [50, 40, 25],
    "pulse": [390, 45, 221]
}

df = pd.DataFrame(data)
df

Unnamed: 0,calories,duration,pulse
0,420,50,390
1,380,40,45
2,390,25,221


### Mengakses elemen pada DataFrame
    Menggunakan ILOC : Positional indexing

In [8]:
# Kita akses data calories dan duration

df.iloc[0:1]

Unnamed: 0,calories,duration,pulse
0,420,50,390


In [9]:
df.iloc[0:3, 0:2]

# 0 itu adalah indexing 
# 3 itu row
# 1 itu column

Unnamed: 0,calories,duration
0,420,50
1,380,40
2,390,25


    Menggunakan LOC
kalau menggunakan LOC kita bisa menyebutkan nama kolomnya tidak indeksnya

In [10]:
df.loc[0:2, ["calories", "duration"]]

Unnamed: 0,calories,duration
0,420,50
1,380,40
2,390,25


In [16]:
# Kita bisa akses kolomnya saja tapi tipenya berubah jadi series

df['calories']

0    420
1    380
2    390
Name: calories, dtype: int64

In [17]:
# Nah kalau kita cek typenya berubah jadi series

print(type(df['calories']))

<class 'pandas.core.series.Series'>


In [None]:
# Kita bisa tetap akses berdasarkan kolom tapi dia masih tetap dalam bentuk DataFrame
# Gunakan kurung double

df[['calories']]

Unnamed: 0,calories
0,420
1,380
2,390


In [21]:
# Ketika kita cek lagi dia akan menghasilkan output dalam bentuk DataFrame

print(type(df[['calories']]))

<class 'pandas.core.frame.DataFrame'>


In [23]:
# Kalau kita mau akses spesifik nilai dari satu DataFrame kita tinggal masukkan indeksnya saja

print(df['pulse'][0])

390


### Memberi nama pada indeks
    Jadi kalau kita beri nama indeksnya kita bisa akses data berdasarkan nama indeks yang sudah kita buat tidak perlu menggunakan indeks 0, 1, 2, 3 dst lagi.

In [26]:
data = {
    "calories": [420, 380, 390],
    "duration": [50, 40, 25],
    "pulse": [390, 45, 221]
}

df = pd.DataFrame(data, index=['Data 1', 'Data 2', 'Data 3'])
df

Unnamed: 0,calories,duration,pulse
Data 1,420,50,390
Data 2,380,40,45
Data 3,390,25,221


In [27]:
# Coba akses menggunakan nama indeks yang sudah kita buat

df.loc['Data 1']

calories    420
duration     50
pulse       390
Name: Data 1, dtype: int64

In [None]:
df.iloc['Data 1']

# Nah tapi kalau kita akses menggunakan iloc dia tidak bisa karena iloc tidak bisa non-integer

TypeError: Cannot index by location index with a non-integer key

### Membaca file CSV dengan DataFrame 

In [31]:
data = pd.read_csv('./data.csv')
data

Unnamed: 0,Duration,Pulse,Maxpulse,Calories
0,60,110,130,409.1
1,60,117,145,479.0
2,60,103,135,340.0
3,45,109,175,282.4
4,45,117,148,406.0
...,...,...,...,...
164,60,105,140,290.8
165,60,110,145,300.0
166,60,115,145,310.2
167,75,120,150,320.4


#### Melihat top 5 dari data

In [None]:
data.head()

Unnamed: 0,Duration,Pulse,Maxpulse,Calories
0,60,110,130,409.1
1,60,117,145,479.0
2,60,103,135,340.0
3,45,109,175,282.4
4,45,117,148,406.0


In [34]:
# Bisa juga mendefinisikan berapa jumlah data top yang ingin ditampilkan

data.head(10)

Unnamed: 0,Duration,Pulse,Maxpulse,Calories
0,60,110,130,409.1
1,60,117,145,479.0
2,60,103,135,340.0
3,45,109,175,282.4
4,45,117,148,406.0
5,60,102,127,300.0
6,60,110,136,374.0
7,45,104,134,253.3
8,30,109,133,195.1
9,60,98,124,269.0


#### Melihat bottom 5 dari data

In [33]:
data.tail()

Unnamed: 0,Duration,Pulse,Maxpulse,Calories
164,60,105,140,290.8
165,60,110,145,300.0
166,60,115,145,310.2
167,75,120,150,320.4
168,75,125,150,330.4


In [35]:
# Bisa juga mendefinisikan bottom data yang ingin ditampilkan

data.tail(15)

Unnamed: 0,Duration,Pulse,Maxpulse,Calories
154,60,105,128,328.0
155,60,111,151,368.5
156,60,97,131,270.4
157,60,100,120,270.4
158,60,114,150,382.8
159,30,80,120,240.9
160,30,85,120,250.4
161,45,90,130,260.4
162,45,95,130,270.0
163,45,100,140,280.9


### DataFrame kita juga bisa cek shapenya

In [38]:
data.shape

# 169 itu jumlah row dan 4 itu jumlah column

(169, 4)

### Cek masing masing tipe data dari column

In [40]:
data.dtypes

Duration      int64
Pulse         int64
Maxpulse      int64
Calories    float64
dtype: object

### Membaca informasi dari DataFrame

In [41]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 169 entries, 0 to 168
Data columns (total 4 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   Duration  169 non-null    int64  
 1   Pulse     169 non-null    int64  
 2   Maxpulse  169 non-null    int64  
 3   Calories  164 non-null    float64
dtypes: float64(1), int64(3)
memory usage: 5.4 KB


### Cek informasi statistic dari DataFrame

In [42]:
data.describe()

Unnamed: 0,Duration,Pulse,Maxpulse,Calories
count,169.0,169.0,169.0,164.0
mean,63.846154,107.461538,134.047337,375.790244
std,42.299949,14.510259,16.450434,266.379919
min,15.0,80.0,100.0,50.3
25%,45.0,100.0,124.0,250.925
50%,60.0,105.0,131.0,318.6
75%,60.0,111.0,141.0,387.6
max,300.0,159.0,184.0,1860.4


In [50]:
# Kita juga bisa melihat informasi detai untuk tiap statistic

data['Calories'].median()

np.float64(318.6)

In [51]:
data['Calories'].mean()

np.float64(375.79024390243904)

In [52]:
data['Calories'].mode()

0    300.0
Name: Calories, dtype: float64

### Cek korelasi

In [53]:
data.corr()

Unnamed: 0,Duration,Pulse,Maxpulse,Calories
Duration,1.0,-0.155408,0.009403,0.922717
Pulse,-0.155408,1.0,0.786535,0.025121
Maxpulse,0.009403,0.786535,1.0,0.203813
Calories,0.922717,0.025121,0.203813,1.0
