# Menyiapkan Data

In [None]:
import pandas as pd

path = '/content/drive/MyDrive/Belajar Data Analisis Python/sample_data/Pokemon.csv'
df_pokemon = pd.read_csv(path, index_col='Num')
df_pokemon

# Method Info dan Datatype

Fungsi info() pada Pandas digunakan untuk mendapatkan ringkasan singkat dari DataFrame, termasuk informasi tentang indeks, tipe data, dan jumlah nilai non-null untuk setiap kolom.

Datatype adalah tipe data yang ada dimiliki oleh setiap kolom dalam DataFrame.

1. int64: Bilangan bulat 64-bit. Contoh: 23, 45, 24
2. float64: Bilangan desimal 64-bit. Contoh: 23.5, 45.1, 24.0
3. object: Tipe data umum yang digunakan untuk teks atau campuran tipe. Contoh: 'A', 'B', 'C'
4. bool: Tipe data boolean yang hanya memiliki dua nilai: True atau False.
5. datetime64: Tipe data untuk tanggal dan waktu. Contoh: '2024-01-01'
6. timedelta[ns]: Tipe data untuk durasi atau perbedaan waktu.
7. category: Tipe data untuk data kategorikal, yang dapat memiliki nilai tetap yang terbatas.

In [None]:
df_pokemon.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 151 entries, 0 to 150
Data columns (total 13 columns):
 #   Column     Non-Null Count  Dtype 
---  ------     --------------  ----- 
 0   Num        151 non-null    int64 
 1   Name       151 non-null    object
 2   Type 1     151 non-null    object
 3   Type 2     67 non-null     object
 4   Total      151 non-null    int64 
 5   HP         151 non-null    int64 
 6   Attack     151 non-null    int64 
 7   Defense    151 non-null    int64 
 8   Sp. Atk    151 non-null    int64 
 9   Sp. Def    151 non-null    int64 
 10  Speed      151 non-null    int64 
 11  Stage      151 non-null    int64 
 12  Legendary  151 non-null    bool  
dtypes: bool(1), int64(9), object(3)
memory usage: 14.4+ KB


In [None]:
data = {
    'Nama': ['Andi', 'Budi', 'Cindi'],
    'Umur': [23, 45, 24],
    'Gaji': [5000000.0, 5400000.5, 5800000.75],
    'Aktif Bekerja': [True, False, True],
    'Tanggal Masuk': pd.to_datetime(['2021-01-01', '2020-06-30', '2020-12-31'])
}
df_data = pd.DataFrame(data)

In [None]:
df_data

Unnamed: 0,Nama,Umur,Gaji,Aktif Bekerja,Tanggal Masuk
0,Andi,23,5000000.0,True,2021-01-01
1,Budi,45,5400000.5,False,2020-06-30
2,Cindi,24,5800000.75,True,2020-12-31


In [None]:
# Secara otomatis pandas DataFrame akan mengkonversi tipe datanya ke yang sesuai
df_data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 5 columns):
 #   Column         Non-Null Count  Dtype         
---  ------         --------------  -----         
 0   Nama           3 non-null      object        
 1   Umur           3 non-null      int64         
 2   Gaji           3 non-null      float64       
 3   Aktif Bekerja  3 non-null      bool          
 4   Tanggal Masuk  3 non-null      datetime64[ns]
dtypes: bool(1), datetime64[ns](1), float64(1), int64(1), object(1)
memory usage: 227.0+ bytes


In [None]:
df_data['Umur']+1

0    24
1    46
2    25
Name: Umur, dtype: int64

In [None]:
df_data['Nama']+'2'

0     Andi2
1     Budi2
2    Cindi2
Name: Nama, dtype: object

In [None]:
# Time Delta adalah hasil operasi dari datetime
beda_hari = df_data.loc[0, 'Tanggal Masuk']-df_data.loc[1, 'Tanggal Masuk']
beda_hari/pd.Timedelta(days=30)

6.166666666666667

## Tipe Data Datetype dan Timedelta
Tipe data datetime di Pandas digunakan untuk menangani data yang berhubungan dengan tanggal dan waktu. Pandas menyediakan berbagai fungsi dan metode untuk memanipulasi tipe data ini.

In [None]:
# Untuk data datetime kita bisa melalukan beberapa hal
df_data['Tanggal Masuk'].dt.year

0    2021
1    2020
2    2020
Name: Tanggal Masuk, dtype: int32

In [None]:
df_data['Tanggal Masuk'].dt.month

0     1
1     6
2    12
Name: Tanggal Masuk, dtype: int32

In [None]:
df_data['Tahun Masuk'] = df_data['Tanggal Masuk'].dt.year
df_data

Unnamed: 0,Nama,Umur,Gaji,Aktif Bekerja,Tanggal Masuk,Tahun Masuk
0,Andi,23,5000000.0,True,2021-01-01,2021
1,Budi,45,5400000.5,False,2020-06-30,2020
2,Cindi,24,5800000.75,True,2020-12-31,2020


## Tipe Data Category
Tipe data category di Pandas digunakan untuk mengelola data kategorikal. Data kategorikal adalah data yang hanya bisa mengambil nilai dari satu set terbatas dan biasanya berupa data nominal atau ordinal.

In [None]:
# Cara membuat data category
df_data['Golongan Karyawan'] = ['C', 'B', 'B']
df_data['Golongan Karyawan'] = df_data['Golongan Karyawan'].astype('category')
df_data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 7 columns):
 #   Column             Non-Null Count  Dtype         
---  ------             --------------  -----         
 0   Nama               3 non-null      object        
 1   Umur               3 non-null      int64         
 2   Gaji               3 non-null      float64       
 3   Aktif Bekerja      3 non-null      bool          
 4   Tanggal Masuk      3 non-null      datetime64[ns]
 5   Tahun Masuk        3 non-null      int32         
 6   Golongan Karyawan  3 non-null      category      
dtypes: bool(1), category(1), datetime64[ns](1), float64(1), int32(1), int64(1), object(1)
memory usage: 366.0+ bytes


In [None]:
df_data['Golongan Karyawan'].dtypes

CategoricalDtype(categories=['B', 'C'], ordered=False)

In [None]:
df_data['Golongan Karyawan'] = df_data['Golongan Karyawan'].cat.reorder_categories(['C', 'B'], ordered=True)

In [None]:
df_data['Golongan Karyawan'].dtypes

CategoricalDtype(categories=['C', 'B'], ordered=True)

In [None]:
df_data.groupby('Golongan Karyawan').size()

Golongan Karyawan
C    1
B    2
dtype: int64