# *Data Preparation with Python* 

In [4]:
%pip install pandas

Note: you may need to restart the kernel to use updated packages.


##### Membaca data

In [12]:
import pandas as pd
df = pd.read_csv("D:/Data sets/penduduk_telepon_seluler_pedesaan.csv")
df.tail(1)

Unnamed: 0,nama_series,kode_wilayah,wilayah,tahun,nilai,target
524,Proporsi Penduduk yang Memiliki Telepon Selule...,94,Papua,2015,32.51,


- `;` (titik koma)
- `\t` (*tab*)
- `|` (*pipe*)

In [13]:
df = pd.read_csv("D:/Data sets/penduduk_telepon_seluler_pedesaan.csv")

`head()` digunkan untuk melihat 5 baris pertama:

In [14]:
df.head()

Unnamed: 0,nama_series,kode_wilayah,wilayah,tahun,nilai,target
0,Proporsi Penduduk yang Memiliki Telepon Selule...,1,Indonesia,2001,,100.0
1,Proporsi Penduduk yang Memiliki Telepon Selule...,1,Indonesia,2002,,100.0
2,Proporsi Penduduk yang Memiliki Telepon Selule...,1,Indonesia,2003,,100.0
3,Proporsi Penduduk yang Memiliki Telepon Selule...,1,Indonesia,2004,,100.0
4,Proporsi Penduduk yang Memiliki Telepon Selule...,1,Indonesia,2005,8.19,100.0


`tail()` untuk melihat 5 data urutan bawah.

In [11]:
df.tail()

Unnamed: 0,"nama_series,kode_wilayah,wilayah,tahun,nilai,target"
520,Proporsi Penduduk yang Memiliki Telepon Selule...
521,Proporsi Penduduk yang Memiliki Telepon Selule...
522,Proporsi Penduduk yang Memiliki Telepon Selule...
523,Proporsi Penduduk yang Memiliki Telepon Selule...
524,Proporsi Penduduk yang Memiliki Telepon Selule...


Struktur data.

![Series vs DataFrame](https://storage.googleapis.com/lds-media/images/series-and-dataframe.width-1200.png)
[*Source*](https://www.learndatasci.com/tutorials/python-pandas-tutorial-complete-introduction-for-beginners/)

DataFrame info

In [35]:
print(df.info())


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 525 entries, 0 to 524
Data columns (total 6 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   nama_series   525 non-null    object 
 1   kode_wilayah  525 non-null    int64  
 2   wilayah       525 non-null    object 
 3   tahun         525 non-null    int64  
 4   nilai         361 non-null    float64
 5   target        15 non-null     float64
dtypes: float64(2), int64(2), object(2)
memory usage: 24.7+ KB
None


Menghapus Duplikasi

In [36]:
jumlah_duplikat = df.duplicated().sum()
print(f"Jumlah data duplikat: {jumlah_duplikat}")

df.drop_duplicates(inplace=True)

Jumlah data duplikat: 0


Mengubah type data

In [15]:
df['nilai'] = df['nilai'].astype('float64')
df['target'] = df['target'].astype('float64')
df['tahun'] = df['tahun'].astype('int64')
print(df.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 525 entries, 0 to 524
Data columns (total 6 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   nama_series   525 non-null    object 
 1   kode_wilayah  525 non-null    int64  
 2   wilayah       525 non-null    object 
 3   tahun         525 non-null    int64  
 4   nilai         361 non-null    float64
 5   target        15 non-null     float64
dtypes: float64(2), int64(2), object(2)
memory usage: 24.7+ KB
None


Mengatasi Missing Values
- Menghapus baris dengan missing values
- Mengisi missing values dengan nilai rata-rata

In [44]:
# Menghapus baris dengan missing values
df_cleaned = df.dropna(subset=['nilai', 'target'])
print(df_cleaned.info())


<class 'pandas.core.frame.DataFrame'>
Int64Index: 525 entries, 0 to 524
Data columns (total 6 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   nama_series   525 non-null    object 
 1   kode_wilayah  525 non-null    int64  
 2   wilayah       525 non-null    object 
 3   tahun         525 non-null    int64  
 4   nilai         525 non-null    float64
 5   target        525 non-null    float64
dtypes: float64(2), int64(2), object(2)
memory usage: 28.7+ KB
None


In [45]:
# Mengisi missing values dengan nilai rata-rata
df['nilai'] = df['nilai'].fillna(df['nilai'].mean())
df['target'] = df['target'].fillna(df['target'].mean())
print(df.info())

<class 'pandas.core.frame.DataFrame'>
Int64Index: 525 entries, 0 to 524
Data columns (total 6 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   nama_series   525 non-null    object 
 1   kode_wilayah  525 non-null    int64  
 2   wilayah       525 non-null    object 
 3   tahun         525 non-null    int64  
 4   nilai         525 non-null    float64
 5   target        525 non-null    float64
dtypes: float64(2), int64(2), object(2)
memory usage: 28.7+ KB
None


Mengatasi Outliers

In [23]:
# menggunakan perhitungan outliers
Q1 = df['nilai'].quantile(0.25)
Q3 = df['nilai'].quantile(0.75)
IQR = Q3 - Q1

lower_bound = Q1 - 1.5 * IQR
upper_bound = Q3 + 1.5 * IQR

outliers = df[(df['nilai'] < lower_bound) | (df['nilai'] > upper_bound)]

df_cleaned = df[~df.index.isin(outliers.index)]

print("\nOutliers:")
print(outliers)


Outliers:
Empty DataFrame
Columns: [nama_series, kode_wilayah, wilayah, tahun, nilai, target]
Index: []


In [24]:
# menentukan batas atas dan bawah
upper_bound = 100
lower_bound = 15

outliers = df[(df['nilai'] < lower_bound) | (df['nilai'] > upper_bound)]

print("\nOutliers:")
outliers


Outliers:


Unnamed: 0,nama_series,kode_wilayah,wilayah,tahun,nilai,target
4,Proporsi Penduduk yang Memiliki Telepon Selule...,1,Indonesia,2005,8.19,100.0
5,Proporsi Penduduk yang Memiliki Telepon Selule...,1,Indonesia,2006,12.27,100.0
20,Proporsi Penduduk yang Memiliki Telepon Selule...,11,Aceh,2006,12.71,
34,Proporsi Penduduk yang Memiliki Telepon Selule...,12,Sumatera Utara,2005,8.15,
35,Proporsi Penduduk yang Memiliki Telepon Selule...,12,Sumatera Utara,2006,14.21,
49,Proporsi Penduduk yang Memiliki Telepon Selule...,13,Sumatera Barat,2005,9.65,
79,Proporsi Penduduk yang Memiliki Telepon Selule...,15,Jambi,2005,8.88,
80,Proporsi Penduduk yang Memiliki Telepon Selule...,15,Jambi,2006,14.2,
94,Proporsi Penduduk yang Memiliki Telepon Selule...,16,Sumatera Selatan,2005,5.35,
95,Proporsi Penduduk yang Memiliki Telepon Selule...,16,Sumatera Selatan,2006,8.38,


In [19]:
# menghapus data outliers
df_cleaned = df[~df.index.isin(outliers.index)]

Menyimpan Data yang Sudah Dibersihkan

In [22]:
df_cleaned.to_csv('data_cleaned.csv', index=False)
df_cleaned.info()

<class 'pandas.core.frame.DataFrame'>
Index: 469 entries, 0 to 524
Data columns (total 6 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   nama_series   469 non-null    object 
 1   kode_wilayah  469 non-null    int64  
 2   wilayah       469 non-null    object 
 3   tahun         469 non-null    int64  
 4   nilai         305 non-null    float64
 5   target        13 non-null     float64
dtypes: float64(2), int64(2), object(2)
memory usage: 25.6+ KB
