# *Data Preparation with Python* - Bagian 1
Pertanyaan, koreksi, maupun saran dapat disampaikan ke galuh.tunggadewi[at]gmail.com atau disampaikan dengan cara membuka [isu baru di GitHub](https://github.com/galuhsahid/data-preparation-with-python). Lisensi dapat dilihat [di sini](https://creativecommons.org/licenses/by-nc-sa/4.0/).

In [18]:
import pandas as pd

# Membaca data

In [19]:
df = pd.read_csv("data/penduduk_telepon_seluler_pedesaan.csv")

📖  Dokumentasi `pandas.read_csv`: [tautan](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_csv.html)

- Untuk membaca file `json`:  [tautan](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_json.html)

In [20]:
df

Unnamed: 0,nama_series;kode_wilayah;wilayah;tahun;nilai;target
0,Proporsi Penduduk yang Memiliki Telepon Selule...
1,Proporsi Penduduk yang Memiliki Telepon Selule...
2,Proporsi Penduduk yang Memiliki Telepon Selule...
3,Proporsi Penduduk yang Memiliki Telepon Selule...
4,Proporsi Penduduk yang Memiliki Telepon Selule...
5,Proporsi Penduduk yang Memiliki Telepon Selule...
6,Proporsi Penduduk yang Memiliki Telepon Selule...
7,Proporsi Penduduk yang Memiliki Telepon Selule...
8,Proporsi Penduduk yang Memiliki Telepon Selule...
9,Proporsi Penduduk yang Memiliki Telepon Selule...


Dalam sebuah *file* CSV, masing-masing *field* tidak harus dipisahkan oleh tanda `,` (koma), melainkan bisa dengan pemisah-pemisah seperti:
- `;` (titik koma)
- `\t` (*tab*)
- `|` (*pipe*)

Pada contoh di atas, pandas tidak membaca data kita dengan benar. Hal ini karena tanda baca yang memisahkan kolom-kolom di *file* yang dibaca adalah tanda titik koma. Apabila kita tidak mendefinisikan secara eksplisit separator apa yang harus digunakan, maka secara *default* pandas akan menganggap bahwa separator yang digunakan adalah tanda koma.

In [86]:
df = pd.read_csv("data/penduduk_telepon_seluler_pedesaan.csv", sep=";")

Apabila kita ingin melihat data yang telah kita *load*, namun kita tidak perlu melihat semua datanya, kita dapat menggunakan `head()` yang akan memunculkan lima baris pertama:

In [87]:
df.head()

Unnamed: 0,nama_series,kode_wilayah,wilayah,tahun,nilai,target
0,Proporsi Penduduk yang Memiliki Telepon Selule...,1,Indonesia,2001,,100.0
1,Proporsi Penduduk yang Memiliki Telepon Selule...,1,Indonesia,2002,,100.0
2,Proporsi Penduduk yang Memiliki Telepon Selule...,1,Indonesia,2003,,100.0
3,Proporsi Penduduk yang Memiliki Telepon Selule...,1,Indonesia,2004,,100.0
4,Proporsi Penduduk yang Memiliki Telepon Selule...,1,Indonesia,2005,8.19,100.0


Apabila kita butuh untuk melihat lebih dari lima baris, atau bahkan kurang dari lima baris, kita dapat memasukkan angka jumlah baris yang ingin kita lihat:

In [88]:
df.head(10)

Unnamed: 0,nama_series,kode_wilayah,wilayah,tahun,nilai,target
0,Proporsi Penduduk yang Memiliki Telepon Selule...,1,Indonesia,2001,,100.0
1,Proporsi Penduduk yang Memiliki Telepon Selule...,1,Indonesia,2002,,100.0
2,Proporsi Penduduk yang Memiliki Telepon Selule...,1,Indonesia,2003,,100.0
3,Proporsi Penduduk yang Memiliki Telepon Selule...,1,Indonesia,2004,,100.0
4,Proporsi Penduduk yang Memiliki Telepon Selule...,1,Indonesia,2005,8.19,100.0
5,Proporsi Penduduk yang Memiliki Telepon Selule...,1,Indonesia,2006,12.27,100.0
6,Proporsi Penduduk yang Memiliki Telepon Selule...,1,Indonesia,2007,24.33,100.0
7,Proporsi Penduduk yang Memiliki Telepon Selule...,1,Indonesia,2008,38.15,100.0
8,Proporsi Penduduk yang Memiliki Telepon Selule...,1,Indonesia,2009,49.21,100.0
9,Proporsi Penduduk yang Memiliki Telepon Selule...,1,Indonesia,2010,61.01,100.0


Kita juga dapat menggunakan `tail()` apabila ingin melihat baris-baris yang ada di urutan bawah.

In [89]:
df.tail()

Unnamed: 0,nama_series,kode_wilayah,wilayah,tahun,nilai,target
520,Proporsi Penduduk yang Memiliki Telepon Selule...,94,Papua,2011,17.26,
521,Proporsi Penduduk yang Memiliki Telepon Selule...,94,Papua,2012,20.5,
522,Proporsi Penduduk yang Memiliki Telepon Selule...,94,Papua,2013,25.08,
523,Proporsi Penduduk yang Memiliki Telepon Selule...,94,Papua,2014,26.31,
524,Proporsi Penduduk yang Memiliki Telepon Selule...,94,Papua,2015,32.51,


Struktur data di pandas secara garis besar diimplementasikan sebagai salah satu dari dua kelas berikut:
- `DataFrame`: bisa dianggap sebagai sebuah tabel data relasional dengan baris-baris (*rows*) dan kolom-kolom (*columns*)
- `Series`: sebuah kolom. Sebuah DataFrame memiliki satu atau lebih `Series`.

![Series vs DataFrame](https://storage.googleapis.com/lds-media/images/series-and-dataframe.width-1200.png)
[*Source*](https://www.learndatasci.com/tutorials/python-pandas-tutorial-complete-introduction-for-beginners/)

Dengan menggunakan `type()`, fungsi dari Python yang dapat digunakan untuk mengecek tipe dari sebuah variabel, kita dapat melihat bahwa tipe dari variabel `df` adalah DataFrame.

In [90]:
type(df)

pandas.core.frame.DataFrame

# Mengakses data

## Mengakses kolom

In [91]:
df["wilayah"]

0        Indonesia
1        Indonesia
2        Indonesia
3        Indonesia
4        Indonesia
5        Indonesia
6        Indonesia
7        Indonesia
8        Indonesia
9        Indonesia
10       Indonesia
11       Indonesia
12       Indonesia
13       Indonesia
14       Indonesia
15            Aceh
16            Aceh
17            Aceh
18            Aceh
19            Aceh
20            Aceh
21            Aceh
22            Aceh
23            Aceh
24            Aceh
25            Aceh
26            Aceh
27            Aceh
28            Aceh
29            Aceh
          ...     
495    Papua Barat
496    Papua Barat
497    Papua Barat
498    Papua Barat
499    Papua Barat
500    Papua Barat
501    Papua Barat
502    Papua Barat
503    Papua Barat
504    Papua Barat
505    Papua Barat
506    Papua Barat
507    Papua Barat
508    Papua Barat
509    Papua Barat
510          Papua
511          Papua
512          Papua
513          Papua
514          Papua
515          Papua
516         

Dengan menggunakan `type()`, kita dapat melihat bahwa tipe dari kolom `df["wilayah"]` adalah Series.

In [27]:
type(df["wilayah"])

pandas.core.series.Series

Melihat nilai-nilai unik dari kolom **wilayah**:

In [92]:
df["wilayah"].unique()

array(['Indonesia', 'Aceh', 'Sumatera Utara', 'Sumatera Barat', 'Riau',
       'Jambi', 'Sumatera Selatan', 'Bengkulu', 'Lampung',
       'Kepulauan Bangka Belitung', 'Kepulauan Riau', 'DKI Jakarta',
       'Jawa Barat', 'Jawa Tengah', 'DI Yogyakarta', 'Jawa Timur',
       'Banten', 'Bali', 'Nusa Tenggara Barat', 'Nusa Tenggara Timur',
       'Kalimantan Barat', 'Kalimantan Tengah', 'Kalimantan Selatan',
       'Kalimantan Timur', 'Kalimantan Utara', 'Sulawesi Utara',
       'Sulawesi Tengah', 'Sulawesi Selatan', 'Sulawesi Tenggara',
       'Gorontalo', 'Sulawesi Barat', 'Maluku', 'Maluku Utara',
       'Papua Barat', 'Papua'], dtype=object)

Apabila kita ingin mengecek kolom apa saja yang ada di DataFrame kita:

In [93]:
df.columns

Index(['nama_series', 'kode_wilayah', 'wilayah', 'tahun', 'nilai', 'target'], dtype='object')

## Mengakses baris

- `iloc` - *input* berupa posisi (hanya menerima integer)
- `loc` -  *input* berupa label (tidak harus integer, bisa saja string apabila label-nya merupakan sebuah string)
- `ix` - *deprecated*

### iloc

Untuk mendemonstrasikan perbedaan antara `loc` dan `iloc`, kita akan membuat satu DataFrame baru di variabel `df_shuffled` yang merupakan DataFrame `df` yang urutannya diacak:

In [96]:
import numpy as np

df_shuffled = df.reindex(np.random.permutation(df.index))

In [97]:
df.head(3)

Unnamed: 0,nama_series,kode_wilayah,wilayah,tahun,nilai,target
0,Proporsi Penduduk yang Memiliki Telepon Selule...,1,Indonesia,2001,,100.0
1,Proporsi Penduduk yang Memiliki Telepon Selule...,1,Indonesia,2002,,100.0
2,Proporsi Penduduk yang Memiliki Telepon Selule...,1,Indonesia,2003,,100.0


In [98]:
df_shuffled.head(3)

Unnamed: 0,nama_series,kode_wilayah,wilayah,tahun,nilai,target
261,Proporsi Penduduk yang Memiliki Telepon Selule...,51,Bali,2007,38.6,
310,Proporsi Penduduk yang Memiliki Telepon Selule...,61,Kalimantan Barat,2011,72.65,
414,Proporsi Penduduk yang Memiliki Telepon Selule...,73,Sulawesi Selatan,2010,70.2,


Dengan kode di bawah ini, kita akan mengambil data baris pertama dari DataFrame `df_shuffled`:

In [99]:
df_shuffled.iloc[0]

nama_series     Proporsi Penduduk yang Memiliki Telepon Selule...
kode_wilayah                                                   51
wilayah                                                      Bali
tahun                                                        2007
nilai                                                        38.6
target                                                        NaN
Name: 261, dtype: object

⚠️ Python menghitung dari 0, sehingga apabila kita ingin mengambil data di baris pertama, maka posisinya adalah posisi ke-0.

Meskipun indeks-nya adalah 261, namun data tersebut tetap terambil karena **posisi**-nya ada di baris pertama DataFrame. Apabila kita mencoba untuk mengambil data di baris ke-261 (posisi ke-260), yang muncul adalah baris di posisi tersebut, bukan baris dengan indeks 261.

In [100]:
df_shuffled.iloc[260]

nama_series     Proporsi Penduduk yang Memiliki Telepon Selule...
kode_wilayah                                                   94
wilayah                                                     Papua
tahun                                                        2005
nilai                                                        4.61
target                                                        NaN
Name: 514, dtype: object

Pada contoh di atas, baris yang muncul adalah baris dengan indeks 514. Ternyata, setelah diacak, baris dengan indeks 514 menempati baris ke-261.

### loc

`loc` mengambil baris berdasarkan indeks.

In [104]:
df_shuffled.head(3)

Unnamed: 0,nama_series,kode_wilayah,wilayah,tahun,nilai,target
261,Proporsi Penduduk yang Memiliki Telepon Selule...,51,Bali,2007,38.6,
310,Proporsi Penduduk yang Memiliki Telepon Selule...,61,Kalimantan Barat,2011,72.65,
414,Proporsi Penduduk yang Memiliki Telepon Selule...,73,Sulawesi Selatan,2010,70.2,


In [105]:
df_shuffled.loc[0]

nama_series     Proporsi Penduduk yang Memiliki Telepon Selule...
kode_wilayah                                                    1
wilayah                                                 Indonesia
tahun                                                        2001
nilai                                                         NaN
target                                                        100
Name: 0, dtype: object

Pada contoh di atas, kita tidak mendapatkan data di baris ke-0, melainkan baris dengan indeks 0.

Apabila kita ingin mendapatkan baris dengan indeks 261:

In [108]:
df_shuffled.loc[261]

nama_series     Proporsi Penduduk yang Memiliki Telepon Selule...
kode_wilayah                                                   51
wilayah                                                      Bali
tahun                                                        2007
nilai                                                        38.6
target                                                        NaN
Name: 261, dtype: object

⚠️ Indeks bukan merupakan posisi. Baris dengan indeks 261 akan benar-benar memiliki indeks 261, sehingga tidak perlu dikurangi lagi. Apabila kita coba kode berikut:

In [109]:
df_shuffled.loc[260]

nama_series     Proporsi Penduduk yang Memiliki Telepon Selule...
kode_wilayah                                                   51
wilayah                                                      Bali
tahun                                                        2006
nilai                                                       27.22
target                                                        NaN
Name: 260, dtype: object

Kita akan mendapatkan baris dengan indeks 260.

### Latihan
Bagaimana cara agar kita bisa mendapatkan data di kolom "nilai" yang ada di baris kelima dari dataframe `df` (yang belum di-*shuffle*)?

In [110]:
df.head()

Unnamed: 0,nama_series,kode_wilayah,wilayah,tahun,nilai,target
0,Proporsi Penduduk yang Memiliki Telepon Selule...,1,Indonesia,2001,,100.0
1,Proporsi Penduduk yang Memiliki Telepon Selule...,1,Indonesia,2002,,100.0
2,Proporsi Penduduk yang Memiliki Telepon Selule...,1,Indonesia,2003,,100.0
3,Proporsi Penduduk yang Memiliki Telepon Selule...,1,Indonesia,2004,,100.0
4,Proporsi Penduduk yang Memiliki Telepon Selule...,1,Indonesia,2005,8.19,100.0


#### Solusi

Ingat bahwa di Python, indeks dimulai dari hitungan 0, jadi untuk mengambil baris kelima kita harus menggunakan indeks = 4.

In [111]:
df.iloc[4]

nama_series     Proporsi Penduduk yang Memiliki Telepon Selule...
kode_wilayah                                                    1
wilayah                                                 Indonesia
tahun                                                        2005
nilai                                                        8.19
target                                                        100
Name: 4, dtype: object

In [112]:
df["nilai"].iloc[4]

8.19

## Mengakses sebagian data (range)

In [113]:
["wilayah", "tahun", "nilai"]

['wilayah', 'tahun', 'nilai']

In [114]:
subset_df = df[["wilayah", "tahun", "nilai"]]

In [115]:
subset_df.head()

Unnamed: 0,wilayah,tahun,nilai
0,Indonesia,2001,
1,Indonesia,2002,
2,Indonesia,2003,
3,Indonesia,2004,
4,Indonesia,2005,8.19


In [116]:
selected_columns = ["wilayah", "tahun"]

In [117]:
subset_df_2 = df[selected_columns]

In [118]:
subset_df_2.head()

Unnamed: 0,wilayah,tahun
0,Indonesia,2001
1,Indonesia,2002
2,Indonesia,2003
3,Indonesia,2004
4,Indonesia,2005


Mengambil baris-baris dengan indeks 2, 0, dan 10:

In [119]:
subset_rows = df.loc[[2, 0, 10]]

In [120]:
subset_rows.head()

Unnamed: 0,nama_series,kode_wilayah,wilayah,tahun,nilai,target
2,Proporsi Penduduk yang Memiliki Telepon Selule...,1,Indonesia,2003,,100.0
0,Proporsi Penduduk yang Memiliki Telepon Selule...,1,Indonesia,2001,,100.0
10,Proporsi Penduduk yang Memiliki Telepon Selule...,1,Indonesia,2011,69.46,100.0


In [50]:
subset = df.loc[:, selected_columns]

In [51]:
subset

Unnamed: 0,wilayah,tahun
0,Indonesia,2001
1,Indonesia,2002
2,Indonesia,2003
3,Indonesia,2004
4,Indonesia,2005
5,Indonesia,2006
6,Indonesia,2007
7,Indonesia,2008
8,Indonesia,2009
9,Indonesia,2010


In [53]:
subset = df.loc[3:5, selected_columns]

In [54]:
subset

Unnamed: 0,wilayah,tahun
3,Indonesia,2004
4,Indonesia,2005
5,Indonesia,2006


Memunculkan seluruh baris dengan tahun 2004:

In [58]:
subset = df.loc[df["tahun"] == 2004, selected_columns]

In [59]:
subset.head()

Unnamed: 0,wilayah,tahun
3,Indonesia,2004
18,Aceh,2004
33,Sumatera Utara,2004
48,Sumatera Barat,2004
63,Riau,2004


Pastikan bahwa di dalam *dataframe* kita, hanya ada tahun 2004:

In [60]:
subset["tahun"].unique()

array([2004])

In [61]:
subset["tahun"].nunique()

1

Memunculkan baris-baris dengan *field* "nilai" yang kosong:

In [62]:
df[df["nilai"].isnull()].head()

Unnamed: 0,nama_series,kode_wilayah,wilayah,tahun,nilai,target
0,Proporsi Penduduk yang Memiliki Telepon Selule...,1,Indonesia,2001,,100.0
1,Proporsi Penduduk yang Memiliki Telepon Selule...,1,Indonesia,2002,,100.0
2,Proporsi Penduduk yang Memiliki Telepon Selule...,1,Indonesia,2003,,100.0
3,Proporsi Penduduk yang Memiliki Telepon Selule...,1,Indonesia,2004,,100.0
15,Proporsi Penduduk yang Memiliki Telepon Selule...,11,Aceh,2001,,


Memunculkan baris-baris dengan *field* "nilai" yang tidak kosong:

In [63]:
df[~df["nilai"].isnull()].head()

Unnamed: 0,nama_series,kode_wilayah,wilayah,tahun,nilai,target
4,Proporsi Penduduk yang Memiliki Telepon Selule...,1,Indonesia,2005,8.19,100.0
5,Proporsi Penduduk yang Memiliki Telepon Selule...,1,Indonesia,2006,12.27,100.0
6,Proporsi Penduduk yang Memiliki Telepon Selule...,1,Indonesia,2007,24.33,100.0
7,Proporsi Penduduk yang Memiliki Telepon Selule...,1,Indonesia,2008,38.15,100.0
8,Proporsi Penduduk yang Memiliki Telepon Selule...,1,Indonesia,2009,49.21,100.0


### Latihan
1. Bagaimana caranya agar kita dapat mengambil data dari baris ke-400 sampai baris terakhir untuk kolom wilayah, tahun, target?
2. Bagaimana kita bisa mendapatkan baris untuk tahun 2004, 2005, dan 2007 untuk kolom wilayah tahun, target?
3. Bagaimana kita bisa mendapatkan baris untuk wilayah-wilayah yang ada di pulau Kalimantan di tahun 2005 - 2008?


#### Hint

Untuk nomor 2, kita bisa menggunakan operator logika:
- `&` untuk `dan`
- `|` untuk `atau`

#### Solusi 1

In [65]:
selected_cols = ["wilayah", "tahun", "target"]
subset = df[selected_cols].iloc[399:]

In [66]:
subset

Unnamed: 0,wilayah,tahun,target
399,Sulawesi Tengah,2010,
400,Sulawesi Tengah,2011,
401,Sulawesi Tengah,2012,
402,Sulawesi Tengah,2013,
403,Sulawesi Tengah,2014,
404,Sulawesi Tengah,2015,
405,Sulawesi Selatan,2001,
406,Sulawesi Selatan,2002,
407,Sulawesi Selatan,2003,
408,Sulawesi Selatan,2004,


#### Solusi 2

In [67]:
subset = df.loc[((df["tahun"] == 2004) | (df["tahun"] == 2005) | (df["tahun"] == 2007)), selected_cols]

In [68]:
subset

Unnamed: 0,wilayah,tahun,target
3,Indonesia,2004,100.0
4,Indonesia,2005,100.0
6,Indonesia,2007,100.0
18,Aceh,2004,
19,Aceh,2005,
21,Aceh,2007,
33,Sumatera Utara,2004,
34,Sumatera Utara,2005,
36,Sumatera Utara,2007,
48,Sumatera Barat,2004,


In [69]:
subset = df.loc[df["tahun"].isin([2004, 2005, 2007]), selected_cols]

In [70]:
subset.head()

Unnamed: 0,wilayah,tahun,target
3,Indonesia,2004,100.0
4,Indonesia,2005,100.0
6,Indonesia,2007,100.0
18,Aceh,2004,
19,Aceh,2005,


#### Solusi 3

In [71]:
wilayah = ["Kalimantan Barat", "Kalimantan Tengah", "Kalimantan Timur", "Kalimantan Utara"]
tahun = [2004, 2005, 2006, 2007]

df[df["wilayah"].isin(wilayah) & df["tahun"].isin(tahun)]

Unnamed: 0,nama_series,kode_wilayah,wilayah,tahun,nilai,target
303,Proporsi Penduduk yang Memiliki Telepon Selule...,61,Kalimantan Barat,2004,,
304,Proporsi Penduduk yang Memiliki Telepon Selule...,61,Kalimantan Barat,2005,6.29,
305,Proporsi Penduduk yang Memiliki Telepon Selule...,61,Kalimantan Barat,2006,10.92,
306,Proporsi Penduduk yang Memiliki Telepon Selule...,61,Kalimantan Barat,2007,26.73,
318,Proporsi Penduduk yang Memiliki Telepon Selule...,62,Kalimantan Tengah,2004,,
319,Proporsi Penduduk yang Memiliki Telepon Selule...,62,Kalimantan Tengah,2005,4.21,
320,Proporsi Penduduk yang Memiliki Telepon Selule...,62,Kalimantan Tengah,2006,8.83,
321,Proporsi Penduduk yang Memiliki Telepon Selule...,62,Kalimantan Tengah,2007,24.68,
348,Proporsi Penduduk yang Memiliki Telepon Selule...,64,Kalimantan Timur,2004,,
349,Proporsi Penduduk yang Memiliki Telepon Selule...,64,Kalimantan Timur,2005,14.82,


# Mengeksplor Data
Langkah ini penting karena ketika kita memasukkan data baru, sering kali pandas membacanya dengan cara yang tidak sesuai dengan yang kita inginkan (misalnya ada baris yang terpotong, atau separator-nya tidak tepat).

In [72]:
df.shape

(525, 6)

In [73]:
df.describe()

Unnamed: 0,kode_wilayah,tahun,nilai,target
count,525.0,525.0,361.0,15.0
mean,46.228571,2008.0,53.558172,100.0
std,26.902161,4.324614,28.889846,0.0
min,1.0,2001.0,1.27,100.0
25%,18.0,2004.0,25.87,100.0
50%,51.0,2008.0,60.89,100.0
75%,72.0,2012.0,80.23,100.0
max,94.0,2015.0,94.05,100.0


In [77]:
df["wilayah"].describe()

count            525
unique            35
top       Jawa Barat
freq              15
Name: wilayah, dtype: object

In [78]:
df["wilayah"].unique()

array(['Indonesia', 'Aceh', 'Sumatera Utara', 'Sumatera Barat', 'Riau',
       'Jambi', 'Sumatera Selatan', 'Bengkulu', 'Lampung',
       'Kepulauan Bangka Belitung', 'Kepulauan Riau', 'DKI Jakarta',
       'Jawa Barat', 'Jawa Tengah', 'DI Yogyakarta', 'Jawa Timur',
       'Banten', 'Bali', 'Nusa Tenggara Barat', 'Nusa Tenggara Timur',
       'Kalimantan Barat', 'Kalimantan Tengah', 'Kalimantan Selatan',
       'Kalimantan Timur', 'Kalimantan Utara', 'Sulawesi Utara',
       'Sulawesi Tengah', 'Sulawesi Selatan', 'Sulawesi Tenggara',
       'Gorontalo', 'Sulawesi Barat', 'Maluku', 'Maluku Utara',
       'Papua Barat', 'Papua'], dtype=object)

In [79]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 525 entries, 0 to 524
Data columns (total 6 columns):
nama_series     525 non-null object
kode_wilayah    525 non-null int64
wilayah         525 non-null object
tahun           525 non-null int64
nilai           361 non-null float64
target          15 non-null float64
dtypes: float64(2), int64(2), object(2)
memory usage: 24.7+ KB


Tipe-tipe data di pandas:

![Pandas data type](https://pbpython.com/images/pandas_dtypes.png)
[*Source*](https://pbpython.com/pandas_dtypes.html)

## Mengganti tipe kolom

In [80]:
df["tahun"] = df["tahun"].astype("str")

In [81]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 525 entries, 0 to 524
Data columns (total 6 columns):
nama_series     525 non-null object
kode_wilayah    525 non-null int64
wilayah         525 non-null object
tahun           525 non-null object
nilai           361 non-null float64
target          15 non-null float64
dtypes: float64(2), int64(1), object(3)
memory usage: 24.7+ KB


In [83]:
df = pd.read_csv("data/penduduk_telepon_seluler_pedesaan.csv", 
                 sep=";",
                 dtype={"tahun": str, "kode_wilayah": str})

In [84]:
df.head()

Unnamed: 0,nama_series,kode_wilayah,wilayah,tahun,nilai,target
0,Proporsi Penduduk yang Memiliki Telepon Selule...,1,Indonesia,2001,,100.0
1,Proporsi Penduduk yang Memiliki Telepon Selule...,1,Indonesia,2002,,100.0
2,Proporsi Penduduk yang Memiliki Telepon Selule...,1,Indonesia,2003,,100.0
3,Proporsi Penduduk yang Memiliki Telepon Selule...,1,Indonesia,2004,,100.0
4,Proporsi Penduduk yang Memiliki Telepon Selule...,1,Indonesia,2005,8.19,100.0


In [85]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 525 entries, 0 to 524
Data columns (total 6 columns):
nama_series     525 non-null object
kode_wilayah    525 non-null object
wilayah         525 non-null object
tahun           525 non-null object
nilai           361 non-null float64
target          15 non-null float64
dtypes: float64(2), object(4)
memory usage: 24.7+ KB


# *Checkpoint*
Sekarang kita sudah belajar cara:
- Memasukkan data csv ke dalam program kita untuk diolah lebih lanjut (`read_csv`)
- Merubah tipe kolom
- Mengakses kolom, baris tertentu sesuai perintah (`loc`, `iloc`)
- Mengeksplor data (`shape`, `info`, `describe`, `unique`, `nunique`)
- Memilih sebagian data (mengombinasikan `loc`, logika operator )


![alt text](https://media0.giphy.com/media/11sBLVxNs7v6WA/giphy.gif?cid=790b76115d44252537325577555e8107&rid=giphy.gif)
