<a href="https://colab.research.google.com/github/rifyalt/digitalskola/blob/main/Salinan_dari_intro_to_pandas.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

#### Copyright 2017 Google LLC.

In [None]:
# Licensed under the Apache License, Version 2.0 (the "License");
# you may not use this file except in compliance with the License.
# You may obtain a copy of the License at
#
# https://www.apache.org/licenses/LICENSE-2.0
#
# Unless required by applicable law or agreed to in writing, software
# distributed under the License is distributed on an "AS IS" BASIS,
# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
# See the License for the specific language governing permissions and
# limitations under the License.

# Pengantar Singkat tentang pandas

**Tujuan Pembelajaran:**
  * Memperoleh pengantar tentang struktur data `DataFrame` dan `Series` dari library *pandas*
  * Mengakses dan memanipulasi data dalam `DataFrame` dan `Series`
  * Mengimpor data CSV ke dalam `DataFrame` *pandas*
  * Mengindeks ulang `DataFrame` untuk mengacak data

[*pandas*](http://pandas.pydata.org/) adalah API analisis data yang berorientasi pada kolom. API ini merupakan fitur yang canggih untuk menangani dan menganalisis data masukan, dan banyak framework ML mendukung struktur data *pandas* sebagai masukan.
Meskipun pengantar yang komprehensif mengenai *pandas* API memerlukan penjabaran yang panjang, konsep intinya cukup mudah, dan kita akan mempresentasikannya di bawah. Untuk mengetahui referensi yang lebih lengkap, kunjungi [situs dokumen *pandas*](http://pandas.pydata.org/pandas-docs/stable/index.html) yang berisi dokumentasi ekstensif dan berbagai tutorial.

## Konsep Dasar

Baris berikut ini mengimpor *pandas* API dan mencetak versi API tersebut:

In [None]:
from __future__ import print_function

import pandas as pd
pd.__version__

Struktur data utama di *pandas* diterapkan sebagai dua kelas:

  * **`DataFrame`**, yang dapat Anda bayangkan sebagai tabel data relasional, dengan baris dan kolom yang diberi nama.
  * **`Series`**, yang merupakan kolom tunggal. `DataFrame` berisi satu atau beberapa `Series` dan sebuah nama untuk tiap `Series`.

Frame data adalah abstraksi yang umum digunakan untuk manipulasi data. Penerapan yang serupa ada di [Spark](https://spark.apache.org/) dan [R](https://www.r-project.org/about.html).

Salah satu cara untuk membuat `Series` adalah dengan membangun objek `Series`. Sebagai contoh:

In [None]:
pd.Series(['San Francisco', 'San Jose', 'Sacramento'])

Objek `DataFrame` dapat dibuat dengan meneruskan `dict` yang memetakan nama kolom `string` ke masing-masing `Series`. Jika panjang `Series` tidak sesuai, nilai yang hilang akan diisi dengan nilai [NA/NaN](http://pandas.pydata.org/pandas-docs/stable/missing_data.html) khusus. Misalnya:

In [None]:
city_names = pd.Series(['San Francisco', 'San Jose', 'Sacramento'])
population = pd.Series([852469, 1015785, 485199])

pd.DataFrame({ 'City name': city_names, 'Population': population })

Namun, Anda biasanya perlu memuat seluruh file ke dalam `DataFrame`. Contoh berikut berisi pemuatan file yang berisi data perumahan California. Jalankan sel berikut untuk memuat data dan membuat definisi fitur:

In [None]:
california_housing_dataframe = pd.read_csv("https://download.mlcc.google.com/mledu-datasets/california_housing_train.csv", sep=",")
california_housing_dataframe.describe()

Contoh di atas menggunakan `DataFrame.describe` untuk menampilkan statistik yang menarik tentang `DataFrame`. Fungsi yang berguna lainnya adalah `DataFrame.head`, yang menampilkan beberapa data pertama dari `DataFrame`:

In [None]:
california_housing_dataframe.head()

Fitur canggih lainnya dari *pandas* adalah grafik. Misalnya, `DataFrame.hist` memungkinkan Anda belajar distribusi nilai dalam kolom dengan cepat:

In [None]:
california_housing_dataframe.hist('housing_median_age')

## Mengakses Data

Anda dapat mengakses data `DataFrame` menggunakan operasi daftar/kamus Python yang dikenal:

In [None]:
cities = pd.DataFrame({ 'City name': city_names, 'Population': population })
print(type(cities['City name']))
cities['City name']

In [None]:
print(type(cities['City name'][1]))
cities['City name'][1]

In [None]:
print(type(cities[0:2]))
cities[0:2]

Selain itu, *pandas* menyediakan API yang sangat kaya untuk [pemilihan dan pengindeksan](http://pandas.pydata.org/pandas-docs/stable/indexing.html) tingkat lanjut yang terlalu ekstensif untuk dibahas di sini.

## Memanipulasi Data

Anda dapat menerapkan operasi aritmetika dasar Python ke `Series`. Misalnya:

In [None]:
population / 1000.

[NumPy](http://www.numpy.org/) adalah toolkit populer untuk penghitungan ilmiah. `Series` *pandas* dapat digunakan sebagai argumen untuk sebagian besar fungsi NumPy:

In [None]:
import numpy as np

np.log(population)

Untuk transformasi kolom tunggal yang lebih kompleks, Anda dapat menggunakan `Series.apply`. Seperti [fungsi pemetaan](https://docs.python.org/2/library/functions.html#map) Python, 
`Series.apply` menerima [fungsi lambda](https://docs.python.org/2/tutorial/controlflow.html#lambda-expressions) sebagai argumen, yang diterapkan ke tiap nilai.

Contoh di bawah berisi pembuatan `Series` baru yang menunjukkan apakah `population` berjumlah di atas satu juta:

In [None]:
population.apply(lambda val: val > 1000000)


Mengubah `DataFrames` juga mudah. Misalnya, kode berikut menambahkan dua `Series` ke `DataFrame` yang sudah ada:

In [None]:
cities['Area square miles'] = pd.Series([46.87, 176.53, 97.92])
cities['Population density'] = cities['Population'] / cities['Area square miles']
cities

## Latihan #1

Ubah tabel `cities` dengan menambahkan kolom boolean baru yang bernilai BENAR, jika dan hanya jika *kedua* hal berikut bernilai BENAR:

  * Kota memiliki nama yang berawalan saint (santo).
  * Luas kota lebih besar dari 50 mil persegi.

**Catatan:** `Series` boolean digabungkan menggunakan operator bitwise, bukan boolean tradisional. Misalnya, saat menjalankan *logical and*, gunakan `&` bukan `and`.

**Petunjuk:** "San" dalam bahasa Spanyol berarti "santo".

In [None]:
# Your code here

### Solusi

Klik di bawah untuk mendapatkan solusi.

In [None]:
cities['Is wide and has saint name'] = (cities['Area square miles'] > 50) & cities['City name'].apply(lambda name: name.startswith('San'))
cities

## Indeks
Objek `Series` dan `DataFrame` juga menentukan properti `index` yang menetapkan nilai ID ke setiap item `Series` atau baris `DataFrame`. 

Secara default, saat melakukan konstruksi, *pandas* menetapkan nilai indeks yang mencerminkan pengurutan data sumber. Setelah dibuat, nilai indeks bersifat stabil; artinya, nilai tersebut tidak berubah saat data diurutkan kembali.

In [None]:
city_names.index

In [None]:
cities.index

Panggil `DataFrame.reindex` untuk mengurutkan kembali baris secara manual. Misalnya, berikut ini memiliki efek yang sama seperti mengurutkan berdasarkan nama kota:

In [None]:
cities.reindex([2, 0, 1])

Pengindeksan ulang adalah cara yang tepat untuk mengacak `DataFrame`. Pada contoh di bawah, kita mengambil indeks, yang menyerupai array, dan meneruskannya ke fungsi `random.permutation` NumPy, yang akan mengacak nilainya. Memanggil `reindex` dengan array yang diacak ini akan membuat baris `DataFrame` teracak dengan cara yang sama.
Coba jalankan sel berikut beberapa kali.

In [None]:
cities.reindex(np.random.permutation(cities.index))

Untuk mengetahui informasi selengkapnya, lihat [dokumentasi Indeks](http://pandas.pydata.org/pandas-docs/stable/indexing.html#index-objects).

## Latihan #2

Metode `reindex` mengizinkan nilai indeks yang tidak ada di nilai indeks `DataFrame`' asli. Cobalah dan lihat apa yang terjadi jika Anda menggunakan nilai tersebut. Menurut Anda, mengapa metode ini diizinkan?

In [None]:
# Your code here

### Solusi

Klik di bawah ini untuk mendapatkan solusi.

Jika array masukan `reindex` Anda mencakup nilai yang tidak ada di nilai indeks `DataFrame` asli, `reindex` akan menambahkan baris baru untuk indeks yang "hilang" tersebut, dan mengisi semua kolom terkait dengan nilai `NaN`:

In [None]:
cities.reindex([0, 4, 5, 2])

Perilaku ini disukai karena indeks sering kali berupa string yang diambil dari data yang sebenarnya (lihat [dokumentasi pengindeksan ulang *pandas*](http://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.reindex.html) untuk mengetahui contoh nilai indeks yang merupakan nama browser).

Dalam kasus ini, pengindeksan ulang akan lebih mudah dilakukan jika indeks yang "hilang" diizinkan menggunakan daftar eksternal, karena Anda tidak perlu khawatir mengenai pembersihan masukan.