# 2. Dictionaries & Pandas

Pelajari tentang `dictionaries`, alternatif Python `lists` dan `Pandas DataFrame` yang merupakan standar *de facto* untuk bekerja dengan data tabular dalam Python. Anda akan mendapatkan praktik langsung dengan membuat dan memanipulasi kumpulan data, dan Anda akan belajar cara mengakses informasi yang Anda butuhkan dari struktur data ini.

## Dictionaries

### Motivation for dictionaries

Untuk melihat mengapa `dictionaries` bermanfaat, lihat dua list berikut ini. `countries` berisi nama beberapa negara Eropa. List `capitals` berisi nama yang sesuai dari ibukota mereka.

In [1]:
# Definition of countries and capital
countries = ['spain', 'france', 'germany', 'norway']
capitals = ['madrid', 'paris', 'berlin', 'oslo']

# Get index of 'germany': ind_ger
ind_ger = countries.index('germany')

# Use ind_ger to print out capital of Germany
print(capitals[ind_ger])

berlin


### Create dictionary

Lists dari `countries` dan `capitals` tersedia dalam skrip. Sekarang tugas Anda untuk mengonversi data ini ke **dictionaries** di mana `countries` adalah `key` dan `capitals` adalah `value` yang sesuai. Sebagai penyegar, berikut adalah resep untuk membuat dictionaries:

<pre>
my_dict = {
   "key1":"value1",
   "key2":"value2",
}
</pre>

In [2]:
# Definition of countries and capital
countries = ['spain', 'france', 'germany', 'norway']
capitals = ['madrid', 'paris', 'berlin', 'oslo']

# From string in countries and capitals, create dictionary europe
europe = { 'spain':'madrid', 'france':'paris', 'germany':'berlin', 'norway':'oslo' }

# Print europe
print(europe)

{'spain': 'madrid', 'france': 'paris', 'germany': 'berlin', 'norway': 'oslo'}


### Access dictionary

Jika *keys* dari `dictionaries` dipilih dengan bijak, mengakses nilai-nilai dalam kamus itu mudah dan intuitif. Misalnya, untuk mendapatkan ibukota Prancis dari Eropa, Anda dapat menggunakan:

<pre>europe['france']</pre>

Di sini, `'france'` adalah kuncinya dan `'paris'` nilainya dikembalikan.

In [3]:
# Definition of dictionary
europe = {'spain':'madrid', 'france':'paris', 'germany':'berlin', 'norway':'oslo' }

# Print out the keys in europe
print(europe.keys())

# Print out value that belongs to key 'norway'
print(europe['norway'])

dict_keys(['spain', 'france', 'germany', 'norway'])
oslo


### Dictionary Manipulation

Jika Anda tahu cara mengakses `dictionary`, Anda juga dapat menetapkan nilai baru untuk `dictionary` tersebut. Untuk menambahkan pasangan nilai kunci (*key-value pair*) baru ke `europe` Anda dapat menggunakan cara seperti ini:

<pre>europe['iceland'] = 'reykjavik'</pre>

In [4]:
# Definition of dictionary
europe = {'spain':'madrid', 'france':'paris', 'germany':'berlin', 'norway':'oslo' }

# Add italy to europe
europe['italy'] = 'rome'

# Print out italy in europe
print('italy' in europe)

# Add poland to europe
europe['poland'] = 'warsaw'

# Print europe
print(europe)

True
{'spain': 'madrid', 'france': 'paris', 'germany': 'berlin', 'norway': 'oslo', 'italy': 'rome', 'poland': 'warsaw'}


**Note** : Eropa tumbuh dari menit ke menit! Apakah Anda memperhatikan bahwa urutan hasil cetak tidak sama dengan urutan dalam definisi dictionaries? Itu karena dictionaries pada dasarnya tidak teratur.

In [5]:
# Definition of dictionary
europe = {'spain':'madrid', 'france':'paris', 'germany':'bonn',
          'norway':'oslo', 'italy':'rome', 'poland':'warsaw',
          'australia':'vienna' }

# Update capital of germany
europe['germany'] = 'berlin'

# Remove australia
del(europe['australia'])

# Print europe
print(europe)

{'spain': 'madrid', 'france': 'paris', 'germany': 'berlin', 'norway': 'oslo', 'italy': 'rome', 'poland': 'warsaw'}


### Dictionariception

Ingat lists? Mereka dapat berisi apa saja, bahkan lists lain. Nah, untuk dictionaries juga sama. Dictionaries dapat berisi `key:value pairs` dimana nilainya adalah dictionaries lagi.

Sangat mungkin untuk menghubungkan kurung kotak untuk memilih elemen. Untuk mengambil populasi Spanyol dari Eropa, misalnya, Anda perlu:

<pre>europe['spain']['population']</pre>

In [6]:
# Dictionary of dictionaries
europe = { 'spain': { 'capital':'madrid', 'population':46.77 },
           'france': { 'capital':'paris', 'population':66.03 },
           'germany': { 'capital':'berlin', 'population':80.62 },
           'norway': { 'capital':'oslo', 'population':5.084 } }


# Print out the capital of France
print(europe['france']['capital'])

# Create sub-dictionary data
data = { 'capital':'rome', 'population':59.83 }

# Add data to europe under key 'italy'
europe['italy'] = data

# Print europe
print(europe)

paris
{'spain': {'capital': 'madrid', 'population': 46.77}, 'france': {'capital': 'paris', 'population': 66.03}, 'germany': {'capital': 'berlin', 'population': 80.62}, 'norway': {'capital': 'oslo', 'population': 5.084}, 'italy': {'capital': 'rome', 'population': 59.83}}


## Pandas

### Dictionary to DataFrame

Pandas adalah pustaka sumber terbuka, menyediakan kinerja tinggi, struktur data yang mudah digunakan dan alat analisis data untuk Python. Kedengarannya menjanjikan!

DataFrame adalah salah satu dari struktur data terpenting Pandas. Ini pada dasarnya cara untuk menyimpan data tabular di mana Anda dapat memberi label pada baris dan kolom. Salah satu cara untuk membangun DataFrame adalah dari dictionary.

Dalam latihan ini, Anda akan bekerja dengan data kendaraan dari berbagai negara. Setiap pengamatan sesuai dengan suatu negara dan kolom memberikan informasi tentang jumlah kendaraan per kapita, apakah orang mengemudi ke kiri atau kanan, dan sebagainya.

Tiga lists yang didefinisikan dalam skrip:

* **names** berisi nama negara tempat data tersedia.
* **dr** adalah sebuah lists dengan tipe boolean yang memberi tahu apakah orang mengemudi kiri atau kanan di negara yang bersangkutan.
* **cpc** jumlah kendaraan bermotor per 1000 orang di negara yang bersangkutan.

Setiap **dictionary key** adalah `label kolom` dan setiap **value** adalah lists yang berisi `elemen kolom`.

In [7]:
# Pre-defined lists
names = ['United States', 'Australia', 'Japan', 'India', 'Russia', 'Morocco', 'Egypt']
dr =  [True, False, False, False, True, True, True]
cpc = [809, 731, 588, 18, 200, 70, 45]

# Import pandas as pd
import pandas as pd

# Create dictionary my_dict with three key:value pairs: my_dict
my_dict = { 'country':names, 'drives_right':dr, 'cars_per_cap':cpc }

# Build a DataFrame cars from my_dict: cars
cars = pd.DataFrame(my_dict)

# Print cars
print(cars)

         country  drives_right  cars_per_cap
0  United States          True           809
1      Australia         False           731
2          Japan         False           588
3          India         False            18
4         Russia          True           200
5        Morocco          True            70
6          Egypt          True            45


Pernahkah Anda memperhatikan bahwa label baris (mis. Label untuk pengamatan berbeda) secara otomatis diatur ke bilangan bulat dari 0 hingga 6?

Untuk mengatasinya, buat lists `row_labels` untuk menentukan label baris dari DataFrame `cars`. Anda melakukan ini dengan menetapkan atribut `index` pada `cars`, yang dapat Anda akses sebagai `cars.index`.

In [8]:
import pandas as pd

# Build cars DataFrame
names = ['United States', 'Australia', 'Japan', 'India', 'Russia', 'Morocco', 'Egypt']
dr =  [True, False, False, False, True, True, True]
cpc = [809, 731, 588, 18, 200, 70, 45]
cars_dict = { 'country':names, 'drives_right':dr, 'cars_per_cap':cpc }
cars = pd.DataFrame(cars_dict)
print(cars)

# Definition of row_labels
row_labels = ['US', 'AUS', 'JPN', 'IN', 'RU', 'MOR', 'EG']

# Specify row labels of cars
cars.index = row_labels

# Print cars again
print(cars)

         country  drives_right  cars_per_cap
0  United States          True           809
1      Australia         False           731
2          Japan         False           588
3          India         False            18
4         Russia          True           200
5        Morocco          True            70
6          Egypt          True            45
           country  drives_right  cars_per_cap
US   United States          True           809
AUS      Australia         False           731
JPN          Japan         False           588
IN           India         False            18
RU          Russia          True           200
MOR        Morocco          True            70
EG           Egypt          True            45


### CSV to DataFrame

Menempatkan data dalam dictionary dan kemudian membangun DataFrame dapat berfungsi baik, tetapi itu tidak terlalu efisien. Bagaimana jika Anda berurusan dengan jutaan pengamatan? Dalam kasus tersebut, data biasanya tersedia sebagai file dengan struktur biasa. Salah satu jenis file tersebut adalah file CSV, yang merupakan kependekan dari "*comma-separated values*".

Untuk mengimpor data CSV ke Python sebagai DataFrame Pandas Anda dapat menggunakan `read_csv()` .

In [12]:
# Import pandas as pd
import pandas as pd

cars_data = 'https://assets.datacamp.com/production/repositories/287/datasets/79b3c22c47a2f45a800c62cae39035ff2ea4e609/cars.csv'

# Import the cars.csv data: cars
cars = pd.read_csv(cars_data)

# Print out cars
print(cars)

  Unnamed: 0  cars_per_cap        country  drives_right
0         US           809  United States          True
1        AUS           731      Australia         False
2        JAP           588          Japan         False
3         IN            18          India         False
4         RU           200         Russia          True
5        MOR            70        Morocco          True
6         EG            45          Egypt          True


Pada `read_csv()` Anda untuk mengimpor data CSV tidak menghasilkan kesalahan, tetapi hasilnya tidak sepenuhnya seperti yang kami inginkan. Label baris diimpor sebagai kolom lain tanpa nama.

Ingat `index_col`, argumen dari `read_csv()`, yang bisa Anda gunakan untuk menentukan kolom mana dalam file CSV yang harus digunakan sebagai label baris? Nah, itulah tepatnya yang Anda butuhkan di sini!

In [13]:
# Import pandas as pd
import pandas as pd

# Fix import by including index_col
cars = pd.read_csv(cars_data, index_col=0)

# Print out cars
print(cars)

     cars_per_cap        country  drives_right
US            809  United States          True
AUS           731      Australia         False
JAP           588          Japan         False
IN             18          India         False
RU            200         Russia          True
MOR            70        Morocco          True
EG             45          Egypt          True


### Square Brackets

Anda melihat bahwa Anda dapat mengindeks dan memilih Pandas DataFrames dengan berbagai cara. Cara paling sederhana, tetapi bukan yang paling kuat, adalah dengan menggunakan tanda kurung siku (**Square Brackets**).

Untuk memilih hanya kolom `cars_per_cap` dari `cars`, Anda dapat menggunakan:

<pre>
cars['cars_per_cap']
cars[['cars_per_cap']]
</pre>

Versi braket tunggal digunakan untuk **Pandas Series**, sedangkan versi braket ganda untuk mengakses **Pandas DataFrame**.

In [14]:
# Import cars data
import pandas as pd
cars = pd.read_csv(cars_data, index_col = 0)

# Print out country column as Pandas Series
print(cars['country'])

# Print out country column as Pandas DataFrame
print(cars[['country']])

# Print out DataFrame with country and drives_right columns
print(cars[['country', 'drives_right']])

US     United States
AUS        Australia
JAP            Japan
IN             India
RU            Russia
MOR          Morocco
EG             Egypt
Name: country, dtype: object
           country
US   United States
AUS      Australia
JAP          Japan
IN           India
RU          Russia
MOR        Morocco
EG           Egypt
           country  drives_right
US   United States          True
AUS      Australia         False
JAP          Japan         False
IN           India         False
RU          Russia          True
MOR        Morocco          True
EG           Egypt          True


Square brackets dapat melakukan lebih dari sekedar memilih kolom. Anda juga bisa menggunakannya untuk mendapatkan baris, atau pengamatan, dari DataFrame. Kode berikut memilih lima baris pertama dari DataFrame `cars`:

<pre>cars[0:5]</pre>

Hasilnya adalah DataFrame lain yang hanya berisi baris yang Anda tentukan.

**Perhatikan** : Anda hanya dapat memilih baris menggunakan square brackets, jika Anda menentukan slice, seperti `0: 4` . Juga, Anda menggunakan indeks integer dari baris di sini, bukan label baris!

In [15]:
# Import cars data
import pandas as pd
cars = pd.read_csv(cars_data, index_col = 0)

# Print out first 3 observations
print(cars[0:3])

# Print out fourth, fifth and sixth observation
print(cars[3:6])

     cars_per_cap        country  drives_right
US            809  United States          True
AUS           731      Australia         False
JAP           588          Japan         False
     cars_per_cap  country  drives_right
IN             18    India         False
RU            200   Russia          True
MOR            70  Morocco          True


Anda dapat memperoleh informasi yang menarik, tetapi menggunakan kurung siku untuk melakukan pengindeksan agak terbatas. Percobaan dengan teknik yang lebih maju dalam latihan berikut.

### loc and iloc

Dengan **loc** dan **iloc** Anda dapat melakukan hampir semua operasi pemilihan data pada DataFrames yang dapat Anda pikirkan.

* [loc](http://pandas.pydata.org/pandas-docs/stable/indexing.html#different-choices-for-indexing) adalah berbasis label, yang berarti bahwa Anda harus menentukan baris dan kolom berdasarkan baris dan kolom label mereka.
* [iloc](http://pandas.pydata.org/pandas-docs/stable/indexing.html#different-choices-for-indexing) adalah basis indeks integer, jadi Anda harus menentukan baris dan kolom berdasarkan indeks integernya seperti yang Anda lakukan pada latihan sebelumnya.

Cobalah perintah berikut di IPython Shell untuk bereksperimen dengan `loc` dan `iloc` untuk memilih pengamatan. Setiap pasangan perintah di sini memberikan hasil yang sama.

In [16]:
# Series
print(cars.loc['RU'])
print(cars.iloc[4])

# DataFrame
print(cars.loc[['RU']])
print(cars.iloc[[4]])

print(cars.loc[['RU', 'AUS']])
print(cars.iloc[[4, 1]])

cars_per_cap       200
country         Russia
drives_right      True
Name: RU, dtype: object
cars_per_cap       200
country         Russia
drives_right      True
Name: RU, dtype: object
    cars_per_cap country  drives_right
RU           200  Russia          True
    cars_per_cap country  drives_right
RU           200  Russia          True
     cars_per_cap    country  drives_right
RU            200     Russia          True
AUS           731  Australia         False
     cars_per_cap    country  drives_right
RU            200     Russia          True
AUS           731  Australia         False


In [18]:
# Import cars data
import pandas as pd
cars = pd.read_csv(cars_data, index_col = 0)

# Print out observation for Japan
print(cars.loc['JAP'])

# Print out observations for Australia and Egypt
print(cars.iloc[[1, 6]])

cars_per_cap      588
country         Japan
drives_right    False
Name: JAP, dtype: object
     cars_per_cap    country  drives_right
AUS           731  Australia         False
EG             45      Egypt          True


`loc` dan `iloc` juga memungkinkan Anda untuk memilih baris dan kolom dari DataFrame. Untuk bereksperimen, cobalah perintah berikut di IPython Shell. Sekali lagi, perintah berpasangan menghasilkan hasil yang sama.

In [19]:
print(cars.loc['IN', 'cars_per_cap'])
print(cars.iloc[3, 0])

18
18


In [20]:
print(cars.loc[['IN', 'RU'], 'cars_per_cap'])
print(cars.iloc[[3, 4], 0])

IN     18
RU    200
Name: cars_per_cap, dtype: int64
IN     18
RU    200
Name: cars_per_cap, dtype: int64


In [21]:
print(cars.loc[['IN', 'RU'], ['cars_per_cap', 'country']])
print(cars.iloc[[3, 4], [0, 1]])

    cars_per_cap country
IN            18   India
RU           200  Russia
    cars_per_cap country
IN            18   India
RU           200  Russia


In [22]:
# Import cars data
import pandas as pd
cars = pd.read_csv(cars_data, index_col = 0)

# Print out drives_right value of Morocco
print(cars.loc['MOR', 'drives_right'])

# Print sub-DataFrame
print(cars.iloc[[4, 5], [1, 2]])

True
     country  drives_right
RU    Russia          True
MOR  Morocco          True


Anda juga dapat memilih hanya kolom dengan `loc` dan `iloc`. Dalam kedua kasus, Anda cukup meletakkan irisan dari awal hingga akhir di depan koma:

In [23]:
print(cars.loc[:, 'country'])
print(cars.iloc[:, 1])

US     United States
AUS        Australia
JAP            Japan
IN             India
RU            Russia
MOR          Morocco
EG             Egypt
Name: country, dtype: object
US     United States
AUS        Australia
JAP            Japan
IN             India
RU            Russia
MOR          Morocco
EG             Egypt
Name: country, dtype: object


In [24]:
print(cars.loc[:, ['country','drives_right']])
print(cars.iloc[:, [1, 2]])

           country  drives_right
US   United States          True
AUS      Australia         False
JAP          Japan         False
IN           India         False
RU          Russia          True
MOR        Morocco          True
EG           Egypt          True
           country  drives_right
US   United States          True
AUS      Australia         False
JAP          Japan         False
IN           India         False
RU          Russia          True
MOR        Morocco          True
EG           Egypt          True


In [25]:
# Import cars data
import pandas as pd
cars = pd.read_csv(cars_data, index_col = 0)

# Print out drives_right column as Series
print(cars.loc[:, 'drives_right'])

# Print out drives_right column as DataFrame
print(cars.loc[:, ['drives_right']])

# Print out cars_per_cap and drives_right as DataFrame
print(cars.loc[:, ['cars_per_cap', 'drives_right']])

US      True
AUS    False
JAP    False
IN     False
RU      True
MOR     True
EG      True
Name: drives_right, dtype: bool
     drives_right
US           True
AUS         False
JAP         False
IN          False
RU           True
MOR          True
EG           True
     cars_per_cap  drives_right
US            809          True
AUS           731         False
JAP           588         False
IN             18         False
RU            200          True
MOR            70          True
EG             45          True
