# 1. Fundamental data types

Bab ini akan memperkenalkan Anda pada tipe data Python mendasar - **list**, **set**, dan **tuple**. Wadah data ini sangat penting karena menyediakan dasar untuk menyimpan dan looping data yang diurutkan. Untuk membuat hal-hal menarik, Anda akan menerapkan apa yang Anda pelajari tentang tipe-tipe ini untuk menjawab pertanyaan tentang dataset *New York Baby Names!*

## Introduction and lists

### Data types

* Sistem tipe data mengatur tahapan untuk kemampuan bahasa pemrograman
* Memahami tipe data sangat bermanfaat untuk menambah kemampuan Anda sebagai ilmuwan data

### Container sequences

* Hold other types of data
* Digunakan untuk agregasi, pengurutan (*sorting*), dan banyak lagi
* Dapat berubah-ubah - *mutable* (list, set) atau tidak dapat berubah *immutable* (tuple)
* Iterable

iterable artinya kamu bisa melakukan loop terhadap setiap elemen dalam objek tersebut. ([sumber](https://id.quora.com/Apa-itu-iterable-dalam-bahasa-pemograman-python))

### Lists

* Hold data in order it was added
* Mutable
* Index

In [1]:
cookies = ['chocolate chip', 'peanut butter', 'oatmeal', 'sugar']

In [2]:
cookies.append('Tirggel')

In [3]:
print(cookies)

['chocolate chip', 'peanut butter', 'oatmeal', 'sugar', 'Tirggel']


In [4]:
print(cookies[2])

oatmeal


### Combining Lists

* Dengan menggunakan operator, Anda dapat menggabungkan dua list menjadi satu list baru

In [5]:
cakes = ['strawberry', 'vanilla']

desserts = cookies + cakes

print(desserts)

['chocolate chip', 'peanut butter', 'oatmeal', 'sugar', 'Tirggel', 'strawberry', 'vanilla']


* Metode `.extend()` menggabungkan list ke list lain di akhir

### Finding and Removing Elements in a List

* Metode `.index()` menempatkan posisi elemen data dalam list

In [6]:
position = cookies.index('sugar')

print(position)

3


* Metode `.pop()` menghapus item dari list dan memungkinkan Anda untuk menyimpannya

In [7]:
name = cookies.pop(position)

print(name)

sugar


In [8]:
print(cookies)

['chocolate chip', 'peanut butter', 'oatmeal', 'Tirggel']


### Iterating and Sorting

* `for` loops adalah cara yang paling umum untuk berinteraksi dalam list

In [9]:
for cookie in cookies:
    print(cookie)

chocolate chip
peanut butter
oatmeal
Tirggel


* fungsi `sorted()` mengurutkan data dalam urutan numerik atau alfabet dan mengembalikan list baru

In [11]:
print(cookies)

sorted_cookies = sorted(cookies)

print(sorted_cookies)

['chocolate chip', 'peanut butter', 'oatmeal', 'Tirggel']
['Tirggel', 'chocolate chip', 'oatmeal', 'peanut butter']


### Manipulating lists for fun and profit

In [12]:
# Create a list containing the names: baby_names
baby_names = ['Ximena', 'Aliza', 'Ayden', 'Calvin']

# Extend baby_names with 'Rowen' and 'Sandeep'
baby_names.extend(['Rowen', 'Sandeep'])

# Print baby_names
print(baby_names)

# Find the position of 'Aliza': position
position = baby_names.index('Aliza')

# Remove 'Aliza' from baby_names
baby_names.pop(position)

# Print baby_names
print(baby_names)

['Ximena', 'Aliza', 'Ayden', 'Calvin', 'Rowen', 'Sandeep']
['Ximena', 'Ayden', 'Calvin', 'Rowen', 'Sandeep']


**Note**: Perhatikan bagaimana kedua kali Anda mencetak `baby_names`, `'Aliza'` tidak lagi ada dalam list.

### Looping over lists

In [70]:
# Import pandas
import pandas as pd

# Load data 
df = pd.read_csv("datasets/baby_names.csv")
# Cetak 5 baris data
df.head()

Unnamed: 0,BRITH_YEAR,GENDER,ETHNICTY,NAME,COUNT,RANK
0,2011,FEMALE,HISPANIC,GERALDINE,13,75
1,2011,FEMALE,HISPANIC,GIA,21,67
2,2011,FEMALE,HISPANIC,GIANNA,49,42
3,2011,FEMALE,HISPANIC,GISELLE,38,51
4,2011,FEMALE,HISPANIC,GRACE,36,53


Dalam dataset nama-nama bayi pada tahun 2011 dan 2012 semuanya dalam huruf besar, sedangkan nama-nama pada tahun 2013 dan 2014 adalah *title case* (di mana huruf pertama dari setiap nama dikapitalisasi). Akibatnya, jika Anda membandingkan data 2011 dan 2014 dalam formulir ini, Anda tidak akan menemukan nama yang tumpang tindih antara dua tahun! Untuk mengatasinya, konversi nama pada 2011 menjadi *title case* menggunakan metode `.title()` Python.

In [71]:
df['NAME'] = df['NAME'].str.title()

In [72]:
# Ubah dataframe ke list
records = df.values.tolist()

In [4]:
# Create the empty list: baby_names
baby_names = []

# Loop over records 
for row in records:
    # Add the name to the list
    baby_names.append(row[3])
    
# Sort the names in alphabetical order
for name in sorted(baby_names):
    # Print each name
    print(name)

Aahil
Aaliyah
Aaliyah
Aaliyah
Aaliyah
Aaliyah
Aaliyah
Aaliyah
Aaliyah
Aaliyah
Aaliyah
Aaliyah
Aaliyah
Aaliyah
Aaliyah
Aarav
Aarav
Aarav
Aarav
Aarav
Aarav
Aaron
Aaron
Aaron
Aaron
Aaron
Aaron
Aaron
Aaron
Aaron
Aaron
Aaron
Aaron
Aaron
Aaron
Aaron
Aaron
Aaron
Aaron
Aaron
Aaron
Aaron
Aaron
Aaron
Aaron
Aaron
Aaron
Aaron
Aaron
Aarya
Aayan
Aayan
Aayan
Abby
Abby
Abby
Abby
Abby
Abby
Abby
Abdiel
Abdiel
Abdiel
Abdiel
Abdiel
Abdoul
Abdoul
Abdoul
Abdoul
Abdoul
Abdoul
Abdoulaye
Abdoulaye
Abdoulaye
Abdoulaye
Abdoulaye
Abdoulaye
Abdoulaye
Abdul
Abdul
Abdul
Abdul
Abdul
Abdul
Abdul
Abdullah
Abdullah
Abdullah
Abdullah
Abdullah
Abdullah
Abdullah
Abdullah
Abel
Abel
Abel
Abel
Abel
Abel
Abel
Abigail
Abigail
Abigail
Abigail
Abigail
Abigail
Abigail
Abigail
Abigail
Abigail
Abigail
Abigail
Abigail
Abigail
Abigail
Abigail
Abigail
Abigail
Abigail
Abigail
Abigail
Abigail
Abigail
Abigail
Abigail
Abigail
Abigail
Abigail
Abraham
Abraham
Abraham
Abraham
Abraham
Abraham
Abraham
Abraham
Abraham
Abraham
Abraham
Abraham
Abr

Dwayne
Dwayne
Dwayne
Dylan
Dylan
Dylan
Dylan
Dylan
Dylan
Dylan
Dylan
Dylan
Dylan
Dylan
Dylan
Dylan
Dylan
Dylan
Dylan
Dylan
Dylan
Dylan
Dylan
Dylan
Dylan
Dylan
Dylan
Dylan
Dylan
Dylan
Dylan
Dylan
Dylan
Dylan
Dylan
Dylan
Dylan
Dylan
Dylan
Dylan
Dylan
Dylan
Eason
Eason
Eason
Eason
Eason
Eason
Eason
Eddie
Eddie
Eddie
Eddie
Eddie
Eddy
Eddy
Eden
Eden
Eden
Eden
Eden
Eden
Eden
Eden
Eden
Eden
Eden
Eden
Eden
Eden
Edgar
Edgar
Edgar
Edgar
Edgar
Edgar
Edgar
Edison
Edison
Edison
Edison
Edison
Edison
Edison
Edison
Edison
Edison
Edison
Edith
Eduardo
Eduardo
Eduardo
Eduardo
Eduardo
Eduardo
Eduardo
Edward
Edward
Edward
Edward
Edward
Edward
Edward
Edward
Edward
Edward
Edward
Edward
Edward
Edward
Edward
Edward
Edward
Edward
Edward
Edward
Edward
Edwin
Edwin
Edwin
Edwin
Edwin
Edwin
Edwin
Edwin
Edwin
Edwin
Edwin
Edwin
Edwin
Efraim
Efraim
Efraim
Efraim
Efraim
Efraim
Efraim
Egypt
Egypt
Egypt
Egypt
Egypt
Egypt
Eileen
Eileen
Eileen
Eileen
Eileen
Eileen
Eileen
Eileen
Eileen
Eileen
Eileen
Eileen
Eileen
Eileen
Eita

Kelly
Kelly
Kelly
Kelsey
Kelsey
Kelsey
Kelsey
Kelsey
Kelsey
Kelsey
Kelsey
Kelvin
Kelvin
Kelvin
Kelvin
Kelvin
Kelvin
Kendra
Kendra
Kendra
Kendra
Kendra
Kendra
Kendrick
Kendrick
Kennedy
Kennedy
Kennedy
Kennedy
Kennedy
Kennedy
Kennedy
Kennedy
Kenneth
Kenneth
Kenneth
Kenneth
Kenneth
Kenneth
Kenneth
Kenneth
Kenneth
Kenneth
Kenneth
Kenneth
Kenneth
Kenneth
Kenneth
Kenneth
Kenneth
Kenneth
Kenneth
Kenny
Kenny
Kenny
Kenny
Kenny
Kenny
Kenny
Kenya
Kenya
Kenya
Kenya
Kevin
Kevin
Kevin
Kevin
Kevin
Kevin
Kevin
Kevin
Kevin
Kevin
Kevin
Kevin
Kevin
Kevin
Kevin
Kevin
Kevin
Kevin
Kevin
Kevin
Kevin
Kevin
Kevin
Kevin
Kevin
Kevin
Kevin
Kevin
Keyla
Keyla
Keyla
Keyla
Keyla
Keyla
Keyla
Khadija
Khadijah
Khalil
Khalil
Khalil
Khalil
Khalil
Khalil
Khloe
Khloe
Khloe
Khloe
Khloe
Khloe
Khloe
Khloe
Khloe
Khloe
Khloe
Khloe
Khloe
Khloe
Khloe
Khloe
Khloe
Khloe
Khloe
Khloe
Kiara
Kiara
Kiara
Kiara
Kiara
Kiara
Kiara
Kiara
Kiara
Kiara
Kiara
Kiara
Kiara
Kiara
Kieran
Kieran
Kieran
Kieran
Kieran
Kieran
Kieran
Kimberly
Kimberly
Ki

Riley
Riley
Riley
Riley
Riley
Riley
Riley
Riley
Riley
Riley
Riley
Riley
Riley
Riley
Riley
Riley
Riley
Riley
Riley
Riley
Riley
Riley
Riley
Riley
Rivka
Rivka
Rivka
Rivka
Rivka
Rivka
Rivka
Rivky
Rivky
Rivky
Rivky
Rivky
Rivky
Rivky
Riya
Robert
Robert
Robert
Robert
Robert
Robert
Robert
Robert
Robert
Robert
Robert
Robert
Robert
Robert
Robert
Robert
Robert
Robert
Robert
Robert
Robert
Roberto
Roberto
Roberto
Roberto
Roberto
Roberto
Roberto
Rocco
Rocco
Rocco
Rocco
Rocco
Rocco
Rocco
Rochel
Rochel
Rochel
Rochel
Rochel
Rochel
Rochel
Rodney
Rodney
Rodney
Rodney
Rodrigo
Rodrigo
Rodrigo
Rodrigo
Rodrigo
Rodrigo
Rodrigo
Roger
Roger
Roger
Roger
Rohan
Rohan
Rohan
Rohan
Rohan
Rohan
Rohan
Roiza
Roizy
Roizy
Roizy
Roizy
Roizy
Roizy
Roman
Roman
Roman
Roman
Roman
Roman
Roman
Roman
Roman
Roman
Romeo
Romeo
Romeo
Romeo
Romeo
Romeo
Romeo
Romy
Ronald
Ronan
Ronan
Ronan
Rory
Rory
Rory
Rosa
Rosa
Rosa
Rosa
Rosa
Rosa
Rosa
Rose
Rose
Rose
Rose
Rose
Rose
Rose
Rose
Rose
Rose
Rose
Rose
Rose
Roselyn
Roselyn
Roselyn
Roselyn
Ro

**Note** : Seperti yang Anda lihat, `baby_names` sekarang dalam urutan abjad.

## Meet the Tuples

### Tuple

* Hold data in order
* Index 
* Immutable 
* Pairing 
* Unpackable

### Zipping and Unpacking

* Tuples are commonly created by zipping lists together with zip()
* Two lists: us_cookies, in_cookies

In [27]:
# Buat 2 list
us_cookies = ['Chocolate Chip', 'Brownies', 'Peanut Butter', 'Oreos', 'Oatmeal Raisin']
in_cookies = ['Punjabi','Fruit Cake Rusk', 'Marble Cookies', 'Kaju Pista Cookies','Almond Cookies']

In [33]:
top_pairs = list(zip(us_cookies, in_cookies))

print(top_pairs)

[('Chocolate Chip', 'Punjabi'), ('Brownies', 'Fruit Cake Rusk'), ('Peanut Butter', 'Marble Cookies'), ('Oreos', 'Kaju Pista Cookies'), ('Oatmeal Raisin', 'Almond Cookies')]


* Unpacking tuples is a very expressive way for working with data

In [34]:
us_num_1, in_num_1 = top_pairs[0]

print(us_num_1)
print(in_num_1)

Chocolate Chip
Punjabi


### More Unpacking in Loops

* Unpacking is especially powerful in loops

In [35]:
for us_cookie, in_cookie in top_pairs:
    print(in_cookie)
    print(us_cookie)

Punjabi
Chocolate Chip
Fruit Cake Rusk
Brownies
Marble Cookies
Peanut Butter
Kaju Pista Cookies
Oreos
Almond Cookies
Oatmeal Raisin


### Enumerating positions

* Another useful tuple creation method is the enumerate() function
* Enumeration is used in loops to return the position and the data in that position while looping

In [36]:
for idx, item in enumerate(top_pairs):
    us_cookie, in_cookie = item
    print(idx, us_cookie, in_cookie)

0 Chocolate Chip Punjabi
1 Brownies Fruit Cake Rusk
2 Peanut Butter Marble Cookies
3 Oreos Kaju Pista Cookies
4 Oatmeal Raisin Almond Cookies


### Be careful when making tuples

* Use zip(), enumerate(), or () to make tuples

In [37]:
item = ('vanilla', 'chocolate')

print(item)

('vanilla', 'chocolate')


* Beware of tailing commas

In [38]:
item2 = 'butter',

print(item2)

('butter',)


### Using and unpacking tuples

Tuples dibuat dari beberapa item seperti list, tetapi tidak dapat dimodifikasi dengan cara apa pun ( *immutable* ). Sangat umum untuk tuple digunakan untuk mewakili data dari database. ika Anda memiliki tuple seperti `('chocolate chip cookies', 15)` dan Anda ingin mengakses setiap bagian dari data, Anda dapat menggunakan indeks seperti list. Namun, Anda juga dapat "membongkar (*unspack*)" tuple menjadi beberapa variabel seperti `type, count = ('chocolate chip cookies', 15)` itu akan mengatur `type` ke `'chocolate chip cookies'` dan `count` ke `15`.

Seringkali Anda ingin memasangkan beberapa tipe data array. Fungsi `zip()` tidak hanya itu. Ini akan mengembalikan list tuple yang mengandung satu elemen dari setiap list yang dilewatkan ke dalam `zip()`.

Saat looping melalui list, Anda juga dapat melacak posisi Anda dalam list dengan menggunakan fungsi `enumerate()`. Fungsi tersebut mengembalikan indeks item list Anda saat ini di dalam list dan item list itu sendiri.

Anda akan berlatih menggunakan fungsi `enumerate()` dan `zip()` dalam latihan ini, di mana tugas Anda adalah memasangkan nama anak laki-laki dan perempuan yang paling umum. Dua list yaitu `girl_names` dan `boy_names`.

In [59]:
# Buat 2 list
girl_names = ['JADA', 'Emily', 'Ava', 'SERENITY', 'Claire', 'SOPHIA', 'Sarah', 'ASHLEY', 'CHAYA', 'ABIGAIL', 'Zoe', 'LEAH', 'HAILEY', 'AVA', 'Olivia', 'EMMA', 'CHLOE', 'Sophia', 'AALIYAH', 'Angela', 'Camila', 'Savannah', 'Serenity', 'Chloe', 'Fatoumata', 'ISABELLA', 'MIA', 'FIONA', 'Skylar', 'Ashley', 'Rachel', 'Sofia', 'Alina', 'MADISON', 'RACHEL', 'CAMILA', 'CHANA', 'TAYLOR', 'Kayla', 'Miriam', 'Leah', 'Grace', 'ANGELA', 'Isabella', 'Emma', 'KAYLA', 'SOFIA', 'Madison', 'Aaliyah', 'Taylor', 'GENESIS', 'Esther', 'MAKAYLA', 'Victoria', 'Chaya', 'Brielle', 'Anna', 'Samantha', 'ESTHER', 'GRACE', 'Mariam', 'Mia', 'NEVAEH', 'GABRIELLE', 'EMILY', 'London', 'TIFFANY', 'Chana', 'Valentina', 'OLIVIA', 'LONDON', 'MIRIAM', 'SARAH', 'ELLA']
boy_names = ['JOSIAH', 'ETHAN', 'David', 'Jayden', 'MASON', 'RYAN', 'CHRISTIAN', 'ISAIAH', 'JAYDEN', 'Michael', 'NOAH', 'SAMUEL', 'SEBASTIAN', 'Noah', 'Dylan', 'LUCAS', 'JOSHUA', 'ANGEL', 'Jacob', 'Matthew', 'Josiah', 'JACOB', 'Muhammad', 'ALEXANDER', 'Jason', 'Ethan', 'DANIEL', 'Joseph', 'AIDEN', 'Moshe', 'Jeremiah', 'William', 'Alexander', 'Sebastian', 'ERIC', 'MOSHE', 'Jack', 'Eric', 'MUHAMMAD', 'Lucas', 'BENJAMIN', 'Aiden', 'Ryan', 'Liam', 'JASON', 'KEVIN', 'Elijah', 'Angel', 'JAMES', 'Daniel', 'Samuel', 'Amir', 'Mason', 'Joshua', 'ANTHONY', 'JOSEPH', 'Benjamin', 'JUSTIN', 'JEREMIAH', 'MATTHEW', 'Carter', 'James', 'TYLER', 'DAVID', 'JACK', 'ELIJAH', 'MICHAEL', 'CHRISTOPHER']


In [60]:
# Pair up the boy and girl names: pairs
pairs = zip(girl_names, boy_names)

# Iterate over pairs
for idx, pair in enumerate(pairs):
    # Unpack pair: girl_name, boy_name
    girl_name, boy_name = pair
    # Print the rank and names associated with each rank
    print('Rank {}: {} and {}'.format(idx, girl_name, boy_name))

Rank 0: JADA and JOSIAH
Rank 1: Emily and ETHAN
Rank 2: Ava and David
Rank 3: SERENITY and Jayden
Rank 4: Claire and MASON
Rank 5: SOPHIA and RYAN
Rank 6: Sarah and CHRISTIAN
Rank 7: ASHLEY and ISAIAH
Rank 8: CHAYA and JAYDEN
Rank 9: ABIGAIL and Michael
Rank 10: Zoe and NOAH
Rank 11: LEAH and SAMUEL
Rank 12: HAILEY and SEBASTIAN
Rank 13: AVA and Noah
Rank 14: Olivia and Dylan
Rank 15: EMMA and LUCAS
Rank 16: CHLOE and JOSHUA
Rank 17: Sophia and ANGEL
Rank 18: AALIYAH and Jacob
Rank 19: Angela and Matthew
Rank 20: Camila and Josiah
Rank 21: Savannah and JACOB
Rank 22: Serenity and Muhammad
Rank 23: Chloe and ALEXANDER
Rank 24: Fatoumata and Jason
Rank 25: ISABELLA and Ethan
Rank 26: MIA and DANIEL
Rank 27: FIONA and Joseph
Rank 28: Skylar and AIDEN
Rank 29: Ashley and Moshe
Rank 30: Rachel and Jeremiah
Rank 31: Sofia and William
Rank 32: Alina and Alexander
Rank 33: MADISON and Sebastian
Rank 34: RACHEL and ERIC
Rank 35: CAMILA and MOSHE
Rank 36: CHANA and Jack
Rank 37: TAYLOR and Eric


**Note** : Apa saja nama anak perempuan dan laki-laki yang paling umum?

### Making tuples by accident

Tuples sangat kuat dan berguna, dan sangat mudah membuatnya secara tidak sengaja. Yang harus Anda lakukan adalah membuat variabel dan ikuti tugas dengan koma. Ini menjadi kesalahan ketika Anda mencoba menggunakan variabel nanti yang mengharapkannya menjadi string atau angka.

Anda dapat memverifikasi tipe data suatu variabel dengan fungsi `type()`. Dalam latihan ini, Anda akan melihat sendiri betapa mudahnya membuat tuple secara tidak sengaja.

In [61]:
# Create the normal variable: normal
normal = 'simple'

# Create the mistaken variable: error
error = 'trailing comma',

# Print the types of the variables
print(type(normal))
print(type(error))

<class 'str'>
<class 'tuple'>


**Note** : As you can see, the trailing comma caused `error` to be stored as a tuple instead of as a string. Watch out for those trailing commas!

## Sets for unordered and unique data

### Set

* Unique
* Unordered
* Mutable
* Python's implementation of Set Theory from Mathematics

### Creating Sets

* Sets are created from a list

In [62]:
cookies_eaten_today = ['chocolate chip', 'peanut butter', 'chocolate chip', 'oatmeal cream', 'chocolate chip']

types_of_cookies_eaten = set(cookies_eaten_today)

print(types_of_cookies_eaten)

{'peanut butter', 'oatmeal cream', 'chocolate chip'}


### Modifying Sets

* .add() adds single elements
* .update() merges in another set or list

In [64]:
types_of_cookies_eaten.add('biscotti')

In [65]:
types_of_cookies_eaten.add('chocolate chip')

In [66]:
print(types_of_cookies_eaten)

{'peanut butter', 'biscotti', 'oatmeal cream', 'chocolate chip'}


In [67]:
cookies_hugo_ate = ['chocolate chip', 'anzac']

types_of_cookies_eaten.update(cookies_hugo_ate)

print(types_of_cookies_eaten)

{'oatmeal cream', 'chocolate chip', 'peanut butter', 'anzac', 'biscotti'}


### Removing data from sets

* .discard() safely removes an element from the set by value
* .pop() removes and returns an arbitrary element from the set (KeyError when empty)

In [68]:
types_of_cookies_eaten.discard('biscotti')

In [69]:
print(types_of_cookies_eaten)

{'oatmeal cream', 'chocolate chip', 'peanut butter', 'anzac'}


In [70]:
types_of_cookies_eaten.pop()

'oatmeal cream'

In [72]:
types_of_cookies_eaten.pop()

'chocolate chip'

### Set Operations - Similarities

* .union() set method returns a set of all the names (|)
* .intersection() method identifies overlapping data (&)

In [74]:
cookies_jason_ate = set(['chocolate chip', 'oatmeal cream', 'peanut butter'])

cookies_hugo_ate = set(['chocolate chip', 'anzac'])

In [75]:
cookies_jason_ate.union(cookies_hugo_ate)

{'anzac', 'chocolate chip', 'oatmeal cream', 'peanut butter'}

In [76]:
cookies_jason_ate.intersection(cookies_hugo_ate)

{'chocolate chip'}

### Set Operations - Differences

* .difference() method identifies data present in the set on which the method was used that is not in the arguments (-)
* Target is important!

In [77]:
cookies_jason_ate.difference(cookies_hugo_ate)

{'oatmeal cream', 'peanut butter'}

In [78]:
cookies_hugo_ate.difference(cookies_jason_ate)

{'anzac'}

## Finding all the data and the overlapping data between sets

Set memiliki beberapa metode untuk menggabungkan, membandingkan, dan mempelajarinya semua berdasarkan teori himpunan matematika. Metode `.union()` mengembalikan satu set semua nama yang ditemukan dalam set yang Anda gunakan metode pada ditambah set yang diberikan sebagai argumen untuk metode. Anda juga bisa mencari data yang tumpang tindih dalam set dengan menggunakan metode `.intersection()` pada set dan melewati set lain sebagai argumen. Ini akan mengembalikan set kosong jika tidak ada yang cocok.

Tugas Anda dalam latihan ini adalah menemukan `union` dan `intersection` dalam nama-nama dari 2011 dan 2014. Untuk tujuan ini, dua set telah dimuat sebelumnya ke ruang kerja Anda: `baby_names_2011` dan `baby_names_2014`.

Satu kekhasan dalam dataset nama bayi adalah bahwa nama-nama pada tahun 2011 dan 2012 semuanya dalam huruf besar, sedangkan nama-nama pada tahun 2013 dan 2014 adalah *title case* (di mana huruf pertama dari setiap nama dikapitalisasi). Akibatnya, jika Anda membandingkan data 2011 dan 2014 dalam formulir ini, Anda tidak akan menemukan nama yang tumpang tindih antara dua tahun! Untuk mengatasinya, kami mengonversikan nama pada 2011 menjadi *title case* menggunakan metode `.title()` Python.

Data Real-world sering kali datang dengan keanehan seperti ini - penting untuk menangkapnya untuk memastikan hasil Anda bermakna.

In [15]:
birth_2011 = df.loc[df['BRITH_YEAR'] == 2011]
baby_names_2011 = set(birth_2011['NAME'])

In [19]:
birth_2014 = df.loc[df['BRITH_YEAR'] == 2014]
baby_names_2014 = set(birth_2014['NAME'])

In [17]:
# Find the union: all_names
all_names = baby_names_2011.union(baby_names_2014)

# Print the count of names in all_names
print(len(all_names))

# Find the intersection: overlapping_names
overlapping_names = baby_names_2011.intersection(baby_names_2014)

# Print the count of names in overlapping_names
print(len(overlapping_names))

1460
987


**Note** : Seperti yang Anda lihat dari output `len(overlapping_names)`, ada 987 nama yang tumpang tindih (*overlapping*) di antara kedua set.

### Determining set differences

Cara lain untuk membandingkan set adalah dengan menggunakan metode `difference()`. Ini mengembalikan semua item yang ditemukan dalam satu set tetapi tidak yang lain. Penting untuk mengingat metode set yang Anda panggil akan menjadi salah satu dari mana item dikembalikan. Tidak seperti tuple, Anda dapat `add()` item ke set. Satu set hanya akan menambahkan item yang tidak ada di set.

Dalam latihan ini, Anda akan menjelajahi nama-nama apa yang umum pada tahun 2011, tetapi tidak lagi umum pada tahun 2014.

In [74]:
# Create the empty set: baby_names_2011
baby_names_2011 = set()

# Loop over records and add the names from 2011 to the baby_names_2011 set
for row in records:
    # Check if the first column is '2011'
    if row[0] == 2011:
        # Add the fourth column to the set
        baby_names_2011.add(row[3])

# Find the difference between 2011 and 2014: differences
differences = baby_names_2011.difference(baby_names_2014)

# Print the differences
print(differences)

{'Maximo', 'Marisol', 'Carmine', 'Angely', 'Jeancarlos', 'Cheyenne', 'Armando', 'Tabitha', 'Jia', 'Jaheim', 'Jaslene', 'Julien', 'Jamir', 'Maksim', 'Noemi', 'Yehudah', 'Shania', 'Dana', 'Zahra', 'Michal', 'Xin', 'Shneur', 'Analia', 'Larry', 'Elise', 'Jasmin', 'Haley', 'Rodney', 'Milena', 'Savanna', 'Kathryn', 'Hayley', 'Essence', 'Estrella', 'Augustus', 'Diya', 'Lamar', 'Isis', 'Leela', 'Janiyah', 'Malcolm', 'Royce', 'Mauricio', 'Ousmane', 'Jaliyah', 'Eddie', 'Aimee', 'Damaris', 'Scarlet', 'Elianny', 'Jacky', 'Lesley', 'Terrence', 'Perla', 'Christine', 'Ilan', 'Kenya', 'Stephany', 'Darius', 'Ilana', 'Kacper', 'Kamiyah', 'Stacy', 'Johnathan', 'Dulce', 'Tzippy', 'Renee', 'Yechezkel', 'Arturo', 'Ahron', 'Paola', 'Ingrid', 'Gittel', 'Zaria', 'Tomas', 'Kiyan', 'Yonah', 'Jaime', 'Zalmen', 'Amani', 'Jencarlos', 'Princess', 'Jamal', 'Nathalia', 'Janiya', 'Krystal', 'Geraldine', "Amar'E", 'Heidy', 'Nehemiah', 'Jeremias', 'Cristina', 'Denise', 'Elliana', 'Tina', 'Shevy', 'Nikolas', 'Jermaine', '

## Kesimpulan

Anda telah menyelesaikan Bab 1! Setelah mempelajari tentang **list**, **tuples**, dan **sets**, Anda sekarang siap untuk mempelajari semua tentang **dictionaries**. Sampai jumpa di Bab 2!