# 1. Using iterators in PythonLand

Anda akan mempelajari semua tentang iterator dan iterables, yang telah Anda kerjakan saat menulis for loop. Anda akan mempelajari beberapa fungsi praktis yang memungkinkan Anda untuk bekerja secara efektif dengan iterator. Dan Anda akan menyelesaikan bab dengan kasus penggunaan yang berkaitan dengan dunia ilmu data dan berurusan dengan data dalam jumlah besar — dalam hal ini, data dari Twitter yang akan Anda muat dalam potongan menggunakan iterator.

## Introduction to iterators

### Iterators vs Iterables

Mari kita mengingat kembali apa yang telah Anda pelajari tentang `iterables` dan `iterators`. Ingat bahwa **iterable** adalah objek yang dapat mengembalikan iterator, sementara **iterator** adalah objek yang membuat status dan menghasilkan nilai berikutnya saat Anda memanggil `next()` di atasnya. Dalam latihan ini, Anda akan mengidentifikasi objek mana yang dapat diulang (*iterable*) dan mana yang merupakan iterator.

Variabel `flash1` dan `flash2` telah dimuat. Coba cetak nilainya dengan `print()` dan `next()` untuk mencari tahu mana yang dapat *iterable* dan mana yang merupakan *iterator*.

In [1]:
# Create iterable
flash1 = ['jay garrick', 'barry allen', 'wally west', 'bart allen']
# Create iterator
flash2 = iter(['jay garrick', 'barry allen', 'wally west', 'bart allen'])

In [4]:
print(type(flash1))
print(type(flash2))

<class 'list'>
<class 'list_iterator'>


In [6]:
print(flash1)

['jay garrick', 'barry allen', 'wally west', 'bart allen']


In [8]:
print(next(flash2))

wally west


**Note** : `flash1` adalah iterable dan `flash2` adalah iterator.

### Iterating over iterables (1)

Hebat, Anda terbiasa dengan apa itu iterables dan iterators! Dalam latihan ini, Anda akan memperkuat pengetahuan Anda tentang ini dengan mengulangi lagi (*iterating over*) dan mencetak dari iterables dan iterator.

Anda diberikan list string `flash`. Anda akan berlatih iterasi dengan list tersebut menggunakan `for` loop. Anda juga akan membuat iterator untuk list dan mengakses nilai-nilai dari iterator.

In [9]:
# Create a list of strings: flash
flash = ['jay garrick', 'barry allen', 'wally west', 'bart allen']

# Print each list item in flash using a for loop
for person in flash:
    print(person)

# Create an iterator for flash: superhero
superhero = iter(flash)

# Print each item from the iterator
print(next(superhero))
print(next(superhero))
print(next(superhero))
print(next(superhero))

jay garrick
barry allen
wally west
bart allen
jay garrick
barry allen
wally west
bart allen


### Iterating over iterables (2)

Salah satu hal yang Anda pelajari dalam bab ini adalah tidak semua iterables adalah list aktual. Beberapa contoh yang kami lihat adalah string dan penggunaan fungsi `range()`. Dalam latihan ini, kita akan fokus pada fungsi `range()`.

Anda bisa menggunakan `range()` dalam `for` loop seolah-olah list untuk diulang:

<pre>
for i in range(5):
    print(i)
</pre>

Ingat bahwa `range()` sebenarnya tidak membuat list; alih-alih, ia membuat objek rentang dengan iterator yang menghasilkan nilai hingga mencapai batas (dalam contoh, hingga nilai 4). Jika `range()` membuat list aktual, memanggilnya dengan nilai (10 pangkat 100) mungkin tidak berfungsi, terutama karena angka sebesar itu mungkin melebihi memori komputer biasa. Nilai (10 pangkat 100) sebenarnya adalah apa yang disebut *Googol* yang merupakan 1 diikuti oleh seratus 0. Itu jumlah yang besar!

Tugas Anda untuk latihan ini adalah untuk menunjukkan bahwa `range()` dengan (10 pangkat 100) sebenarnya tidak akan membuat list sebelumnya.

In [10]:
# Create an iterator for range(3): small_value
small_value = iter(range(3))

# Print the values in small_value
print(next(small_value))
print(next(small_value))
print(next(small_value))

# Loop over range(3) and print the values
for num in range(3):
    print(num)

# Create an iterator for range(10 ** 100): googol
googol = iter(range(10 ** 100))

# Print the first 5 values from googol
print(next(googol))
print(next(googol))
print(next(googol))
print(next(googol))
print(next(googol))

0
1
2
0
1
2
0
1
2
3
4


### Iterators as function arguments

Anda telah menggunakan fungsi `iter()` untuk mendapatkan objek iterator, serta fungsi `next()` untuk mengambil nilai satu per satu dari objek iterator.

Ada juga fungsi yang menggunakan iterator dan iterables sebagai argumen. Misalnya, fungsi `list()` dan `sum()` masing-masing mengembalikan list dan jumlah elemen.

Dalam latihan ini, Anda akan menggunakan fungsi-fungsi ini dengan meneruskan iterable dari `range()` dan kemudian mencetak hasil dari panggilan fungsi.

In [11]:
# Create a range object: values
values = range(10, 21)

# Print the range object
print(values)

# Create a list of integers: values_list
values_list = list(values)

# Print values_list
print(values_list)

# Get the sum of values: values_sum
values_sum = sum(values)

# Print values_sum
print(values_sum)

range(10, 21)
[10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20]
165


## Playing with iterators

### Using enumerate

Anda baru saja mendapatkan beberapa ide baru tentang iterator dari video terakhir dan salah satunya adalah fungsi `enumerate()`. Ingat bahwa `enumerate()` mengembalikan objek `enumerate` yang menghasilkan urutan tuple, dan masing-masing tuple adalah pasangan *indeks-nilai*.

Dalam latihan ini, Anda diberikan list string `mutants` dan Anda akan berlatih menggunakan `enumerate()` di atasnya dengan mencetak list tuple dan membongkar tuple menggunakan `for` loop.

In [12]:
# Create a list of strings: mutants
mutants = ['charles xavier', 
            'bobby drake', 
            'kurt wagner', 
            'max eisenhardt', 
            'kitty pryde']

# Create a list of tuples: mutant_list
mutant_list = list(enumerate(mutants))

# Print the list of tuples
print(mutant_list)

# Unpack and print the tuple pairs
for index1, value2 in enumerate(mutants):
    print(index1, value2)

# Change the start index
for index2, value2 in enumerate(mutants, start=1):
    print(index2, value2)

[(0, 'charles xavier'), (1, 'bobby drake'), (2, 'kurt wagner'), (3, 'max eisenhardt'), (4, 'kitty pryde')]
0 charles xavier
1 bobby drake
2 kurt wagner
3 max eisenhardt
4 kitty pryde
1 charles xavier
2 bobby drake
3 kurt wagner
4 max eisenhardt
5 kitty pryde


### Using zip

Fungsi menarik lainnya yang telah Anda pelajari adalah `zip()`, yang mengambil sejumlah iterables dan mengembalikan objek zip yang merupakan iterator tuple. Jika Anda ingin mencetak nilai-nilai objek zip, Anda dapat mengubahnya menjadi list dan kemudian mencetaknya. Mencetak hanya objek zip tidak akan mengembalikan nilai kecuali Anda membukanya terlebih dahulu. Dalam latihan ini, Anda akan mengeksplorasi ini sendiri.

In [18]:
# Create list
mutants = ['charles xavier', 'bobby drake', 'kurt wagner', 'max eisenhardt', 'kitty pryde']
aliases = ['prof x', 'iceman', 'nightcrawler', 'magneto', 'shadowcat']
powers = ['telepathy', 'thermokinesis', 'teleportation', 'magnetokinesis', 'intangibility']

In [19]:
# Create a list of tuples: mutant_data
mutant_data = list(zip(mutants, aliases, powers))

# Print the list of tuples
print(mutant_data)

# Create a zip object using the three lists: mutant_zip
mutant_zip = zip(mutants, aliases, powers)

# Print the zip object
print(mutant_zip)

# Unpack the zip object and print the tuple values
for value1,value2,value3 in mutant_zip:
    print(value1, value2, value3)

[('charles xavier', 'prof x', 'telepathy'), ('bobby drake', 'iceman', 'thermokinesis'), ('kurt wagner', 'nightcrawler', 'teleportation'), ('max eisenhardt', 'magneto', 'magnetokinesis'), ('kitty pryde', 'shadowcat', 'intangibility')]
<zip object at 0x7f64567f6d48>
charles xavier prof x telepathy
bobby drake iceman thermokinesis
kurt wagner nightcrawler teleportation
max eisenhardt magneto magnetokinesis
kitty pryde shadowcat intangibility


### Using * and zip to 'unzip'

Mari kita bermain-main dengan `zip()` sedikit lagi. Tidak ada fungsi unzip untuk melakukan kebalikan dari apa yang `zip()` lakukan. Namun, kita dapat membalikkan apa yang telah disatukan `zip()` dengan menggunakan sedikit bantuan dari `* ! *` membongkar iterable seperti list atau tuple menjadi argumen posisi dalam panggilan fungsi.

Dalam latihan ini, Anda akan menggunakan `*` dalam panggilan ke `zip()` untuk membongkar tuple yang dihasilkan oleh `zip()`.

In [20]:
# Create a zip object from mutants and powers: z1
z1 = zip(mutants, powers)

# Print the tuples in z1 by unpacking with *
print(*z1)

# Re-create a zip object from mutants and powers: z1
z1 = zip(mutants, powers)

# 'Unzip' the tuples in z1 by unpacking with * and zip(): result1, result2
result1, result2 = zip(*z1)

# Check if unpacked tuples are equivalent to original tuples
print(result1 == mutants)
print(result2 == powers)

('charles xavier', 'telepathy') ('bobby drake', 'thermokinesis') ('kurt wagner', 'teleportation') ('max eisenhardt', 'magnetokinesis') ('kitty pryde', 'intangibility')
False
False


## Using iterators to load large files into memory

### Processing large amounts of Twitter data

Terkadang, data yang kami proses mencapai ukuran yang terlalu banyak untuk ditangani oleh memori komputer. Ini adalah masalah umum yang dihadapi oleh para ilmuwan data. Solusi untuk ini adalah memproses seluruh sumber data chunk by chunk, alih-alih sekali jalan sekaligus.

Dalam latihan ini, Anda akan melakukan hal itu. Anda akan memproses file csv besar dari data Twitter dengan cara yang sama seperti Anda memproses `'tweets.csv'` dalam [*Bringing it all together*](https://campus.datacamp.com/courses/python-data-science-toolbox-part-1/writing-your-own-functions?ex=12) dari kursus prekuel, tetapi kali ini, mengerjakannya dalam potongan 10 entri sekaligus.

Jika Anda tertarik mempelajari cara mengakses data Twitter sehingga Anda dapat bekerja dengannya di sistem Anda sendiri, lihat [Bagian 2](https://www.datacamp.com/courses/importing-data-in-python-part-2) dari kursus DataCamp tentang Mengimpor Data dengan Python.

In [21]:
# Import pandas
import pandas as pd

# Initialize an empty dictionary: counts_dict
counts_dict = {}

# Iterate over the file chunk by chunk
for chunk in pd.read_csv('datasets/tweets.csv', chunksize=10):

    # Iterate over the column in DataFrame
    for entry in chunk['lang']:
        if entry in counts_dict.keys():
            counts_dict[entry] += 1
        else:
            counts_dict[entry] = 1

# Print the populated dictionary
print(counts_dict)

{'en': 97, 'et': 1, 'und': 2}


### Extracting information for large amounts of Twitter data

Pekerjaan hebat memotong file itu di latihan sebelumnya. Anda sekarang tahu bagaimana menghadapi situasi di mana Anda perlu memproses file yang sangat besar dan itu adalah keterampilan yang sangat berguna untuk dimiliki!

Adalah baik untuk mengetahui cara memproses file dalam potongan yang lebih kecil dan lebih mudah dikelola, tetapi bisa sangat membosankan harus menulis dan menulis ulang kode yang sama untuk tugas yang sama setiap kali. Dalam latihan ini, Anda akan membuat kode Anda lebih dapat digunakan kembali dengan menempatkan pekerjaan Anda di latihan terakhir dalam *function definition*.

In [22]:
# Define count_entries()
def count_entries(csv_file, c_size, colname):
    """Return a dictionary with counts of
    occurrences as value for each key."""
    
    # Initialize an empty dictionary: counts_dict
    counts_dict = {}

    # Iterate over the file chunk by chunk
    for chunk in pd.read_csv(csv_file, chunksize=c_size):

        # Iterate over the column in DataFrame
        for entry in chunk[colname]:
            if entry in counts_dict.keys():
                counts_dict[entry] += 1
            else:
                counts_dict[entry] = 1

    # Return counts_dict
    return counts_dict

# Call count_entries(): result_counts
result_counts = count_entries('datasets/tweets.csv', 10, 'lang')

# Print result_counts
print(result_counts)

{'en': 97, 'et': 1, 'und': 2}
