# 2. Formatting Strings

Setelah perjalanan Anda, Anda akan mempelajari pendekatan utama yang dapat digunakan untuk memformat atau menyisipkan string dengan python menggunakan dataset yang berisi informasi yang diambil dari web. Anda akan mengeksplorasi kelebihan dan kekurangan menggunakan pemformatan posisi, menanamkan ekspresi konstanta string di dalam, dan menggunakan *Template class*.

## Positional formatting

### Whatis string formatting?

* *String interpolation*
* Insert a custom string or variable in predened text:

In [1]:
custom_string = "String formatting"
print(f"{custom_string} is a powerful technique")

String formatting is a powerful technique


* Pemakaian:
  * Judul dalam grafik
  * Tampilkan pesan atau kesalahan
  * Pass pernyataan ke fungsi

### Methods for formatting

* Positional formatting
* Formatted string literals
* Template method

### Positional formatting

* Placeholder `{}` diganti dengan value `'text {}'.format(value)`.
* `str.format()`

In [2]:
print("Machine learning provides {} the ability to learn {}".format("systems", "automatically"))

Machine learning provides systems the ability to learn automatically


* Gunakan **variabel** untuk string awal dan nilai yang diteruskan ke method.

In [3]:
my_string = "{} rely on {} datasets"
method = "Supervised algorithms"
condition = "labeled"

In [4]:
print(my_string.format(method, condition))

Supervised algorithms rely on labeled datasets


### Reordering values

* Masukkan **nomor indeks** ke dalam placeholder untuk menyusun ulang nilai

In [5]:
print("{} has a friend called {} and a sister called {}".format("Betty", "Linda", "Daisy"))

Betty has a friend called Linda and a sister called Daisy


In [6]:
print("{2} has a friend called {0} and a sister called {1}".format("Betty", "Linda", "Daisy"))

Daisy has a friend called Betty and a sister called Linda


### Named placeholders

* Tentukan **nama** untuk placeholders

In [7]:
tool="Unsupervised algorithms"
goal="patterns"
print("{title} try to find {aim} in the dataset".format(title=tool, aim=goal))

Unsupervised algorithms try to find patterns in the dataset


In [8]:
my_methods = {"tool": "Unsupervised algorithms", "goal": "patterns"}

In [9]:
print('{data[tool]} try to find {data[goal]} in the dataset'.format(data=my_methods))

Unsupervised algorithms try to find patterns in the dataset


### Format specier

* Tentukan tipe data yang akan digunakan: `{index:specifier}`

In [10]:
print("Only {0:f}% of the {1} produced worldwide is {2}!".format(0.5155675, "data", "analyzed"))

Only 0.515567% of the data produced worldwide is analyzed!


In [11]:
print("Only {0:.2f}% of the {1} produced worldwide is {2}!".format(0.5155675, "data", "analyzed"))

Only 0.52% of the data produced worldwide is analyzed!


### Formatting datetime

In [13]:
from datetime import datetime

print(datetime.now())

2020-02-01 12:56:57.944695


In [14]:
print("Today's date is {:%Y-%m-%d %H:%M}".format(datetime.now()))

Today's date is 2020-02-01 12:57


### Put it in order!

Perusahaan Anda sedang menganalisis cara terbaik untuk menyediakan kursus online berbeda kepada pengguna. Tugas Anda adalah scraping halaman Wikipedia untuk mencari tools yang digunakan dalam subbidang Ilmu Data. Anda akan menyimpan tools dan nama bidang dalam database. Setelah analisis teks, Anda menyadari bahwa informasi tersebut diberikan dalam posisi tertentu dari teks tetapi kadang-kadang nama bidang diberikan terlebih dahulu dan tools setelah itu, sedangkan dalam kasus lain sebaliknya.

Anda memutuskan untuk menggunakan **pemformatan posisi** untuk menangani situasi ini karena menyediakan cara untuk menyusun ulang placeholder.

Teks dari satu artikel telah disimpan dalam variabel `wikipedia_article` dan list kosong `my_list`.

In [17]:
my_list = []

wikipedia_article = """
In computer science, artificial intelligence (AI), sometimes called machine intelligence, is intelligence demonstrated by machines, in contrast to the natural intelligence displayed by humans and animals.
"""
print(wikipedia_article)


In computer science, artificial intelligence (AI), sometimes called machine intelligence, is intelligence demonstrated by machines, in contrast to the natural intelligence displayed by humans and animals.



In [18]:
# Assign the substrings to the variables
first_pos = wikipedia_article[3:19].lower()
second_pos = wikipedia_article[21:44].lower()

# Define string with placeholders 
my_list.append("The tool {} is used in {}")

# Define string with rearranged placeholders
my_list.append("The tool {1} is used in {0}")

# Use format to print strings
for my_string in my_list:
  	print(my_string.format(first_pos, second_pos))

The tool  computer scienc is used in  artificial intelligenc
The tool  artificial intelligenc is used in  computer scienc


**Note** : Pemformatan posisi adalah salah satu kasus penggunaan yang paling umum untuk pemformatan string. Sangat cocok ketika ada beberapa elemen yang ingin Anda gabungkan!

### Calling by its name

Anda telah membuat basis data Anda dengan alat-alat dan berbagai sub-bidang Ilmu Data tempat mereka digunakan. Perusahaan sedang mempertimbangkan untuk membuat kursus menggunakan alat-alat ini dan mengirimkan surel yang dipersonalisasi kepada para pengguna yang merekomendasikan berbagai topik. Mereka telah meminta Anda untuk membuat proses ini lebih efisien waktu. Untuk melakukan ini, Anda ingin membuat templat email dengan pesan standar yang mengubah berbagai alat dan nama bidang yang sesuai.

Pertama, Anda ingin mencoba melakukan ini hanya dengan satu contoh sebagai bukti konsep. Anda menggunakan pemformatan posisional dan menamai placeholder untuk memanggil variabel dalam dictionary.

Variabel `courses` yang berisi satu alat dan satu nama bidang telah disimpan.

In [19]:
courses = ['artificial intelligence', 'neural networks']

In [20]:
# Create a dictionary
plan = {
    "field": courses[0],
    "tool": courses[1]
        }

# Complete the placeholders accessing elements of field and tool keys
my_message = "If you are interested in {data[field]}, you can take the course related to {data[tool]}"

# Use dictionary to replace placehoders
print(my_message.format(data=plan))

If you are interested in artificial intelligence, you can take the course related to neural networks


**Note** : Untuk mengakses elemen dalam dictionary saat menggunakan metode `str.format()`, Anda perlu menggunakan `dict[index]` tanpa menggunakan tanda kutip untuk index. Metode mengubahnya secara otomatis ke string `"index"` ketika dicari di `dict`.

### What day is today?

Saatnya makan siang dan Anda berbicara dengan beberapa rekan Anda. Mereka berkomentar bahwa mereka merasa bahwa setiap pagi seseorang harus mengirimi mereka pengingat hari apa itu sehingga mereka dapat memeriksa dalam kalender apa tugas mereka untuk hari itu.

Anda ingin membantu dan memutuskan untuk menulis skrip kecil yang memuat tanggal dan waktu dalam sehari sehingga setiap pagi, sebuah pesan dikirimkan ke kolega Anda. Anda dapat menggunakan modul `datetime` bersama dengan placeholder yang disebutkan untuk mencapai tujuan Anda.

Tanggal harus dinyatakan sebagai `Month day, year`, mis. `April 16, 2019` dan waktu sebagai `hh:mm`, mis. `16:30`.

Anda menuliskan beberapa specifier untuk membantu Anda: `%d` (hari), `%B` (nama bulan), `%m` (angka bulan), `%Y` (tahun), `%H` (jam) dan `%M` (menit).

In [21]:
# Import datetime 
from datetime import datetime

# Assign date to get_date
get_date = datetime.now()

# Add named placeholders with format specifiers
message = "Good morning. Today is {today:%B %d, %Y}. It's {today:%H:%M} ... time to work!"

# Format date
print(message.format(today=get_date))

Good morning. Today is February 01, 2020. It's 13:42 ... time to work!


**Note** : Datetime adalah modul yang baik untuk bekerja dengan tanggal tetapi Anda selalu perlu memformatnya menggunakan specifier format

## Formatted string literal

### f-strings

* Sintaks minimal
* Tambahkan awalan `f` ke string
* `f"literal string {expression}`

In [23]:
way = "code"
method = "learning Python faster"

print(f"Practicing how to {way} is the best method for {method}")

Practicing how to code is the best method for learning Python faster


### Type conversion

* Allowed conversions:
  * `!s` (string version)
  * `!r` (string yang berisi representasi yang dapat dicetak, yaitu dengan tanda kutip)
  * `!a` (beberapa !r tapi diluar dari karakter non-ASCII)

In [24]:
name = "Python"
print(f"Python is called {name!r} due to a comedy series")

Python is called 'Python' due to a comedy series


### Format speciers

* Standard format specier:
  * `e` (scientific notation, e.g. 5 10^3)
  * `d` (digit, e.g. 4)
  * `f` (float, e.g. 4.5353)

In [25]:
number = 90.41890417471841
print(f"In the last 2 years, {number:.2f}% of the data was produced worldwide!")

In the last 2 years, 90.42% of the data was produced worldwide!


* `datetime`

In [26]:
from datetime import datetime
my_today = datetime.now()

In [27]:
print(f"Today's date is {my_today:%B %d, %Y}")

Today's date is February 01, 2020


### Index lookups

In [28]:
family = {"dad": "John", "siblings": "Peter"}

In [29]:
print("Is your dad called {family[dad]}?".format(family=family))

Is your dad called John?


* Gunakan tanda kutip untuk pencarian indeks: `family["dad"]`

In [30]:
print(f"Is your dad called {family[dad]}?")

NameError: name 'dad' is not defined

In [31]:
print(f"Is your dad called {family['dad']}?")

Is your dad called John?


### Escape sequences

* Escape sequences: backslashes `\`

In [32]:
print("My dad is called "John"")

SyntaxError: invalid syntax (<ipython-input-32-8fa3864c5339>, line 1)

In [35]:
print("My dad is called \"John\"")

My dad is called "John"


* Backslashes tidak diizinkan dalam f-string

In [36]:
print(f"Is your dad called {family[\"dad\"]}?")

SyntaxError: f-string expression part cannot include a backslash (<ipython-input-36-891b946e948e>, line 1)

In [37]:
print(f"Is your dad called {family['dad']}?")

Is your dad called John?


### Inline operations

* Keuntungan: mengevaluasi ekspresi dan fungsi panggilan inline

In [38]:
my_number = 4
my_multiplier = 7

In [39]:
print(f'{my_number} multiplied by {my_multiplier} is {my_number * my_multiplier}')

4 multiplied by 7 is 28


### Calling functions

In [41]:
def my_function(a, b):
    return a + b

In [42]:
print(f"If you sum up 10 and 20 the result is {my_function(10, 20)}")

If you sum up 10 and 20 the result is 30


### Practice: Literally formatting

Saat menganalisis teks dari halaman Wikipedia, Anda membaca bahwa Python 3.6 memperkenalkan *f-string*.

Anda ingat bahwa Anda telah membuat situs web yang menampilkan fakta ilmu data tetapi terlalu lambat. Anda berpikir itu bisa jadi karena pemformatan string yang Anda gunakan. Karena f-string sangat cepat dan mudah digunakan, Anda memutuskan untuk menulis ulang proyek itu.

Variabel `field1`, `field2` dan `field3` berisi string karakter serta variabel numerik `fact1`, `fact2`, `fact3` dan `fact4`.

In [43]:
# String
field1 = 'sexiest job'
field2 = 'data is produced daily'
field3 = 'Individuals' 

fact1 = 21
fact2 = 2500000000000000000
fact3 = 72.41415415151
fact4 = 1.09

In [44]:
# Complete the f-string
print(f"Data science is considered {field1} in the {fact1:d}st century")

Data science is considered sexiest job in the 21st century


In [45]:
# Complete the f-string
print(f"About {fact2:e} of {field2} in the world")

About 2.500000e+18 of data is produced daily in the world


In [46]:
# Complete the f-string
print(f"{field3} create around {fact3:.2f}% of the data but only {fact4:.1f}% is analyzed")

Individuals create around 72.41% of the data but only 1.1% is analyzed


**Note** : f-string diperkenalkan untuk memberikan cara yang mudah dibaca dan ringkas untuk memasukkan nilai ekspresi Python di dalam string. Mereka sangat cepat dan specifiers yang paling umum, serta jenis konversi dapat dimasukkan.

### Make this function

Wow! Anda senang melihat seberapa cepat dan mudah f-string bekerja. Jadi Anda berencana untuk menulis ulang beberapa kode lama Anda.

Sekarang Anda tahu bahwa f-string memungkinkan Anda untuk mengevaluasi ekspresi di mana mereka muncul dan termasuk panggilan fungsi dan metode. Anda memutuskan untuk menggunakannya dalam proyek tempat Anda menganalisis 120 tweet untuk memeriksa apakah mereka menyertakan tautan ke berita yang berbeda. Dengan cara itu, Anda mengharapkan kode menjadi lebih bersih dan lebih mudah dibaca.

* Variabel `number1`, `number2`, `string1`, dan `list_links`.

In [47]:
number1 = 120
number2 = 7
string1 = 'httpswww.datacamp.com'
list_links = ['www.news.com', 'www.google.com', 'www.yahoo.com', 'www.bbc.com', 'www.msn.com', 'www.facebook.com', 'www.news.google.com']


In [48]:
# Include both variables and the result of dividing them 
print(f"{number1:d} tweets were downloaded in {number2:d} minutes indicating a speed of {number1/number2:.1f} tweets per min")

120 tweets were downloaded in 7 minutes indicating a speed of 17.1 tweets per min


In [49]:
# Replace the substring https by an empty string
print(f"{string1.replace('https', '')}")

www.datacamp.com


In [50]:
# Divide the length of list by 120 rounded to two decimals
print(f"Only {len(list_links) * 100 / 120:.2f}% of the posts contain links")

Only 5.83% of the posts contain links


**Note** : Salah satu keuntungan terbesar menggunakan f-strings adalah mereka memungkinkan Anda mengevaluasi ekspresi di dalam panggilan fungsi dan melakukan operasi inline.

### On time

Terakhir, Anda ingin menulis ulang proyek prediksi real estate lama. Pada saat itu, Anda memperoleh informasi historis tentang harga rumah dan menggunakannya untuk membuat prediksi nilai masa depan.

Tanggal dalam format datetime: `datetime.datetime(1990, 3, 17)` tetapi untuk mencetaknya, Anda memformatnya sebagai `3-17-1990`. Anda juga ingat bahwa Anda mendefinisikan dictionary untuk setiap lingkungan. Sekarang, Anda percaya bahwa Anda dapat menangani kedua jenis data dengan lebih baik menggunakan f-string.

Dua dictionary `east` dan `west`, keduanya dengan kunci `date` dan `price`.

In [57]:
# Create dictionary
east = {'date': datetime(2007, 4, 20, 0, 0), 'price': 1232443}
west = {'date': datetime(2006, 5, 26, 0, 0), 'price': 1432673}

In [61]:
# Access values of date and price in east dictionary
print(f"The price for a house in the east neighborhood was ${east['price']} in {east['date']:%m-%d-%Y}")

The price for a house in the east neighborhood was $1232443 in 04-20-2007


In [60]:
# Access values of date and price in west dictionary
print(f"The price for a house in the west neighborhood was ${west['price']} in {west['date']:%m-%d-%Y}.")

The price for a house in the west neighborhood was $1432673 in 05-26-2006.


**Note** : Dalam f-string, Anda perlu menggunakan literal untuk nilai 'indeks' jika tidak, Anda tidak dapat menggunakan variabel sebagai indeks. Jangan lupa bahwa *escape sequences* tidak diperbolehkan sehingga Anda perlu menggunakan kutipan yang berbeda dari yang digunakan untuk mendefinisikan f-string.

## Template method

### Template strings

* Sintaks yang lebih sederhana
* Lebih lambat dari f-string
* Limited: tidak mengijinkan format speciers
* Bagus saat bekerja dengan string yang diformat secara eksternal

### Basic syntax

In [62]:
from string import Template

my_string = Template('Data science has been called $identifier')
my_string.substitute(identifier="sexiest job of the 21st century")

'Data science has been called sexiest job of the 21st century'

### Substitution

* Gunakan banyak `$identifier`
* Gunakan variabel

In [63]:
job = "Data science"
name = "sexiest job of the 21st century"

my_string = Template('$title has been called $description')
my_string.substitute(title=job, description=name)

'Data science has been called sexiest job of the 21st century'

* Gunakan `${identifier}` ketika karakter yang valid mengikuti pengidentifikasi

In [64]:
my_string = Template('I find Python very ${noun}ing but my sister has lost $noun')
my_string.substitute(noun="interest")

'I find Python very interesting but my sister has lost interest'

* Gunakan `$$` untuk menghindari tanda dolar

In [65]:
my_string = Template('I paid for the Python course only $$ $price, amazing!')
my_string.substitute(price="12.50")

'I paid for the Python course only $ 12.50, amazing!'

* Raise error saat placeholder hilang

In [66]:
favorite = dict(flavor="chocolate")
my_string = Template('I love $flavor $cake very much')
my_string.substitute(favorite)

KeyError: 'cake'

In [67]:
favorite = dict(flavor="chocolate")
my_string = Template('I love $flavor $cake very much')

In [68]:
try:
    my_string.substitute(favorite)
except KeyError:
    print("missing information")

missing information


### Safe substitution

* Selalu mencoba mengembalikan string yang dapat digunakan
* Placeholder yang hilang akan muncul di string yang dihasilkan

In [69]:
favorite = dict(flavor="chocolate")
my_string = Template('I love $flavor $cake very much')
my_string.safe_substitute(favorite)

'I love chocolate $cake very much'

### Which should I use?

* `str.format()` :
  * Bagus untuk memulai. Konsep berlaku untuk f-string.
  * Kompatibel dengan semua versi Python.
* **f-strings** :
  * Selalu disarankan dari semua metode.
  * Tidak cocok jika tidak bekerja dengan versi modern Python (3.6+).
* **Template strings** :
  * Saat bekerja dengan string eksternal atau yang disediakan pengguna

### Practice: Preparing a report

Sekali lagi, Anda melakukan scraping halaman Wikipedia. Kali ini, Anda mencari deskripsi alat yang berguna yang digunakan untuk penambangan teks. Tugas pertama Anda adalah menyiapkan laporan tentang berbagai alat yang Anda temukan. Anda ingin memformat informasi yang terkandung dalam dataset untuk dicetak sebagai: `The (tool) is a (description)`.

Dalam kasus ini, template string adalah solusi terbaik untuk menginterpolasi data yang dihasilkan oleh sumber eksternal ke dalam template yang sudah dibuat.

Untuk contoh ini, variabel `tool1`, `tool2` dan `tool3` berisi tiga judul artikel. Setiap variabel `description1`, `description2` dan `description3` berisi deskripsi artikel yang sesuai.

In [71]:
tool1 = 'Natural Language Toolkit'
tool2 = 'TextBlob'
tool3 = 'Gensim'

description1 = """
'suite of libraries and programs for symbolic and statistical natural language processing (NLP) 
for English written in the Python programming language. It was developed by Steven Bird and Edward Loper 
in the Department of Computer and Information Science at the University of Pennsylvania.'
"""
description2 = """
'Python library for processing textual data. It provides a simple API for diving into common 
natural language processing tasks such as part-of-speech tagging, noun phrase extraction, sentiment analysis, 
classification, translation, and more.'
"""
description3 = """
'Gensim is a robust open-source vector space modeling and topic modeling toolkit implemented in Python. 
It uses NumPy, SciPy and optionally Cython for performance. Gensim is specifically designed to handle 
large text collections, using data streaming and efficient incremental algorithms, which differentiates it 
from most other scientific software packages that only target batch and in-memory processing.'
"""

In [72]:
# Import Template
from string import Template

# Create a template
wikipedia = Template("$tool is a $description")

# Substitute variables in template
print(wikipedia.substitute(tool=tool1, description=description1))
print(wikipedia.substitute(tool=tool2, description=description2))
print(wikipedia.substitute(tool=tool3, description=description3))

Natural Language Toolkit is a 
'suite of libraries and programs for symbolic and statistical natural language processing (NLP) 
for English written in the Python programming language. It was developed by Steven Bird and Edward Loper 
in the Department of Computer and Information Science at the University of Pennsylvania.'

TextBlob is a 
'Python library for processing textual data. It provides a simple API for diving into common 
natural language processing tasks such as part-of-speech tagging, noun phrase extraction, sentiment analysis, 
classification, translation, and more.'

Gensim is a 
'Gensim is a robust open-source vector space modeling and topic modeling toolkit implemented in Python. 
It uses NumPy, SciPy and optionally Cython for performance. Gensim is specifically designed to handle 
large text collections, using data streaming and efficient incremental algorithms, which differentiates it 
from most other scientific software packages that only target batch and in-memory pro

**Note** : *Template strings* adalah mekanisme substitusi string yang lebih sederhana dan meskipun kurang kuat, itu adalah pilihan yang tepat ketika Anda tidak yakin tentang sumber string.

### Identifying prices

Setelah Anda menunjukkan laporan Anda kepada atasan Anda, dia muncul dengan gagasan menawarkan kursus kepada pengguna perusahaan pada beberapa alat yang Anda pelajari. Untuk membuat uji coba, Anda akan mengirim email yang menawarkan kursus tentang salah satu alat, yang dipilih secara acak dari dataset Anda. Anda juga menyebutkan bahwa perkiraan biaya harus dibayar setiap bulan.

Untuk menulis email, Anda akan menggunakan Template string. Anda ingat bahwa Anda harus berhati-hati ketika menggunakan tanda dolar karena digunakan untuk pengidentifikasi dalam kasus ini.

Untuk contoh ini, list `tools` berisi nama alat, biaya, dan jenis pembayaran yang sesuai untuk penawaran produk.

In [73]:
# Create list
tools = ['Natural Language Toolkit', '20', 'month']

In [74]:
# Import template
from string import Template

# Select variables
our_tool = tools[0]
our_fee = tools[1]
our_pay = tools[2]

# Create template
course = Template("We are offering a 3-month beginner course on $tool just for $$ $fee ${pay}ly")

# Substitute identifiers with three variables
print(course.substitute(tool=our_tool, fee=our_fee, pay=our_pay))

We are offering a 3-month beginner course on Natural Language Toolkit just for $ 20 monthly


**Note** : Karena tanda dolar digunakan untuk pengidentifikasi, Anda perlu menggunakan kurung kurawal untuk melampirkan nama pengenal untuk menambahkan karakter yang valid segera setelahnya. Juga, jika tanda dolar harus berada dalam string, Anda perlu menghindarinya menggunakan `$$`.

### Playing safe

Anda bertanggung jawab atas proyek baru! Tugas Anda adalah mulai mengumpulkan informasi dari pengguna aplikasi utama perusahaan. Anda akan membuat kuis online dan meminta pengguna Anda untuk secara sukarela menjawab dua pertanyaan. Namun, tidak wajib bagi pengguna untuk menjawab keduanya. Anda akan menangani string yang disediakan pengguna sehingga Anda memutuskan untuk menggunakan metode Templat untuk mencetak informasi input. Ini memungkinkan pengguna memeriksa ulang jawaban mereka sebelum mengirimkannya.

Jawaban salah satu pengguna telah disimpan dalam dictionary `answer`.

In [79]:
# Create dict
answers = {'answer1': 'I really like the app. But there are some features that can be improved'}

In [81]:
# Import template
from string import Template

# Complete template string using identifiers
the_answers = Template("Check your answer 1: $answer1, and your answer 2: $answer2")

# Use safe_substitute to replace identifiers
try:
    print(the_answers.substitute(answers))
except KeyError:
    print("Missing information")

Missing information


In [80]:
# Import template
from string import Template

# Complete template string using identifiers
the_answers = Template("Check your answer 1: $answer1, and your answer 2: $answer2")

# Use safe_substitute to replace identifiers
try:
    print(the_answers.safe_substitute(answers))
except KeyError:
    print("Missing information")

Check your answer 1: I really like the app. But there are some features that can be improved, and your answer 2: $answer2


**Note** : `.safe_substitute()` menghindari *raising* `KeyError`, karena menggunakan placeholder asli jika hilang dan akibatnya, selalu mengembalikan string yang dapat digunakan.