### Bilgisayarlar Tek Karakterleri Nasıl Anlar?

Bu kursa başladığınızdan beri bazı ilginç programlar yazdınız, ancak şimdiye kadar hepsi sadece sayısal verileri işledi. Ancak, bilgisayarların işlediği verilerin çoğu sayısal değildir: isimler, soyisimler, adresler, başlıklar, şiirler, bilimsel makaleler, e-postalar, mahkeme kararları, aşk mektupları ve daha fazlasını düşünün.

### Karakterler ve Dizgeler Kavramı

Tüm bu veri türleri, tek bir karakter ya da çok ciltli bir ansiklopedi olsun, modern bilgisayarlar tarafından diğer veri türleri gibi depolanmalı, girdilenmeli, çıktılanmalı, aranmalı ve dönüştürülmelidir.

### Bu Nasıl Mümkün Oluyor?

Python'da bunu nasıl yaparız? Şimdi bilgisayarların tek karakterleri nasıl anladığını keşfedelim.

Bilgisayarlar karakterleri sayılar olarak temsil eder. Her karakter benzersiz bir sayıya karşılık gelir ve bu eşleştirme bilgisayar işlemesi için önemlidir. Bu sistem, ilk başta düşündüğünüzden daha fazla karakteri kapsar. Bu karakterlerin birçoğu insan gözüne görünmez, ancak bilgisayarlar için hayati öneme sahiptir.

Bazı karakterler beyaz boşluklar olarak bilinirken, diğerleri giriş/çıkış cihazlarını yönetmek için kullanılan kontrol karakterleridir.

Gözle görünmeyen bir beyaz boşluk örneği, bir metin dosyasındaki satır sonlarını belirtmek için kullanılan özel kod veya kod çiftleridir ve farklı işletim sistemlerinde farklılık gösterebilir.

İnsanlar bu sembolleri görmez, ancak satırların kırıldığını gözlemleyebiliriz.

Sonsuz sayıda karakter-sayı eşleştirmesi oluşturabiliriz, ancak her bilgisayar sisteminin farklı bir kodlama kullanacağı bir dünya oldukça elverişsiz olurdu. Bu nedenle, evrensel bir standart gerekliydi.

### ASCII Standardı

En yaygın kabul gören standart, neredeyse tüm modern cihazların kullandığı ASCII'dir (Bilgi Değişimi için Amerikan Standart Kodu).

ASCII, 256 karakter için yer ayırır, ancak biz ilk 128 ile ilgileniyoruz. Yapısını anlamak için aşağıdaki tabloya bakın. Bazı ilginç yönlere dikkat edin. Örneğin, boşluk karakterinin kodu 32'dir.

### ASCII Tablosu

Küçük harf 'a' için kodun 97, büyük harf 'A' için ise 65 olduğunu görebilirsiniz. 'a' ve 'A' arasındaki kod farkı 32'dir, bu da bir boşluğun kodudur. İlginç değil mi?

Ayrıca, ASCII'deki harflerin Latin alfabesindeki sırayla dizildiğine dikkat edin.

![image.png](attachment:bdf4c9ca-44a6-410c-9ce8-0a7722a53d3f.png)

### I18N: Uluslararasılaştırma

Latin alfabesi herkes için yeterli değildir. Latin alfabesini kullananlar aslında azınlıktadır. ASCII'den daha esnek ve geniş bir çözüme, uluslararasılaştırmayı destekleyecek bir şeye ihtiyaç vardı çünkü farklı diller tamamen farklı alfabeler kullanır ve bazen bu alfabeler Latin alfabesinden çok daha karmaşıktır.

### I18N Nedir?

Uluslararasılaştırma genellikle I18N olarak kısaltılır.

Neden I18N? Dikkatlice bakarsanız, "internationalization" (uluslararasılaştırma) kelimesinin başında bir "I", ardından 18 farklı harf ve sonunda bir "N" olduğunu fark edersiniz.

Kökeni biraz esprili olsa da, I18N terimi birçok belge ve standartta resmi olarak kullanılır.

### Yazılımda I18N'in Gerekliliği

Modern yazılımlar, farklı kültürler, diller ve alfabeleri barındıracak şekilde tüm dünyada kullanılabilir olacak şekilde tasarlanmalıdır.

Geleneksel ASCII kodu, her karakter için sekiz bit kullanır ve bu da 256 farklı karaktere olanak tanır. İlk 128 karakter, standart Latin alfabesi için ayrılmıştır, büyük ve küçük harfler dahil. Diğer tüm global karakterleri kalan 128 alana sığdırmak mümkün müdür?

Hayır, değildir.

### Kod Noktaları ve Kod Sayfaları

Bu bizi yeni bir kavrama götürür: kod noktası.

Bir kod noktası, bir karakteri temsil eden bir sayıdır. Örneğin, ASCII kodlamasında 32 bir boşluk karakterini temsil eder. Standart ASCII 128 kod noktasından oluşur.

Standart ASCII, mümkün olan 256 kod noktasından 128'ini kullandığından, geriye kalan 128 kod noktasını başka kullanımlar için değerlendirebilirsiniz.

Bu, tüm diller için yeterli değildir, ancak tek bir dil veya benzer dillerden oluşan küçük bir grup için yeterli olabilir.

Kod noktalarının üst yarısını farklı diller için farklı şekilde ayarlayabilir misiniz? Evet, yapabilirsiniz. Bu konsepte kod sayfası denir.

Bir kod sayfası, üst 128 kod noktasını belirli ulusal karakterleri depolamak için standart hale getirir. Örneğin, Batı Avrupa ve Doğu Avrupa, Kiril ve Yunan alfabeleri, Arapça ve İbranice diller için farklı kod sayfaları vardır.

Bu, aynı kod noktasının farklı kod sayfalarında kullanıldığında farklı karakterleri temsil edebileceği anlamına gelir.

Örneğin, 200 kod noktası ISO/IEC 8859-2 kod sayfasında bazı Slav dilleri tarafından kullanılan Ç harfini temsil ederken, ISO/IEC 8859-5 kod sayfasında Kiril harfi Ш'yi temsil eder.

Sonuç olarak, belirli bir kod noktasının anlamını belirlemek için hedef kod sayfasını bilmeniz gerekir.

Başka bir deyişle, kod sayfası konseptinden türetilen kod noktaları belirsizdir.

### Unicode

Kod sayfaları bilgisayar endüstrisinin I18N sorunlarını bir süreliğine çözmesine yardımcı oldu, ancak kalıcı bir çözüm olmadıkları kısa sürede anlaşıldı.

Uzun vadede sorunu çözen kavram Unicode oldu.

### Unicode Nedir?

Unicode, bir milyondan fazla kod noktasına benzersiz (kesin) karakterler (harfler, tireler, ideogramlar vb.) atar. İlk 128 Unicode kod noktası ASCII ile aynıdır ve ilk 256 Unicode kod noktası ISO/IEC 8859-1 kod sayfası ile aynıdır (batı Avrupa dilleri için tasarlanmış bir kod sayfası).

### UCS-4

Unicode standardı, karakterlerin hafızada ve dosyalarda nasıl kodlanacağı ve depolanacağı hakkında hiçbir şey söylemez. Sadece mevcut tüm karakterleri tanımlar ve bunları düzlemlere (benzer köken, uygulama veya doğaya sahip karakter gruplarına) atar.

Unicode'u gerçek bilgisayarlar ve depolama sistemlerinde uygulamak için kullanılan teknikleri tanımlayan birden fazla standart vardır ve bunlardan en geneli UCS-4'tür.

UCS-4, Evrensel Karakter Seti anlamına gelir.

UCS-4, her karakteri depolamak için 32 bit (dört bayt) kullanır ve kod sadece Unicode kod noktalarının benzersiz numarasıdır. UCS-4 ile kodlanmış bir metin içeren bir dosya, dosyanın içeriğinin doğasını belirten yazdırılamaz bir bit kombinasyonu olan BOM (byte order mark) (bayt sırası işareti) ile başlayabilir. Bazı yardımcı programlar bunu gerektirebilir.

Gördüğünüz gibi, UCS-4 oldukça savurgan bir standarttır - metin boyutunu standart ASCII'ye kıyasla dört kat artırır. Neyse ki, Unicode metinlerini kodlamak için daha akıllı yöntemler vardır.

### UTF-8

En yaygın kullanılan kodlama yöntemlerinden biri UTF-8'dir.

UTF-8, Unicode Dönüşüm Formatı anlamına gelir.

Bu yöntem çok verimlidir. UTF-8, her kod noktası için onları temsil etmek için gerekli olan kadar bit kullanır.

Örneğin:
- Tüm Latin karakterleri (ve tüm standart ASCII karakterleri) sekiz bit kullanır.
- Latin olmayan karakterler 16 bit kullanır.
- CJK (Çin-Japon-Kore) ideografileri 24 bit kullanır.

UTF-8'in kod noktalarını depolama yöntemi nedeniyle, BOM kullanmaya gerek yoktur, ancak bazı araçlar dosyayı okurken onu arar ve birçok düzenleyici kaydederken bunu ayarlar.

Python 3, Unicode ve UTF-8'i tam olarak destekler:
- Değişkenleri ve diğer varlıkları adlandırmak için Unicode/UTF-8 kodlu karakterleri kullanabilirsiniz.
- Tüm giriş ve çıkış işlemlerinde onları kullanabilirsiniz.

Bu, Python 3'ün tamamen uluslararasılaştırılmış (I18N) olduğu anlamına gelir.laştırılmış (I18N) olduğu anlamına gelir.

### Özet
1. Bilgisayarlar karakterleri sayı olarak temsil eder. Karakterleri kodlamak için birden fazla yöntem mevcut olsa da, yalnızca birkaçı küresel popülerliğe ulaşmış ve BT'de yaygın olarak kullanılmaktadır. Bunlar, öncelikle Latin alfabesi ve türevleri için ASCII ve neredeyse tüm insan alfabelerini kodlayabilen UNICODE'dur.

2. Belirli bir karaktere karşılık gelen sayıya kod noktası denir.

3. UNICODE, karakterleri dosyalarda veya bilgisayar belleğinde saklamak için farklı kodlama yöntemleri kullanır. Bu yöntemlerden ikisi UCS-4 ve UTF-8'dir; UTF-8, bellek alanını verimli kullanması nedeniyle en yaygın olanıdır.