## Proje 3 - Veri Yapıları

Telif hakkı olmadan yazılı metin kaynağı: http://gutenberg.org/

Pride and Prejudice by Jane Austen: http://gutenberg.org/ebooks/1342

Alice's Adventures in Wonderland by Lewis Carroll: http://gutenberg.org/ebooks/11

Bu projemizde iki farklı kitap üzerinde, Python kullanarak çeşitli bilgiler toplayacağız.

Bu sayede hem şimdiye kadar öğrenmiş olduğumuz kavramları (değişkenler, fonksiyonlar, veri yapıları ...) tekrar etmiş olacağız hem de bu kavramları gerçek bir uygulama üzerinde görmüş olacağız.

Hadi başlayalım :)

**Kitapları Okuyalım:**

Bu iki kitabı Python'a okutarak kitaplarda geçen tüm kelimeleri bulalım:

Bunu yaparken:
* noktalama işaretlerini çıkaralım -> `string.punctuation`
* boşluk karakterlerini (boşluk, yeni satır, tab vs.) çıkaralım -> `string.whitespace`
* kitapların başlangıç ve sonunu bulalım
* her işlemi kendi fonksiyonunda yapalım
* string modülünü kullanalım


In [23]:
# genelde import işlemleri 

import string
from collections import Counter

In [24]:
# global değişken
# noktalama işaretleri

noktalama_isaretleri = string.punctuation
noktalama_isaretleri

'!"#$%&\'()*+,-./:;<=>?@[\\]^_`{|}~'

In [25]:
# global değişken
# boşluk karakterleri 

bosluk_karakterleri = string.whitespace
bosluk_karakterleri

' \t\n\r\x0b\x0c'

In [26]:
# dosyadan file getirme 

def dosyadan_oku(kitap_adi):
    kitap_yolu = kitap_adi + '.txt'
    return open(kitap_yolu, encoding='utf-8')


In [27]:
# başlangıç bölümünü atlar
# bu bölüm okuduğumuz kitaba dahil değildir

def baslangici_atla(file):
    
    atlama_metni = '*** START OF THIS PROJECT'
    
    # file her okumada, okuduğu yere kadar ilerlediği için
    # '*** START OF THIS PROJECT' ile başlayan bölüme kadar okutup
    # çıkarsak, okuma yeri artık, bu ifadenin sonrası olur
    
    for satir in file:
        if satir.startswith(atlama_metni):
            break


In [28]:
# sona gelinip gelinmediği kontrol eden fonksiyon
# bu bölüm okuduğumuz kitaba dahil değildir

def sona_gelindi_mi(satir):
    
    bitirme_metni = '*** END OF THIS PROJECT'
    
    # eğer mevcut satir bitirme metni ile başlıyorsa True dön
    # '*** END OF THIS PROJECT' ile başlayan satır
    
    return satir.startswith('*** END OF THIS PROJECT')


In [29]:
# Satırdaki Kelimeleri Getiren Fonksiyon

def satirdaki_kelimeler(satir):
    
    satir_kelimeleri = []
    
    kelime_dizisi = satir.split()
    
    for kelime in kelime_dizisi:
        
        # eğer kelimede noktalama işareti varsa
        kelime = kelime.strip(noktalama_isaretleri)

        # küçük harf yap
        kelime = kelime.lower()
        
        # alfanumerik mi
        if kelime.isalpha() and len(kelime) > 0:
            satir_kelimeleri.append(kelime)
            
    return satir_kelimeleri


In [30]:
# Kelimeleri Dolduran Fonksiyon

def kelimeleri_doldur(file, kelimeler):
    
    # Python dosyayı satır satır okuyacak
    for satir in file:
        
        # sona gelmiş mi diye bak
        if not sona_gelindi_mi(satir):
            # satir içindeki kelimeleri al
            satir_kelimleri = satirdaki_kelimeler(satir)
            
            # şimdi kelimeler listemize satir_kelimleri
            kelimeler.extend(satir_kelimleri)
    

In [31]:
# Kitap Okuma Fonksiyonu

def kitap_oku(kitap_adi):
    """
        Verilen kitap adına göre ilgili kitabı okur.
        Parametre: string kitap_adi
        Return: list kelimeler
    """
    
    # kelimeleri tutalım
    kelimeler = list()
    
    # önce file olarak okuylaım
    file = dosyadan_oku(kitap_adi)
    
    # şimdi '*** START OF THIS PROJECT' kısma kadar atlayalım
    baslangici_atla(file)
    
    # şimdi kelimeleri dolduralım
    kelimeleri_doldur(file, kelimeler)
    
    return kelimeler


In [32]:
# Şimdi Pride and Prejudice'i okuyalım

kitap_adi = 'Pride_and_Prejudice'
pride_kelimeleri = kitap_oku(kitap_adi)


pride_kelimeleri[:20]

['produced',
 'by',
 'anonymous',
 'volunteers',
 'and',
 'david',
 'widger',
 'there',
 'is',
 'an',
 'illustrated',
 'edition',
 'of',
 'this',
 'title',
 'which',
 'may',
 'viewed',
 'at',
 'ebook']

In [33]:
# Şimdi Alice Adventures in Wonderland'i okuyalım

kitap_adi = 'Alice_Adventures_in_Wonderland'
alice_kelimeleri = kitap_oku(kitap_adi)


alice_kelimeleri[:20]

['produced',
 'by',
 'arthur',
 'dibianca',
 'and',
 'david',
 'widger',
 'illustration',
 'adventures',
 'in',
 'wonderland',
 'by',
 'lewis',
 'carroll',
 'the',
 'millennium',
 'fulcrum',
 'edition',
 'contents',
 'chapter']

**Kelimeleri Uzunluk Sırasına Dizelim:**

In [34]:
# Listleri sıralayan fonksiyon

def liste_sirala(liste, azalan_mi):
    
    # uzunluk ile sıralayacaksak -> key parametresini vermemiz lazım -> lambda
    return sorted(liste, reverse=azalan_mi, key = lambda x: len(x))


In [36]:
# Şimdi Pride and Prejudice'deki kelimeleri kısadan uzuna sıralayalım

pride_kelimeleri = liste_sirala(pride_kelimeleri, False)

pride_kelimeleri[:20]

['a',
 'a',
 'a',
 'a',
 'a',
 'a',
 'i',
 'a',
 'a',
 'a',
 'a',
 'a',
 'i',
 'i',
 'i',
 'a',
 'a',
 'i',
 'i',
 'i']

In [37]:
# Şimdi Pride and Prejudice'deki kelimeleri uzundan kısaya sıralayalım

pride_kelimeleri = liste_sirala(pride_kelimeleri, True)

pride_kelimeleri[:20]

['disinterestedness',
 'misrepresentation',
 'communicativeness',
 'superciliousness',
 'incomprehensible',
 'discontentedness',
 'incomprehensible',
 'unenforceability',
 'accomplishments',
 'acknowledgments',
 'inconsistencies',
 'conscientiously',
 'accomplishments',
 'superintendence',
 'congratulations',
 'accomplishments',
 'congratulations',
 'thoughtlessness',
 'recommendations',
 'inconsistencies']

In [38]:
# Şimdi Alices Adventures in Wonderland'deki kelimeleri kısadan uzuna sıralayalım

alice_kelimeleri = liste_sirala(alice_kelimeleri, False)

alice_kelimeleri[:20]

['i',
 'a',
 'a',
 'a',
 'v',
 'a',
 'a',
 'x',
 'i',
 'a',
 'a',
 'a',
 'i',
 'a',
 'a',
 'a',
 'a',
 'a',
 'a',
 'a']

In [39]:
# Şimdi Alices Adventures in Wonderland'deki kelimeleri uzundan kısaya sıralayalım

alice_kelimeleri = liste_sirala(alice_kelimeleri, True)

alice_kelimeleri[:20]

['unenforceability',
 'representations',
 'merchantability',
 'disappointment',
 'multiplication',
 'contemptuously',
 'contemptuously',
 'affectionately',
 'redistribution',
 'redistribution',
 'redistributing',
 'redistributing',
 'nonproprietary',
 'electronically',
 'electronically',
 'identification',
 'conversations',
 'inquisitively',
 'uncomfortable',
 'uncomfortable']

**Tekrarları Silelim:**

In [40]:
# Tekrarları silen fonksiyon yaz

def tekrarlari_sil(liste):
    
    # tekrarları silmenin en tatlı -> set() -> set döner
    kume = set(liste)
    
    # sonra tekrar list yap
    tekrarsiz_liste = list(kume)
    
    return tekrarsiz_liste


In [41]:
# Şimdi Pride and Prejudice'deki kelimeleri tekarsız görelim

pride_kelimeleri_farkli = tekrarlari_sil(pride_kelimeleri)

pride_kelimeleri_farkli[:20]

['downstairs',
 'privilege',
 'intricate',
 'sinking',
 'shifting',
 'detained',
 'perceiving',
 'adoration',
 'fields',
 'existed',
 'disturbers',
 'loose',
 'include',
 'frankly',
 'hates',
 'lose',
 'print',
 'scolded',
 'cousin',
 'residing']

In [42]:
# Şimdi Alices Adventures in Wonderland'deki kelimeleri tekarsız görelim

alice_kelimeleri_farkli = tekrarlari_sil(alice_kelimeleri)

alice_kelimeleri_farkli[:20]

['eaten',
 'bottom',
 'sensation',
 'plain',
 'shifting',
 'used',
 'further',
 'ones',
 'international',
 'alice',
 'legal',
 'pictures',
 'timidly',
 'under',
 'seriously',
 'esq',
 'case',
 'loose',
 'trials',
 'examining']

**Kitaplardaki Toplam Kelime Sayısını Bulalım:**

In [43]:
# Kelime Sayısını Dönen Fonksiyon

def kelime_sayisi(liste):
    return len(liste)


In [45]:
# Şimdi Pride and Prjudice'deki toplam ve farklı kelime sayılarını bulalım

# toplam kelime sayısı
pride_kelime_sayisi = kelime_sayisi(pride_kelimeleri)
print("Pride and Prejudice'deki toplam kelime sayısı:", pride_kelime_sayisi)

# farklı kelime sayısı
pride_kelime_sayisi_farkli = kelime_sayisi(pride_kelimeleri_farkli)
print("Pride and Prejudice'deki farklı kelime sayısı:", pride_kelime_sayisi_farkli)


Pride and Prejudice'deki toplam kelime sayısı: 119465
Pride and Prejudice'deki farklı kelime sayısı: 6361


In [46]:
# Şimdi Alices Adventures in Wonderland'deki toplam ve farklı kelime sayılarını bulalım

# toplam kelime sayısı
alice_kelime_sayisi = kelime_sayisi(alice_kelimeleri)
print("Alices Adventures in Wonderland'deki toplam kelime sayısı:", alice_kelime_sayisi)

# farklı kelime sayısı
alice_kelime_sayisi_farkli = kelime_sayisi(alice_kelimeleri_farkli)
print("Alices Adventures in Wonderland'deki farklı kelime sayısı:", alice_kelime_sayisi_farkli)

Alices Adventures in Wonderland'deki toplam kelime sayısı: 26267
Alices Adventures in Wonderland'deki farklı kelime sayısı: 2782


**Hangi Kelimenin Kaç Kere Geçtiğini Bulalım:**

In [47]:
# Sözlük Sıralama Fonksiyonu

def sozluk_sirala(sozluk):
    
    # önce sözlüğü valuelarına göre sıralayacak -> sorted()
    # sorted() -> geriye liste döner
    
    sirali_liste = sorted(sozluk.items(), key = lambda x: x[1], reverse=True)
    
    return sirali_liste


In [48]:
# En Yüksek adetli n kelimeyi veren fonksiyon

def en_yuksek_adetli(liste, n=20):
    
    # sözlük olarak dönecek
    kelime_adetleri = {
        kelime: liste.count(kelime)
        for kelime in liste
    }
    
    # bu sözlüğü sıralamamız lazım
    sirali_liste = sozluk_sirala(kelime_adetleri)
    
    # şimdi en yüksek adetli n tanesini alalım -> slice
    sirali_liste_top_n = sirali_liste[:n]
    
    # şimdi sozölük olarak geri dönelim
    return dict(sirali_liste_top_n)


In [49]:
# Not: sakın pride_kelimeleri ile çalıştırmayın
# bitmez :)

alice_kelime_adetleri_fn = en_yuksek_adetli(alice_kelimeleri)
alice_kelime_adetleri_fn

{'the': 1792,
 'and': 859,
 'to': 791,
 'a': 677,
 'of': 609,
 'she': 532,
 'it': 458,
 'said': 457,
 'in': 416,
 'alice': 383,
 'you': 366,
 'was': 353,
 'i': 266,
 'as': 264,
 'that': 249,
 'her': 247,
 'with': 221,
 'at': 216,
 'on': 192,
 'all': 186}

**Counter:**

In [50]:
# Pride and Prejudice'deki kelimeleri ve sayıları -> Counter

pride_kelime_adetleri = Counter(pride_kelimeleri)
pride_kelime_adetleri

Counter({'disinterestedness': 1,
         'misrepresentation': 1,
         'communicativeness': 1,
         'superciliousness': 1,
         'incomprehensible': 2,
         'discontentedness': 1,
         'unenforceability': 1,
         'accomplishments': 4,
         'acknowledgments': 2,
         'inconsistencies': 2,
         'conscientiously': 1,
         'superintendence': 1,
         'congratulations': 12,
         'thoughtlessness': 3,
         'recommendations': 1,
         'uncompanionable': 1,
         'disappointments': 1,
         'condescendingly': 1,
         'representations': 1,
         'merchantibility': 1,
         'circumspection': 2,
         'recommendation': 4,
         'characteristic': 2,
         'reasonableness': 1,
         'inconsiderable': 1,
         'acknowledgment': 3,
         'distinguishing': 2,
         'neighbourhoods': 1,
         'representation': 4,
         'congratulation': 1,
         'obsequiousness': 1,
         'reconciliation': 2,
         

In [51]:
pride_kelime_adetleri_top_20 = Counter(pride_kelimeleri).most_common(20)
pride_kelime_adetleri_top_20

[('the', 4476),
 ('to', 4189),
 ('of', 3702),
 ('and', 3504),
 ('her', 2190),
 ('a', 1982),
 ('in', 1904),
 ('was', 1835),
 ('i', 1750),
 ('she', 1682),
 ('that', 1517),
 ('it', 1428),
 ('not', 1424),
 ('he', 1307),
 ('you', 1269),
 ('his', 1259),
 ('be', 1251),
 ('as', 1175),
 ('had', 1172),
 ('with', 1088)]

In [52]:
# Alices Adventures in Wonderland

alice_kelime_adetleri_top_20 = Counter(alice_kelimeleri).most_common(20)
alice_kelime_adetleri_top_20

[('the', 1792),
 ('and', 859),
 ('to', 791),
 ('a', 677),
 ('of', 609),
 ('she', 532),
 ('it', 458),
 ('said', 457),
 ('in', 416),
 ('alice', 383),
 ('you', 366),
 ('was', 353),
 ('i', 266),
 ('as', 264),
 ('that', 249),
 ('her', 247),
 ('with', 221),
 ('at', 216),
 ('on', 192),
 ('all', 186)]