## Read the Data into Pandas DataFrame without Unnamed Index Column

In [1]:
import pandas as pd
df = pd.read_csv("poems_sample.csv", index_col = [0])
df

Unnamed: 0,org_index,title,poet,poem
0,45910,Fatma Nine - 4 / derleme,Kâmuran Esen,\n\nFatma Nine'nin mektubu:\n\n ...
1,5917,Akrostiş - 3 - (Kızıma),Alper Kürük,"\n\n(P) ınar,ismin gibi sen tertemiz bir kayn..."
2,120601,Zifiri Karanlik,Gülistan Eryörük,\n\nZamanlar vardir kendini yalniz hissedersin...
3,104080,Suvare,Erol Özdemir,\n\nHikayeler bir yerden başlar\nbir an \nbird...
4,39486,Dost bî-Pervâ Felek Bî-Rahm ü Devran Bî-Sükûn,Fuzuli,\n\nGazel\n\nDost bî-pervâ felek bî-rahm ü dev...
5,3416,Adamı Yanlış Anladılar,Turhan Şahin,\n\n1- adamı yanlış anladılar\ndünya dönüyor \...
6,302,-0001- Fairy Of Turk -5013 India,Bilal Geniş,\n\n-0001 - त ु र ् क ी क ी प र ी -5013 - Indi...
7,50430,Gönül narım,A. Yüksel Şanlıer,"\n\n[ italik ] \nSevdiğim canım, yolunda hake ..."
8,50430,Gönül narım,A. Yüksel Şanlıer,"\n\n[ italik ] \nSevdiğim canım, yolunda hake ..."


## Remove All Punctuation Characters in the DataFrame 

In [2]:
import string

def remove_punc_generator(string):
    punc = '''!()-[]{};:'"\,<>./?@#$%^'&"*_’~“'''
    for ele in string:  
        if ele in punc:  
            string = string.replace(ele, "") 
    return string


In [3]:
df.title = df.title.apply(remove_punc_generator)
df.poet = df.poet.apply(remove_punc_generator)
df.poem = df.poem.apply(remove_punc_generator)
df

Unnamed: 0,org_index,title,poet,poem
0,45910,Fatma Nine 4 derleme,Kâmuran Esen,\n\nFatma Ninenin mektubu\n\n İ...
1,5917,Akrostiş 3 Kızıma,Alper Kürük,\n\nP ınarismin gibi sen tertemiz bir kaynaks...
2,120601,Zifiri Karanlik,Gülistan Eryörük,\n\nZamanlar vardir kendini yalniz hissedersin...
3,104080,Suvare,Erol Özdemir,\n\nHikayeler bir yerden başlar\nbir an \nbird...
4,39486,Dost bîPervâ Felek BîRahm ü Devran BîSükûn,Fuzuli,\n\nGazel\n\nDost bîpervâ felek bîrahm ü devra...
5,3416,Adamı Yanlış Anladılar,Turhan Şahin,\n\n1 adamı yanlış anladılar\ndünya dönüyor \n...
6,302,0001 Fairy Of Turk 5013 India,Bilal Geniş,\n\n0001 त ु र ् क ी क ी प र ी 5013 India \n...
7,50430,Gönül narım,A Yüksel Şanlıer,\n\n italik \nSevdiğim canım yolunda hake yek...
8,50430,Gönül narım,A Yüksel Şanlıer,\n\n italik \nSevdiğim canım yolunda hake yek...


## Remove '\n' Characters

In [4]:
df.title = df.title.replace(r'\n', '', regex=True)
df.poet = df.poet.replace(r'\n', '', regex=True)
df.poem = df.poem.replace(r'\n', '', regex=True)
df.poem[0]

'Fatma Ninenin mektubu                İlkevelâ ilk önce  hepinize selâm ederim Ben kim miyin Mudurnulu  Fatma Nineniz Rahmetli Özay Gönlümün ninesinden geri mi galacam Bi mekdup da ben yazım dedim Aslında gelecedim oraya gelemedim Nuçunniçin   decekdiyecek  olusanız parasızlığın gözü kör osun                      Nipbatsınızne yapıyorsunuz  uşak çocuklar  iyi misiniz Beni sorasanız amcanıznaneşimle  yuvallanıp gidiyoz işte Amcanızeşim  da eeeceiyice  ettiyalladıihtiyarladı  atık artık Oturup gâkabildiği kalkabildiği  yok Kendi ettiyallığını gömeyo da bembenim  yaşımnan olagalıyouğraşıyor  Geçen gün bana İkimiz de ettiyalladık” deyo Kendi ettiyar da bi de  beni neye gatıyokatıyor  Uysaoysa  ben amcanızdan on yaş hırayımküçüğüm  Seksenimde delindeğilim  doksanımda delin Yetmiş yaşıma  basalı ta beşaltı sene odu Ettiyar olacak yaşda mıyın ben Amcanız doksanına merdemenmerdiven  dayadı Ne azında diş gadı ne başında saç gadı Kendini gömeyo da beni ettiyar yapıyo Bi de bana gozurdeyo kuruluy

## Remove Multiple Space Characters in DataFrame

In [5]:
df.title = df.title.replace(r'\s+', ' ', regex=True)
df.poet = df.poet.replace(r'\s+', ' ', regex=True)
df.poem = df.poem.replace(r'\s+', ' ', regex=True)
df.poem[0]

'Fatma Ninenin mektubu İlkevelâ ilk önce hepinize selâm ederim Ben kim miyin Mudurnulu Fatma Nineniz Rahmetli Özay Gönlümün ninesinden geri mi galacam Bi mekdup da ben yazım dedim Aslında gelecedim oraya gelemedim Nuçunniçin decekdiyecek olusanız parasızlığın gözü kör osun Nipbatsınızne yapıyorsunuz uşak çocuklar iyi misiniz Beni sorasanız amcanıznaneşimle yuvallanıp gidiyoz işte Amcanızeşim da eeeceiyice ettiyalladıihtiyarladı atık artık Oturup gâkabildiği kalkabildiği yok Kendi ettiyallığını gömeyo da bembenim yaşımnan olagalıyouğraşıyor Geçen gün bana İkimiz de ettiyalladık” deyo Kendi ettiyar da bi de beni neye gatıyokatıyor Uysaoysa ben amcanızdan on yaş hırayımküçüğüm Seksenimde delindeğilim doksanımda delin Yetmiş yaşıma basalı ta beşaltı sene odu Ettiyar olacak yaşda mıyın ben Amcanız doksanına merdemenmerdiven dayadı Ne azında diş gadı ne başında saç gadı Kendini gömeyo da beni ettiyar yapıyo Bi de bana gozurdeyo kuruluyordikleniyor ettiyar halinnen Sağlığınız nasıl iyi mi Ben

## Remove One Letter Words

In [6]:

df.poem = df.poem.map(lambda x: ' '.join(word for word in x.split() if len(word)>1))
df.poem[0]

'Fatma Ninenin mektubu İlkevelâ ilk önce hepinize selâm ederim Ben kim miyin Mudurnulu Fatma Nineniz Rahmetli Özay Gönlümün ninesinden geri mi galacam Bi mekdup da ben yazım dedim Aslında gelecedim oraya gelemedim Nuçunniçin decekdiyecek olusanız parasızlığın gözü kör osun Nipbatsınızne yapıyorsunuz uşak çocuklar iyi misiniz Beni sorasanız amcanıznaneşimle yuvallanıp gidiyoz işte Amcanızeşim da eeeceiyice ettiyalladıihtiyarladı atık artık Oturup gâkabildiği kalkabildiği yok Kendi ettiyallığını gömeyo da bembenim yaşımnan olagalıyouğraşıyor Geçen gün bana İkimiz de ettiyalladık” deyo Kendi ettiyar da bi de beni neye gatıyokatıyor Uysaoysa ben amcanızdan on yaş hırayımküçüğüm Seksenimde delindeğilim doksanımda delin Yetmiş yaşıma basalı ta beşaltı sene odu Ettiyar olacak yaşda mıyın ben Amcanız doksanına merdemenmerdiven dayadı Ne azında diş gadı ne başında saç gadı Kendini gömeyo da beni ettiyar yapıyo Bi de bana gozurdeyo kuruluyordikleniyor ettiyar halinnen Sağlığınız nasıl iyi mi Ben

## Drop Duplicates

In [7]:
dups = [i for i, v in df.poem.value_counts().items() if v > 1]
fltr = df.poem.isin(dups)  # Filter
df[fltr]

Unnamed: 0,org_index,title,poet,poem
7,50430,Gönül narım,A Yüksel Şanlıer,italik Sevdiğim canım yolunda hake yeksan oldu...
8,50430,Gönül narım,A Yüksel Şanlıer,italik Sevdiğim canım yolunda hake yeksan oldu...


In [8]:
df = df.drop_duplicates(subset=['poem'], keep='first') 
df

Unnamed: 0,org_index,title,poet,poem
0,45910,Fatma Nine 4 derleme,Kâmuran Esen,Fatma Ninenin mektubu İlkevelâ ilk önce hepini...
1,5917,Akrostiş 3 Kızıma,Alper Kürük,ınarismin gibi sen tertemiz bir kaynaksınI lım...
2,120601,Zifiri Karanlik,Gülistan Eryörük,Zamanlar vardir kendini yalniz hissedersin kon...
3,104080,Suvare,Erol Özdemir,Hikayeler bir yerden başlarbir an birdenbireka...
4,39486,Dost bîPervâ Felek BîRahm ü Devran BîSükûn,Fuzuli,GazelDost bîpervâ felek bîrahm devran bîsükûnD...
5,3416,Adamı Yanlış Anladılar,Turhan Şahin,adamı yanlış anladılardünya dönüyor dediği zam...
6,302,0001 Fairy Of Turk 5013 India,Bilal Geniş,0001 5013 India Danisment SivasTokatNiksarAmas...
7,50430,Gönül narım,A Yüksel Şanlıer,italik Sevdiğim canım yolunda hake yeksan oldu...


## Install Zemberek Python Package and Import Necessary Modules

In [9]:
!pip install zemberek-python

import time
import logging

from zemberek import (
    TurkishSpellChecker,
    TurkishSentenceNormalizer,
    TurkishSentenceExtractor,
    TurkishMorphology,
    TurkishTokenizer
)




## Create logger and morphology Objects

In [10]:
logger = logging.getLogger(__name__)
morphology = TurkishMorphology.create_with_defaults()

2023-05-01 16:12:34,144 - zemberek.morphology.turkish_morphology - INFO
Msg: TurkishMorphology instance initialized in 14.058681011199951



## Tokenizer

In [11]:
tokenizer = TurkishTokenizer.DEFAULT
tokens = tokenizer.tokenize(df.poem[0])
for token in tokens:
    print('Content = ', token.content)
    print('Type = ', token.type_.name)
    print('Start = ', token.start)
    print('Stop = ', token.end, '\n')

Content =  Fatma
Type =  Word
Start =  0
Stop =  4 

Content =  Ninenin
Type =  Word
Start =  6
Stop =  12 

Content =  mektubu
Type =  Word
Start =  14
Stop =  20 

Content =  İlkevelâ
Type =  Word
Start =  22
Stop =  29 

Content =  ilk
Type =  Word
Start =  31
Stop =  33 

Content =  önce
Type =  Word
Start =  35
Stop =  38 

Content =  hepinize
Type =  Word
Start =  40
Stop =  47 

Content =  selâm
Type =  Word
Start =  49
Stop =  53 

Content =  ederim
Type =  Word
Start =  55
Stop =  60 

Content =  Ben
Type =  Word
Start =  62
Stop =  64 

Content =  kim
Type =  Word
Start =  66
Stop =  68 

Content =  miyin
Type =  Word
Start =  70
Stop =  74 

Content =  Mudurnulu
Type =  Word
Start =  76
Stop =  84 

Content =  Fatma
Type =  Word
Start =  86
Stop =  90 

Content =  Nineniz
Type =  Word
Start =  92
Stop =  98 

Content =  Rahmetli
Type =  Word
Start =  100
Stop =  107 

Content =  Özay
Type =  Word
Start =  109
Stop =  112 

Content =  Gönlümün
Type =  Word
Start =  114
Stop =

## Single Word Morphological Analysis

In [12]:
for token in tokens:
    results = morphology.analyze(token.content)
    for result in results:
        print(result)
    print("\n")

[Fatma:Noun, Prop] fatma:Noun+A3sg


[nine:Noun] nine:Noun+A3sg+nin:Gen
[nine:Noun] nine:Noun+A3sg+n:P2sg+in:Gen


[mektup:Noun] mektub:Noun+A3sg+u:Acc
[mektup:Noun] mektub:Noun+A3sg+u:P3sg




[ilk:Adj] ilk:Adj
[ilk:Adv] ilk:Adv
[ilk:Noun] ilk:Noun+A3sg


[önce:Postp, PCAbl] önce:Postp
[önce:Adv] önce:Adv
[ön:Adj] ön:Adj|ce:Ly→Adv
[ön:Adj] ön:Adj|ce:AsIf→Adj
[ön:Noun] ön:Noun+A3sg+ce:Equ
[önce:Noun, Time] önce:Noun+A3sg


[hep:Pron, Quant] hep:Pron+A2pl+iniz:P2pl+e:Dat


[sela:Noun] sela:Noun+A3sg+m:P1sg
[Sela:Noun, Prop] sela:Noun+A3sg+m:P1sg
[selam:Noun] selam:Noun+A3sg


[etmek:Verb] ed:Verb+er:Aor+im:A1sg
[eder:Noun] eder:Noun+A3sg+im:P1sg
[eder:Noun] eder:Noun+A3sg|Zero→Verb+Pres+im:A1sg


[ben:Pron, Pers] ben:Pron+A1sg
[ben:Noun] ben:Noun+A3sg


[kim:Conj] kim:Conj
[kim:Pron, Ques] kim:Pron+A3sg




[Mudurnu:Noun, Prop] mudurnu:Noun+A3sg|lu:With→Adj


[Fatma:Noun, Prop] fatma:Noun+A3sg


[nine:Noun] nine:Noun+A3sg+niz:P2pl
[nine:Noun] nine:Noun+A3sg+n:P2sg|Zero→Verb+Pres+iz:A1pl

## Sentence Extractor

In [13]:
extractor = TurkishSentenceExtractor()
start = time.time()
logger.info(f"Sentence extraction instance created in: {time.time() - start} s")
df['poem_sentences'] = df.poem.map(lambda x: extractor.from_paragraph(x))
logger.info(f"Sentences extraction ended in: {time.time() - start} s")
df.poem_sentences

2023-05-01 16:12:36,583 - __main__ - INFO
Msg: Sentence extraction instance created in: 5.91278076171875e-05 s

2023-05-01 16:12:36,588 - __main__ - INFO
Msg: Sentences extraction ended in: 0.005353212356567383 s



A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df['poem_sentences'] = df.poem.map(lambda x: extractor.from_paragraph(x))


0    [Fatma Ninenin mektubu İlkevelâ ilk önce hepin...
1    [ınarismin gibi sen tertemiz bir kaynaksınI lı...
2    [Zamanlar vardir kendini yalniz hissedersin ko...
3    [Hikayeler bir yerden başlarbir an birdenbirek...
4    [GazelDost bîpervâ felek bîrahm devran bîsükûn...
5    [adamı yanlış anladılardünya dönüyor dediği za...
6    [0001 5013 India Danisment SivasTokatNiksarAma...
7    [italik Sevdiğim canım yolunda hake yeksan old...
Name: poem_sentences, dtype: object

## Sentence Analysis and Disambiguation

In [14]:
i = 1
for sentence in df.poem_sentences[0]:
    analysis = morphology.analyze_sentence(sentence)
    after = morphology.disambiguate(sentence, analysis)
    print("\n Sentence ", i)
    print("--------------")
    print("\n  Before disambiguation")
    for e in analysis:
        print(f"    Word = {e.inp}")
        for s in e:
            print("      ", s.format_string())
    print("\nAfter disambiguation")
    for s in after.best_analysis():
        print("   ", s.format_string())
    i = i+1


 Sentence  1
--------------

  Before disambiguation
    Word = Fatma
       [Fatma:Noun, Prop] fatma:Noun+A3sg
    Word = Ninenin
       [nine:Noun] nine:Noun+A3sg+nin:Gen
       [nine:Noun] nine:Noun+A3sg+n:P2sg+in:Gen
    Word = mektubu
       [mektup:Noun] mektub:Noun+A3sg+u:Acc
       [mektup:Noun] mektub:Noun+A3sg+u:P3sg
    Word = İlkevelâ
    Word = ilk
       [ilk:Adj] ilk:Adj
       [ilk:Adv] ilk:Adv
       [ilk:Noun] ilk:Noun+A3sg
    Word = önce
       [önce:Postp, PCAbl] önce:Postp
       [önce:Adv] önce:Adv
       [ön:Adj] ön:Adj|ce:Ly→Adv
       [ön:Adj] ön:Adj|ce:AsIf→Adj
       [ön:Noun] ön:Noun+A3sg+ce:Equ
       [önce:Noun, Time] önce:Noun+A3sg
    Word = hepinize
       [hep:Pron, Quant] hep:Pron+A2pl+iniz:P2pl+e:Dat
    Word = selâm
       [sela:Noun] sela:Noun+A3sg+m:P1sg
       [Sela:Noun, Prop] sela:Noun+A3sg+m:P1sg
       [selam:Noun] selam:Noun+A3sg
    Word = ederim
       [etmek:Verb] ed:Verb+er:Aor+im:A1sg
       [eder:Noun] eder:Noun+A3sg+im:P1sg
       [

## Sentence Normalization 

In [15]:
normalizer = TurkishSentenceNormalizer(morphology)
logger.info(f"Normalization instance created in: {time.time() - start} s")

start = time.time()
df['normalized_poem_sent'] = df.poem.map(lambda x: normalizer.normalize(x))
logger.info(f"Sentences normalized in: {time.time() - start} s")
df.normalized_poem_sent

2023-05-01 16:12:55,376 - __main__ - INFO
Msg: Normalization instance created in: 18.793357133865356 s

2023-05-01 16:13:24,494 - __main__ - INFO
Msg: Sentences normalized in: 29.116025924682617 s



A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df['normalized_poem_sent'] = df.poem.map(lambda x: normalizer.normalize(x))


0    fatma ninenin mektubu ilkevelâ ilk önce hepini...
1    inarışmın gibi sen tertemiz bir kaynaksini lim...
2    zamanlar vardır kendisini yalnız hissedersin k...
3    hikâyeler bir yerden başlarbir an birdenbireka...
4    gazeldost biperva felek bîrahm devran bîsükûnd...
5    adamı yanlış anladılardünya dönüyor dediği zam...
6    0001 5013 ındia danişment sivastokatniksaramas...
7    italik sevdiğim canım yolunda hak yeksan olduğ...
Name: normalized_poem_sent, dtype: object

## Install Hunspell Package

<b>For MacOS: </b><br>
ln -s /usr/local/lib/libhunspell-1.7.a /usr/local/lib/libhunspell.a <br>
ln -s /usr/local/Cellar/hunspell/1.7.0_2/lib/libhunspell-1.7.dylib /usr/local/Cellar/hunspell/1.7.0_2/lib/libhunspell.dylib <br>
CFLAGS=$(pkg-config --cflags hunspell) LDFLAGS=$(pkg-config --libs hunspell) pip3 install hunspell

## Import and Create Object

In [16]:
import hunspell

# Create a Hunspell object for Turkish language
hobj = hunspell.HunSpell('/Volumes/SanDisk/Hunspell/hunspell-tr-main/tr_TR.dic', '/Volumes/SanDisk/Hunspell/hunspell-tr-main/tr_TR.aff')


In [17]:

# Test words for spelling errors
for token in tokens:
    if not hobj.spell(token.content):
        suggestions = hobj.suggest(token.content)
        print(f"Misspelled word: {token.content}")
        print(f"Suggestions: {suggestions}")

Misspelled word: İlkevelâ
Suggestions: ['İlkesel']
Misspelled word: selâm
Suggestions: ['selim', 'selem', 'selam']
Misspelled word: miyin
Suggestions: ['mitin', 'miyim', 'miyi', 'iyin', 'miydin', 'çiyin', 'meyin', 'mirin', 'yiyin', 'mayin', 'misin', 'siyin', 'midin', 'diyin', 'giyin']
Misspelled word: Mudurnulu
Suggestions: ['Mudurnu lu', 'Mudurnu-lu', 'Durdurulu']
Misspelled word: galacam
Suggestions: ['galaca', 'gala cam', 'gala-cam', 'galaca m', 'galam', 'alacala', 'alamayaca', 'amcala']
Misspelled word: mekdup
Suggestions: ['mektup']
Misspelled word: gelecedim
Suggestions: ['geceledim', 'geleceğim', 'gelececim', 'gelemedim', 'gelece dim', 'gelece-dim', 'gecelerim', 'gecelem']
Misspelled word: Nuçunniçin
Suggestions: ['Kavuniçin']
Misspelled word: decekdiyecek
Suggestions: ['diyecekler', 'diyebilecek', 'dinleyecek', 'edemeyecek']
Misspelled word: olusanız
Suggestions: ['olunasız', 'okusanız', 'olsanız', 'oluşsanız', 'olursanız', 'oluysanız', 'solusanız', 'olunsanız', 'oluşanız', 'ul