<h1>Preprocessing steps are listed below</h1>

* [Optionally eliminate case spesific non-important tweets](#Optionally-eliminate-case-spesific-non-important-tweets)
* [Remove mentions](#Remove-mentions)
* [Remove links](#Remove-links)
* [Remove Emojis](#Remove-Emojis)
* [Start zemberek](#Starting-zemberek)
    * Visit [here](https://www.kaggle.com/egebasturk1/yemeksepeti-sentiment-analysis/data) to get zemberek files 
* [Normalize tweets by using zemberek](#Normalize-tweets-by-using-zemberek)
* [Detect languages](#Detect-languages)
* [Eliminate non-turkish tweets](#Eliminate-non-turkish-tweets)
* [Remove hashtags](#Remove-hashtags)
* [Remove punctuations](#Remove-punctuations)
* [Strip numbers](#Strip-numbers)
* [Strip whitespaces](#Strip-whitespaces)
* [Correct accented turkish letters](#Correct-accented-turkish-letters)
* [Lower all letters including turkish](#Lower-all-characters-including-turkish)
* [Remove all non-turkish characters](#Remove-all-non-turkish-characters)
* [Remove short words](#Remove-short-words)
* [Remove stop words](#Remove-stop-words)
* [Lemmatize](#Lemmatize)
    * Visit [here](https://github.com/akoksal/Turkish-Lemmatizer/blob/master/lemmatizer.py)

In [1]:
import pandas as pd
tweets_df = pd.read_csv("earthquake/earthquake_tweets.csv", usecols=['Datetime', 'Text']) #.sample(frac=.1)
tweets_df

Unnamed: 0,Datetime,Text
0,2020-10-23 17:28:34+03:00,#VanDepremi unutursam aldığım nefes bana haram...
1,2020-10-23 17:28:52+03:00,İstanbul'da bırakın çözüm üretmeyi daha beter ...
2,2020-10-23 17:29:18+03:00,@nevsinmengu Onlar böyle yaptıkca halk daha du...
3,2020-10-23 17:29:26+03:00,@TuranDursunn Diyelim deprem oldu veya başka b...
4,2020-10-23 17:30:48+03:00,Bosna Hersek'de M 3.5 büyüklüğünde bir deprem ...
...,...,...
1509335,2021-10-01 02:37:01+03:00,Ege Denizi\nbüyüklük 1.8 ML (11 dk önce)\nderi...
1509336,2021-10-01 02:43:06+03:00,@BurcuyineBurcu Hergün deprem olsa 6.5. Hortum...
1509337,2021-10-01 02:57:01+03:00,Ege Denizi\nbüyüklük 1.5 ML (17 dk önce)\nderi...
1509338,2021-10-01 02:58:01+03:00,@Erdemzd46842091 @Emirhan2565 @oyle_sandim @Oz...


# Optionally eliminate case spesific non-important tweets 

In [2]:

tweets_df = tweets_df[tweets_df['Text'].str.\
          contains('acil|yayalım|yayalim|elden ele|paylaşalım|paylaşalim|paylasalim|paylasalım')] # rescue candidate words
tweets_df

Unnamed: 0,Datetime,Text
17,2020-10-23 17:50:59+03:00,"@baskanzorluoglu Başkanım, olası bir deprem iç..."
68,2020-10-23 19:39:06+03:00,"Değerli arkadaşlar, nasıl ki ağır bir deprem b..."
97,2020-10-23 20:20:29+03:00,"Deprem, sel vb. doğal afetlerin yanı sıra topl..."
157,2020-10-23 21:50:44+03:00,@ibbhaberleri Osuruktan teyyare anketi yapıyor...
277,2020-10-24 01:27:00+03:00,@bikapiacildi Bilimsel bir gerçek sadece. Oras...
...,...,...
1508588,2021-09-30 11:33:35+03:00,İLAVE OLARAK\nsiyasal islam\ntarikatlar\ndin e...
1508599,2021-09-30 11:45:21+03:00,#Deprem ve acil durumlarda iletişimin kesilmem...
1508670,2021-09-30 13:39:16+03:00,@ynrzl @ekin_ozsoy İstanbulun en önemli sorunu...
1509182,2021-09-30 22:42:51+03:00,Bu hayatin ucaklarin acil cikis kapisinda otur...


# Remove mentions

In [3]:

tweets_df['processed1'] = tweets_df['Text'].str.replace('(@\w+.*?)'," ")
tweets_df['processed1'].to_csv('processed1withoutmentions.csv', header=False, index=False)
tweets_df

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  tweets_df['processed1'] = tweets_df['Text'].str.replace('(@\w+.*?)'," ")


Unnamed: 0,Datetime,Text,processed1
17,2020-10-23 17:50:59+03:00,"@baskanzorluoglu Başkanım, olası bir deprem iç...","Başkanım, olası bir deprem için trabzonda ac..."
68,2020-10-23 19:39:06+03:00,"Değerli arkadaşlar, nasıl ki ağır bir deprem b...","Değerli arkadaşlar, nasıl ki ağır bir deprem b..."
97,2020-10-23 20:20:29+03:00,"Deprem, sel vb. doğal afetlerin yanı sıra topl...","Deprem, sel vb. doğal afetlerin yanı sıra topl..."
157,2020-10-23 21:50:44+03:00,@ibbhaberleri Osuruktan teyyare anketi yapıyor...,Osuruktan teyyare anketi yapıyor troll hesap...
277,2020-10-24 01:27:00+03:00,@bikapiacildi Bilimsel bir gerçek sadece. Oras...,Bilimsel bir gerçek sadece. Orası 1513'ten b...
...,...,...,...
1508588,2021-09-30 11:33:35+03:00,İLAVE OLARAK\nsiyasal islam\ntarikatlar\ndin e...,İLAVE OLARAK\nsiyasal islam\ntarikatlar\ndin e...
1508599,2021-09-30 11:45:21+03:00,#Deprem ve acil durumlarda iletişimin kesilmem...,#Deprem ve acil durumlarda iletişimin kesilmem...
1508670,2021-09-30 13:39:16+03:00,@ynrzl @ekin_ozsoy İstanbulun en önemli sorunu...,İstanbulun en önemli sorunu deprem sonra t...
1509182,2021-09-30 22:42:51+03:00,Bu hayatin ucaklarin acil cikis kapisinda otur...,Bu hayatin ucaklarin acil cikis kapisinda otur...


# Remove links

In [4]:

tweets_df['processed2'] = tweets_df['processed1'].str.replace(r'http\S+|www.\S+', ' ', case=False)
tweets_df['processed2'].to_csv('processed2withoutlinks.csv', header=False, index=False)
tweets_df

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  tweets_df['processed2'] = tweets_df['processed1'].str.replace(r'http\S+|www.\S+', ' ', case=False)


Unnamed: 0,Datetime,Text,processed1,processed2
17,2020-10-23 17:50:59+03:00,"@baskanzorluoglu Başkanım, olası bir deprem iç...","Başkanım, olası bir deprem için trabzonda ac...","Başkanım, olası bir deprem için trabzonda ac..."
68,2020-10-23 19:39:06+03:00,"Değerli arkadaşlar, nasıl ki ağır bir deprem b...","Değerli arkadaşlar, nasıl ki ağır bir deprem b...","Değerli arkadaşlar, nasıl ki ağır bir deprem b..."
97,2020-10-23 20:20:29+03:00,"Deprem, sel vb. doğal afetlerin yanı sıra topl...","Deprem, sel vb. doğal afetlerin yanı sıra topl...","Deprem, sel vb. doğal afetlerin yanı sıra topl..."
157,2020-10-23 21:50:44+03:00,@ibbhaberleri Osuruktan teyyare anketi yapıyor...,Osuruktan teyyare anketi yapıyor troll hesap...,Osuruktan teyyare anketi yapıyor troll hesap...
277,2020-10-24 01:27:00+03:00,@bikapiacildi Bilimsel bir gerçek sadece. Oras...,Bilimsel bir gerçek sadece. Orası 1513'ten b...,Bilimsel bir gerçek sadece. Orası 1513'ten b...
...,...,...,...,...
1508588,2021-09-30 11:33:35+03:00,İLAVE OLARAK\nsiyasal islam\ntarikatlar\ndin e...,İLAVE OLARAK\nsiyasal islam\ntarikatlar\ndin e...,İLAVE OLARAK\nsiyasal islam\ntarikatlar\ndin e...
1508599,2021-09-30 11:45:21+03:00,#Deprem ve acil durumlarda iletişimin kesilmem...,#Deprem ve acil durumlarda iletişimin kesilmem...,#Deprem ve acil durumlarda iletişimin kesilmem...
1508670,2021-09-30 13:39:16+03:00,@ynrzl @ekin_ozsoy İstanbulun en önemli sorunu...,İstanbulun en önemli sorunu deprem sonra t...,İstanbulun en önemli sorunu deprem sonra t...
1509182,2021-09-30 22:42:51+03:00,Bu hayatin ucaklarin acil cikis kapisinda otur...,Bu hayatin ucaklarin acil cikis kapisinda otur...,Bu hayatin ucaklarin acil cikis kapisinda otur...


# Remove Emojis

In [5]:

import re
def remove_emojis(data):
    emoj = re.compile("["
        u"\U0001F600-\U0001F64F"  # emoticons
        u"\U0001F300-\U0001F5FF"  # symbols & pictographs
        u"\U0001F680-\U0001F6FF"  # transport & map symbols
        u"\U0001F1E0-\U0001F1FF"  # flags (iOS)
        u"\U00002500-\U00002BEF"  # chinese char
        u"\U00002702-\U000027B0"
        u"\U00002702-\U000027B0"
        u"\U000024C2-\U0001F251"
        u"\U0001f926-\U0001f937"
        u"\U00010000-\U0010ffff"
        u"\u2640-\u2642" 
        u"\u2600-\u2B55"
        u"\u200d"
        u"\u23cf"
        u"\u23e9"
        u"\u231a"
        u"\ufe0f"  # dingbats
        u"\u3030"
                      "]+", re.UNICODE)
    return re.sub(emoj, ' ', str(data))
tweets_df['processed3'] = tweets_df['processed2'].apply(remove_emojis)
tweets_df['processed3'].to_csv('processed3withoutemojis.csv', header=False, index=False)
tweets_df

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  tweets_df['processed3'] = tweets_df['processed2'].apply(remove_emojis)


Unnamed: 0,Datetime,Text,processed1,processed2,processed3
17,2020-10-23 17:50:59+03:00,"@baskanzorluoglu Başkanım, olası bir deprem iç...","Başkanım, olası bir deprem için trabzonda ac...","Başkanım, olası bir deprem için trabzonda ac...","Başkanım, olası bir deprem için trabzonda ac..."
68,2020-10-23 19:39:06+03:00,"Değerli arkadaşlar, nasıl ki ağır bir deprem b...","Değerli arkadaşlar, nasıl ki ağır bir deprem b...","Değerli arkadaşlar, nasıl ki ağır bir deprem b...","Değerli arkadaşlar, nasıl ki ağır bir deprem b..."
97,2020-10-23 20:20:29+03:00,"Deprem, sel vb. doğal afetlerin yanı sıra topl...","Deprem, sel vb. doğal afetlerin yanı sıra topl...","Deprem, sel vb. doğal afetlerin yanı sıra topl...","Deprem, sel vb. doğal afetlerin yanı sıra topl..."
157,2020-10-23 21:50:44+03:00,@ibbhaberleri Osuruktan teyyare anketi yapıyor...,Osuruktan teyyare anketi yapıyor troll hesap...,Osuruktan teyyare anketi yapıyor troll hesap...,Osuruktan teyyare anketi yapıyor troll hesap...
277,2020-10-24 01:27:00+03:00,@bikapiacildi Bilimsel bir gerçek sadece. Oras...,Bilimsel bir gerçek sadece. Orası 1513'ten b...,Bilimsel bir gerçek sadece. Orası 1513'ten b...,Bilimsel bir gerçek sadece. Orası 1513'ten b...
...,...,...,...,...,...
1508588,2021-09-30 11:33:35+03:00,İLAVE OLARAK\nsiyasal islam\ntarikatlar\ndin e...,İLAVE OLARAK\nsiyasal islam\ntarikatlar\ndin e...,İLAVE OLARAK\nsiyasal islam\ntarikatlar\ndin e...,İLAVE OLARAK\nsiyasal islam\ntarikatlar\ndin e...
1508599,2021-09-30 11:45:21+03:00,#Deprem ve acil durumlarda iletişimin kesilmem...,#Deprem ve acil durumlarda iletişimin kesilmem...,#Deprem ve acil durumlarda iletişimin kesilmem...,#Deprem ve acil durumlarda iletişimin kesilmem...
1508670,2021-09-30 13:39:16+03:00,@ynrzl @ekin_ozsoy İstanbulun en önemli sorunu...,İstanbulun en önemli sorunu deprem sonra t...,İstanbulun en önemli sorunu deprem sonra t...,İstanbulun en önemli sorunu deprem sonra t...
1509182,2021-09-30 22:42:51+03:00,Bu hayatin ucaklarin acil cikis kapisinda otur...,Bu hayatin ucaklarin acil cikis kapisinda otur...,Bu hayatin ucaklarin acil cikis kapisinda otur...,Bu hayatin ucaklarin acil cikis kapisinda otur...


# Starting zemberek

In [6]:
### START ZEMBEREK 
#
# Requirements: zemberek-full.jar, lm.2gram.slm and normalization folder contains ascii-map, lookup-from-graph and split files
# visit https://www.kaggle.com/egebasturk1/yemeksepeti-sentiment-analysis/data

import jpype as jp

ZEMBEREK_PATH = r'zemberek/zemberek-full.jar'
jp.startJVM(jp.getDefaultJVMPath(), '-ea', '-Djava.class.path=%s' % (ZEMBEREK_PATH))

In [7]:
TurkishMorphology = jp.JClass('zemberek.morphology.TurkishMorphology')
#TurkishSpellChecker = jp.JClass('zemberek.normalization.TurkishSpellChecker')
TurkishSentenceNormalizer = jp.JClass('zemberek.normalization.TurkishSentenceNormalizer')
Paths = jp.JClass('java.nio.file.Paths')

lookupRoot = Paths.get(r'zemberek/normalization')
lmPath = Paths.get(r'zemberek/lm.2gram.slm')
morphology = TurkishMorphology.createWithDefaults()
normalizer = TurkishSentenceNormalizer(morphology, lookupRoot, lmPath)

# Normalize tweets by using zemberek

In [8]:
### Normalize the tweets

from tqdm import tqdm
tqdm.pandas()

def normalization(tweet):
    return " " if len(tweet) == 0 or tweet.isspace() else str(normalizer.normalize(jp.JString(tweet)))

tweets_df['processed4'] = tweets_df['processed3'].progress_apply(normalization)
tweets_df['processed4'].to_csv('processed4normalized.csv', header=False, index=False)
tweets_df

  from pandas import Panel
100%|███████████████████████████████████████████████████████████████████████████| 27539/27539 [00:36<00:00, 749.83it/s]
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  tweets_df['processed4'] = tweets_df['processed3'].progress_apply(normalization)


Unnamed: 0,Datetime,Text,processed1,processed2,processed3,processed4
17,2020-10-23 17:50:59+03:00,"@baskanzorluoglu Başkanım, olası bir deprem iç...","Başkanım, olası bir deprem için trabzonda ac...","Başkanım, olası bir deprem için trabzonda ac...","Başkanım, olası bir deprem için trabzonda ac...","başkanım , olası bir deprem için trabzonda aci..."
68,2020-10-23 19:39:06+03:00,"Değerli arkadaşlar, nasıl ki ağır bir deprem b...","Değerli arkadaşlar, nasıl ki ağır bir deprem b...","Değerli arkadaşlar, nasıl ki ağır bir deprem b...","Değerli arkadaşlar, nasıl ki ağır bir deprem b...","değerli arkadaşlar , nasıl ki ağır bir deprem ..."
97,2020-10-23 20:20:29+03:00,"Deprem, sel vb. doğal afetlerin yanı sıra topl...","Deprem, sel vb. doğal afetlerin yanı sıra topl...","Deprem, sel vb. doğal afetlerin yanı sıra topl...","Deprem, sel vb. doğal afetlerin yanı sıra topl...","deprem , sel vb. doğal afetlerin yanı sıra top..."
157,2020-10-23 21:50:44+03:00,@ibbhaberleri Osuruktan teyyare anketi yapıyor...,Osuruktan teyyare anketi yapıyor troll hesap...,Osuruktan teyyare anketi yapıyor troll hesap...,Osuruktan teyyare anketi yapıyor troll hesap...,osuruktan teyyare anketi yapıyor troll hesap ....
277,2020-10-24 01:27:00+03:00,@bikapiacildi Bilimsel bir gerçek sadece. Oras...,Bilimsel bir gerçek sadece. Orası 1513'ten b...,Bilimsel bir gerçek sadece. Orası 1513'ten b...,Bilimsel bir gerçek sadece. Orası 1513'ten b...,bilimsel bir gerçek sadece . orası 1513'ten be...
...,...,...,...,...,...,...
1508588,2021-09-30 11:33:35+03:00,İLAVE OLARAK\nsiyasal islam\ntarikatlar\ndin e...,İLAVE OLARAK\nsiyasal islam\ntarikatlar\ndin e...,İLAVE OLARAK\nsiyasal islam\ntarikatlar\ndin e...,İLAVE OLARAK\nsiyasal islam\ntarikatlar\ndin e...,ilave olarak siyasal islam tarikatlar din eğit...
1508599,2021-09-30 11:45:21+03:00,#Deprem ve acil durumlarda iletişimin kesilmem...,#Deprem ve acil durumlarda iletişimin kesilmem...,#Deprem ve acil durumlarda iletişimin kesilmem...,#Deprem ve acil durumlarda iletişimin kesilmem...,#deprem ve acil durumlarda iletişimin kesilmem...
1508670,2021-09-30 13:39:16+03:00,@ynrzl @ekin_ozsoy İstanbulun en önemli sorunu...,İstanbulun en önemli sorunu deprem sonra t...,İstanbulun en önemli sorunu deprem sonra t...,İstanbulun en önemli sorunu deprem sonra t...,istanbulun en önemli sorunu deprem sonra trafi...
1509182,2021-09-30 22:42:51+03:00,Bu hayatin ucaklarin acil cikis kapisinda otur...,Bu hayatin ucaklarin acil cikis kapisinda otur...,Bu hayatin ucaklarin acil cikis kapisinda otur...,Bu hayatin ucaklarin acil cikis kapisinda otur...,bu hayatın uçakların acil çıkış kapısında otur...


# Detect languages

In [9]:
### Detect languages

import langid

tweets_df['languages'] = tweets_df['processed4'].progress_apply(lambda s: langid.classify(s)[0])
tweets_df

100%|███████████████████████████████████████████████████████████████████████████| 27539/27539 [00:57<00:00, 479.24it/s]
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  tweets_df['languages'] = tweets_df['processed4'].progress_apply(lambda s: langid.classify(s)[0])


Unnamed: 0,Datetime,Text,processed1,processed2,processed3,processed4,languages
17,2020-10-23 17:50:59+03:00,"@baskanzorluoglu Başkanım, olası bir deprem iç...","Başkanım, olası bir deprem için trabzonda ac...","Başkanım, olası bir deprem için trabzonda ac...","Başkanım, olası bir deprem için trabzonda ac...","başkanım , olası bir deprem için trabzonda aci...",tr
68,2020-10-23 19:39:06+03:00,"Değerli arkadaşlar, nasıl ki ağır bir deprem b...","Değerli arkadaşlar, nasıl ki ağır bir deprem b...","Değerli arkadaşlar, nasıl ki ağır bir deprem b...","Değerli arkadaşlar, nasıl ki ağır bir deprem b...","değerli arkadaşlar , nasıl ki ağır bir deprem ...",tr
97,2020-10-23 20:20:29+03:00,"Deprem, sel vb. doğal afetlerin yanı sıra topl...","Deprem, sel vb. doğal afetlerin yanı sıra topl...","Deprem, sel vb. doğal afetlerin yanı sıra topl...","Deprem, sel vb. doğal afetlerin yanı sıra topl...","deprem , sel vb. doğal afetlerin yanı sıra top...",tr
157,2020-10-23 21:50:44+03:00,@ibbhaberleri Osuruktan teyyare anketi yapıyor...,Osuruktan teyyare anketi yapıyor troll hesap...,Osuruktan teyyare anketi yapıyor troll hesap...,Osuruktan teyyare anketi yapıyor troll hesap...,osuruktan teyyare anketi yapıyor troll hesap ....,tr
277,2020-10-24 01:27:00+03:00,@bikapiacildi Bilimsel bir gerçek sadece. Oras...,Bilimsel bir gerçek sadece. Orası 1513'ten b...,Bilimsel bir gerçek sadece. Orası 1513'ten b...,Bilimsel bir gerçek sadece. Orası 1513'ten b...,bilimsel bir gerçek sadece . orası 1513'ten be...,tr
...,...,...,...,...,...,...,...
1508588,2021-09-30 11:33:35+03:00,İLAVE OLARAK\nsiyasal islam\ntarikatlar\ndin e...,İLAVE OLARAK\nsiyasal islam\ntarikatlar\ndin e...,İLAVE OLARAK\nsiyasal islam\ntarikatlar\ndin e...,İLAVE OLARAK\nsiyasal islam\ntarikatlar\ndin e...,ilave olarak siyasal islam tarikatlar din eğit...,tr
1508599,2021-09-30 11:45:21+03:00,#Deprem ve acil durumlarda iletişimin kesilmem...,#Deprem ve acil durumlarda iletişimin kesilmem...,#Deprem ve acil durumlarda iletişimin kesilmem...,#Deprem ve acil durumlarda iletişimin kesilmem...,#deprem ve acil durumlarda iletişimin kesilmem...,tr
1508670,2021-09-30 13:39:16+03:00,@ynrzl @ekin_ozsoy İstanbulun en önemli sorunu...,İstanbulun en önemli sorunu deprem sonra t...,İstanbulun en önemli sorunu deprem sonra t...,İstanbulun en önemli sorunu deprem sonra t...,istanbulun en önemli sorunu deprem sonra trafi...,tr
1509182,2021-09-30 22:42:51+03:00,Bu hayatin ucaklarin acil cikis kapisinda otur...,Bu hayatin ucaklarin acil cikis kapisinda otur...,Bu hayatin ucaklarin acil cikis kapisinda otur...,Bu hayatin ucaklarin acil cikis kapisinda otur...,bu hayatın uçakların acil çıkış kapısında otur...,tr


# Eliminate non-turkish tweets

In [10]:

tweets_df = tweets_df[tweets_df['languages'] == 'tr']
tweets_df

Unnamed: 0,Datetime,Text,processed1,processed2,processed3,processed4,languages
17,2020-10-23 17:50:59+03:00,"@baskanzorluoglu Başkanım, olası bir deprem iç...","Başkanım, olası bir deprem için trabzonda ac...","Başkanım, olası bir deprem için trabzonda ac...","Başkanım, olası bir deprem için trabzonda ac...","başkanım , olası bir deprem için trabzonda aci...",tr
68,2020-10-23 19:39:06+03:00,"Değerli arkadaşlar, nasıl ki ağır bir deprem b...","Değerli arkadaşlar, nasıl ki ağır bir deprem b...","Değerli arkadaşlar, nasıl ki ağır bir deprem b...","Değerli arkadaşlar, nasıl ki ağır bir deprem b...","değerli arkadaşlar , nasıl ki ağır bir deprem ...",tr
97,2020-10-23 20:20:29+03:00,"Deprem, sel vb. doğal afetlerin yanı sıra topl...","Deprem, sel vb. doğal afetlerin yanı sıra topl...","Deprem, sel vb. doğal afetlerin yanı sıra topl...","Deprem, sel vb. doğal afetlerin yanı sıra topl...","deprem , sel vb. doğal afetlerin yanı sıra top...",tr
157,2020-10-23 21:50:44+03:00,@ibbhaberleri Osuruktan teyyare anketi yapıyor...,Osuruktan teyyare anketi yapıyor troll hesap...,Osuruktan teyyare anketi yapıyor troll hesap...,Osuruktan teyyare anketi yapıyor troll hesap...,osuruktan teyyare anketi yapıyor troll hesap ....,tr
277,2020-10-24 01:27:00+03:00,@bikapiacildi Bilimsel bir gerçek sadece. Oras...,Bilimsel bir gerçek sadece. Orası 1513'ten b...,Bilimsel bir gerçek sadece. Orası 1513'ten b...,Bilimsel bir gerçek sadece. Orası 1513'ten b...,bilimsel bir gerçek sadece . orası 1513'ten be...,tr
...,...,...,...,...,...,...,...
1508588,2021-09-30 11:33:35+03:00,İLAVE OLARAK\nsiyasal islam\ntarikatlar\ndin e...,İLAVE OLARAK\nsiyasal islam\ntarikatlar\ndin e...,İLAVE OLARAK\nsiyasal islam\ntarikatlar\ndin e...,İLAVE OLARAK\nsiyasal islam\ntarikatlar\ndin e...,ilave olarak siyasal islam tarikatlar din eğit...,tr
1508599,2021-09-30 11:45:21+03:00,#Deprem ve acil durumlarda iletişimin kesilmem...,#Deprem ve acil durumlarda iletişimin kesilmem...,#Deprem ve acil durumlarda iletişimin kesilmem...,#Deprem ve acil durumlarda iletişimin kesilmem...,#deprem ve acil durumlarda iletişimin kesilmem...,tr
1508670,2021-09-30 13:39:16+03:00,@ynrzl @ekin_ozsoy İstanbulun en önemli sorunu...,İstanbulun en önemli sorunu deprem sonra t...,İstanbulun en önemli sorunu deprem sonra t...,İstanbulun en önemli sorunu deprem sonra t...,istanbulun en önemli sorunu deprem sonra trafi...,tr
1509182,2021-09-30 22:42:51+03:00,Bu hayatin ucaklarin acil cikis kapisinda otur...,Bu hayatin ucaklarin acil cikis kapisinda otur...,Bu hayatin ucaklarin acil cikis kapisinda otur...,Bu hayatin ucaklarin acil cikis kapisinda otur...,bu hayatın uçakların acil çıkış kapısında otur...,tr


# Remove hashtags

In [11]:

tweets_df['processed5'] = tweets_df['processed4'].str.replace('(#\w+.*?)'," ")
tweets_df['processed5'].to_csv('processed5withouthashtags.csv', header=False, index=False)
tweets_df

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  tweets_df['processed5'] = tweets_df['processed4'].str.replace('(#\w+.*?)'," ")


Unnamed: 0,Datetime,Text,processed1,processed2,processed3,processed4,languages,processed5
17,2020-10-23 17:50:59+03:00,"@baskanzorluoglu Başkanım, olası bir deprem iç...","Başkanım, olası bir deprem için trabzonda ac...","Başkanım, olası bir deprem için trabzonda ac...","Başkanım, olası bir deprem için trabzonda ac...","başkanım , olası bir deprem için trabzonda aci...",tr,"başkanım , olası bir deprem için trabzonda aci..."
68,2020-10-23 19:39:06+03:00,"Değerli arkadaşlar, nasıl ki ağır bir deprem b...","Değerli arkadaşlar, nasıl ki ağır bir deprem b...","Değerli arkadaşlar, nasıl ki ağır bir deprem b...","Değerli arkadaşlar, nasıl ki ağır bir deprem b...","değerli arkadaşlar , nasıl ki ağır bir deprem ...",tr,"değerli arkadaşlar , nasıl ki ağır bir deprem ..."
97,2020-10-23 20:20:29+03:00,"Deprem, sel vb. doğal afetlerin yanı sıra topl...","Deprem, sel vb. doğal afetlerin yanı sıra topl...","Deprem, sel vb. doğal afetlerin yanı sıra topl...","Deprem, sel vb. doğal afetlerin yanı sıra topl...","deprem , sel vb. doğal afetlerin yanı sıra top...",tr,"deprem , sel vb. doğal afetlerin yanı sıra top..."
157,2020-10-23 21:50:44+03:00,@ibbhaberleri Osuruktan teyyare anketi yapıyor...,Osuruktan teyyare anketi yapıyor troll hesap...,Osuruktan teyyare anketi yapıyor troll hesap...,Osuruktan teyyare anketi yapıyor troll hesap...,osuruktan teyyare anketi yapıyor troll hesap ....,tr,osuruktan teyyare anketi yapıyor troll hesap ....
277,2020-10-24 01:27:00+03:00,@bikapiacildi Bilimsel bir gerçek sadece. Oras...,Bilimsel bir gerçek sadece. Orası 1513'ten b...,Bilimsel bir gerçek sadece. Orası 1513'ten b...,Bilimsel bir gerçek sadece. Orası 1513'ten b...,bilimsel bir gerçek sadece . orası 1513'ten be...,tr,bilimsel bir gerçek sadece . orası 1513'ten be...
...,...,...,...,...,...,...,...,...
1508588,2021-09-30 11:33:35+03:00,İLAVE OLARAK\nsiyasal islam\ntarikatlar\ndin e...,İLAVE OLARAK\nsiyasal islam\ntarikatlar\ndin e...,İLAVE OLARAK\nsiyasal islam\ntarikatlar\ndin e...,İLAVE OLARAK\nsiyasal islam\ntarikatlar\ndin e...,ilave olarak siyasal islam tarikatlar din eğit...,tr,ilave olarak siyasal islam tarikatlar din eğit...
1508599,2021-09-30 11:45:21+03:00,#Deprem ve acil durumlarda iletişimin kesilmem...,#Deprem ve acil durumlarda iletişimin kesilmem...,#Deprem ve acil durumlarda iletişimin kesilmem...,#Deprem ve acil durumlarda iletişimin kesilmem...,#deprem ve acil durumlarda iletişimin kesilmem...,tr,ve acil durumlarda iletişimin kesilmemesi iç...
1508670,2021-09-30 13:39:16+03:00,@ynrzl @ekin_ozsoy İstanbulun en önemli sorunu...,İstanbulun en önemli sorunu deprem sonra t...,İstanbulun en önemli sorunu deprem sonra t...,İstanbulun en önemli sorunu deprem sonra t...,istanbulun en önemli sorunu deprem sonra trafi...,tr,istanbulun en önemli sorunu deprem sonra trafi...
1509182,2021-09-30 22:42:51+03:00,Bu hayatin ucaklarin acil cikis kapisinda otur...,Bu hayatin ucaklarin acil cikis kapisinda otur...,Bu hayatin ucaklarin acil cikis kapisinda otur...,Bu hayatin ucaklarin acil cikis kapisinda otur...,bu hayatın uçakların acil çıkış kapısında otur...,tr,bu hayatın uçakların acil çıkış kapısında otur...


# Remove punctuations

In [12]:

import gensim.parsing.preprocessing as gsp
import string

tweets_df['processed6'] = tweets_df['processed5'].apply(lambda x: x.translate(str.maketrans(dict.fromkeys(string.punctuation, ' '))))
tweets_df['processed6'].to_csv('processed6withoutpunc.csv', header=False, index=False)
tweets_df

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  tweets_df['processed6'] = tweets_df['processed5'].apply(lambda x: x.translate(str.maketrans(dict.fromkeys(string.punctuation, ' '))))


Unnamed: 0,Datetime,Text,processed1,processed2,processed3,processed4,languages,processed5,processed6
17,2020-10-23 17:50:59+03:00,"@baskanzorluoglu Başkanım, olası bir deprem iç...","Başkanım, olası bir deprem için trabzonda ac...","Başkanım, olası bir deprem için trabzonda ac...","Başkanım, olası bir deprem için trabzonda ac...","başkanım , olası bir deprem için trabzonda aci...",tr,"başkanım , olası bir deprem için trabzonda aci...",başkanım olası bir deprem için trabzonda aci...
68,2020-10-23 19:39:06+03:00,"Değerli arkadaşlar, nasıl ki ağır bir deprem b...","Değerli arkadaşlar, nasıl ki ağır bir deprem b...","Değerli arkadaşlar, nasıl ki ağır bir deprem b...","Değerli arkadaşlar, nasıl ki ağır bir deprem b...","değerli arkadaşlar , nasıl ki ağır bir deprem ...",tr,"değerli arkadaşlar , nasıl ki ağır bir deprem ...",değerli arkadaşlar nasıl ki ağır bir deprem ...
97,2020-10-23 20:20:29+03:00,"Deprem, sel vb. doğal afetlerin yanı sıra topl...","Deprem, sel vb. doğal afetlerin yanı sıra topl...","Deprem, sel vb. doğal afetlerin yanı sıra topl...","Deprem, sel vb. doğal afetlerin yanı sıra topl...","deprem , sel vb. doğal afetlerin yanı sıra top...",tr,"deprem , sel vb. doğal afetlerin yanı sıra top...",deprem sel vb doğal afetlerin yanı sıra top...
157,2020-10-23 21:50:44+03:00,@ibbhaberleri Osuruktan teyyare anketi yapıyor...,Osuruktan teyyare anketi yapıyor troll hesap...,Osuruktan teyyare anketi yapıyor troll hesap...,Osuruktan teyyare anketi yapıyor troll hesap...,osuruktan teyyare anketi yapıyor troll hesap ....,tr,osuruktan teyyare anketi yapıyor troll hesap ....,osuruktan teyyare anketi yapıyor troll hesap ...
277,2020-10-24 01:27:00+03:00,@bikapiacildi Bilimsel bir gerçek sadece. Oras...,Bilimsel bir gerçek sadece. Orası 1513'ten b...,Bilimsel bir gerçek sadece. Orası 1513'ten b...,Bilimsel bir gerçek sadece. Orası 1513'ten b...,bilimsel bir gerçek sadece . orası 1513'ten be...,tr,bilimsel bir gerçek sadece . orası 1513'ten be...,bilimsel bir gerçek sadece orası 1513 ten be...
...,...,...,...,...,...,...,...,...,...
1508588,2021-09-30 11:33:35+03:00,İLAVE OLARAK\nsiyasal islam\ntarikatlar\ndin e...,İLAVE OLARAK\nsiyasal islam\ntarikatlar\ndin e...,İLAVE OLARAK\nsiyasal islam\ntarikatlar\ndin e...,İLAVE OLARAK\nsiyasal islam\ntarikatlar\ndin e...,ilave olarak siyasal islam tarikatlar din eğit...,tr,ilave olarak siyasal islam tarikatlar din eğit...,ilave olarak siyasal islam tarikatlar din eğit...
1508599,2021-09-30 11:45:21+03:00,#Deprem ve acil durumlarda iletişimin kesilmem...,#Deprem ve acil durumlarda iletişimin kesilmem...,#Deprem ve acil durumlarda iletişimin kesilmem...,#Deprem ve acil durumlarda iletişimin kesilmem...,#deprem ve acil durumlarda iletişimin kesilmem...,tr,ve acil durumlarda iletişimin kesilmemesi iç...,ve acil durumlarda iletişimin kesilmemesi iç...
1508670,2021-09-30 13:39:16+03:00,@ynrzl @ekin_ozsoy İstanbulun en önemli sorunu...,İstanbulun en önemli sorunu deprem sonra t...,İstanbulun en önemli sorunu deprem sonra t...,İstanbulun en önemli sorunu deprem sonra t...,istanbulun en önemli sorunu deprem sonra trafi...,tr,istanbulun en önemli sorunu deprem sonra trafi...,istanbulun en önemli sorunu deprem sonra trafi...
1509182,2021-09-30 22:42:51+03:00,Bu hayatin ucaklarin acil cikis kapisinda otur...,Bu hayatin ucaklarin acil cikis kapisinda otur...,Bu hayatin ucaklarin acil cikis kapisinda otur...,Bu hayatin ucaklarin acil cikis kapisinda otur...,bu hayatın uçakların acil çıkış kapısında otur...,tr,bu hayatın uçakların acil çıkış kapısında otur...,bu hayatın uçakların acil çıkış kapısında otur...


# Strip whitespaces

In [13]:

#tweets_df['processed_6'] = tweets_df['processed_5'].apply(gsp.strip_punctuation)
tweets_df['processed7'] = tweets_df['processed6'].apply(gsp.strip_multiple_whitespaces)
tweets_df['processed7'].to_csv('processed7withoutspaces.csv', header=False, index=False)
tweets_df

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  tweets_df['processed7'] = tweets_df['processed6'].apply(gsp.strip_multiple_whitespaces)


Unnamed: 0,Datetime,Text,processed1,processed2,processed3,processed4,languages,processed5,processed6,processed7
17,2020-10-23 17:50:59+03:00,"@baskanzorluoglu Başkanım, olası bir deprem iç...","Başkanım, olası bir deprem için trabzonda ac...","Başkanım, olası bir deprem için trabzonda ac...","Başkanım, olası bir deprem için trabzonda ac...","başkanım , olası bir deprem için trabzonda aci...",tr,"başkanım , olası bir deprem için trabzonda aci...",başkanım olası bir deprem için trabzonda aci...,başkanım olası bir deprem için trabzonda acil ...
68,2020-10-23 19:39:06+03:00,"Değerli arkadaşlar, nasıl ki ağır bir deprem b...","Değerli arkadaşlar, nasıl ki ağır bir deprem b...","Değerli arkadaşlar, nasıl ki ağır bir deprem b...","Değerli arkadaşlar, nasıl ki ağır bir deprem b...","değerli arkadaşlar , nasıl ki ağır bir deprem ...",tr,"değerli arkadaşlar , nasıl ki ağır bir deprem ...",değerli arkadaşlar nasıl ki ağır bir deprem ...,değerli arkadaşlar nasıl ki ağır bir deprem be...
97,2020-10-23 20:20:29+03:00,"Deprem, sel vb. doğal afetlerin yanı sıra topl...","Deprem, sel vb. doğal afetlerin yanı sıra topl...","Deprem, sel vb. doğal afetlerin yanı sıra topl...","Deprem, sel vb. doğal afetlerin yanı sıra topl...","deprem , sel vb. doğal afetlerin yanı sıra top...",tr,"deprem , sel vb. doğal afetlerin yanı sıra top...",deprem sel vb doğal afetlerin yanı sıra top...,deprem sel vb doğal afetlerin yanı sıra toplum...
157,2020-10-23 21:50:44+03:00,@ibbhaberleri Osuruktan teyyare anketi yapıyor...,Osuruktan teyyare anketi yapıyor troll hesap...,Osuruktan teyyare anketi yapıyor troll hesap...,Osuruktan teyyare anketi yapıyor troll hesap...,osuruktan teyyare anketi yapıyor troll hesap ....,tr,osuruktan teyyare anketi yapıyor troll hesap ....,osuruktan teyyare anketi yapıyor troll hesap ...,osuruktan teyyare anketi yapıyor troll hesap s...
277,2020-10-24 01:27:00+03:00,@bikapiacildi Bilimsel bir gerçek sadece. Oras...,Bilimsel bir gerçek sadece. Orası 1513'ten b...,Bilimsel bir gerçek sadece. Orası 1513'ten b...,Bilimsel bir gerçek sadece. Orası 1513'ten b...,bilimsel bir gerçek sadece . orası 1513'ten be...,tr,bilimsel bir gerçek sadece . orası 1513'ten be...,bilimsel bir gerçek sadece orası 1513 ten be...,bilimsel bir gerçek sadece orası 1513 ten beri...
...,...,...,...,...,...,...,...,...,...,...
1508588,2021-09-30 11:33:35+03:00,İLAVE OLARAK\nsiyasal islam\ntarikatlar\ndin e...,İLAVE OLARAK\nsiyasal islam\ntarikatlar\ndin e...,İLAVE OLARAK\nsiyasal islam\ntarikatlar\ndin e...,İLAVE OLARAK\nsiyasal islam\ntarikatlar\ndin e...,ilave olarak siyasal islam tarikatlar din eğit...,tr,ilave olarak siyasal islam tarikatlar din eğit...,ilave olarak siyasal islam tarikatlar din eğit...,ilave olarak siyasal islam tarikatlar din eğit...
1508599,2021-09-30 11:45:21+03:00,#Deprem ve acil durumlarda iletişimin kesilmem...,#Deprem ve acil durumlarda iletişimin kesilmem...,#Deprem ve acil durumlarda iletişimin kesilmem...,#Deprem ve acil durumlarda iletişimin kesilmem...,#deprem ve acil durumlarda iletişimin kesilmem...,tr,ve acil durumlarda iletişimin kesilmemesi iç...,ve acil durumlarda iletişimin kesilmemesi iç...,ve acil durumlarda iletişimin kesilmemesi içi...
1508670,2021-09-30 13:39:16+03:00,@ynrzl @ekin_ozsoy İstanbulun en önemli sorunu...,İstanbulun en önemli sorunu deprem sonra t...,İstanbulun en önemli sorunu deprem sonra t...,İstanbulun en önemli sorunu deprem sonra t...,istanbulun en önemli sorunu deprem sonra trafi...,tr,istanbulun en önemli sorunu deprem sonra trafi...,istanbulun en önemli sorunu deprem sonra trafi...,istanbulun en önemli sorunu deprem sonra trafi...
1509182,2021-09-30 22:42:51+03:00,Bu hayatin ucaklarin acil cikis kapisinda otur...,Bu hayatin ucaklarin acil cikis kapisinda otur...,Bu hayatin ucaklarin acil cikis kapisinda otur...,Bu hayatin ucaklarin acil cikis kapisinda otur...,bu hayatın uçakların acil çıkış kapısında otur...,tr,bu hayatın uçakların acil çıkış kapısında otur...,bu hayatın uçakların acil çıkış kapısında otur...,bu hayatın uçakların acil çıkış kapısında otur...


# Strip numbers

In [14]:

tweets_df['processed8'] = tweets_df['processed7'].apply(gsp.strip_numeric)
tweets_df['processed8'].to_csv('processed8withoutnums.csv', header=False, index=False)
tweets_df

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  tweets_df['processed8'] = tweets_df['processed7'].apply(gsp.strip_numeric)


Unnamed: 0,Datetime,Text,processed1,processed2,processed3,processed4,languages,processed5,processed6,processed7,processed8
17,2020-10-23 17:50:59+03:00,"@baskanzorluoglu Başkanım, olası bir deprem iç...","Başkanım, olası bir deprem için trabzonda ac...","Başkanım, olası bir deprem için trabzonda ac...","Başkanım, olası bir deprem için trabzonda ac...","başkanım , olası bir deprem için trabzonda aci...",tr,"başkanım , olası bir deprem için trabzonda aci...",başkanım olası bir deprem için trabzonda aci...,başkanım olası bir deprem için trabzonda acil ...,başkanım olası bir deprem için trabzonda acil ...
68,2020-10-23 19:39:06+03:00,"Değerli arkadaşlar, nasıl ki ağır bir deprem b...","Değerli arkadaşlar, nasıl ki ağır bir deprem b...","Değerli arkadaşlar, nasıl ki ağır bir deprem b...","Değerli arkadaşlar, nasıl ki ağır bir deprem b...","değerli arkadaşlar , nasıl ki ağır bir deprem ...",tr,"değerli arkadaşlar , nasıl ki ağır bir deprem ...",değerli arkadaşlar nasıl ki ağır bir deprem ...,değerli arkadaşlar nasıl ki ağır bir deprem be...,değerli arkadaşlar nasıl ki ağır bir deprem be...
97,2020-10-23 20:20:29+03:00,"Deprem, sel vb. doğal afetlerin yanı sıra topl...","Deprem, sel vb. doğal afetlerin yanı sıra topl...","Deprem, sel vb. doğal afetlerin yanı sıra topl...","Deprem, sel vb. doğal afetlerin yanı sıra topl...","deprem , sel vb. doğal afetlerin yanı sıra top...",tr,"deprem , sel vb. doğal afetlerin yanı sıra top...",deprem sel vb doğal afetlerin yanı sıra top...,deprem sel vb doğal afetlerin yanı sıra toplum...,deprem sel vb doğal afetlerin yanı sıra toplum...
157,2020-10-23 21:50:44+03:00,@ibbhaberleri Osuruktan teyyare anketi yapıyor...,Osuruktan teyyare anketi yapıyor troll hesap...,Osuruktan teyyare anketi yapıyor troll hesap...,Osuruktan teyyare anketi yapıyor troll hesap...,osuruktan teyyare anketi yapıyor troll hesap ....,tr,osuruktan teyyare anketi yapıyor troll hesap ....,osuruktan teyyare anketi yapıyor troll hesap ...,osuruktan teyyare anketi yapıyor troll hesap s...,osuruktan teyyare anketi yapıyor troll hesap s...
277,2020-10-24 01:27:00+03:00,@bikapiacildi Bilimsel bir gerçek sadece. Oras...,Bilimsel bir gerçek sadece. Orası 1513'ten b...,Bilimsel bir gerçek sadece. Orası 1513'ten b...,Bilimsel bir gerçek sadece. Orası 1513'ten b...,bilimsel bir gerçek sadece . orası 1513'ten be...,tr,bilimsel bir gerçek sadece . orası 1513'ten be...,bilimsel bir gerçek sadece orası 1513 ten be...,bilimsel bir gerçek sadece orası 1513 ten beri...,bilimsel bir gerçek sadece orası ten beri büy...
...,...,...,...,...,...,...,...,...,...,...,...
1508588,2021-09-30 11:33:35+03:00,İLAVE OLARAK\nsiyasal islam\ntarikatlar\ndin e...,İLAVE OLARAK\nsiyasal islam\ntarikatlar\ndin e...,İLAVE OLARAK\nsiyasal islam\ntarikatlar\ndin e...,İLAVE OLARAK\nsiyasal islam\ntarikatlar\ndin e...,ilave olarak siyasal islam tarikatlar din eğit...,tr,ilave olarak siyasal islam tarikatlar din eğit...,ilave olarak siyasal islam tarikatlar din eğit...,ilave olarak siyasal islam tarikatlar din eğit...,ilave olarak siyasal islam tarikatlar din eğit...
1508599,2021-09-30 11:45:21+03:00,#Deprem ve acil durumlarda iletişimin kesilmem...,#Deprem ve acil durumlarda iletişimin kesilmem...,#Deprem ve acil durumlarda iletişimin kesilmem...,#Deprem ve acil durumlarda iletişimin kesilmem...,#deprem ve acil durumlarda iletişimin kesilmem...,tr,ve acil durumlarda iletişimin kesilmemesi iç...,ve acil durumlarda iletişimin kesilmemesi iç...,ve acil durumlarda iletişimin kesilmemesi içi...,ve acil durumlarda iletişimin kesilmemesi içi...
1508670,2021-09-30 13:39:16+03:00,@ynrzl @ekin_ozsoy İstanbulun en önemli sorunu...,İstanbulun en önemli sorunu deprem sonra t...,İstanbulun en önemli sorunu deprem sonra t...,İstanbulun en önemli sorunu deprem sonra t...,istanbulun en önemli sorunu deprem sonra trafi...,tr,istanbulun en önemli sorunu deprem sonra trafi...,istanbulun en önemli sorunu deprem sonra trafi...,istanbulun en önemli sorunu deprem sonra trafi...,istanbulun en önemli sorunu deprem sonra trafi...
1509182,2021-09-30 22:42:51+03:00,Bu hayatin ucaklarin acil cikis kapisinda otur...,Bu hayatin ucaklarin acil cikis kapisinda otur...,Bu hayatin ucaklarin acil cikis kapisinda otur...,Bu hayatin ucaklarin acil cikis kapisinda otur...,bu hayatın uçakların acil çıkış kapısında otur...,tr,bu hayatın uçakların acil çıkış kapısında otur...,bu hayatın uçakların acil çıkış kapısında otur...,bu hayatın uçakların acil çıkış kapısında otur...,bu hayatın uçakların acil çıkış kapısında otur...


# Correct accented turkish letters

In [15]:

def correct_old_characters(self):
    self = re.sub(r"Â", "A", self)
    self = re.sub(r"Î", "I", self)
    self = re.sub(r"î", "ı", self)
    self = re.sub(r"â", "a", self)
    self = re.sub(r"û", "u", self)
    self = re.sub(r"Û", "U", self) # for the rest use default lower
    return self

tweets_df['processed9'] = tweets_df['processed8'].apply(lambda x: correct_old_characters(x))
tweets_df['processed9'].to_csv('processed9withoutaccented.csv', header=False, index=False)
tweets_df

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  tweets_df['processed9'] = tweets_df['processed8'].apply(lambda x: correct_old_characters(x))


Unnamed: 0,Datetime,Text,processed1,processed2,processed3,processed4,languages,processed5,processed6,processed7,processed8,processed9
17,2020-10-23 17:50:59+03:00,"@baskanzorluoglu Başkanım, olası bir deprem iç...","Başkanım, olası bir deprem için trabzonda ac...","Başkanım, olası bir deprem için trabzonda ac...","Başkanım, olası bir deprem için trabzonda ac...","başkanım , olası bir deprem için trabzonda aci...",tr,"başkanım , olası bir deprem için trabzonda aci...",başkanım olası bir deprem için trabzonda aci...,başkanım olası bir deprem için trabzonda acil ...,başkanım olası bir deprem için trabzonda acil ...,başkanım olası bir deprem için trabzonda acil ...
68,2020-10-23 19:39:06+03:00,"Değerli arkadaşlar, nasıl ki ağır bir deprem b...","Değerli arkadaşlar, nasıl ki ağır bir deprem b...","Değerli arkadaşlar, nasıl ki ağır bir deprem b...","Değerli arkadaşlar, nasıl ki ağır bir deprem b...","değerli arkadaşlar , nasıl ki ağır bir deprem ...",tr,"değerli arkadaşlar , nasıl ki ağır bir deprem ...",değerli arkadaşlar nasıl ki ağır bir deprem ...,değerli arkadaşlar nasıl ki ağır bir deprem be...,değerli arkadaşlar nasıl ki ağır bir deprem be...,değerli arkadaşlar nasıl ki ağır bir deprem be...
97,2020-10-23 20:20:29+03:00,"Deprem, sel vb. doğal afetlerin yanı sıra topl...","Deprem, sel vb. doğal afetlerin yanı sıra topl...","Deprem, sel vb. doğal afetlerin yanı sıra topl...","Deprem, sel vb. doğal afetlerin yanı sıra topl...","deprem , sel vb. doğal afetlerin yanı sıra top...",tr,"deprem , sel vb. doğal afetlerin yanı sıra top...",deprem sel vb doğal afetlerin yanı sıra top...,deprem sel vb doğal afetlerin yanı sıra toplum...,deprem sel vb doğal afetlerin yanı sıra toplum...,deprem sel vb doğal afetlerin yanı sıra toplum...
157,2020-10-23 21:50:44+03:00,@ibbhaberleri Osuruktan teyyare anketi yapıyor...,Osuruktan teyyare anketi yapıyor troll hesap...,Osuruktan teyyare anketi yapıyor troll hesap...,Osuruktan teyyare anketi yapıyor troll hesap...,osuruktan teyyare anketi yapıyor troll hesap ....,tr,osuruktan teyyare anketi yapıyor troll hesap ....,osuruktan teyyare anketi yapıyor troll hesap ...,osuruktan teyyare anketi yapıyor troll hesap s...,osuruktan teyyare anketi yapıyor troll hesap s...,osuruktan teyyare anketi yapıyor troll hesap s...
277,2020-10-24 01:27:00+03:00,@bikapiacildi Bilimsel bir gerçek sadece. Oras...,Bilimsel bir gerçek sadece. Orası 1513'ten b...,Bilimsel bir gerçek sadece. Orası 1513'ten b...,Bilimsel bir gerçek sadece. Orası 1513'ten b...,bilimsel bir gerçek sadece . orası 1513'ten be...,tr,bilimsel bir gerçek sadece . orası 1513'ten be...,bilimsel bir gerçek sadece orası 1513 ten be...,bilimsel bir gerçek sadece orası 1513 ten beri...,bilimsel bir gerçek sadece orası ten beri büy...,bilimsel bir gerçek sadece orası ten beri büy...
...,...,...,...,...,...,...,...,...,...,...,...,...
1508588,2021-09-30 11:33:35+03:00,İLAVE OLARAK\nsiyasal islam\ntarikatlar\ndin e...,İLAVE OLARAK\nsiyasal islam\ntarikatlar\ndin e...,İLAVE OLARAK\nsiyasal islam\ntarikatlar\ndin e...,İLAVE OLARAK\nsiyasal islam\ntarikatlar\ndin e...,ilave olarak siyasal islam tarikatlar din eğit...,tr,ilave olarak siyasal islam tarikatlar din eğit...,ilave olarak siyasal islam tarikatlar din eğit...,ilave olarak siyasal islam tarikatlar din eğit...,ilave olarak siyasal islam tarikatlar din eğit...,ilave olarak siyasal islam tarikatlar din eğit...
1508599,2021-09-30 11:45:21+03:00,#Deprem ve acil durumlarda iletişimin kesilmem...,#Deprem ve acil durumlarda iletişimin kesilmem...,#Deprem ve acil durumlarda iletişimin kesilmem...,#Deprem ve acil durumlarda iletişimin kesilmem...,#deprem ve acil durumlarda iletişimin kesilmem...,tr,ve acil durumlarda iletişimin kesilmemesi iç...,ve acil durumlarda iletişimin kesilmemesi iç...,ve acil durumlarda iletişimin kesilmemesi içi...,ve acil durumlarda iletişimin kesilmemesi içi...,ve acil durumlarda iletişimin kesilmemesi içi...
1508670,2021-09-30 13:39:16+03:00,@ynrzl @ekin_ozsoy İstanbulun en önemli sorunu...,İstanbulun en önemli sorunu deprem sonra t...,İstanbulun en önemli sorunu deprem sonra t...,İstanbulun en önemli sorunu deprem sonra t...,istanbulun en önemli sorunu deprem sonra trafi...,tr,istanbulun en önemli sorunu deprem sonra trafi...,istanbulun en önemli sorunu deprem sonra trafi...,istanbulun en önemli sorunu deprem sonra trafi...,istanbulun en önemli sorunu deprem sonra trafi...,istanbulun en önemli sorunu deprem sonra trafi...
1509182,2021-09-30 22:42:51+03:00,Bu hayatin ucaklarin acil cikis kapisinda otur...,Bu hayatin ucaklarin acil cikis kapisinda otur...,Bu hayatin ucaklarin acil cikis kapisinda otur...,Bu hayatin ucaklarin acil cikis kapisinda otur...,bu hayatın uçakların acil çıkış kapısında otur...,tr,bu hayatın uçakların acil çıkış kapısında otur...,bu hayatın uçakların acil çıkış kapısında otur...,bu hayatın uçakların acil çıkış kapısında otur...,bu hayatın uçakların acil çıkış kapısında otur...,bu hayatın uçakların acil çıkış kapısında otur...


# Lower all characters including turkish

In [16]:

def lower(self):
    self = re.sub(r"İ", "i", self)
    self = re.sub(r"I", "ı", self)
    self = re.sub(r"Ç", "ç", self)
    self = re.sub(r"Ş", "ş", self)
    self = re.sub(r"Ü", "ü", self)
    self = re.sub(r"Ğ", "ğ", self)
    self = self.lower() # for the rest use default lower
    return self

tweets_df['processed10'] = tweets_df['processed9'].apply(lambda x: lower(x))
tweets_df['processed10'].to_csv('processed10lower.csv', header=False, index=False)
tweets_df

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  tweets_df['processed10'] = tweets_df['processed9'].apply(lambda x: lower(x))


Unnamed: 0,Datetime,Text,processed1,processed2,processed3,processed4,languages,processed5,processed6,processed7,processed8,processed9,processed10
17,2020-10-23 17:50:59+03:00,"@baskanzorluoglu Başkanım, olası bir deprem iç...","Başkanım, olası bir deprem için trabzonda ac...","Başkanım, olası bir deprem için trabzonda ac...","Başkanım, olası bir deprem için trabzonda ac...","başkanım , olası bir deprem için trabzonda aci...",tr,"başkanım , olası bir deprem için trabzonda aci...",başkanım olası bir deprem için trabzonda aci...,başkanım olası bir deprem için trabzonda acil ...,başkanım olası bir deprem için trabzonda acil ...,başkanım olası bir deprem için trabzonda acil ...,başkanım olası bir deprem için trabzonda acil ...
68,2020-10-23 19:39:06+03:00,"Değerli arkadaşlar, nasıl ki ağır bir deprem b...","Değerli arkadaşlar, nasıl ki ağır bir deprem b...","Değerli arkadaşlar, nasıl ki ağır bir deprem b...","Değerli arkadaşlar, nasıl ki ağır bir deprem b...","değerli arkadaşlar , nasıl ki ağır bir deprem ...",tr,"değerli arkadaşlar , nasıl ki ağır bir deprem ...",değerli arkadaşlar nasıl ki ağır bir deprem ...,değerli arkadaşlar nasıl ki ağır bir deprem be...,değerli arkadaşlar nasıl ki ağır bir deprem be...,değerli arkadaşlar nasıl ki ağır bir deprem be...,değerli arkadaşlar nasıl ki ağır bir deprem be...
97,2020-10-23 20:20:29+03:00,"Deprem, sel vb. doğal afetlerin yanı sıra topl...","Deprem, sel vb. doğal afetlerin yanı sıra topl...","Deprem, sel vb. doğal afetlerin yanı sıra topl...","Deprem, sel vb. doğal afetlerin yanı sıra topl...","deprem , sel vb. doğal afetlerin yanı sıra top...",tr,"deprem , sel vb. doğal afetlerin yanı sıra top...",deprem sel vb doğal afetlerin yanı sıra top...,deprem sel vb doğal afetlerin yanı sıra toplum...,deprem sel vb doğal afetlerin yanı sıra toplum...,deprem sel vb doğal afetlerin yanı sıra toplum...,deprem sel vb doğal afetlerin yanı sıra toplum...
157,2020-10-23 21:50:44+03:00,@ibbhaberleri Osuruktan teyyare anketi yapıyor...,Osuruktan teyyare anketi yapıyor troll hesap...,Osuruktan teyyare anketi yapıyor troll hesap...,Osuruktan teyyare anketi yapıyor troll hesap...,osuruktan teyyare anketi yapıyor troll hesap ....,tr,osuruktan teyyare anketi yapıyor troll hesap ....,osuruktan teyyare anketi yapıyor troll hesap ...,osuruktan teyyare anketi yapıyor troll hesap s...,osuruktan teyyare anketi yapıyor troll hesap s...,osuruktan teyyare anketi yapıyor troll hesap s...,osuruktan teyyare anketi yapıyor troll hesap s...
277,2020-10-24 01:27:00+03:00,@bikapiacildi Bilimsel bir gerçek sadece. Oras...,Bilimsel bir gerçek sadece. Orası 1513'ten b...,Bilimsel bir gerçek sadece. Orası 1513'ten b...,Bilimsel bir gerçek sadece. Orası 1513'ten b...,bilimsel bir gerçek sadece . orası 1513'ten be...,tr,bilimsel bir gerçek sadece . orası 1513'ten be...,bilimsel bir gerçek sadece orası 1513 ten be...,bilimsel bir gerçek sadece orası 1513 ten beri...,bilimsel bir gerçek sadece orası ten beri büy...,bilimsel bir gerçek sadece orası ten beri büy...,bilimsel bir gerçek sadece orası ten beri büy...
...,...,...,...,...,...,...,...,...,...,...,...,...,...
1508588,2021-09-30 11:33:35+03:00,İLAVE OLARAK\nsiyasal islam\ntarikatlar\ndin e...,İLAVE OLARAK\nsiyasal islam\ntarikatlar\ndin e...,İLAVE OLARAK\nsiyasal islam\ntarikatlar\ndin e...,İLAVE OLARAK\nsiyasal islam\ntarikatlar\ndin e...,ilave olarak siyasal islam tarikatlar din eğit...,tr,ilave olarak siyasal islam tarikatlar din eğit...,ilave olarak siyasal islam tarikatlar din eğit...,ilave olarak siyasal islam tarikatlar din eğit...,ilave olarak siyasal islam tarikatlar din eğit...,ilave olarak siyasal islam tarikatlar din eğit...,ilave olarak siyasal islam tarikatlar din eğit...
1508599,2021-09-30 11:45:21+03:00,#Deprem ve acil durumlarda iletişimin kesilmem...,#Deprem ve acil durumlarda iletişimin kesilmem...,#Deprem ve acil durumlarda iletişimin kesilmem...,#Deprem ve acil durumlarda iletişimin kesilmem...,#deprem ve acil durumlarda iletişimin kesilmem...,tr,ve acil durumlarda iletişimin kesilmemesi iç...,ve acil durumlarda iletişimin kesilmemesi iç...,ve acil durumlarda iletişimin kesilmemesi içi...,ve acil durumlarda iletişimin kesilmemesi içi...,ve acil durumlarda iletişimin kesilmemesi içi...,ve acil durumlarda iletişimin kesilmemesi içi...
1508670,2021-09-30 13:39:16+03:00,@ynrzl @ekin_ozsoy İstanbulun en önemli sorunu...,İstanbulun en önemli sorunu deprem sonra t...,İstanbulun en önemli sorunu deprem sonra t...,İstanbulun en önemli sorunu deprem sonra t...,istanbulun en önemli sorunu deprem sonra trafi...,tr,istanbulun en önemli sorunu deprem sonra trafi...,istanbulun en önemli sorunu deprem sonra trafi...,istanbulun en önemli sorunu deprem sonra trafi...,istanbulun en önemli sorunu deprem sonra trafi...,istanbulun en önemli sorunu deprem sonra trafi...,istanbulun en önemli sorunu deprem sonra trafi...
1509182,2021-09-30 22:42:51+03:00,Bu hayatin ucaklarin acil cikis kapisinda otur...,Bu hayatin ucaklarin acil cikis kapisinda otur...,Bu hayatin ucaklarin acil cikis kapisinda otur...,Bu hayatin ucaklarin acil cikis kapisinda otur...,bu hayatın uçakların acil çıkış kapısında otur...,tr,bu hayatın uçakların acil çıkış kapısında otur...,bu hayatın uçakların acil çıkış kapısında otur...,bu hayatın uçakların acil çıkış kapısında otur...,bu hayatın uçakların acil çıkış kapısında otur...,bu hayatın uçakların acil çıkış kapısında otur...,bu hayatın uçakların acil çıkış kapısında otur...


# Remove all non-turkish characters

In [17]:

whitelist = set('abcçdefgğhıijklmnoöpqrsştuüvwxyz ABCÇDEFGĞHIİJKLMNOÖPQRSŞTUÜVWXYZ')

tweets_df['processed11'] = tweets_df['processed10'].apply(lambda x: ''.join(filter(whitelist.__contains__, x)))
tweets_df['processed11'].to_csv('processed11withoutnonturkish.csv', header=False, index=False)
tweets_df

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  tweets_df['processed11'] = tweets_df['processed10'].apply(lambda x: ''.join(filter(whitelist.__contains__, x)))


Unnamed: 0,Datetime,Text,processed1,processed2,processed3,processed4,languages,processed5,processed6,processed7,processed8,processed9,processed10,processed11
17,2020-10-23 17:50:59+03:00,"@baskanzorluoglu Başkanım, olası bir deprem iç...","Başkanım, olası bir deprem için trabzonda ac...","Başkanım, olası bir deprem için trabzonda ac...","Başkanım, olası bir deprem için trabzonda ac...","başkanım , olası bir deprem için trabzonda aci...",tr,"başkanım , olası bir deprem için trabzonda aci...",başkanım olası bir deprem için trabzonda aci...,başkanım olası bir deprem için trabzonda acil ...,başkanım olası bir deprem için trabzonda acil ...,başkanım olası bir deprem için trabzonda acil ...,başkanım olası bir deprem için trabzonda acil ...,başkanım olası bir deprem için trabzonda acil ...
68,2020-10-23 19:39:06+03:00,"Değerli arkadaşlar, nasıl ki ağır bir deprem b...","Değerli arkadaşlar, nasıl ki ağır bir deprem b...","Değerli arkadaşlar, nasıl ki ağır bir deprem b...","Değerli arkadaşlar, nasıl ki ağır bir deprem b...","değerli arkadaşlar , nasıl ki ağır bir deprem ...",tr,"değerli arkadaşlar , nasıl ki ağır bir deprem ...",değerli arkadaşlar nasıl ki ağır bir deprem ...,değerli arkadaşlar nasıl ki ağır bir deprem be...,değerli arkadaşlar nasıl ki ağır bir deprem be...,değerli arkadaşlar nasıl ki ağır bir deprem be...,değerli arkadaşlar nasıl ki ağır bir deprem be...,değerli arkadaşlar nasıl ki ağır bir deprem be...
97,2020-10-23 20:20:29+03:00,"Deprem, sel vb. doğal afetlerin yanı sıra topl...","Deprem, sel vb. doğal afetlerin yanı sıra topl...","Deprem, sel vb. doğal afetlerin yanı sıra topl...","Deprem, sel vb. doğal afetlerin yanı sıra topl...","deprem , sel vb. doğal afetlerin yanı sıra top...",tr,"deprem , sel vb. doğal afetlerin yanı sıra top...",deprem sel vb doğal afetlerin yanı sıra top...,deprem sel vb doğal afetlerin yanı sıra toplum...,deprem sel vb doğal afetlerin yanı sıra toplum...,deprem sel vb doğal afetlerin yanı sıra toplum...,deprem sel vb doğal afetlerin yanı sıra toplum...,deprem sel vb doğal afetlerin yanı sıra toplum...
157,2020-10-23 21:50:44+03:00,@ibbhaberleri Osuruktan teyyare anketi yapıyor...,Osuruktan teyyare anketi yapıyor troll hesap...,Osuruktan teyyare anketi yapıyor troll hesap...,Osuruktan teyyare anketi yapıyor troll hesap...,osuruktan teyyare anketi yapıyor troll hesap ....,tr,osuruktan teyyare anketi yapıyor troll hesap ....,osuruktan teyyare anketi yapıyor troll hesap ...,osuruktan teyyare anketi yapıyor troll hesap s...,osuruktan teyyare anketi yapıyor troll hesap s...,osuruktan teyyare anketi yapıyor troll hesap s...,osuruktan teyyare anketi yapıyor troll hesap s...,osuruktan teyyare anketi yapıyor troll hesap s...
277,2020-10-24 01:27:00+03:00,@bikapiacildi Bilimsel bir gerçek sadece. Oras...,Bilimsel bir gerçek sadece. Orası 1513'ten b...,Bilimsel bir gerçek sadece. Orası 1513'ten b...,Bilimsel bir gerçek sadece. Orası 1513'ten b...,bilimsel bir gerçek sadece . orası 1513'ten be...,tr,bilimsel bir gerçek sadece . orası 1513'ten be...,bilimsel bir gerçek sadece orası 1513 ten be...,bilimsel bir gerçek sadece orası 1513 ten beri...,bilimsel bir gerçek sadece orası ten beri büy...,bilimsel bir gerçek sadece orası ten beri büy...,bilimsel bir gerçek sadece orası ten beri büy...,bilimsel bir gerçek sadece orası ten beri büy...
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1508588,2021-09-30 11:33:35+03:00,İLAVE OLARAK\nsiyasal islam\ntarikatlar\ndin e...,İLAVE OLARAK\nsiyasal islam\ntarikatlar\ndin e...,İLAVE OLARAK\nsiyasal islam\ntarikatlar\ndin e...,İLAVE OLARAK\nsiyasal islam\ntarikatlar\ndin e...,ilave olarak siyasal islam tarikatlar din eğit...,tr,ilave olarak siyasal islam tarikatlar din eğit...,ilave olarak siyasal islam tarikatlar din eğit...,ilave olarak siyasal islam tarikatlar din eğit...,ilave olarak siyasal islam tarikatlar din eğit...,ilave olarak siyasal islam tarikatlar din eğit...,ilave olarak siyasal islam tarikatlar din eğit...,ilave olarak siyasal islam tarikatlar din eğit...
1508599,2021-09-30 11:45:21+03:00,#Deprem ve acil durumlarda iletişimin kesilmem...,#Deprem ve acil durumlarda iletişimin kesilmem...,#Deprem ve acil durumlarda iletişimin kesilmem...,#Deprem ve acil durumlarda iletişimin kesilmem...,#deprem ve acil durumlarda iletişimin kesilmem...,tr,ve acil durumlarda iletişimin kesilmemesi iç...,ve acil durumlarda iletişimin kesilmemesi iç...,ve acil durumlarda iletişimin kesilmemesi içi...,ve acil durumlarda iletişimin kesilmemesi içi...,ve acil durumlarda iletişimin kesilmemesi içi...,ve acil durumlarda iletişimin kesilmemesi içi...,ve acil durumlarda iletişimin kesilmemesi içi...
1508670,2021-09-30 13:39:16+03:00,@ynrzl @ekin_ozsoy İstanbulun en önemli sorunu...,İstanbulun en önemli sorunu deprem sonra t...,İstanbulun en önemli sorunu deprem sonra t...,İstanbulun en önemli sorunu deprem sonra t...,istanbulun en önemli sorunu deprem sonra trafi...,tr,istanbulun en önemli sorunu deprem sonra trafi...,istanbulun en önemli sorunu deprem sonra trafi...,istanbulun en önemli sorunu deprem sonra trafi...,istanbulun en önemli sorunu deprem sonra trafi...,istanbulun en önemli sorunu deprem sonra trafi...,istanbulun en önemli sorunu deprem sonra trafi...,istanbulun en önemli sorunu deprem sonra trafi...
1509182,2021-09-30 22:42:51+03:00,Bu hayatin ucaklarin acil cikis kapisinda otur...,Bu hayatin ucaklarin acil cikis kapisinda otur...,Bu hayatin ucaklarin acil cikis kapisinda otur...,Bu hayatin ucaklarin acil cikis kapisinda otur...,bu hayatın uçakların acil çıkış kapısında otur...,tr,bu hayatın uçakların acil çıkış kapısında otur...,bu hayatın uçakların acil çıkış kapısında otur...,bu hayatın uçakların acil çıkış kapısında otur...,bu hayatın uçakların acil çıkış kapısında otur...,bu hayatın uçakların acil çıkış kapısında otur...,bu hayatın uçakların acil çıkış kapısında otur...,bu hayatın uçakların acil çıkış kapısında otur...


# Remove short words

In [18]:

tweets_df['processed12'] = tweets_df['processed11'].apply(gsp.strip_short)
tweets_df['processed12'].to_csv('processed12withoutshorts.csv', header=False, index=False)
tweets_df

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  tweets_df['processed12'] = tweets_df['processed11'].apply(gsp.strip_short)


Unnamed: 0,Datetime,Text,processed1,processed2,processed3,processed4,languages,processed5,processed6,processed7,processed8,processed9,processed10,processed11,processed12
17,2020-10-23 17:50:59+03:00,"@baskanzorluoglu Başkanım, olası bir deprem iç...","Başkanım, olası bir deprem için trabzonda ac...","Başkanım, olası bir deprem için trabzonda ac...","Başkanım, olası bir deprem için trabzonda ac...","başkanım , olası bir deprem için trabzonda aci...",tr,"başkanım , olası bir deprem için trabzonda aci...",başkanım olası bir deprem için trabzonda aci...,başkanım olası bir deprem için trabzonda acil ...,başkanım olası bir deprem için trabzonda acil ...,başkanım olası bir deprem için trabzonda acil ...,başkanım olası bir deprem için trabzonda acil ...,başkanım olası bir deprem için trabzonda acil ...,başkanım olası bir deprem için trabzonda acil ...
68,2020-10-23 19:39:06+03:00,"Değerli arkadaşlar, nasıl ki ağır bir deprem b...","Değerli arkadaşlar, nasıl ki ağır bir deprem b...","Değerli arkadaşlar, nasıl ki ağır bir deprem b...","Değerli arkadaşlar, nasıl ki ağır bir deprem b...","değerli arkadaşlar , nasıl ki ağır bir deprem ...",tr,"değerli arkadaşlar , nasıl ki ağır bir deprem ...",değerli arkadaşlar nasıl ki ağır bir deprem ...,değerli arkadaşlar nasıl ki ağır bir deprem be...,değerli arkadaşlar nasıl ki ağır bir deprem be...,değerli arkadaşlar nasıl ki ağır bir deprem be...,değerli arkadaşlar nasıl ki ağır bir deprem be...,değerli arkadaşlar nasıl ki ağır bir deprem be...,değerli arkadaşlar nasıl ağır bir deprem bekle...
97,2020-10-23 20:20:29+03:00,"Deprem, sel vb. doğal afetlerin yanı sıra topl...","Deprem, sel vb. doğal afetlerin yanı sıra topl...","Deprem, sel vb. doğal afetlerin yanı sıra topl...","Deprem, sel vb. doğal afetlerin yanı sıra topl...","deprem , sel vb. doğal afetlerin yanı sıra top...",tr,"deprem , sel vb. doğal afetlerin yanı sıra top...",deprem sel vb doğal afetlerin yanı sıra top...,deprem sel vb doğal afetlerin yanı sıra toplum...,deprem sel vb doğal afetlerin yanı sıra toplum...,deprem sel vb doğal afetlerin yanı sıra toplum...,deprem sel vb doğal afetlerin yanı sıra toplum...,deprem sel vb doğal afetlerin yanı sıra toplum...,deprem sel doğal afetlerin yanı sıra toplumsal...
157,2020-10-23 21:50:44+03:00,@ibbhaberleri Osuruktan teyyare anketi yapıyor...,Osuruktan teyyare anketi yapıyor troll hesap...,Osuruktan teyyare anketi yapıyor troll hesap...,Osuruktan teyyare anketi yapıyor troll hesap...,osuruktan teyyare anketi yapıyor troll hesap ....,tr,osuruktan teyyare anketi yapıyor troll hesap ....,osuruktan teyyare anketi yapıyor troll hesap ...,osuruktan teyyare anketi yapıyor troll hesap s...,osuruktan teyyare anketi yapıyor troll hesap s...,osuruktan teyyare anketi yapıyor troll hesap s...,osuruktan teyyare anketi yapıyor troll hesap s...,osuruktan teyyare anketi yapıyor troll hesap s...,osuruktan teyyare anketi yapıyor troll hesap s...
277,2020-10-24 01:27:00+03:00,@bikapiacildi Bilimsel bir gerçek sadece. Oras...,Bilimsel bir gerçek sadece. Orası 1513'ten b...,Bilimsel bir gerçek sadece. Orası 1513'ten b...,Bilimsel bir gerçek sadece. Orası 1513'ten b...,bilimsel bir gerçek sadece . orası 1513'ten be...,tr,bilimsel bir gerçek sadece . orası 1513'ten be...,bilimsel bir gerçek sadece orası 1513 ten be...,bilimsel bir gerçek sadece orası 1513 ten beri...,bilimsel bir gerçek sadece orası ten beri büy...,bilimsel bir gerçek sadece orası ten beri büy...,bilimsel bir gerçek sadece orası ten beri büy...,bilimsel bir gerçek sadece orası ten beri büy...,bilimsel bir gerçek sadece orası ten beri büyü...
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1508588,2021-09-30 11:33:35+03:00,İLAVE OLARAK\nsiyasal islam\ntarikatlar\ndin e...,İLAVE OLARAK\nsiyasal islam\ntarikatlar\ndin e...,İLAVE OLARAK\nsiyasal islam\ntarikatlar\ndin e...,İLAVE OLARAK\nsiyasal islam\ntarikatlar\ndin e...,ilave olarak siyasal islam tarikatlar din eğit...,tr,ilave olarak siyasal islam tarikatlar din eğit...,ilave olarak siyasal islam tarikatlar din eğit...,ilave olarak siyasal islam tarikatlar din eğit...,ilave olarak siyasal islam tarikatlar din eğit...,ilave olarak siyasal islam tarikatlar din eğit...,ilave olarak siyasal islam tarikatlar din eğit...,ilave olarak siyasal islam tarikatlar din eğit...,ilave olarak siyasal islam tarikatlar din eğit...
1508599,2021-09-30 11:45:21+03:00,#Deprem ve acil durumlarda iletişimin kesilmem...,#Deprem ve acil durumlarda iletişimin kesilmem...,#Deprem ve acil durumlarda iletişimin kesilmem...,#Deprem ve acil durumlarda iletişimin kesilmem...,#deprem ve acil durumlarda iletişimin kesilmem...,tr,ve acil durumlarda iletişimin kesilmemesi iç...,ve acil durumlarda iletişimin kesilmemesi iç...,ve acil durumlarda iletişimin kesilmemesi içi...,ve acil durumlarda iletişimin kesilmemesi içi...,ve acil durumlarda iletişimin kesilmemesi içi...,ve acil durumlarda iletişimin kesilmemesi içi...,ve acil durumlarda iletişimin kesilmemesi içi...,acil durumlarda iletişimin kesilmemesi için in...
1508670,2021-09-30 13:39:16+03:00,@ynrzl @ekin_ozsoy İstanbulun en önemli sorunu...,İstanbulun en önemli sorunu deprem sonra t...,İstanbulun en önemli sorunu deprem sonra t...,İstanbulun en önemli sorunu deprem sonra t...,istanbulun en önemli sorunu deprem sonra trafi...,tr,istanbulun en önemli sorunu deprem sonra trafi...,istanbulun en önemli sorunu deprem sonra trafi...,istanbulun en önemli sorunu deprem sonra trafi...,istanbulun en önemli sorunu deprem sonra trafi...,istanbulun en önemli sorunu deprem sonra trafi...,istanbulun en önemli sorunu deprem sonra trafi...,istanbulun en önemli sorunu deprem sonra trafi...,istanbulun önemli sorunu deprem sonra trafik i...
1509182,2021-09-30 22:42:51+03:00,Bu hayatin ucaklarin acil cikis kapisinda otur...,Bu hayatin ucaklarin acil cikis kapisinda otur...,Bu hayatin ucaklarin acil cikis kapisinda otur...,Bu hayatin ucaklarin acil cikis kapisinda otur...,bu hayatın uçakların acil çıkış kapısında otur...,tr,bu hayatın uçakların acil çıkış kapısında otur...,bu hayatın uçakların acil çıkış kapısında otur...,bu hayatın uçakların acil çıkış kapısında otur...,bu hayatın uçakların acil çıkış kapısında otur...,bu hayatın uçakların acil çıkış kapısında otur...,bu hayatın uçakların acil çıkış kapısında otur...,bu hayatın uçakların acil çıkış kapısında otur...,hayatın uçakların acil çıkış kapısında oturan ...


# Remove stop words

In [21]:
##

import nltk
nltk.download('punkt')

def remove_stopwords(text): 
    stop_words = ['çok', 'at', 'in', 'im', 'acaba','acep','allah','adamakıllı','adeta','ait','altmýþ',
                               'altmış','altý',
                  'altı','ama',
                       'amma','anca','ancak','arada','artýk','aslında','aynen','ayrıca','az','açıkça','açıkçası',
                       'bana','bari','bazen','bazý','bazı','başkası','baţka','belki','ben','benden','beni','benim',
                       'beri','beriki','beþ','beş','beţ','bilcümle','bile','bin','binaen','binaenaleyh','bir','biraz',
                       'birazdan','birbiri','birden','birdenbire','biri','birice','birileri','birisi','birkaç',
                       'birkaçı','birkez','birlikte','birçok','birçoğu','birþey','birþeyi','birşey','birşeyi','birţey',
                       'bitevi','biteviye','bittabi','biz','bizatihi','bizce','bizcileyin','bizden','bize','bizi','bizim',
                       'bizimki','bizzat','boşuna','bu','buna','bunda','bundan','bunlar','bunları','bunların','bunu','bunun',
                       'buracıkta','burada','buradan','burası','böyle','böylece','böylecene','böylelikle','böylemesine',
                       'böylesine','büsbütün','bütün','cuk','cümlesi','da','daha','dahi','dahil','dahilen','daima','dair',
                       'dayanarak','de','defa','dek','demin','demincek','deminden','denli','derakap','derhal','derken',
                       'deđil','değil','değin','diye','diđer','diğer','diğeri','doksan','dokuz','dolayı','dolayısıyla',
                       'doğru','dört','edecek','eden','ederek','edilecek','ediliyor','edilmesi','ediyor','elbet',
                       'elbette','elli','emme','en','enikonu','epey','epeyce','epeyi','esasen','esnasında','etmesi',
                       'etraflı','etraflıca','etti','ettiği','ettiğini','evleviyetle','evvel','evvela','evvelce',
                       'evvelden','evvelemirde','evveli','eđer','eğer','fakat','filanca','gah','gayet','gayetle','gayri',
                       'gayrı','gelgelelim','gene','gerek','gerçi','geçende','geçenlerde','gibi','gibilerden','gibisinden',
                       'gine','göre','gırla','hakeza','halbuki','halen','halihazırda','haliyle','handiyse','hangi','hangisi',
                       'hani','hariç','hasebiyle','hasılı','hatta','hele','hem','henüz','hep','hepsi','her',
                       'herhangi','herkes','herkesin','hiç','hiçbir','hiçbiri','hoş','hulasaten','iken','iki',
                       'ila','ile','ilen','ilgili','ilk','illa','illaki','imdi','indinde','inen','insermi','ise',
                       'ister','itibaren','itibariyle','itibarıyla','iyi','iyice','iyicene','için','iş','işte',
                       'iţte','kadar','kaffesi','kah','kala','kanýmca','karşın','katrilyon','kaynak','kaçı','kelli',
                       'kendi','kendilerine','kendini','kendisi','kendisine','kendisini','kere','kez','keza','kezalik',
                       'keşke','keţke','ki','kim','kimden','kime','kimi','kimisi','kimse','kimsecik','kimsecikler',
                       'külliyen','kýrk','kýsaca','kırk','kısaca','lakin','leh','lütfen','maada','madem','mademki',
                       'mamafih','mebni','međer','meğer','meğerki','meğerse','milyar','milyon','mu','mü','mý','mı',
                       'nasýl','nasıl','nasılsa','nazaran','naşi','ne','neden','nedeniyle','nedenle','nedense',
                       'nerde','nerden','nerdeyse','nere','nerede','nereden','neredeyse','neresi','nereye',
                       'netekim','neye','neyi','neyse','nice','nihayet','nihayetinde','nitekim','niye','niçin',
                       'o','olan','olarak','oldu','olduklarını','oldukça','olduğu','olduğunu','olmadı',
                       'olmadığı','olmak','olması','olmayan','olmaz','olsa','olsun','olup','olur','olursa','oluyor',
                       'on','ona','onca','onculayın','onda','ondan','onlar','onlardan','onlari','onlarýn','onları',
                       'onların','onu','onun','oracık','oracıkta','orada','oradan','oranca','oranla','oraya','otuz',
                       'oysa','oysaki','pek','pekala','peki','pekçe','peyderpey','rağmen','sadece','sahi','sahiden',
                       'sana','sanki','sekiz','seksen','sen','senden','seni','senin','siz','sizden','sizi','sizin',
                       'sonra','sonradan','sonraları','sonunda','tabii','tam','tamam','tamamen','tamamıyla','tarafından',
                       'tek','trilyon','tüm','var','vardı','vasıtasıyla','ve','velev','velhasıl','velhasılıkelam','veya',
                       'veyahut','ya','yahut','yakinen','yakında','yakından','yakınlarda','yalnız','yalnızca','yani',
                       'yapacak','yapmak','yaptı','yaptıkları','yaptığı','yaptığını','yapılan','yapılması','yapıyor',
                       'yedi','yeniden','yenilerde','yerine','yetmiþ','yetmiş','yetmiţ','yine','yirmi','yok','yoksa',
                       'yoluyla','yüz','yüzünden','zarfında','zaten','zati','zira','çabuk','çabukça','çeşitli',
                       'çok','çokları','çoklarınca','çokluk','çoklukla','çokça','çoğu','çoğun','çoğunca','çoğunlukla',
                       'çünkü','öbür','öbürkü','öbürü','önce','önceden','önceleri','öncelikle','öteki','ötekisi','öyle',
                       'öylece','öylelikle','öylemesine','öz','üzere','üç','þey','þeyden','þeyi','þeyler','þu','þuna',
                       'þunda','þundan','þunu','şayet','şey','şeyden','şeyi','şeyler','şu','şuna','şuncacık','şunda',
                       'şundan','şunlar','şunları','şunu','şunun','şura','şuracık','şuracıkta','şurası','şöyle',
                       'ţayet','ţimdi','ţu','ţöyle', 'hala', 'yer', 'güzel', 'büyük']
    stop_words = ['a','acaba','altı','altmış','ama','ancak','arada','artık','asla','aslında','aslında','ayrıca',
                  'az','bana','bazen','bazı','bazıları','belki','ben','benden','beni','benim','beri','beş',
                  'bile','bilhassa','bin','bir','biraz','birçoğu','birçok','biri','birisi','birkaç','birşey',
                  'biz','bizden','bize','bizi','bizim','böyle','böylece','bu','buna','bunda','bundan','bunlar',
                  'bunları','bunların','bunu','bunun','burada','bütün','çoğu','çoğunu','çok','çünkü','da',
                  'daha','dahi','dan','de','defa','değil','diğer','diğeri','diğerleri','diye','doksan','dokuz',
                  'dolayı','dolayısıyla','dört','e','edecek','eden','ederek','edilecek','ediliyor','edilmesi',
                  'ediyor','eğer','elbette','elli','en','etmesi','etti','ettiği','ettiğini','fakat','falan',
                  'filan','gene','gereği','gerek','gibi','göre','hala','halde','halen','hangi','hangisi',
                  'hani','hatta','hem','henüz','hep','hepsi','her','herhangi','herkes','herkese','herkesi',
                  'herkesin','hiç','hiçbir','hiçbiri','i','ı','için','içinde','iki','ile','ilgili','ise',
                  'işte','itibaren','itibariyle','kaç','kadar','karşın','kendi','kendilerine','kendine',
                  'kendini','kendisi','kendisine','kendisini','kez','ki','kim','kime','kimi','kimin',
                  'kimisi','kimse','kırk','madem','mi','mı','milyar','milyon','mu','mü','nasıl','ne',
                  'neden','nedenle','nerde','nerede','nereye','neyse','niçin','nin','nın','niye','nun',
                  'nün','o','öbür','olan','olarak','oldu','olduğu','olduğunu','olduklarını','olmadı',
                  'olmadığı','olmak','olması','olmayan','olmaz','olsa','olsun','olup','olur','olur','olursa',
                  'oluyor','on','ön','ona','önce','ondan','onlar','onlara','onlardan','onları','onların',
                  'onu','onun','orada','öte','ötürü','otuz','öyle','oysa','pek','rağmen','sana','sanki',
                  'sanki','şayet','şekilde','sekiz','seksen','sen','senden','seni','senin','şey','şeyden',
                  'şeye','şeyi','şeyler','şimdi','siz','siz','sizden','sizden','size','sizi','sizi',
                  'sizin','sizin','sonra','şöyle','şu','şuna','şunları','şunu','ta','tabii','tam',
                  'tamam','tamamen','tarafından','trilyon','tüm','tümü','u','ü','üç','un','ün','üzere',
                  'var','vardı','ve','veya','ya','yani','yapacak','yapılan','yapılması','yapıyor','yapmak',
                  'yaptı','yaptığı','yaptığını','yaptıkları','ye','yedi','yerine','yetmiş','yi','yı','yine',
                  'yirmi','yoksa','yu','yüz','zaten','zira','zxtest']
    
    stop_words = ['acaba', 'ama', 'aslında', 'az', 'bazı', 'belki', 'biri', 'bir', 'birkaç', 'birşey', 'biz',
                  'bu', 'çok', 'çünkü', 'da', 'daha', 'de', 'den', 'defa', 'diye', 'eğer', 'en', 'gibi', 'hem',
                  'hep', 'hepsi', 'her', 'hiç', 'için', 'ile', 'ise', 'kez', 'ki', 'kim', 'mı', 'mu', 'mü',
                  'nasıl', 'ne', 'neden', 'nerde', 'nerede', 'nereye', 'niçin', 'niye', 'o', 'sanki', 'şey',
                  'siz', 'şu', 'tüm', 've', 'veya', 'ya', 'yani', 'dan']
    word_tokens = nltk.word_tokenize(text) 
    filtered_text = [word for word in word_tokens if word not in stop_words] 
    return ' '.join(filtered_text)

tweets_df['processed13'] = tweets_df['processed12'].apply(remove_stopwords)
tweets_df['processed13'].to_csv('processed13withoutstops.csv', header=False, index=False)
tweets_df

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\ali\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  tweets_df['processed13'] = tweets_df['processed12'].apply(remove_stopwords)


Unnamed: 0,Datetime,Text,processed1,processed2,processed3,processed4,languages,processed5,processed6,processed7,processed8,processed9,processed10,processed11,processed12,processed13,processed14
17,2020-10-23 17:50:59+03:00,"@baskanzorluoglu Başkanım, olası bir deprem iç...","Başkanım, olası bir deprem için trabzonda ac...","Başkanım, olası bir deprem için trabzonda ac...","Başkanım, olası bir deprem için trabzonda ac...","başkanım , olası bir deprem için trabzonda aci...",tr,"başkanım , olası bir deprem için trabzonda aci...",başkanım olası bir deprem için trabzonda aci...,başkanım olası bir deprem için trabzonda acil ...,başkanım olası bir deprem için trabzonda acil ...,başkanım olası bir deprem için trabzonda acil ...,başkanım olası bir deprem için trabzonda acil ...,başkanım olası bir deprem için trabzonda acil ...,başkanım olası bir deprem için trabzonda acil ...,başkanım olası deprem trabzonda acil toplanma ...,başkan olası deprem trabzon acil topla alan ne...
68,2020-10-23 19:39:06+03:00,"Değerli arkadaşlar, nasıl ki ağır bir deprem b...","Değerli arkadaşlar, nasıl ki ağır bir deprem b...","Değerli arkadaşlar, nasıl ki ağır bir deprem b...","Değerli arkadaşlar, nasıl ki ağır bir deprem b...","değerli arkadaşlar , nasıl ki ağır bir deprem ...",tr,"değerli arkadaşlar , nasıl ki ağır bir deprem ...",değerli arkadaşlar nasıl ki ağır bir deprem ...,değerli arkadaşlar nasıl ki ağır bir deprem be...,değerli arkadaşlar nasıl ki ağır bir deprem be...,değerli arkadaşlar nasıl ki ağır bir deprem be...,değerli arkadaşlar nasıl ki ağır bir deprem be...,değerli arkadaşlar nasıl ki ağır bir deprem be...,değerli arkadaşlar nasıl ağır bir deprem bekle...,değerli arkadaşlar ağır deprem beklentisi içer...,değer arkadaş ağır deprem beklenti içeri ol şe...
97,2020-10-23 20:20:29+03:00,"Deprem, sel vb. doğal afetlerin yanı sıra topl...","Deprem, sel vb. doğal afetlerin yanı sıra topl...","Deprem, sel vb. doğal afetlerin yanı sıra topl...","Deprem, sel vb. doğal afetlerin yanı sıra topl...","deprem , sel vb. doğal afetlerin yanı sıra top...",tr,"deprem , sel vb. doğal afetlerin yanı sıra top...",deprem sel vb doğal afetlerin yanı sıra top...,deprem sel vb doğal afetlerin yanı sıra toplum...,deprem sel vb doğal afetlerin yanı sıra toplum...,deprem sel vb doğal afetlerin yanı sıra toplum...,deprem sel vb doğal afetlerin yanı sıra toplum...,deprem sel vb doğal afetlerin yanı sıra toplum...,deprem sel doğal afetlerin yanı sıra toplumsal...,deprem sel doğal afetlerin yanı sıra toplumsal...,deprem sel doğal afet yan sıra toplumsal olay ...
157,2020-10-23 21:50:44+03:00,@ibbhaberleri Osuruktan teyyare anketi yapıyor...,Osuruktan teyyare anketi yapıyor troll hesap...,Osuruktan teyyare anketi yapıyor troll hesap...,Osuruktan teyyare anketi yapıyor troll hesap...,osuruktan teyyare anketi yapıyor troll hesap ....,tr,osuruktan teyyare anketi yapıyor troll hesap ....,osuruktan teyyare anketi yapıyor troll hesap ...,osuruktan teyyare anketi yapıyor troll hesap s...,osuruktan teyyare anketi yapıyor troll hesap s...,osuruktan teyyare anketi yapıyor troll hesap s...,osuruktan teyyare anketi yapıyor troll hesap s...,osuruktan teyyare anketi yapıyor troll hesap s...,osuruktan teyyare anketi yapıyor troll hesap s...,osuruktan teyyare anketi yapıyor troll hesap s...,osuruk te anket yapı trol hesap sonra başkan ö...
277,2020-10-24 01:27:00+03:00,@bikapiacildi Bilimsel bir gerçek sadece. Oras...,Bilimsel bir gerçek sadece. Orası 1513'ten b...,Bilimsel bir gerçek sadece. Orası 1513'ten b...,Bilimsel bir gerçek sadece. Orası 1513'ten b...,bilimsel bir gerçek sadece . orası 1513'ten be...,tr,bilimsel bir gerçek sadece . orası 1513'ten be...,bilimsel bir gerçek sadece orası 1513 ten be...,bilimsel bir gerçek sadece orası 1513 ten beri...,bilimsel bir gerçek sadece orası ten beri büy...,bilimsel bir gerçek sadece orası ten beri büy...,bilimsel bir gerçek sadece orası ten beri büy...,bilimsel bir gerçek sadece orası ten beri büy...,bilimsel bir gerçek sadece orası ten beri büyü...,bilimsel gerçek sadece orası ten beri büyük de...,bilimsel gerçek sadece orası ten beri büyük de...
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1508588,2021-09-30 11:33:35+03:00,İLAVE OLARAK\nsiyasal islam\ntarikatlar\ndin e...,İLAVE OLARAK\nsiyasal islam\ntarikatlar\ndin e...,İLAVE OLARAK\nsiyasal islam\ntarikatlar\ndin e...,İLAVE OLARAK\nsiyasal islam\ntarikatlar\ndin e...,ilave olarak siyasal islam tarikatlar din eğit...,tr,ilave olarak siyasal islam tarikatlar din eğit...,ilave olarak siyasal islam tarikatlar din eğit...,ilave olarak siyasal islam tarikatlar din eğit...,ilave olarak siyasal islam tarikatlar din eğit...,ilave olarak siyasal islam tarikatlar din eğit...,ilave olarak siyasal islam tarikatlar din eğit...,ilave olarak siyasal islam tarikatlar din eğit...,ilave olarak siyasal islam tarikatlar din eğit...,ilave olarak siyasal islam tarikatlar din eğit...,ilave ol siyasal islam tarikat din eğitim yurt...
1508599,2021-09-30 11:45:21+03:00,#Deprem ve acil durumlarda iletişimin kesilmem...,#Deprem ve acil durumlarda iletişimin kesilmem...,#Deprem ve acil durumlarda iletişimin kesilmem...,#Deprem ve acil durumlarda iletişimin kesilmem...,#deprem ve acil durumlarda iletişimin kesilmem...,tr,ve acil durumlarda iletişimin kesilmemesi iç...,ve acil durumlarda iletişimin kesilmemesi iç...,ve acil durumlarda iletişimin kesilmemesi içi...,ve acil durumlarda iletişimin kesilmemesi içi...,ve acil durumlarda iletişimin kesilmemesi içi...,ve acil durumlarda iletişimin kesilmemesi içi...,ve acil durumlarda iletişimin kesilmemesi içi...,acil durumlarda iletişimin kesilmemesi için in...,acil durumlarda iletişimin kesilmemesi interne...,acil durum iletişim kes internet taban haberle...
1508670,2021-09-30 13:39:16+03:00,@ynrzl @ekin_ozsoy İstanbulun en önemli sorunu...,İstanbulun en önemli sorunu deprem sonra t...,İstanbulun en önemli sorunu deprem sonra t...,İstanbulun en önemli sorunu deprem sonra t...,istanbulun en önemli sorunu deprem sonra trafi...,tr,istanbulun en önemli sorunu deprem sonra trafi...,istanbulun en önemli sorunu deprem sonra trafi...,istanbulun en önemli sorunu deprem sonra trafi...,istanbulun en önemli sorunu deprem sonra trafi...,istanbulun en önemli sorunu deprem sonra trafi...,istanbulun en önemli sorunu deprem sonra trafi...,istanbulun en önemli sorunu deprem sonra trafi...,istanbulun önemli sorunu deprem sonra trafik i...,istanbulun önemli sorunu deprem sonra trafik i...,istanbul önemli sorun deprem sonra trafik iki ...
1509182,2021-09-30 22:42:51+03:00,Bu hayatin ucaklarin acil cikis kapisinda otur...,Bu hayatin ucaklarin acil cikis kapisinda otur...,Bu hayatin ucaklarin acil cikis kapisinda otur...,Bu hayatin ucaklarin acil cikis kapisinda otur...,bu hayatın uçakların acil çıkış kapısında otur...,tr,bu hayatın uçakların acil çıkış kapısında otur...,bu hayatın uçakların acil çıkış kapısında otur...,bu hayatın uçakların acil çıkış kapısında otur...,bu hayatın uçakların acil çıkış kapısında otur...,bu hayatın uçakların acil çıkış kapısında otur...,bu hayatın uçakların acil çıkış kapısında otur...,bu hayatın uçakların acil çıkış kapısında otur...,hayatın uçakların acil çıkış kapısında oturan ...,hayatın uçakların acil çıkış kapısında oturan ...,hayat uçak acil çıkış kapı otur deprem yangın ...


# Lemmatize

In [20]:

import re
import json
import pickle
import sys
import nltk

def check(root, suffix, guess, action):
    if action == "unsuz yumusamasi":
        return len(suffix)>0 and suffix[0] in ["a","e","ı","i","o","ö","u","ü"] and checkSuffixValidation(suffix)[0]
    if action == "unlu daralmasi":
        if guess=="demek" and checkSuffixValidation(suffix)[0]:
            return True
        if guess=="yemek" and checkSuffixValidation(suffix)[0]:
            return True
        
        if suffix.startswith("yor"):
            lastVowel = ""
            for letter in reversed(guess[:-3]):
                if letter in ["a","e","ı","i","o","ö","u","ü"]:
                    lastVowel = letter
                    break
            if lastVowel in ["a","e"] and checkSuffixValidation(suffix)[0]:
                return True
        return False
    if action == "fiil" or action == "olumsuzluk eki":
        return checkSuffixValidation(suffix)[0] and not ((root.endswith("la") or (root.endswith("le"))) and suffix.startswith("r"))
    if action == "unlu dusmesi":
        count = 0
        for letter in guess:
            if letter in ["a","e","ı","i","o","ö","u","ü"]:
                count+=1
                lastVowel = letter
        if checkSuffixValidation(suffix)[0] and count==2 and (lastVowel in ["ı","i","u","ü"]) and (len(suffix)>0 and suffix[0] in ["a","e","ı","i","o","ö","u","ü"]):
            if lastVowel == "ı":
                return suffix[0] in ["a","ı"]
            elif lastVowel == "i":
                return suffix[0] in ["e","i"]
            elif lastVowel == "u":
                return suffix[0] in ["a","u"]
            elif lastVowel == "ü":
                return suffix[0] in ["e","ü"]
        return False
    return True

def findPos(kelime,revisedDict):
    l = []
    if "'" in kelime:
        l.append([kelime[:kelime.index("'")]+"_1","tirnaksiz",kelime])
    mid = []
    for i in range(len(kelime)):
        guess = kelime[:len(kelime)-i]
        suffix = kelime[len(kelime)-i:]
        ct = 1
            
        while guess+"_"+str(ct) in revisedDict:
            if check(guess, suffix, revisedDict[guess+"_"+str(ct)][1], revisedDict[guess+"_"+str(ct)][0]):
                guessList = (revisedDict[guess+"_"+str(ct)])
                while guessList[0] not in ["kok","fiil","olumsuzluk"]:
                    guessList = revisedDict[guessList[1]]
                mid.append([guessList[1], revisedDict[guess+"_"+str(ct)][0],guess+"_"+str(ct)])
            ct = ct+1
            
    temp = []
    for kel in mid:
        kelime_kok = kel[0][:kel[0].index("_")]
        kelime_len = len(kelime_kok)
        if kelime_kok.endswith("mak") or kelime_kok.endswith("mek"):
            kelime_len -= 3
        not_inserted = True
        for index in range(len(temp)):
            temp_kelime = temp[index]
            temp_kelime_kok = temp_kelime[0][:temp_kelime[0].index("_")]
            temp_len = len(temp_kelime_kok)
            if temp_kelime_kok.endswith("mak") or temp_kelime_kok.endswith("mek"):
                temp_len -= 3
            if(kelime_len>temp_len):
                temp.insert(index,kel)
                not_inserted = False
        if not_inserted:
            temp.append(kel)
    output = l+temp
    if len(output)==0:
        output.append([kelime+"_1","çaresiz",kelime+"_1",])
    return output

def checkSuffixValidation(suff):
    suffixList = ["","a", "abil", "acağ", "acak", "alım", "ama", "an", "ar", "arak", "asın", "asınız", "ayım", "da", "dan", "de", "den", "dı", "dığ", "dık", "dıkça", "dır", "di", "diğ", "dik", "dikçe", "dir", "du", "duğ", "duk", "dukça", "dur", "dü", "düğ", "dük", "dükçe", "dür", "e", "ebil", "eceğ", "ecek", "elim", "eme", "en", "er", "erek", "esin", "esiniz", "eyim", "ı", "ıl", "ım", "ımız", "ın", "ınca", "ınız", "ıp", "ır", "ıyor", "ız", "i", "il", "im", "imiz", "in", "ince", "iniz", "ip", "ir", "iyor", "iz", "k", "ken", "la", "lar", "ları", "ların", "le", "ler", "leri", "lerin", "m", "ma", "madan", "mak", "maksızın", "makta", "maktansa", "malı", "maz", "me", "meden", "mek", "meksizin", "mekte", "mektense", "meli", "mez", "mı", "mış", "mız", "mi", "miş", "miz", "mu", "muş", "mü", "muz", "müş", "müz", "n", "nın", "nız", "nin", "niz", "nun", "nuz", "nün", "nüz", "r", "sa", "se", "sı", "sın", "sınız", "sınlar", "si", "sin", "siniz", "sinler", "su", "sun", "sunlar", "sunuz", "sü", "sün", "sünler", "sünüz", "ta", "tan", "te", "ten", "tı", "tığ", "tık", "tıkça", "tır", "ti", "tiğ", "tik", "tikçe", "tir", "tu", "tuğ", "tuk", "tukça", "tur", "tü", "tüğ", "tük", "tükçe", "tür", "u", "ul", "um", "umuz", "un", "unca", "unuz", "up", "ur", "uyor", "uz", "ü", "ül", "ün", "üm", "ümüz", "ünce", "ünüz", "üp", "ür", "üyor", "üz", "ya", "yabil", "yacağ", "yacak", "yalım", "yama", "yan", "yarak", "yasın", "yasınız", "yayım", "ydı", "ydi", "ydu", "ydü", "ye", "yebil", "yeceğ", "yecek", "yelim", "yeme", "yen", "yerek", "yesin", "yesiniz", "yeyim", "yı", "yım", "yın", "yınca", "yınız", "yıp", "yız", "yi", "yim", "yin", "yince", "yiniz", "yip", "yiz", "yken", "yla", "yle", "ymış", "ymiş", "ymuş", "ymüş", "yor", "ysa", "yse", "yu", "yum", "yun", "yunca", "yunuz", "yup", "yü", "yuz", "yüm", "yün", "yünce", "yünüz", "yüp", "yüz"]
    validList = []
    if suff in suffixList:
        validList.append(suff)
    for ind in range(1,len(suff)):
        if(suff[:ind] in suffixList):
            cont, contList = checkSuffixValidation(suff[ind:])
            if cont:
                contList = [suff[:ind]+"+"+l for l in contList]
                validList = validList+contList
    return len(validList)>0,validList

try:
    with open('zemberek/revisedDict.pkl', 'rb') as f:
        revisedDict = pickle.load(f)
except IOError:
    print("Please run trainLexicon.py to generate revisedDict.pkl file")

def lemma(text):
    words = nltk.word_tokenize(text)
    roots = []
    for word in words:
        #print("Possible lemmas for",word,"in ranked order:")
        root = findPos(word, revisedDict)[0][0][:-2]
        #print(root)
        roots.append(root)
    return ' '.join(roots)

tweets_df['processed14'] = tweets_df['processed13'].apply(lemma)
tweets_df['processed14'].to_csv('processed14stemmed.csv', header=False, index=False)
tweets_df

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  tweets_df['processed14'] = tweets_df['processed13'].apply(lemma)


Unnamed: 0,Datetime,Text,processed1,processed2,processed3,processed4,languages,processed5,processed6,processed7,processed8,processed9,processed10,processed11,processed12,processed13,processed14
17,2020-10-23 17:50:59+03:00,"@baskanzorluoglu Başkanım, olası bir deprem iç...","Başkanım, olası bir deprem için trabzonda ac...","Başkanım, olası bir deprem için trabzonda ac...","Başkanım, olası bir deprem için trabzonda ac...","başkanım , olası bir deprem için trabzonda aci...",tr,"başkanım , olası bir deprem için trabzonda aci...",başkanım olası bir deprem için trabzonda aci...,başkanım olası bir deprem için trabzonda acil ...,başkanım olası bir deprem için trabzonda acil ...,başkanım olası bir deprem için trabzonda acil ...,başkanım olası bir deprem için trabzonda acil ...,başkanım olası bir deprem için trabzonda acil ...,başkanım olası bir deprem için trabzonda acil ...,başkanım olası deprem trabzonda acil toplanma ...,başkan olası deprem trabzon acil topla alan ne...
68,2020-10-23 19:39:06+03:00,"Değerli arkadaşlar, nasıl ki ağır bir deprem b...","Değerli arkadaşlar, nasıl ki ağır bir deprem b...","Değerli arkadaşlar, nasıl ki ağır bir deprem b...","Değerli arkadaşlar, nasıl ki ağır bir deprem b...","değerli arkadaşlar , nasıl ki ağır bir deprem ...",tr,"değerli arkadaşlar , nasıl ki ağır bir deprem ...",değerli arkadaşlar nasıl ki ağır bir deprem ...,değerli arkadaşlar nasıl ki ağır bir deprem be...,değerli arkadaşlar nasıl ki ağır bir deprem be...,değerli arkadaşlar nasıl ki ağır bir deprem be...,değerli arkadaşlar nasıl ki ağır bir deprem be...,değerli arkadaşlar nasıl ki ağır bir deprem be...,değerli arkadaşlar nasıl ağır bir deprem bekle...,değerli arkadaşlar ağır deprem beklentisi içer...,değer arkadaş ağır deprem beklenti içeri ol şe...
97,2020-10-23 20:20:29+03:00,"Deprem, sel vb. doğal afetlerin yanı sıra topl...","Deprem, sel vb. doğal afetlerin yanı sıra topl...","Deprem, sel vb. doğal afetlerin yanı sıra topl...","Deprem, sel vb. doğal afetlerin yanı sıra topl...","deprem , sel vb. doğal afetlerin yanı sıra top...",tr,"deprem , sel vb. doğal afetlerin yanı sıra top...",deprem sel vb doğal afetlerin yanı sıra top...,deprem sel vb doğal afetlerin yanı sıra toplum...,deprem sel vb doğal afetlerin yanı sıra toplum...,deprem sel vb doğal afetlerin yanı sıra toplum...,deprem sel vb doğal afetlerin yanı sıra toplum...,deprem sel vb doğal afetlerin yanı sıra toplum...,deprem sel doğal afetlerin yanı sıra toplumsal...,deprem sel doğal afetlerin yanı sıra toplumsal...,deprem sel doğal afet yan sıra toplumsal olay ...
157,2020-10-23 21:50:44+03:00,@ibbhaberleri Osuruktan teyyare anketi yapıyor...,Osuruktan teyyare anketi yapıyor troll hesap...,Osuruktan teyyare anketi yapıyor troll hesap...,Osuruktan teyyare anketi yapıyor troll hesap...,osuruktan teyyare anketi yapıyor troll hesap ....,tr,osuruktan teyyare anketi yapıyor troll hesap ....,osuruktan teyyare anketi yapıyor troll hesap ...,osuruktan teyyare anketi yapıyor troll hesap s...,osuruktan teyyare anketi yapıyor troll hesap s...,osuruktan teyyare anketi yapıyor troll hesap s...,osuruktan teyyare anketi yapıyor troll hesap s...,osuruktan teyyare anketi yapıyor troll hesap s...,osuruktan teyyare anketi yapıyor troll hesap s...,osuruktan teyyare anketi yapıyor troll hesap s...,osuruk te anket yapı trol hesap sonra başkan ö...
277,2020-10-24 01:27:00+03:00,@bikapiacildi Bilimsel bir gerçek sadece. Oras...,Bilimsel bir gerçek sadece. Orası 1513'ten b...,Bilimsel bir gerçek sadece. Orası 1513'ten b...,Bilimsel bir gerçek sadece. Orası 1513'ten b...,bilimsel bir gerçek sadece . orası 1513'ten be...,tr,bilimsel bir gerçek sadece . orası 1513'ten be...,bilimsel bir gerçek sadece orası 1513 ten be...,bilimsel bir gerçek sadece orası 1513 ten beri...,bilimsel bir gerçek sadece orası ten beri büy...,bilimsel bir gerçek sadece orası ten beri büy...,bilimsel bir gerçek sadece orası ten beri büy...,bilimsel bir gerçek sadece orası ten beri büy...,bilimsel bir gerçek sadece orası ten beri büyü...,bilimsel gerçek sadece orası ten beri büyük de...,bilimsel gerçek sadece orası ten beri büyük de...
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1508588,2021-09-30 11:33:35+03:00,İLAVE OLARAK\nsiyasal islam\ntarikatlar\ndin e...,İLAVE OLARAK\nsiyasal islam\ntarikatlar\ndin e...,İLAVE OLARAK\nsiyasal islam\ntarikatlar\ndin e...,İLAVE OLARAK\nsiyasal islam\ntarikatlar\ndin e...,ilave olarak siyasal islam tarikatlar din eğit...,tr,ilave olarak siyasal islam tarikatlar din eğit...,ilave olarak siyasal islam tarikatlar din eğit...,ilave olarak siyasal islam tarikatlar din eğit...,ilave olarak siyasal islam tarikatlar din eğit...,ilave olarak siyasal islam tarikatlar din eğit...,ilave olarak siyasal islam tarikatlar din eğit...,ilave olarak siyasal islam tarikatlar din eğit...,ilave olarak siyasal islam tarikatlar din eğit...,ilave olarak siyasal islam tarikatlar din eğit...,ilave ol siyasal islam tarikat din eğitim yurt...
1508599,2021-09-30 11:45:21+03:00,#Deprem ve acil durumlarda iletişimin kesilmem...,#Deprem ve acil durumlarda iletişimin kesilmem...,#Deprem ve acil durumlarda iletişimin kesilmem...,#Deprem ve acil durumlarda iletişimin kesilmem...,#deprem ve acil durumlarda iletişimin kesilmem...,tr,ve acil durumlarda iletişimin kesilmemesi iç...,ve acil durumlarda iletişimin kesilmemesi iç...,ve acil durumlarda iletişimin kesilmemesi içi...,ve acil durumlarda iletişimin kesilmemesi içi...,ve acil durumlarda iletişimin kesilmemesi içi...,ve acil durumlarda iletişimin kesilmemesi içi...,ve acil durumlarda iletişimin kesilmemesi içi...,acil durumlarda iletişimin kesilmemesi için in...,acil durumlarda iletişimin kesilmemesi interne...,acil durum iletişim kes internet taban haberle...
1508670,2021-09-30 13:39:16+03:00,@ynrzl @ekin_ozsoy İstanbulun en önemli sorunu...,İstanbulun en önemli sorunu deprem sonra t...,İstanbulun en önemli sorunu deprem sonra t...,İstanbulun en önemli sorunu deprem sonra t...,istanbulun en önemli sorunu deprem sonra trafi...,tr,istanbulun en önemli sorunu deprem sonra trafi...,istanbulun en önemli sorunu deprem sonra trafi...,istanbulun en önemli sorunu deprem sonra trafi...,istanbulun en önemli sorunu deprem sonra trafi...,istanbulun en önemli sorunu deprem sonra trafi...,istanbulun en önemli sorunu deprem sonra trafi...,istanbulun en önemli sorunu deprem sonra trafi...,istanbulun önemli sorunu deprem sonra trafik i...,istanbulun önemli sorunu deprem sonra trafik i...,istanbul önemli sorun deprem sonra trafik iki ...
1509182,2021-09-30 22:42:51+03:00,Bu hayatin ucaklarin acil cikis kapisinda otur...,Bu hayatin ucaklarin acil cikis kapisinda otur...,Bu hayatin ucaklarin acil cikis kapisinda otur...,Bu hayatin ucaklarin acil cikis kapisinda otur...,bu hayatın uçakların acil çıkış kapısında otur...,tr,bu hayatın uçakların acil çıkış kapısında otur...,bu hayatın uçakların acil çıkış kapısında otur...,bu hayatın uçakların acil çıkış kapısında otur...,bu hayatın uçakların acil çıkış kapısında otur...,bu hayatın uçakların acil çıkış kapısında otur...,bu hayatın uçakların acil çıkış kapısında otur...,bu hayatın uçakların acil çıkış kapısında otur...,hayatın uçakların acil çıkış kapısında oturan ...,hayatın uçakların acil çıkış kapısında oturan ...,hayat uçak acil çıkış kapı otur deprem yangın ...
