# Metin Madenciliği

<p style="text-align:justify"><b>Metin madenciliği</b>, veri ön işleme sürecinde gerçekleştirilen işlemlerdir. Öncelikle büyük ölçekteki veriler arasında faydalı bilgiye ulaşma işlemi olan veri madenciliği yapılır.
Daha sonra veri seti üzerinde yapılan veri ön işleme işlemleri gerçekleştirilir.
<b>Metinsel veri analizi</b>; bilgi çıkarımı, kümeleme, kategorizasyon, veritabanı teknolojisi, makine öğrenimi ve veri madenciliği gibi disiplinler arası bir alandır.</p>


**StringAnalyzer** sınıfı metin madenciliği için oluşturulmuştur. Bu sınıf dört adet parametre almaktadır. Bunlar `data`, `columns`, `sentence` ve `values` değerleridir.
* `data`: DataFrame'i ifade etmektedir. Hangi **DataFrame** üzerinde işlem yapılacağını belirtmektedir.
* `columns`: DataFrame'e ait **sütunu** ifade etmektedir. Tek bir değer almaktadır ve hangi sütun üzerinde işlem yapılacığı belirtilir.
* `sentence`: Metinleri ifade etmektedir. Hangi **metin** üzerinde işlem yapılacağını bu değişkene atayarak belirtilir.
* `values`: **Values** metin içerisinde silinmesini istediğiniz değerleri alır. Bu değerler bir **liste** içerisinde bulunmalıdır.

In [1]:
import pandas as pd
from mergen import StringAnalyzer

In [2]:
metin = """Dünya, Güneş Sistemi'nin üçüncü gezegenidir. Güneş'e olan uzaklığı yaklaşık olarak 150 milyon kilometredir. 
Dünya'nın yüzeyinde suyun sıvı hâlinde bulunması, gezegenimizi özel kılan en önemli özelliklerden biridir.

#dünya #gezegen #güneşsistemi

Dünya'nın atmosferi, özellikle canlıların yaşamını sürdürebilmeleri için hayati önem taşır. Atmosfer, gezegenimizi 
güneş ışınlarından korur ve gerekli sıcaklık aralığını sağlar. Ayrıca atmosferdeki gazlar, gezegenimizi yeşil renkli 
bir gök cisimine dönüştürür. Gökyüzü gündüzleri mavi renkte görünmektedir. Ayrıca bulutları ise beyaz renktedir. 

Ses hızı, sıcaklık, basınç ve nem gibi faktörlere bağlı olarak değişebilir. 
Ancak normal şartlar altında deniz seviyesinde 20°C sıcaklıkta ses hızı yaklaşık 343 metre/saniye olarak kabul edilir.

http://www.dunya.com/ 

Dünya'da yaşayan canlıların sayısı yaklaşık olarak 8 milyar. Bu canlıların çoğu insanlardır. İnsanlar, gezegenimizin 
en gelişmiş canlıları arasındadır ve birçok farklı kültüre sahiptirler.

Bir e-posta örneği: info@dunya.com
"""
metin

"Dünya, Güneş Sistemi'nin üçüncü gezegenidir. Güneş'e olan uzaklığı yaklaşık olarak 150 milyon kilometredir. \nDünya'nın yüzeyinde suyun sıvı hâlinde bulunması, gezegenimizi özel kılan en önemli özelliklerden biridir.\n\n#dünya #gezegen #güneşsistemi\n\nDünya'nın atmosferi, özellikle canlıların yaşamını sürdürebilmeleri için hayati önem taşır. Atmosfer, gezegenimizi \ngüneş ışınlarından korur ve gerekli sıcaklık aralığını sağlar. Ayrıca atmosferdeki gazlar, gezegenimizi yeşil renkli \nbir gök cisimine dönüştürür. Gökyüzü gündüzleri mavi renkte görünmektedir. Ayrıca bulutları ise beyaz renktedir. \n\nSes hızı, sıcaklık, basınç ve nem gibi faktörlere bağlı olarak değişebilir. \nAncak normal şartlar altında deniz seviyesinde 20°C sıcaklıkta ses hızı yaklaşık 343 metre/saniye olarak kabul edilir.\n\nhttp://www.dunya.com/ \n\nDünya'da yaşayan canlıların sayısı yaklaşık olarak 8 milyar. Bu canlıların çoğu insanlardır. İnsanlar, gezegenimizin \nen gelişmiş canlıları arasındadır ve birçok fark

In [3]:
values = ['yeşil','mavi', 'beyaz', 'web']
values

['yeşil', 'mavi', 'beyaz', 'web']

Şu ana kadar sınıfımızı içe aktardık ve elimizde bulunan metni `metin` adlı değişkene atadık. Aynı zamanda metin içerisinde silinmesini istediğimiz değerleri `values` adlı değişkene atadık. Bir sonraki satırda `StringAnalyzer` sınıfından nesne oluşturduk.

In [4]:
string_analyzer = StringAnalyzer(sentence = metin, values=values)

`StringAnalyzer` sınıfını değerlerinide girerek `string_analyzer` adlı bir değişkene atadık. Bu sınıfa ait farklı metotlar mevcuttur. Biz ilk olarak `sentence_analyze()` metodunu kullandık. Bu metot sırasıyla `küçük harfe çevirme`, `https verilerini silme`, `email verilerini silme`, `hashtags verilerini silme`, `sayıları silme`, `stop words  verilerini silme`, `values verilerini silme`, `fazla boşlukların silinmesi` işlemlerini gerçekleştirmektedir.

In [5]:
temizlenmis_metin = string_analyzer.sentence_analyze()
temizlenmis_metin

'dünya güneş sisteminin üçüncü gezegenidir güneşe uzaklığı yaklaşık kilometredir dünyanın yüzeyinde suyun sıvı hâlinde bulunması gezegenimizi özel kılan önemli özelliklerden biridir dünyanın atmosferi özellikle canlıların yaşamını sürdürebilmeleri hayati önem taşır atmosfer gezegenimizi güneş ışınlarından korur gerekli sıcaklık aralığını sağlar atmosferdeki gazlar gezegenimizi renkli gök cisimine dönüştürür gökyüzü gündüzleri renkte görünmektedir bulutları renktedir ses hızı sıcaklık basınç nem faktörlere bağlı değişebilir normal şartlar altında deniz seviyesinde °c sıcaklıkta ses hızı yaklaşık metresaniye kabul edilir dünyada yaşayan canlıların sayısı yaklaşık canlıların insanlardır i̇nsanlar gezegenimizin gelişmiş canlıları arasındadır farklı kültüre sahiptirler eposta örneği'

In [6]:
yeni_metin = "BU ÖRNEK BİR CÜMLEDİR. #örnek #cümle info@gmail.com https://www.google.com !'^+%&/()=?-_{} kırmızı mavi yeşil 10 Mart 2023"
yeni_metin

"BU ÖRNEK BİR CÜMLEDİR. #örnek #cümle info@gmail.com https://www.google.com !'^+%&/()=?-_{} kırmızı mavi yeşil 10 Mart 2023"

In [7]:
string_analyzer = StringAnalyzer()

#### Küçük Harfe Çevirme: to_lowercase()
* `to_lowercase()` metodu üç farklı parametre almaktadır. Bunlar `data`, `columns` ve `sentence`'dir. Bundan sonrada **StringAnalyzer** sınıfına ait diğer metotlarda bu parametreleride almaktadır. Tek istisnası `this()` metodudur. Oraya geldiğimizde nedeni açıklanacaktır. `to_lowercase()` metodu ve diğer metotların bu parametrelerinin almasının sebebi bu sınıfı kullanacak insanların bazı verilerinin silinmesini istemeyebilir ya da sadece tek bir değişken üzerinde işlem yapmak isteyebilecekleri içindir. Bu metot metin içerisinde bulunan harfleri veya kelimeleri **küçük harfe çevirme işlemi** gerçekleştirmektedir.

In [8]:
yeni_metin = string_analyzer.to_lowercase(sentence=yeni_metin)
yeni_metin

"bu örnek bi̇r cümledi̇r. #örnek #cümle info@gmail.com https://www.google.com !'^+%&/()=?-_{} kırmızı mavi yeşil 10 mart 2023"

#### Https Verilerinin Silinmesi: https()
* Bu metot metin içerisinde bulunan **https** verilerini silmektedir.

In [9]:
yeni_metin = string_analyzer.https(sentence=yeni_metin)
yeni_metin

"bu örnek bi̇r cümledi̇r. #örnek #cümle info@gmail.com  !'^+%&/()=?-_{} kırmızı mavi yeşil 10 mart 2023"

#### Email Verilerinin Silinmesi: email()
* Bu metot metin içerisinde bulunan **email** verilerini silmektedir.

In [10]:
yeni_metin = string_analyzer.email(sentence=yeni_metin)
yeni_metin

"bu örnek bi̇r cümledi̇r. #örnek #cümle !'^+%&/()=?-_{} kırmızı mavi yeşil 10 mart 2023"

#### Hashtag Verilerinin Silinmesi: hashtag()
* Bu metot metin içerisinde bulunan **hashtag** verilerini silmektedir.

In [11]:
yeni_metin = string_analyzer.hashtags(sentence=yeni_metin)
yeni_metin

"bu örnek bi̇r cümledi̇r.   !'^+%&/()=?-_{} kırmızı mavi yeşil 10 mart 2023"

#### Sayıların Silinmesi: number()
* Bu metot metin içerisinde bulunan **sayıları** silmektedir.

In [12]:
yeni_metin = string_analyzer.number(sentence=yeni_metin)
yeni_metin

"bu örnek bi̇r cümledi̇r.   !'^+%&/()=?-_{} kırmızı mavi yeşil  mart "

#### Moktalama İşaretlerinin Silinmesi: punctuation()
* Bu metot metin içerisinde bulunan **noktalama işaretlerini** silmektedir.

In [13]:
yeni_metin = string_analyzer.punctuation(sentence=yeni_metin)
yeni_metin

'bu örnek bi̇r cümledi̇r    kırmızı mavi yeşil  mart '

#### Stop Wordslerin Silinmesi: number()
* Bu metot metin içerisinde bulunan **stop wordsleri** silmektedir.

In [14]:
yeni_metin = string_analyzer.stop_word(sentence=yeni_metin)
yeni_metin

'örnek bi̇r cümledi̇r kırmızı mavi yeşil mart'

#### İstediğiniz Elemanların Silinmesi: this()
* Bu metot metin içerisinde bulunan **istediğiniz elemanları** silmektedir.

In [15]:
yeni_metin = string_analyzer.this(sentence=yeni_metin,values=values)
yeni_metin

'örnek bi̇r cümledi̇r kırmızı mart'

#### Fazla Boşlukların Silinmesi: more_space()
* Bu metot metin içerisinde bulunan **fazla boşlukları** silmektedir.

In [16]:
yeni_metin = string_analyzer.more_space(sentence=yeni_metin)
yeni_metin

'örnek bi̇r cümledi̇r kırmızı mart'

## DataFrame Yapısında Metin Madenciliği

In [17]:
data_sozluk = {'Metin':["BU ÖRNEK BİR CÜMLEDİR. #örnek #cümle info@gmail.com https://www.google.com !'^+%&/()=?-_{} kırmızı mavi yeşil 10 Mart 2023"],
               'Kategori':['Nötr Cümle']}
data = pd.DataFrame(data=data_sozluk)
data

Unnamed: 0,Metin,Kategori
0,BU ÖRNEK BİR CÜMLEDİR. #örnek #cümle info@gmai...,Nötr Cümle


In [18]:
string_analyzer_data = StringAnalyzer(data=data, columns='Metin',values=values)

In [19]:
string_analyzer_data.dataframe_analyze()

Unnamed: 0,Metin,Kategori
0,örnek bi̇r cümledi̇r kırmızı mart,Nötr Cümle


In [20]:
data_sozluk = {'Metin':["BU ÖRNEK BİR CÜMLEDİR. #örnek #cümle info@gmail.com https://www.google.com !'^+%&/()=?-_{} kırmızı mavi yeşil 10 Mart 2023"],
               'Kategori':['Nötr Cümle']}
yeni_data = pd.DataFrame(data=data_sozluk)
yeni_data

Unnamed: 0,Metin,Kategori
0,BU ÖRNEK BİR CÜMLEDİR. #örnek #cümle info@gmai...,Nötr Cümle


In [21]:
string_analyzer_data = StringAnalyzer()

In [22]:
string_analyzer_data.to_lowercase(data=yeni_data, columns='Metin')

Unnamed: 0,Metin,Kategori
0,bu örnek bi̇r cümledi̇r. #örnek #cümle info@gm...,Nötr Cümle


In [23]:
string_analyzer_data.https(data=yeni_data, columns='Metin')

Unnamed: 0,Metin,Kategori
0,bu örnek bi̇r cümledi̇r. #örnek #cümle info@gm...,Nötr Cümle


In [24]:
string_analyzer_data.email(data=yeni_data, columns='Metin')

Unnamed: 0,Metin,Kategori
0,bu örnek bi̇r cümledi̇r. #örnek #cümle !'^+%&/...,Nötr Cümle


In [25]:
string_analyzer_data.hashtags(data=yeni_data, columns='Metin')

Unnamed: 0,Metin,Kategori
0,bu örnek bi̇r cümledi̇r. !'^+%&/()=?-_{} kır...,Nötr Cümle


In [26]:
string_analyzer_data.number(data=yeni_data, columns='Metin')

Unnamed: 0,Metin,Kategori
0,bu örnek bi̇r cümledi̇r. !'^+%&/()=?-_{} kır...,Nötr Cümle


In [27]:
string_analyzer_data.punctuation(data=yeni_data, columns='Metin')

Unnamed: 0,Metin,Kategori
0,bu örnek bi̇r cümledi̇r kırmızı mavi yeşil ...,Nötr Cümle


In [28]:
string_analyzer_data.stop_word(data=yeni_data, columns='Metin')

Unnamed: 0,Metin,Kategori
0,örnek bi̇r cümledi̇r kırmızı mavi yeşil mart,Nötr Cümle


In [29]:
string_analyzer_data.this(data=yeni_data, columns='Metin', values=values)

Unnamed: 0,Metin,Kategori
0,örnek bi̇r cümledi̇r kırmızı mart,Nötr Cümle


In [30]:
string_analyzer_data.more_space(data=yeni_data, columns='Metin')

Unnamed: 0,Metin,Kategori
0,örnek bi̇r cümledi̇r kırmızı mart,Nötr Cümle
