Machine learning applications 3 Classification

Bu örnekte MINS (lise öğrencilerinin el yazılarıyla yazdıkları rakamlar)(70000 veri) veri kümesini kullanarak bir sınıflandırma işlemi gerçekleştireceğiz.

Kodu incelemeden önce aşağıdaki bilgileri okuyunuz(Bilgi amaçlı).

Performans ölçüsü (çapraz doğrulama)

SGDC = bu sınıf, çok büyük veri setlerini verimli bir şekilde idare edebilir. bu kısmendir çünkü: sgd eğitim örneklerini teker teker bağımsız olarak ele alır. (buda sgd'yi çevrim içi öğrenme için çok uygun hale getirir)

Eğitim ve Test verileri

Elimizde bulunan veri setini istediğimiz sayıda eşit parçalara ayırıyoruz. örnek: 5 eşit parçaya ayıralım, bu 5 parça içerisinden 4 tane eğitim verisi, 1 tanede test verisi olarak ayırıyoruz. Her seferinde farklı test kümesi alacak şekilde eğitim ve sınıflandırma işlemini 5 kere gerçekleştiriyoruz. Sonunda her fazda elde ettiğimiz doğruluk değerinin ortalamasını alıyoruz. Sonuç bize sınıflandırma algoritmamızın doğruluk oranını verecektir. Bu yöntem ile Eğitim ve Test verilerini parçalamış olduk.

Karmaşıklık Matrisi

Karmaşıklık matrisi tahminlerin doğruluğu hakkında bilgi veren bir ölçüm aracıdır. Arkasında yatan mantık aslında basit, ama ölçümün doğruluğu hakkında anlaşılması kolay bilgiler sağladığı için özellikle sınıflandırma algoritmalarında sıklıkla kullanılıyor.

F1 skoru

F 1 puan (aynı zamanda F-skor ya da F ölçü ) bir testin doğruluğunu bir ölçüsüdür. Hem gördüğü hassas p ve hatırlama r puanı hesaplamak için test: p sınıflandırıcı tarafından döndürülen tüm olumlu sonuçların sayısına bölünerek doğru pozitif sonuç sayısıdır ve r bölü doğru pozitif sonuç sayısıdır tüm ilgili örneklerin sayısı (pozitif olarak tanımlanması gereken tüm örnekler). F 1 skoru harmonik ortalamadırbir hassasiyet ve hatırlama bir F, 1 puanı en iyi 1 de değerini (mükemmel hassasiyet ve geri çağırma) ve 0 en kötü ulaşır.

ROC Eğrisi

ROC eğrisinde ise (grafik) tüm eşik değerlere göre elde edilen sensitivite y ekseninde, spesifite ise (aslen 1- spesifite olarak) x ekseninde noktalar halinde belirtilerek en sonunda birleştirilir ve ortaya ROC eğrisi çıkar. Analiz sonunda AUC olarak belirtilen değer ‘Eğri Altında Kalan Alanı (EAA)’ temsil eder ve 1’e yaklaştıkça tanı değeri yükselir. %100’lük tanı gücünde EAA 1’e eşit olur. EAA ve %95 güven aralığı belirlenir. 0.50 değeri (fark yoktur) güven aralığı dışında ise istatistiksel olarak anlamlı sonuç elde edilir. Pratik olarak eşik değer eğri üzerinde sol üst köşeye (0;1 koordinatlarına) en yakın olan noktadır.

K-En Yakın Komşu Algoritması (Knn)

k=x olarak aldık. Bu durumda en yakın x komşuya göre sınıflandırma yapılacaktır. Örnek veri setine katılacak olan yeni verinin, mevcut verilere göre uzaklığı tek tek hesaplanır. İlgili uzaklık fonksiyonları yardımıyla. İlgili uzaklılardan en yakın k komşu ele alınır. Öznitelik değerlerine göre k komşu veya komşuların sınıfına atanır. veri setlerini internet üzerinden alıp sınıflandırma yapmaktadır.

Name		Name	Last commit message	Last commit date
Latest commit History 14 Commits
README.md		README.md
applications-3.py		applications-3.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

README.md

README.md

applications-3.py

applications-3.py

Repository files navigation

Machine learning applications 3 Classification

Performans ölçüsü (çapraz doğrulama)

Eğitim ve Test verileri

Karmaşıklık Matrisi

F1 skoru

ROC Eğrisi

K-En Yakın Komşu Algoritması (Knn)

About

Releases

Packages

Languages

AhmetFurkanDEMIR/Machine-learning-applications-3-Classification

Folders and files

Latest commit

History

README.md

README.md

applications-3.py

applications-3.py

Repository files navigation

Machine learning applications 3 Classification

Performans ölçüsü (çapraz doğrulama)

Eğitim ve Test verileri

Karmaşıklık Matrisi

F1 skoru

ROC Eğrisi

K-En Yakın Komşu Algoritması (Knn)

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages